中国AI芯片玩家盘点,除了寒武纪/中星微还有谁?

2018-02-06 15:19:17来源:动点科技 热度:
据相关媒体报道 ,中国芯片 90% 依赖进口,过去十年累计耗资高达 1.8 万亿美元。即便按照较低的汇率折算,也已经远超 10 万亿元人民币。然而,这几年中国的创业者和投资者都逐渐开始关注 AI 芯片,有观点认为在这个新的芯片领域,中国可以说和世界已经在同一个起跑线上了。
 
 
那么,中国 AI 芯片中的玩家到底都有谁呢?我们今天就来盘点一下。
 
中星微
 
早在 2016 年, 中星微 便宣布他们的中国首款“星光智能一号”嵌入式 NPU 已经在当年 3 月 6 日实现了量产。
 
据介绍,“星光智能一号”VC0758 采用了“数据驱动”并行计算的架构,可以支持 Caffe、TensorFlow 等多种神经网络框架,支持 AlexNet、GoogleNet 等各类神经网络。单颗 NPU(28nm) 能耗仅为 400 mW,极大地提升了计算能力与功耗的比例,可以广泛应用于智能驾驶辅助、无人机、机器人等嵌入式机器视觉领域。
 
不过,业内也有观点称这不是一个专为加速 Neural Network 而开发的处理器,该观点认为其内部集成了多个 DSP 核(其称为 NPU core),通过 SIMD 指令的调度来实现对 CNN、DNN 的支持,以这个逻辑,似乎很多芯片都可以叫 NPU。
 
地平线机器人
 
Horizon Robotics(地平线机器人)由前百度深度学习研究院负责人 余凯 创办,致力于打造基于深度神经网络的人工智能“大脑”平台-包括软件和芯片,可以做到低功耗、本地化的解决环境感知、人机交互、决策控制等问题。
 
2017 年底,该公司已经发布了 面向智能驾驶的征程 (Journey)1.0 处理器和面向智能摄像头的旭日 (Sunrise)1.0 处理器 。这是完全由地平线自主研发的人工智能芯片,采用地平线的第一代 BPU 架构——高斯框架,具有全球领先的性能: 可实时处理 1080p@30 视频,每帧中可同时对 200 个目标进行检测、跟踪、识别,典型功耗 1.5W,每帧延时小于 30ms。
 
寒武纪
 
2016 年,寒武纪科技于北京中关村和上海临港注册成立,这一年里,寒武纪科技面向产业界发布了商用深度学习处理器 IP 产品寒武纪 1A。为了让芯片处理速度变得更快,寒武纪还专门为 1A 设计了专门的存储结构,并设计了完全不同于通用 CPU 的指令集,在 1GHz 主频下理论峰值性能为每秒 5120 亿次半精度浮点运算,对稀疏化神经网络的等效理论峰值高达每秒 2 万亿次浮点运算。在若干关键人工智能应用上实测,寒武纪 1A 达到了传统的四核通用 CPU 25 倍以上的性能和 50 倍以上的能效。
 
2017 年,集成了寒武纪技术的华为 Kirin970 手机芯片和 Mate 10 手机 全球发布,实测结果表明寒武纪科技与华为的联合研发成果在图片识别速度上超越了搭载 A11 芯片的 iPhone X。
 
而去年底,寒武纪又公布了 3 款新一代 AI 处理器:面向低功耗场景视觉应用的寒武纪 1H8(能效比为 1A 的 2.3 倍);拥有更广泛通用性和更高性能的寒武纪 1H16 以及面向智能驾驶领域的寒武纪 1M。
 
另外,寒武纪还发布了面向云端的高性能智能处理器产品线:寒武纪高性能机器学习处理器芯片“寒武纪 MLU100”和“寒武纪 MLU200”,这两款芯片分别偏重推理和训练两个用途。
 
此外,寒武纪还表示其未来的芯片产品将全面支持多样化的机器学习应用,而不仅仅是常见的深度学习。
 
深鉴科技
 
深鉴科技成立于 2016 年,致力于成为国际先进的深度学习加速方案提供者。该公司号称具备世界顶尖的神经网络压缩、编译、体系结构与指令集结构设计、FPGA 开发和系统集成的完整开发能力。
 
目前,深鉴科技已经自主研发了亚里士多德架构的 DPU (Deep Learning Processor Unit) 。据了解,DPU 是面向深度学习 (DL) 应用的可编程通用计算平台,可以处理诸如图像和视频的分类 、分割、检测 、跟踪  等任务。DPU 定义和实现了一套用于映射深度神经网络 (DNN) 算法的高度优化可编程指令集,在实现高性能、高能效比目标的同时兼顾通用型和灵活性,不仅支持现有绝大部分流行的卷积神经网络 (AlexNet、VGG,、GoogLeNet、ResNet,Faster-RCNN, SSD, YOLO 等),同时具备高度可扩展性,在 DPU 指令集提供支持的基础上可以无缝运行其它用户自行扩展或衍生的神经网络。
 
目前,深鉴科技也已经推出了多款人工智能加速模块,2018 年还将推出首款 SoC 系列芯片——听涛 Tingtao。
 
西井科技
 
西井科技 成立于 2015 年 5 月,是一家开发“类脑神经元芯片+算法”的科技公司,致力构造一种完全跳脱于冯诺依曼结构的神经形态的芯片结构——即模拟人脑神经元工作原理而制造出的芯片,它既具备人脑的学习能力,又具备强大的特定运算能力,仅需一块邮票大小的芯片,就能模仿人类大脑在短时间内处理海量的感官信息。据称该芯片具有低功耗,高效率,无需联网等优势。
 
目前,西井科技已经推出了两款芯片:
 
可模拟 5000 万级别“神经元”的仿生类脑神经元芯片——deepsouth(深南),功耗为传统芯片在同一任务下的几十分之一到几百分之一。
 
拥有 12800 万个神经元,通过专属指令集调整芯片中神经元资源分配的深度学习类脑神经元芯片——deepwell(深井)。
 
云天励飞
 
云天励飞创始人陈宁曾是中兴通讯 IC 技术总监,带领过 400 多人的芯片研发团队。此外,他还是国家 ” 千人计划 ” 特聘专家,国侨办 ” 重点华侨创业团队 ” 带头人。2014 年 8 月,陈宁创立云天励飞,主打智能视频与图像识别。
 
该公司一大特色便是其设计开发了一款名叫 IPU (intelligent Processing Unit) 的芯片,专门面向深度学习的多层神经网络的计算并将它的运算效率提升到 100 倍以上,通过重新定义一套指令值,使它运行和计算深度神经网络可以更加高效。
 
有消息显示,该芯片将于今年出货。
 
Think Force
 
Think Force 成立于 2017 年,据介绍其团队核心成员主要来自 IBM,AMD,INTEL, ZTE 等业界龙头芯片企业,且都具备十年以上的专业芯片研发设计经历。该公司主要设计融合一流 AI 算法和先进制成工艺的智能芯片,并以此构建人工智能硬件平台,提供一站式行业应用解决方案。
 
据称,该芯片采用自主研发的微内核 ManyCore 架构,能完成 AI 云虚拟化调度在芯片级的实现,芯片虚拟化技术在需要弹性计算的场景中能够成倍提高芯片使用率。另外,结合自主研发的固件和相关 SDK 能够实现对于各类神经网络模型的计算加速,加速单元实际效率在 90% – 95% 之间,相对于 Nvidia 的主流计算卡能达到 5 倍以上的功耗和成本节省。
 
比特大陆
 
近年来比特币大火,而这也带来了挖矿行业的繁荣,而 比特大陆 便是在这次挖矿行业爆发中迅速崛起的企业,该公司凭借自己设计的比特币挖矿专用 ASIC 芯片,一举跃入 2017 年中国 IC 设计公司前五的行列。据称,目前全球 80% 甚至 90% 的矿机都由该公司提供。
 
而去年 11 月底比特大陆则发布了一款名叫 BM1680 的 TPU 张量加速计算芯片,正式进军 AI 芯片领域。据了解,该芯片可适用于 CNN、RNN 和 DNN 等多种神经网络的预测和训练,其加速核采用了改进型 Systolic 架构技术,与 Google TPU 体系架构类似。
 
数据处理方面,该芯片浮点运算能力峰值可达 2TFlops,而峰值功耗则为 41 瓦,平均功耗为 25 瓦。
 
启英泰伦
 
成都 启英泰伦 科技有限公司是一家专注于人工智能芯片设计及配套智能算法引擎开发的公司,它于 2016 年 9 月推出了专用的基于 ASIC 架构深度神经网络智能语音识别芯片 CI1006,并已实现了量产和出货。
 
CI1006 是基于 ASIC 架构的人工智能语音识别芯片,包含了脑神经网络处理硬件单元,能够完美支持 DNN 运算架构,进行高性能的数据并行计算,可极大的提高人工智能深度学习语音技术对大量数据的处理效率。
 
据介绍,这是一款 专用于智能语音识别芯片方案,包含了脑神经网络处理硬件单元,能够完美支持 DNN 运算架构,性能相当于数十个 CPU 核的并行计算能力,成本不到通用芯片方案成本的 1/2,功耗则在 1/10 以下 。目前,基于该芯片的单/双麦克风方案均可以实现十米识别距离,识别精度在 90% 以上。
 
耐能科技
 
耐能 (Kneron) 于 2015 年由台湾人创立于美国圣地牙哥,创始人刘峻诚表示,公司的核心竞争力在于主打轻量级的 NPU,能耗比可以做到 100mW 到 300mW,最新的一款产品甚至可以到 10mW 以下。
 
而且其芯片尺寸也比较小,比如耐能(Kneron)于 2016 年推出终端装置专用的人工智慧芯片——神经网路处理器(Neural Processing Unit,NPU),相较于主流的神经网络芯片,体积可以缩小至 1/40。
 
深思考科技
 
深思考 是一家专注于类脑人工智能与深度学习核心科技的高科技公司。核心团队由来自于中科院自动化所、软件所、计算所、微电子所等中科院院所人工智能、机器学习方向的资深科学家组成。
 
公司目前已经推出了 ARGUS DPU 深度学习处理器,可为专用领域(如智能视频处理、安防监控、ADAS、医疗图像处理等)的人工智能与深度学习计算提供高性能硬件加速,赋予智能终端高性能、高可靠、实时的深度学习计算能力。除各类深度学习算法外,也支持各类传统算法框架(如 OpenCV),并提供丰富的接口满足客户产品的应用需求。ARGUS DPU 支持处理模组级联,以成倍提高实时算力。不过,目前该公司并没有透露具体的性能参数。
 
异构智能
 
异构智能 是由著名人工智能专家、计算机博弈专家、异构智能专家吴韧博士挂帅,带领一批人工智能、深度学习和异构计算领域顶尖的技术人才组成团队,于 2015 年 8 月在硅谷创立的公司,专注于提供“ASIC 芯片+训练模型”的全栈式 AI 解决方案。
 
今年 CES 期间,该公司发布了其第一款高性能、低功耗的 AI 芯片 NovuTensor。
 
异构智能方面表示这是截至目前世界上唯一一款能够实际运行的、性能达到主流 GPU/TPU 水平而性能/功耗比却远超主流 GPU/TPU 的芯片——在功耗 12w 的情况下,NovuTensor 每秒可识别 300 张图像,每张图像上,最多可检测 8192 个目标,相比目前最先进的桌面服务器 GPU(250W,每秒可识别 666 张图像),仅使用 1/20 电力即可达到其性能的 1/2;而相比目前最先进的移动端或嵌入式芯片,相同用电的情况下,性能是其三倍以上。
 
写在最后
 
需要提及的是,号称“世界首款手机 AI 芯片”的华为麒麟 970 并未收录到本文中,因为麒麟 970 使用的是寒武纪的神经网络处理单元(NPU),在物体识别方面的一整套嵌入式 AI 解决方案则来自 中科创达 。
 
无论如何,AI 芯片领域发展得相当快,未来也势必将有更多的 AI 芯片企业入局。中国的这些企业能否破除中国芯片高度依赖进口的魔咒呢?我们拭目以待。

责任编辑:吴礼得

为您推荐