【猎云网(微信:ilieyun)北京】5月3日报道(文/都保杰)
作为国产AI芯片领域的代表性创业公司,寒武纪的雄“芯”壮志越来越明显了。
有意思的是,寒武纪创始人兼CEO陈天石博士还发表了一封公开信,他在文中表示:“MLU100芯片是寒武纪发展历程上全新的里程碑,标志着寒武纪已成为中国第一家(也是世界上少数几家)同时拥有终端和云端智能处理器产品的商业公司。”
据了解,寒武纪1M处理器性能超越此前1A十倍有余,使用TSMC 7nm工艺生产,其8位运算效能比达5Tops/watt(每瓦5万亿次运算),并且提供了三种尺寸的处理器内核(2Tops/4Tops/8Tops)以满足不同场景下不同量级智能处理的需求,寒武纪称,用户还可以通过多核互联进一步提高处理效能。
1M单个处理器核即可支持CNN、RNN、SOM等多样化的深度学习模型,并更进一步支持SVM、k-NN、k-Means、决策树等经典机器学习算法,支持本地训练,为视觉、语音、自然语言处理以及各类经典的机器学习任务提供了灵活高效的计算平台,将广泛应用于智能手机、智能音箱、智能摄像头、智能驾驶等不同领域当中。
陈天石表示,1M芯片是全球第一款支持本地机器学习训练的智能处理器产,支持帮助终端设备进行本地训练,可为视觉、语音、自然语言处理等任务提供高效计算平台,这意味着使用1M的设备可以根据用户行为对应用进行个性化定制,本地训练同时也解决了用户数据隐私的问题。
发布会的焦点部分,是首次正式亮相的Cambricon MLU100云端智能芯片,其实这款芯片去年11月6日寒武纪首次发布会上有所透露。采用了最新的MLUv01架构和TSMC16nm的先进工艺,可工作在平衡模式(1GHz主频)和高性能模式(1.3GHz主频)下,平衡模式下的等效理论峰值速度达每秒128万亿次定点运算,高性能模式下的等效理论峰值速度更可达每秒166.4万亿次定点运算,典型板级功耗仅为80瓦,峰值功耗不超过110瓦。
与寒武纪系列终端处理器一样,MLU100云端芯片仍然延续了比较好的通用性,可支持各类深度学习和经典机器学习算法,充分满足视觉、语音、自然语言处理、经典数据挖掘等领域复杂场景下(如大数据量、多任务、多模态、低延时、高通量)的云端智能处理需求,支持服务器端的推理和训练需求,尤其是侧重推理,MLU100的板卡采用PCIe接口。
寒武纪终端和云端芯片均原生支持寒武纪NeuWare软件工具链,该平台支持 TensorFlow、Caffe、MXNet 等多种主流机器学习框架,可以方便地进行智能应用的开发,迁移和调优。此外,寒武纪还会以处理器IP授权的形式与同行共享最新的技术成果,使客户能够快速设计和生产具备人工智能处理能力的芯片产品,推进“端云协作”的落地。
关于寒武纪的市场拓展,陈天石曾公开透露表示,寒武纪将力争在3年之后占有中国高性能智能芯片市场 30% 的份额,并使得全世界10亿台以上的智能终端设备集成寒武纪终端智能处理器。如果这两个目标能够实现,寒武纪将“初步支撑起中国主导的国际智能产业生态”。
业内人士分析,GPU是目前主流的AI计算平台,但是其基本框架结构不是为AI所设计的,实际应用下还有很多限制。FPGA 虽然迭代快,可以在短期内满足一定的计算需求,但从计算速度和能耗比来说,和专用的AI芯片仍有差距,这也是很多科技公司和高校投入研发深度学习专用ASIC的原因,所以催生出谷歌TPU这样的计算平台,已成必然趋势。
随着寒武纪MLU100的发布,国产力量将成为通用机器学习处理器领域重要的玩家之一,所以陈天石发布会上称MLU100的功耗仅为是英伟达同类产品的几分之一,将会树立新的行业标杆。但众所周知,AI芯片领域只有广阔的应用面才能在市场上争取到更大的发言权,这是寒武纪不得不面对的现实问题。
所以很容易理解,寒武纪本次的芯片发布会也在极力拉拢产业合作伙伴推进产品的落地,比如联想集团推出基于寒武纪MLU100智能处理卡的ThinkSystem SR650服务器,中科曙光也同步亮相了基于MLU100智能处理卡的服务器产品系列“PHANERON”;科大讯飞也在发布会上披露与寒武纪芯片的合作,说能耗效率领先竞争对手的云端GPU方案达5倍以上,包括之前的案例,寒武纪研发的1A商用终端智能处理器IP产品,授权华为海思研发麒麟970芯片等等,一个小规模的芯片生态似乎已具雏形。
寒武纪的芯片是找台积电代工做偏通用的方案,而终端卖IP,云端卖芯片的商业模式能否开辟出国产AI芯片的成功路径,这种探索值得业界观察和参考。