【AI星球(微信ID:ai_xingqiu)】8月23日报道(编译:福尔摩望)
微软今天推出了一款可以支持高速、低延迟机器学习模型的系统,也预示着微软开始在专用AI硬件领域崭露头角。该公司展示的这个名为Brainwave的新系统,允许开发人员将机器学习模型部署到可编程芯片上,并获得超出CPU或GPU的高性能。
研究人员在加利福尼亚州库比蒂诺热举办的Hot Chips大会上演示了门控重复单元模型,在没有批量操作的情况下,该模型运行在英特尔最新的Stratix 10现场可编程门阵列(FPGA)芯片上的速度可达到39.5万亿次浮点运算。无需采用批量处理意味着硬件可以及时处理请求,从而为机器学习系统提供实时监测。
微软所选择的模型要比Alexnet和Resnet-50这样的卷积神经网络要大好几倍。
提供低延迟的监控对于大规模部署的机器学习系统来说是非常重要的。用户并不想等待应用响应过长时间。
微软研发部的工程师Doug Burger说:“我们将它称之为实时AI,因为你想要的是发出请求后能够立马得到响应。视频流、会话、入侵异常检测等等,这些涉及到交互和快速结果的事情,你都想要实现实时。”
然而,以往发布的有关硬件加速机器学习的结果都以延迟为代价来实现结果优化。在Burger看来,一个机器学习加速器应该一次性处理请求,而不是进行批量处理。
微软正在通过其数据中心安装的FPGA组使用Brainwave。根据Burger的介绍,Brainwave将会让微软的服务更快的支持人工智能功能。此外,该公司也正在努力通过其Azure云平台为第三方客户提供Brainwave服务。
FPGA允许程序员配置优化的硬件,以便在运行之前执行特定功能,例如进行为神经网络提供监控的数学计算。微软在其数据中心部署了数十万个FPGA组,并插入服务器,连接到网络上。
Brainwave将训练好的机器学习模型加载到可使用整个生命周期的FPGA硬件内存中。然后,该硬件会用于计算可生成监控模型的计算中,例如可预测的文本字串。如果模型太大,无法在单个FPGA上运行,那么软件会进行部署,并在多个硬件板上执行。
微软并不是唯一家投资加速机器学习硬件的公司。谷歌在今年早些时候公布了其Tensor处理单元的第二个修订版本芯片,专门用于机器学习训练和服务。此外,还有大量创企也正在打造用于机器学习的专用硬件加速器。
技术人员对FPGA的批评之一是,与专门用于执行机器学习操作的芯片相比,它们的速度较慢,效率较低。Burger表示,微软的Brainwave预示着可编程硬件也可以提供高性能。
Burger也表示,英特尔和微软将在未来进一步优化Brainwave的性能。随着性能的进一步提升,微软可以使用英特尔Stratix 10达到90万亿次浮点运算的速度。
目前,Brainwave支持使用微软CNTK框架和谷歌TensorFlow框架的训练模型。Burger说,团队正在努力实现与其他工具的兼容。微软并没有给出一个路线图,来表明何时向客户提供Brainwave服务。