【猎云网(微信:ilieyun)北京】12月27日报道
AI芯片近年来快速发展,众多企业纷纷布局,新型芯片架构不断涌现,多个场景下的智能芯片应用正在加快部署。其中,智能音箱的火热以及背后语音交互生态的成熟,带动了越来越多设备的语音化、智能化,并迎来了AI语音芯片的高速增长。
近日,探境科技就一举发布了由低功耗系列、主打系列、旗舰系列组成的三大系列、六颗AI芯片组成的产品矩阵。值得一提的是,在产品矩阵中,探境发布了具备AI双麦降噪功能的语音识别方案,即Voitist音旋风612,以及首个离在线一体的语音识别解决方案:Voitist音旋风621。
在接受猎云网等媒体采访时,探境科技技术副总裁李同治表示,虽然AI语音芯片快速崛起,但在语音控制技术层面仍面临诸多挑战。
例如,由于高噪声、远场识别环境造成低信噪比情况、由于非稳态噪声对于降噪算法产生影响、以及在语音识别期间,同时播放电视剧、音乐造成的多声源问题。
如何解决复杂环境甚至严苛环境下的语音识别?探境科技通过以下几大技术亮点进行了回答。
AI降噪+HONN,无惧家居噪音
在日常生活的一些典型的高噪声使用场景中,如抽油烟机或者扫地机器人,噪声最低也有70分贝;并且MIC也距离这些噪声源非常近,而实际用户往往距离MIC的距离会远些,这些因素叠加会导致我们语音识别设备采集到的信噪比非常低。
信噪比,是衡量需要识别的目标声源与其它干扰声源强度比值的对数。一般将信噪比低于15dB的称为噪声环境。信噪比越低,识别难度越大。
在语音识别的研发过程中,一个完整的识别链路可以简化为麦克风输入、降噪处理、语音识别、识别结果输入四个环节。想做好识别,首先要在降噪处理上下功夫。
注:图片来自探境科技
探境自研的AI降噪算法基于深度学习,不仅能够处理稳态的噪声,非稳态的突发性噪声也能很好的过滤。
据探境科技副总裁李同治介绍,为了验证探境AI降噪算法的有效性,他曾将一批信噪比在3dB左右的语音数据送到一个知名的云端公开语音识别引擎做了测试,降噪后比降噪前提高30%识别准确率。
在对声音进行降噪处理之后,就进入到了语音识别环节。在这一环节中,神经网络模型所需的算力决定了模型的描述能力,同时也决定了模型处理能力和识别率的上限。
在传统的语音识别算法里,用的最多的是全连接的操作,叫DNN/DTNN——目前,国内有多家语音识别芯片采用的都是DNN的方法。
相比较于全连接操作,卷积操作能够提供更高的计算强度,且卷积运算与人类大脑负责感知模块的处理方法类似,能够提取满足大脑认知的本质特征。
探境将其计算机视觉中的一些经验迁移到语音识别中,在语音识别算法上加入了更多的卷积操作,重新设计了一个高计算强度的神经网络,即HONN(High Operation Neural Network)。
在高计算强度神经网络里,每一个处理单元变成了立体维度的,优于平面上的处理,因此高计算强度神经网络的信息量和计算密度,也远远超过传统DNN/DTNN的方法,带来的直接效果是,多了一个维度的识别,性能提升是显而易见的。
注:图片来自探境科技
可以看出高计算强度的模型仅需要350k的存储空间,而DNN需要1.6M的存储空间。更低的存储需求意味着我们可以使用存储更少、成本更低的芯片来做语音识别。
同时DNN与HONN所需的算力相反,处理高强度模型单帧时,HONN需要超过几百兆OPS,而一般的DNN模型需要个位数的算力。
两者相差超过30倍。对于神经网络来说,模型所需的算力决定了模型识别率的上限。
相对安静的环境下两者之间差别不大,但是当信噪比进一步降低时,基于HONN的方法识别优势非常明显。
正是依托于AI降噪技术+HONN神经网络,探境的Voitist音旋风611,可以覆盖绝大部分的生活场景,无惧各种噪音干扰。
端到端双麦加持,攻克0dB环境
然而信噪比还有一种更严苛的情况,即0dB和负dB,0dB意味着噪声和信号强度一样,甚至噪声比语音信号还要强。
“生活中超强噪音在所难免,为了提升低这些场景下的识别率,还需要使用麦克风阵列来增强语音信号。探境在双麦算法上有自己的独门绝技—FCSP双麦识别算法”,李同治介绍。
传统的麦克风阵列处理算法有几大缺点。
首先,在语音信号增强模块,波束成形依赖于声源定位(DOA),DOA依赖于单麦克唤醒词检测。远场环境唤醒词检测使用单麦信号不用增强后的信号,会影响最终的唤醒率。
注:图片来自探境科技
其次,传统的阵列处理算法包含降噪、信号增强和识别多个环节,这些环节并不以降低识别率为优化目标,优化目标为提高人耳听觉的舒适度和最终的识别率并不完全等价,会出现不适配的情况。
再次,由于整套流程对麦克风以及电容元器件的一致性要求非常高,提高了物料成本。
“有时候大家在实验室做得很好,但是量产后发现识别率变差,就是因为波束成形和声源定位的要求高,一旦出现了波动,会影响识别效果”,李同治提到。
另外,波束成形算法原理是增强特定方向波束内的信号强度,衰减波束外的信号幅度。当干扰声源和目标声源方向非常接近的时候,两者在同一个波束内,信号和噪声同时被增强,无法提升信噪比。
因此,传统的麦克风阵列处理算法效果并不理想。
“为了克服传统分模块语音增强算法的这些缺点,我们设计出了基于FCSP的端到端AI双麦算法”,李同治表示。FCSP(Frequency Complex Subspace Projection)是探境自研的频域复数子空间投影算法的简称。
这个算法直接输入阵列信号,输出的是最终的识别结果,中间部分全部交给基于深度学习的AI算法来处理,不再使用传统的数字信号处理方法。信号增强与识别模块整体以降低识别错误率为目标进行优化,避免了语音增强与语音识别模块错配的问题。
注:图片来自探境科技
另外,在模型训练期间,采取了“注意力增强”的学习方法,能够灵敏的检测到唤醒词和命令词,即使干扰信号与目标信号方向接近,也能灵敏的进行唤醒和识别。
“这个类似于在一个嘈杂的环境里面,如果有人喊自己的名字,一下子就能反应过来。”李同治做了一个形象的比喻。
注:图片来自探境科技
“端到端”是目前国际上最前沿的处理算法。一些大厂如亚马逊、谷歌公司,也是通过类似的方法。据媒体报道,谷歌公司采用了Factored Model in Frequency的算法,相对错误率降低至16%,双麦达到了传统算法7麦的识别率。
探境科技采取了频域复数子空间投影,抗噪性能强,在信噪比为0dB时,相对于传统的处理算法,相对识别错误率降低超过20%。
通过AI语音算法+HONN神经网络模型来提升识别率,再通过FCSP“端到端”的双麦处理算法简化识别流程,降低最终识别错误率,探境的语音算法实现了跨越式的升级。
当然,AI芯片不可能脱离芯片只谈算法。性能优异的算法,一定需要算力强劲且通用性强的AI芯片来支持,才能展现出强悍的实力。
探境自研的SFA架构,以存储驱动计算,具有能效比高、资源利用率高、通用性强等特点。在SFA架构上实现深度学习时,只需要一个较高层次的神经网络描述。
SFA的编译器首先将这个神经网络进行全部融合,然后根据具体架构实现的规模产生一个统一的存储流图,再进行存储节点的时空映射,最后根据各个节点之间的计算类型配置计算单元,组合起来形成一个统一的固件供SFA控制器使用。
这意味着SFA架构所采用的各种微观和宏观调度算法,比较“类CPU架构”采用的基于总线和指令集的映射方法,在近似存储量、近似算力、近似外部存储带宽、近似功耗约束的前提下,可以获得8~12倍的利用率收益。
“SFA(存储优先)架构是探境的产品基石,正是借助SFA的优势,我们的AI芯片产品才能‘裂变式’的推出,大大加快了探境的商业化落地速度。”探境CEO鲁勇这样评价SFA架构的意义。
多种产品规格,实现百万级出货
除了支持AI双麦的Voitist音旋风612之外,还包括在离线一体的Voitist音旋风621、以及语音芯片的旗舰产品——可支持本地NLP的音旋风7系列。
探境目前拥有约30家合作伙伴,出货量已达百万级别。探境的战略合作伙伴关系既有美的、海尔等智能家居制造的大厂,也有像世强科技这样在垂直领域颇具影响力的渠道商。据透露知名智能家居制造商阿凡达智控也刚刚与探境达成合作。
注:图片来自探境科技
据探境科技创始人&CEO鲁勇透露,未来,探境还会将语音产品进行二次升级,推出更多在线离线一体化方案。
“探境不仅仅是一个语音芯片公司,而是一家语音、图像整体结合的AI芯片公司。AI芯片的蛋糕非常大,探境希望可以联合上下游一起,开发生态,开放SDK和工具链,不仅仅是大家可以直接使用我们的产品,我们也希望有大量的合作伙伴,完成更多的场景开发。”鲁勇表示。
另外,探境公布了首个图像芯片的IPS/W高达800,是目前已知AI芯片中最高的。在已公布的发展战略中,探境还瞄准了工业视觉、新零售、安防、辅助驾驶等市场。
据鲁勇介绍,探境的图像芯片在2019年Q4就已经流片成功,图像的某些领域甚至已经开始产生营收了。
鲁勇认为,AI芯片这一领域不像手机APP那样,瞬间可以凭一款应用获得数百万的用户,AI芯片更像马拉松长跑,比的是耐力,而不是冲刺速度,在这场比赛中,不是要看谁跑得快,而是要看谁有潜力到达终点,谁在中途不走岔路