探境科技发布首个离在线一体语音识别解决方案，自研AI降噪算法提高30%识别准确率

阅读时间大约8分钟（3192字）

2019-12-27 探境科技发布首个离在线一体语音识别解决方案，自研AI降噪算法提高30%识别准确率

探境自研的AI降噪算法基于深度学习，不仅能够处理稳态的噪声，非稳态的突发性噪声也能很好的过滤。

【猎云网（微信：ilieyun）北京】12月27日报道

AI芯片近年来快速发展，众多企业纷纷布局，新型芯片架构不断涌现，多个场景下的智能芯片应用正在加快部署。其中，智能音箱的火热以及背后语音交互生态的成熟，带动了越来越多设备的语音化、智能化，并迎来了AI语音芯片的高速增长。

近日，探境科技就一举发布了由低功耗系列、主打系列、旗舰系列组成的三大系列、六颗AI芯片组成的产品矩阵。值得一提的是，在产品矩阵中，探境发布了具备AI双麦降噪功能的语音识别方案，即Voitist音旋风612，以及首个离在线一体的语音识别解决方案：Voitist音旋风621。

在接受猎云网等媒体采访时，探境科技技术副总裁李同治表示，虽然AI语音芯片快速崛起，但在语音控制技术层面仍面临诸多挑战。

例如，由于高噪声、远场识别环境造成低信噪比情况、由于非稳态噪声对于降噪算法产生影响、以及在语音识别期间，同时播放电视剧、音乐造成的多声源问题。

如何解决复杂环境甚至严苛环境下的语音识别？探境科技通过以下几大技术亮点进行了回答。

AI降噪+HONN，无惧家居噪音

在日常生活的一些典型的高噪声使用场景中，如抽油烟机或者扫地机器人，噪声最低也有70分贝；并且MIC也距离这些噪声源非常近，而实际用户往往距离MIC的距离会远些，这些因素叠加会导致我们语音识别设备采集到的信噪比非常低。

信噪比，是衡量需要识别的目标声源与其它干扰声源强度比值的对数。一般将信噪比低于15dB的称为噪声环境。信噪比越低，识别难度越大。

在语音识别的研发过程中，一个完整的识别链路可以简化为麦克风输入、降噪处理、语音识别、识别结果输入四个环节。想做好识别，首先要在降噪处理上下功夫。

截屏2019-12-27下午5.56.30.png

注：图片来自探境科技

探境自研的AI降噪算法基于深度学习，不仅能够处理稳态的噪声，非稳态的突发性噪声也能很好的过滤。

据探境科技副总裁李同治介绍，为了验证探境AI降噪算法的有效性，他曾将一批信噪比在3dB左右的语音数据送到一个知名的云端公开语音识别引擎做了测试，降噪后比降噪前提高30%识别准确率。

在对声音进行降噪处理之后，就进入到了语音识别环节。在这一环节中，神经网络模型所需的算力决定了模型的描述能力，同时也决定了模型处理能力和识别率的上限。

在传统的语音识别算法里，用的最多的是全连接的操作，叫DNN/DTNN——目前，国内有多家语音识别芯片采用的都是DNN的方法。

相比较于全连接操作，卷积操作能够提供更高的计算强度，且卷积运算与人类大脑负责感知模块的处理方法类似，能够提取满足大脑认知的本质特征。

探境将其计算机视觉中的一些经验迁移到语音识别中，在语音识别算法上加入了更多的卷积操作，重新设计了一个高计算强度的神经网络，即HONN（High Operation Neural Network）。

在高计算强度神经网络里，每一个处理单元变成了立体维度的，优于平面上的处理，因此高计算强度神经网络的信息量和计算密度，也远远超过传统DNN/DTNN的方法，带来的直接效果是，多了一个维度的识别，性能提升是显而易见的。

注：图片来自探境科技

可以看出高计算强度的模型仅需要350k的存储空间，而DNN需要1.6M的存储空间。更低的存储需求意味着我们可以使用存储更少、成本更低的芯片来做语音识别。

同时DNN与HONN所需的算力相反，处理高强度模型单帧时，HONN需要超过几百兆OPS，而一般的DNN模型需要个位数的算力。

两者相差超过30倍。对于神经网络来说，模型所需的算力决定了模型识别率的上限。

相对安静的环境下两者之间差别不大，但是当信噪比进一步降低时，基于HONN的方法识别优势非常明显。

正是依托于AI降噪技术+HONN神经网络，探境的Voitist音旋风611，可以覆盖绝大部分的生活场景，无惧各种噪音干扰。

端到端双麦加持，攻克0dB环境

然而信噪比还有一种更严苛的情况，即0dB和负dB，0dB意味着噪声和信号强度一样，甚至噪声比语音信号还要强。

“生活中超强噪音在所难免，为了提升低这些场景下的识别率，还需要使用麦克风阵列来增强语音信号。探境在双麦算法上有自己的独门绝技—FCSP双麦识别算法”，李同治介绍。

传统的麦克风阵列处理算法有几大缺点。

首先，在语音信号增强模块，波束成形依赖于声源定位（DOA），DOA依赖于单麦克唤醒词检测。远场环境唤醒词检测使用单麦信号不用增强后的信号，会影响最终的唤醒率。

截屏2019-12-27下午6.04.07.png

注：图片来自探境科技

其次，传统的阵列处理算法包含降噪、信号增强和识别多个环节，这些环节并不以降低识别率为优化目标，优化目标为提高人耳听觉的舒适度和最终的识别率并不完全等价，会出现不适配的情况。

再次，由于整套流程对麦克风以及电容元器件的一致性要求非常高，提高了物料成本。

“有时候大家在实验室做得很好，但是量产后发现识别率变差，就是因为波束成形和声源定位的要求高，一旦出现了波动，会影响识别效果”，李同治提到。

另外，波束成形算法原理是增强特定方向波束内的信号强度，衰减波束外的信号幅度。当干扰声源和目标声源方向非常接近的时候，两者在同一个波束内，信号和噪声同时被增强，无法提升信噪比。

因此，传统的麦克风阵列处理算法效果并不理想。

“为了克服传统分模块语音增强算法的这些缺点，我们设计出了基于FCSP的端到端AI双麦算法”，李同治表示。FCSP（Frequency Complex Subspace Projection）是探境自研的频域复数子空间投影算法的简称。

这个算法直接输入阵列信号，输出的是最终的识别结果，中间部分全部交给基于深度学习的AI算法来处理，不再使用传统的数字信号处理方法。信号增强与识别模块整体以降低识别错误率为目标进行优化，避免了语音增强与语音识别模块错配的问题。

注：图片来自探境科技

另外，在模型训练期间，采取了“注意力增强”的学习方法，能够灵敏的检测到唤醒词和命令词，即使干扰信号与目标信号方向接近，也能灵敏的进行唤醒和识别。

“这个类似于在一个嘈杂的环境里面，如果有人喊自己的名字，一下子就能反应过来。”李同治做了一个形象的比喻。

截屏2019-12-27下午6.08.30.png

注：图片来自探境科技

“端到端”是目前国际上最前沿的处理算法。一些大厂如亚马逊、谷歌公司，也是通过类似的方法。据媒体报道，谷歌公司采用了Factored Model in Frequency的算法，相对错误率降低至16%，双麦达到了传统算法7麦的识别率。

探境科技采取了频域复数子空间投影，抗噪性能强，在信噪比为0dB时，相对于传统的处理算法，相对识别错误率降低超过20%。

通过AI语音算法+HONN神经网络模型来提升识别率，再通过FCSP“端到端”的双麦处理算法简化识别流程，降低最终识别错误率，探境的语音算法实现了跨越式的升级。

当然，AI芯片不可能脱离芯片只谈算法。性能优异的算法，一定需要算力强劲且通用性强的AI芯片来支持，才能展现出强悍的实力。

探境自研的SFA架构，以存储驱动计算，具有能效比高、资源利用率高、通用性强等特点。在SFA架构上实现深度学习时，只需要一个较高层次的神经网络描述。

SFA的编译器首先将这个神经网络进行全部融合，然后根据具体架构实现的规模产生一个统一的存储流图，再进行存储节点的时空映射，最后根据各个节点之间的计算类型配置计算单元，组合起来形成一个统一的固件供SFA控制器使用。

这意味着SFA架构所采用的各种微观和宏观调度算法，比较“类CPU架构”采用的基于总线和指令集的映射方法，在近似存储量、近似算力、近似外部存储带宽、近似功耗约束的前提下，可以获得8~12倍的利用率收益。

“SFA（存储优先）架构是探境的产品基石，正是借助SFA的优势，我们的AI芯片产品才能‘裂变式’的推出，大大加快了探境的商业化落地速度。”探境CEO鲁勇这样评价SFA架构的意义。

多种产品规格，实现百万级出货

除了支持AI双麦的Voitist音旋风612之外，还包括在离线一体的Voitist音旋风621、以及语音芯片的旗舰产品——可支持本地NLP的音旋风7系列。

探境目前拥有约30家合作伙伴，出货量已达百万级别。探境的战略合作伙伴关系既有美的、海尔等智能家居制造的大厂，也有像世强科技这样在垂直领域颇具影响力的渠道商。据透露知名智能家居制造商阿凡达智控也刚刚与探境达成合作。

截屏2019-12-27下午6.10.16.png

注：图片来自探境科技

据探境科技创始人&CEO鲁勇透露，未来，探境还会将语音产品进行二次升级，推出更多在线离线一体化方案。

“探境不仅仅是一个语音芯片公司，而是一家语音、图像整体结合的AI芯片公司。AI芯片的蛋糕非常大，探境希望可以联合上下游一起，开发生态，开放SDK和工具链，不仅仅是大家可以直接使用我们的产品，我们也希望有大量的合作伙伴，完成更多的场景开发。”鲁勇表示。

另外，探境公布了首个图像芯片的IPS/W高达800，是目前已知AI芯片中最高的。在已公布的发展战略中，探境还瞄准了工业视觉、新零售、安防、辅助驾驶等市场。

据鲁勇介绍，探境的图像芯片在2019年Q4就已经流片成功，图像的某些领域甚至已经开始产生营收了。

鲁勇认为，AI芯片这一领域不像手机APP那样，瞬间可以凭一款应用获得数百万的用户，AI芯片更像马拉松长跑，比的是耐力，而不是冲刺速度，在这场比赛中，不是要看谁跑得快，而是要看谁有潜力到达终点，谁在中途不走岔路

1、猎云网原创文章未经授权转载必究，如需转载请联系官方微信号进行授权。

2、转载时须在文章头部明确注明出处、保留官方微信、作者和原文超链接。如转自猎云网（微信号：lieyunjingxuan

）字样。

3、猎云网报道中所涉及的融资金额均由创业公司提供，仅供参考，猎云网不对真实性背书。

4、联系猎云，请加微信号：jinjilei

热门文章

投资机构

允泰资本

北京允泰投资管理有限公司成立于2017年，是一家聚焦国家战略新兴产业，以科技创投和资产管理为主业的私募股权投资机构。公司目前涉及两大主营业务：私募股权投资、定增投资。公司长期坚持以科技创新型企业投资为目标，重点投资于成长期的具有核心竞争力的高科技、高成长企业，覆盖半导体芯片、新材料、智能制造、新能源、医疗大健康等领域。

青橙资本

专注技术创新，专注早期投资，行业前瞻，与创业企业一起成长。

华兴资本

华兴资本是领先的私募股权投资者，专注于中国高增长及前景广阔的新经济行业。

黑洞投资

黑洞投资成立于2014年，是一家聚焦于多资产类别、多策略投资的平台型投资机构。投资方向为：地产+、互联网+、人工智能、新零售、文化传媒等领域，通过股权投资、战略投资/孵化等形式为新经济生态圈中的创业者提供强有力的支持，携手打造具有高度商业价值和社会价值的优质企业。

北京长安投资

北京长安投资集团有限公司成立于 2002 年 9 月，总部位于北京市西城区闹市口大街 1 号长安兴融中心，注册资本三亿元人民币。经过二十余年的发展，长安投资集团已经成长为集金融、地产和投资三大核心业务为一体，拥有雄厚资本和优良信誉的大型多元化投资集团。

国科嘉和

国科嘉和（北京）投资管理有限公司是中国科学院控股有限公司（简称“国科控股”）直属一级企业，成立于2011年。国科嘉和由国科控股牵头发起，并联合多家国内大型企业集团，共同设立了2支人民币风险创业投资基金（VC基金）、2支人民币并购基金(PE基金）、1支产业专项基金以及1支美元风险投资基金，管理资金总额达数百亿，是国科控股直属唯一同时涵盖VC、PE的专业投资机构。

银盛泰资本

专注医疗大健康和科技领域拥有一流品牌的领先企业，覆盖初创期、成长期、成熟期、Pre-IPO各个阶段，挖掘海内外优质投资机会，成就基业长青的伟大公司！

领沨资本

领沨资本自2015年9月成立以来，致力于投资新金融基础设施领域的优质成长期企业，重点关注具有核心技术壁垒，且具有创造大规模商业及社会价值潜能的企业。领沨资本投资的细分领域依次为人工智能、区块链、金融云／大数据、网络安全及物联网在金融领域中的应用、信贷科技如供应链金融科技、保险科技、投资／财富科技、支付、信用评级与风险管理企业等。领沨资本管理人民币及美元基金，已成为亚太和大中华区最大、最强的金融科技专业基金之一。

钟鼎资本

钟鼎资本，成立于2010年，是一家专注“以供应链为核心能力提升产业效率”的生态型基金。聚焦的投资领域包括物流、供应链、零售&品牌、数据科技等，为国内物流供应链领域最有影响力的投资机构。

联想创投

联想创投为联想集团CVC，专注于面向未来的科技产业投资，投资方向主要为：IoT、边缘计算、云、大数据、人工智能、垂直行业、消费升级等。已投资和孵化超过百家优秀企业，包括美团点评、宁德时代、蔚来、旷视科技、寒武纪、每日优鲜、SHAREit等。

天风天睿

天风证券私募基金子公司，专业从事股权投资和私募基金管理，致力于构建人人受益的产融生态，坚持与客户共存共荣，助力实体经济发展和产业升级。

北辰星资本

目前主要关注体育、文化、娱乐、教育等领域的中早期项目投资；已投资包括肆客体育、伐木累、淘手游、河马牙医、竞彩猫、去滑雪GOSKI、羽贝纳、趣动户外、DS足球、福建天信职业足球俱乐部等项目。2016年肆客体育、竞彩猫、去滑雪三个项目被懒熊体育评选为“年度十佳体育创业项目”，同年由北辰星主导发起的去玩体育产业基金（去玩资本）和红衫、IDG等知名机构一起被猎云网评选为“2016年十大体育产业投资机构”。

菁英汇资本

菁英汇资本是受天津市政府引导基金支持的创投机构，投过的知名案例如奇安信、国开新能源等。主要投资于网络安全、产业互联网、大数据、云计算、物联网、教育信息化等数字经济领域的项目。标签：软科技、企业服务，阶段A轮以后

开牛投资

成立于2015年，是一家以价值投资为宗旨的精品VC，创始团队来自中路资本、上海实业直投部、工商银行投行部、创赢金融等公司的核心成员，具有丰富的一二级市场和互联网、互联网+、消费、教育等领域的投资经验、行业研究经验及资本运作经验，过往案例包括Blued、团车网、波奇网、小卫科技、小鸟教育，赛优教育、丝域养发等。

德联资本

德联资本成立于2011年，重点关注高端制造、前沿科技、医疗健康等领域中技术驱动型项目，已投资启明医疗、盟科医药、珞石机器人、华捷艾米、梅卡曼德、得一微电子、飞致云等数十家创业公司，覆盖机器人、智能制造、人工智能、大数据、企业服务、医疗健康等多个细分领域。

东沙湖基金小镇

江苏省首批省级特色小镇，致力于构建一个以私募基金为核心，实施“资本+科技”双轮驱动，服务于实体经济的多层次体系。

凯旋创投

凯旋创投成立于2008年，中国本土专注于早期科技企业投资的双币私募投资机构。致力于长期投资国家战略新兴产业，包括物联网、高端制造、人工智能、先进医疗、高性能材料等领域，不断构建与完善科技及产业投资生态圈，为创业者提供丰富经验经验、全球视野及资源，并持续赋能。团队拥有丰富的技术行业经验和坚实的高科技产业背景，具备跨越周期的投资能力。

众海投资

众海投资成立于2014年，由前阿里巴巴集团高管鲁众、黄海军共同创办。目前管理着 5 期人民币基金，持续专注于互联网/消费、高新科技和医疗大健康等领域，主要覆盖阶段为初创期与成长期。已投资超过50家优秀的中早期企业，包括乐乐茶、爱慕、宜明昂科、言几又、新中冠、格隆汇、聚土网等。致力于做成长企业的合伙人。

青锐创投

青锐创投成立于2015年，是专注于中早期投资的双币风险投资机构。公司总部位于上海。覆盖范围包括消费、硬科技和前沿科技等领域。

青山资本

青山资本，中国一线天使投资机构，专注消费、TMT领域，主张独立思考、价值投资。致力成为创业者最早、最重要的支持者，与优秀年轻人一道，创造美好生活，重仓中国。

${{item.author_display_name}}$

2019-12-27 探境科技发布首个离在线一体语音识别解决方案，自研AI降噪算法提高30%识别准确率

AI降噪+HONN，无惧家居噪音

注：图片来自探境科技

注：图片来自探境科技

端到端双麦加持，攻克0dB环境

注：图片来自探境科技

注：图片来自探境科技

注：图片来自探境科技

多种产品规格，实现百万级出货

注：图片来自探境科技

估值百亿的MRO独角兽，要IPO了

宗门大比！智元抢先开演机器人晚会

AI群聊，最终还是微信的菜？

2019-12-27 探境科技发布首个离在线一体语音识别解决方案，自研AI降噪算法提高30%识别准确率

AI降噪+HONN，无惧家居噪音

注：图片来自探境科技

注：图片来自探境科技

端到端双麦加持，攻克0dB环境

注：图片来自探境科技

注：图片来自探境科技

注：图片来自探境科技

多种产品规格，实现百万级出货

注：图片来自探境科技

{{item.post_title}}

{{item.post_title}}

估值百亿的MRO独角兽，要IPO了

宗门大比！智元抢先开演机器人晚会

AI群聊，最终还是微信的菜？