• 5
人工智能另一面,高大上的背后是“人工”苦力活儿
统计 阅读时间大约6分钟(2001字)

2017-08-15 人工智能另一面,高大上的背后是“人工”苦力活儿

人工智能,仍需要大量的人工劳动给养,其实并不高大上。

猎云注:提起人工智能,给我们的印象,应该是属于高大上的范畴,抑或是人类顶尖人才参与的未来事业。但其实,人工智能浪潮下有很多辛苦劳作的“人工”。至少目前的人工智能发展,仍需要大量的人工劳动给养,其实并不高大上。文章转自:AI星球(ID:ai_xingqiu),整理|都保杰。

就好像是一场明星演唱会,舞台上灯光闪烁,主角激情澎湃,粉丝呐喊欢呼,场面一片火爆,而幕后忙忙碌碌的那些人,who cares,人工智能行业大抵如此。

“目前人工智能背后还是需要很多的人工工作。”一位创业者曾经这么说,如果作为门外汉,首次听说这样的观点可能会十分费解。

人工智能,无论是从科幻电影还是现实生活中给我们的印象,都是属于高大上的范畴,抑或是人类顶尖人才参与的未来事业,先进的技术会给我们生活带来无尽的便捷和想象力,不应该是大幅解放劳动力的么?怎么还需要投入大量的人力?

所以本篇整理了人工智能不那么智能的一面,这里有一个很少被提及也容易被遗忘的人群,那就是人工智能浪潮下辛苦劳作的“人工”。

人工智能需要数据,高质量的标注数据决定了一家人工智能公司竞争力。通常来说,数据标注得越准确、数量越多,算法模型的效果就越好,自然产品的体验也会更近一步,然而这么多结构化数据哪里来?于是有种产业叫数据工厂。

1

眼下这些数据工厂业务大多是标注数据,即根据项目方要求,人工为图片、视频和语音内容打标签、做标记。标注好的数据会被人工智能公司用来训练算法模型,然后应用到图像识别、语音识别、动作识别、自动驾驶等不同领域。小编曾采访过一家专业的数据加工平台,旗下有12家下辖数据工厂及2000余名数据操作员来支持数据的采集、清洗、标记等产品化服务。与专业的数据标注公司业务类似的还有数据众包平台,以百度众包平台为例,号称是有10000+名专职外场数据采集员,5000+在线数据标注人员。两者的区别在于众包平台上多为互联网网民兼职操作,由于没有受过专业化培训,在质量和数量都难以满足专业化的数据加工需求。

2

随着人工智能产业热度提升,数据加工厂的业务需求也越来越丰富,标注画面中不同的人脸,标注一段语音中的关键字段等等都是比较常见的数据标注工作;此外还有勾画图片中人体的关节点,将复杂的人体姿态标注成点和线的形式,可以用来训练识别人体体态的模型;为路况图片中的车辆、摩托车、自行车和行人打上边框,并标注行进方向和是否有遮挡,这类图片多用来训练智能安防系统的识别能力;描绘建筑物的边缘,将静止画面中的大楼标注成不同的色块,这类数据多用在自动驾驶中车辆对环境的认知;还有负责视频标注的工作,需要从每段视频中抽出 10 帧,标注相近两帧中物体的方向和坐标的变化,这些数据也许会被用来训练机器对物体连贯性的感知,也许用来训练机器预判物体的位置变化。

其中,精细化标注更不是什么容易事,华院数据曾举办过一次大数据应用比赛,在通过卖场货架图片自动计算产品的货架占有率这项测试中,她们拍摄了 1600 多张真实的货架图片作为原始数据,所谓精细化标注,就是货架上每一包紧挨着的零食、泡面,都要延边缘仔细划分。这一千多张图片的标注耗费了 12 个人大半个月时间,负责标注工作的人员几近崩溃。

3

通常数据工厂需要处理的客户订单往往以万为单位。比如客户要求 6 万张图片,7 天内完成标注,理论上这个订单需要 200人左右共同工作 7 天才能完成,并且过程单调又枯燥,流水线上的人们手动干着机械般的工作。员工标注的内容还要经过质检人员的核验,全部合格后才会最终交付给客户。

可以说,现阶段的数据标注是个劳动密集型产业,和南方的普通加工厂基本没什么不同,只不过加工的产品是数据。

包括世界顶尖计算机视觉专家李飞飞参与建立的ImageNet ,是来自 167 个国家的 48940 名工作者,花费了 2 年时间,清理、分类、标记了近十亿张通过互联网搜集到的图片,才得到这个拥有 1,500 万张标注图片的数据集,其所耗费的时间与人力可想而知。

除了数据标注工作之外,前不久,智能音箱背后的声优也浮出水面,2014年以前行业都是采用参数合成的技术,提取出声音的特征模拟生成,这需要声优的声音更加端庄、严肃。彼时的配音人员大多是播音员、各大院校播音主持专业学生、主持人等,录音库只需要4、5千句就行。但是从2014年以后,为了让合成的声音更自然,业内都采用了拼接算法,提取出原声中的片段进行合成,这就要求更大的数据量,更多的样本。

以天猫精灵智能音箱为例,幕后声优的语音录制时间长达两个月,产品发布前已经录制20多万字,并且还在进行中,整体是要做到2万句,30万字的目标。

为智能产品配音和影视剧完全不一样,需要绝对的稳定性,语速要保持一致,而且情绪也不能有波动,因此效率并不高,声优每天需要录三到四个小时,一个小时大概只有100句话左右,能不能通过还得看录音师的判断。

4

据天猫精灵配音钰莹介绍,300-400句/天是一个配音演员比较正常的工作量,但是一开始的时候工作强度比较大,她一天录了500-600句,一连录了8天,录完之后她的嗓子就发炎了,只能在家休息。

在大部分人看来,人工智能是个高级又轻松的概念,未来的一切都将因为AI技术的普及而变得更简单、更美好、更智能。

稍微熟悉一点,对人工智能的印象会变成工程师、科学家们口中的专有名词,GPU阵列、神经网络、深度学习、自然语言处理、迁移学习、计算机视觉等等一大串相关技术理论。

而在产业链的最底层是更为现实的一面,一批批身份各异,从未被提起的人们成为了新时代的数据民工。人工智能,仍需要大量的人工劳动给养,其实并不高大上。

1、猎云网原创文章未经授权转载必究,如需转载请联系官方微信号进行授权。
2、转载时须在文章头部明确注明出处、保留官方微信、作者和原文超链接。如转自猎云网(微信号:lieyunjingxuan
)字样。
3、猎云网报道中所涉及的融资金额均由创业公司提供,仅供参考,猎云网不对真实性背书。
4、联系猎云,请加微信号:jinjilei
相关阅读
推荐阅读
{{item.author_display_name}}
{{item.author_display_name}}
{{item.author_user_occu}}
{{item.author_user_sign}}
×