【猎云网(微信:ilieyun)北京】5月8日报道(文/朱腾飞)
数据是AI的“血液”,无数据,不AI。
阿里巴巴董事局主席马云说:在未来3-5年,数据标注行业将会有一个蓬勃发展期,就像股市持续上涨,在这个阶段参与的人都能一直赚钱。
眼下,随着AI行业的纵深发展带来对数据的新需求,催生出一批AI大数据服务公司,数据标注服务公司根据项目方要求,利用人工为图片、视频和语音内容打标签、做标记。为AI公司用来训练算法模型,然后应用到图像识别、语音识别、动作识别、自动驾驶等不同领域。
每一项 AI 技术的场景应用,背后都需要海量数据的支持。数据标注得越准确、数量越多,算法模型的效果就越好,高质量的数据标注决定一家AI公司的行业竞争力。
近日,猎云网对BasicFinder倍赛数据 CEO杜霖进行了采访,分别从创业初衷、行业现状、业务差异等多个方面进行了分析解读。
壹
说起AI数据采集与标注,杜霖和他的团队一点都不陌生。他目前的创始团队均来自上海交大,“对AI和数据的研究,我们很早就开始了。” BasicFinder CEO杜霖告诉猎云网。
早在13年前,高二的杜霖就带领衡水中学机器人兴趣小组研究机器人视觉,高三时他写了第一篇关于模式识别的科研论文,对于图像和模式识别,他一直保持着非常强烈的兴趣和研究。
2008年,读大二的杜霖开始了第一次数据技术的创业。他做了一家基于数据挖掘技术的SEM公司,将来自互联网的各种数据进行挖掘获取长尾关键词,用程序做量化竞价和转化率分析,自动去筛选高质量关键词做流量变现。
2010年大学毕业,杜霖以400万美金的价格把公司卖给了一家土耳其SEM公司,赚了第一桶金。随后,他跟几个朋友成立了一家早期TMT行业投资公司,从事了数年创投工作,这为他后来的业务积累了很多资源。
2014年,伴随着深度学习技术的兴起和发展,AI行业开始展露头角,进一步催生和带动了数据标注行业。基于多年对数据的理解和对未来趋势把握,杜霖和团队认为,未来AI发展只有两个核心,一个是数据,一个是算法。
“首先,我们擅长对于数据一系列处理流程的管理,包括所有任务的定义、发布、分发、管理、拆分,生产和质检;其次,我们强调保证质量、效率和数据安全性。基于这些,我们决定搭建自己的数据平台和工厂。”
正是从那时起,杜霖和团队开始搭建了一套完善的协同加工数据处理平台,用一部分融资去建立和收购一些工厂。
一方面基于数据需求方发布、定义任务;对于工厂管理人员拆分、分配任务;另一方面,对于操作人员做任务的领取和生产;对于质检人员质检,修改,汇总任务;以及最终的数据接口匹配与任务交付。
数据服务除了工厂模式,与专业的数据标注公司业务类似的还有数据众包平台,其区别在于众包平台上多为互联网网民兼职操作,由于没有受过专业化培训,在质量和数量都难以满足数据加工需求。
貳
据了解,深度模型在机器学习很多领域都取得了巨大成功,但也对算法的原材料训练数据提出了更多的要求。对于研发高水平的算法,数据的高质量采集、清洗、处理等等对算法效果会有直接影响。
杜霖认为,至少在5年内,数据标注行业的增长空间还很大,数据标注的市场才刚打开,数据需求将紧随人工智能的大规模落地引来一波爆发式增长。“当时我们就预测到未来人工智能对于数据的需求会呈现井喷,所以我们提前布局了。”
“BasicFinder不是单纯标注数据的公司,我们是提供协同人力(Human Based Intelligence)的公司。在这个平台上,工厂需要一系列的管理功能。
目前,能被建模量化的数据只占真实世界中的极少一部分。现有的数据标注业务主要集中在安防和自动驾驶领域,未来,随着AI深入更多垂直行业,新需求将不断出现。
杜霖认为,AI行业本质离不开科研,科研其实是其真正的内部动力,就出现一个非常有意思的现象,在学术界如果某种方法或者效果好,工业界就会很快垂直落地,真正能推动需求的是来源于学术界的效果和工业界的落地场景。
众所周知,数据标记是个重人力的劳动密集型行业,这类公司的关键点就在于——人员效率、交付质量,“我们针对不同的市场需求和任务类型,开发了两个产品。一个是倍赛工厂(BasicFinder Premium),一个是倍赛众包(BasicFinder Forall)。” BasicFinder CEO杜霖告诉猎云网。
叁
AI企业对数据标注的质量要求是非常高的,而AI企业在寻找数据标注服务的过程中,数据标注质量差成为了AI企业最为苦恼的事情。往往在数据清洗、数据标注、数据交付等多个环节出现不及时、不流畅、不合格等情况。那么数据标注如何把控质量呢?
谈到数据标注如何把控其质量,BasicFinder CEO杜霖告诉猎云网:
首先,数据工厂通过了ISO9001 质量体系认证。“举一个例子,如果客户要求95%的正确率,我们就会在最终完成的作业中随机抽取100份样本,只要发现错误数超过5份,那么整批作业都将被打回。”
其次,用系统控制质量,内部用AI和质控模型来管理数据标注员。“比如,我们会间隔穿插相同任务给业务员,观察他们对同一个任务处理的前后一致性,如果偏差较大,系统会自动提示业务员有走神或疲劳行为。从而提高数据标注工作的效率,保证数据交付质量。”
第三,对业务员进行精细化管理,“他们都有历史正确率,做什么样任务,哪些任务错了,分析出他擅长做的,优先动态分配任务。
由于AI企业对于数据标注是多样化的,任何场景、任何事物都有可能产生标注需求。BasicFinder从最前期的任务定义、采集数据,到中间的清洗、加工,以及后期的质量检测、训练迭代等全部环节分开作业,开发了一套系统用来辅助人工提高效率,精准分析需求,匹配最优方案,缩短项目周期。
与2017年同期相比,BasicFinder倍赛数据今年第一季度订单量增幅超过260%,预计2018年全年增量稳超去年三倍。
聊到行业现状,杜霖认为数据标注行业市场潜力巨大,但行业内良莠不齐,甚至乱象横生。“一方面有人追求控制成本,不同公司对数据精度要求不一样,价格可能差了一倍都不止,标注的质量是不可控的;另一方面从业人员素质参差不齐、工作环境不正规。” 谈及2017年业务量增速惊人,“这是我们优质客户对倍赛数据服务能力的肯定,也是客户对数据标注行业充分了解之后做出的选择。”杜霖对BasicFinder的业务能力信心十足。
肆
据了解,BasicFinder倍赛数据拥有12家下辖专业化数据基地及2000余名全职数据操作员,BasicFinder 运用自身高效培训、管理体系以及专业的软硬件设施为客户的AI引擎增添强劲数据动力。
在对数据标注从业人员上,BasicFinder进行系统筛选,这是一个大浪淘沙的过程,他坚信市场慢慢会变得更清晰和透明,它会经历一个从价格敏感到质量敏感,最终必定是质量胜出。
2017年,BasicFinder 倍赛数据推出了倍赛众包产品,覆盖120所城市,众包用户增速超过55%,价格监控引擎根据人力和需求的匹配情况,实现价格动态管控,降低客户的服务成本。
值得一提的是,BasicFinder早期还没有发力市场和营销,海外客户和订单竟纷纷找上门来。外商非常注重质量,不是特别在意价格。“这是长久稳定的合作基础。”
BasicFinder创始人杜霖告诉猎云网,BasicFinder工厂采用的是“自营”模式,数据标注师大多是经过培训的人员,他们技能相对网民标记效率很高。
“第一是对任务需求的充分理解;第二是要有足够的耐心;第三是要有责任。我们要把每个任务做精细,比如在自动驾驶数据标注方面,我一直讲,今天标注的每一个数据都是自动驾驶的一部分,不能漏,不能少,更不能错,否则你犯的任何一个错误,未来很可能会出现巨大的灾难。“倍赛数据一直在强调对人的要求。” BasicFinder CEO杜霖补充说道。
现阶段数据标注主要依靠人力来完成,百万级的数据标注对于标注员来说是一个不小的压力。尤其是复杂的标注任务,合格率低、时间跨度大等因素对于标注员来说需要有强大的心理承受能力。
问及是否会用机器替代人力进行标记,BasicFinder CEO杜霖表示,AI对数据需求的多样性会增加AI的范化能力,这样的多样性正是来源于人类本身。用机器生产的数据再训练机器是一个伪命题,会影响AI训练效果。
采访末,BasicFinder CEO杜霖告诉猎云网接下来主要在两个方面发力:一是扎实的运营平台,加大研发力度,让任务发布的管理更加高效;二是降低成本,服务多元的客户需求,提供更高质量的解决方案。