来源:猎云精选;文/孙媛
近一年来,数据标注赛道呈现了一些不同。
在企业端,相较年初,相关赛道玩家融资宣发变少了,资本似乎变得更理智;在“民工”端,数据标注员的工资继续走低,在“月入不过5000,单价从5毛降到4分”的收入变化下,似乎预示着简单的数据标注将会被AI取代。
投资人Jerry说,大家现在已经不单独谈数据标注的概念,而是升级谈更火的数据服务。例如,围绕数据服务新增业务,给大模型公司主动提供数据,或者和大模型公司一起服务于主机厂。
跟随产业发展,不难发现,数据标注的概念和服务内容在升级,玩家们也在复用其原有的管理体系、研发能力等,去解决围绕数据的行业痛点,结合行业变化来逐步拓宽业务范围。
事实上,Jerry所言早有全球数据标注领域的先驱Scale AI在践行。
这家估值73亿美金独角兽,成立于2016年,核心业务就是数据标注,通过快速捕捉AI行业趋势推新,已从自动驾驶场景起家后切入政府、电商、机器人、大模型等场景,提供各类工具、平台和服务。
而在国内,也有这么一家先行者,它仅次于Scale AI一年后成立,创办伊始就获得了水木清华校友基金、老鹰基金、天使湾创投等5家机构进行天使轮“团购”,随后青锐创投、华映资本、厚天资本、瑞夏投资更是相继押注。
它便是以自动化解法切入AI数据标注和数据管理服务的星尘数据。
80后数据科学家回国创业,以自动化做解法
星尘数据掌舵者,是80后数据科学家章磊。
星尘数据创始人兼CEO 章磊
在海外就职期间,章磊先在华尔街做数据量化,后又去硅谷做自动化投资相关的算法工作。期间,他在华尔街工作期间开发的底层风控算法曾被美国联邦储蓄局作为压测标准,在硅谷开发过世界首款股权投资机器人。
回国后,章磊第一次创业,是以CTO的身份做了一家与自动化投资策略相关的公司,该项目需要通过大量NLP(自然语言处理)的数据来进行投资决策,当时投资年化已做到100%。
也正是这次创业,让章磊基于对数据标注的大量需求,与数据堂、龙猫、百度这些数据标注公司打起交道,却意外发现供给侧与需求侧的极大gap。
他看到,自动化投资需要数据侧和算法侧能够进行深入交流,即数据策略,仅仅按每人每天进行数据标注并不能解决算法工程师的问题。另外,由于标注工具简陋不好用,标注员产能也不高,既无法满足企业的工期需求,也无法提高标注员的个人收入。
当时在供给侧端,数据标注公司理念还停留在低认知、低附加性属性的人力外包模式,更多是在赚取人力差,而算法侧本质需求是随时协同迭代,这就导致商汤旷世百度等高认知的早期AI公司只能内部自建标注、数据生产的管道。
章磊坦言,虽然从人力或销售端来切入,可以对人力进行标准化的培训操作上岗,通过职高院校之类的合作来降低人员供给端的成本,但这对于国内数据标注行业来说治标不治本。
当时,他就有一个判断,这种靠人力差价的生意最终会随着自动化技术发展而因为纯粹靠人力而失去成本优势,甚至会亏损。
在低进入、高认知的行业门槛特点下,章磊认为,从长远考虑,自动化才是更优解。
“Autolabeling本身是一套组合拳,里面有很多细节,譬如对感知决策、大模型的任务所需要的自动化完全不一样,需要有很高的算法认知去用最新的技术来解决问题,并且把它落地产品化,成为可复制的工具链。目前行业内玩家不具备这样的能力,更多是在销售端或运营端有一些优势。”
为此,逐鹿数据标注再创业,基于团队的算法以及硅谷背景,章磊决定“从甲方出来解决甲方问题”,从三方面出发。
一,成立一个算法认知的团队去真正解决行业痛点,具备数据策略专家的能力;二,用工具链去做好数据服务,包括数据闭环管理的工具、数据标注、项目管理、数据检索等辅助功能,打造云端工厂的概念;三,让数据处理可以极大被自动化,提高到50%至90%甚至以上,形成一个高度自动化的数据生产管道的终局。
于是,有别于人力服务型数据标注企业,想在国内走出Scale AI之路的星尘数据于2017年应运而生。
以AI全生命周期的数据闭环为基座,把数据价值产品化
从Scale AI的发展态势来看,自动化这条路一旦走通,具备领先优势后可以一招鲜占领生态位,但也并不好走。
算法层面需要根据产品的反馈和用户实际的人因工程来分析进行优化,除了团队要具备能力基因外,还需要以最后实际落地成果来进行验证,譬如其标注的数据策略、工具链的优化、产品形态、算法能不能够跟上等。
星尘的商务和项目团队每次跟客户沟通和pitch时,都被要求跟客户认知在同一水平,成为行业的数据策略专家。
“特别是大模型的公司,因为其数据生成面临着很多不确定性和变化,就需要能够通过数据策略找到各种问题,并且和客户反馈并商量去优化最终效果,以模型效果为目标去发力,提升客户算法效果。”
过去6年,星尘数据在行业从野蛮生长行至盈利爬坡的过程中也没少踩坑,但也正因此,在服务50多家车企和自动驾驶公司、经历上千个项目打磨后,在点滴中积累了算法和产品的迭代能力,其自动化标注平台Rosetta平台现可提供数百个标注功能,支持4DBEV、图像、点云、文本、语音、采集等在内的100+种主流标注场景。
其中,星尘数据的数据闭环解决方案是其Rosetta3.0平台的一大亮点。章磊透露,今年年底,星尘数据即将发布全新的AI数据管理平台MorningStar,打通数据落盘、流程编排、数据管理、数据检索、难例发现、数据送标、算法管理、推理管理等机器学习闭环全链路,持续提升算法迭代速度。
在一个完整的数据闭环中,客户可使用星尘数据提供的离线数据包进行基础版模型训练,星尘数据标注系统通过API与客户算法系统进行交互,动态感知客户模型效果,基于模型各版本迭代,在经历几次迭代后,不仅沉淀了有效数据,还节省了数据成本。
同时,星尘数据还可以在海量数据中找到真正有价值的数据帮助客户训练模型,并利用自有Benchmark数据集评测模型效果。模型上线后,行车数据可用于模型迭代,形成数据闭环。该方案通过打通星尘数据标注系统和客户算法系统,实现主动学习、分批训练和动态发掘有价值数据,从而降低数据标注规模,节省标注成本。
星尘数据AI数据管理平台Morningstar
据悉,具备算法认知和迭代能力的产品(简称技术迭代能力)的客户,譬如自动驾驶感知决策赛道上的Tier1自动驾驶公司和造车新势力等头部技术客户,以及大模型企业,往往倾向于自研整个数据闭环的工具链,把一小部分工作通过找供应商来合作。星尘数据通过技术匹配及形成闭环,就能快速达成合作。
而不具备技术迭代能力的传统车厂等腰部技术公司,则非常依赖于供应商去合作组建数据生产线。虽然增量很大,但其理念和合作方式上没“整明白”,导致数据侧和算法侧都没有很好的一个合作方式。
通常情况下,往往技术侧60分的车厂想要采购90分的供应商,价格又得是行业最低,但数据侧做到90分的前提是技术测也要90分,不然又跑不动,这就需要星尘去协同打造数据生命周期管理的数据闭环系统,回归业务本质来适配以持续创造营收。
章磊透露,目前星尘数据客户以每年2倍增速在发展,主要服务大模型和自动驾驶。感知决策赛道上已服务了90%头部自动驾驶企业,AGI方向的大客户也开始增多,目前已经和多家头部的大模型客户达成合作。
星尘已经与华为在DataOps系统方面达成了战略合作,共同服务于感知决策、通用人工智能等领域,为客户提供更加完善的数据闭环工具和服务支持。
率先步入下一阶段,华映跑来领投A轮
近一年来,随着数据标注走热,VC开始寻求标的,恺望数据、曼孚科技、整数智能等赛道玩家陆续官宣融资,星尘数据这个老玩家也在资本助力开始了加速赛。
在2022年5000万元A轮融资中,华映资本则将橄榄枝扔给了章磊。
彼时,华映资本管理合伙人章高男在看了行业若干个标的后,作为技术创业出身的投资人,便与同样有着技术背景的章磊一见如故,甚至表示,“这个行业要投就投星尘,要不就不投了。”
在章高男看来,技术足以区别真正的企业家和生意人,企业家懂得如何将技术用于再生产、将盈利用于投资,能目标明确、通过产品化可复制的方式去把这盘棋做大。
于是,在几面之缘之下,基于章高男对人的敏锐判断,华映资本领投了星尘数据A轮融资。就在这轮融资中,还有一家VC对星尘后续发展助力颇大,那就是小米生态链机构厚天资本。
也正是机构方在管理和战略上的加持,让章磊带领的星尘数据专注于既定路线用技术去解决行业的本质问题,在眼下更具备“抗补贴”的能力。
章磊坦言,随着数据标注赛道微风渐起,市场愈发激烈,甚至今年形成了以价换市“打补贴”的特殊情况。
“很多玩家为拿资本去抢占市场,或者是拿了资本被要求更激进去抢市场。但这有两个弊端,一是贴钱后,基于价格压力很难做好服务;二是今后很难跟车厂谈价格。”
在这个过程中,章磊看到,车厂也因为买低入坑,但随后也吃一堑长一智,逐步转变采购逻辑,客户端的认知度在市场教育后也有所提高。
星尘数据合作的一家车厂就是如此。
据悉,该车厂想自己搭建数据工具链,刚好有数据标注企业免费提供了一款产品,等于为其省了几百万支出。
然而,由于产品中有各种各样的bug需要处理,车厂不得已又投入了数百万来改造这款工具来实现真正投产。虽然标注成本纸面上还可以,但因为各种数据出问题导致工期耽误,项目暂停又启动,客户对效率降低而导致的隐性成本支出怨声载道。最后,为了保证数据的高效生成,这家车厂还是弃而选择为可用产品付费买单。
“车厂们逐步发现,采购零部件那一套不适合放到软件上。因为零部件有一些性能指标规范,但软件特别是数据相关的产品迭代,不可能用一两个纸面上的指标来评估。星尘跟客户去做技术匹配和长期合作过程当中,会通过赋能联合迭代、建模,实现降本增效。”
随着感知决策以及大模型算法达到了需要不断去以数据为中心迭代算法和模型的临界点,章磊认为数据行业也在迎来一场变革,将出现以下三方面发展态势。
一是纯人力型数据标注公司发展空间缩小,在自动化成本达到了跟人力持平、甚至更便宜的状态后,整体会面临比较大的红海竞争。反向要求企业具备研发自动化标注算法的能力和迭代能力。
二是市场亟需数据价值,其不仅在于数据增值和人类反馈,更在于发现指标跟踪、数据存储、数据检索、算法反馈迭代的工具链。
三是拥有技术迭代、产品迭代能力的公司,要针对客户的痛点去解决问题,才能真正立足。同时,玩家们仅靠数据服务做好还不够,更需要做好工具链和自动化算法,星尘数据目前正处于这一阶段。
“我们看到数据服务可能很快会出现一些革命性的产品,或者说已经有一些实验性的结果在头部实验室诞生,可以极大降低数据的成本,快速提高模型跨领域的适配性和鲁棒性,这种技术也是数据行业下一阶段的趋势。”
接下来,章磊表示,公司将从DataOps全流程进行技术赋能,通过一站式的AI数据管理平台和数据策略服务,以及具有自动化能力的工具链给客户带来整体的价值,提升算法最终效果的上限。
(Jerry为化名)