阅读时间大约7分钟（2504字）

2022-04-27 百度：今年是文心大模型落地关键年

来源：企业供图

大模型的出现，大幅度降低了行业应用的门槛。

【猎云网（微信：ilieyun）北京】4月27日报道（文/黎曼）

一项新的AI技术迎来突破，包括谷歌、微软、英伟达、百度和阿里等在内的几乎所有AI头部企业都在死磕这项技术。

这便是目前世界AI研究领域最热门的话题之一：“大模型”。

AI 技术发展到今天，GPT-3等参数量巨大的模型被人们开发出来，他们在计算机视觉和自然语言处理等领域取得了前所未有的成就。

与之相伴而来的是，随着技术与产业的结合落地，新的技术难关需要被不断攻克。

众所周知，AI 技术的驱动力主要是依靠数据作为养料，当AI嵌入各行各业，不同场景的巨量数据已呈井喷式爆发，如何减少数据标注量、如何提高开发效率、降低应用成本等问题已成为一众AI企业正在思考的问题。而这也已经成为了各大AI企业抢占技术高地、并进行商业化的关键命题。

大模型是人工智能大基础设施的重要组成

“文心大模型”是百度近几年在花大力气投入研发的技术基础设施。

自2019年开始，百度深耕预训练模型研发，并在该年3月率先发布中国首个正式开放的预训练模型ERNIE1.0。去年12月，百度联合鹏城实验室发布了鹏城-百度·文心大模型。

这是全球首个知识增强千亿大模型，也目前全球最大中文单体模型，参数规模达到2600亿。

“文心大模型在百度AI战略里的位置，是人工智能大基础设施的一部分。大基础设施就是硬件到芯片到AI框架、AI大模型，一层层构筑起来的，文心是底座性质的。”百度集团副总裁吴甜介绍。

如何理解这个AI大模型？

AI大模型，指的其实是预训练大模型，是机器学习的一种方式。

类比人的学习来看，人的学习可以分成通识教育和专业教育两段。预训练大模型相当于解决机器学习的通识教育。

此前，机器学习主要通过标注数据，告诉算法哪个数据是正负样本等进行学习。由于人工智能落地场景很多，每个场景都要采数据、标数据，因此在标注的数量和质量上存在很大的瓶颈。

为解决以上问题，自然语言处理领域迎来了一个新的突破：自监督学习。其指的是不用人为标注数据，机器可以用一个方法把知识和规律学出来。

比如，在模型训练中，如果我们把“中国的首都是北京这句话”中的“北京”盖住，让模型去猜中国的首都是哪里，模型可能会猜一个城市，再把盖的地方翻开，告诉模型是对了还是错了，模型也就得到了反馈。这就是自监督学习的其中一种方法。

通过设计类似的学习方式，让模型可以在海量的数据当中进行自监督学习。这个机制的好处就是，它可以把天然存在的大量数据利用起来，打破了一定要精标数据才能学习的瓶颈。

大模型的出现，实际大幅度降低了行业应用的门槛。

“大模型不仅可以自己直接商业化，更有可能作为大的基础设施带来的更大的价值空间。”吴甜称。

百度的文心大模型是如何运营的？

百度早已不仅是搜索巨头，更是一家人工智能公司，文心大模型已经在搜索、信息流、小度智能屏、百度地图等业务场景中不断地去使用、验证、迭代，最终通过开发出配套的工具和平台服务于不同产业，开发者或者企业就可以用方便、简单的做法，甚至可以不写代码就使用起来。

在落地运用方面，除了应用于百度内部的各类产品外，文心大模型还通过飞桨开源开放平台、百度智能云等赋能到工业、能源、金融、通信等行业。当前，百度飞桨系列有两款面向不同人群的平台，一是零门槛平台EasyDL，二是全功能产业平台BML，都已经内嵌了文心以及文心相应的配套算法。

在交付形态上，文心大模型大致上包含三种：第一种是通过API调用方式使用。第二种方式是通过平台、套嵌工具等，使用者可以在EasyDL、BML等平台上直接使用的。第三种是包含在一些面向场景的产品中，比如智能文档分析TextMind，还有智能创作平台。

就AI大模型这个技术而言，不仅能落地解决当前的产业遇到的难题，在未来同样充满想象空间。

吴甜畅想道，今天的模型是以学习人类的经验为主的，学人形成的规律，加强人类建设的一系列体系。未来有可能AI可以学到一些人类还没有学到的一些经验或者知识，这是未来有可能发生的事情。

今年是文心大模型落地关键年

在大模型领域角逐的，不仅有百度，国内外科技巨头如谷歌、微软、英伟达、阿里等，都相继在AI大模型领域展开探索，参数规模从百亿、到千亿，甚至是上万亿。

对于当下的大模型竞赛，吴甜表示，大模型本身还有很多创新空间，现在大家还是在各种不同角度的创新阶段，每一家企业和机构最后会产生的价值和作用，因此各自有所侧重。

百度文心大模型的定位是产业级知识增强大模型。吴甜介绍，文心大模型最大的特点是“知识增强”。

传统大模型只从海量的文本中学习，只能死记硬背文本的规律，并不能从本质上理解世界是怎样运行的，在具体应用时，一些涉及逻辑推理和认知的任务表现较差。为弥补这一缺点，百度引入了知识图谱，通过“知识增强”的方法，将数据与知识融合，提升了文心大模型的通用性。

此外，要理解文心大模型，就需要了解“产业级”的定义。吴甜解释，这个产业级主要指两个方面：

一方面，文心的整个技术是在实际的产业应用过程中打造。首先，它的数据来源是产业当中的数据，学习到大量的知识规律，也是在实际的产业实践当中学习到的；任务设计上，百度希望把大模型打造成通用的底座模型，类比人的通识教育，希望它学的尽可能广泛，打下更好的基础。

另一方面，文心大模型在应用时建设了一系列配套能力，让行业更好用。比如怎样设计数据的标注、建议有多少数据、相应的迁移学习的方法等等。通过这些配套的工具和平台，就会提升真实应用的可行性。

大模型能够引起各大企业的竞相追逐，战略眼光更着眼于远处。从世界以及国家层面来看，产业智能化升级早已是大势所趋。今年1月，国家出台了十四五数字经济发展规划，可以看到国家对于数字经济发展重视程度也越来越高。大模型对于推动数字经济发展有着莫大帮助。

要在产业中应用起来，当前大模型还面临着不小的挑战。吴甜认为，当前部分行业数字化水平还不高，AI真正跟各行各业、各种企业场景结合的时候，复杂度高。场景分散，而且很多场景还比较薄，很多时候获取场景数据非常困难。

另外，参数规模提升确实是有更好的效果，但却不是简单的越大越好，更重要的还是模型能力强。

文心大模型的下一步，是继续创新技术水平，再增强其实用性。吴甜强调，这并不是以迅速获得更大的模型为目标，而是做出一款模型之后，在落地应用中检验效果，并在实用的过程当中调整模型设计。

在文心大模型的规划上，百度今年还会有新技术和模型发布，包含模型能力和平台工具能力的提升。“今年会是文心大模型产业落地关键年。 ”

当前，文心大模型通过飞桨开源开放平台、百度智能云等平台落地，个人、企业开发者数量超6万，并带来显著的提升效果。如在保险领域的文本处理效率提升30倍，医疗领域中的每份病历的检查时间从30分钟缩短到了秒级别。

百度还把百文心大模型能力开放给公众使用，并举办了认知AI创意赛。“人工智能和大模型要面向公众开放，只有门槛低到了所有人都可方便地用起来，才能真正大规模爆发出各种创意。”吴甜表示。

1、猎云网原创文章未经授权转载必究，如需转载请联系官方微信号进行授权。

2、转载时须在文章头部明确注明出处、保留官方微信、作者和原文超链接。如转自猎云网（微信号：lieyunjingxuan

）字样。

3、猎云网报道中所涉及的融资金额均由创业公司提供，仅供参考，猎云网不对真实性背书。

4、联系猎云，请加微信号：jinjilei

热门文章

投资机构

允泰资本

北京允泰投资管理有限公司成立于2017年，是一家聚焦国家战略新兴产业，以科技创投和资产管理为主业的私募股权投资机构。公司目前涉及两大主营业务：私募股权投资、定增投资。公司长期坚持以科技创新型企业投资为目标，重点投资于成长期的具有核心竞争力的高科技、高成长企业，覆盖半导体芯片、新材料、智能制造、新能源、医疗大健康等领域。

青橙资本

专注技术创新，专注早期投资，行业前瞻，与创业企业一起成长。

华兴资本

华兴资本是领先的私募股权投资者，专注于中国高增长及前景广阔的新经济行业。

黑洞投资

黑洞投资成立于2014年，是一家聚焦于多资产类别、多策略投资的平台型投资机构。投资方向为：地产+、互联网+、人工智能、新零售、文化传媒等领域，通过股权投资、战略投资/孵化等形式为新经济生态圈中的创业者提供强有力的支持，携手打造具有高度商业价值和社会价值的优质企业。

北京长安投资

北京长安投资集团有限公司成立于 2002 年 9 月，总部位于北京市西城区闹市口大街 1 号长安兴融中心，注册资本三亿元人民币。经过二十余年的发展，长安投资集团已经成长为集金融、地产和投资三大核心业务为一体，拥有雄厚资本和优良信誉的大型多元化投资集团。

国科嘉和

国科嘉和（北京）投资管理有限公司是中国科学院控股有限公司（简称“国科控股”）直属一级企业，成立于2011年。国科嘉和由国科控股牵头发起，并联合多家国内大型企业集团，共同设立了2支人民币风险创业投资基金（VC基金）、2支人民币并购基金(PE基金）、1支产业专项基金以及1支美元风险投资基金，管理资金总额达数百亿，是国科控股直属唯一同时涵盖VC、PE的专业投资机构。

银盛泰资本

专注医疗大健康和科技领域拥有一流品牌的领先企业，覆盖初创期、成长期、成熟期、Pre-IPO各个阶段，挖掘海内外优质投资机会，成就基业长青的伟大公司！

领沨资本

领沨资本自2015年9月成立以来，致力于投资新金融基础设施领域的优质成长期企业，重点关注具有核心技术壁垒，且具有创造大规模商业及社会价值潜能的企业。领沨资本投资的细分领域依次为人工智能、区块链、金融云／大数据、网络安全及物联网在金融领域中的应用、信贷科技如供应链金融科技、保险科技、投资／财富科技、支付、信用评级与风险管理企业等。领沨资本管理人民币及美元基金，已成为亚太和大中华区最大、最强的金融科技专业基金之一。

钟鼎资本

钟鼎资本，成立于2010年，是一家专注“以供应链为核心能力提升产业效率”的生态型基金。聚焦的投资领域包括物流、供应链、零售&品牌、数据科技等，为国内物流供应链领域最有影响力的投资机构。

联想创投

联想创投为联想集团CVC，专注于面向未来的科技产业投资，投资方向主要为：IoT、边缘计算、云、大数据、人工智能、垂直行业、消费升级等。已投资和孵化超过百家优秀企业，包括美团点评、宁德时代、蔚来、旷视科技、寒武纪、每日优鲜、SHAREit等。

天风天睿

天风证券私募基金子公司，专业从事股权投资和私募基金管理，致力于构建人人受益的产融生态，坚持与客户共存共荣，助力实体经济发展和产业升级。

北辰星资本

目前主要关注体育、文化、娱乐、教育等领域的中早期项目投资；已投资包括肆客体育、伐木累、淘手游、河马牙医、竞彩猫、去滑雪GOSKI、羽贝纳、趣动户外、DS足球、福建天信职业足球俱乐部等项目。2016年肆客体育、竞彩猫、去滑雪三个项目被懒熊体育评选为“年度十佳体育创业项目”，同年由北辰星主导发起的去玩体育产业基金（去玩资本）和红衫、IDG等知名机构一起被猎云网评选为“2016年十大体育产业投资机构”。

菁英汇资本

菁英汇资本是受天津市政府引导基金支持的创投机构，投过的知名案例如奇安信、国开新能源等。主要投资于网络安全、产业互联网、大数据、云计算、物联网、教育信息化等数字经济领域的项目。标签：软科技、企业服务，阶段A轮以后

开牛投资

成立于2015年，是一家以价值投资为宗旨的精品VC，创始团队来自中路资本、上海实业直投部、工商银行投行部、创赢金融等公司的核心成员，具有丰富的一二级市场和互联网、互联网+、消费、教育等领域的投资经验、行业研究经验及资本运作经验，过往案例包括Blued、团车网、波奇网、小卫科技、小鸟教育，赛优教育、丝域养发等。

德联资本

德联资本成立于2011年，重点关注高端制造、前沿科技、医疗健康等领域中技术驱动型项目，已投资启明医疗、盟科医药、珞石机器人、华捷艾米、梅卡曼德、得一微电子、飞致云等数十家创业公司，覆盖机器人、智能制造、人工智能、大数据、企业服务、医疗健康等多个细分领域。

东沙湖基金小镇

江苏省首批省级特色小镇，致力于构建一个以私募基金为核心，实施“资本+科技”双轮驱动，服务于实体经济的多层次体系。

凯旋创投

凯旋创投成立于2008年，中国本土专注于早期科技企业投资的双币私募投资机构。致力于长期投资国家战略新兴产业，包括物联网、高端制造、人工智能、先进医疗、高性能材料等领域，不断构建与完善科技及产业投资生态圈，为创业者提供丰富经验经验、全球视野及资源，并持续赋能。团队拥有丰富的技术行业经验和坚实的高科技产业背景，具备跨越周期的投资能力。

众海投资

众海投资成立于2014年，由前阿里巴巴集团高管鲁众、黄海军共同创办。目前管理着 5 期人民币基金，持续专注于互联网/消费、高新科技和医疗大健康等领域，主要覆盖阶段为初创期与成长期。已投资超过50家优秀的中早期企业，包括乐乐茶、爱慕、宜明昂科、言几又、新中冠、格隆汇、聚土网等。致力于做成长企业的合伙人。

青锐创投

青锐创投成立于2015年，是专注于中早期投资的双币风险投资机构。公司总部位于上海。覆盖范围包括消费、硬科技和前沿科技等领域。

青山资本

青山资本，中国一线天使投资机构，专注消费、TMT领域，主张独立思考、价值投资。致力成为创业者最早、最重要的支持者，与优秀年轻人一道，创造美好生活，重仓中国。

${{item.author_display_name}}$

2022-04-27 百度：今年是文心大模型落地关键年

大模型是人工智能大基础设施的重要组成

今年是文心大模型落地关键年

国产大模型发起春节攻势

从AI点单到AI买电影票，千问大免单再加3天

市值逼近2000亿，智谱开源最新大模型

2022-04-27 百度：今年是文心大模型落地关键年

大模型是人工智能大基础设施的重要组成

今年是文心大模型落地关键年

{{item.post_title}}

{{item.post_title}}

国产大模型发起春节攻势

从AI点单到AI买电影票，千问大免单再加3天

市值逼近2000亿，智谱开源最新大模型