阅读时间大约10分钟以上（5188字）

2024-01-05 大模型潮涌：初创公司如何乘风破浪，投资者何处觅得机遇？

来源：图虫

初创公司在技术和商业的双轮驱动下迎来前所未有的发展机遇，投资者也在这波浪潮中找到丰富的投资可能性。

本文转载自：兴旺投资（ID：gh_dec0310f061c）。猎云网已获授权。

随着大模型时代的到来，以GPT-3.5为代表的AI技术赋能正呈现爆发式增长。全球已发布超过200个大模型，其中我国10亿参数以上的更达80个，勾勒出一个蓬勃发展的大模型生态。在这个充满创新和变革的时代，我们目睹了互联网科技巨头、人工智能企业和初创研究团队的三足鼎立，各自在大模型领域展开激烈竞争。

然而，这一革命性技术的背后也不乏挑战。高昂的训练成本、同质化问题以及算力浪费等诸多难题，让企业在商业化道路上屡屡碰壁。商业模式的探索变得尤为迫切，亟待找到可持续变现的路径。在这个充满机遇和挑战的时代，大模型时代的探索已经成为一场行业的集体智慧之旅。但同时我们也面临着一个关键问题：初创公司在这个时代的投资机会究竟在哪里？这个问题牵动着整个投资领域，涉及技术创新、商业模式探索、市场竞争等多个方面。初创公司在大模型技术的浪潮中，能否找到自己的定位，充分发挥创新优势，成为业界的领军者，是当前投资领域最引人注目的议题之一。

在接下来的讨论中，我们将深入探讨这些问题，以更全面地理解大模型时代的发展趋势。

大模型如何诞生并引爆全球？

大模型商业化落地到什么阶段了？

大模型时代，初创公司的创业机会在哪里？

01.大模型如何诞生并引爆全球？

Chat-GPT是怎么突然出现，又突然火爆全球的？

CNN、RNN和Transformer是深度学习领域中常用的三种特征提取网络结构。在Transformer问世之前，无论是自然语言处理（NLP）还是图像处理（CV），主要由RNN和CNN主导。这两种网络结构在处理序列数据（如文本）和图像方面取得了一定的成功。然而，这些传统结构在一些方面存在一些限制，导致了一段时间内技术和商业化的相对滞后。

直到2017年6月，Google Brain发布了《Attention is all you need》论文，首次引入基于自注意力机制的Transformer框架，为大型模型的发展开辟了新的道路。相较于传统深度学习算法RNN和NLP，Transformer在语言处理中提升了长距离记忆，并采用了并行处理机制。

在Transformer架构中，词与词之间形成全连接的关系，每个词的意义都考虑了整个句子中所有词的关系。这使得计算量增加，但Transformer的并行计算与GPU硬件架构更加契合，提高了效率。

简而言之，相较于RNN和CNN，AI在引入Transformer后具备了更强的记忆能力，从而能够处理更多参数和数据输入，为大型模型的发展奠定了基础。这一进步推动了深度学习领域的创新与发展。

来源：兴旺投资

图表1：深度学习发展历史，资料来源：《深度学习研究综述》，张荣（2018）、华泰研究

有趣的一点是，作为行业的先驱，Google并没有在最初推出引起市场轰动的产品。相反，这一风头却被成立于2015年12月的创业公司OpenAI所领先，引领了接下来大模型领域的发展。

来源：兴旺投资

图表2：全球基于Transformer架构的大语言模型（LLM）演化树

资料来源：《Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond》，Yang Jingfeng（2023）、华泰研究

在2018年初，OpenAI发布了GPT-1模型，然而真正引起关注的是后来的GPT-3版本。这一版本的参数量达到了惊人的1750亿，相较于GPT-2版本，参数量直接提升了两个数量级。这时，人们开始注意到大规模参数模型出现了“涌现”现象，AI模型开始变得像黑盒一样，输出结果的过程难以解释，AI逐渐朝着AIGC的方向迈进。到了2022年11月，基于GPT-3.5的Chat-GPT迅速席卷全球，掀起了全球大模型的热潮。

截至2023年6月，全球发布的大模型已经超过200个，而我国10亿参数规模以上的模型更是超过80个。这一激增的数量表明大模型领域正经历着蓬勃发展，与此同时带来的是同质化问题日益凸显。大模型的训练通常需要大量的计算资源，而这些资源的过度使用可能导致算力浪费，不仅增加了成本，也对环境造成了不必要的负担。

来源：兴旺投资

图表3：海外部分主流大模型情况，资料来源：公开资料，兴旺整理

来源：兴旺投资

图表4：国内部分主流大模型情况，资料来源：公开资料，兴旺整理

02.大模型商业化落地到什么阶段了？

1、大模型竞争格局逐渐明朗，商业化路径逐渐清晰

（1）大模型竞争格局正在逐渐明晰，主要涵盖互联网科技企业、人工智能企业和初创研究团队这三类参与者。这三类参与者各自在大模型领域发挥着不同的优势，形成了一个多元而有机的竞争生态。

互联网科技企业：这一类主要包括百度、三六零、阿里巴巴、腾讯、华为、昆仑万维等互联网科技巨头。作为互联网行业的老牌公司，这些企业在人工智能领域积累了深厚的业务经验，同时在大模型的训练方面拥有基础性优势，如算力资源和语料资源。

人工智能企业：商汤、科大讯飞等人工智能企业属于这一类别。它们专注于垂直领域的深入研究，对大模型的理解、训练和优化有着垂直行业的知识和技术积累。

初创研究团队：包括北京智源研究院、Minimax等研究型机构和初创企业。这些参与者更加专注于大模型相关技术的研究，业务专注度更高，致力于在特定领域或问题上取得创新性的突破。

（2）尽管大模型数量增长迅猛，但是商业化变现仍在探索中。中国电信研究院指出了三种主导商业模式：

一是“龙头大模型+原有业务”：如谷歌、微软、Meta，将大模型整合进传统业务，全面升级。例如微软，利用GPT-4在Azure云、Office365、Dynamics365等业务中提升智能水平。

二是“龙头大模型+外部行业数据”：创业公司普遍采用这种模式，通过调用API或GPT微调，快速推出具有行业特色的AI产品，利用大模型技术和算力，通过外部数据源增强产品的相关性和准确性。

以百度为例，文心大模型广泛应用于百度自有业务，覆盖搜索、金融、智能屏、地图等领域。此外，超过650家企业接入文心一言生态，推动大模型在各个行业内普及。文心大模型与国网、浦发、中国航天、人民网等企业合作推出11个行业大模型，跨行业应用促进各行业智能化转型。

来源：兴旺投资

图表5：百度“文心一言”全景图，资料来源：公开资料，兴旺整理

在收费模式上，目前龙头大模型主要的盈利模式包括交易量收费、定制开发收费、服务费用和订阅收费四种模式。

交易量收费（MaaS）：如OpenAI、文心千帆等提供AI模型接口，按API调用或交易量收费，是最常见盈利方式。

定制开发收费（SaaS模式）：为客户特定领域开发AI模型，费用取决于开发难度和时间成本，适用于个性化解决方案需求。

服务收费：根据数据处理、标注、质量控制等服务收费，提供全方位支持，确保最佳服务体验。

订阅收费：客户可按需选择基本、标准或高级订阅级别，按月或年收费，根据所需服务数量和类型定价。

三是“开源大模型+自有行业数据搭建行业大模型”。主要适用于中大型企业，通过基于开源模型研发，深度融合自有行业数据。例如，在金融领域，企业可基于开源模型开发大规模语言模型（LLM），与金融专业知识深度结合。

2、ChatGPT一年后的落地探索：能源和金融行业领跑

距离ChatGPT爆发已经过去将近一年的时间，从落地应用场景来看，数据基础好、技术需求大、商业价值高的行业，成为最有可能先落地的应用场景。

来源：钛媒体

图表6：大模型行业落地阶段，资料来源：钛媒体

金融和能源行业已经试点应用：

金融行业：智能问答、智能客服、数字营业厅、贷后报告生成、唤醒沉睡客户以及金融产品推荐等AI大模型应用逐渐取得实质进展。今年，包括工商银行、农业银行、中国银行、交通银行、招商银行、中信银行、兴业银行、华夏银行、浙商银行等9家银行明确表示正在积极探索大模型。

能源行业：智能客服、设备运检知识助手、检修文档生成、电力系统仿真平台、电力负荷预测等已经试点应用。

消费品零售、证券、媒体行业仍在探索阶段：

新闻和媒体领域：大模型加速新闻稿生成，提升传播速度。娱乐方面，音乐、艺术、电影领域开始尝试AI创作。

零售行业：零售商利用大模型提升客户体验，实现动态定价、细分客户、个性化推荐和可视化搜索。生成式AI利用元标签创造更详细的产品描述，如“低糖”、“无麸质”等。

高等教育：教育信息化公司如网易有道“子曰”、好未来、科大讯飞“星火”、淘云科技等推出专用大模型，应用于智能辅导、论文评分、论文检索等。在高校中，佛罗里达大学开发的自然语言处理模型可读取医学语言并自动绘制图表。基因组学大模型等专业应用也在逐步落地。

来源：兴旺投资

图表7：教育大模型行业落地案例，资料来源：科大讯飞、网易有道、好未来、淘云科技、中国银河证券研究所

制造业和医疗处于观望落地状态：

这两个行业通常涉及大量敏感性高、隐私性强的数据，因此对数据的保密性要求相对较高。还可能涉及图像、声音等多种模态的信息。这两个行业的应用仍然处于观望阶段。但已有以下探索：

语音输入+电子病历：微软的Nuance Communications推出DAX，通过环境AI和GPT-4语音记录医患信息，更新电子病历。

药物研发：Salesforce的Progeon是基于Transformer的条件蛋白语言模型，模拟残基相互作用，支持合成新型蛋白质。

全流程智能化诊疗：国内医疗大语言模型MedGPT基于Transformer，通过RLHF监督微调，在医疗场景中实现全流程智能化诊疗。

辅助诊断：上海市算力网络数字医疗实验室发布“Uni-talk”医疗算网大模型，利用多元算力实现智能管控，有望用于专业医学文献检索和辅助诊断。

03.大模型时代，初创公司的创业机会在哪里？

1、大模型创业是高昂成本下的龙头竞逐

在大模型开始逐渐商业化清晰的今天，大模型创业是高昂成本下的龙头竞逐。大模型创业从一开始就是一项资金投入巨大的任务。据估算，单次大模型训练成本从200万美元到1200万美元不等，而GPT-4的单次训练费用甚至可能高达6300万美元。即便是得到马斯克和微软支持的OpenAI，也需要不断寻求融资来维持运营，仅在2022年，就亏损了大约5.4亿美元。总体而言，基础大模型训练面临高昂成本和研发难度，这使得市场上只有少数龙头大模型能够生存，未来将形成一种“赢者通吃”的趋势，而围绕这些龙头大模型的创业生态将逐步形成，为市场带来更激烈的竞争和创新。

2、初创公司的创业机会在哪里？

我们将AI模型拆分为三层来看：

基础层：构建在预训练模型基础上的AIGC技术基础设施，包括硬件提供商、服务器和大模型技术提供商。

中间层：通过基础层模型进行特定训练，形成垂直化、场景化和定制化的应用工具。

应用层：提供面向用户的各种AIGC应用，涵盖图像、语音、文字生成等多方面。

来源：兴旺投资

图表8：AI大模型结构拆分，资料来源：a16z官网，拾象科技公众号，中金公司研究部

（1）应用层：初创公司在应用层的机会主要聚焦在工程能力与垂直数据释放

1）大模型新架构推动：采用新架构的大模型推动AIGC迈入杀手级应用涌现阶段，带来智能训练的新产品，增加收入预期。

2）工程实现能力提升：通过工程实现能力的提升，实现“降本增效”以提升利润，为未来三年的业绩提供增长预期。

3）垂直场景高质量数据价值释放：垂直场景下的高质量数据要素释放带来的价值重估预期。

其中2）、3）为适合初创公司的创业方向。在大模型向小模型转变的过程中，拥有大量垂直领域数据积累和行业知识的企业能够构建AI垂类模型，形成进入壁垒。但是，创业公司在这一方向上需解决生成式AI公司面临的问题，即如何用优质内容吸引并保留用户。创业公司需要具备强大的模型研发和创新能力才能打造爆款应用。若不能达到这一水平，小模型的创业公司在产品开发中可能会依赖于开源模型或底座大模型API输出的AI能力。当研发底座大模型的企业和科技巨头开始进行相似的尝试时，创业公司可能会迅速被赶超。

比较成功的案例如：

Monica插件：Google上的小插件，支持文案撰写和智能搜索。目前有60万用户，每月收费8.3美元，年收入约6,000万美元。制作团队仅有11人。

Anthropic和Character.ai：聊天机器人公司Anthropic估值200亿美元，Character.ai估值50亿美元。

Midjourney：推出AI绘图工具，估值100亿美元，年收入达2亿美元，员工仅有40人。

由此可见，这种基于大模型之上的小模型其实有无限可能，因此未来如果有机会涌现的话，一般都是小模型。因为它定位很明确，能够很直接地帮用户处理难题。

（2）中间层：高速增长的黄金时代，30%+预期增长，市场潜力巨大

中间层根据模型的业务流程，通常分成数据准备、模型训练、模型部署以及产品化四个方面。目前，AI 中间层正处于高速增长的发展早期，大部分细分领域的规模在几亿至几十亿美元之间，预计在未来3-5年内将保持30%+的高速增长。同时，Data+AI、MLOps/LLMOps等平台型产品的市场潜力可能更大，点工具厂商也在积极拓展产品范围。作为AI时代不可或缺的基础设施，具有确定性高的“掘金卖铲”逻辑，有望持续受益于LLM、AI应用的繁荣。此外，海外代表公司在不同中间层细分领域的商业模式普遍采用按使用量付费的定价模式，大多数创业公司成立时间较短，目前的收入体量在数千万至小几亿美元之间。

来源：中金公司

图表9：AI中间层全景图，数据来源：中金公司

来源：中金公司

图表10：AI 中间层细分赛道市场规模，数据来源：中金公司

（3）基础层：大模型时代催生人工智能算力需求飙升，AI芯片市场潜力巨大

随着人工智能发展进入大模型时代，参数增加导致训练模型的算力呈指数级增长，预计大模型的训练算力将是以往的10到100倍。根据IDC和浪潮信息数据，2021年中国智能算力达到每秒155.2 EFLOPS，2022年将升至268.0 EFLOPS，预计到2026年将达到每秒十万亿亿次浮点计算（ZFLOPS）级别，达1,271.4 EFLOPS。AI算力主要依赖服务器和AI芯片提供加速计算支持，当前英伟达在全球GPU市场市占率高达88%，而国产芯片替代有着巨大的发展空间。

这一发展趋势为投资者和创业者带来了巨大机遇。投资人可关注AI算力领域，特别是与服务器、AI芯片相关的产业链，寻找潜力股。创业者则可聚焦在研发更高效、节能的AI计算解决方案，挖掘国产芯片的潜力。大模型时代的算力需求将推动整个产业的创新与进步，为投资者和创业者创造可观回报提供了有力支持。

来源：兴旺投资

图表11：中国AI智能算力规模及预测，资料来源：IDC、浪潮信息、中国银河证券研究院

04.结语

大模型时代充满机遇，技术创新和商业应用为初创公司打开广阔发展空间。从技术层面看，大模型的涌现推动了自然语言处理、图像生成等领域的迅速发展，为初创公司提供独特的技术探索机会。从应用层到中间层再到基础层，初创公司可在技术前沿不断拓展创新领域。

商业领域在大模型影响下迎来深刻变革，金融、医疗、能源等行业积极应用大模型，为初创公司提供多行业商业机会。通过定制开发、服务提供及多元商业模式，初创公司能在商业化中找到适应自身特点的发展路径。这种广泛应用为投资者提供多元选择，包括各支持层、各行业技术创新者以及拥有丰富行业数据的公司，都呈现独特投资价值。

总体而言，大模型时代充满机遇。初创公司在技术和商业的双轮驱动下迎来前所未有的发展机遇，投资者也在这波浪潮中找到丰富的投资可能性。大模型时代为科技和商业创新构建了坚实平台，共同塑造未来的投资格局。