近日,多模态大模型初创公司智子引擎完成千万元天使轮融资。
天眼查信息显示,智子引擎全称为南京智子引擎信息科技有限公司, 成立于2021年5月,其CEO是 90 后青年高一钊,持股占比达80%。高一钊是中国人民大学高瓴人工智能学院博士生,师从卢志武,卢志武在智子引擎中担任顾问一职。对于智子引擎来说,卢志武扮演着重要角色。
事实上,两人从事多模态大模型始于 2020 年。
2020年5月,在 OpenAI 研发的 GPT-3 在AI界掀起巨浪后,中国人民大学高瓴人工智能学组建了多模态大模型研发团队,专门从事图文多模态预训练模型的研究和开发。该团队成为了国内最早从事多模态大模型研究的团队,其核心成员就包括卢志武。也就是那一年,高一钊进入中国人民大学高瓴人工智能学院攻读博士、师从卢志武。
在 ChatGPT 引爆AI浪潮之前,北京智源人工智能研究院曾率先开拓中国大模型研究,名为“悟道”,其中由文继荣主要带领的人大高瓴人工智能学院科学家组成“悟道·文澜”团队,从事多模态大模型方向研究,卢志武任模型研发主力军。
2021 年 3 月,基于对 3000 万图文数据集的预训练,第一代“文澜”——图文检索模型 BriVL 正式问世。三个月后,文澜团队又发布“文澜 2.0”(BriVL-2)。基于 6.5 亿弱相关的图文数据集的预训练,其拥有的模型容量达到50亿参数,是目前最大的中文通用图文预训练模型,可覆盖多个领域和场景,在多个图文检索和生成任务上都取得了优异的性能,比如图像检索、图像描述、视觉问答等。
期间,高一钊也深度参与了文澜 1.0 和 2.0 的图文预训练工作,主要负责数据处理、模型训练和评估等。
从创办时间来看,也就是当时,高一钊看到了多模态研究在大模型时代的新机遇,注册成立了智子引擎。
今年3月,借鉴以往参与文澜模型研发的经验,智子引擎团队正式推出了自主研发的多模态对话大模型,并发布了第一款应用级多模态 ChatGPT 产品“元乘象 ChatImg”。该产品参数量在百亿级别,主要使用了图文对数据和 VQA 数据作为训练集,同时进行图文匹配、图文检索、图像描述生成、文本描述生成等多种任务的训练。
根据用户输入的图片或文字,“元乘象 ChatImg”可以进行智能聊天、讲故事、写广告等。
“元乘象 ChatImg”推出仅2个月多,智子引擎就获得了千万级天使轮融资,可见资本对大模型创业的热度不减,有一定背景的新玩家依然颇具吸引力。
值得注意的是,“悟道”当时聚集了四支主要力量,分别由清华唐杰、清华刘知远、清华黄民烈与人大文继荣领头。唐杰、刘知远与黄民烈均基于大模型技术成立了公司,而高一钊创办智子引擎意味着人大也开始入局大模型创业。