阅读时间大约8分钟（3188字）

2024-04-28 背靠清华，“国产最强”Sora来了！

来源：图虫

启明百度智谱蚂蚁，均已入股。

来源：猎云精选，文/王非

从ChatGPT到Sora，大模型热潮汹涌依旧。

距离Sora发布仅两个多月，“中国版Sora”就已经从概念和口号，成为了现实。

4月27日，生成式人工智能基础设施及应用提供商生数科技，刚刚正式发布了中国首个长时长、高一致性、高动态性视频大模型——Vidu，支持一键生成长达16秒、分辨率高达1080P的高清视频内容。

仅从时长来看，相较于Sora长达60秒的视频生成能力，Vidu已然达到了前者的26.67%的水平。而在视频效果上，Vidu也堪称“媲美”。基于此，生数科技颇有底气地为Vidu，打上了“全面对标Sora”的标签。

值得一提的是，与2023年，清华系占据大模型赛道半壁江山，如出一辙。此次，Vidu的诞生，也和清华关系匪浅。

首先，Vidu正是由生数科技联合清华大学共同发布的。其次，生数科技的首席科学家正是清华大学计算机系教授、人工智能研究院副院长朱军。第三，生数科技的CEO唐家渝本硕就读于清华大学计算机系；CTO鲍凡则是清华大学计算机系博士生、朱军教授的课题组成员。

仅凭强大的团队组成，生数科技就成为了资本市场上炙手可热的存在。

在过去七个月内，刚刚成立一年多的生数科技，接连完成三轮大额融资，蚂蚁集团、百度、锦秋基金、启明创投、智谱AI均已成为该公司股东，并助推其成为目前国内在多模态大模型赛道估值最高的创业团队。

全面对标Sora！16秒+1080P

当地时间2月15日，OpenAI正式发布文生视频模型Sora，并发布了48个文生视频案例和技术报告，宣告入局视频生成领域。自此，国内多模态大模型赛道，热度不断攀升。

早在2023年6月，就明确表示“正积极打造世界领先的可控多模态通用大模型”的生数科技，似乎已然具备了先发优势。

事实，确也如此。据钛媒体消息，今年三月唐家渝曾表示，生数科技的视频生成长度在4-5秒左右，“我们近期将重点突破长视频生成能力……尤其长视频画面的连贯性。”

谈及与Sora的竞争，唐家渝城，“整体上来讲，我们（中国）追赶Sora肯定比追赶GPT-4容易一些。今年一定能达到Sora目前版本的效果，很难说是三个月还是半年。”

一个月过去，唐家渝的目标进度，显然迈进了一大步。

生数科技介绍称，Vidu不仅能够模拟真实物，还拥有丰富想象力，具备多镜头生成、时空一致性高等特点。Vidu也是自Sora发布之后全球率先取得重大突破的视频大模型，性能全面对标国际顶尖水平，并在加速迭代提升中。

在时长方面，Vidu能够根据提供的文本描述直接生成长达16秒的高质量视频。换言之，生数科技已经相较于一个月前，有了3-4倍的成长。

除了在时长方面的突破外，Vidu在视频效果方面实现显著提升，主要体现在几个方面：

模拟真实物理世界：能够生成细节复杂的场景，且符合真实的物理规律，例如合理的光影效果、细腻的人物表情等；

具有丰富想象力：能够生成真实世界不存在的虚构画面，创造出具有深度和复杂性的超现实主义内容。

多镜头语言：能够生成复杂的动态镜头，不再局限于简单的推、拉、移等固定镜头，而是能够围绕统一主体在一段画面里就实现远景、近景、中景、特写等不同镜头的切换，包括能直接生成长镜头、追焦、转场等效果，给视频注入镜头语言；

时空一致性高：在16秒的时长上保持连贯流畅，随着镜头的移动，人物和场景在时间、空间中能够保持一致；

理解中国元素：能够生成特有的中国元素，例如熊猫、龙等；

值得一提的是，短片中的片段都是从头到尾连续生成，没有明显的插帧现象，从这种“一镜到底”的表现能够推测出，Vidu采用的是“一步到位”的生成方式，与Sora一样，文本到视频的转换是直接且连续的，在底层算法实现上是基于单一模型完全端到端生成，不涉及中间的插帧和其他多步骤的处理。

清华教授“带队”，“师生共创”2.0

Vidu的诞生，离不开一个灵魂人物，他就是清华大学计算机系博世人工智能冠名教授、IEEE Fellow、清华大学人工智能研究院副院长、计算机系人智实验室主任，曾任卡内基梅隆大学兼职教授的朱军。

学术层面，朱军教授主要从事机器学习研究，发表CCF A类会议/期刊论文百余篇，谷歌学术引用2.5万余次；担任国际著名期刊IEEE TPAMI的副主编，担任ICML、NeurIPS、ICLR等（资深）领域主席20余次。

在国内“科技成果转化”、“教授创业”的热潮下，朱军教授也以首席科学家的身份，在创投圈开辟了一片新天地。

2018年7月，源自于清华大学AI研究院的瑞莱智慧（RealAI）正式创立，并成为清华大学推进人工智能技术与产业的深度融合的产学研示范企业，由毕业于清华大学、曾获清华特等奖学金和西贝尔学者荣誉的田天博士担任公司CEO，清华大学AI研究院首任院长张钹院士与朱军教授共同担任公司首席科学家。

值得一提的是，田天本科毕业后被保送至清华大学计算机系智能技术与系统国家重点实验室继续深造，他的老师正是朱军教授，堪称“师生共创”的又一典范。

今年4月，人工智能安全基础设施提供商瑞莱智慧刚刚完成了新一轮战略融资，北京市人工智能产业投资基金等参与投资。此前，该公司已获蚂蚁集团、百度、中国互联网投资基金、前海母基金等知名机构的多轮融资，已然成为独角兽后备军的一员。

迈入大模型元年的2023年，朱军教授“因时而动”，带领学生火速开辟新战场，于当年3月成立新公司——生数科技，早早地入局多模态大模型赛道。

据悉，生数科技由瑞莱智慧、蚂蚁集团和BV百度风投联合孵化，前瑞莱智慧副总裁唐家渝出任CEO，朱军教授同样担任公司首席科学家。

这一次，同样是“师生共创”模式。与朱军教授并肩作战的，是生数科技CTO鲍凡，清华大学计算机系博士生、朱军教授的课题组成员。CEO唐家渝则毕业于清华大学计算机系，师从NLP组教授孙茂松，曾在腾讯优图实验室工作。

天眼查App信息显示，瑞莱智慧持有生数科技约28.57%股权；朱军教授持股约8.16%，位列第三大股东，最终受益股份约17.17%；高管层面，唐家渝和鲍凡军持股约5.44%，二人的最终受益股份分别约为23.63%、5.44%；此外，瑞莱智慧CEO田天则持股约2.04%，最终受益股份约12.21%。

强大的技术团队背景，也成为生数科技追赶Sora的依仗，进而支撑Vidu的快速突破。早在2022年9月，生数科技团队就提出了Vidu的核心技术U-ViT架构，早于Sora采用的DiT架构。它也是全球首个Diffusion与Transformer融合的架构，完全由团队自主研发。

2023年3月，生数科技团队开源全球首个基于U-ViT架构的多模态扩散大模UniDiffuser，在全球范围内率先完成融合架构的大规模可扩展性（Scaling Law）验证。UniDiffuser是在大规模图文数据集LAION-5B上训练出的近10亿参数量模型，支持图文模态间的任意生成和转换。在架构上，UniDiffuser比同样DiT架构的Stable Diffusion 3领先了一年。

作为国内最早布局多模态通用大模型的团队之一，生数科技基于此前积累，早早地就从0到1打造着产业级的多模态深度生成式大模型，覆盖文本、图像、3D模型、音视频等多个模态。

凭借于此，在今年2月Sora发布推出后，生数科技团队方能基于对U-ViT架构的深入理解以及长期积累的工程与数据经验，在短短两个月进一步突破长视频表示与处理关键技术，研发推出Vidu视频大模型。