8月21日,2024世界机器人大会在北京开幕,猎豹移动董事长兼CEO、猎户星空董事长傅盛,进行了题目为《端模合一:大模型赋能机器人的创新实践》的演讲:
在演讲中,傅盛从大模型落地机器人产业的实践出发,认为大模型也没有那么神秘,但大模型要足够大、足够多的数据,才会突然有一天涌现出、顿悟出它的智能。要对人形机器人的技术复杂度怀着充分的敬意,落地还要很长时间。不过人形机器人不一定非得像人,但得有双手。
以下为演讲实录:
今天非常荣幸有机会在这里跟大家分享一些我们从事机器人行业尤其人工智能行业应该有7年多了一些心得和技术变化的体会。
其实猎豹移动经历了三个周期。
第一个周期,最早把金山毒霸这款工业产品变成免费的互联网产品;
第二个周期,全球化,2012年的时候做了全球的工序列软件,并且有两年的时间使得用户量在全球范围内达到了6亿的月度活跃,80%来自于海外,所以在2014年就在纽交所上市了;
第三个周期,2016年看到了人工智能的兴起就是以AlphaGo为代表的人工智能1.0的兴起,当时就有一个判断,我认为人工智能会使机器人这个行业从传统的工业场景走到服务业场景,最后走进千家万户,所以猎豹移动又投资创办了猎户星空作为一家独立的公司更好的实现自己在机器人方面的探索。
到今天不知不觉已经7年多了时间了。
今年刚刚更新的公司的Slogan:在AGI时代,成为全球领先的新质生产力工具的提供商。我们从最早创立的时候做杀毒软件、工具软件,机器人其实都是看成工具,我们这个团队的能力和基因也是来自于工具,现在整个公司有4个业务板块,今天主要是机器人业务,我们的第四大业务。
先讲一下这波人工智能对于整个行业的影响或者基础的理论,相信大家比较熟悉了,其实有一个我很喜欢的科普作家,他在去年的时候就说人工智能这次的崛起可能是人类科技史上非常重要的一年就是“奇迹年”,这个出现就像当年牛顿“万有引力”那一年,和1905年爱因斯坦的“相对论”,因为这波大语言模型带来的端到端真正的创新范式的影响对于全行业、全社会都是巨大的改变。
前不久阿里巴巴的首席科学家说这波AI使得科研从过去的假设科研会变成端到端的科研,也就是说未来是越多的数据就能及时得出结论,不再需要中间进行假设、公式等等,我们可以看到AI不仅在机器人行业,在各个行业都发生着重大范式的变化。
语义理解等到机器人懂语言这件事就是一个重大改变,我记得在AI1.0时代当时觉得机器人能下围棋能识别图像已经很厉害了,但是一直等到ChatGPT出来的时候才意识到语言的理解和图像的理解根本是两个维度的难度,当时在2016、2017年大家认为自动驾驶很快会实现,语言会实现,事实上在那波浪潮以后,其实人工智能整个的技术天花板大概有几年没有真正突破的,一直到ChatGPT出现,所以语言实际上是人类真正独立于其它物种的核心智能,真正识别也好,图象识别、语音识别,动物也都有这样的能力,但是语言尤其是描述虚拟事物的语言是人和其它动物真正的核心区别。
当然OpenAI的出现,很多人问我一个问题为什么OpenAI能做成,我觉得更多是走了一条不同的路径,与其说OpenAI是技术积累的胜利,不如说是技术信仰的胜利,它是真正从过去规则模式变成自己学习的模式,这之前为了语言的理解,教了计算机很多规则,只有OpenAI坚信不需要教它规则,让它读足够多的文本就能够出现智能,这件事在当时看起来即便在硅谷,我跟很多大厂的研究员都交流过,他们都认为OpenAI这条路肯定走不通,但是ChatGPT出现的时候,对于整个行业的影响都是巨大的,不是一个技术积累的胜利,人工智能真正的底层模型一直到Transformer的时候大家都在一条路上,后来谷歌用Transformer做了BERT以后,大家都认为BERT已经是非常惊艳的一个模型了,但是只有OpenAI坚信其实可以用更大的数据、更大的参数做一个完全生成式的模型而不是判别式模型,这条路开始是一个小的分支,后来等到ChatGPT出现的时候,大家才意识到这条路是完全可以做到的,这背后就像一个大航海一样,哥伦布的三个小船到了美洲,之后很多船就可以到美洲,本质上路径并没有那么难,但是想到这条路径是最难的。
这个也是和1.0时代最大的区别,1.0时代对一个系统只要喂数据就会出现一定情况的智能,但是随着数据的增多,智能就到了一个瓶颈,真正2.0时代管它叫顿悟,一开始说OpenAI真正牛的地方在于一开始这个系统是很差的,喂了很多数据都显的特别笨,突然有一天就像小孩子放在身边,跟着父母半年、一年突然有一天开口叫妈妈的时候,他的语言能力一下子突飞猛进了,在前面的寂寞期是最难的,所有人不看好又不断的烧钱,它的首席科学家一直在说不够智能就是因为数据不够。
那天跟我们的团队交流了一下,BERT作为当时来看很大参数的质量模型,大概也就几千万上亿的参数,等到ChatGPT直接到一千亿参数,产生了完全的质变,后来各种证明这波的人工智能大模型最大的不同就是要足够大、足够多的数据才会突然有一天涌现出、顿悟出它的智能,但是也没有那么神秘。
我前两天去香港大学,他们刚刚成立了一个人工智能的学院,把计算机系、统计系等等这些都给合在一起,让马教授当院长,他是我们的独董经常和他有很多交流,他的一个观点就是很多人把大模型神秘化了,它是一个非常好的工具但是并没有那么神秘。
第二个所谓会产生意识毁灭人类这件事要么不懂,要么是别有用心,希望更多的让小公司不要参与是最好的,即便在美国很多大公司把这个事情描绘的要毁灭人类一样,但是事实上就是一个好用的工具,如果最简化的理解看成一个大号的计算器,它的本质就是计算下一个词的概率,这个词的概率不断的出现,出了这么多词以后居然是一个非常连贯的语句能够完成逻辑和推理,这事原理非常简单就是下个词不断的概率统计,但是却能够涌现出职能,到今天为止这里面的细节原理都是不知道的,所以李飞飞有句话说“大模型是个灰盒”,也不完全是黑盒,大概我们知道神经元的不断连接就可以产生智能,但是中间究竟每个智能是如何产生的,今天是个灰盒,因为过于复杂,我们业内有句话今天训大模型就像炼丹一样,一直等到炉子打开的时候才知道这个丹到底炼没炼好,其实缺乏对过程的理解。
回顾OpenAI来看,OpenAI真正走出一条与众不同的道路然后实现了创新,但是我想说OpenAI并不一定是通过AGI的唯一道路,今天大语言模型到底能不能通往AGI大家又开始出现了分歧,很多人说大语言模型是一个问答模型,本质上是个概率统计,所以很难产生足够的规划能力,吴文达最近说要用Agent技术要把更多的人类知识合规化和大模型结合,大模型是众多工具中的一个,但是能不能走向AGI现在有人在打问号。
包括Meta的首席科学家杨立昆不断在说大语言模型的天然结构使得它很难实现AGI,其实马毅教授,他是华人中人工智能界非常泰斗级的人物了,因为他的论文被引用次数是非常多的,他们团队正在致力于Transformer的白盒化,能够把过程真正的给理解,这样的话才能知道这一千多亿的神经元里哪些是效率很低的,不需要的,可以重新设计结构,我们看到这个科技树又在不断的分杈。
除了OpenAI在做的一千多亿上万亿,GPT4是1点几万亿的模型之外,更多出现了很多小参数的模型,几十亿参数、几亿参数的,这也是一个非常重要的分歧,我们在去年3月的时候我就认为不是只有一条路能够走通,比如说最好的创业公司融了最多的钱,但是会有一群爱好者、黑客还有教授、学者、其它公司就说能不能再走一条不一样的路,既然智能是涌现的,是不是只有一千亿参数才能涌现智能,是不是一百亿参数也可以涌现智能,你往那边想造一个爱因斯坦解决全世界的问题,但是另一个观点认为我们其实很多工作不需要爱因斯坦。
如果家里换灯泡是请爱因斯坦来换,当然人已经不在了,其实旁边的胡师傅换灯泡效果又快又好。整个社会是一个多元结构的,是一个金字塔型的结构,所以在基层其实需要更多的平民化大模型的出现。
今天可以看到在过去根据时间来看,现在出现的很多大模型都是在小参数量下,我们会发现世界上最大几家公司尤其像苹果、微软都在不断发布很小参数量的模型,苹果发布了一亿多参数的模型,微软发布了7亿参数的模型,其实他们为什么不断的发布小参数模型,因为这个可能直接跑在端上直接变成终端的一部分,而不再是云端的一部分,这带来的产品变革和科技变革可能它的意义更大。
我们去年也训了一个模型是14B的,很重要一个方面是训练100B的钱花很多,另一个点我们当时考虑以后我们的机器人一定要端上自己跑一个模型,这个模型就能实现实时的处理,而不需要跑到云端,既解决数据隐私的问题又解决快速响应的问题,我们的思路一直是在一个小参数量的模型上进行尝试,看看能不能把它的推理能力做到在这个领域内不错。
其实很多工作一个合格的本科生甚至专科生就够了,我们国家为什么只需要一半人上办学,其实很多工作作为一个技术工种不需要了解那么多丰富的知识也能做好。我们提出了端模一体,根据今天做的产品尤其在机器人行业,根据机器人应用场景选择你的模型,要么是一个小参数模型,要么是本地和服务端相互协调的,优势第一是推理成本很低,最近有Copilot PC,很多人都买,微软给大家展示的场景就是你的电脑上直接跑了一个模型,再也不需要调API,也不需要付费了,一个晚上给你不停的干活,响应很快。
由于参数小了,所以一个4090、3090都能秒秒钟吐出几百个token和传统程序的响应速度可以媲美,安全可靠,你的数据不会送到云端,这样的话解决一个大家都非常担忧的隐私问题。
我们可以看到今天的巨头为端模一体做了很多工作,比如苹果,我们都知道苹果前不久开了一个发布会,这可能是苹果历史上唯一一次没有发布任何新的硬件产品但是股价涨的最多的发布会,就发布了一个IOS18,就是一个Siri,Siri里就是一个语音的交互,前面发布其它产品的时候股价一直在跌,我整个晚上全程监控,等到Siri上场的时候就开始涨了,第二天大涨7%,第三天又涨了3%,一个3万亿美金的公司因为发布了一个本地化模型的产品,大概涨了3000亿美金的市值,其实里面提的最多的就是今天的iPhone 15 pro max就能跑一个在本地的模型,这个本地模型可以处理所有的邮件、聊天内容,甚至实现真正无缝连接的个人助理。
举了一个例子,明天你妈要来机场了,你得接她,因为它从邮件里读出来的,但是苹果用了大量的篇幅告诉大家我虽然可以给你处理的这么好,但是对于你的隐私是高度关注的,首先我用的是端上的模型,这个模型处理大部分的数据,第二个如果端上模型能力不够的时候再给服务端,服务端是一个加密的存储,我都不知道数据是什么。
第三个如果要用ChatGPT的话,会给你一个提示,是否要把这个内容给ChatGPT处理。再一个为了模型调整端,微软发布了Copilot PC这是微软历史上第一次搭载为inter的CPU,为什么选用高通的CPU,在其他主流性能和主流芯片有所优势之外,最重要的是有一个40T tops的AI芯片,有一个专门小的主力模块,高达40T的tops算力专门处理AI相关的算力,这样的话在未来模型不再需要消耗CPU,也不需要消耗GPU,一个专用的NUP就解决了本地模型的处理问题,能够实现非常快的响应。
我们认为端模一体未来一定是交互革命和生产力革命两件事,交互革命我们以前大部分工作都是围着机器,我们学写程序,是让机器理解我们的需求然后实现它的代码,我们怎么做PPT,怎么用office,也是让机器真正把我们的idea变成一个文档,今天已经开始出现了很多了机器围着人转,我需要一个什么文档,不需要了解哪个办公软件怎么用的,你去帮我生成,所有的设备都会被重做一遍,这次苹果为什么发布一个软件产品,引发了那么大的反响,相当于苹果被重新设计了,iPhone被重新设计了,可能以后屏幕更多是展示的窗口,而语言才是真正和它交流的窗口。自然语言是我们最熟悉和方便的表达方式,我们不需要学习任何的界面就能够很好的使用机器,而在以前我们是不可以的,所有的东西或多或少都要学习,以前连个健康码都要学习,老人不懂怎么调出健康码就寸步难行。
第二个就是生产力革命,这波电能能够转成通用智能,今天讲Robot,其实在英语里不是人的概念,它实际上就是劳动力的概念,就是一个劳动力、奴役的意思,能帮我们解决更多问题。今天已经看到了很多企业开始出现了交互革命,比如说Meta最近那款眼镜,在有大语言模型之前,这个眼镜其实大家一直鸡肋型产品,但是现在能够帮助盲人识别红绿灯,能告诉他怎么走。
三星也发布了AI手机,你跟别人打电话时自动就翻译了,生产力革命联想这样的企业这么长时间,今年财报大涨,很大一部分来自于Copilot PC,以前PC也是生产力工具,但是生产力工具必须一直围着PC,只要离开了就不工作,你要不停的输指令,以后可能晚上的时候跟PC说今天给我把所有网上的信息找好,分门别类的存在各种文档,交待5分钟你就睡了,然后它就开始干,我们想象一个这样的场景。
这是我们投了一家公司叫秒播,其实就是用AI实现真正的一键开播,一个直播间完全感觉不到是AI做的,和一个真实直播间一样,但是它的成本比起小姐姐便宜多了,这个公司的收入涨的非常快。
我们要做好新质生产力工具,做好机器人就要把大模型和机器人紧密的结合,国外有一个基金说以后机器人就是一个新的物种,它的CPU、GPU对应我们的大脑,它的大语言模型就像我们上过大学一样,能让你的智能进行展现,人吃的知识来自于书,但是机器人来自自己的学习,能源我们是食物,它就是电力,我们是在这个行业内因为做的早,其实把当时的语音、语义、导航这些东西都做过一遍,但是今天发现大一统的大模型能够解决大部分问题。
我们很早提出来机器人不应该是一个自动化的机器,AI在里面应该是一个很大的比重,今天看起来这个公式也不过时,我们认为AI是一个底层的逻辑再加软件、硬件这样服务才是一个大模型机器人。
我们最近在做的工作就是把过去其实在4、5年前机器人就开始慢慢的量产,最近在做的工作是把大模型和这个端结合起来,叫做大模型机器人,变成端模一体,当有了大模型做成大脑的时候就会发现整个智能水平、规划能力都大幅度的提升。
我们在2016年的时候做服务机器人,当时就预见到人工智能会是很大的变革,事实上坦率的讲在ChatGPT大语言模型出来之前,即便我们做的所谓的人工智能体系都是一个预设任务,你进一个餐厅要把菜谱输给它,匹配很多问答队,每个工作都特别繁重然后叫“人工智障”,这是我女儿给我的评价,她说老爸你做这个人工智障机器人,我们当时在商场放了不少机器人,她就没事调戏一下,问个咖啡在哪儿都可以,一问到别的问题听不懂,因为那个时候就是一个定制化的,针对一个场景定制非常多的问答队,但是今天有了大语言模型以后,首先这个定制工作量大幅度降低,今天去一个餐厅再也不需要匹配问答队了只要把菜谱看一下甚至不用,如果授权大众点评号给它,它就立刻知道这个餐厅的特色是什么,你想推荐什么菜品,有什么优惠券,自主决策。
以前很多东西移动都要写代码去完成,今天大模型是可以根据环境做自主决策的,现写一段代码完成一个工作,这在以前都是很难想象的。
今天有三大类七个产品品种,我们叫AI劳动协作,我在我的视频号上说对人形机器人的技术复杂度怀着充分的敬意的,这个东西的落地还是要很长时间,但是我认为不一定非得像人,但是得有双手,双臂的这件事很快就会开始在很多场景落地,其实在这之前基础做过类似于调咖啡这样的企业,那个时候还是比较程序化的,现在是可以做成智能化的,还有巡检,真正的劳动协作,在一些场景把人过去的烦琐劳动去掉。
再一个是营销接待,我们觉得这个机器人促销这件事由于有了大语言模型真能做到多快好省的,再一个大家都知道递送机器人,这个已经比较成熟了,大家在酒店、餐厅都看过,但是由于有了大模型的加持,未来会更加智能服务的更好。我们在冬奥会上,当时谷爱凌还喝过它的手冲咖啡,我们当时为了降低这款机器人的成本,双臂都是和我们投资的公司一起定制的,我们的目标是能够让它的成本比一个高档的咖啡机还便宜,然后它的手冲这部分能够真正及时的,以后要兑什么口味或者怎么冲就完全能够执行了,现在目前的还是一个程序化的,我们正在做这方面的工作。
这个场景就是真正让机器人实现了巡检,我一直在想我们做机器人这个行业不用想着替代人,因为有一些人有一些地方不可替代的,比如说服务的温暖、灵活的机制可能是很长时间替代不了的,但是可以找到一些人特别不擅长的但是又很需要的工作,这才是服务机器人很重要的点,巡检这样的事对于一个人来说工作非常烦琐而且机容易疏漏,但是机器人做的很好。
巡检这件事就是AI更适合了,人一本本看了后面忘了前面,但是AI可以大批量的快速的一小时能扫10万册,扫完以后对哪本书在哪里都能记住,人要找书的时候它可以带着,因为它的记忆是永不消退的,人是很容易忘记的,我记得以前大学去图书馆拿卡片慢慢找,找本书累死了,这其实是一个挺大的场景尤其在国外,前两年去美国有一个美术图书馆也在尝试用我们的机器人,美国在社区里都有图书馆,这是一个很大的场景。
结合投资那家AI直播公司做了一个走播机器人,这个机器人在餐厅里来回走,如果在直播间问它带我看一下你的生蚝区,就会跟你讲我们家生蚝又便宜又新鲜。
这家餐厅以前是先请小姐姐,后来店长自己上去播,每个月大概播个几千块钱的营业额,在直播这个频道,后来用了走播机器人以后,一天能到几千块钱,不是在所谓的替代,而是找一些方面比人更擅长的,比如说一天可以从头播到尾,小姐姐播两三个小时就得下播了,因为体力和嗓子扛不住了,第二个就算不来人情绪也很饱满,很多直播间其实平时没有人的,但是主播还得很情绪饱满,否则来个人的时候会一下子就跳走,第三个就是用户每个问题都认真回答,而且用口播的方式,所以这个提效是非常明显的最近我们在跟几个大的餐饮连锁都在合作。
现在我们跟全国最大的连锁酒店正在做打通系统,这种递送类机器人叫做忙时送餐,闲时揽客,以前没有大语言模型前这个功能要做起来是非常复杂的,但是现在就完全可以做到了,甚至可以和机器人直接说,现在没什么事到门口宣传一下新菜品,它就立刻可以去了,这就是智能化一个进步。
这是拿创始人的声音定制了,机器人讲就是他的声音,他没有空的时候机器人帮他讲解回答问题。我们在海外也开始了,尤其在日本有一个安乐厅的日本的朝鲜烤肉,上百家已经开始使用我们的机器人了,会持续的增加。
首先当年我们特别重视智能化,所以我们机器人操作系统是纯安卓开源一个操作系统,而且兼容了各种体系,所以代理商在上面做开发是非常容易的,包括刚刚大家看到的日语界面都是自己定制的,可以自己做开发。第二个由于有了大语言模型,以前我们海外的机器不太敢开语音功能,工作量太大了,还得招一批懂日语的人做定制,现在有了大语言模型天然就是一个翻译机,我们在使用14B的模型专门把日语加强,我们在日语现在的排行榜开源模型里是排第一的,所以它的交互能力跟你对话的能力很快就能够快速的形成一个高水准接近人的能力。
我们做机器人行业不仅要着眼中国也要放眼全球,今年跑过日本和韩国,当时日本有一个中国的工程师跟我说,最让我感动的是一帮东芝、松下白发苍苍的工程师来采中国机器人的时候,他觉得这时候是特别骄傲的。因为今天中国进入这么快的发展,其实硬件供应链的体系高性价比,价格便宜但是质量又很好,再加上今天中国互联网储备的各种软件人才和人工智能人才,其实我在2017年的时候创办猎户星空在想,如果真的要做好人工智能机器人,这件事只能是中国的企业能做成全球最有竞争力的,美国硬件方面供应链是有问题的,很多还得跑到深圳来做板子。
日本、欧洲其实在人工智能和互联网领域是落后的,真正大模型机器人比拼的是硬件、软件+服务等等全套能力的综合,这点中国企业就可以在全球走到最前面,今天已经看到这样的端倪了,现在海外的收入已经开始超越了国内,但是还有很多的事情要做,包括建更多的渠道,让我们的产品变的更好用,让我们的能力变的更强,但是我坚信下一个时代,除了AI Phone、AI PC,现在汽车也是AI化的,新能源车之所以有这么大的颠覆,这么大的格局的改变,核心不是新能源,而是智能化水平的提升无论是智驾的水平还是座舱交互的水平,这都是在以前那些写代码那些人最擅长的,而不是结构上最擅长的,所以这波车也是有巨大的变化,我相信机器人也会这样,由于有了大模型,机器人这个行业的确可以开始走进千家万户,走进各个场景,让我们的生活真的因为身边有更多的机器人帮我们服务而变的更好。
今天就讲这些,谢谢大家!