大模型从Chat走向Act，智谱公布Agent新进展：支持跨App、跨设备等玩法

阅读时间大约6分钟（2248字）

2024-11-29 大模型从Chat走向Act，智谱公布Agent新进展：支持跨App、跨设备等玩法

来源：智谱

AutoGLM可以自主执行超过50步的长步骤操作。

来源：猎云网

人类与机器的互动方式正在发生范式转变。这是由于只有对话功能的Chatbot，正在进化为“有手、有脑、有眼睛”的自主Agent。

11月29日，作为最早探索Agent的大模型企业之一，智谱带来了多个新进展：

AutoGLM可以自主执行超过50步的长步骤操作，也可以跨APP执行任务；

AutoGLM开启“全自动”上网新体验，支持等数十个网站的无人驾驶；

像人一样操作计算机的GLM-PC启动内测，基于视觉多模态模型实现通用Agent的技术探索。

在Agent OpenDay现场，智谱CEO张鹏下达了一个简单语音指令，AutoGLM便给在场数百位嘉宾发送了“一个来自 AI 的微信红包”。此外，AutoGLM还可以通过手机，远程指挥电脑自动发送文件。

AutoGLM新升级：挑战更复杂

新升级的AutoGLM可以挑战完成复杂任务：

1. 超长任务：理解超长指令，执行超长任务。例如，在采购火锅食材的例子中，AutoGLM自主执行了54步无打断操作。并且，在这种多步、循环任务中，AutoGLM的速度表现超过人手动操作。

2. 跨App：AutoGLM支持跨App来执行任务。用户将习惯于AI自动处理，而不是在多个App间来回切换。由于目前AutoGLM形态更像是用户和应用间的App执行的调度层，因此跨App能力是里面非常关键的一步。

3. 短口令：AutoGLM能够支持长任务的自定义短语。今天，你不用再给AutoGLM说：“帮我买一杯瑞幸咖啡，生椰拿铁，五道口店，大杯、热、微糖” 这类超长指令，只需要说“点咖啡”。

4. 随便模式：我们都会陷入选择恐惧，AutoGLM今天可以主动帮你做出决策。随便模式下所有步骤都让AI决策，带来有抽盲盒式的惊喜。想不想尝尝AI为你点的咖啡口味？

同时，AutoGLM启动大规模内测，并将尽快上线成为面向C端用户的产品。 AutoGLM同时宣布启动“10个亿级App免费Auto升级”的计划，邀请App伙伴联合探索自己的Auto新场景。

支持核心场景和核心应用的AutoGLM标品API，会在两周内上线到智谱maas开放平台（bigmodel.cn）试用。

Web端开启“全自动”上网新体验：即日起智谱清言插件上线AutoGLM功能，支持搜索、微博、知乎、Github等数十个网站的无人驾驶。在现场demo里，智谱清言插件自动完成了“搜索芒果tv，打开小巷人家，播放最新一集，发弹幕结局打卡”。全程没有人的干预。

GLM-PC邀测：面向“无人驾驶”电脑的一次技术探索

不只是基于手机和浏览器，今天智谱还带来基于PC的自主Agent。GLM-PC是GLM团队面向“无人驾驶”PC的一次技术探索，基于智谱的多模态模型 CogAgent。目前开放第一阶段的内测场景，包括：

1. 会议替身：帮用户预定和参与会议，发送会议总结。

2. 文档处理：支持文档下载、文档发送、理解和总结文档。

3. 网页搜索与总结：在指定平台（如微信公众号、知乎、小红书等）搜索指定关键词，完成阅读、总结。

4. 远程和定时操作：远程手机发指令，GLM-PC可以自主完成电脑操作；设定一个未来时间，在开机状态下定时执行任务。

5. 隐形屏幕：在用户工作时，GLM-PC可以在隐形屏幕上自主完成工作，解放屏幕使用权。

人用电脑的过程——用眼看图形及文字，用脑规划，再用手执行单击双击、输入等操作。GLM-PC用电脑的方式几乎完全和人一样。也正因如此，理论上只要是为人类设计的应用，在GLM-PC学习之后它都能够执行。这是一种系统级、跨平台的能力，不依赖于HTML、API，具备更高的能力上限。

不过，由于PC的复杂程度，以及大家在PC完成的几乎都是复杂任务，坦率的说，今天大模型的能力距离真正代替大家办公还有一定距离。GLM-PC在当前版本下，用户仍需要输入非常精准的指令。

目前，GLM-PC“邀请体验”已开启。智谱方面表示，会在产品完善后尽快上线供所有用户使用，同时也希望和更多厂商联合共创共同探索。

AutoGLM和GLM-PC是智谱迈向AI智能操作系统的重要尝试。它们的出现源于智谱在大语言模型、多模态模型、逻辑推理和工具使用等方面的技术积累。从2023年4月的AgentBench开始，到8月的CogAgent模型，智谱针对AutoGLM，和GLM-PC的模型CogAgent的研发工作进行了一年半的时间。

与OpenAI有所不同，智谱定义了大模型发展的五个阶段：L1语言能力、L2逻辑能力（多模态能力）、L3使用工具的能力、 L4自我学习能力、 L5探究科学规律。

发展至今，大模型已经初步具备了人类与现实物理世界互动的部分能力。“Agent将极大地提升L3使用工具能力，同时开启对L4自我学习能力的探索。” 张鹏说。

张鹏表示，未来GLM团队将继续加速agent模型产品的研发，期待着一句话操作电脑和手机的范式尽快到来。

大模型从Chat走向Act

如今，大模型技术正在改变机器和人的互动方式，基于理解需求、规划与决策、执行行动和自我反思，Agent将带来符合直觉的人机交互——从人适应机器，到让机器适应人。

苹果（Apple Intelligence）、Anthropic（Computer Use）、谷歌（Jarvis）和OpenAI（Operator）等企业也已经把Agent作为2025年的主要关注点。业内普遍认为，2025年将是Agent爆发之年。Gartner近期将agentic AI列为2025年十大技术趋势之一，并预测2028年至少有15%的日常工作决策将由agentic AI自主完成，而这一数字在2024年为0。

与GenAI不同，Agent是目标驱动型的，能够完全执行工作流程，适应、学习、迭代、与其他系统和人类协作，并端到端地完成任务。在张鹏看来，Agent可以看作是大模型通用操作系统LLM-OS的雏形。

“现阶段，AutoGLM相当于在人与应用之间添加一个执行的调度层，很大程度上改变人机的交互形式。更重要的是，我们看到了LLM-OS的可能，基于大模型智能能力（从L1到L4乃至更高），未来有机会实现原生的人机交互。将人机交互范式带向新的阶段。”

AI时代智能设备新范式

随着大模型能力的不断进化，AI慢慢长出了自己的脑、眼和手。不仅仅是智能在持续增强，感知能力和交互带宽也在不断丰富和拓展，还有现在的Agent带来了执行力的加速提升。

智谱COO张帆表示，智能设备在大模型的加持下，将会焕发出新的机会。手机+AI会变成随身个人智能助理，PC+AI将会成为全新生产力工具，汽车+AI将会让车成为人们的智能第三生活空间。当然，大模型不仅仅会为手机、PC和汽车带来机会，而是会惠及各种各样的智能设备。大模型的不断进化已经为Agent变革人车交互体验奠定了强大的基础。