阅读时间大约6分钟（2396字）

2024-04-03 吴恩达：AI 智能体的未来

来源：企业供图

通往 AGI 的道路感觉更像是一段旅程，而不是目的地。

本文转载自：真格基金。猎云网已获授权。

近日，斯坦福大学教授吴恩达在演讲中提到，基于 GPT-3.5 构建的智能体工作流在应用中表现比 GPT-4 要好。AI 智能体工作流将在今年推动人工智能取得巨大进步，甚至可能超过下一代基础模型。

我们整理了本次演讲的内容，希望对你有所启发。

吴恩达：

我很期待与大家分享我在 AI 智能体中看到的令人兴奋的趋势，我认为每个 AI 从业者都应该关注这个趋势。

我要分享的主题是 AI 智能体。现在，我们大多数人使用大语言模型的方式是这样的：我们在一个非智能体工作流中，把提示输入到对话框中并生成答案。这有点像我们让一个人写一篇文章，让他请坐到键盘前，从头到尾打出一篇文章，中间不使用退格键。尽管这很难，AI 大模型还是做得非常好。

智能体工作流长这个样子（下图右侧）。有一个 AI 大模型，我们让它写一份论文大纲。需要上网查资料吗？如果需要，就联网。然后写初稿、读初稿，并思考哪些部分需要修改。继续修改初稿并推进。

这样的工作流程更容易迭代。你可以让 AI 大模型进行一些思考，然后修改这篇文章，然后继续思考，再按照这个步骤迭代多次。

很多人都没有意识到的是，这么做的效果会更好。对于这样的工作决策流程和优秀表现，我自己也很惊讶。除了这些个案研究，我的团队也分析了一些数据，基于 OpenAI 几年前发布的名为 HumanEval 的编程评估基准。这上面有一些编程问题，比如给定一个非空整数列表，返回位于偶数位置的所有奇数元素的和。AI 生成的答案是像这样的代码片段：

事实证明，如果你使用 GPT-3.5，在零样本提示的条件下，GPT-3.5 的准确率是 48%。GPT-4 要好得多，达到了 67%。但如果你采用的是智能体工作流，并将其打包，GPT-3.5 实际上能表现更好，甚至比 GPT-4 还好。

如果你围绕 GPT-4 构建这样的工作流，GPT-4 也能表现得很好。注意，处于智能体工作流中的 GPT-3.5 实际上优于 GPT-4。这是一个信号。

所有人都在围绕智能体这个术语和任务开始大量讨论。有很多咨询报告，关于智能体、AI 的未来，等等。接下来，我想具体分享我在智能体中看到的四种模式：

反思（Reflection）：LLM 检查自己的工作，以提出改进方法。

使用工具（Tool use）：LLM 拥有网络搜索、代码执行或任何其他功能来帮助其收集信息、采取行动或处理数据。

规划（Planning）：LLM 提出并执行一个多步骤计划来实现目标。

多智能体协作（Multi-agent collaboration）：多个 AI 智能体一起工作，分配任务并讨论和辩论想法，提出比单个智能体更好的解决方案。

接下来我将详细解释这四种模式。

首先是 Reflection。举个例子：假设我让一个代码智能体为某个任务写代码，它会根据 prompt 写出一个如图所示的函数。

如果你写一段 prompt，把你刚刚生成的代码给它，告诉它这是用于执行某个任务的代码，让它检查这段代码的正确性、效率等问题。结果根据你的 prompt 写出代码的那个大模型，可能会发现代码里的问题，比如第五行的 bug。它还会告诉你怎么修改。

如果你现在采纳了它的反馈，并再次给它提示，它可能会给出一个比第一个版本更好的第二版代码。不能保证一定如此，但这是有效的。

第二种模式是 Tool use（使用工具）。许多人可能已经见过基于大模型的系统使用工具。左边是一个截图，来自 Copilot。右边的截图来自 GPT-4。左边的问题是，网上最好的咖啡机是哪个？Copilot 会通过上网检索来解决一些问题。GPT-4 将会生成代码并运行代码。有很多不同的工具，可以用于分析、收集信息以采取行动、提高个人生产力。

很多关于 Tool use 的工作都是在计算机视觉社区。因为之前，大型语言模型对图像无能为力，所以唯一的选择就是大模型生成一个函数调用，可以用来操作图像，比如生成图像或目标检测。Tool use 扩展了大型语言模型的能力。