本文转载自:腾讯科技,作者:郝博阳。猎云网已获授权。
在OpenAI开发者日前夕,WiFi公司Meter的天使投资者兼产品负责人Nikunj Kothari在X上写道:“自最初的iPhone时代以来,从未见过这么多开发者兴奋地谈论即将推出的产品。”
毫无疑问,这场OpenAI第一次的开发者大会受关注的程度直指科技春晚苹果秋季发布会,说是AI界春晚毫不为过。
大会刚开始,Sam Altman就列出了一串数字,表明OpenAI目前拥有200多万开发人员,包括92%以上的财富500强公司用户,以及一亿周活用户。这些官方数字直接证伪了自去年11月发布以来,ChatGPT的热度正在逐渐消退的相关报道。
在秀完肌肉后,Sam Altman即刻端上了一道足以改变行业的大餐,以及一封争夺AI应用分发权的战书。
头盘:GPT4 Turbo
开场就是重头戏。Sam Altman在简单讲述完GPT版本更新历史后,就放出了他们最强大模型GPT-4 的Turbo升级版本。他称其“更强大,也更便宜”。而且从今天开始,纯文本的模型可以通过API预览,OpenAI表示计划在“未来几周”内全面提供包括多模态版本的GPT4-Turbo。
GPT4-Turbo的“更强大”体现在它的六大升级上。包括上下文长度提升,模型控制,更好的知识,新的多模态能力,模型自定义能力及更低的价格,更高的使用上限。
对于一般用户体验来讲,上下文长度的增加,更好的知识和新的多模态能力是最核心的体验改善。
1)上下文长度升级:这在过往是GPT4的一个软肋。它会决定与模型对话过程中能接收和记住的文本长度。如果上下文长度限制较小,面对比较长的文本或长期的对话,模型就会经常“忘记”最近对话的内容,并开始偏离主题。GPT4基础版本仅提供了8k token(字符)的上下文记忆能力,最近提供的拓展能力也仅仅能达到32k token,相比于主要竞品Anthropic旗下 Claude 2 提供100k token的能力差距明显。这使得GPT4在做文章总结等需要长文本输入的操作时常常力不从心。但这次GPT-4 Turbo直接提供了一个128k token的上下文能力扩充,是GPT-4扩容版本的4倍,一举提供了已商用大模型中最大的上下文容量,反超Claude 2。更形象的形容一下,128万个token约10万字或300页书,可供参考的长度约为《呼啸山庄》、《格列佛游记》和《哈利波特与阿兹卡班的囚徒》的长度。
2)更好的知识更新:GPT4-Turbo终于把知识库更新到了2023年4月,不再让我们停留在2年前的过去了。最初版本的GPT4的网络实时信息调用只能到2021年9月。虽然随着后续插件的开放,GPT4也可以获得最新发生的事件知识。但相较于融汇在模型训练里的知识而言,这类附加信息因为调用插件耗时久,缺乏内生相关知识的原因,效果并不理想。而现在,至少你可以获得截止到今年四月前的新信息,获取到很准确的答案了。
3)新的多模态能力:主要是指部分用户已经体验到的Dalle3文生图功能,文本到语音(TTS)即最近被各路展示的语音对话功能,以及整合了这些的GPT4Turbo with Vison多模态功能,可以识别图片和语音输入并产出对应的生成内容。这些都不是全新的功能,但他们的API在活动当日就全部开放给了开发者,这意味着后续会有更多的应用,网站能把这些功能整合进日常运作中。
针对这些多模态功能的API使用,其定价也与纯文字的Token定价不同,目前Vison的定价取决于输入图像的大小。例如,将1080×1080像素的图像传递给GPT-4 Turbo需要0.00765美元。Dalle3根据不同格式和质量选项,生成每张图像的起价为0.04美元。而TTS能力的接入价格从每输入1000个字符0.015美元起。
在宣布多模态API开放的同时,Sam也提到了Whisper V3将会在近日发布,GPT家族的语音识别能力又可以大幅提升。
对于开发者和程序员们而言,另外两个升级更加重要。
4)更高的控制性:为实现对模型产出内容更高的控制性,GPT Turbo提供了三个方面的升级。
一是函数调用更新,在技术文档中,OpenAI解释称,函数调用允许用户向模型描述应用程序或外部API的函数,并让模型智能地选择输出包含参数的JSON对象来调用这些函数,以达到使用外部程序能力的作用。而且过往的函数调用,一次交互只能调用一个函数,即一个外部能力。但在GPT4 -Turbo中,一条指令可以平行调用多个操作,使得与外部应用结合的复杂功能实现变得更容易。
二是改进了指令跟随,现在GPT4 Turbo能更好地理解限制性指令了。在需要仔细遵循指令的任务上,例如生成特定格式(例如,“始终以XML响应”)表现更佳。它甚至还提供新的“JSON模式”,它确保模型能生成语法正确的JSON对象,不正确的语法则直接被否定掉不执行。这在传输数据的网络应用程序中很有用。
三是可再现输出,过往大语言模型经常出现的一个问题是同一个问题的答案,问上几次可能都会结果不同。为了保持模型的一致性,GPT4-Turbo可以通过种子参数让大模型的回应变得统一且可重复。
这一部分的升级实际上为后续GPT-4 Turbo的自定义可能和AI 智能体化( AI Agent)提供了坚实的基础。只有在调用外部工具变得更简单,更稳定的前提下,AI才能更好地进行使用多工具完成复杂任务的工作。而这正是当下智能体所需要的。
5)模型自定义能力:在今年8月22日,OpenAI刚刚上线可微调的GPT3.5 Turbo版本,两个月后GPT4的可微调版本Turbo也来了,这意味着开发者终于可以在GPT4的基础上进行定制化调试训练了。但这个工作似乎并不容易,OpenAI在博客文章中写道:“初步结果表明,与GPT-3.5微调实现的实质性收益相比,GPT-4微调需要更多的工作来实现对基本模型的有意义的改进。”
针对这个困难,OpenAI提供了一个Plus版本的微调,即自定义模型。针对于那些需要比微调更多定制的组织(特别适用于拥有超大专有数据集的领域——至少有数十亿个token),OpenAI给出内部工程师协助训练模型,走完全程,从进行额外的特定领域的预训练,到运行为特定领域量身定制的自定义RL后训练过程。当然,OpenAI表示这个机会不会太多,而且非常贵。
6)加量降价:最后一个大升级就是大降价。OpenAI表示,GPT-4 Turbo对开发人员来说运行成本更低。与GPT-4上的0.03美元相比,每1000个代币(LLM读取的基本文本或代码单位)的输入成本仅为0.01美元。每个输出成本为每1000个令牌0.03美元。总体而言,新版GPT-4-Tubo比原始版本便宜2.75倍。而开放给API的token吞吐量也提升了一整倍。
Sam Altman在开发者的欢呼声之后表示,不光价格降了,同时GPT4 Turbo的速度也会大幅提升。今天一过,AI开发者集体降本增效了。
英伟达工程师Jim Fan对此表示,OpenAI规模效应带来的价格优势太可怕了。
沙拉:纳德拉上台,巩固联盟关系
上完了头盘硬菜,Sam Altman邀请微软CEO纳德拉上场站台。一番简单寒暄过后,Sam询问纳德拉:微软现在如何看待与OpenAI的合作关系?纳德拉笑了大概3秒钟才回应:我很爱你们,能和你们合作感觉很梦幻。但讲到具体的合作时候,他更强调微软当前的首要任务是要让Azure更好的支持“包括你们模型在内”的大语言模型的训练和基础设施建设,让开发者能更好的使用到AI带来的技术革新。
针对Sam关于AI的未来会如何发展的第二个问题,纳德拉依然是反躬自省。他强调微软自认为是个平台公司,软件开发公司和合作商公司,后续的目标就是要提升算力和服务,支持自己和其他开发者利用大模型赋能机构和个人。不愧是公关大师,一套话术对两个问题。
整个对话过程略显尴尬,本来是为了强调合作关系的对话沟通却始终弥漫着一种距离感。而且整段对话的基调都是OpenAI大步前冲,微软自甘做个支持角色,多少有点适得其反。
正餐:GPTs,助手API及应用商店
如果说GPT4 Turbo的更新是个硬菜,它也就是个较硬的前菜。因为它的很多升级都是为GPTs这道主菜做引子。这才是这场发布会的主角。
1)GPTs
GPTs不是GPT的任何一个版本,而是属于你的定制的GPT,一个能实现各种具体目的的智能体。
OpenAI提供了一个构建GPTs的工具,GPT Builder,它包含三个功能,指令、扩展知识和行动。有了这几个功能,能完成任务而非仅仅对话的智能体就可以轻松被构建出来。而且通过自然语言就可以完成全流程。
在示范如何构建一个属于Sam Altman个人的定制GPT,帮助他为别人提供创业指导的过程中,这三个功能都被展现得很明确。
指令部分即一步步下达指令构建GPTs。你说个GPT的应用目标,GPT Builder会帮你生成GPT名字,再生成logo(profile picture)。之后GPT Builder会通过询问具体限制,相关资料,逐步完善指令流程,最终完成应用构建。你根本不用规划流程,它会用问题引导你。这一切都可以用你的母语完成。
如果你对引导的结果还不满意,还可以在设置中直接进行调节。
通过“知识扩展”部分,用户可以直接上传自定义数据,如DevDay事件时间表。
用户还可以选择是否调用模型模型能力,使GPT能访问网页浏览、DALL-E和OpenAI的代码解释器工具,用于编写和执行软件。
最后通过另一个名为Actions的功能,OpenAI允许GPTs调用函数,连接到外部服务,即访问电子邮件、数据库等数据,以完成复杂的工作组合。比如在后面的演示中出现的,回答用户关于旅游地点信息的询问时,调用谷歌地图或机票信息。
通过已有的几个GPTs,Sam还演示了GPTs具体定制化后会有什么不同的能力。
如Code.org的编程课教师,就可以多用比喻的手法让学习者更好地理解抽象的编程逻辑。
CanavaGPT可以直接连接到外部的Canava(一个海报生成网站),来帮助你根据需求生成相关网站。
你所建立或订阅的所有GPTs都会在GPT主界面的左边栏中与ChatGPT并列存在,可见OpenAI对此功能所给予的重视及优先级。
当然这优先级是完全合理的。有着最新的模型接口,且将开发定制化智能体变得如此简洁的GPTs,对于如AUtoGPT,Langchain之类过往提供基于AI的开发App的软件平台来讲,就是降维打击。而满足各种调用功能的小型插件更是完全没有了生存价值。对此,业内早有评价,称OpenAI每次发布产品升级,都会直接干掉一大批初创公司。
这项GPT创建功能将在晚些提供给付费的ChatGPT Plus用户和OpenAI企业客户,他们可以为员工制作仅限内部的GPTs。
2)助手API
针对有着更复杂需求的开发者或公司,OpenAI还提供了一个GPT Builder的升级版本,即助手API。
相较于普通GPT,助理API有更长的上下文能力,还可以利用检索组件,补充更多外部知识,并在内部进行检索,连建库都不需要,上传就行。它还支持更强大的函数调用,使助手能够调用开发人员定义的编程函数,并将响应包含在消息中。
3)应用商店
那我们如何应用这些已建好的GPT?OpenAI直接给出了一个GPT商店,它是这些GPT的分发平台。与之前的插件商店不同,GPT应用商店的意义更为重大。
从这个商店的界面看,用户可以直接订阅各种GPTs。因此可以把它理解成一个承载着诸多AI小程序的集合体。而如果它成功地构建起了一套应用生态的话,OpenAI也会变成一个真正的应用平台,一个AI时代的产品分发入口。而它的封闭性(里面只有基于OpenAI的模型开发的应用),也让它多少有了些AI时代App Store的垄断味道。
但这个地位并非只有OpenAI觊觎。各个大厂,包括微软和苹果都有自己的基于软件的应用市场。想在这里面再建个独立的小市场,垄断AI的应用红利,这很难不在后面引发和现在应用分发巨鳄们的深度冲突。
为了更快地达到这一目标,OpenAI也为GPTs应用开发者设定了完整的分成逻辑。Sam Altman表示,“本月晚些时候,我们将推出GPT商店,以经过验证的建设者的创作为特色。一旦进入商店,GPT就会变得可搜索,并可能在排行榜上攀升。我们还将重点关注我们在生产力、教育和“只是为了好玩”等类别中遇到的最有用、最令人愉快的GPT。在接下来的几个月里,你还可以根据有多少人使用你的GPT来赚钱。”
虽然这场AI春晚震撼到了很多人,但还是有一个人不太为之所动。马斯克在看完发布会后发了条推继续支持自家模型Grok,然后就去打暗黑四了。