阅读时间大约10分钟以上（6523字）

2024-05-15 谷歌反击OpenAI！“全家桶”惊艳亮相，长文本模型全球最强

来源：图虫

谷歌CEO皮查伊直言不讳地表示，其与OpenAI的竞争，并不是一个零和博弈，AI还处于早期阶段，前方充满了无限的机会。

本文转载自：钛媒体，作者：林志佳，编辑：胡润峰。猎云网已获授权。

不出预料，谷歌是被OpenAI狙击了。

一连串烟雾弹后，昨天 OpenAI 用一个可以看到、听到真实世界，并可以实时无延迟对话的 AI 智能助手“GPT-4o”震撼世界。而把发布 4o 的时间点特别选在谷歌 I/O 大会开幕前一天，当时就有媒体预测，OpenAI 这是在狙击谷歌。

果不其然，北京时间5月15日凌晨，谷歌I/O开发者大会主题演讲上，谷歌CEO桑达尔·皮查伊（Sundar Pichai）发布数十款Google和 AI 结合产品，堪称“全家桶”级别，全力对战OpenAI。

其中包括支持200万token长文本的Gemini 1.5 Pro和 Gemini 1.5 Flash、谷歌版Sora技术Veo，最强开源模型Gemma 2，支持生成式搜索的AI Overviews、第六代TPU等。

但最受关注的，还是谷歌DeepMind CEO、谷歌 AI 负责人Demis Hassabis公布的真正通向 AGI 的万能助手项目Project Astra，以及语音NotebookLM，直接对标GPT-4o。

这场110分钟演讲中，皮查伊提及 AI 的次数竟然高达121次（谷歌自己的统计）。

皮查伊表示，谷歌正在为 AI 做着“艰苦工作”。他强调，谷歌正处于Gemini时代当中，采取大胆而负责任的方法，让 AI 造福每个人。

“尽管如此，我们仍处于 AI 平台转变的早期阶段。对于创作者、开发者、初创公司和每个人来说，我们看到了巨大的机遇。帮助推动这些机会就是我们Gemini时代的意义所在。”皮柴称。

然而，对于华尔街来说，这一系列更新似乎没能让人兴奋，远低于预期。截至钛媒体App发稿前，谷歌母公司Alphabet（NASDAQ: GOOG）股价一夜仅涨0.60%。

反击OpenAI，谷歌推出对标GPT-4o、Dall-E、Sora的AI产品

大会主题演讲中，谷歌发了一段非常惊艳的 AI 助手演示，这次还了发誓，没有以任何方式伪造或篡改。

Demis表示，Project Astra 是自己期待了几十年的 AI 助手的雏形，是通用 AI 的未来。

据悉，Project Astra 是一个实时、多模式的 AI 助手，通过接收信息、记住它所看到的内容、处理该信息和理解上下文细节来与周围的世界进行交互，它的语音交互比当前形式的 Google Assistant 更自然，没有延迟或延迟，可以回答问题或帮助你做几乎任何事情。

谷歌在演讲中展示了一个人拿着手机，将摄像头对准办公室的各个地方，并用语言与其交互的演示。

“当你看到有东西发出声音时，请告诉我。”在这段视频演示中，Project Astra能识别各种物体甚至代码，并实时与人类进行语音互动。比如，用户要求 Project Astra 在看到发出声音的东西时告诉她，助手回答说，它可以看到一个发出声音的扬声器。

在视频中，Astra 的反应很快。Demis称，之所以能实现这一目标，是因为这些Agent可以通过连续编码视频帧、将视频和语音输入组合到事件时间线中，并缓存这些信息以进行有效回忆，从而更快地处理信息。

Project Astra 关于视觉的处理甚至算整场发布会最大的亮点。甚至，Project Astra通过镜头记住了一闪而过的眼镜，并准确回答出在苹果旁。当谷歌在眼镜上演示“Project Astra”时，“Gemini Live”可让您与 Gemini 交谈。

从演示看，Project Astra 可以很快处理收到的信息，可以通过连续编码视频帧并将视频和语音组合成事件时间线来做到这一点，然后缓存信息以供回忆。谷歌表示，其中一些功能将在今年晚些时候添加到 Gemini 应用程序和其他产品中。

除了Project Astra之外，谷歌还推出基于Gemini的多款通用AI Agent子系列产品，包括音频NotebookLM、音乐的Music AI Sandbox、视频的Veo、图像的Imagen 3，直接对标OpenAI发布的GPT-4o、Dall-E和Sora。

其中，NotebookLM，是去年谷歌发布的一个实验性产品，由Google 实验室的一个小团队构建，旨在利用语言模型的强大功能和前景与现有内容相结合，更快地获得关键见解。将其视为虚拟研究助理，可以总结事实、解释复杂的想法并集思广益新的联系。

今年，NotebookLM再度升级，采用全新Gemini 1.5 Pro模型，实现类似语音助手的音频功能，分析材料，并可以用自然理解能力解释它，甚至回答问题。

谷歌认为，NotebookLM和传统 AI 聊天机器人之间的一个关键区别在于，NotebookLM 可以让您在笔记和来源中“扎根”语言模型。在Google 文档中，它可以实现获取摘要、提出问题、产生想法等。

整体来看，无论是Project Astra智能助手，还是NotebookLM，这两款产品可以直接对标OpenAI昨日发布的GPT-4o模型，产生一种 AI 助手能力。

另外，谷歌宣布，已经与YouTube合作全新音乐工具Music AI Sandbox。该AI音乐创作工具将与Suno等AI音乐应用展开竞争。

最后，谷歌重磅推出了 AI 媒体创作模型 Veo 和 Imagen 3，直接对标 Sora类型的视频生成技术和Dall-E文生图技术。

据介绍，Veo 可以制作“高质量”1080p 视频，Imagen 3 是最新的文本到图像框架。这两个听起来都不是特别革命性的，但它们是谷歌继续对抗 OpenAI 的 Sora 视频模型和 Dall-E 3 的一种方式，Dall-E 3 实际上已经成为 AI 生成图像的代名词。

谷歌声称 Veo 具有“对自然语言和视觉语义的高级理解”，可以创建用户想要的任何视频。AI 生成的视频可以持续“超过一分钟”。Veo 还能够理解电影和视觉技术，例如延时拍摄的概念。

很显然，在OpenAI声量“遥遥领先”下，谷歌全力发起技术追赶和对齐。

狂卷长文本！Gemini家族迎来重大更新

过去一年，谷歌在生成式 AI 领域实现从“落后”到追赶，再到如今全面发力大模型的应用，度过了极不平凡的一年。

2023年12月，谷歌推出全球最强大、最通用的多模态通用大模型：Gemini，中文称“双子座”，共包括三个不同尺寸版本：Ultra（超大杯）、Pro（大杯）和Nano（中杯），全面内置最新、最强大的自研 AI 超算芯片Cloud TPU v5p。

谷歌表示，在六项基准测试中，Gemini Pro性能表现优于GPT-3.5；而在30项性能基准测试中，Gemini Ultra超越了目前最强模型GPT-4，甚至在数学、物理、法律等57个领域测试中成为全球第一个超越人类专家水平的 AI 模型。

自Gemini发布至今，谷歌持续在 AI 方面“狂飙”。

今年1月，谷歌宣布在全球一项模型基准测试中Gemini超越GPT-4；2月，谷歌宣布对标ChatGPT的 AI 聊天机器人平台Google Bard更名为Gemini，以及发布史上性能和功能最强大的Gemini Ultra 1.0模型等；2月底，全球最强开源大模型Gemma发布，谷歌声称，Gemma 模型18个语言理解、推理、数学等关键基准测试中，有11个测试分数超越了Meta Llama-2等更大参数的开源模型，引发全球广泛关注。

今年5月，谷歌在 AI 领域更进一步，旗下DeepMind和其英国子公司Isomorphic Labs联合团队在《自然》杂志上发表一份共46页的重要成果，联合发布全新AI蛋白质结构预测模型AlphaFold 3，对于蛋白质与其他分子的相互作用，与现有预测方法相比，AlphaFold 3改进了至少50%；对于一些重要的相互作用领域，AlphaFold 3预测精（准确）度提高一倍（100%），可准确预测蛋白质、DNA、RNA、配体等的结构以及它们如何相互作用，有望帮助人们治疗癌症、免疫性疾病等。

发布至今，谷歌不仅全面统一AI 人才和算力资源，而且全力投资Gemini，“任何输入到任何输出”。

在Google I/O主题演讲中，皮查伊透露，截至目前，短短 3 个月内”就有 100 万+ Gemini Advanced 注册；有20亿用户产品（user products）全部使用 Gemini；超过 150 万开发者使用 Gemini。

“我们正处于 AI 平台转变的早期阶段。”皮查伊表示。

此次演讲开始，谷歌全面发布Gemini 1.5 Pro，可提供具有增强的性能和突破性、最高200万Token长文本能力，并且已经向全球开发者开放。

据悉，全新Gemini 1.5 Pro具有原生音频理解、系统指令、JSON 模式等，能够使用视频计算机视觉来分析图像（帧）和音频（语音）的视频，这使其具有人类水平的视觉感知。使用深度神经网络，Gemini 1.5 可以以超人的精度识别图像（和视频帧）中的物体、场景和人物。

随后，谷歌推出全新Gemini 1.5 Flash 模型。

DeepMind 首席执行官 Demis Hassabis认为，成本问题一直是大模型开发的痛中之痛，某些应用程序需要更低的延迟和更低的服务成本。而为了解决这一痛点，谷歌推出Gemini 1.5 Flash 模型——比 1.5 Pro 更轻的模型，该模型旨在兼顾快速和成本效益。

“Gemini 1.5 Flash 擅长摘要、聊天应用程序、图像和视频字幕、从长文档和表格中提取数据等，”Demis称，谷歌创建 Gemini 1.5 Flash 是因为开发人员需要一个比 Gemini 1.5 Pro 更轻、更便宜的模型。

具体来说，Gemini 1.5 Flash 介于 Gemini 1.5 Pro 和 Gemini 1.5 Nano 之间，是针对开发者的大模型。尽管比 Gemini Pro 轻，但它的功能同样强大，谷歌表示这是通过“蒸馏”的方式来实现的，将 Gemini 1.5 Pro 中最重要的知识和技能转移到较小的模型上。这意味着 Gemini 1.5 Flash 将获得与 Pro 相同的多模式功能，以及其长上下文窗口（AI 模型一次可以摄取的数据量），100 万个 token。

目前，1.5 Pro 和 1.5 Flash 均已推出公共预览版，并在Google AI Studio和Vertex AI中提供 100 万个Token上下文窗口。现在，1.5 Pro 还通过候补名单向使用 API 的开发人员和Google Cloud 客户提供了 200 万个Token上下文窗口。

最大的更新尚未到来——谷歌宣布今年晚些时候将模型的现有上下文窗口增加一倍，达到 200 万个 token。这将使其能够同时处理 2 小时的视频、22 小时的音频、超过 60,000 行代码或超过 140 万个单词。

谷歌的Josh Woodward 详细介绍了 Gemini 1.5 Pro 和 Flash 的定价。Gemini 1.5 Flash 的价格定为每 100 万个token 35 美分，这比 GPT-4o 的每 100 万个token 5 美元的价格要便宜得多。

值得一提的是，此次大会谷歌重磅宣布推出基于 Gemini 1.5 Pro 的 Gemini Advanced。升级后的 Gemini Advanced 可以处理“多个大型文档，总计最多 1,500 页，或汇总 100 封电子邮件”。支持 35 多种语言和 150 多个国家 / 地区。而其“即将”推出的功能是能够“处理一个小时的视频内容或超过 30,000 行的代码库”。

全球最强长文本能力可谓实至名归。

Gemini能力加持，谷歌搜索迎来颠覆式变革

随后，谷歌搜索负责人Liz Reid上台，宣布对谷歌搜索进行 AI 驱动的重大变革。

在此之前，当用户在使用搜索引擎时，通常以文字或图片形式呈现。而如今，作为推动将生成式 AI 添加到搜索中的一部分，谷歌引入了一个新的转折点：搜索生成体验（SGE）。

从今天开始，Google 将使 SGE 的“AI Overviews”成为搜索中的默认体验。

在Gemini 的支持下，这种新的搜索体验将看到许多查询，这些查询将返回到搜索引擎，并将传统结果推到页面下方。人工智能概述往往会在每个查询中显示一些链接，尽管它们并不总是出现，而且通常只有在您单击展开完整的人工智能生成的响应后才会出现。

谷歌指出，今天开始向美国所有用户推出该服务，其他国家“很快”也会跟进。

同时，谷歌搜索还引入视频。Gemini 会让用户上传演示其要解决的问题的视频，然后启动搜索在论坛和互联网的其他区域以找到解决方案。

另外，除了将 Gemini 能力加持到搜索引擎外，谷歌还将为 Gmail 应用程序提供一些有趣的新功能，包括长电子邮件线程的摘要。用户还可以直接与 Gemini 聊天，从整个收件箱中查找详细信息。

而为了提供更个性化的体验，Gemini Advanced 订阅用户很快将能够创建 Gems —— Gemini 的定制版本。Gems 可以让用户个性化地创建聊天机器人，有点像在 Character.AI 中制作自己的“数字人”，从而让用户与流行角色和名人的虚拟版本甚至虚拟心理医生交谈。

谷歌表示，你可以让 Gemini 成为你的健身伙伴、副主厨、编码伙伴、创意写作指南或任何你能想到的东西。

下一代开源模型Gemma 2登场，性能媲美Llama 3 70B

会上，谷歌还分享了开源大模型Gemma一系列更新。

谷歌表示，全新Gemma 2是一系列轻量级、最先进的开放式模型，依然采用与创建 Gemini 模型相同的研究和技术构建，旨在用于负责任的AI 创新的下一代开放模型。

同时，Gemma 2还采用全新架构，提供 27B（270亿）参数大小的尺寸，其性能可与 Llama 3 70B 相媲美，但尺寸却只有 Llama 3 70B 的一半。从而实现突破性的性能和效率。

其次，为了降低部署成本，Gemma 2 的高效设计使其所需的计算量少于同类模型的一半。27B 模型经过优化，可以在英伟达的 GPU 上运行，也可以在 Vertex AI 中的单个 TPU 主机上高效运行，从而使更广泛的用户更易于部署且更具成本效益。

再次，Gemma 2 将为开发人员提供跨越不同平台和工具生态系统的强大调优功能。从基于云的解决方案（如Google Cloud）到流行的社区工具（如Axolotl），微调 Gemma 2 将比以往更容易。

最后，Gemma 家族也在随着 PaliGemma 的扩展而扩展。据悉，PaliGemma 是谷歌受 PaLI-3 启发的第一个视觉语言模型。而且，谷歌还使用 LLM Comparator 升级了 Responsible Generative AI Toolkit，用于评估模型响应的质量。

谷歌表示，Gemma 2将在未来几周内正式公开上线和发布。

Android 15将深度集成Gemini

每届I/O大会上，必不可少的就是要谈Android操作系统。

自2007年Google宣布与84家硬件制造商、软件开发商及电信营运商成立开放手持设备联盟来共同研发Android，基于Android安卓开源系统的智能手机已经广泛应用于全球消费级用户。

2017年3月，Android全球网络流量和设备超越Microsoft Windows，正式成为全球第一大操作系统。截至2023年2月，根据StatCounter统计，除了美国、英国、加拿大、巴哈马、冰岛、挪威、瑞典、丹麦、瑞士、科索沃、日本、台湾和澳大利亚外，在其他所有国家和地区Android都是最被广泛使用的智能手机操作系统。

谷歌于 2023 年 10 月发布了 Android 14，此次大会之前，谷歌已经发布了 Android 15 的第一个测试版，内部代号为“香草冰淇淋（ Vanilla Ice Cream）”，正式版本即将推出。

此次I/O大会上，谷歌提到了即将推出的安卓新版本Android 15，是以 AI 为核心的 Android，今年将实现三项突破：在 Android 上提供更好的搜索、Gemini 正在成为你的 AI 助手，以及设备上的 AI 将解锁新的体验。

搜索方面，Android 15上的Google搜索全面集成Gemini能力。其中，Android全新Circle to Search功能，现在可以帮助学生解决数学和物理作业，该功能现在将能够向他们展示“一系列物理和数学应用题”的分步说明。他们只需长按主页按钮或导航栏，然后圈出让他们感到困惑的问题即可激活该功能，尽管有些数学问题需要用户注册谷歌的实验性搜索实验室功能。

其次，Gemini AI 聊天机器人全面升级，Gemini 正在“成为 Android 上新的人工智能助手”。

最后，与底层操作系统的集成后，就能实现一些更酷的功能。Android 上的 Gemini 具有更强的上下文感知能力，可以覆盖在正在使用的任何应用程序之上，因此你无需来回切换。还有一个巧妙的功能，可以让你将图像从 Gemini 应用程序拖放到另一个应用程序中。

谷歌表示，它“刚刚开始研究设备上的人工智能如何改变你的手机的功能”，因此我们想象未来至少会与 Uber 和 Doordash 等应用程序集成。

现场谷歌还展示直接通过 Pixel 8a 手机上的 Google Messages 应用程序使用 Gemini 的不同方式。它包括能够分析 PDF 或视频并向 Gemini 提出问题，获得清晰（并引用）的答复。

谷歌表示，这些功能将在“未来几个月”出现在更多设备上。

低调官宣第六代TPU芯片，峰值计算性能提高4.7倍

在演讲期间，皮查伊低调宣布了谷歌的第六代张量处理单元 (TPU) ，称为Trillium。

包括Gemini 1.5 Flash、Imagen 3和Gemma 2等新型号在内，所有这些模型都经过 TPU 训练并提供服务。

实际上，十多年前，谷歌认识到需要首款用于机器学习的芯片。2013年，谷歌开始开发世界上第一个专用 AI 加速器 TPU v1，随后于 2017 年推出了第一个 Cloud TPU。

谷歌表示，如果没有 TPU，Google 的许多最受欢迎的服务（例如实时语音搜索、照片对象识别、交互式语言翻译以及 Gemini、Imagen 和 Gemma 等最先进的基础模型都是不可能的。而TPU 的规模和效率为谷歌搜索的Transformers基础工作奠定了基础，而 Transformers 是现代生成式人工智能的算法基础。

据介绍，作为“迄今为止性能最强、能效最高的 TPU”，与 TPU v5e 相比，Trillium TPU每颗芯片的峰值计算性能提高了 4.7 倍（470%）。

同时，新的TPU将高带宽内存 (HBM) 容量和带宽增加了一倍，并将 TPU v5e 的芯片间互连 (ICI) 带宽增加了一倍。

此外，Trillium还配备了第三代SparseCore——专用加速器，用于处理高级排名和推荐工作负载中常见的超大嵌入。Trillium TPU 可以更快地训练下一波基础模型，并以更少的延迟和更低的成本为这些模型提供服务。至关重要的是，Trillium TPU 的能效比 TPU v5e 高出 67% 以上。

值得一提的是，Trillium 可以在单个高带宽、低延迟 Pod 中扩展到多达 256 个 TPU。除了这种 Pod 级可扩展性之外，借助多切片技术和Titanium 智能处理单元 (IPU )，Trillium TPU 还可以扩展到数百个 Pod，从而连接建筑物级超级计算机中的数万个芯片，这些芯片通过每秒数 PB 的速度互连数据中心网络。

Gemini 完全在谷歌的第四代和第五代 TPU 上接受训练和服务。包括 Anthropic 在内的其他领先 AI 公司也在 TPU 上训练了他们的模型。而对 Trillium TPU 上长上下文、多模式模型的训练和服务的支持也将使Google DeepMind能够比以往更快、更高效、延迟更低地训练和服务未来几代 Gemini 模型。

谷歌表示，Trillium TPU 将为下一波 AI 模型和代理提供动力，包括自动驾驶汽车公司Nuro、药物发现公司Deep Genomics、德勤等企业也采用其TPU产品进行应用。

因此，Trillium TPU将是 Google Cloud人工智能超级计算机的一部分，这是一种专为尖端 AI 工作负载而设计的突破性超级计算架构，它集成了性能优化的基础设施（包括 Trillium TPU）、开源软件框架和灵活的消费模型。

谷歌表示，Trillium TPU将于今年晚些时候向其云客户提供。

皮查伊表示：“25 年来，我们投资建设了世界一流的技术基础设施。从支持搜索的尖端硬件，到支持人工智能进步的定制张量处理单元。我们将于 2024 年末向我们的云客户提供 Trillium。”