谷歌追着OpenAI打，Project Astra硬刚GPT-4o，Veo对抗Sora

创业邦的创作者2024-05-15

前一天OpenAI用GPT-4o把全世界掀翻，今天被提前截胡的谷歌，在一年一度的谷歌I/O开发者大会上开启反击！

展示了与GPT-4o 相似的语音视觉交互功能Gemini Live，还更进一步推出了比OpenAI等对手更激进的AI智能体Project Astra、还有对抗Sora的70秒视频生成模型Veo等等

此外，谷歌对拿手业务——搜索进行了AI化改造，全面更新了Gemini模型家族。另外还发布了高质量文生图模型Imagen 3、AI音乐创作工具Music AI Sandbox等等。

数不胜数的AI产品让人眼花缭乱。将近两个小时的发布会上，提到了121次AI。

谷歌CEO皮查伊称目前有超150万开发人员在使用Gemini模型，谷歌拥有20亿用户的产品都在使用Gemini，谷歌推出安卓和iOS上可用的应用程序直接与Gemini互动，3个月内已有超过100万人注册尝试。

下面我们一起来看看产品更新吧：

一、未来通用AI Agent：日常生活随时答疑解惑的超级助手

Project Astra。这是一个还在研发中的AI Agent。当演示者打开手机摄像头，边走边问AI助手Project Astra捕捉到的现实场景中的问题。比如要求“看到能发出声音的东西就告诉我”，Gemini就会给出准确描述：“我看到一个音响发出声音。”接下来，测试者用红色剪头指向扬声器的顶部，再次问道，这个扬声器的部件叫什么？Gemini准确理解指令，并答出这是高音扬声器，能产生高频的声音。

Astra还可以实时解答代码、扫一眼周围环境，Gemini就能推断出你住在哪个小区等等

Astra有强大的对答如流的能力，谷歌还首次展示了AR眼镜配上AI的震撼演示。

二、Veo：全新视频生成模型，正面迎战OpenAI Sora

Veo生成的视频不仅真实，而且在光线、构图等方面具有惊人的电影感。

谷歌结合了DeepMind研究成果中最好的架构和技术，提高了一致性、质量和分辨率。

Veo具备1080p的高质量，用户提示可以是文本、图像、视频等各种格式，还能捕捉到其中关于视觉效果和影像风格的各种细节描述。通过点击扩展按钮，用户就可以持续增加视频的时长，它的时长已经超过Sora达到了1分10秒。目前Veo已经开始在官网开放试用了。

三、Imagen 3

升级后的Imagen 3能生成更多细节、光影丰富的图像。新模型对提示的理解能力，得到显著提升，可以从较长的提示中，捕获细节。如下图中，对狼的特征，背景颜色，画质质量等要求，Imagen 3一致地呈现了出来。它可以准确地渲染小细节，比如人手上的细微皱纹，以及复杂的纹理。

谷歌称Imagen 3是目前最强大的图像生成模型。

四、Music AI Sandbox：AI音乐创作工具，可以改变音乐的创作方式，谷歌与音乐家、词曲作者和制作人密切合作来帮助设计和测试这款工具。

五、Gemini 1.5 Pro，超长的上下文窗口，达到了100万tokens的级别，超过了目前所有的大语言模型，而且开放给个人用户使用。它的上下文token数将会达到2000K（200万）！相比之下，GPT-4 Turbo只有128K，Claude 3也只有200K。

这意味着你可以给模型输入2小时视频、22小时音频、超过6万行代码或者140多万单词。

在这样的Gemini加持下，我们可以实现许多迅捷的功能。比如，作为父母需要了解孩子在学校的情况，就可以在Gmail中要求Gemini识别所有关于学校的电子邮件，然后帮你总结出要点。如果你错过了公司会议，但可以拿到一小时时长的会议录音，Gemini就能立刻帮你总结出会议要点。

现场谷歌演示了NotebookLM的音频概述功能，用户只需将文本资料输入进去，该软件即可基于Gemini Pro 1.5能力，生成丰富的音频内容素材。

另外谷歌还推出了轻量级模型Gemini 1.5 Flash，针对低延迟和低成本任务（聊天应用、从长文档提取数据等）进行了优化，成本效益更高，上下文窗口达100万个tokens。

Gemini 1.5 Pro为7美元/100万tokens，对于128k以下的输入，将降价50%至3.5美元/100万tokens；Gemini 1.5 Flash的价格为0.35美元/100万tokens。

六、AI搜索

在Gemini的加持下，谷歌搜索大变样。在搜索框下，会出现一个为你量身定做的AI总结。你的问题是什么样，它就会帮你做规划，展示出若干个卡片，让搜索信息以鲜明的方式被呈现出来。

基于此谷歌宣布推出AI Overviews工具，这次AI Overview即将发布的另一个重磅功能，就是多步骤推理。它能将用户输入的一个复杂问题分解成多部分，确定需要解决哪些问题，以及用什么顺序解决。

以前可能要花几分钟甚至几个小时的研究，现在几秒钟内就可以完成！因为它将十个问题合而为一。

比如，如果想找到波士顿最好的瑜伽或普拉提工作室，它会直接搜出来结果，然后帮你整理好情况介绍和工作时间。只要一次搜索，所有需要的信息就自动呈现出来。

你可以要求谷歌提供一个三天的膳食计划。这些食谱被从整个网络整合出来，清晰又全面。

并且目前还支持用视频去搜索，比如，该怎么修这个唱片机？以前，我们需要进行一堆搜索，确定它的牌子、型号。现在，直接拍一个视频丢给谷歌，然后直接开口问：它的这个毛病是什么原因？谷歌用AI Overview，给出了最全面的信息。

七、画圈即搜功能：在你的手机或平板电脑上圈出复杂的物理问题，就能获得一步一步的指导，学习如何解决问题。

八、安卓版Gemini新功能：安卓系统上的Gemini变得更有帮助，更有环境意识；今年晚些时候支持将生成的图像拖放到Google Messages和Gmail中，还支持用户直接在设备上询问有关YouTube视频和PDF文件的问题。

谷歌要做“系统级AI”，把Gemini用在安卓系统底层。他们要让安卓成为体验谷歌AI的最强移动平台。

Gemini在系统级层面运行，因此用户不需要打开应用。同时Gemini有了上下文感知能力，可以提供更即的时帮助。

比如，Gemini可以帮用户在聊天中生成有趣的表情包图片，Gemini可以感知到用户在看视频，弹出提示，询问是不是想了解关于这个视频的问题，用户可以直接询问视频中的细节，Gemini可以直接从视频中找到答案。

谷歌强调Gemini只会在安卓上运行，而前段时间苹果被曝与OpenAI洽谈合作，iPhone将搭载ChatGPT，安卓阵营与苹果阵营的AI大战一触即发。

九、原生多模态Gemini App

在Gemini APP中，谷歌推出Gemini Live功能，用户可通过文本、语音或影像多种方式进行交互，直接与大模型进行对话，并能够随时打断，可以打开摄像头使其“看到”周围的世界并实时响应。比如，你正在为一场面试做准备，只需要进入Live，Gemini就可以陪你一起做准备。

在Gemini的加持下，谷歌还推出Ask Photos的新功能。比如，如果付停车费时忘了自己的车牌号，就可以直接询问自己的车牌照片是哪个，不需要翻阅手机里的大量照片了。

另外还有第六代TPU、AI基础设施、AI搜索新功能、Google Workspace应用Gemini功能、Gemini Live多模态功能、、Gemini Advanced、、Gemini Nano新功能、AI辅助红队技术、扩展和开源SynthID文本水印等。

虽然OpenAI凭借创业公司的灵活专注优势，屡屡抢占先发优势，每次都领先谷歌一步发布新品，但谷歌依然有着自己的独有优势，、除了产品研发，还拥有基础设施和运算能力，以及庞大的谷歌应用矩阵与数十亿的用户级别。在激烈的生成式AI竞赛中，最终赢家是谁值得期待。

免责申明

1.本平台专注于提供资讯分享服务，所提供的资讯内容仅代表作者个人观点，不反映本平台立场。

2.我们致力于确保所提供信息的准确性和及时性，但对信息的完整性、准确性、可靠性或适用性不做任何明示或暗示的保证。

3.用户在使用本网站提供的信息时，请自行判断并承担相应风险。本网站对用户因使用或未能使用本网站而导致的任何直接、间接、附带的损失或损害概不负责，包括但不限于利润损失、商业中断、信息丢失等。

4.免责申明可能随时修改，恕不另行通知。请定期查阅以获取最新信息。

提及AI大模型

ChatGPT

ChatGPT是一种基于自然语言处理的神经网络模型，它是以预训练技术为核心的生成模型。它是Transformer编码-解码模型的解码部分，以ChatGPT为代表的大语言模型（LLM）是目前最先进的自然语言处理技术之一。

Claude

Claude是Anthropic公司开发的大语言模型 (LLM)，主要特点是有用与可信。

提及AI应用

ChatGPT

由OpenAI打造的先进语言模型，为用户提供强大的自然语言处理能力，适用于编程帮助、写作支持、知识查询等多种场景

Claude

一款由前OpenAI的研究员和工程师组成的团队开发的新型聊天机器人，旨在和ChatGPT竞争

关联标签

AIGCOpenAI谷歌视频