又热闹了，OpenAI的加强版“Her”正式开放，压过了Gemini的“生产级”大升级

硅星人·2024-09-25

关注

笼罩在GPT阴影下的Gemini的一生。

编者按：本文来自微信公众号硅星人Pro，作者：Jessica，创业邦经授权转载。

今天真是AI圈久违了的热闹一天啊！

昨天刚被奥特曼发的那篇AI小作文搞得一头雾水，现在他这波操作的意图就呼之欲出了。

奥特曼想临门狙击的正是宿敌Google，更确切地说，是Google今天刚刚更新的两款升级版Gemini模型：Gemini-1.5-Pro-002和Gemini-1.5-Flash-002。

狙击方式简单粗暴：直接宣布万众期待的GPT语音功能今天起正式开放。

两个小时不到，就双叒抢走了Google好不容易的高光时刻。我要是Google我得气吐血吧。

1 GPT高级语音来了，会50多种语言

OpenAI称，ChatGPT的高级语音模式（Advanced Voice Mode）将在本周内逐步向所有Plus和团队用户推出。

在人们耐心等待的同时，团队完善了部分功能，包括新增自定义指令、记忆功能、5种新声音，并改进了口音。

由于实在被大家念叨了太久，OpenAI特别表示了一下：“它能用50多种语言说出’抱歉，我迟到了‘。”

并且放了一个从英文切换到普通话的示例：“奶奶对不起，我迟到了。我不是故意让您等这么久的，我可以怎么补偿您呢？”

——好家伙，这一下子都当上GPT的奶奶辈了，硬逼着我原谅你啊。

视频中可以看到，语音模式现在以一个跳动的蓝色球体表示，而不是OpenAI在5月展示技术时使用的黑色动画点。

当获得访问权限时，应用内会弹出一个提示。先是对Plus和Teams层级用户开通，下周起扩展到企业和教育用户。

ChatGPT还添加了五种新语音以供体验：Arbor、Maple、Sol、Spruce和Vale。至此，加上之前的Breeze、Juniper、Cove和Ember，ChatGPT的语音总数已达到了9种（Google的Gemini Live语音数量为10种）。

可能你也注意到了，这些名字都是从大自然中汲取灵感的，从“枫树”、“微风”到“太阳”、“山谷”，也许是为了让使用感觉更加自然。一个缺席的声音是Sky，也是OpenAI在春季发布会时展示的语音，因涉及与电影《Her》主演斯嘉丽·约翰逊的法律争议而下架。

OpenAI还将ChatGPT的一些定制功能扩展到了高级语音模式，包括允许用户个性化回应的「自定义指令」功能，以及允许ChatGPT记住对话供以后参考的记忆功能。

比如下面视频里，在系统设置的自定义ChatGPT菜单中，输入 “我的名字是夏洛特，我住在旧金山湾区。”再询问周末户外活动时，GPT就会以夏洛特称呼用户，提供符合本地天气和交通的建议。

视频截图

OpenAI称团队改进了部分外语中的响应速度、流畅性以及口音。语音会根据对话语气进行调整，你可以创建场景，提示它扮演不同的角色。声音延迟非常低，理解力也更强，真的像是和另一个人自然对话。

不过OpenAI四个月前展示过的视频和屏幕共享功能此次并未更新。当时工作人员向GPT询问纸上的数学题和电脑屏幕上的代码，通过自然语音对话获得了实时解答。目前，OpenAI尚未提供这项多模态功能的推出时间表。

此外高级语音模式也暂时不对欧盟、英国、瑞士、冰岛、挪威和列支敦士登等地区开放。

尽管如此，终于能亲自上手OpenAI版的“her”，对已经混AI圈混到审美疲劳的人们来说，确实算一件值得兴奋的事了。加上才制造了一波热潮的o1-preview，OpenAI又妥妥硬控业界一周。

这一激动也把大伙儿整地间歇性失忆了：

话说Google今天是发了个啥来着？

2 Gemini 1.5 升级两款新模型，价格减半，速率提升

Google这次的更新其实也很重磅，至少对于开发者来说。

根据Google Blog，这次他们更新了两个生产级Gemini模型：Gemini-1.5-Pro-002和Gemini-1.5-Flash-002。所谓“生产级”，是指AI模型经过了充分的开发、测试和优化，已准备好商业化部署，能处理大量用户请求、应用于产品服务中，而不仅仅是用于实验或研究。

作为今年5月I/O大会亮相的Gemini 1.5系列模型的重大升级，新模型更快、更强大，也更具成本效益。

主要亮点概括为：

1. 价格大幅降低：1.5 Pro的输入和输出价格下降约50%，大幅降低了构建成本，尤其是对小于128K token的提示。

2. 整体质量改进：尤其在数学、代码生成、长文本上下文和视觉任务上的性能提升显著，包括在MATH、HiddenMath等基准测试中提高约20%，视觉和代码应用提高2%-7%。

3. 速率限制提高：1.5 Flash和1.5 Pro的速率限制分别从每分钟1000RPM（Requests Per Minute）和360RPM提高至每分钟2000 RPM和1000 RPM，使开发者能够更快构建和处理任务。

4. 更快输出和更低延迟：输出速度提升2倍，延迟降低3倍，为更高效的应用场景提供支持。

5. 更简洁的响应：响应风格更简洁、成本更低，输出长度缩短5%-20%，同时在许多话题上减少了拒绝和回避的次数，并保持高有用性。

6. 多模态和长上下文支持：1.5 Pro的200万token长上下文窗口支持处理长文本和多模态任务，如1000页PDF或长视频的内容生成。

7. 更新的过滤设置：模型的默认安全过滤器不再自动应用，开发者可以根据需要定制模型的安全设置。

开发者可以通过Google AI Studio和Gemini API免费访问这两个最新模型。大型组织和Google Cloud客户也可在Vertex AI上使用新模型。

3 笼罩在GPT阴影下的Gemini

但在同行对比下，不少普通用户对Google这次动作表达了失望，觉得这甚至算不上真正意义的“发布”。

Abacus.AI CEO、知名博主Bindu Reddy说，“唉，OpenAI发布了通过智商测试的o1，而Google只是对Gemini 1.5进行了一些小更新。他们拥有100倍的资源、10倍的人才和10倍的所有东西，怎么会这样呢？”

尽管开发者中还是有些人为Google说话，比如Reddit讨论区就有网友表示：

“对于那些实际在构建应用并试图降低成本、增加利润的人来说，这些都是有用的东西。我正在做的应用有一个每次操作的固定成本，由token长度决定，这让我的利润提高了大约30%以上。这对大多数人来说可能没什么意思。我知道很多人会因为谷歌的这个“公告”而生气——但实际上这对开发人员来说是一个不错的更新。”

价格对半砍、速率提升、延迟降低，这些确实正中开发者下怀。但正如大家所说，吸引力也许仅限于开发者群体了。

甚至连一些开发者也嗤之以鼻：“我没看到跟Claude或o1的比较，而我们马上就要迎来下一代OpenAI和Anthropic模型。DeepMind其实拥有远超目前的模型，但他们在走直接面向企业的路线，绕过了大众。Gemini令人印象深刻吗？完全不，简直令人失望透顶。”

Google对于模型的糟糕命名也被网友群嘲，认为其冗长且易混淆。

The Information近期发布了一篇名为《Why AI Developers Are Skipping Google’s Gemini》的文章。其中通过对多位AI公司创始人和Google内部员工的采访，讲述了Gemini如何被开发者“抛弃”，在追赶ChatGPT时遇到的阻滞和困境。

比如，相比竞争对手的技术，调用Gemini对于开发者和企业来说过于复杂。Topology创始人Aidan McLaughlin表示，他首次使用OpenAI的API仅用了30秒，而使用Gemini则花了4个小时。同时Google的大模型性能却排在OpenAI和Anthropic之后，并不值得他跨过这些障碍。

相较于ChatGPT，Gemini在开发者中的不受欢迎似乎是现实世界公开的秘密。

企业软件威廉希尔中文官网 Retool在6月份对750多名科技员工进行的调查发现，仅有2.6%的受访者表示他们最常使用Gemini来构建AI应用，超过76%的人选择使用GPT。

Similarweb追踪的网站流量数据显示，6月至8月期间，OpenAI的应用开发者页面访问量达8280万次，而谷歌的页面访问量为840万次。

较小的非正式调查也提供了类似的证据。上月底，Finetune的创始人Julian Saks向他在旧金山联合办公空间的50名AI初创企业开发者询问他们最常使用的对话式AI模型。几乎所有人都表示，他们主要使用的是Anthropic或OpenAI的模型，没有人提起Gemini。

尽管Gemini模型在分析长文档或长代码库时非常有用，但许多开发者表示，谷歌的模型选项种类繁多，步骤复杂，开发者系统也与OpenAI的不同，更难使用。并且有时，Google提供的不同服务还会在它自己的搜索结果中互相竞争，使得人们在试图搞清楚这些工具时很容易被“绊住”。

Gemini因此经常在X上被嘲笑。安全威廉希尔中文官网 Xbow的AI研究员Brendan Dolan-Gavitt本月早些时候发了一条推文，详细介绍了他通过Vertex开始使用Gemini所需的众多步骤，迅速走红。其他开发者纷纷评论区表示同情。

在一个“世界上领先的工程师都在使用OpenAI、Claude或Cursor”的环境中，开发者们确实没有必要再去尝试其它。而反过来说，使用量的走低又无法让Gemini获得ChatGPT一样多的数据反馈，致使Google在改进模型上会面临更模糊的路线图。

4 失望是因为人们对Google期待很高

Google正试图改变这种看法，包括通过在X上回应对Gemini的批评，将更多OpenAI等公司的明星技术专家纳入麾下、将部分重叠的开发功能合并等。他们还通过举办开发者活动来宣传Gemini。

今天与Gemini-1.5-Pro-002推出同步进行的，还有一场Gemini for Work的线上活动，Google花了大量篇幅宣讲Gemini目前在Best Buy、Snap、UPS Capital、Wayfair等公司的应用案例。据悉，他们正试图通过提供一定程度的“白手套”服务来拉拢更多大企业客户。

只是在根深蒂固的市场份额面前，Google的反击之路可能没那么好走。

AI Studio的产品负责人Logan Kilpatrick今年4月加入前曾于OpenAI负责开发者关系，他表示：“实际情况是，OpenAI在LLM API开发者工具方面领先于谷歌。我们必须与他们当前在开发者中根深蒂固的市场份额作斗争。”

稍早前AI圈知名博主Rowan Cheung曾预告，自己完成了一个关于AI模型重大升级的采访，今天开发者们将迎来一个大日子。

那篇推文下面，Logan Kilpatrick的笑脸字符表情在一大片“怎么不是Claude Opus 3.5”的遗憾声中略显尴尬。

保守、争议、滞后是今天Google这位AI巨头给社区留下的刻板印象。Gemini-1.5-Pro-002的推出似乎也并未打破这一僵局。

人们对这家公司的失望，都是来自对它的期待很高：这么强的实力和人才储备，却无法给世界更多的“替代”OpenAI的选项，谁都会感到遗憾。

本文为专栏作者授权创业邦发表，版权归原作者所有。文章系作者个人观点，不代表创业邦立场，转载请联系原作者。如有任何疑问，请联系editor@cyzone.cn。