「中杯」Claude 3.5突然上线,竟比GPT-4o还强!全新Artifacts改写模型交互

关注
Anthropic曾许下要超越OpenAI的发家愿望,没想到竟然这么快就实现了。他们刚刚发布的Claude 3.5 Sonnet模型不仅成本更低、速度更快,而且在基准测试上的表现「弯道超车」GPT-4o。

编者按:本文来自微信公众号 新智元(ID:AI_era),创业邦经授权转载。

继今年3月发布Claude 3之后,Anthropic在半年时间里又上新了!

就在今天,Claude 3.5 Sonnet发布,作为即将推出的Claude 3.5模型家族的「排头兵」,而且已经面向全球开启免费试用。

图片

具体来说, Claude 3.5 Sonnet支持200K token的上下文窗口,而在多项评测中超过了OpenAI最强的GPT-4o,以及自家的Claude 3 Opus。

与此同时,Claude 3.5 Sonnet还保持着中等规模的模型所具有的速度和成本优势。

图片

其中,在费用方面,Claude 3.5 Sonnet处理每百万输入token仅需3美元,每百万输出token则为15美元。(与前代相同)

图片

用户可以在Claude.ai和Claude iOS应用程序上免费体验,如果订阅了Claude Pro和团队计划,则可以享受更高的速率;此外,还可以通过Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI使用

生成2倍速,成本仅1/5

Claude 3.5 Sonnet虽然在零样本MATH和MMLU评测中小幅落后GPT-4o,但在研究生级推理(GPQA)、本科级知识(MMLU)和编码能力(HumanEval)上,毋庸置疑地刷新了SOTA——

不仅大幅领先自家的前代老大哥Claude 3 Opus,而且还完成了对谷歌Gemini 1.5 Pro和Meta 4000亿参数的Llama(早期预览版)的全面超越。

它在理解细微差别、幽默和复杂指令方面有显著提升,并且能够用自然、贴近生活的语调撰写高质量内容。

在运行速度方面,Claude 3.5 Sonnet也是Claude 3 Opus的两倍。

这种性能提升,再加上高性价比,使Claude 3.5 Sonnet非常适合处理复杂任务,如上下文敏感的客户支持和多步骤工作流程的协调。

在内部的智能体编码评估中,Claude 3.5 Sonnet解决了64%的问题,优于Claude 3 Opus的38%。

结果显示,在指令和相关工具的支持下,Claude 3.5 Sonnet可以独立编写、编辑和执行代码,具备复杂的推理和故障排除能力。

尤其是,它能够轻松处理代码翻译,因此在更新遗留应用程序和迁移代码库方面效果极佳。

图片

视觉能力超越GPT-4o

在视觉方面,Claude 3.5 Sonnet也是Anthropic迄今为止推出的最强大模型,不仅明显优于Claude 3 Opus和Gemini 1.5 Pro,而且在大部分测试中也都超过了GPT-4o。

这些改进在需要视觉推理的任务中尤为明显,例如解释图表和图形。

不仅如此,Claude 3.5 Sonnet还可以准确地从不完美的图像中转录文本——这是零售、物流和金融服务领域的核心能力。

在这些领域里,AI从图像、图形或插图中获得的信息往往要比单纯的文本来得更多。

图片

基准测试中体现的这种强大视觉能力如何落实到现实应用中呢?下面这个demo给你答案。

像GPT-4o、Gemini这些模型虽然理解图像和视频的能力很强,但一般只能生成文字的描述内容,在这方面我们人类显然更擅长,能比模型做得更快更好。

但Claude不仅能准确识别、转录图像中的文字内容,还结合了强大的代码生成能力,多个模态真正集成在一起。

看一眼图片,立刻识别信息生成JSON文件,手速绝对快过任何程序员。

图片

还能通过编码制造交互式图表,代码直接可运行,数据也丝毫不差。

图片

不仅仅是代码,根据图片信息生成的网页也是图文并茂、界面精美。原本需要一晚上才能搞定的工作量,Claude帮你5分钟内赶上DDL。

图片

领域专家最为钟爱

在附带的报告中,Anthropic还补充了一些其他测试的结果。

图片

报告地址:https://cdn.sanity.io/files/4zrzovbb/website/fed9cc193a14b84131812372d8d5857f8f304c52.pdf

表4展示了Claude 3.5 Sonnet在「拒绝请求」时的表现。

这里,团队使用的而是Wildchat和XSTest数据集进行测试,从而衡量模型在面对无害提示时避免不必要的拒绝,同时在面对有害内容时保持适当的谨慎。

可以看到,Claude 3.5 Sonnet在这两个维度上都优于Opus:它的错误拒绝更少,正确拒绝更多。

图片

表5、图1和图2展示了Claude 3.5 Sonnet在「大海捞针」任务中的表现。

可以看到,Claude 3.5 Sonnet和Claude 3 Opus的性能几乎不相上下,但在平均召回率方面Claude 3.5 Sonnet还是要略胜一筹。

图片

此外,从下表中能更清晰地看到,Claude 3.5 Sonnet在所有文本长度和200K长上下文之间,召回率居然没有出现明显滑落,这是包括Opus在内的所有前代模型的突破。

图片

图片

在基于人类反馈的评估方面,团队把从Claude 2.1开始的所有模型都拉了出来。

其中,人类评审需要与模型进行对话,并根据任务特定的指令对其进行评估。

图3展示了与Claude 3 Opus基线相比的「胜率」(win rate)。

可以看到, Claude 3.5 Sonnet不仅在编码、文档、创意写作和视觉等核心能力上有着显著的改进,而且领域专家们也更加喜欢——在法律领域的胜率高达82%,在金融领域为73%,在哲学领域为73%。

图片

Artifacts:让团队实现无缝协作

除了模型的更新之外,Anthropic还Claude.ai上推出了一项全新功能——Artifacts,扩展了用户与Claude互动的方式。

具体来说,当用户要求Claude生成代码片段、文本文档或网站设计等内容时,只需要一键点击,这些Artifacts会出现在对话旁边的专用窗口中。

这样就创建了一个动态工作空间,用户可以实时查看、编辑并基于Claude的创作进行构建,将AI生成的内容无缝集成到他们的项目和工作流程中。

这个功能的添加,大大增强了Claude在复杂项目中的可用性。

比如想要创建一个交互式的游戏界面,你很难在一次对话中描述清楚所有的功能与需求。即使描述清楚了,以生成模型目前的能力,未必也能一次得到满意的结果。

于是,你可以参考软件开发的流程,将需求分解为多个步骤,更方便Claude Sonnet进行「渐进式开发」和迭代。

比如下面这个demo中,想要创建一个游戏,可以先让模型用SVG格式生成你想要的角色形象。

图片

再把所有这些SVG图像放在同一个HTML网页中。

图片

最后,规定好角色名称和游戏规则,只需要告诉Claude让这个游戏变得「可玩」,不用操心任何代码细节,一个简单的网页游戏就制作完成了。

图片

Artifacts的推出,标志着Claude从对话式AI向协作工作环境的转变。

当然,这还只是一个开始。

不久的将来,团队——最终是整个组织——将能够在一个共享空间中安全地集中他们的知识、文档和正在进行的工作,Claude将作为按需的队友提供服务。

网友:被震撼到了!

模型刚刚发布,就有早期测试者发帖表示「被震撼到了」!

图片

我是Claude 3.5 Sonnet模型的早期测试者,我对输出的一致反应是「超神」,模型现在已向所有人开放。

Claude 3.5 Sonnet在关键评估上优于竞争模型,速度是Claude 3 Opus的两倍,但成本只有五分之一,能胜任自主编码和视觉处理等复杂任务,而且可以管理长文档,确保 RAG、搜索/检索以及比较多个长文档等任务的准确性。

以及,我个人使用体验的反馈:从来不需要跟它说「不,你没明白我的提示,请执行这个操作」,它就是能理解提示并做到了;Artifact让我更有效率;文本推理/比较的结果优秀到不可思议。

有网友表示,自己不相信基准,于是便拿了道真题来了波实测。

结果不出所料,Claude 3.5 Sonnet很快就做了出来,而GPT-4o则在一通长篇大论之后给出了错误的答案。

图片

Ethan Mollick表示,Anthropic新推出的「Artifacts」用起来有点类似于简化版的代码解释器。

图片

大局观

那么Claude 3.5 Sonnet在Anthropic和整个AI生态系统中有什么重要意义呢?

首先是性能方面,由于当前模型架构的固化以及训练所需的巨大计算量,在没有重大研究突破的情况下,我们很难看到从GPT-3到GPT-4那样的飞跃。

比如,谷歌(Gemini 1.5 Pro)和OpenAI(GPT-4o)发布的旗舰产品,在基准测试和性能方面都只有小幅的提升。

其次,随着生成式AI厂商将注意力转向数据策划和许可,而不是新的可扩展架构,投资者似乎对生成式AI的投资回报周期比预期更长感到担忧。

不过,Anthropic因为处在对抗OpenAI的关键位置上,因此在一定程度上不会受到这种压力的影响。

但值得注意的是,Anthropic到2024年底的预计收入只有不到10亿美元,仅仅是OpenAI的「零头」。

图片

第三,尽管客户群在不断增长,包括Bridgewater、Brave、Slack和DuckDuckGo等家喻户晓的品牌,但它仍然缺乏一定的企业知名度。正如最近与普华永道合作向企业转售生成式AI产品的是OpenAI,而不是Anthropic。

对此,Anthropic正在采取一种战略性且成熟的方法来开扩市场——将更多的研发投入到像Claude 3.5 Sonnet这样的产品上,从而在市场价格下提供稍好的性能。

可以看到,Claude 3.5 Sonnet的定价与Claude 3 Sonnet相同:每百万个输入模型的token收费3美元,每百万个模型生成的token收费15美元。

最后,Claude 3.5 Sonnet虽然没有解决大模型的「幻觉」问题,但它可能足够有吸引力,让开发者和企业转向Anthropic的平台。而这才是Anthropic关心的。

为此,Anthropic加大了对工具的投入,比如:

- 实验性的引导AI,允许开发者「引导」模型的内部特性;

- 集成使其模型能够在应用程序中执行操作;

- 基于模型构建的工具,比如最新的Artifacts。

此外,它还聘请了一位Instagram联合创始人担任产品负责人。

总体来说,Anthropic似乎已经意识到,围绕模型构建一个生态系统,而不仅仅是孤立的模型,是保持客户的关键,因为模型之间的能力差距正在缩小。

最后,让我们拭目以待吧。

参考资料:

https://www.anthropic.com/news/claude-3-5-sonnet

https://techcrunch.com/2024/06/20/anthropic-claims-its-latest-model-is-best-in-class/

本文为专栏作者授权创业邦发表,版权归原作者所有。文章系作者个人观点,不代表创业邦立场,转载请联系原作者。如有任何疑问,请联系editor@cyzone.cn。

反馈
联系我们
推荐订阅