AI手机，苹果又走在了国产厂商前面？

2024-06-14

解码Decode 关注

不一定

编者按：本文来自微信公众号解码Decode（ID:kankeji001），创业邦经授权发布。

今年的苹果WWDC结束之后，尽管媒体的评价都是“没有惊喜”，但作为头号黑粉的罗永浩却异常安静，上一条“怼人”的微博还是今年一月怒斥荣耀抄袭。

反倒是马斯克连发了7条推文，狂喷苹果全面接入OpenAI的ChatGPT，他甚至到库克的帖子下贴脸开大，说如果库克不阻止这种令人毛骨悚然的植入型软件，他将禁止苹果设备进入其公司，并贡献了一张被科技圈广为流传的表情包。

虽然外界也好奇马斯克为何如此暴躁，但主要的关注点还是在“没有惊喜”的Apple Intelligence（苹果智能）上。著名果链分析师郭明錤一边给苹果敲警钟，一边不忘提醒消费者，称AI可能会是苹果区隔高低端机种的新标签。

WWDC发布会后，苹果股价做了一圈过山车，先是发布当天应声跌了2%，第二天又神奇般大涨7%。

从不满到追捧，资本市场的态度在24小时内发生了惊天反转，是投资人误会了库克吗？倒是原本乐见其成的国产厂商，仍在不遗余力制造苹果落后的话题。

倒也不是国产厂商蹭热度，主要在AI手机这件事上，之所以苹果会被评价“没有惊喜”，是因为有一部分消费者已经用上了国产AI手机。换言之，WWDC上苹果拿出来的那些东西，国产厂商都已经教育一遍市场了。

那么问题来了，这一次苹果还能走在国产厂商前面吗？

01 AI手机行至第二阶段

在讨论先后的问题前，先来说说AI手机到哪个阶段了。

广泛层面上，AI手机被分为App化、功能化和原生化三个阶段。简单来说，去年年初各种类chatGPT的App出现就是第一阶段，而随着OPPO、三星等厂商推出AI手机，第二阶段也已到来。

这一阶段的AI手机，如今年1月发布的OPPO Find X7 和三星Galaxy S24，带有典型的AI功能化特征：支持通话摘要、AIGC消除以及AI语音助手等。

而且在AI手机的整体思路上，各家都趋于一致：将大模型的能力内化到操作系统中，不再以显眼的AI应用呈现，而是进一步落地到具体手机使用场景，最终目的是让AI功能看似不存在却又无处不在。

具体功能集中在以下几类：

1 输入法。将生成式AI集成到键盘软件，提供风格建议和智能重写等功能。如三星Galaxy AI允许用户以不同的风格和情绪改写句子，同时还提供拼写和语法改正。

2 实时翻译和转录。如三星Galaxy S24和华硕Zenfone 11 Ultra可利用设备端AI功能，实现通话实时翻译。此外，S24的实时翻译功能提供电话的实时转录，在屏幕上显示文本以方便参考，Zenfone的AI Transcript可自动将语音转换为书面文本。

3 图像内容生成和编辑。如小米14和小米14Ultra引入了“AI人像”功能，允许用户在手机上使用图库里自己的照片来做训练，训练完成后用户只需输入文本提示，即可在几乎任何设置中生成逼真的AI自拍。OPPO Find X7 Ultra可实现AIGC橡皮擦功能，允许在离线状态下，从照片中删除不需要的物体或人物。

4 通过LLM实现AI驱动的个性化功能。三星Galaxy S24可根据提示生成类似人类的文本能力，也可协助编写邮件或文档。OPPO Find X7 Ultra提供了上下文感知的多回合对话，也提供了虚拟助手。

5 生成式AI界面工具。荣耀的任意门功能允许用户在应用程序之间拖放文本或图像等元素，AI预测用户意图并建议相关的应用程序来共享内容。

按照上述功能来看，苹果之所以被评价“没有惊喜”，也是因为它的主要功能点一样落在了文本类、图片类、语音转录、语义搜索和语音助手上。换言之，强如苹果也仍停留在AI手机的第二阶段。

不过，苹果似乎故意弄了一套障眼法，没有在发布会上公布自研大模型，加之“没有惊喜”的Apple Intelligence，导致股价短暂震荡。但在发布会后，苹果又在一篇低调发表的技术博客中暗搓搓的介绍，端侧模型和云模型都是自己开发的。

其中，端侧模型是一个30亿参数（3B）的小模型，云上模型具体参数苹果没有公布。3B级小模型和主流几个7B级模型能力上苹果都能基本胜出，而其云端模型则直接打到了GPT-4 Turbo级。

并且，也有分析认为，即便苹果实现的AI功能并不突出，但因为它在AI功能落地方面能做的更好，所以仍旧具有一定优势。

以文生图功能为例，一般用户使用手机并没有生图需求，但是苹果将此功能落到真正需求上：如颜表情GenEmoji、聊天message中配图、iPad文档处理草图变精图等，AI介入将这些功能变得真实有用，带动用户需求。

而这还不是苹果最大的野心。

02 从功能化到原生化

去年12月，腾讯发表了一篇题为《AppAgent: Multimodal Agents as Smartphone Users》的论文，直译过来是“作为智能手机用户的多模式代理”。里面介绍了一种新颖的基于LLM的多模态Agent框架，旨在操作智能手机应用程序。

简单点说就是腾讯设计了一个框架，能使智能体模仿人类的点击、滑动等交互操作，从而达到控制手机的目的。关键是，这种方法无需访问系统后端，也就是说它在不同App中有高度的适用性。

腾讯为AppAgent设定了三个核心功能：

1) 自主探索学习：智能体可以独立地探索应用程序，无需外部指导。

2) 观察人类演示学习：智能体通过观察用户的操作演示来学习任务执行。

3) 知识库构建：智能体通过上述学习过程积累经验，构建知识库，用于跨应用执行复杂任务。

理论意义上，AppAgent是一个帮你操作所有App的应用。类似于苹果在发布会上的演示，用户告诉Siri想去接机，Siri可调取邮件里的航班信息、查找最新航班资讯、调用地图App形成路线，最终生成一份完整的建议。

将多模态能力用户UI界面，通过理解UI来执行智能体指令，或是AI手机从功能化迈向原生化的一个重要转折标志。苹果发布的Ferret UI大模型，就意图在操作系统层学习用户使用习惯、并有望替代用户执行操作。

基于对UI的理解，配合端侧智能体的任务规划和分配能力，AI手机具备了可实现如下重大跨越的潜力：用户使用自然语言下达指令，AI手机理解意图并将其拆分为具体工作流，然后从UI层面模拟用户操作以执行指令。最终实现跨App的操作与复杂任务执行。如此一个AI原生的手机操作系统的主要架构就完成了。

举例来说，当用户以自然语言向AI手机输入指令“帮我买一张明天下午2点去北京的靠窗的火车票”，手机智能体先接受语音、做语义分析和意图理解，然后进行任务拆分，拆分为：打开12306 App、选择搜索车票、选择地址“北京”、选择“明天下午2点”、选择“靠窗”、选择“乘客姓名”、点击“购买”；并通过UI类模型，解读App上不同的UI界面，并模拟用户点击操作，实现整个流程。

这一系列操作是不是与苹果在发布会上的演示很像，只不过苹果现阶段没有使用智能体的称呼，而是称之为理解用户情境，实现跨App操作。

类似的产品在今年MWC展上也出现了。Brain.ai的展示的基于App-less交互模式的概念手机T-Phone，用户只需在对话框中输入需求，即可得到快速响应。T-Phone的核心概念是抛弃传统的围绕App设计的手机，转而通过AI使用上下文预测来生成界面，帮助用户完成任务。

国内厂商中，荣耀在魔法OS上推出的任意门功能也是AI手机原生化的雏形。它允许用户在应用程序之间拖放文本或图像等元素，虽然被罗永浩怒怼抄袭，但其核心能力是“AI预测用户意图并建议相关的App来共享内容”。荣耀当时宣称，在推出时预计支持全球约100个最常用的应用程序。

无论苹果、腾讯、荣耀或者Brain.ai，这些公司希望最终达成的目标是：

用户只需要输入想要获得的服务（通过语音、文字等形式），手机会直接跳转到服务页面，或是由AI智能体直接完成用户所需要的服务。

但基于AI智能体的多元、自然交互体验，必须要有足够的甚至所有的功能和服务支撑。在此基础上，AI智能体的交互才能从传统GUI（Graphical User Interface）发展成VUI（Voice User Interface），最终升级为全新Agent（App-less）UI，意味着用户与手机的交互将发生在AI智能体和用户之间，弱化APP的存在感。

所以这一演进预计不会一蹴而就，未来很长一段时间内，AI智能体与App会同时活跃在AI手机里。而且不仅手机厂商，头部App也可能围绕自己的业务生态打造专用AI智能体，例证就是腾讯发表的那篇论文。