进击的速溶咖啡：当中国AI开始玩工业化

2021-05-06

脑极体关注

前方一无所有，也因此给人安慰。

编者按：本文为专栏作者脑极体授权创业邦发表，版权归原作者所有。

从2017年AI借助围棋大规模出圈开始算起，我们经历了这么几个阶段的变化：

第一阶段，全社会一起讨论AI到底有什么用；

第二阶段，相关产学政各方一起讨论，AI应该怎么用；

第三阶段，负责出钱和收钱的双方努力讨论，AI怎么用才能便宜点？

随着产业化的推进，公众范围对AI的探讨也随之收窄。如今，基本看不到营销号那些关于AI的惊悚标题，也很少有让业界惊喜的底层算法突破。也许有人认为AI泡沫正在破裂，AI寒冬又将到来。但在大众狂欢消退之余，却又能看到商用AI正在中国市场快速兴起。到了2021年，大部分云计算和AI供应商似乎都无暇继续讨论AI的应用场景和应用可行性，而是专注于另一个关键词：成本。

随着AI开始变成企业服务的一种，部署成本过高开始变成业界最显著的问题，而且在中国AI产业中尤甚。与其他企业IT技术不同，AI作为一种灵活多变的软件形态，需要长期投入和专业人才。这导致AI在大型科技公司或者平台型企业具有非常弹性的投资曲线，可以战略性投入，从而灵活多变地解决各种问题。但对于传统企业、中小型企业、缺乏信息化基础的企业来说，应用AI往往能在理论上解决非常重要的问题，却缺乏直接、可操作且成本可控的执行方案。

回到云计算和AI服务提供商这边，虽然面向企业卖AI理论上潜力巨大。但现实是每家客户都有大量需要定制解决的需求，往往要投入众多行业专家、算法架构师、软硬件工程师来解决一些细小问题。这样做出来的成果虽然可观，但其实只具备案例性质，缺乏推广可能。

另一方面，疫情导致美国AI行业创新缓慢，头部公司算法突破不理想。同时欧美的AI to B市场净值较高，客户数字化能力较强。谷歌云、微软云的崛起虽然都与AI息息相关，但适配的更多是大规模、分散式的企业软件市场。反而中国市场中的AI目标用户更多是政企、实体经济企业，需要一对一的AI能力与行业化的AI解决方案。

这种情况下，把AI技术推向高度工业化、标准化，就猛然间变成了中国科技界的独立任务。虽然在2019年谷歌等头部AI公司已经开始推动机器学习简单化的相关技术，但其目标更多集中在所谓“AI民主化”，而非今天中国云计算与AI厂商面向的大规模AI部署与工业级AI场景。

不夸张地说，低成本的AI工业化，已经成为目前中国AI产业的主线任务，但相关分析却并不充沛。本文希望讨论一下中国AI工业化这条赛道的几种产品逻辑，以及代表案例、商业模型。由于各家厂商的命名方案与产品标准并不统一，为免误会这里选择隐去具体的厂商与技术名称。但将相关技术逻辑带入到几家大厂，不难发现聚焦程度已经不低。

看过东野圭吾《神探伽利略》系列的朋友，可能对主角汤川学钟爱速溶咖啡钟爱印象深刻。看似廉价、低端的速溶咖啡，其实凝结了喷雾干燥等20世纪初人类科学与工业能力的精髓。也正是速溶咖啡的出现，才让咖啡大规模生产、运输、存储成为可能。

如果说，深度学习是人类发现了咖啡这种饮料；那么中国AI正在努力完成的，就是炮制出一杯进击的速溶咖啡。

真正的咖啡时代，或许更可能开启于后者。

行业知识图谱

对于大部分企业用户来说，AI提供的都是机器视觉、NLP体系下的几种固定能力。基于这些能力衍生出企业的定制化变体复杂度很高。但有一种AI技术却很容易与企业和行业的特殊需求进行适配，那就是知识图谱。

知识图谱的技术逻辑是将一些知识进行人为关联，从而在调用A知识时驱动B知识，从而达成近乎“智能”的效果。这并不是多么新颖的技术，甚至早已机器学习诞生前，知识图谱已经在很多领域有了广泛应用。今天在搜索引擎和电商产品中的相关推荐功能，很大一部分都依靠知识图谱来完成。

在AI to B的应用中，一个巨大问题在于企业处在特定行业里。每个行业不同的知识，或者说经验，决定了应用AI的需求不同、成本各异。比如说，安防场景需要的AI识别，就和质检场景大相径庭。

因此一种新的AI产品服务模式，是技术供应商上升为行业信息化服务商，主动打造符合具体行业需求的知识图谱产品。比如工业知识图谱里可能包含分拣、质检、产品流程等方方面面，当工业识别解决方案与之结合，AI就不仅能够完成单点任务，还可以依据行业知识图谱完成一定程度的复杂需求，比如知识推理、知识预测等等。

类似的行业知识图谱拥有广泛的应用可能性，无论是在工业、能源这样注重“经验”的场景，还是金融、物流这样看重“数据关系”的领域。另外，行业知识图谱也可以帮助AI打入那些通识类算法难以奏效的行业，比如说油气勘探、生物医药等等。最重要的是，如果云计算厂商提供有效的行业知识图谱服务，那么就可以免除一个个订单去给企业做知识、经验适配，从而降低人工成本。

但行业知识图谱的问题在于，行业知识是一个非常抽象、难以标准化的版图。每个行业有多少知识可以取公约数也是个问题。因此市面上的类似服务，都大体集中在金融、能源、工业质检等几个基础板块，难以细化到更具体、小众的行业。并且行业知识图谱已经极大改变了云计算、AI供应商的角色，使其从算法等基础能力提供商变成了行业咨询、行业数字化解决方案提供商，这对商业模式和行业认可也提出了挑战。

目前，与机器视觉、NLP等基础能力适配的行业知识图谱，还是中国AI界独一份的产业板块。它能走到多远，或许是接下来AI产业一个非常重要的发展指示物。

自动机器学习

虽然苏大强都知道手磨咖啡好喝，但让每个人都去磨咖啡显然不现实。速溶咖啡的价值也因此得到了确认。

这就像AI虽好，但每家企业都高价聘用算法架构师，花费大量时间做数据调优、分类、提取也很不现实。为了解决这个问题，谷歌早在2018年就推出了AutoML，也就是自动机器学习的相关工具。这类工具的基础逻辑在于，尽量让普通开发者，甚至不会写代码的AI应用者，都能通过按要求上传图片的方式生成固定的AI模型。这些模型虽然简单，但胜在零门槛，低成本。大众熟知的类似应用，可能就是以给明星换脸而出圈的deepfake。当这东西被全球集体封杀，或许也侧面证明了自动机器学习的威力。

随着产业发展，自动机器学习也不再仅仅能做简单的视频处理。尤其随着大厂的不断投入，今天中国AI产业的自动机器学习平台与工具，在能力的多元化与工业化上已经远远超过了谷歌等美国公司。广义来看，从数据处理到数据特征提取，再到数据调参和训练，几乎每一个AI步骤都可以在今天找到一些办法来进行自动或半自动简化。而国内几大相关厂商也推出了自动机器学习平台的升级版，以此来提升复杂模型的开发效率，或者帮助进行行业化的AI落地。

在产业端，自动机器学习的最突出价值在于可以快速渗透那些缺乏AI，甚至缺乏信息化基础，同时也无法进行定制化服务的微型领域。比如说农业、医疗，甚至校园场景。即使缺乏AI能力甚至编程能力的个人开发者，也可以依靠自动机器学习平台很快完成一个简单AI模型的开发，并且在手机、摄像头等设备上完成部署。比如在一个案例中，农村扶贫干部可以依靠类似平台快速开发一个识别房屋、果树、农作物的软件，从而加强扶贫工作标准化以及提升工作效率。

当然了，自动机器学习类软件既然瞄准的是低门槛，那么问题也随之产生。这类平台的自动化能力，导致其往往难以处理复杂数据或者完成算法创新。而一旦给平台加强更多技术能力，又容易变得更为专业复杂，不适配缺少技术能力的企业和开发者。其中的平衡点很难拿捏。

无论如何，近两年我们在看到越来越多的工业级AI项目开始基于自动机器学习平台来搭建，AI开发的时间成本与人力成本也在极速下降。

这些真正面向解放生产力的升级，构成了中国AI的最佳风景。

大规模预训练模型

说到工业级AI，那么就不得不提AI应用的另两个核心问题：数据量和训练算力。

在工业、能源、金融、医疗这些行业中应用的AI，需求特征是参数精度高、训练数据需求量大。但问题也来了，一家传统企业去哪搞那么多数据，又哪来的算力进行长时间、需要复杂调参优化的模型训练呢？

面对这个问题，业界也有个办法。就是平台提供预训练模式，然而企业买回去进行二次加工，从而生成自己想要的AI能力。这个逻辑很容易理解，有点像买熟食回家再二次烹饪一下。家里人还是会夸你手艺好，谁又在乎前面98%的步骤都是在餐厅完成的呢？

在AI领域，这个用半成品再加工的逻辑被叫做迁移学习。其在大数据集训练的预训练模型上再完成小数据的迁移，最终在企业用户时间、人力成本的基础上，保证了模型的精度和使用效果。

大规模预训练模型的逻辑很早就被提出，但近两年在中国AI产业中开始不断得到重视，形成了解决AI工业化的核心思路之一。一般来说，云计算企业会提供NLP、机器视觉等主要品类的AI预训练模型，或者重要行业、重要工作场景中的预训练模型，供企业下载部署。一方面以此带动企业用云量，另一方面还可以衍生出更多的智能化解决方案服务。