编者按:本文来自微信公众号 硅星GenAI(ID:gh_e06235300f0d),作者:苗正,创业邦经授权转载。
如果有这样一个设备,只有不到手掌的大小,你可以使用这个设备随时随地记录你周围的声音,并且可以转换成文字来和大语言模型交流,那么你会考虑入手一台吗?那如果我再告诉你,这样的设备你甚至可以自己手工制作,成本甚至不到100美金。
是的,就是相当于手搓了一个AI Pin。
英国首家案件取证调查平台Cado的CEO Adam C.H.发布了一个视频,讲述他只用了一块Coral AI的微型开发板和开发板选配的蓝牙模块,制作了一个语音采集器,Adam称这个设备为“Adeus”。这个词在西班牙语里是告别的意思,放在这个设备中,它的含义是“告别网络和监管”,指互联网厂商无法通过设备来采集用户的个人隐私。
Coral AI微型开发板
Adeus的算力来自于Coral AI的微型开发板,从上图里可以看到,板子包含了一个摄像头和一个麦克风,MCU(单片机)叫做NXP i.MX RT1176,采用ARM架构,使用的是Cortex-M4和Cortex-M7这两种处理器。坦白来讲,这两款处理器都是Cortex系列的低端处理器,提供不了多少算力支持。
说到这你可能会觉得“啊,这不胡扯吗,这个破MCU够干什么的啊”。说这话就代表你问到点上了,让我们把目光聚焦在那颗外观明显有别于其他芯片,刻着“Coral”大Logo的芯片上。这是Coral AI Edge TPU协处理器,能提供4 TOPS (数据结构为int8)的算力。TPU是谷歌提出的概念,全称是张量处理单元,专门用于进行深度学习和机器学习任务。
Coral AI Edge TPU
不过此TPU并非彼TPU,它这个叫“Edge TPU”,就是边缘TPU的意思。它的兼容性和性能都远不如TPU,但是功耗低、体积小。当然,每个神经网络模型对性能有不同的要求,面对像Adam C.H.安装在Adeus里面的这种开源模型,一般表现不会太差。
那么接下来的工作就简单了,Adam C.H.在网上找到了一个开源的人工智能声音转文字软件,再把Adeus连接到计算机上,最后执行安装,一切就都完成了。如果你想,你可以再为开发板的摄像头安装开源的人工智能软件,比如标识人脸、标识物体等等。看到这你应该就懂了,现在做电子产品的逻辑是整个过程依靠人工智能,所有的元件都为人工智能服务,只要硬件算力到位了,最终就能实现功能。
Coral AI微型开发板
我们来逆向思考,假如我们不使用人工智能技术,就单单还原一个“记录声音,转换文字”过程,都是非常费劲的。首先需要一个能够采集声音的模块,通常来说是麦克风。不过麦克风采集的声音是模拟信号,所以要将取到的模拟信号可能需要经过一些预处理,如滤波、放大等,以确保质量和适应性,而且每一步都需要一颗芯片。
最重要的来了,将模拟信号转换为数字信号,以便芯片能够进行数字信号处理。接下来是对数字信号进行处理,比如常说的降噪、特征提取等步骤,以准备输入到语音识别引擎。让这些数字信号经过语音识别引擎后,需要将转录出的文字输出到合适的存储设备或通过通信接口发送。
对比一下你就会发现,“原来人工智能省了这么多事啊!”
实话实说,100美金的价格还是有些偏高了。所以Adam C.H.将要在未来使用Raspberry Pi Zero这块板子来制作Adeus。
Raspberry Pi Zero
无独有偶,视频聊天软件Squad的CTO Ethan Sutin也有类似的想法,不过他想要的是随时随地和大语言模型交流。于是他利用苹果的M1芯片,配合OpenAI的Whisper技术,做出了一个能“揣在兜里”的Chat GPT3.5。
苹果M1芯片和麦克风阵列
Whisper是用于自动语音识别(ASR)和语音翻译的预训练模型。Whisper的理论基础是来自于OpenAI的Alec Radford等人的论文《Robust Speech Recognition via Large-Scale Weak Supervision》(通过大规模弱监督实现鲁棒的语音识别)。通过对将近70万小时的标记数据进行训练,Whisper模型展现了在许多数据集和领域中无需进行微调即可进行有效泛化的强大能力。
这套设备是没有开关的,所以怎么激活Whisper也需要人工智能的帮助。Ethan使用的是Silero,这是一个声音活动检测(VAD),选择它不为别的,主要原因在于Silero所使用的模型——JIT,它仅仅需要1Mb字节大小,而便携设备最缺的就是容量。
理解这两个关键以后就会发现,Ethan的做法比Adam C.H.还简单,这个设备的原理是用Silero来辨别是否有声音传入麦克风,再利用Whisper模型将声音转录为文字。通过手机,把转录的文字输入进大语言模型中,最后得到大语言模型的反馈,实现随时随地与大语言模型的交流。所以本质上来讲,他也是用人工智能来做硬件。苹果M1芯片价格大约为40美金,换句话说,这套方案比Coral AI的还便宜不少。
苹果M1芯片
OpenAI的CEO山姆奥特曼说过,现在已经出现了仅有1个员工就市值10亿美元的公司,靠的核心竞争力就是人工智能。
未来尤其是智能穿戴这个领域,极有可能变成一种“你需要什么功能,就准备多少计算资源”。比如上文提到的两个设备,他们之所以选择树莓派和苹果M1芯片,原因就在于这两者提供的内存、显存、算力满足了需求。通常情况下,GPU的显存主要用于存储模型参数、计算中间结果和进行模型优化的相关操作。而系统的内存主要用于存储训练数据、模型参数以及一些运行时的数据。在训练大型深度学习模型时,确保系统内存和显存足够大以容纳数据和模型参数是非常重要的。
树莓派
我们可以把这种将硬件的趋势简单缩写为一句话:道生一,一生二,二生三,三生万物。这些大发明家的本质,并不是掌握了多么精湛的手工工艺,而是巧妙地把人工智能融合进了硬件产品。在未来,随着技术的持续进步和创新,我们有望迎来一个智能设备制作成本显著降低的时代。届时,各类先进的传感器、微型处理器以及人工智能组件将变得更加易于获取且价格亲民,使得手工爱好者乃至普通大众都能够以相对低廉的成本亲手制作出功能丰富的智能硬件产品。通过开源社区的支持与共享经济的发展,制作智能设备所需的软件资源和技术教程也将变得触手可及,从而进一步降低了进入门槛。
本文(含图片)为合作媒体授权创业邦转载,不代表创业邦立场,转载请联系原作者。如有任何疑问,请联系editor@cyzone.cn。