我想给 OpenClaw 接上语音，结果有人先做了(我想给你拍一张照片记录你的每一个瞬间)|科技 |Agent |手机 |ChatGPT |结果 |龙虾

我想给 OpenClaw 接上语音，结果有人先做了(我想给你拍一张照片记录你的每一个瞬间) 99xcs.com

我一直在用 OpenClaw（龙虾），通过飞书和电报来用，体验不错，已经在帮我做各种小杂事了。我这两天还基于龙虾做了个有点点意思的东西，还在打磨（vibe）中，过两天分享出来。

在和龙虾对话的过程中，我心里一直有一个感受和念头：人和 AI 之间，语音才是更 native 的交互方式。

这个念头不是凭空来的。

早在 ChatGPT 刚发布之际，我就做过一个真•全球首位的语音 ChatGPT 对话的软件，发到 B 站后一天之内播放就破了10万。

可以说，我对语音交互还是有一点儿执念的：语音的带宽虽然不高，但它是高度压缩的、灵感密度最大的。这其实就是我们人和人之间最高效、最自然的工作表达方式。文字当然更准确、更易理解，但很多时候，当你打下前几个字的时候，当时的灵感已经忘了一半。

而灵感，则是 AI 时代最为重要的东西。

我自己就经常有过灵感突然飞走的经历，所以我就一直偏爱语音输入类的工具。

龙虾出来之后我就在想，能不能给它接一个语音入口呢？

外网其实已经有人做过类似的尝试，用浏览器接语音，用Web Speech API去调后端，再把结果显示在网页里。技术上不复杂，甚至可以说挺优雅。

但我一直觉得，这种方式还是有点「隔着一层」。它更像是：

你坐在电脑前，对着电脑说话。

本质上还是「你在用电脑」而我真正想要的，是反过来——

不是我去靠近设备，而是设备贴近我。

让它不只是「打字对话」，而是随时随地、张嘴就来。飞书可以发语音，电报也可以，但终究不够 native，离那种真正「随时随地、开口即用」的体验还有些距离。

我一直想自己做一个，但这几天确实太忙了忙，一直没动手（动嘴）。

然后今天，我发现，这件事，已经有人在往我认同的方向走了。

有个叫「光帆AI」的团队在做一件事：

他们现在做的并不是“一个语音 APP”。更准确地说，是用 APP 先把「耳机 + 服务」的整条链路跑通并稳定下来。APP只是当前最便捷的载体，后续再把同一套能力自然迁移到更贴身的硬件入口上。

简单来说就是，你对着手机说一句话，家里或公司或远程的龙虾就开始干活，干完了把结果推到你手机上。

而这个 APP 粗看之下，可能会觉得这和在飞书里发个语音消息有什么不同？

但这里有个关键的区别：它对接的不是一个 chatbot，而是 OpenClaw 这个真正能干活的个人 Agent。这不只是语音版的 ChatGPT，也不是打通个聊天机器人就完了。

可以想象，这个入口以及未来的耳机背后，将会是一群不同的 Agent 在随时听从你的指令，全天候为你工作、解决问题。它用的是语音这种人和人之间最直接的沟通吩咐方式，自然到你甚至不觉得自己在「操作」什么东西。

所以看到 Hi Light 的第一时间，我就要来安装包上手一试了。

昨晚下载 APP 后，虽然该有的都有，但细节还需要打磨，玩了一会儿我就睡了。没想到早上醒来，看到已经又更新了2个版本了……

这是要春节无休的节奏啊……这么快速迭代的速度，我觉得再过几天、过几周，应该就能有一个不错的、可以日常用起来的版本。

那实际用起来什么感觉呢？来看几个我试过的场景。

今天早上我照旧去家附近的公园跑步，跑着跑着突然想起一件事：最近想调研某个技术方案的竞品情况，一直没顾上。以前这种念头只能先记在脑子里，等跑完回去再说。但大概率回去就忘了，或者被别的事岔开。这次我掏出手机，打开 Hi Light APP，点了通话按钮，说了一句：

“帮我调研一下海内外 AgentOS 的竞品和技术方案，整理成文档放桌面。”

然后手机塞回口袋，继续跑。等跑完回去一看，文档已经在那了。并且还成功直接调用了我之前的写的Nanobanana_PPT的skill。

我们来看看效果

顺便叮嘱一句：AI 时代，建议大家还是要多跑步、多运动。万一 AGI 真来了，你总得有个好身体去见证吧。

然后跑完步到家，我正洗澡满手都是水的时候，然后阿里云的电话告警来了：数据库满了，虽然是测试环境。

手上满是水时的打字体验和效率……懂的都懂……

不过现在就省事许多了，只需要点击电话按钮，然后直接说：「查一下测试环境，数据库满了，把数据同步表的数据清一下只保留最近一周的。」然后我电脑端的OpenClaw 会用我提前配置好的 skills 自动去连数据库、确定问题、清理数据、二次确认，然后在我还没洗完澡，就把结果推到手机上，给我语音播报完成了。