
我一直在用 OpenClaw(龙虾),通过飞书和电报来用,体验不错,已经在帮我做各种小杂事了。我这两天还基于龙虾做了个有点点意思的东西,还在打磨(vibe)中,过两天分享出来。
在和龙虾对话的过程中,我心里一直有一个感受和念头:人和 AI 之间,语音才是更 native 的交互方式。
这个念头不是凭空来的。
早在 ChatGPT 刚发布之际,我就做过一个真•全球首位的语音 ChatGPT 对话的软件,发到 B 站后一天之内播放就破了10万。
可以说,我对语音交互还是有一点儿执念的:语音的带宽虽然不高,但它是高度压缩的、灵感密度最大的。这其实就是我们人和人之间最高效、最自然的工作表达方式。文字当然更准确、更易理解,但很多时候,当你打下前几个字的时候,当时的灵感已经忘了一半。
而灵感,则是 AI 时代最为重要的东西。
我自己就经常有过灵感突然飞走的经历,所以我就一直偏爱语音输入类的工具。
龙虾出来之后我就在想,能不能给它接一个语音入口呢?
外网其实已经有人做过类似的尝试,用浏览器接语音,用Web Speech API去调后端,再把结果显示在网页里。技术上不复杂,甚至可以说挺优雅。
但我一直觉得,这种方式还是有点「隔着一层」。它更像是:
你坐在电脑前,对着电脑说话。
本质上还是「你在用电脑」而我真正想要的,是反过来——
不是我去靠近设备,而是设备贴近我。
让它不只是「打字对话」,而是随时随地、张嘴就来。飞书可以发语音,电报也可以,但终究不够 native,离那种真正「随时随地、开口即用」的体验还有些距离。
我一直想自己做一个,但这几天确实太忙了忙,一直没动手(动嘴)。
然后今天,我发现,这件事,已经有人在往我认同的方向走了。
有个叫「光帆AI」的团队在做一件事:
他们现在做的并不是“一个语音 APP”。更准确地说,是用 APP 先把「耳机 + 服务」的整条链路跑通并稳定下来。APP只是当前最便捷的载体,后续再把同一套能力自然迁移到更贴身的硬件入口上。
简单来说就是,你对着手机说一句话,家里或公司或远程的龙虾就开始干活,干完了把结果推到你手机上。
而这个 APP 粗看之下,可能会觉得这和在飞书里发个语音消息有什么不同?
但这里有个关键的区别:它对接的不是一个 chatbot,而是 OpenClaw 这个真正能干活的个人 Agent。这不只是语音版的 ChatGPT,也不是打通个聊天机器人就完了。
可以想象,这个入口以及未来的耳机背后,将会是一群不同的 Agent 在随时听从你的指令,全天候为你工作、解决问题。它用的是语音这种人和人之间最直接的沟通吩咐方式,自然到你甚至不觉得自己在「操作」什么东西。
所以看到 Hi Light 的第一时间,我就要来安装包上手一试了。
昨晚下载 APP 后,虽然该有的都有,但细节还需要打磨,玩了一会儿我就睡了。没想到早上醒来,看到已经又更新了2个版本了……
这是要春节无休的节奏啊……这么快速迭代的速度,我觉得再过几天、过几周,应该就能有一个不错的、可以日常用起来的版本。
那实际用起来什么感觉呢?来看几个我试过的场景。
今天早上我照旧去家附近的公园跑步,跑着跑着突然想起一件事:最近想调研某个技术方案的竞品情况,一直没顾上。以前这种念头只能先记在脑子里,等跑完回去再说。但大概率回去就忘了,或者被别的事岔开。这次我掏出手机,打开 Hi Light APP,点了通话按钮,说了一句:
“帮我调研一下海内外 AgentOS 的竞品和技术方案,整理成文档放桌面。”
然后手机塞回口袋,继续跑。等跑完回去一看,文档已经在那了。并且还成功直接调用了我之前的写的Nanobanana_PPT的skill。
我们来看看效果
顺便叮嘱一句:AI 时代,建议大家还是要多跑步、多运动。万一 AGI 真来了,你总得有个好身体去见证吧。
然后跑完步到家,我正洗澡满手都是水的时候,然后阿里云的电话告警来了:数据库满了,虽然是测试环境。
手上满是水时的打字体验和效率……懂的都懂……
不过现在就省事许多了,只需要点击电话按钮,然后直接说:「查一下测试环境,数据库满了,把数据同步表的数据清一下只保留最近一周的。」然后我电脑端的OpenClaw 会用我提前配置好的 skills 自动去连数据库、确定问题、清理数据、二次确认,然后在我还没洗完澡,就把结果推到手机上,给我语音播报完成了。
用了几次之后我发现,这真的是一个很爽的交互模式:我可以像打电话一样直接给 Agent 说出指令,它接收到之后会告诉我说已收到,还让我先去干点别的或者玩一会儿,等它的好消息。然后过不久,结果就推送过来了,我随时可以审阅。
如果还有需要调整的地方,继续语音追加指示就行。真的就像一个人在管理着无数随叫随到的员工。说句不太谦虚的话,有那么点君临天下的感觉。
说完体验,来聊聊怎么接入。整个过程不复杂,电脑上装好 OpenClaw 之后,安装光帆的 hi-light 插件:
然后去 Hi Light APP 里获取你的 API Key(设置 → 帐号管理 → 获取 API Key),在 OpenClaw 配置文件 ~/.openclaw/openclaw.json 里加上 hi-light 的 channel 配置:
最后执行 openclaw gateway restart,没报错就说明接上了。
不过,其实,这里许多操作我都是直接无脑扔给 Claude Code,然后它自己就搞定了。虽然我最近 coding 任务上 Codex 用得越来越多,但这类安装配置的杂事还是 Claude Code 更顺手,体验也明显更好。
但后面我计划直接用耳机来控制龙虾,然后就可以用它来控制 Claude Code 了。
(或者反过来,用 Claude Code 来控制龙虾?)
从技术上看,完整的链路是这样的:
我的语音 → Hi Light APP(或耳机)→ 光帆云服务器 → 你电脑上的 OpenClaw 客户端 → 本地执行 → 结果回传 → APP 展示。
中间走的是 WebSocket 长连接,响应及时。
另外,这套插件 + WebSocket 通道,其实已经很像平台化能力的雏形。后面大概率会做成一个开放平台,把「设备入口 + 指令通道 + 任务回传」这整条链路开放给开发者,让更多人可以接入类似 OpenClaw 这样的 Agent 能力。现在看到的接入方式,本质上已经是在提前搭平台的骨架。
这里其实没有“绝对安全”。像 OpenClaw 这种能连本地环境、能执行动作的 Agent,本质上就是在 自由度、响应速度与安全边界之间做取舍。
光帆提供了两种部署模式:
Local Host:插件跑在你自己的 Mac 上,数据尽量不出本地,安全边界更可控,适合对数据敏感的极客。
Cloud Host:更省心、随时在线,但需要更清晰的权限与隔离机制来约束风险边界。换句话说:它不是“更安全”,而是“把权衡摆在台面上”,让不同人按需求选。
安全性方面,API Key 的机制会确保指令只会发到你绑定的设备上。Local Host 模式数据完全不出域。Cloud Host 模式下用户数据做了隔离处理。插件代码在 GitHub 上开源,可以自己去看。
如果你没什么隐私而言,那你随时,我则敏感且确实有许多我自己定制的东西,我建议还是用 Local Host 模式,数据不出域,个性化集成且踏实放心。
从行业角度看,AI 正在从「被动响应」走向「主动理解」,从屏幕走向穿戴,入口正在从键盘迁移到麦克风。光帆在做的事情是把 Agent 能力延伸到了更 native 的硬件交互层面,方向是对的。
目前 Hi Light APP 已经上架,iOS 通过 TestFlight 安装,Android 可在各大应用商店搜索「Hi Light」下载。不需要耳机也能用,APP 本身就支持语音操控电脑的完整功能。耳机预计2026年 Q1-Q2 开售。现在处于公测阶段,感兴趣的可以先装 APP 体验一下。
如果你本身就在用 OpenClaw,而且也对语音入口有兴趣,可以尝试下这个产品。
语音不是为了更酷,而是为了更自然。当 AI 真正成为执行体,交互方式终究会回到人类最原始、也最直接的沟通方式——说话。因为那本来就是我们与世界协作的方式。
APP 下载:https://app.guangfan.com/appdownload (请用手机系统浏览器打开,微信内会被拦截)
光帆龙虾插件 GitHub:https://github.com/Gongcong/hi-light-plugin
光帆官网:https://guangfan.com/
)
)
)
)
)
)
)
)
)
)
)
)
)
)
)
)