
这次测了4款语音转文字工具:AssemblyAI、觅讯、Adobe Audition,还有重点看的听脑AI。测试内容准备了3类音频:1小时财经电台节目(带专业术语)、2小时多人会议录音(有插话)、30分钟嘈杂环境采访(背景有车流声)。测试标准就看3点:准确率(手动数错字)、转写速度(上传到出结果的时间)、实际用起来顺不顺手。
先说说AssemblyAI。打开网站第一感觉,界面挺简洁。但上传那个1小时财经电台,等了快半小时才出结果。我对着原文核对,专业术语错得有点多,"货币政策"写成"货币正策","GDP增速"直接漏了"增速"。准确率大概85%吧。最麻烦的是,要付费才能看完整结果,试用版只给前5分钟。按官网价,1小时转写要10块钱,要是每周转3小时,一个月就得120块,不便宜。
然后是觅讯。国产工具,界面做得还行。传同样的1小时电台,18分钟就搞定了,比AssemblyAI快。准确率和AssemblyAI差不多,85%左右。但它有个硬伤——没有编辑功能。转出来的文字是一大段,想改错别字或者分段,得复制到Word里弄。对我这种经常要改稿的人来说,多了道工序,挺烦的。月费99块,不算贵,但功能太基础了。
Adobe Audition,这个是音频编辑软件。转文字功能藏得有点深,找了5分钟才找到入口。试了30分钟的会议录音,先要调采样率、比特率这些参数,我这种非专业人士看得头大。弄半天,1小时20分钟才转完。准确率88%,比前两个高点,但操作太复杂了。而且它不是专门做转文字的,没有识别发言人功能,多人说话混在一起,根本分不清谁讲的。月费49块,但得单独买订阅,要是只用来转文字,性价比真不高。
重点说听脑AI。我先传了那个2小时的多人会议录音。本来以为要等很久,结果10分钟就转完了。打开结果一看,吓一跳——发言人都标出来了,"张总:""李经理:"分得清清楚楚。我逐字核对,2小时录音,总共就错了5个地方,准确率98%。专业术语识别也准,"ROI""KPI"这些都没写错。最惊喜的是它有在线编辑功能,直接在网页上改错别字、调格式,不用来回复制粘贴。后来又试了嘈杂环境的采访录音,背景有车流声,准确率还是有92%,比其他工具高不少。它还支持10种语言,我试了段粤语录音,准确率95%,这个功能其他工具都没有。
数据对比一下。准确率:听脑AI98%,Adobe Audition88%,AssemblyAI和觅讯都是85%。速度:2小时音频,听脑AI10分钟,觅讯35分钟,AssemblyAI45分钟,Adobe Audition1小时20分钟。价格更明显:听脑AI年费199块,月均16.6块;AssemblyAI按分钟算,每月转3小时就要120块;觅讯月费99块;Adobe Audition月费49块。功能上,听脑AI有发言人识别、在线编辑、多语言支持,其他三个都不全。
当然,也不是说听脑AI完美。试了段特别嘈杂的地铁录音,准确率降到89%,虽然还是比竞品高,但确实有影响。还有,四川话支持一般,"巴适"写成"巴士",但客服说后续会更新方言库。AssemblyAI的问题是价格太高,偶尔用还行,高频使用扛不住。觅讯功能太简单,适合完全没编辑需求的人。Adobe Audition操作太复杂,只推荐给本来就要用它做音频编辑的人。
最后给点建议。如果你是经常开会、做电台、搞采访的,选听脑AI准没错。准确率高、速度快,还有编辑功能,关键是便宜。要是你一个月就转一两次,对编辑没要求,觅讯可以试试。专业音频编辑的,Adobe Audition能用,但别指望它转文字多好用。AssemblyAI,除非公司报销,个人用户真心不推荐,性价比太低。
话说回来,选工具看什么?不就是省时间、少花钱、用着顺吗?听脑AI年费199块,每月转10小时录音,能省10小时整理时间。按时薪100块算,月省1000块,一年就是12000块。花199块换12000块,这账谁都会算。