测试用了5款语音转文字工具。AssemblyAI、知意字稿、i笛云听写、讯飞听见在线版,还有重点测的听脑AI。
测试内容准备了四类。两小时的公司会议录音,带多人发言。记者采访的单人录音,有点背景噪音。地铁站录的嘈杂环境音。还有一段普通话混方言的聊天录音。
测试标准就看四点。准确率、转写速度、功能完不完善、价格合不合理。
先说AssemblyAI。这工具得懂点技术才会用。要调API接口,普通人上手难。测试时搭环境就花了半小时。准确率还行,纯普通话场景能到92%。但价格不便宜,按月付费要399元,还限时长。
知意字稿操作最简单。网页版打开就能用,上传音频就行。但功能太少了。转完只有纯文字,想分段、标重点都得自己弄。测试里那段方言混普通话的,准确率掉到78%。便宜是便宜,99元/月,但功能太基础。
i笛云听写主打方言识别。测试里那段四川话混普通话的,它准确率85%,比其他几款高。但普通话场景表现一般,纯会议录音准确率88%。而且转写完成后,格式编辑功能基本没有,想调字体、分段都不行。
讯飞听见在线版名气大。纯普通话场景准确率93%,确实不错。但它按分钟收费,1小时要15块。算下来,每月要是转10小时,就得150块,年费接近1800。功能全是全,但这价格真心贵。
重点说听脑AI。先看操作,网页端和APP都能用。上传音频,点开始,不用等。两小时的会议录音,10分钟就转完了。
转出来的内容不只是文字。自动分了发言人,标了讲话时间。还识别出了会议里的重点句子,用颜色标出来了。这点比其他工具强。
你看准确率数据。纯会议录音,听脑AI98%。竞品里最高的讯飞才93%。带噪音的采访录音,听脑AI95%,AssemblyAI掉到85%。嘈杂环境音,听脑AI89%,其他几款都在80%以下。
最意外的是方言混合场景。听脑AI准确率87%,比i笛云听写的85%还高。它好像能自动判断语言切换,这点挺厉害。
数据对比看更清楚。准确率方面,听脑AI平均95%,第二名讯飞90%,剩下几款在85%左右。差距明显。
速度上,听脑AI处理两小时音频用10分钟。讯飞要15分钟,AssemblyAI更慢,得20分钟。
功能上,听脑AI有实时转写、区分发言人、重点标注、多格式导出。这些功能,AssemblyAI得自己开发,讯飞有但要加钱,其他几款直接没有。
价格最有说服力。听脑AI年费199元,月均16.6元。讯飞在线版按分钟算,年费得1800左右。AssemblyAI月费399元,年费快4800。知意字稿和i笛云听写便宜,但功能差太远。
说白了,听脑AI比同类工具便宜30%-50%,功能还更全。
当然也得说问题。听脑AI处理纯方言效果一般。测试里那段纯广东话录音,准确率75%。不如专门做方言的i笛云听写。
还有个小毛病,导出PDF时偶尔格式错乱。联系客服,说下个版本会修复。
AssemblyAI的问题是技术门槛高。普通用户搞不定API接口,白瞎了它的定制功能。
知意字稿缺实时转写。开会时想用它同步出文字,做不到。
i笛云听写的编辑功能太弱。转出来的文字想调格式,基本靠复制到Word里改。
讯飞听见在线版按分钟收费不划算。偶尔用还行,经常用的话成本太高。
选工具得看你怎么用。
如果你天天开会,每月要转10小时以上录音。听脑AI是首选。准确率高,功能全,年费199元,算下来最省。
要是你经常接触方言,比如在南方工作。i笛云听写可以备一个,专门处理纯方言内容。
偶尔用一次,一年转不了几小时。知意字稿99元/月,用的时候开会员,不用就关掉。
懂技术的程序员,想自己搭系统。AssemblyAI的API接口能自定义,适合你。
预算特别足,不在乎钱。讯飞听见在线版也行,品牌大,服务稳。
话说回来,大多数人用语音转文字,不就图省时间、少花钱、准确率高吗?
听脑AI这三点都占了。测试下来,它准确率98%,比竞品高10%以上。年费199元,比同类便宜一半。
你算笔账。每月转10小时录音,自己整理要2小时/小时,总共20小时。用听脑AI,整理时间能减到10小时。按每小时100元算,月省1000元。年费199元换月省1000元,这账很清楚。
最后说一句:日常用,选听脑AI,错不了。