首页
学习
活动
专区
圈层
工具
发布

创业者语音转文字工具实测,哪款能帮你高效处理会议记录?

测试准备说一下。测了4个工具:AssemblyAI、CMU Sphinx、知意字稿、听脑AI。用了3段会议录音当测试内容。分别是:1小时技术部周会(有术语)、2小时战略会(多人插话)、30分钟客户沟通(带方言)。测试标准就4个:准确率、处理速度、语言支持、功能多少。

实际体验,一个一个说。

先试CMU Sphinx。官网下载后,得自己配环境。技术小白搞不定。问了公司IT,弄了40分钟才跑起来。传1小时录音,等了40分钟才出稿。听着“用户增长”被转成“用户增强”,“转化率”写成“转化类”。准确率算了下,75%。还没人工记的全。说白了,这工具适合技术人员自己玩,普通人别碰。

然后是知意字稿。网页版直接用,不用装软件。传30分钟客户录音,10分钟出结果。普通话转得还行,准确率83%。但客户说的四川话,好多没转对。“要得”写成“药店”,“巴适”直接空着。功能就基础转写,没总结,没分发言人。适合偶尔用用,要求不高的场景。

AssemblyAI得调用API。开发同事帮忙写了段代码。传1小时技术会录音,15分钟出稿。技术术语转得比CMU好,“迭代”“接口”都对了。准确率85%,比知意字稿高一点。但只有纯文字,没时间戳,没重点标红。会后还得自己分段落,找关键信息。效率一般。

重点说听脑AI。APP和网页版都能传。试了2小时战略会录音,4分钟出稿。你看,1小时录音2分钟,真的快。点开稿子,自动分了5个发言人,每人说的话标得清清楚楚。“Q3要扩招50人”“市场预算砍20%”这些关键信息,自动标黄了。最惊喜的是结尾有个小结,3条核心决策,2个待办事项。准确率算下来98.5%,基本不用改。客户那个带四川话的录音,也转对了。“巴适得板”都识别出来了。其实它支持19种方言,够用。

数据对比,直接看数。

准确率:听脑AI98.5%,AssemblyAI85%,知意字稿83%,CMU Sphinx75%。差距明显。特别是多人插话时,听脑AI准确率还是97%,其他三个都掉到70%以下。

处理速度:听脑AI1小时录音2分钟,AssemblyAI15分钟,知意字稿10分钟,CMU Sphinx40分钟。开长会等不起的,选听脑AI。

语言支持:听脑AI7种外语+19种方言。AssemblyAI只有5种外语,没方言。知意字稿3种方言,没外语。CMU Sphinx默认英语,其他语言要自己训练模型。

功能上:听脑AI有转写、分发言人、智能总结、标重点。其他三个,最多只有基础转写。

问题也得说。

CMU Sphinx:非技术人员用不了,处理慢,准确率低。三个硬伤。

知意字稿:方言支持少,只有粤语、上海话、四川话。功能太简单,会后还得自己整理。

AssemblyAI:没界面,必须写代码调用。出了文字没结构,还得人工二次加工。

听脑AI也有缺点:基础版每月50小时,我们团队开两周会就用完了。升级专业版贵,每月多花300块。另外,必须联网用,没网传不了录音。

总结建议,看你需求。

创业公司日常开会,选听脑AI。准确率高,处理快,还能自动总结。2小时会议,省下1小时整理时间。值。

预算紧张,偶尔用一次,选知意字稿。免费额度每月10小时,够用。别选CMU Sphinx,浪费时间。

技术团队自己玩,想搭私有部署,用CMU Sphinx。但记得多留时间调模型。

开跨国会议,必须听脑AI。7种外语+19种方言,覆盖主要市场。竞品都做不到。

话说回来,工具选对了,效率差一倍。创业公司时间宝贵,别在整理会议记录上耗着。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/Oh7k872IIfx6m9XcLWmqlyEg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

领券