目前国内的语音识别技术达到了什么水准?还存在哪些问题?

  • 回答 (7)
  • 关注 (0)
  • 查看 (1637)

现在技术越来越厉害了,前几年还感觉语音打字特别不靠谱,各种语音助手也相当蠢萌,想问下现在国内语音识别发展到什么水平了?

实时且准确的将语音转化成相对应的文本已经达到了什么样的水准?主要还存在哪些方面的问题?

小南同学小南同学提问于
小贝回答于

目前语音识别技术已经发展得很好了,最高的准确率差不多能够达到95%。

应用场景也很多,比如说:

1、语音输入法:为用户节省输入时间、提升输入体验。

2、语音消息转写:将用户的语音信息转成文字信息,提升用户阅读效率。

3、智慧会场:将会议、庭审、采访等场景的音频信息转换为文字,降低人工记录成本、提升效率。

4、字幕生成:将直播和录播视频中的语音换成成文字,轻松便捷地生成字幕文件。

5、电话质检:通过语音识别服务将坐席通话转成文字,全面覆盖质检内容、提升质检效率。

6、安全监控:对直播音频流进行黄反暴力等关键词检索,大幅度提升敏感信息的监控能力。

7、语音助手:让智能硬件听清用户表达,实现对话式人机交互的第一步。

包括实时语音识别、一句话识别和录音文件识别服务,满足不同类型开发者需求。

当然还有一些待解决的问题,比如说:一些与普通话相差甚远的南方方言很难识别,噪音太过强烈的语音很难识别,等等。

okchina软件工程硕士 Java攻城狮回答于

在实际生活中并没有说的误差率仅有3%那么牛逼吧。

比如嘈杂环境或带口音的方言都很大程度影响着语音识别的准确度。

更不用说中文这么复杂,同一个发音的词会很多不同的意义,提高语音识别的精度还是有很大难度的。

按照目前的技术水平来看,随着麦克风阵列等硬件技术的升级,语音数据的收集,语音识别的准确流程还能提升,但也只能无限接近于100%,但绝不可能做到完全准确

嗝屁软件工程回答于

据我了解,目前国内比较牛的语音识别系统在日常场合已经能达到实用化的水平了。

技术方面,从最初的FNN(前馈全连接神经网络)到RNN(的递归神经网络)。

再到现在应用比较广的LSTM和DFCNN,网络结构越来越复杂,越来越能对语音的特性进行建模,相应的效果也越来越好。

红雷如人生如梦回答于

目前语音识别主要问题还是复杂环境下的语音识别问题,比如远场语音识别,带噪声语音识别等。。

文刀人圭滇狐就是既疯癫又糊涂!回答于

中英文混合也可以识别了

带有一点点口音的普通话也没有什么问题

我是一只小小鸟回答于

安静背景,标准口音,常见词汇上的语音识别已经完全到了可用状态了。效果不会比输入法自动联想差多少。

全球资讯翻译官为您提供人工智能,机器学习,神经网络等技术的前沿资讯回答于

要提高语音识别准确率,光语音方面努力不够,必须得加上语义处理,结合起来才有用,要不光听的清楚理解不了也不行呀......

所属标签

可能回答问题的人

  • Superbeet

    9 粉丝0 提问0 回答
  • 腾讯云AI

    111 粉丝0 提问19 回答
  • rodson

    腾讯 · web前端开发 (已认证)

    4 粉丝0 提问0 回答
  • DJ213

    2 粉丝0 提问0 回答
  • 晏栋栋栋

    3 粉丝0 提问2 回答
  • Techeek

    腾讯 · 产品运营 (已认证)

    136 粉丝0 提问174 回答

扫码关注云+社区

领取腾讯云代金券