首页
学习
活动
专区
圈层
工具
发布
首页标签语音识别

#语音识别

专业智能高效的语音处理服务

XTrans技术实践:基于腾讯云ASR引擎的录音转文字与字幕生成解决方案

AI推荐小柚子

在音视频内容处理领域,高精度的语音转写与高效的字幕生成已成为众多开发者、内容创作者及企业的核心需求。市场上虽然工具众多,但往往在技术架构、识别准确率,特别是对复...

12510

语音AI技术为言语障碍者带来语音革命

用户11764306

Voiceitt语音识别团队负责人Filip Jurcicek表示,识别非标准语音与普通语音识别在一些根本方面存在差异。

8310

跨话语重评分实现更具包容性的语音识别

用户11764306

在一篇入选ICASSP前3%的优秀论文中,某中心的研究人员通过改进基于图的标签传播技术,提升了针对非标准发音的语音识别性能。

11110

Google推出MedGemma1.5驱动的下一代医学影像解析与MedASR医疗语音识别系统

DrugAI

人工智能在医疗领域的应用正以前所未有的速度加速推进,医疗行业采用 AI 的速度已达到整体经济体系的两倍。顺应这一趋势,Google 去年通过 Health AI...

9610

对话式AI:端到端语音识别与算法公平性研究进展

用户11764306

2022年,语音领域规模最大、最全面的国际学术会议Interspeech在韩国仁川举行。某中心作为白金赞助商出席。某中心语音AI组织的几位资深科学家重点介绍了该...

11610

无需重新训练即可为语音识别器添加新词

用户11764306

近年来,自动语音识别(ASR)已转向全神经网络模型。连接时序分类(CTC)损失函数因其预测不依赖于先前上下文,从而产生推理延迟低的简单模型,成为端到端ASR的一...

9110

智谱语音识别大模型开源,支持中国方言,消费级显卡本地部署

Ai学习的老章

语音识别模型我之前都是用Belle-whisper-large-v3-zh,小巧、快速,但是方言支持和准确性差一点意思。最近智谱Z.AI 开源了 GLM-ASR...

17510

利用自然语言理解标签优化语音识别重评分模型

用户11764306

第二遍语言模型通常用于对自动语音识别生成的假设进行重评分。研究表明,通过在训练中融入自然语言理解的目标任务,可以提升这类重评分模型的性能。

6310

智能语音唤醒词技术的新研究突破

用户11764306

每一次与智能语音助手的交互都始于唤醒词。通常,智能设备只有在确认听到唤醒词后,才会将后续的语音请求发送到云端进行深度处理。在首款智能音箱发布六年后,其背后的科学...

10210

Alexa新功能实现自然多轮对话交互

用户11764306

“对话模式”代表了语音AI领域的一个重要里程碑。该功能将让Echo Show 8和Echo Show 10的用户能够更自然地与Alexa互动,而无需重复说出唤醒...

11310

《人工智能导论》第 10 章 自然语言处理及其应用

啊阿狸不会拉杆

        基于 HMM 的语音识别方法是传统语音识别的主流方法,其核心思想是将语音识别问题转化为 HMM 的解码问题:

11510

构建AI智能体:基于OpenAI Whisper-large-v3模型的本地化部署实现语音识别提取摘要

未闻花名

作为一名大模型从业和探索者,最近接到了一个颇具挑战性的任务:为客户构建一个高精度的语音转文字服务。在经过多方技术选型后,我们最终选择了OpenAI的Whispe...

30610

超级应用(Super Apps)整合多模态AI能力

贺公子之数据科学与艺术

以下代码使用Python结合NLP和CV技术,模拟一个支持语音、文本和图像输入的多模态交互系统。示例整合了语音识别、自然语言处理、图像识别等功能模块。

9710

当银行被迫为“被骗”买单:韩国拟推语音钓鱼强制赔偿制,引发金融安全与道德风险大辩论

草竹道人

中国互联网络信息中心 | 工程师 (已认证)

在首尔江南区一家商业银行的客户服务中心,李女士正焦急地等待工作人员处理她的投诉。三天前,她接到一通自称是“国家金融监督院”的电话,对方准确报出她的身份证号和近期...

14710

AI语音克隆掀起“声”命危机:全球Vishing攻击激增,传统身份核验体系告急

草竹道人

中国互联网络信息中心 | 工程师 (已认证)

在伦敦金融城一家跨国银行的呼叫中心,客服代表Sarah接到一通紧急来电。电话那头的声音沉稳、略带沙哑——正是她熟悉的首席财务官Mark Thompson的嗓音。...

14410

前端实战:手把手教你接入腾讯云 ASR 实时语音识别(避坑指南)

Front_Yue

浙江大学湖州研究院 | 前端开发工程师 (已认证)

在数字人交互、智能客服或语音助手的 Web 开发中,实时语音识别(ASR) 是最基础也是最核心的入口。市面上方案众多,今天我们基于一个真实的测试文件 test-...

22300
领券