双12语音识别哪家好_双12视频语音识别哪家好_双12实时语音识别哪家好 - 腾讯云开发者社区

您找到你想要的搜索结果了吗？

是的

没有找到

实时音视频通讯过程中声音的那些事儿

那些语音识别尴尬：投宿还是投诉？

在众多汉字中，同音字（词）是一个特别的存在，正确使用，妙趣横生，使用不当，错误百出。有网友曾戏谑：再智能的语音识别，遇到同音字（词）都可能“秒变智障”。有时候，明明是一个温馨感动的时刻，语音识别偏偏剑走偏锋，让你措手不及。例如：一下子画风突变。而语音识别在同音字（词）方面的尴尬还不止于此。人名“王倩”和“王茜”、小区名“书香苑小区”和“书香院小区”、餐饮词汇“食全食美”和“十全十美”、服装词汇“百衣百顺”和“百依百顺”，乃至日常沟通中的“肌肉”和“鸡肉”、“失忆”和“诗意”、“北麓

语音识别+AI,打造智能高效的多语种商务会议系统

商务会议的低效问题想必困扰着每一家企业。参会人员的长时间讨论常产生大量无用信息,记录与总结又极其耗时耗力。此外,不同语言的沟通障碍及信息安全风险也是不容忽视的隐患。有没有可能简单高效地解决这些难题?

靠“黑科技”打入人工智能市场这些才是新三板真正的AI企业

按研究领域划分，可将人工智能大致划分为：计算机视觉、语音识别与自然语言处理，以及机器学习三类。这三类分别象征着人工智能系统的眼睛、耳和口，大脑。

学界 | 新研究将GRU简化成单门架构，或更适用于语音识别

选自arXiv 机器之心编译参与：Panda Yoshua Bengio 领导的一个团队近日在 arXiv 上发布了一篇论文，介绍了他们通过修改门控循环单元（GRU）提升语音识别效果的研究进展。据介绍，这项研究是修改 GRU 方面的进一步研究进展，提出了一种可能更加适合语音识别的架构。机器之心对本论文进行了摘要介绍。另外，本研究相关的实验代码也已发布在 GitHub 上。论文：https://arxiv.org/abs/1710.00641v1 代码：https://github.com/mravan

爱数智慧 CEO 张晴晴：对话式 AI 是人工智能的终极形态 | AICon

嘉宾 | 张晴晴编辑 | 李忠良人工智能有两个重要的部分，数据与算法。作为一家人工智能数据服务提供商，爱数智慧在语音数据的采集与处理上有其独到的价值，在今年的 11 月 5 日与 6 日 AICon 全球人工智能与机器学习大会（北京站）2021 上，我们邀请了爱数智慧创始人兼 CEO 张晴晴来分享他们在人工智能方面的前沿研究。在正式分享前，我们采访了张晴晴，以下为采访整理，希望对你有所启发。 InfoQ：是否可以简述一下您在人工智能方面的研究历程？张晴晴：我是在 2005 年开始接触人

AI预测技术在语音交互的落地 | 微软新一代全双工语音交互技术 | 智能语音 | 解读技术

近日，微软（亚洲）互联网工程院宣布率先推出新一代的语音交互技术：全双工语音交互感官（Full-duplex Voice Sense），与既有的单轮或多轮连续语音识别不同，这项新技术可实时预测人类即将说出的内容，实时生成回应并控制对话节奏，从而使长程语音交互成为可能。

ZLG深度解析——语音识别技术

语言作为人类的一种基本交流方式，在数千年历史中得到持续传承。近年来，语音识别技术的不断成熟，已广泛应用于我们的生活当中。语音识别技术是如何让机器“听懂”人类语言？本文将为大家从语音前端处理、基于统计学语音识别和基于深度学习语音识别等方面阐述语音识别的原理。

深度|AI行业的真实进展或许远超想象

📷 在AI领域，相比创业公司，大公司具有天然的先发优势。在技术方面，决定技术的三个要素——数据、算法模型、计算力，背后的潜台词对应的是数据量、人才、资金，大公司更占优。在产品应用方面，大公司本身就有大量的用户基数、畅通的推广渠道，也是大公司的强项。事实上，现在已经很难说哪家大公司完全与AI不相关，毕竟只要有数据，就很难不用到机器学习的算法。不过，出于本身的战略规划及实际业务情况，大公司对于AI行业的重视程度肯定各不相同。国内方面未上市公司方面一旷视（Megvii）

计算机系统结构变革在即？

15年6月，intel正式宣布167亿美元收购FPGA生产商Altera。此交易为该公司有史以来涉及金额最大的一次收购案例。167亿美金不是小数目，intel 为啥花这么高的代价收购一家FPGA厂商？对x86架构的计算机系统结构会带来什么影响？看我们慢慢分析。 FPGA是什么？ FPGA（Field－Programmable Gate Array），即现场可编程门阵列，它是在PAL、GAL、CPLD等可编程器件的基础上进一步发展的产物。它是作为专用集成电路（ASIC）领域中的一种半定制电路而出现的，既解决了

百度语音识别新算法准确率提升超30%，鸿鹄芯片彰显AI落地新打法

昨日，百度语音能力引擎论坛在北京召开。在论坛上，百度展示了其在语音技术上的最新成果，并公开了语音专用终端芯片——百度鸿鹄的落地情况。此外，机器之心也采访了百度语音首席架构师贾磊。百度通过本次发布说明，深度学习端到端技术依然大有发展空间，软件驱动专用芯片设计成 AI 落地新打法。

用情绪识别定票价，笑点低的人看剧要抵押房子了？

AI，能读懂你的情绪吗？分享一则有趣的见闻，在较早之前，一家名为Teatreneu的巴塞罗那喜剧俱乐部因为加税政策流失了30%的夜场观众，为了减少经营损失，俱乐部在广告服务商的建议下试行按笑声次数向观众收费。即在剧院的座椅安装一个带有面部表情识别软件的设备，用来捕捉观众在观看演出的过程中笑了多少次。首先，观众入场免费，但每笑一次就要收费0.3欧元，不过笑点低的朋友不用担心遭遇笑破产的情况了，因为封顶价格为24欧元（即发笑80次）。根据剧院的统计，实行“按笑付费”措施以来，观众量增加了35%

使用VoiceFliter-Lite改进设备上的语音识别

原文链接 / https://ai.googleblog.com/2020/11/improving-on-device-speech-recognition.html

三大技术基础推动人工智能走向实用

人工智能从幕后走向实用离不开人工智能技术取得的突破和发展。在互联网时代背景下，大数据、新型高性能计算架构以及深度学习帮助人工智能技术实现了从量变到质变的转变。其中，计算机视觉、语音识别技术均已能够规模

INTERFACE | 从技术到产品，搜狗为我们解读了神经机器翻译的现状

INTERFACE 分享者：陈伟、李健涛机器之心报道参与：李泽南 3 月 12 日，搜狗正式在线上平台发布了「旅行翻译宝」。这款随身翻译设备结合了搜狗神经网络机器翻译、语音识别、图像识别等多项技术，不仅支持语音、图像翻译等多种翻译模式，还提供中英日韩俄德等 18 种语言互译。在深度学习快速发展的今天，机器翻译系统的能力究竟达到了什么样的水平？机器翻译是否已经可以代替人类翻译？3 月 17 日，机器之心与搜狗共同举办的 INTERFACE 线下分享中，搜狗语音交互技术中心研发总监陈伟、搜狗 IOT 事

大会 | 思必驰-上海交大实验室14篇ICASSP 2018入选论文解读

AI 科技评论按：为期 5 天的 ICASSP 2018，已于当地时间 4 月 20 日在加拿大卡尔加里（Calgary）正式落下帷幕。ICASSP 全称 International Conference on Acoustics, Speech and Signal Processing（国际声学、语音与信号处理会议），是由 IEEE 主办的全世界最大的，也是最全面的信号处理及其应用方面的顶级学术会议。今年 ICASSP 的大会主题是「Signal Processing and Artificial Intelligence: Challenges and Opportunities」，共收到论文投稿 2830 篇，最终接受论文 1406 篇。其中，思必驰-上海交大智能人机交互联合实验室最终发表论文 14 篇，创国内之最。

AI行业的真实发展或许远超你想象

事实证明，在PR这件事上，谁都不是Google的对手 📷 这个前沿科技行业月报系列是36氪前沿科技组的一个尝试，主要是基于我们的一个还不太成熟的判断——这个行业的进展要远快于行业内外的预期。所以我们想要尝试将这些散落在互联网各处的信息搜集、整理出来，为关注这个行业的人提供一些决策的参考及依据，也方便更多的人了解这个行业真实的进展。因为36氪前沿科技组关注的领域跨度有点大，包括了人工智能、机器人、AR、 VR 、新能源、新材料、新技术、物联网、智慧工业、智慧城市、智能硬件、商业航天等，所以

依图做语音了！识别精度创中文语音识别新高点

素来被认为是“人脸识别独角兽”——或者更宽泛一点说，“计算机视觉独角兽”的依图科技，公布了他们中文语音识别技术的最新突破，以及令人瞩目的产业布局。

AI时代，FreeSWITCH能做什么？

那么，智能时代跟FreeSWITCH什么关系呢？严格来说，其实没什么关系。你看，我今天又标题党了。

深度全序列卷积神经网络克服LSTM缺陷，成功用于语音转写

【新智元导读】目前最好的语音识别系统采用双向长短时记忆网络（LSTM，LongShort Term Memory），但是，这一系统存在训练复杂度高、解码时延高的问题，尤其在工业界的实时识别系统中很难应用。科大讯飞在今年提出了一种全新的语音识别框架——深度全序列卷积神经网络（DFCNN，Deep Fully Convolutional NeuralNetwork），更适合工业应用。本文是对科大讯飞使用DFCNN应用于语音转写技术的详细解读，其外还包含了语音转写中口语化和篇章级语言模型处理、噪声和远场识别和文本

语音识别技术里程碑：微软识别错误率降至5.1%

8月21日，微软宣布该公司的语音识别系统的错误率已经降至5.1%，这是目前为止错误率最低的，已经超过了去年由微软AI研究团队所创造的5.9%的成绩。这两项研究都转录了总机语料库的录音，这是一个从20世纪90年代初就开始被研究人员用来测试语音识别系统的2400个电话对话的集合，这项新研究是由微软AI研究团队完成的，旨在让AI的语音识别达到与人类相同的准确度。总的来说，最新研究的研究人员通过改进微软语音识别系统的基于神经网络的声学与语言模型，将错误率降低了12%左右，值得一提的是，他们还使语音识别器能够

业界｜科大讯飞语音识别框架最新进展——深度全序列卷积神经网络登场

导读：目前最好的语音识别系统采用双向长短时记忆网络（LSTM，LongShort Term Memory），但是，这一系统存在训练复杂度高、解码时延高的问题，尤其在工业界的实时识别系统中很难应用。科大讯飞在今年提出了一种全新的语音识别框架——深度全序列卷积神经网络（DFCNN，Deep Fully Convolutional NeuralNetwork），更适合工业应用。本文是对科大讯飞使用DFCNN应用于语音转写技术的详细解读，其外还包含了语音转写中口语化和篇章级语言模型处理、噪声和远场识别和文本处理实时

隐马尔科夫模型（HMM）| 一个不可被忽视的统计学习模型 | 机器语音

小编最早接触隐马尔科夫模型（Hidden Markov Model，HMM），是利用HMM对机械设备的隐含退化状态进行建模、估计和预测，直观的感受是HMM的建模非常便利，可解释性很强，通用性强，缺点是对转移概率和观测概率估计学习时计算量较大，尤其是维数增多时易出现维数灾难问题，但随着DNN技术的发展和GPU计算能力的增强，计算能力已不再是HMM应用的瓶颈，HMM的能力将会得到充分的释放。

电梯按键成危险区？试试用语音控制

场景描述：在全民抗击疫情时期，做好全面的防护是重中之重。电梯按键因为必须接触使用等原因，具有很高的潜在感染传播风险。为此，一家科技公司开发了「无接触式」方案，用语音控制来完成对电梯的呼叫和使用。

依图要修AI语音双学位，左手摸底考第一名成绩单，右手开放平台方案

这家以“图”起家的AI公司，现在宣布修个“语音”双学位，而且出场便是学霸的方式——随手甩出一张摸底考第一名成绩单。

《语音信号处理》语音识别章节读书笔记

两本书，《语音信号处理》赵力编和《语音信号处理》韩纪庆编。强烈推荐韩纪庆版本，知识点很全面，可以作为语音识别的入门中文书籍，章节很也短，很快就入门了。

微软拟1049 亿收购全球最大语音识别公司 Nuance，后者是 Siri 幕后英雄

作者｜刘燕 Nuance 已是没落的语音识别巨头，微软欲花 160 亿美元买下它，这笔交易值吗？ 1微软拟斥资 160 亿美元收购 Nuance 北京时间 4 月 12 日，根据彭博社的报道，微软正在就收购全球最大语音识别公司 Nuance Communications Inc. 进行深入谈判。据悉，微软可能愿意为收购这家公司支付高达 160 亿美元（1049 亿元人民币）的收购价格。报道称，两家公司之间的谈判“正在进行中”，尚未最终敲定。CNBC 援引知情人士消息称，交易可能最早于周日签署，最早于周

7月书讯丨新书速览，入股不亏

七月新书到，龙吟伴虎啸用一波新书更新下你的读书清单吧 1 《集成学习：基础与算法》 2 《Visual Studio Code 权威指南》 3 《JavaScript语言精髓与编程实践（第3版）》 4 《语音识别：原理与应用（全彩）》 5 《大数据平台架构与原型实现：数据中台建设实战》 6 《Go语言编程之旅：一起用Go做项目》 7 《Android Jetpack应用指南》 8 《高效自动化测试平台：设计与开发实战》 9 《Python预测之美：数据分析与算法实战（双色）》 10

ISD9160学习笔记05_ISD9160语音识别代码分析

语音识别是特别酷的功能，ISD9160的核心卖点就是这个语音识别，使用了Cybron VR 算法。很好奇这颗10块钱以内的IC是如何实现人家百来块钱的方案。且听如下分析。

NLP入门之语音模型原理

这一篇文章其实是参考了很多篇文章之后写出的一篇对于语言模型的一篇科普文,目的是希望大家可以对于语言模型有着更好地理解,从而在接下来的NLP学习中可以更顺利的学习. 1:传统的语音识别方法: 这里我们

012

语音识别全面进入CNN时代：会读“语谱图”的全新语音识别框架

近年来，人工智能和人类生活越来越息息相关，人们一直憧憬身边可以出现一个真正的贾维斯，希望有一天计算机真的可以像人一样能听会说，能理解会思考。而实现这一目标的重要前提是计算机能够准确无误的听懂人类的话语，也就是说高度准确的语音识别系统是必不可少的。作为国内智能语音与人工智能产业的领导者，科大讯飞公司一直引领中文语音识别技术不断进步。去年12月21日，在北京国家会议中心召开的以“AI复始，万物更新”为主题的年度发布会上，科大讯飞提出了以前馈型序列记忆网络(FSMN, Feed-forward Sequenti

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐