开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

例外:在尝试语音识别之前，未接受语音隐私策略

在尝试语音识别之前，未接受语音隐私策略。

语音识别是一种将语音信号转换为可理解的文本或命令的技术。它是人工智能领域的一个重要应用，广泛应用于语音助手、智能客服、语音翻译、语音搜索等场景。

语音识别的优势在于提供了一种便捷、自然的人机交互方式，使得用户可以通过语音指令来操作设备或获取信息，无需键盘输入或触摸屏操作。它能够大大提高用户体验和工作效率。

在云计算领域，腾讯云提供了一系列与语音识别相关的产品和服务，包括：

语音识别（Automatic Speech Recognition, ASR）：腾讯云的语音识别服务支持多种语言和方言，具备高准确率和低延迟的特点。它可以将语音转换为文本，为开发者提供了快速、准确的语音识别能力。产品介绍链接：语音识别
语音合成（Text-to-Speech, TTS）：腾讯云的语音合成服务可以将文本转换为自然流畅的语音，支持多种语言和声音风格。开发者可以通过该服务为应用程序、设备等添加语音交互功能。产品介绍链接：语音合成
语音唤醒（Wake-up Word）：腾讯云的语音唤醒服务可以实现设备在待机状态下通过特定的唤醒词被唤醒，进而进行语音交互。开发者可以通过该服务为智能音箱、智能家居等设备添加语音唤醒功能。产品介绍链接：语音唤醒
语音评测（Automatic Speech Evaluation, ASE）：腾讯云的语音评测服务可以对语音进行自动评测，包括发音准确性、流利度、语速等方面的评估。它可以广泛应用于语言学习、口语考试等场景。产品介绍链接：语音评测

腾讯云的语音识别相关产品和服务具有高可靠性、高性能和丰富的功能，可以满足不同开发者的需求。无论是开发语音助手、智能客服，还是构建智能音箱、智能家居等设备，腾讯云都提供了全面的解决方案。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

叮当：一个开源的智能音箱项目

语音处理说说STT（语音识别）引擎和TTS（文本转文本）引擎的选择。由于被动唤醒会试图识别所有听到的内容，出于隐私保护的目的，应该使用离线的语音识别引擎，因此我选择的是 PocketSphinx 。...而对于主动聆听，由于是在唤醒阶段才会进行转换，进入主动聆听前会有蜂鸣提示，用户也会清楚此时叮当正在听他们说话，相对来说隐私泄露的可能性就比较低，因此我选择的是在线的百度 STT 语音识别服务，也省下了扩展语音识别模型的工夫...相比之下，百度的语音识别就比较迟钝了。有时候明明我发音很清晰了，还是会识别成另外的含义。通过在百度的语音识别平台上传自定义的语音识别词库可以提高识别的准确率。...我在家用的是 10M 带宽的网络，反应速度还算可以接受。我准备后面尝试接入更多的语音识别平台，看看识别速度和准确度方面能否有所提升。下面这个视频是我与叮当对话的演示。...当接入微信时，可以利用这个功能实现远程给家里发语音消息。 Email：询问邮箱中有多少未读邮件。在这之前用户需要先配置好邮箱账户。

3.3K2 0

金拱门使用智能语音点餐惹大祸，被控告侵犯顾客生物信息隐私，可能面临巨额罚款！

不是关于食品安全，而是侵犯隐私。今年四月，伊利诺伊州麦当劳的一位顾客对麦当劳提起诉讼，称该公司在使用语音识别点餐之前没有事先获得批准，违反了州生物信息隐私法案。...卡朋特的诉讼称，这项技术违反了伊利诺伊州的生物信息隐私法案，该法案要求公司通知客户他们正在收集他们的生物信息，包括声纹、指纹、面部扫描、手印和掌纹扫描，但是麦当劳使用语音识别技术接受卡彭特的订单，未经他的同意就收集了他的声纹信息...并且，卡朋特还不是提出的个人诉讼，而是代表伊利诺伊州的麦当劳顾客提出的集体诉讼，考虑到在接受这样的服务的顾客人数据大，麦当劳如果败诉将面临巨额的罚款。...在收购之初，麦当劳就称，语音识别技术可以使快餐更“快”，帮助公司更及时让客户获得服务，这主要针对的就是得来速（Drive-through）服务。...并且，“麦当劳的人工智能语音助理不仅仅是实时的声纹分析和识别，还融入了‘机器学习’，利用语音识别和车牌扫描技术来识别独特的顾客，不管他们去哪个地方，并根据他们过去的访问向他们展示特定的菜单项。”

6753 0

这次，罗永浩一句人工智能也没提

更早之前，在锤子科技去年10月的新品发布会后，科大讯飞的“配音阁”已经在锤子科技系列新品发布会前后大放异彩，主要是通过合成罗永浩、奥巴马等的口音，实现机器语音的“个性化”。...据量子位了解，主打智能语义分析三角兽，在该功能从无到有诞生的过程中，总共向锤子科技派出了3名工程师，共计耗时3个月，最大挑战来自手机场景下的技术方案落地问题——在此之前并没有厂商做出过尝试。...除了语音识别，“闪念胶囊”背后还应用了智能语音拖拽、大爆炸和一步。在接受量子位的采访中，科大讯飞方面的负责人表示，此次也在“闪念胶囊”中和锤子进行了协作，主要涉及语音识别方面。...语音识别方面，从科大讯飞、百度，到搜狗，都已经在大语料数据库的基础上，将语音识别的准确率提升到了97%以上，这在国际公认的标准参数都已然处于领先，并且讯飞还实现了方言领域的高识别率，可以说这是锤子可以实现一系列语音交互为基础的产品的底气所在...虽然长达3小时的演讲展示中，罗永浩只字未提“人工智能”，但通不难看出锤子科技想要改变的现状——智能手机产品创新遭遇瓶颈的现状，需要新技术新交互提升易用性的现状。

8656 0

继谷歌苹果亚马逊之后，微软也被曝人工收集用户语音数据，微软公开承认了！

来源：Techcrunch等编辑：大明 8月15日，微软修改隐私条款和相关内容，承认员工和供应商会收听Skype和Cortana的语音数据和录音，来改善微软产品和服务的语音识别、翻译、意图理解等功能...其实，在大约半个月之前，就有媒体报道了微软在其Skype翻译服务和Cortana语音助理服务中由人类员工监听用户的对话录音。...我们努力透明收集和使用语音数据，以确保客户可以在使用语音数据的时间和方式上做出明智的选择。微软在收集和使用语音数据之前获得了客户的许可。“ 简单说就是： 1、确实收集了用户数据。...比如会人工手动查看一小部分语音数据的简短摘要，我们已采取措施去除识别以改进我们的语音服务，如语音识别和翻译服务。” ?...要么接受人工审核，要么不用Skype翻译和Cortana服务。是你，你怎么选？

7762 0

dingdang-robot：一个开源的中文智能音箱项目

被动唤醒阶段的基本策略是：每次以 16000 的采样率录制 1024 个采样作为一个采样集，然后对采样集进行信号强度估计，当某个采样集信号强度大于一个阈值时，就认为可能接受到了指令。...由于被动唤醒会试图识别所有听到的内容，出于隐私保护的目的，应该使用离线的语音识别引擎，因此我选择的是 PocketSphinx 。...而对于主动聆听，由于是在唤醒阶段才会进行转换，进入主动聆听前会有蜂鸣提示，用户也会清楚此时叮当正在听他们说话，相对来说隐私泄露的可能性就比较低，因此我最初选择的是在线的百度 STT 语音识别服务，也省下了扩展语音识别模型的工夫...TTS 引擎方面同样也先支持了百度的语音合成。在实际测试中，PocketSphinx 的识别出乎意料的好。...相比之下，百度的语音识别就比较迟钝了。有时候明明我发音很清晰了，还是会识别成另外的含义。通过在百度的语音识别平台上传自定义的语音识别词库可以提高识别的准确率。

9K5 0

干货 | 清华大学郑方：语音技术用于身份认证的理论与实践

内容则分成四个方面：一是身份认证的技术要求；二是语音信号的特点分析；三是安全保障和隐私保护；四是语音处理技术的实践。一、身份认证的技术要求 1. 网络空间身份认证 ?...语音特征具有的优势包括：第一，语音获取自然、方便，易于接受；第二，语音采集和传输成本低廉，使用简单；第三，用户交互性强，易防止假冒闯入；第四，可以结合业务；第五，可以体现用户真实意图。...DET曲线由两个坐标组成，横坐标是FAR，纵坐标是FRR，FAR是指错误的预警、错误的接受，与安全性对应；FRR是指错误拒绝，与用户体验对应。...防攻击的第一个是基础策略，综合利用语音识别和声纹识别。 ? 第二是增强策略，比如录音检测、用户自定义密码等。 ?...语音的特点是非常方便，它是更高安全，更低成本和更低隐私的声纹+的结构。 ? 除了虹膜在人证合一准确率方面是最好的之外，声纹在不易伪造、意图真实、证据可追溯、认证便宜方面都是最好的，符合性最大。

1.1K4 0

语音一代(Generation Voice)长大后会发生什么？

(complex field of computing)，很多品牌公司在此领域的投资，采取的是边走边看的策略(wait-and-see approach)。...一个明显的例外(clear exception)是专注于孩子(kid-focused brands)的品牌和媒体资产(media properties)，一直在孩子体验方面进行慷慨的投资(generously...因为当孩子们接受了这种新的语音体验之后（adopt voice tech）,其整个孩童和成年时代(adulthood)都会保持不变。...那些拥有反复打磨的，并不断迭代（well-crafted and repeatedly iterated)升级的好的声音识别（sonic identity)和语音体验的品牌，将会处于处于领先地位。...选择与我们的语音助手大规模的分享数据（in large volumes)，在持续不断的基础上(on an ongoing basis)，将有可能是缺省的，社会可以接受的方式(socially acceptable

6481 0

高通称其终端语音识别准确率达95%

在波士顿举行的Re-Work深度学习峰会上，高通公司的人工智能研究员Chris Lott介绍了他的团队在一个新语音识别程序方面的工作。...这些词汇能够使系统准备好接受随后的语音命令，但系统不会分析这些命令—它们将繁琐的工作转移到运行复杂的机器学习算法的强大远程服务器上。对一些用户来说，将他们的语音数据交给云端会引发隐私问题。...在将这些数据发送出去进行分析之前，亚马逊的Alexa助手和Google智能助理都会记录语音片段，并保留这些语音片段，直到用户选择删除它们。...2016年，在美国亚利桑那州调查一起谋杀案的侦探们试图从亚马逊Echo演讲者获得语音数据。在被告的同意下，该数据最终被获得。 Lott说，除了能够保护隐私之外，设备上的语音处理还有其他好处。...2016年，Google创建了离线语音识别系统，该系统当时比在线系统快7倍。该模型经过约2000小时的语音数据训练后，大小为20.3兆，在智能手机上的识别准确率达到了86.5％。

5351 0

服务机器人市场“坏死”，活路在哪？

某用户在接受采访时表示。...历数众多新兴产业的发展历程，初创公司只有在风口到来前进入，才能分得最后一杯羹，服务机器人市场也不例外。...在接受采访时，一位行业人士指出。那现在的机器人厂商如何将产品卖出，从而拥有一定的造血能力？...“为了让在公司上班的你能够远程关注到家里的情况并及时对机器人发出准确指令，我们融合了语音识别、语音文本转化和语义理解三项技术，以提高机器人执行指令的准确度。...另一位国内服务机器人初创CEO在接受采访时也表示。某种程度上，科沃斯的扫地机器人就是抓住了人们的一项刚需，并力求在细节上下了大功夫来让用户体验更好，以此打开市场。

4935 0

业界 | 谷歌用新的语音数据扩增技术大幅提升语音识别准确率

具体来说，他们在 SpecAugment 不再直接使用传统的数据扩增方法，而是在音频的光谱图上（音频波形的一种视觉表示）施加扩增策略。这种方法简单、计算力需求低，而且不需要额外的数据。...新的音频数据扩增方法 SpecAugment 对于传统语音识别系统，音频波形在输入网络之前通常都需要编码为某种视觉表示，比如编码为光谱图。...而传统的语音数据扩增方法一般都是在编码为光谱图之前进行的，这样每次数据扩增之后都要重新生成新的光谱图。在这项研究中，作者们尝试就在光谱图上进行数据扩增。...作者们进行了对比试验如下，未使用数据扩增的模型（棕黄色线）在训练数据集上取得了极低的单词错误率，但是在 Dev-other（有噪声测试集）和 Dev-clean（无噪声数据集）上的表现就要差很多；使用了数据扩增的模型...甚至都不需要自动语音识别模型的表现还可以通过语言模型进一步提高。在大量纯文本数据上训练出的语言模型可以学到一些语言规律，然后用它来更正、优化语音识别模型的输出。

1.1K1 0

业界 | 谷歌用新的语音数据扩增技术大幅提升语音识别准确率

具体来说，他们在 SpecAugment 不再直接使用传统的数据扩增方法，而是在音频的光谱图上（音频波形的一种视觉表示）施加扩增策略。这种方法简单、计算力需求低，而且不需要额外的数据。...新的音频数据扩增方法 SpecAugment 对于传统语音识别系统，音频波形在输入网络之前通常都需要编码为某种视觉表示，比如编码为光谱图。...而传统的语音数据扩增方法一般都是在编码为光谱图之前进行的，这样每次数据扩增之后都要重新生成新的光谱图。在这项研究中，作者们尝试就在光谱图上进行数据扩增。...作者们进行了对比试验如下，未使用数据扩增的模型（棕黄色线）在训练数据集上取得了极低的单词错误率，但是在 Dev-other（有噪声测试集）和 Dev-clean（无噪声数据集）上的表现就要差很多；使用了数据扩增的模型...甚至都不需要自动语音识别模型的表现还可以通过语言模型进一步提高。在大量纯文本数据上训练出的语言模型可以学到一些语言规律，然后用它来更正、优化语音识别模型的输出。

8453 0

亚马逊Alexa再次抽风，莫名其妙把私人对话发给同事

△ Danielle原本在每个屋都放了一个Echo 亚马逊初次回应事关隐私，亚马逊相当重视。马上找工程师调出Danielle音箱的log日志，试图搞清楚Alexa抽风的原因。...客服只是一味地在长达30分钟的电话里，说了15次“我们真的很抱歉。” Danielle自然不能接受这样的结果。自己的隐私受到了侵犯，至少亚马逊应该给个事故发生的原因说明吧。...这次隐私泄露是因为语音助手Alexa被误唤醒了，把用户的对话当成了指令，才产生了错误的操作。亚马逊这样牵强的官方解释无法让人信服。因为这个解释要成立的话，至少得错误识别4次。...用过智能音箱的人都知道，这哪一步单拎出来说Alexa智障了识别错了都还在可理解可接受的范围内。但一连串事件都出错，那不是语音识别太弱鸡，就可能是还存在什么用户不知道的触发词和语音对话搜集目的。...这次事件，总的来说是Alexa错误识别了语音指令，导致错误激活了一个发送语音邮件的功能。可是很多人倾向于把这件事和NSA全民监控联系起来。

3134 0

ASP.NET Core 中支持 AI 的生物识别安全

此人之前是否曾进入此建筑（签出）。每日允许的访问次数。此人是否值班。建筑的关键性（可能无需限制对餐厅的访问，但要对服务器数据中心访问执行严格的策略）。此人是否带领其他人或携带其他物品同行。...在服务对象上调用 AddAuthorization 方法，以添加授权策略。调用 AddAuthorization 方法以授权其执行时，它接受 API 函数必须拥有的策略集合。...本文中的安全解决方案将语音作为访问控制信号，在此方案中主体通过语音将通行短语输入到已注册为 IoT 设备的麦克风。与人脸识别一样，语音识别也需要预注册已授权的人员。...：从场地中的 IoT 设备获取音频流后，它尝试基于已注册的个人资料集合识别该音频。...语音验证 API 返回 JSON 对象，其中包含验证操作（接受或拒绝）、可信度（低、中、高）和识别的短语的整体结果： { "result" : "Accept", // [Accept | Reject

1.7K2 0

Science｜让机器学习值得信赖

机器学习（ML）在过去十年中取得了巨大的进步，并继续在图像、语音和文本识别等非凡的任务上，获得令人印象深刻的人类级水平的表现。...例如，在自动驾驶汽车中，一个控制模型可能依靠路标识别来进行导航。...在一种常见的策略--成员推理（Membership Inference）中，敌对者能够利用模型对训练数据集的成员和非成员的反应差异。为了应对这些对于ML模型的威胁，一些有希望的对策的探索正在进行。...例如，前面说明的大多数ML规避和成员推理攻击主要是在图像分类（自主车辆的路标检测）、物体检测（从有多个物体的客厅照片中识别一朵花）、语音处理（语音助手）和自然语言处理（机器翻译）等应用上。...幸运的是，在采用ML的这个时刻，在ML被普遍部署并变得无法管理之前，我们仍有一个重要的机会窗口可以解决其盲点。

5213 0

再看语音交互设计

从人们的交谈看语音人机界面（VUI）当人们愉快地交谈时，交谈中通常包含一些关键要素：情境感知（关注你和周围的环境）、关于之前交流的记忆，以及相关问题的交流。...一些人更喜欢文字沟通隐私性的内容 VUI往往是线性的，无法跳过。...在确认用户的意图的时候，一般有以下几种策略：策略一：三级置信度系统在一定的阈值内（例如，45%～80%），以明确的形式确认信息，拒绝较低置信度的信息，并以隐性确认来确认超过80%阈值的信息。...策略二：隐性确认连同原始问题的一部分一同回复，让用户知道系统识别到了用户的问题。策略三：非语言式确认仅使用行动进行反馈，尤其对智能家居的技能。...下面在VUI可能出错的几种情况：未检测到语音检测到语音，但没有识别语音被正确识别，但系统无法处理部分语音识别错误人有许多方法来表明他们还不理解对方所说的话，最常见的（有效的）方式之一就是什么都不说

1.7K2 0

老罗最新发布了“子弹短信”这款IM，主打熟人社交能否对标微信？

这样的好处是发送信息的一方可以根据自己的习惯来输入信息，但接受信息的一方在收到通知时可以直接看到文字，而不用打开应用来查看。...在我们的测试中，子弹短信大部分情况下都能很好地完成转换。虽然偶尔也会出现识别的问题，好在你还可以通过听语音的方式再次确认。...进入 App 后，点击消息列表的右侧的麦克风按钮可以直接回复消息，消息列表可同时查看多条未读消息，这些功能降低了用户点击进入对话的频率。 ?...如果子弹短信将来能实现直接在锁屏界面录入语音发送，相信回复效率还能再提升一步。 4、「人性化」的小功能锤子科技的产品从来都不缺乏一些有趣又实用的小功能，子弹短信这次也不例外。...如果你觉得微信在工作交流上不够好用，想尝试一下把自己的工作和生活进行区分，并且有能力自己选择工具，或许子弹短信是一个值得一试的选择。

6232 0

语音识别SDK是真正智能生活的基础，也是颠覆传统的基石

亚马逊Echo是一台语音圆柱形计算机，我们可以将它放在桌面上，呼叫“Alexa”就可以唤醒，它可以播放音乐，讲笑话，回答旅行问题，控制智能家电；就在圣诞之前，4%的美国家庭已经拥有Echo。...在智能手机市场，语音助手迅速发展。每周苹果Siri处理200亿个命令，在美国来自Android手机的Google语音搜索已经占了20%的份额。用语音发邮件、写信息已经相当可靠。...有了深度学习，在识别笔迹时计算机像人一样精准，计算机翻译系统正在快速进步，“文本-语音”系统不再那么生硬，发出的声音更加自然。总之，不论从哪方面来看，计算机处理自然语言的能力越来越强。...于是乎，隐私与安全问题接踵而来。许多语音设备一直在监听，随时准备激活，问题因此变得更复杂。联网麦克风装进了每一个房间和每一台智能手机，这种现状已经引起一些人担忧。...这两件事告诉我们：应该建立规则，让大家知道何时接入个人隐私数据、获得什么数据是合理的。即使这些问题没有解决，消费者还是会接受语音计算技术。在许多环境中，语音方便得多，自然得多。

8044 0

上线三年却很“鸡肋”的微信声音锁究竟做错了什么？

2015 年上半年，微信手机客户端悄悄上线这一功能时，曾吸引不少用户尝试，进而开始关注到“声纹识别”这一领域。...近日，清华大学语音和语言技术中心主任、得意音通董事长郑方博士接受AI科技大本营采访时表示：“目前在声纹识别这个领域，不同技术或产品提供商参差不齐、差异很大；与此同时，声纹识别不再是单一强调准确性，而是变得更为成熟...一旦用户的生理特征信息在采集和传输的过程中丢失，就很有可能被人通过非法途径使用，从而影响到用户的隐私安全。...但郑方同时也指出，从之前的合作中会发现，“某些手机厂商对做这个事情的态度很随机，并不完全看市场需求。” 另一方面，在声纹识别市场，企业用户对SaaS收费模式的认知仍存在偏见。...谈及以微信为代表的互联网巨头推出的声纹识别技术，郑方半开玩笑道：“之前我们还给微信声音锁团队的负责人特意写过技术报告，（声音锁）在安全和用户体验上做的都不够好……”隐约中可以察觉到，腾讯的业务逻辑很大程度上决定了其不会在语音尤其是声纹探索方面给予很高的优先级

1.3K3 0

大会 | 思必驰-上海交大实验室14篇ICASSP 2018入选论文解读

在我们实验室之前开发的极深卷积神经网络 VDCNN 基础上，通过引入残差学习得到 VDCRN 模型以进一步提升模型鲁棒性，同时在 VDCRN 模型上开发聚类自适应训练方法来减少模型在噪声环境下的训练和测试间失配...最终所开发的抗噪语音识别系统，在噪声标准数据集 Aurora4 上达到了 3.09%的词错误率，也是目前在此任务上报道的最好结果。...作为第二目标，双向语言模型被用于从大量未标注数据中学习广泛的无监督知识，从而提高语义标注模型在测试数据上的性能。我们为两个任务构建了一个共享空间，并为每个任务分别构建了独立私有空间。...本文提出了在之前的 PIT 语音识别模型上利用辅助信息做说话人自适应，提升单声道多说话人语音识别的性能。...我们尝试在基于三元组损失函数的端到端声纹识别系统中引入 i-vector 嵌入。在短时文本无关任务上取得了 31.0%的提升。

1K4 0

财务RPA机器人的适用标准

财务RPA最适于具有清晰定义和极少例外情况下的重复和确定性过程，即应用于大量既定规则的交易活动，利用特定的软件算法，与多个应用程序交互，自动完成各类管理任务，进而在用户界面（即UI层）执行事务流程。...其次，流程应当具备重复性，必须有明确的、可被数字化的触发指令和输入，例如每日大量的交易核对和费用单据的审核，流程不得出现无法提前定义的例外情况。...典型的财务共享服务中心常见流程里不少业务处理环节都具备高度的标准化、高度的重复性特点，符合财务RPA的适用标准，因此RPA软件在财务共享服务中心有着广阔的应用空间。...三、结构化、数字化的信息财务RPA仅能对大量结构化、数字化的数据和信息进行识别处理，在输入端，可以结合光学字符识别技术（OCR）、语音识别等认知技术，将外界信息转化为计算机可以处理的信息再交由机器人进行后续处理...光学字符识别技术可以把纸质凭证、账册、合同的信息扫描到计算机里，并识别为电子逻辑信息，然后交给RPA机器人去记账、出具报表；而语音识别技术可以帮助机器人识别、接受人的语音指令，甚至从人的语音当中识别出数字信息并进行处理

4980 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭