在Agora.io语音聊天功能中，是否可以知道说话的是哪位扬声器？ - 腾讯云开发者社区

您找到你想要的搜索结果了吗？

是的

没有找到

浅谈网络语音技术

解析腾讯云游戏多媒体引擎GME技术方案

在网络游戏中，无论是大逃杀、棋牌类、电子竞技类还是娱乐休闲类小游戏，玩家和玩家之间的互动和语音聊天都是一个必不可少的环节。作为一个通用的技术需求，如果由游戏厂商自己从零开始研发相应的音频技术，既不经济也不具备技术优势，因此市面上有一些厂商提供第三方的游戏音频SDK，让游戏开发商免于重复造轮子的同时，能把更多时间花在提升核心竞争力上。

同声传译被攻陷！谷歌发布Translatotron直接语音翻译系统

说不同语言的人更容易地、直接地相互交流，这是语音到语音的翻译系统(Speech-to-speech translation)的目的，这样的系统在过去几十年里取得了不错的进展。

声网SDK携手荔枝FM打造语音直播，支持万人同时连麦

目前，荔枝FM拥有600 万日活跃用户， 200 万播客，以及5000万期原创音频节目，播客数量、内容时长、内容数量均位居全网第一。尽管荔枝FM强调语音直播并不是一次转型，但做直播的确为平台上原有的

在3kbps的带宽下还能清晰地语音聊天？

2月25日，Google AI blog发布了一篇文章详细的介绍了最新推出的Lyra——一种用于语音压缩的新型超低比特率编解码器。该编解码器使Google Duo，以及未来的其他应用程序能够以每秒3kb的网络宽带提供听起来很自然清晰的语音聊天。

谷歌神经网络人声分离技术再突破！词错率低至23.4%

把一个人的声音从嘈杂的人群中分离出来是大多数人潜意识里都会做的事情——这就是所谓的鸡尾酒会效应。像谷歌Home和亚马逊的Echo这样的智能扬声器实现分离人群中的声音可能还要再经历一段时间，但多亏了AI，它们或许有一天能够像人类一样过滤掉声音。

iOS音视频接入- TRTC语音聊天室

我们在之前的文章中已经了解了TRTC的1v1和多人语音聊天，本篇文章来了解下TRTC的语音聊天室。

谷歌采用全新方法解决语音分离任务，极大降低识别错误率

将一个人的声音与嘈杂的人群分开是大多数人在潜意识里做的事情，它被称为鸡尾酒派对效应。像谷歌和亚马逊的Echo这样的智能扬声器通常会有更艰难的时间，但是在未来AI过滤声音可能会和人类一样好。

ThinkPad系列 win10系统没有声音问题完美解决

去联想官网下载对应电脑型号的声卡驱动，官网地址：驱动下载_ThinkPad服务网站-联想服务，进入联想thinkpad官网后找到服务里面的驱动下载选项，然后点击进去，如下图:、

从语音通话和视频通话两个方面搭建专属于自己的私有化部署的视频会议通话系统

召开远程视频会议，可大大提高工作效率，节省与会人员的工作时间和会议费用。视频会议通话系统应用在政府、军队、教育、金融、交通、能源、医疗等行业及跨国、跨地区的企业中逐步普及。

谷歌云重大更新：Text-to-Speech现已支持26种WaveNet语音

如果你是谷歌云客户，并且正在使用该公司的AI套件来进行文字转语音或语音转文本服务，这有个好消息：谷歌今天宣布了这些方面的重大更新，包括云文本到语音的普遍可用性，优化声音以便在不同设备上播放的新音频配置文件，多声道识别的增强功能等等。

Android新漏洞：利用传感器获取语音信息

本月早些时候，曾有过一条新闻：研究人员发现，即使用户明确拒绝所有手机应用程序所需权限，仍然有1300多个Android应用在收集用户的敏感数据。

令人激动的语音UI背后

亚马逊Echo和Echo Dot智能音箱获得了成功，它已经使语音命令（通常称为语音UI或语音UI）出现在了新技术产品中。在每一部智能手机和平板电脑上，大多数新型汽车上，以及快速增长的音频产品中，都有这个功能。最终，大多数家用电器，音频和视频产品，甚至像健身跟踪器这样的可穿戴设备，最终也都会有语音命令功能。

用AI打个电话骗走22万欧元，克隆你的语音只需5秒录音

AI 技术的应用门槛正在不断降低，换脸、换声音、生成各种不存在的人像都变得非常容易，但与此同时，犯罪的门槛也降低了。

智能语音交互中的麦克风阵列技术

近年来，随着语音识别技术的发展成熟，语音交互越来越多的走进我们的生活。从苹果手机Siri助手的横空出世开始，各大公司纷纷效仿开发自己的语音助手和语音识别平台，手机端的近场语音交互日趋成熟。后来Amazon发布Echo智能音箱，开启了智能硬件远场语音交互时代。相比于Siri手机端近场的语音交互，Echo音箱的语音交互支持距离更远，交互更加自然便捷，它使用了麦克风阵列来保证远距离复杂背景噪声和干扰环境下的良好拾音效果，随后麦克风阵列逐渐成为了后续语音交互智能硬件的标配。

用AI打个电话骗走22万欧元，克隆你的语音只需5秒录音

AI 技术的应用门槛正在不断降低，换脸、换声音、生成各种不存在的人像都变得非常容易，但与此同时，犯罪的门槛也降低了。

AVFoundation框架解析看这里（3）- 音频AVAudio

上一章节主要以媒体捕捉以起点，拍摄、保存视频，本章将以音频AVFAudio为重点，主要知识点有：

VR配件盘点|看似完美的设计中，又透露着些许离谱

（VRPinea 9月7日讯）自Meta Quest 2于2020年推出以来，我们已经看到了各种旨在改善使用体验的VR配件。小到电缆、支架、控制器握把、面罩和风扇，大到触觉套装、椅子，甚至跑步机。其中有些配件是可以实现一加一大于二的效果，或加深用户体验时的沉浸感，或给用户带来便利。不过，也不乏一些让客户直呼“上当了”的配件的存在。

能对话、能讲故事，他用树莓派把1960年代的老式收音机改造成了智能音箱

对于大部分年轻人来说，老式收音机都是不可磨灭的童年回忆。随着科技的发展，我们收听有声内容的方式从收音机变成了手机，后来又变成了智能音箱，而内容本身也从电台节目变成了播客。

游戏多媒体引擎2.7.0版本上线

游戏多媒体引擎 SDK 2.7.0beta 版本已经正式上线，大家已经可以在腾讯云游戏多媒体引擎的SDK下载指引中下载。本次新版本在稳定性、安全性、通话质量等方面得到了改进，并且有以下四个新增功能点：

语音前处理技术在会议场景中的应用及挑战

点击上方“LiveVideoStack”关注我们 ▲扫描图中二维码或点击阅读原文▲ 了解音视频技术大会更多信息 // 编者按：随着在线会议的普及，用户已经不再满足于能听到，而是要有更为极致的听感体验，如何能够在复杂多变的应用场景中依旧保证声音清晰流畅是对会议系统的极大挑战。LiveVideoStackCon2022上海站大会邀请到了全时音视频研发部经理顾骋老师，为大家详细介绍了语音前处理技术在会议场景中的应用与挑战。文/顾骋整理/LiveVideoStack 大家好，我是顾骋，来自全时

《鹅鸭杀》等派对桌游爆火背后，实时语音助力实现游戏玩法

前段时间你肯定被一款派对推理游戏刷了屏。它登顶微博热搜、官服被挤爆、相关表情包霸占各个微信群、游戏解说视频千千万，在 Steam 上的单日在线人数，最高已经达到了 50 多万。这款游戏是《Goose Goose Duck》，被中国玩家叫做《鹅鸭杀》，是一款拥有丰富玩法的“太空狼人杀”游戏。鹅鸭杀（图源 Steam）在《鹅鸭杀》《Among Us》等太空狼人杀/派对桌游类型游戏常上热搜、登 Steam 热榜、持续占领朋友圈和微信群的爆火背后，游戏语音为游戏的社交性及娱乐性增添了超多 BUFF。接下来我们

RTC@scale 2024| 实时通话音质提升 Part 1：Beryl回声消除

回声问题指的是在实时通话中听到的自己的声音回响或是失真的音频。例如，当Alice呼叫Bob时，她的声音从Bob手机的扬声器中播放出来。Bob的麦克风拾取Alice的声音，音频信号被发送回Alice，Alice听到她的声音回响。

如何在 NVIDIA Jetson 开发板上运行类似 ChatGPT 的 LLM

语言模型彻底改变了自然语言处理领域，使计算机能够理解和生成与人类相似的文本。其中一个强大的语言模型是由OpenAI开发的ChatGPT。当前市场上有许多AI玩家，包括ChatGPT、Google Bard、Bing AI Chat等等。然而，所有这些模型都需要您与其进行互动时连接互联网。此外，对于在边缘设备（如单板电脑）上运行类似模型以进行离线和低延迟应用的需求不断增长。

干货 | 人机交互只不过是在执行一个预设的算法而已

一、传统的自助设备我们都非常熟悉的自助设备，就是预设场景下的产物。因为场景已经确定，所以设备的功能也是确定的。取款的机器只能取款，是存不了的。查询的机器只能查询，是不能取款的。场景的确定带来了功能的确定，功能的确定就是对应的可办理业务的确定。不仅如此，由于每种业务都有一个自然合理的办理流程，所以，自助设备的操作步骤也是预设好的。我们只能按照预设好的步骤进行操作，而且操作也是非常固定，就是输入一些文字或数字，按一些按键，想进行一些其它的“发挥”，呵呵，是不可能的。为什么自助设备没有被称为智能设

iOS音视频接入 - TRTC接入实时视频通话

（前面我们已经了解TRTC的基本架构和功能，现在我们就来接入实时视频通话功能，此功能和微信的一对一视频通话是一致的，需要两个角色，一个角色是主动呼叫、一个为呼叫接听，结合使用场景我们来接入此功能。

014

KT142C-sop16语音芯片ic的功能介绍支持pwm和dac输出 usb直接更新内置空间

3、芯片内置0.5W的功放，超宽的供电范围【2.5--5.2V】，外置2个105的电容即可正常工作，非常简单。当然也可以配置为DAC输出外挂功放芯片

下一个大计算平台？亚马逊 Echo 研发幕后全揭露

【新智元导读】作为亚马逊打入智能家居并占据入口地位的标志产品，Echo的研发历程一波三折。本文记者采访内部一线人员，得到Echo问世幕后消息：亚马逊最初瞄准AR，不成后转做声控扬声器，Fire Phone的失败让这款产品成了亚马逊语音控制的出口，发货时间一延再延，偶然之下被定位成智能家居入口型产品，最后关头做出5大改变。文中能看到亚马逊产品研发流程、员工待遇，还有杰夫·贝索斯其人其心的剪影。告诉杰夫·贝索斯（Jeff Bezos）他有错是件令人恐怖的事情。2014年秋天，亚马逊全新语音控制扬声器的开发团

为使VR更逼真，Disney Research推程序语言动画新方法

Disney Research（迪士尼研究所）和几所大学的研究人员共同撰写了一篇新论文，该论文内容主要描述了一种基于深度学习的程序语言动画的新方法。该系统可以对人类录音进行采样，并在这些录音的基础上，

测试人员进阶，直播类产品的音视频质量测试攻略分享！

真正决定未来竞争的关键，是在功能满足用户需求的前提下，提高直播软件的各项质量指标，对流畅度、清晰度、音质、稳定性和流量消耗等进行专项测试，从而音视频通话质量。

Sceince子刊：利用AI+脑电波，锁定你想听的声音

人类大脑具有非凡的能力，可以在嘈杂的环境中挑选出特定的声音。比如，在嘈杂的酒吧里留意中意对象的说话、在车水马龙的街道分辨身后来车等等。

微信小程序TRTC使用custom自定义面板（理解篇）

登录腾讯云官网，官网给出了小程序TRTC的Demo分别实现了语音聊天室、双人视频通话、多人视频通话，小程序TRTC提供了custom自定义面板开发者们可以自行设计页面内容和样式，接下来我们就使用custom自定义面板实现一下直播互动功能。

KT142C-sop16语音芯片DAC如何外挂功放芯片8002D或者HAA2018A

KT142C是一个提供串口的SOP16语音芯片，完美的集成了MP3的硬解码。内置330KByte的空间，最大支持330秒的语音长度，支持多段语音，支持直驱0.5W的扬声器无需外置功放

手机侧信道窃听攻击

当前智能手机上的运动传感器由于对振动的敏感性已被用于监听音频。但由于两个公认的限制，此威胁被认为是低风险的：首先，与麦克风不同，运动传感器只能捕获通过固体介质传播的语音信号，因此先前唯一可行的设置是使用智能手机陀螺仪窃听放置在同一桌子上的扬声器；第二个限制来自常识，即由于200Hz的采样上限，这些传感器只能捕获语音信号的窄带（85-100Hz）。在本文中将重新探讨运动传感器对语音隐私的威胁，并提出了一种新型侧信道攻击AccelEve，它利用智能手机的加速度计来窃听同一智能手机中的扬声器。

KT142C语音芯片ic使用开发中常见问题集锦FAQ

KT142C是一个提供串口的SOP16语音芯片，集成了MP3的硬解码，内置320KByte的空间，最大支持320秒的语音长度，支持多段语音，支持直驱0.5W的扬声器无需外置功放，也可以设置DAC输出

波士顿动力机器狗装上ChatGPT大脑当导游，一开口就是老伦敦腔

在一段最新发布的视频里，波士顿动力展示了将机器狗与 LLM 集成的成果：「Spot 先生」戴着高礼帽，留着小胡子，有着大眼睛和英国口音，正带人参观公司的设施。

[论文品读]·d-vector解读(Deep Neural Networks for Small Footprint Text-Dependent Speaker Verification)

在本文中，我们研究深度神经网络（DNNs）在小型文本相关的说话者验证任务的应用。在开发阶段，DNN经过训练，可以在帧级别对说话人进行分类。在说话人录入阶段，使用训练好的的DNN用于提取来自最后隐藏层的语音特征。这些说话人特征或平均值，d-vector，用作说话人特征模型。在评估阶段，为每个话语提取d-vector与录入的说话人模型相比较，进行验证。实验结果表明基于DNN的说话人验证与常用的i-vector相比，系统在一个小的声音文本相关的说话人验证任务实现了良好的性能表现。此外，基于DNN的系统对添加的噪声更加稳健，并且在低错误拒绝操作点上优于i-vector系统。最后，组合系统在进行安静和嘈杂的条件分别优于i-vector系统以14％和25％的相对错误率（EER）。

JK405R-SOP16录音芯片ic方案的常见问题集锦包含录音长度功耗以及外挂spiflash2

2、支持按键控制，也可以扩展IO触发控制 3、操作也是很简单，短按播放，长按录音，抬起停止录音 4、芯片支持订制各种功能，非常的灵活问题22、KT405R录音的机制是怎样的？答疑1、KT405R录音，是采用一个循环的buf进行管理的，目前标准的程序，做的一段声音录音 2、也就是说，开启新的一段录音，会擦除之前录音的目录信息，生成新的录音信息，然后开始写新的录音数据，掉电保存 3、当然程序也可以扩展多段录音，都是可以的问题33、KT405R的供电电压详细说明？以及功耗控制手段答疑

声网SDK开发者数量超10万，发起全球首个RTC生态圈Agora Plus

全栈实时通信云服务商声网Agora.io(以下简称声网)在RTC 2017实时互联网大会上宣布，声网SDK服务全球超过10万+开发者，触达终端数10亿+，日通话分钟数突破亿级。会上，声网创始人赵斌、

MacOS大版本更新！增强版「全局控制」，操纵多台终端，只需一套键鼠

---- 新智元报道来源：网络编辑：小咸鱼【新智元导读】苹果今天发布了macOS Monterey正式版。macOS Monterey带来多种新方式，助力用户在Apple设备上沟通联络、提升效率和流畅性。 10月18号，2款搭载「最强猛兽」最新M1系列芯片（M1 Pro，M1 Max）的Mac正式亮相：一款是MacBook Pro 14，另一款是MacBook Pro 16。发布结束后，苹果表示新的 macOS Monterey 将会在 10 月 25 日正式推出。非常准时呀，10月2

金融/语音/音频处理学术速递[8.18]

【1】 Analysis of Data Mining Process for Improvement of Production Quality in Industrial Sector 标题：提高工业部门生产质量的数据挖掘过程分析链接：https://arxiv.org/abs/2108.07615

学界 | 谷歌团队提出应用于噪声语音识别的在线序列到序列模型

近日谷歌团队发布了一篇关于语音识别的在线序列到序列模型，该模型可以实现在线实时的语音识别功能，并且对来自不同扬声器的声音具有识别功能。以下内容是 AI 科技评论根据论文内容进行的部分编译。论文摘要：生成模型一直是语音识别的主要方法。然而，这些模型的成功依赖于难以被非职业者使用的复杂方法。最近，深入学习方面的最新创新已经产生了一种替代的识别模型，称为序列到序列模型。这种模型几乎可以匹配最先进的生成模型的准确性。该模型在机器翻译，语音识别，图像标题生成等方面取得了相当大的经验成果。尽管这些模型易于训练，因为

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐