首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

科技声纹识别权威竞赛夺冠,智能语音再下一城

团队(logicworld)在全球权威声纹识别竞赛 VoxSRC 2019夺冠,等错误率(EER)0.0098,大幅领先第二名。 声纹识别为什么难?...随着技术的不断成熟和融合,声纹识别技术将逐渐融入日常生活,根据不同应用场景的特点进行针对性开发,将产生巨大的应用价值。...算法的输出结果用等错误率(Equal Error Rate,EER)来衡量。 EER 是衡量声纹识别算法系统综合性能的重要指标,EER 值越小,系统的性能就越好。...等错误率(EER)是系统的误识率(FAR)和拒识率(FRR)相等时的错误率,即ROC曲线与45度角直线相交的点,是衡量声纹识别算法系统综合性能的重要指标。EER数值越小,系统性能越好。...依团队以 0.0098 的 EER 值获得本届竞赛冠军,也是唯一将 EER 值降低到 0.01 以内的团队。

1.1K50

动态多尺度卷积网络结构,清华、快手联合提出语种识别新方法

2:动态卷积核 (Dk Conv) 模块。... 3: 局部多尺度学习。在图中,"Dk Conv" 表示动态卷积核操作,⊕表示逐元素相加 一组过滤器首先从相应的特征子集中提取特征。...实验表明,使用全局多尺度池化方法可以产生更加具有区分力的语种 / 方言表征。...实验结果 为了证明所提模型在语种 / 方言识别任务上的有效性,该团队研究人员在东方语种 OLR2020 挑战赛识别任务 2 的方言识别任务上面进行了测试实验,采用了两个评价指标:平均损失性能 Cavg 和等错误率...团队拥有业内最顶尖的算法工程师和应用工程师,持续招募相关领域技术人才,博士占比 15%,硕士及以上占比 95%,拥有人工智能领域专利 394 件,每年发表论文数十篇。

82130
您找到你想要的搜索结果了吗?
是的
没有找到

CVPR 2018 | 新研究提出深度残差等价映射:由正脸加强侧脸识别效果

1:在极具挑战性的正面-侧面面部数据集上对最先进的人脸识别模型进行测试。显而易见,不同人的侧脸很容易会被进行错误匹配(假正类),而同一个人的正脸可能没法和他的侧脸匹配到,从而导致了假负类。...我们在 1 中展示了最先进的人脸识别模型的错误模式。我们训练了与 [34] 中提到的一样的模型——ResNet-18 模型。这个模型在 LFW 基准数据集中的准确率高达 99.3%。...从概念上讲,我们的这项工作与脸部正向化(frontalization)有关,因此我们的方法也可应用于除图像空间的正向化的其他问题。...我们从实验中观察到:从侧脸特征向正脸特征转化比图像级的正向化效果更好,也就是说,在图像合成问题上该方法对负影响更为敏感。...等错误率(EER)如表所示,EER 值更低表示结果更好,加粗的是每一行中最好的结果。

1.4K70

【AI防熊孩子抢手机】浙大开发算法软件,轻松识别儿童玩手机

基本理念:儿童与成年人与手机互动的方式不同 人体工程学和运动机能学已经表明,我们可以在相似年龄段的人群中发现共同的特征。本项研究的主要假设是儿童与成年人以不同的方式与智能手机进行互动。...为了评估二元分类器的性能,我们选择常用的性能指标:ROC(AUC)曲线下的面积和相等的错误率(EER)。...ROC曲线代表受试者工作特征曲线,并通过绘制真实接受率(TAR)与错误接受率(FAR)的关系来创建,因为阈值变化。 TAR是正确识别孩子的概率,而FAR是分类错误地接受孩子的概率。...5显示了ROC曲线,通过改变划分的次数来进行分类决策。增加滑动次数时,分类错误可以大大减少。随着我们将滑动次数增加到8次,EER本地收敛到3.0%。...将所有类型的手势融合在一起可以产生更快的分类决策并可能提高准确性。 4、提高准确性。鉴于连续8次滑动和准确性,我们的方法可以为现有的父母监控应用程序提供很好的补充。

1.4K160

zeta多样性:基于发生率多样性的统一框架

Zeta的尺度定律(2C)和距离衰减(2D)也很好理解。 2 A,指数分布;B,幂律分布;C,zeta的尺度定律;D,zeta的距离衰减。...地方-效应关系(endemics-effort relationship,EER),用于量化地方性的程度和当地物种灭绝对栖息地丧失的敏感性。 EER通常也被称为地方性特有物种的数量。...指数形式的EER同样会收敛到一个值(3C),这个值为全球特有物种的数量。且当选择的样点数远远小于总样点数时,EER近似和采样量呈线性关系。 幂律分布的EER随着样本数单调增加。 3....当环境变化对稀有物种产生不成比例的有害影响时,zeta多样性下降的斜率将变浅(向双峰OFD方向移动)。当普通物种比稀有物种受到更严重的影响时,zeta多样性会急剧下降,同时OFD呈右偏单峰。...3 第一列负指数分布zeta;第二列幂律分布zeta。三行分别为SAC,EER,OFD。 Zeta和beta多样性的关系 用z1和z2就可以表示群落两两之间的beta多样性。

1.9K31

业界 | 百度提出Deep Speaker:可用于端到端的大规模说话人识别

注:我们使用了 triplet loss,其之前曾被用于人脸识别。在训练阶段,我们选择一个说话人的一个话语,然后计算一个嵌入(标记为 Anchor)。...比如,在一个独立于文本的数据集上,Deep Speaker 在说话人验证任务上达到了 1.83% 的等错误率(EER),并且还在有 100 个随机采样的候选者的说话人识别任务上得到了 92.58% 的准确度...注:我们在实验中使用的三个数据集分别是 UIDs、XiaoDu 和 MTurk。其中 UIDs 和 XiaoDu 是普通话数据集,MTurk 是英语数据集。...例如,在一个独立于文本的数据集上,Deep Speaker 将说话人验证的等错误率(EER)相对降低了 50%,把说话人识别的准确率相对提升了 60%。... 1:Deep Speaker 架构示意图 ?

1.2K80

·d-vector解读(Deep Neural Networks for Small Footprint Text-Dependent Speaker Verification)

此外,基于DNN的系统对添加的噪声更加稳健,并且在低错误拒绝操作点上优于i-vector系统。最后,组合系统在进行安静和嘈杂的条件分别优于i-vector系统以14%和25%的相对错误率(EER)。...我们评估具有三种不同模型尺寸的i-vector系统的等错误率(EER)性能。 UBM中的高斯分量的数量,i向量的维数和线性判别分析(LDA)输出的维数是变化的。...然而,在低假拒绝区域中,如图2中的的右下部分所示,d向量系统优于i向量系统。 我们还尝试了训练DNN的不同配置。 如果没有maxout和dropout技术,训练有素的DNN的EER绝对差2%左右。...DET曲线的比较如图2右所示。如该所示,两个系统的性能都因噪声而降低,但d矢量系统的性能损失较小。 在10 dB噪声环境下,d矢量系统的整体性能非常接近i-vector系统。...该评估主要适用于噪声环境或需要小占用空间模型和低错误拒绝率的应用。 或者,这里我们的目标是提供组合的i / d矢量系统的分析。 ?

1.2K30

用脑电图也能做语音识别?新研究造福语音障碍者|一周AI最火论文

在他们的研究中,他们观察到,与CTC模型相比,当使用较小的脑电图特征数据集训练时,attention模型的错误率更高。因此,他们在研究中只使用了CTC模型。...他们在工作中使用了非常嘈杂的语音数据,并且在使用脑电图特征的较小语料库中显示出较低的字符错误率(CER)。...),取得了在VoxCeleb1测试集熵2.238%的EER和SITW核心测试集上2.761%的EER。...https://www.artificialintelligence-news.com/2019/03/15/machine-learning-jobs-high-paying-demand/ 机器学习工程师正在成为全球最年少多金的职业...除了卓越的工程经验,他还教授了1000名学生了解深度学习基础。 LinkedIn: https://www.linkedin.com/in/christopherdossman/

70230

声纹识别 | attention在声纹识别中的应用

池化的作用使DNN可以从变化长度的语音中产生定长的表征向量。平均和标准偏差合并在一起,然后向前传送到L6和L7,最后输出到softmax层。 ?...其定义为: 其中 CFR和 CFA 分别代表错误拒绝和错误接受的惩罚代价, Ptarget 和 1 − Ptarget 分别为真实说话测试和冒认测试的先验概率。可以根据不同的应用环境来设定它们的值。...minDCF 不仅考虑了两类错误的不同代价,还考虑了两种测试情况的先验概率,比 EER 更合理。...两者会融合起来,DET曲线的横纵轴将FAR和FER转为对数度量,这时候曲线越靠近原点,说明系统的EER错误识别率越小,性能越好。 ?...两者会融合起来,DET曲线的横纵轴将FAR和FER转为对数度量,这时候曲线越靠近原点,说明系统的EER错误识别率越小,性能越好。 ? 除了在模型上的评估。

3.2K30

VoxAtnNet | 手机面部生物识别系统的新型3D呈现攻击检测算法!

攻击是通过20个不同的数据主体在多个会话中佩戴这15个独特的包裹生成的,会话时间从1周到3周不等,产生了1626个3D包裹照片艺术品。 3:真实样本和PAIs Voxel 化的定性结果。...攻击呈现分类错误率(APCER)被定义为错误地将攻击呈现分类为真实呈现的比例,而BPCER被定义为错误地将真实呈现分类为攻击呈现的部分'。...此外,作者还使用检测等错误率(D-EER)和检测错误权衡(DET)曲线呈现定量结果。...所提出的方法在内部协议上针对3D硅胶面具的D-EER = 5.75%,针对3D包裹照片PAI的D-EER = 0.25%。...8:使用两种协议的检测性能DET曲线(彩色查看最佳) 7:提出的方法和现有方法在Inter和Intra协议下的平均D-EER(%)。

10610

CV学习笔记(二十九):交互式人脸活体检测

这部分思路如下,先将图片的指定帧resize为200*200,对图像进行灰度化处理,再使用canny边缘提取灰度边缘,再将边缘进行霍夫直线变换。...常用的性能度量指标有错误拒绝率(FRR),错误接受率(FAR),等错误率(EER),、获取错误率和平均处理时间等。...下面对活体检测方法的这些指标作些说明: 1: LFRR错误拒绝率:合法活体用户尝试登陆被认为不是活体而拒绝的次数除以合法用户尝试登陆的总次数。...2:LFAR错误接受率:欺骗攻击被接受为活体合法用户的次数除以欺骗攻击的总次数。 3:获取错误率:系统因不能获取信息而作出活体判断的次数除以尝试获取信息的总次数。...由于单个FAR或FRR不能评估系统性能,所以一般我们把FRR和FAR相等时的错误率作系统的评估指标,称为等错误EER.当EER值较小时,表示系统性能较高。

1.4K20

几款常用UML建模工具解析

Rose2002功能上可以完成UML的9种标准建模,即静态建模(用例对象组件配置)和动态建模(合作图序列状态转移活动),为了使静态建模可以直接作用于代码,Rose提供了类设计到多种程序语言代码自动产生的插件...同时,作为一款优秀的分析和设计工具,常用UML建模工具Rose具有强大的正向和逆向工程能力。正向工程这里指的是由设计产生代码,逆向工程指由代码归纳出设计。...通过逆向工程Rose可以对历史系统作出分析,然后进行改进,再通过正向工程产生新系统的代码,这样的设计方式我们称之为再工程。...尤其是逆向工程用起来很方便,只不过当时我们的EJB项目中EJB都非常大,动辄几千行,用它生成的sequence实在太详细了,只有不停地删掉细节,留下框架。...12,SystemArchitect:一个很受欢迎的高端UML建模工具,支持双向工程(Round-tripEngineering)。

1.7K20

软件工程模型-架构师之路(四)

一、软件工程模型 敏捷开发: 个体和交互 胜过 过程和工具、可以工作的软件 胜过 面面俱到的文件、客户合作胜过合同谈判、响应变化 胜过 循序计划。...三、逆向工程 软件复用: 早期是代码的复用,减少软件开发和维护成本。现在指 领域知识、开发经验、设计决定、体系结构、需求、设计代码和文档等一切有关方面。...逆向工程: 分析程序,力图,最基本还原源代码。 分为四个级别: 实现级:包括程序的抽象语法树、符号表和过程的设计表示。 结构级:依赖关系,如调用、结构图、程序和数据结构。...领域级:如E-R,领域概念之间关系。 领域级最抽象,完备最低。实现级不抽象,完备性最高。 重构、设计恢复、再工程正向工程。 重构:同一抽象级别转换系统描述形式。...再工程:逆向工程基础上,修改或重构已有系统,产生新的系统版本。三个过程,逆向过程、新需求考虑和正向工程。 设计恢复:从已有的程序中抽象出有关数据设计。 正向工程:使用该信息去改变或重构现有系统。

26030

Protein science︱王舒禹团队:贝叶斯与神经网络结合预测突变对蛋白质稳定性的影响

在使用S611数据集评估时,BayeStab在直接突变上得到r = 0.73, σ = 0.99,在反向突变上得到r = 0.73, σ = 0.99,在正向-反向预测上得到r = -0.97, δ =...作者减少训练集的大小并且观察由此产生的不确定性变化,所用的测试集是Ssym。...研究发现当数据集的大小减小时,与数据固有噪声有关的随机不确定度保持不变(稳定在0.25),而与模型错误相关的认知不确定性应该会增加(从0.03升至0.13)。...四、作者介绍 王舒禹博士是东北大学控制工程副教授。在开始他的职业生涯后,他从事多个领域的工作,包括软机器人和计算生物学。他还领导了设计算法以自动化传感器数据处理的工作。...王教授2013本科毕业于华中科技大学机械工程专业。随后,他进入纽约州立大学石溪大学研究生院,在左磊教授的指导下2017年获得机械工程博士学位。毕业后,在格芯的框架小组担任工程师。

45200

声纹识别技术助力远程身份认证

1 声密保系统的处理流程 声纹识别的一些工程经验 形简意丰的语音信号 语音信号具有得天独厚的优势,形简意丰。语音表现形态简单,仅表现为一维信号,但所涵盖的信息非常丰富。...我们在这些方面进行了大量的算法和工程方面的工作,并取得了不错的效果。...我们使用了十万人级别的数据库对系统进行训练,相比小数量级的系统,性能提升十分明显,在万人的测试数据库上,EER仍可以保持在1%以下。 3总结了声纹识别发展的历史以及对应的三个重要阶段。...这种融合可以有效提高系统的识别性能,例如我们使用基于GMM-UBM和DNN-iVector的两个引擎相同的数据集上进行测试,其错误重合率仅有20%左右。...4 虚拟引擎 时变问题 人的整个发声系统随着时间的推移会产生一定的变化,这些变化直接导致了其语音信息中的声纹信息的变化,如果算法或系统不考虑这些变化,那么一段时间后,系统的识别性能将有所下降。

2.3K20

基于频域分析的实时恶意流量检测系统

通过流量的频域特征分析来提取流量的序列特征: (1)将每个包的特征序列编码为特征向量,用于减少数据的规模; (2)对编码后的特征向量分割,并进行离散傅里叶变换(DFT),用于提取流量的序列特征; (3)对上述产生的频域特征作对数变换...1显示了Whisper系统的框架。...2 三种典型流量攻击的频率特征映射到RGB空间的图谱 3.2.2 自动参数选择模块 自动参数选择模块可以对高速数据包解析模块产生的逐包特征序列进行向量编码。...准确性评估 对于Whisper检测系统,文中主要进行了精度方面的检测实验,以包级检测(Kitsune)、 流级统计聚类(FSC)、带有自编码器的流级频域特性(FAE)为基线,以TRP、FPR、AUC、EER...当AUC在0.931~0.996之间,EER在0.201之内时,Whisper可以检测到测试的所有攻击。

1.9K20

金融语音音频处理学术速递

当设计师希望最大限度地提高顶级执行者的(预期)性能时,严格的正向提交费用是最佳的。当设计师希望最大化总体(预期)性能时,最高提交费用或最低提交费用都是最佳的。...我们在Vox Celeb(标记源域)和CnCeleb(未标记目标do main)数据集上评估了所提出的方法,最佳SSDA系统在CnCeleb数据集上获得10.2%的等错误率(EER),而不使用任何说话人标签...然而,模型训练的目标与MDD评估之间存在差异,因为MDD模型的性能通常根据F1分数而不是单词错误率(WER)进行评估。...在L2-ARCTIC数据集上进行的一系列实验表明,与一些最先进的E2E MDD方法和传统的GOP方法相比,我们提出的方法可以产生相当大的性能改进。...我们在Vox Celeb(标记源域)和CnCeleb(未标记目标do main)数据集上评估了所提出的方法,最佳SSDA系统在CnCeleb数据集上获得10.2%的等错误率(EER),而不使用任何说话人标签

49120
领券