首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

专栏 | 极限元CTO温正棋谈语音质检方案:从关键词检索到情感识别

机器之心专栏 作者:温正棋 极限元智能科技 本文作者温正棋为极限元智能科技 CTO 、中国科学院自动化研究所副研究员,毕业于中国科学院自动化研究所,先后在日本和歌山大学和美国佐治亚理工学院进行交流学习,在国际会议和期刊上发表论文十余篇,获得多项关于语音及音频领域的专利。其「具有个性化自适应能力的高性能语音处理技术及应用」获得北京科学技术奖。在语音的合成、识别、说话人识别等领域都有着多年深入研究经验,并结合深度学习技术开发了多款语音应用产品。 为了提高客户满意度、完善客户服务,同时对客服人员工作的考评,很多企

012

简单的语音分类任务入门(需要些深度学习基础)

上次公众号刚刚讲过使用 python 播放音频与录音的方法,接下来我将介绍一下简单的语音分类处理流程。简单主要是指,第一:数据量比较小,主要是考虑到数据量大,花费的时间太长。作为演示,我只选取了六个单词作为分类目标,大约 350M 的音频。实际上,整个数据集包含 30 个单词的分类目标,大约 2GB 的音频。第二 :使用的神经网络比较简单,主要是因为分类目标只有 6 个。如果读者有兴趣的话,可以使用更加复杂的神经网络,这样就可以处理更加复杂的分类任务。第三:为了计算机能够更快地处理数据,我并没有选择直接把原始数据‘’喂“给神经网络,而是借助于提取 mfcc 系数的方法,只保留音频的关键信息,减小了运算量,却没有牺牲太大的准确性。

02

Nature neuroscience:利用encoder-decoder模型实现皮层活动到文本的机器翻译

距离首次从人脑中解码语言至今已有十年之久,但解码语言的准确性和速度仍然远远低于自然语言。本研究展示了一种通过解码皮层脑电获得高准确率、高自然程度语言的方法。根据机器翻译的最新进展,我们训练了一个递归神经网络,将每个句子长度下诱发的神经活动序列编码为一个抽象的表达,然后逐字逐句地将这个抽象表达解码成一个英语句子。对每个参与者来说,数据包括一系列句子(由30-50个句子多次重复而来)以及约250个置于大脑皮层的电极记录到的同步信号。对这些句子的解码正确率最高可以达到97%。最后,本研究利用迁移学习的方法改进对有限数据的解码,即利用多名参与者的数据训练特定的网络层。本研究发表在Nature neuroscience杂志。

01

Wolfram 技术帮您通过咳嗽音来预测诊断新冠病毒

声音分类可能是一项艰巨的任务,尤其是当声音样本的变化很小而人耳无法察觉时。机器的使用以及最近的机器学习模型已被证明是解决声音分类问题的有效方法。这些应用程序可以帮助改善诊断,并已成为心脏病学和肺病学等领域的研究主题。卷积神经网络识别COVID-19咳嗽的最新创新以及使用咳嗽记录来检测无症状COVID-19感染的MIT AI模型(https://news.mit.edu/2020/covid-19-cough-cellphone-detection-1029)显示出仅凭咳嗽声就可识别COVID-19患者的一些令人鼓舞的结果。综观这些参考资料,这项任务可能看起来颇具挑战性,就像只有顶尖研究人员才能完成的任务一样。在本文中,我们将讨论如何使用Wolfram语言中的机器学习和音频功能获得这非常有希望的结果。

03
领券