前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >2021腾讯犀牛鸟精英科研人才培养计划课题(六)——语音技术

2021腾讯犀牛鸟精英科研人才培养计划课题(六)——语音技术

作者头像
腾讯高校合作
发布2020-12-24 14:40:28
1.4K0
发布2020-12-24 14:40:28
举报
文章被收录于专栏:腾讯高校合作腾讯高校合作

12月11日,2021年腾讯犀牛鸟精英科研人才培养计划正式对外发布。计划截止申报时间为2021年1月28日24:00

本年度精英科研人才计划将延续人工智能领域顶尖科研人才培养,发布包含机器人、AI医疗、量子计算、智慧城市12个前沿热议方向71项研究课题。入选学生将由校企导师联合制定专属培养计划,并获得3个月以上到访腾讯开展科研访问的机会,基于真实产业问题及海量数据,验证学术理论、加速成果应用转化、开阔研究视野。同时项目组将为学生搭建线上和线下学习、交流平台,帮助学生挖掘更多潜能。

本期小编整理了该计划中“方向6:语音技术”,欢迎感兴趣的学生关注。

更多课题及方向介绍陆续推出,敬请关注。

(点击了解犀牛鸟精英科研人才培养计划申请指南

方向6

语音技术

课题6.1:带有情感的自然对话合成(地点:深圳)

研究方向为语音合成,如何合成更自然、更逼近真人的发声。包含如下几个重点方向:1、研究如何合成更接近自然对话的声音,包括韵律、重音、音质等。语气的起承转合更为自然,在句子切换的时候,语气可以自然过渡;2、研究如何合成可控制情感的声音,如高兴、悲伤、气愤、惊讶等,合成人声除了可以根据不同场景和需求合成带有情感的声音外,还可以根据需求调节情绪的程度,比如:略遗憾和非常遗憾;3、目标说话人在没有相关情绪数据情况下,可以将不同风格不同情绪迁移至目标说话人。

导师简介:

腾讯专家研究员,毕业于清华大学,自动化专业硕士,曾在微软从事合成系统研发工作。目前从事语音合成相关的工作,现负责内容为语音合成声码器、声学模型优化、语音合成系统整体Pipeline优化。

课题6.2:鲁棒声纹识别及确认模型优化(地点:深圳)

声纹识别技术是一种根据人的声音来进行身份判定的人机交互方式。该技术在智能家居、商业支付、车载、司法刑侦等方面发挥着重要作用。目前基于短语音的身份判定受到研究者的广泛关注,深度学习技术的发展大幅提升了声纹识别的效果。研究课题包括:1、基于短语音的鲁棒声纹识别:通过网络结构设计、损失函数设计、Metric learning等进一步提升短语音声纹识别的精度及鲁棒性;2、说话人日志:基于Pipe形式或者端到端的框架,重点研究对于未知说话人数目或者包含Overlap语音的说话人分割问题;3、声纹反欺诈的识别:研发有效的算法判别欺诈语音,如录音重放、语音合成、语音模仿等。

导师简介:

腾讯专家研究员,博士毕业于西北工业大学,研究兴趣包括声纹识别和机器学习。在Interspeech、ICASSP、ASRU、SLT、CSL、TASLP等会议和期刊发表论文约20篇。目前主要负责声纹识别方面的工作。

课题6.3:神经网络结构搜索在语音识别方向的探索(地点:北京)

神经网络结构搜索(NAS,Neural Architecture Search)是当前学术界的技术热点,在计算机视觉领域的多个公开数据集上,NAS搜索得到的神经网络结构已经超越了传统的由人工设计得到的神经网络结构。在语音识别(ASR)方向,NAS技术的应用和探索正在吸引更多的注意力,期望能够在ASR方向带来同样的技术革新。联合培养期间,跟进最新的NAS技术热点,探索NAS技术在ASR方向的应用。主要的研究方向:NAS技术热点探索;NAS搜索算法的优化(模型的复杂度和性能)。

导师简介:

腾讯专家研究员,研究领域为语音识别技术中神经网络结构优化,拥有语音识别相关方向十余项专利及论文。目前工作内容为语音识别技术方向,优化声学模型的神经网络结构(人工设计&自动生成),让声学模型的建模能力和泛化能力进一步增强,提升语音识别的性能(准确率&推理速度)。

课题6.4:多模态语音识别(地点:深圳/北京)

研究多模态特征包括: 音频特征,视频特征,空间位置特征,声纹特征等模态及其融合。大规模数据下的多模态、多通道、语音识别研究包括:1、多模态特征的研究:包括-音频特征,视频特征,空间位置特征,声纹特征 等模态及其融合;2、研究解决实际场景中的模态缺失的方案;3、研究对比 混合系统和端到端系统 在大规模多模态条件下的性能;4、研究麦克风阵列无关的多通道语音识别技术。

导师简介:

腾讯专家研究员,剑桥大学博士,研究方向为语音识别。曾开发了多个Cortana声学模型并部署上线, 研发了第一个端到端的Attention的说话人模型,并部署到Windows 10中。目前致力于多模态人机交互的研究。

课题6.5:鲁棒音频识别扰动对抗算法(地点:北京)

音频识别对抗攻击可以分为两类:一类是给目标人的语音加入人耳无法明显感知的扰动,来规避识别系统的识别;另一类对抗攻击则是将非目标人或其他语音进行处理后,尽管生成的语音人耳听起来根本不像目标人,但仍可以使音频识别系统做出错误决策。由于这两种攻击方式的隐蔽性,都给当前的音频识别系统带来很大困扰。如何对这种对抗攻击进行正确识别,尤其是对未知来源攻击的有效识别,提高识别系统的鲁棒性,获得了研究者的极大关注。研发内容:1、探索不同对抗攻击方式和特点,研发对识别系统对抗攻击的检测识别能力;2、提升语音类识别系统对已知和未知说话人对抗攻击的识别鲁棒性。

导师简介:

腾讯专家研究员,博士毕业于中国科学院自动化所。目前在腾讯负责全量业务场景下多媒体内容安全理解和低资源语种算法的研发和落地,内容理解系统内外部音视频日调用量超过15亿。在各类国际语音会议和刊物中发表论文30篇以上,专利10余篇。目前感兴趣的方向与端到端ASR和OCR识别建模、低资源、低延时多媒体翻译技术等。

课题6.6:多模态下的文本或者语音分类(地点:上海)

本课题主要涉及的技术领域为文本分类。技术突破点:将文本转换为语音和图像,再基于多模态信息(文本、文本转换的语音、文本转换的图像)对文本进行分类,以取得比单一文本分类更好的效果,即指标Accuracy、Precision、Recall 和F1都能得到提升。相关数据集有AG News、DBpedia、TREC等文本分类数据集和IMDb、SST、Yelp、SemEval等情感数据集。

导师简介:

腾讯高级研究员,浙江大学博士毕业,计算机专业,主要研究内容为NLP和多模态,已获得多项中文专利和美国专利的授权,并在UbiComp、CONLING、PerCom和Plosone等国际会议和期刊上发表过多篇论文。

课题6.7:无参考/非侵入式的语音质量评估方法及模型(地点:北京/深圳)

对实时语音通信应用来说,语音在传输和处理过程中,可能受到采集端麦克风自身特性、回声和混响消除,噪声抑制等各种算法模块的影响,以及链路中网络丢包带来的额外质量损失。在实际的场景中,去实时度量和监控用户所感知到的语音质量是较强的需求。本课题主要研究在无法得知发送端原始语音信号的情况下,仅基于用户自己所接收到的单路语音信号,去衡量和预测用户所感知到的语音质量,并以平均意见得分(MOS)的形式展现。

导师简介:

腾讯专家研究员,毕业于北京大学信息科学技术学院智能科学系信号与信息处理专业,十多年的语音通信和声学技术研究经验。主要从事智能终端产品和互联网应用的语音质量、音频质量方面的测试评估方法的研究、并形成可实用的测试方案落地。在国际国内各个标准组织如国际电信联盟、中国标准化协会主导了多个测试和评估标准。

课题6.8:基于深度学习的端到端实时智慧语音通信(地点:深圳)

VoIP实时语音通信是远程视频会议、远程教育等应用领域的基础技术。然而实际应用中噪声抑制、去混响、回声抑制等3A问题需要更好的方法提升性能,同时考虑实时应用的低延时、低复杂度约束,对算法的设计提出了更好的要求。深度学习方法,在一定程度上优化了上述问题,但仍然遇到了泛化能力、性能等问题。综上所述,面向VoIP实时语音通信处理的音频算法研究意义众大,具有巨大的研究和应用价值。本课题主要结合语音信号处理和深度学习技术,研究复杂场景下的特征提取和深度神经网络模型结构,改善传输语音信号质量,在语音增强、分离等领域提升语音质量,通过去混响算法减弱会议室等环境下的混响信号干扰,另外提高回声消除在单讲及双讲条件下的抑制回声效果,并在会议场景下探索智能会议交互中的关键词识别、说话人识别等技术,以及利用少量语料进行语音转换等领域前沿的技术探索。 导师简介: 腾讯高级研究员,博士毕业于中国科学技术大学信号与信息处理专业,研究领域包括语音增强、语音分离、语种识别、语音转换、说话人识别和关键词检测等。目前主要研究深度学习技术在实时语音通信场景的探索和应用。

课题6.9:单通道语音分离算法研究(地点:北京)

本课题主要研究面向复杂声学场景的语音信号分离任务。所谓复杂声学场景,是指声学信号中除包含目标说话人的语音之外,还含有其他说话人的语音、背景音乐或其他外部噪声。研究的重点方向是基于深度学习方法的单通道语音分离技术。研究成果的衡量标准,除考察SiSNRi(dB)、SDRi(dB)、PSEQ等常用指标之外,尤其关注语音识别系统在分离后语音信号上取得的识别率表现。

导师简介:

腾讯专家研究员,毕业于中国科学院自动化研究所。具有多年在语音识别工业界的研发经验,先后在松下、微软和腾讯等公司担任语音识别团队负责人。

项目申报方式

— 科研人才培养计划 —

手机扫码进入“预申报”,可获得更多项目通知

PC端访问网址,进入“申报”

https://www.withzz.com/project/detail/99

2021年度犀牛鸟精英人才培养计划

本年度犀牛鸟精英人才培养计划包括“犀牛鸟精英科研人才培养计划”和“犀牛鸟精英工程人才培养计划”两部分。其中科研人才计划旨在为致力于前沿科学研究的学生提供更优质的创新科研平台,助力其借助产业真实场景及海量数据,将理论研究和实践结合,验证学术理论,发表论文和专利。工程人才计划旨在以产业真实项目为牵引,在校企双导师指导下,模拟产业研发场景,组建学生研发团队,通过持续深入的挑战进阶式课题目标达成,培养学生系统性思维,拓展前沿技术视野,提升团队协作水平、解决复杂问题等核心创新能力。


2021腾讯犀牛鸟精英科研人才培养计划课题了解:

课题(一&二)——机器人相关技术研究&AI医疗

课题(三&四)——自动驾驶&量子计算

课题(五)——机器学习及其相关应用研究

了解犀牛鸟精英计划更多详情:

2021腾讯“犀牛鸟精英人才培养计划”申请启动

2021腾讯“犀牛鸟精英科研人才培养计划”申报指南

2021腾讯“犀牛鸟精英科研人才培养计划”FAQ

2021腾讯“犀牛鸟精英工程人才培养计划”申报指南

2021腾讯“犀牛鸟精英科研人才培养计划”FAQ

点击“阅读原文”,进入预申报

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-12-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 腾讯高校合作 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 课题6.1:带有情感的自然对话合成(地点:深圳)
  • 课题6.2:鲁棒声纹识别及确认模型优化(地点:深圳)
  • 课题6.3:神经网络结构搜索在语音识别方向的探索(地点:北京)
  • 课题6.4:多模态语音识别(地点:深圳/北京)
  • 课题6.5:鲁棒音频识别扰动对抗算法(地点:北京)
  • 课题6.6:多模态下的文本或者语音分类(地点:上海)
  • 课题6.7:无参考/非侵入式的语音质量评估方法及模型(地点:北京/深圳)
  • 课题6.8:基于深度学习的端到端实时智慧语音通信(地点:深圳)
  • 课题6.9:单通道语音分离算法研究(地点:北京)
  • 2021腾讯“犀牛鸟精英人才培养计划”申请启动
  • 2021腾讯“犀牛鸟精英科研人才培养计划”申报指南
  • 2021腾讯“犀牛鸟精英科研人才培养计划”FAQ
  • 2021腾讯“犀牛鸟精英工程人才培养计划”申报指南
  • 2021腾讯“犀牛鸟精英科研人才培养计划”FAQ
相关产品与服务
语音识别
腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档