前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >2021年CCF-腾讯犀牛鸟基金课题介绍(三)——知识图谱与自然语言处理&语音信号处理与语音合成

2021年CCF-腾讯犀牛鸟基金课题介绍(三)——知识图谱与自然语言处理&语音信号处理与语音合成

作者头像
腾讯高校合作
发布2021-06-08 18:40:07
5250
发布2021-06-08 18:40:07
举报
文章被收录于专栏:腾讯高校合作

腾讯公司和中国计算机学会于2013年共同发起的CCF-腾讯犀牛鸟基金(以下简称犀牛鸟基金),始终致力于支持海内外青年学者开展前沿学术研究与技术实践。犀牛鸟基金通过提供企业真实问题与业务实际需求,搭建产学研合作及学术交流的平台,推动合作双方学术影响力的提升及研究成果的应用落地,促进自主技术的创新与发展。

本年度犀牛鸟基金共设立10个科研方向共33项研究课题

申报截止时间为2021年6月15日24:00(北京时间)

申报链接:

https://www.withzz.com/project/detail/129(请在PC端登录)

我们将分五期对研究课题进行详细介绍

本文将介绍知识图谱与自然语言处理&语音信号处理与语音合成课题

欢迎海内外优秀青年学者关注并申报

4.知识图谱与自然语言处理

4.1 预训练语言模型研究

预训练语言模型是近些年自然语言处理领域最重要的创新工作之一。预训练语言模型是采用自监督学习从大规模无监督文本中学习建模文本的有效方式,能够极大地提升模型在下游任务(如文本分类、序列标注、自动问答、对话系统等)的文本理解能力。然而,预训练语言模型的深度文本理解能力相比于人类仍然有较大差距。一方面,语音、图像、视频等多模态信息对于理解文本,尤其是文本中的常识信息具有重要意义;另一方面,可控性、可解释性对于文本理解应用于实际场景十分重要,现有预训练语言模型对这两方面的研究仍处于初步探索阶段。

建议研究方向:

  • 预训练语言模型的多模态训练;
  • 预训练语言模型的可控性;
  • 预训练语言模型的可解释性。

4.2 机器翻译

本课题旨在开展基础及应用研究,提升商用机器翻译系统的效果。本命题的主要研究方向是如何缓解真实系统中常见的错翻、漏翻等核心的忠实度问题,同时探索如何更充分地利用当前海量的双语(数亿句对)和单语(百亿句子)数据。

建议研究方向:

  • 基于大规模(含噪声、多领域)语料上的模型学习;
  • 探索针对机器翻译的预训练,以更好利用单语数据;
  • 探索新型网络结构和训练框架;
  • 改善实体翻译及低频词翻译问题。

4.3 医疗机器学习与自然语言理解

医疗自然语言处理面临患者口述口语化、标注难度大、临床电子病历结构化等难题,我们希望通过医疗医保领域的机器学习与自然语言理解技术,来提升机器学习模型在智慧医疗及医保领域产品中的表现。

建议研究方向:

  • 医疗医保智能问答:包括文本匹配、答案生成、问题生成、对话系统、阅读理解、摘要生成、标签树扩展与构建等;
  • 医疗医保NLP基础能力:包括医疗实体识别、链接、医疗语言模型、知识蒸馏、文本分类、序列标注、同义词挖掘等。

4.4 常识知识理解与表达以及对话理解

本命题的主要研究方向是如何结合符号和向量进行对话的精确表达,同时探索如何更充分地利用当前海量数据进行对话领域的预训练,从而提升对话理解和建模的效果。

建议研究方向:

  • 常识知识的提取表达:常识作为一种特殊的知识,跟已有的知识图谱中实体知识有很大不同,因为常识在句子中的理解和使用往往是隐含的。常识知识应该如何提取表达,如何让模型更好的具备常识理解推理的能力,以及如何评估模型常识理解推理能力的准确率和召回率是本方向期待研究的内容;
  • 结合符号化和向量化的对话表示:防止对话中出现答非所问的问题,并且提高对话模型的可解释性;
  • 结合符号化理解的成果进行对话领域的预训练模型:如何充分考虑对话领域的语言特点(省略、指代),结合符号化理解的成果进行对话领域的预训练模型,提升对话建模的整体质量。

5. 语音信号处理与语音合成

5.1 海量复杂短视频与直播场景的鲁棒声纹检测

探索如何从海量UGC,PGC音视频数据中检测出指定的已注册说话人,实现基于声纹的稀疏查找和时间戳定位。短视频与直播场景复杂,目标语音会受到背景音乐、各类噪声、混响和编解码的影响,加之目标语音片段时长可能很短,如何准确检测声纹是一个极具挑战的问题。另外,短视频和直播数据中也可能存在主动对抗,如变速,变声、伪造等,进一步增加了声纹检测的难度和挑战。

建议研究方向:

  • 基于Vocoder的音频前处理方法,降低信道失配、噪声、对抗对检测性能的影响;
  • 端到端声纹检测与识别方法,提升系统的检测性能;
  • 训练数据的仿真与生成,扩充声纹检测与识别系统的训练数据,提高系统的性能与泛化能力。

5.2 基于非受控环境录音数据的语音合成方法

目前大多数成功的语音合成系其训练采用的是由专业人员在录音棚录制的语音数据,这种专业录音的数据量一般有限,从而限制了合成语音的风格,韵律和音色的多样性。如何利用非受控环境的录音数据来训练或改进语音合成系统是一个值得探索的研究方向。

建议研究方向:

  • (基于数据驱动、对抗学习等的)音质、韵律解耦方法;
  • 基于非受控环境录音数据的韵律迁移方法;
  • 基于非受控环境录音数据的高音质语音合成方法。

下期将介绍多模态融合&智能化软件工程课题

敬请期待

申报截止时间为2021年6月15日24:00(北京时间)

请扫描下方二维码或点击阅读原文了解更多项目信息

https://withzz.com/project/detail/129

如需提交申请,请在PC端打开链接进行申报。

CCF-腾讯犀牛鸟基金

期待您的加入

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-06-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 腾讯高校合作 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 4.1 预训练语言模型研究
  • 4.2 机器翻译
  • 4.3 医疗机器学习与自然语言理解
  • 4.4 常识知识理解与表达以及对话理解
  • 5.1 海量复杂短视频与直播场景的鲁棒声纹检测
  • 5.2 基于非受控环境录音数据的语音合成方法
相关产品与服务
语音合成
语音合成(Text To Speech,TTS)满足将文本转化成拟人化语音的需求,打通人机交互闭环。提供多场景、多语言的音色选择,支持 SSML 标记语言,支持自定义音量、语速等参数,让发音更专业、更符合场景需求。语音合成广泛适用于智能客服、有声阅读、新闻播报、人机交互等业务场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档