首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

多模态信息融合下的自然语言处理简介

几十年来的自然语言处理研究几乎都是以文本为处理对象,而文本只是语义表达的一种方式,也是不完备的。很多自然语言的语义理解需要结合语音和图像等其他模态的信息,例如英语句子中“bank”可能需要借助图像是“银行”还是“河岸”去进行理解。基于多模态的自然语言处理旨在以自然语言文本为核心,将与之相关的语音和视觉模态的信息作为辅助知识进行建模,帮助语 义的消岐和理解,从而实现性能更好的自然语言处理模型。

基于多模态信息的自然语言处理需要解决两大难题。首先,需要明确哪些自然语言处理任务需要多模态信息的帮助。其次,文本、语音和视觉模态的信息如何进行融合。特别地,还需要明确同源多模态信息和异源多模态信息是否应该具有相同的语义融合范式。由于人类是在多模态的环境下进行语言理解的,因此,基于多模态信息的自然语言处理方法必将是未来该领域研究的一个重要方向。

交互式自主学习的类脑自然语言处理

目前绝大部分自然语言处理方法几乎都是全局的和静态的,无法实时(在线)从错误和用户反馈中学习和优化过程,从而模拟人类交互学习和终身学习的智能行为。交互式自然语言处理旨在从与用户的交互过程中收集、建模和利用反馈信息,不断迭代和优化自然语言处理模型。在线方法能够被动或主动地发现错误,并根据错误实现在线学习和动态更新机制,最终建立一套自主学习框架。

基于神经网络的深度学习方法在近年来备受推崇,它在某种意义上的确模拟了人脑的认知功能。但是,这种方法只是对神经元结构和信号传递方式给出的形式化数学描述,并非基于人脑的工作机理建立起来的数学模型,它同样难以摆脱对大规模训练样本的依赖性。类脑语言信息处理旨在通过研究大脑的语言认知机理,分析认知机理与文本计算方法之间的关联,最终设计语言认知启发的自然语言处理模型。

目前人们只是在宏观上大致了解了脑区的划分及其在语言理解过程中所起的不同作用,但在介观和微观层面,语言理解的生物过程与神经元信号传递的关系,以及信号与语义、概念和物理世界之间的对应与联系等,都是未知的奥秘。如何打通宏观、介观和微观层面的联系并给出清晰的解释,将是未来急需解决的问题。从微观层面进一步研究人脑的结构,发现和揭示人脑理解语言的机理,借鉴或模拟人脑的工作机理,建立形式化的数学模型才是最 终解决自然语言理解问题的根本出路。此外,人脑的语言理解过程遵循自主学习和进化机制,而目前语言信息处理模型仍然采用一次学习终身使用的机制。因此,如何借鉴人脑的语言认知与理解机理,设计具备自主学习和进化的自然语言理解模型,是通向类人智能语言处理的必经之路。

复杂场景下的语音分离与识别

在真实场景中,麦克风接收到的语音信号可能同时包含多个说话人的声音以及噪声、混响和回声等各种干扰,人类的听觉系统可以很容易地 选择想要关注的内容,但是对于计算机系统来说 就显得十分困难,这就是所谓的“鸡尾酒会问题”(cocktailparty problem)。如何有效提升复杂信道和强干扰下的语音的音质,进一步探索复杂场景下的听觉机理,对语音声学建模和语音识别均具 有很重要的意义。

此外,重口音、口语化、小语种、多语言等复杂情况,也对语音模型的训练带来很大挑战,这种复杂性使得语音数据变得稀疏,现有的方法难以形成泛化能力很强的模型。因此,如何有效解决这些 复杂情况下的语音识别问题依然具有很高的挑战性和研究价值。

小数据个性化语音模拟

尽管目前语音合成技术在特定数据集和限定条件下能合成出逼近真人的语音,但是仍然存在一些问题,比如虽然语音合成的发音和真人类似,但发音风格比较单一,且经常需要较多的语音数据作为训练数据。在真实场景中,发音人说话比较随意和口语化,且大多数情况下只能获取很少量音质较低的训练数据,这些数据普遍缺乏标注,给真实场景下个性化语音模拟带来很多挑战。此外,由于个性化语音数据存在数据稀疏问题,阻碍了在稀疏空间下精准捕捉目标说话人的韵律特征和有效构建说话人发音表征,从而很难构建出高泛化性和高鲁棒性的语音模拟模型。因此,如何有效利用数量少且音质低的语音数据,获得高表现力个性化的模拟语音,仍然具有较大的挑战和重要的研究价值。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20210215A02BH900?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券