Interspeech 2023论文速览：语音识别与对话AI技术

原创

用户11764306

发布于 2026-03-24 18:16:20

某机构在Interspeech 2023会议的论文快速指南

语音识别占据主导地位，但某机构的研究还涉及数据表示、对话管理、问答系统等多个领域。

会议：Interspeech 2023

按研究主题分类的某机构Interspeech 2023论文

自动语音识别

一种用于高效ASR推理的度量驱动的Conformer层剪枝方法：Dhanush Bekal, Karthik Gopalakrishnan, Karel Mundnich, Srikanth Ronanki, Sravan Bodapati, Katrin Kirchhoff
Conmer：用于交互式语音助手的无自注意力流式Conformer：Martin Radfar, Paulina Lyskawa, Brandon Trujillo, Yi Xie, Kai Zhen, Jahn Heymann, Denis Filimonov, Grant Strimel, Nathan Susanj, Athanasios Mouchtaris
DCTX-Conformer：用于低延迟统一流式和非流式Conformer的动态上下文延续：Goeric Huybrechts, Srikanth Ronanki, Xilai Li, Hadis Nosrati, Sravan Bodapati, Katrin Kirchhoff
用于判别性语音识别重评分的蒸馏策略：Prashanth Gurunath Shivakumar, Jari Kolehmainen, Yi Gu, Ankur Gandhe, Ariya Rastrow, Ivan Bulyko
使用合成音频有效训练基于注意力的上下文偏置适配器以实现个性化ASR：Burin Naowarat, Philip Harding, Pasquale D'Alterio, Sibo Tong, Bashar Awwad Shiekh Hasan
人工转录质量改进：Jian Gao, Hanbo Sun, Cheng Cao, Zheng Du在“人工转录质量改进”中，研究人员使用机器学习模型来对齐和评分来自众包工作者的多个转录假设。
弱监督ASR中何时信任哪个教师的学习：Aakriti Agrawal, Milind Rao, Anit Kumar Sahu, Gopinath (Nath) Chennupati, Andreas Stolcke
用于神经 transducer ASR模型领域扩展的模型内部槽位触发偏置：Edie Lu, Philip Harding, Kanthashree Mysore Sathyendra, Sibo Tong, Xuandi Fu, Jing Liu, Feng-Ju (Claire) Chang, Simon Wiesler, Grant Strimel
用于自动语音识别的CNN前端的多视角频率注意力替代方案：Belen Alastruey Lasheras, Lukas Drude, Jahn Heymann, Simon Wiesler
多语言上下文适配器以改善低资源语言中的自定义词识别：Devang Kulshreshtha, Saket Dingliwal, Brady Houston, Sravan Bodapati“多语言上下文适配器以改善低资源语言中的自定义词识别”提出了一个三阶段流程来训练多语言上下文适配器。第一阶段训练多语言编码器；第二阶段通过冻结编码器来学习多语言上下文适配器；第三阶段在目标语言上联合优化这两个组件。
PATCorrect：用于ASR纠错的无自回归音素增强变换器：Ziji Zhang, Zhehui Wang, Raj Kamma, Sharanya Eswaran, Narayanan Sadagopan
基于BERT的判别性语音识别重评分的个性化：Jari Kolehmainen, Yi Gu, Aditya Gourav, Prashanth Gurunath Shivakumar, Ankur Gandhe, Ariya Rastrow, Ivan Bulyko
用于降低语音助手延迟的个性化预测ASR：Andreas Schwarz, Di He, Maarten Van Segbroeck, Mohammed Hethnawi, Ariya Rastrow
ASR转录本中实体分布建模的记录去重：Tianyu Huang, Chung Hoon Hong, Carl Wivagg, Kanna Shimizu
判别性语音识别重评分模型的规模法则：Yi Gu, Prashanth Gurunath Shivakumar, Jari Kolehmainen, Ankur Gandhe, Ariya Rastrow, Ivan Bulyko
使用基于trie树的上下文适配器进行神经 transducer个性化语音识别的选择性偏置：Philip Harding, Sibo Tong, Simon Wiesler
流式语音到混淆网络的语音识别：Denis Filimonov, Prabhat Pandey, Ariya Rastrow, Ankur Gandhe, Andreas Stolcke

数据表示

不要停止自监督：通过残差适配器进行语音表示的口音适应：Anshu Bhatia, Sanchit Sinha, Saket Dingliwal, Karthik Gopalakrishnan, Sravan Bodapati, Katrin Kirchhoff

对话管理

通过提示调优实现参数高效的低资源对话状态追踪：Mingyu Derek Ma, Jiun-Yu Kao, Shuyang Gao, Arpit Gupta, Di Jin, Tagyoung Chung, Violet Peng“通过提示调优实现参数高效的低资源对话状态追踪”提出了一种使用语言模型提示进行对话状态追踪的方法，为每个输入段使用一个独立的、固定长度的嵌入。

字素到音素转换

通过学习语音录音的发音来改进字素到音素转换：Sam Ribeiro, Giulia Comini, Jaime Lorenzo Trueba

关键词检测

通过知识蒸馏进行关键词检测的设备上约束自监督语音表示学习：Gene-Ping Yang, Yue Gu, Qingming Tang, Dongsu Du, Yuzong Liu

自然语言理解

用于自然语言理解的变换器的量化感知和张量压缩训练：Zi Yang, Samridhi Choudhary, Siegfried Kunzmann, Zheng Zhang
NLU模型中的采样偏差：影响与缓解：Zefei Li, Anil Ramakrishna, Anna Rumshisky, Andy Rosenbaum, Saleh Soltan, Rahul Gupta
使用未指定的抽象意义表示理解不连贯的句子：Angus Addlesee, Marco Damonte

副语言学研究

用于端到端语音情感识别的纯副语言语音表示：George Ioannides, Michael Owen, Andrew Fletcher, Viktor Rozgic, Chao Wang
用于情感检测的保持效用且保护隐私的语音嵌入：Chandrashekhar Lavania, Sanjiv Das, Xin Huang, Kyu Han

问答系统

用于有效答案句子选择的问题-上下文对齐和答案-上下文依赖关系：Minh Van Nguyen, Kishan K C, Toan Nguyen, Thien Nguyen, Ankit Chadha, Thuy Vu在“用于有效答案句子选择的问题-上下文对齐和答案-上下文依赖关系”中，研究人员提出了一种方法，使用答案候选周围的句子作为额外的上下文。给定单词序列的概率分布，该方法通过使用最优传输将概率从一个分布转移到另一个分布，来对齐问题与答案候选和上下文。

说话人日志

词汇说话人错误纠正：利用语言模型进行说话人日志错误纠正：Rohit Paturi, Sundararajan Srinivasan, Xiang Li

语音翻译

联合任务端到端语音翻译的知识蒸馏：Khandokar Md. Nayem, Ran Xue, Ching-Yun (Frannie) Chang, Akshaya Vishnu Kudlu Shanbhogue

语音合成

比较文本转语音中用于韵律和声学建模的归一化流与扩散模型：Guangyang Zhang, Tom Merritt, Sam Ribeiro, Biel Tura Vecino, Kayoko Yanagisawa, Kamil Pokora, Abdelhamid Ezzerg, Sebastian Cygert, Ammar Abbas, Piotr Bilinski, Roberto Barra-Chicote, Daniel Korzekwa, Jaime Lorenzo Trueba
用于表现力机器配音的跨语言韵律迁移：Jakub Swiatkowski, Duo Wang, Mikolaj Babianski, Patrick Tobing, Ravi chander Vipperla, Vincent Pollet
语音合成中基于扩散的口音建模：Kamil Deja, Georgi Tinchev, Marta Czarnowska, Marius Cotescu, Jasha Droppo
eCat：一种用于多说话人TTS和多对多细粒度韵律迁移的端到端模型：Ammar Abbas, Sri Karlapati, Bastian Schnell, Penny Karanasou, Marcel Granero Moya, Amith Nagaraj, Ayman Boustati, Nicole Peinelt, Alexis Moinet, Thomas Drugman
通过短语级跨语言韵律迁移实现表现力机器配音：Jakub Swiatkowski, Duo Wang, Mikolaj Babianski, Giuseppe Coccia, Patrick Tobing, Ravi chander Vipperla, Viacheslav Klimkov, Vincent Pollet“通过短语级跨语言韵律迁移实现表现力机器配音”中提出的架构依赖于一个显式建模噪声的参考编码器。
用于文本转语音的多语言基于上下文的发音学习：Giulia Comini, Sam Ribeiro, Fan Yang, Heereen Shim, Jaime Lorenzo TruebaFINISHED

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

语音合成