今天,清华大学人工智能研究院听觉智能研究中心成立了。
听觉和语音一直是AI领域研究和应用的重点,中国科学院院士、清华大学人工智能研究院院长张钹认为,在后深度学习时代,听觉智能应该成为AI领域重要的分支。
清华大学郑方教授担任研究中心主任,他在现场介绍,听觉智能研究中心集中于三个目标:
1、揭示人类听觉的感知和认知机制; 2、建立听觉智能的计算理论与方法; 3、提出计算机感知与声音理解的技术和算法。
聚焦于可解释性 、鲁棒性、安全+智能三个问题,研究中心的研发方向包括:
1、声学场景的感知与理解; 2、语音中内容、声纹、情感等多元属性信息的识别与理解,不仅要识别说了什么,还要根据声纹识别出声音的主人,说话者的情绪; 3、听觉计算的鲁棒性,保证相关应用稳定; 4、人机语音智能交互,和机器说人话,智能音箱就是这方面离我们最近的应用。
研究中心将以核心技术为基础,产出产品和服务、形成知识产权、参与标准制定。
另外,研究中心还会进行多学科的交叉,与包括剑桥大学、佐治亚理工学院、中国人民大学、天津大学、新疆大学等在内的国内外多所高校进行合作;与微软、得意音通、联动优势、浦发银行、广电运通金融等企业进行校企合作。
中国科学院院士、清华大学人工智能研究院院长张钹介绍,听觉本来不是AI独立的领域,在AI兴起之前也有很长的历史,在人机交互、感知等方面和AI有很大交集。
进入深度学习时代后,深度学习完全改变了听觉处理的现状,使其真正走向实用,有商业产品,这归功于统计学习、深度学习。
现在,我们进入后深度学习时代,语音处理等领域面临同样的问题:用深度学习建造的AI系统包括听觉系统都非常脆弱,容易受攻击,容易出错,在语音识别方面也非常明显,在安静条件下可以达到很高识别率,在有干扰的情况下就遇到了很大问题。
清华大学解决了声纹处理的鲁棒性问题,但是随着攻击方式变化,如果用概率统计方法来做,漏洞依然存在。
因此,在后深度学习时代,听觉智能应该成为AI领域重要的分支。
听觉智能研究中心需要建立一个可解释的AI方法为核心,与产业融合,与其他学科融合,突破AI发展中的很多问题。
另外,在AI教育方面,张钹院士认为,AI本科培养主要还是靠计算机专业,AI是计算机科学技术的分支。需要重点加强的是研究生、高端人才的培养。另外,中低端AI人才也需要培养,但清华大学主要培养高端的AI发展骨干,希望听觉智能研究中心的成立能让AI人才培养推进一步。
— 完 —