近日在某中心西雅图总部,有幸接待了冰岛总统阁下及其代表团,成员包括冰岛政府官员、商界领袖和学者。此次会面令人倍感荣幸。
总统此次访问是该机构在数字时代通过技术整合保护冰岛语使命的一部分。本文将重点介绍冰岛在加速冰岛语数字化整合方面开展的创新工作。
自2019年起,冰岛政府资助了一项为期五年的冰岛语技术项目,已产生一系列与文本转语音、语音识别和自然语言处理相关的重要成果。这些成果包括平行数据集、发音词典、文本规范化映射、语音数据、树库、分词器、命名实体识别器和建模配方。这些工具对所有语言都具有重要应用价值,特别是那些训练机器学习模型数据相对较少的语言。
该项目采用多管齐下的策略,涵盖从基础研究到面向客户产品的各个领域。其五个核心研究方向包括:语言资源、语音识别、语音合成、机器翻译以及拼写和语法检查。
以下是由冰岛代表团提供的一些实用资源:
语音合成资源
自动语音识别资源
语言建模工具
在语言扩展和低数据自然语言处理方面,某中心近期发布了MASSIVE数据集、竞赛和研讨会,旨在推动包括冰岛语在内的51种语言的自然语言理解技术发展。
某中心翻译服务已扩展至75种语言,语音合成服务支持33种语言,均包含冰岛语。语言扩展和支持是许多服务和产品持续努力的方向。
在核心科学研究方面,持续开展跨语言迁移学习、零样本迁移学习、多语言训练数据生成、对抗广告检测、TTS系统新语言文本规范化以及机器翻译持续改进等研究。
与冰岛总统代表团会晤期间,普遍持乐观态度——相信全球开发者都能利用人工智能的最新和即将到来的进展,加速冰岛语和其他语言与各类技术的整合。
继续建设。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。