前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >亚马逊创建并开源数据集,用于理解不同语言中的名字

亚马逊创建并开源数据集,用于理解不同语言中的名字

作者头像
AiTechYun
发布2018-08-16 11:50:31
7490
发布2018-08-16 11:50:31
举报

编译:chux

出品:ATYUN订阅号

亚马逊已经创建并开源了一个数据集,用于训练AI模型以识别不同语言和脚本类型的名称,因此Alexa可以例如在英语发音者发音时理解日本艺术家或人的名字,反之亦然。

这被称为音译多语言命名实体音译系统,用于识别不同语言名称的工具基于在亚马逊从维基数据制作数据集之后创建的AI模型,用于填充维基百科的内容。总之,该数据集包含近400000个阿拉伯语,英语,希伯来语,日语片假名和俄语等语言的名称。

研究结果已发表在Arxiv上,将于本月晚些时候在新墨西哥州圣达菲举行的国际计算语言学会议上分享。

亚马逊AI在识别名称方面的表现因语言对而异。例如,根据亚马逊博客文章,英语到俄语比希伯来语更容易理解,因为虽然它们不同,但英语和俄语的字母表比英语更像希伯来语。

在亚马逊宣布计划将Echo智能扬声器带到墨西哥的同时,亚马逊的语言理解也在受到欢迎,这是第一个讲西班牙语的拉丁美洲Echo扬声器。Alexa Skills Kit和Alexa Voice Service今天也宣布将Alexa带入墨西哥的第三方设备。

随着智能扬声器销售和AI助手采用的竞争在国际市场上升温,它突出了每个AI助手的缺点。虽然Alexa目前使用六种语言,但Siri超过20种,而谷歌今年早些时候表示计划在今年年底之前提供超过30种语言。

为了提高Alexa对新语言的理解,去年亚马逊工程师创建并游戏化了Cleo,这是一种Alexa技能,用于收集来自世界各国的语音样本。

论文:arxiv.org/pdf/1808.02563.pdf

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-08-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 ATYUN订阅号 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档