2017论文回顾 | Yann LeCun:中英日韩语文本分类通用编码机制(附论文下载)

大数据文摘作品

作者:龙牧雪

今天的头条文章是Nature关于“论文零引用”的研究。2017年,各路AI会议颇多、论文频出,有哪些论文值得关注?它们给这个世界带来了什么样的影响?我们希望这个小栏目的存在,能让论文重新“发声”,得到更多关注。

如果你也有印象深刻的论文,本栏目欢迎你带着对论文的解读投稿,也希望更多论文作者主动联系我们。联系邮箱:zz@bigdatadigest.cn

今年8月,纽约大学教授、Facebook人工智能实验室主任Yann LeCun及其博士生Xiang Zhang在Arxiv上发表了论文“何种编码机制最适合中文、英语、日语、韩语的文本分类?”

他们首次对37种现有编码方法进行了系统性研究,使用到14个多语言数据库(共473个模型),数据集来自中国在线餐饮评论网站dianping.com,日本在线购物网站rakuten.co.jp,韩国在线购物网站11st.co.kr和“纽约时报”等网站,样本量超过1000万。

最终,性能最佳的是字符级5-gram fastText模型。fastText是Facebook AI实验室开发的一种开源方法。

他们的研究让多语言文本处理更加高效,对中文、日语和韩语的文本处理也在提醒我们AI研究的全球性。

他们也将开源他们的代码,代码地址:

https://github.com/zhangxiangxiao/glyph

论文第一作者Xiang Zhang的个人主页:

http://xzh.me/

信息来源:Twitter, Medium

论文地址:

https://arxiv.org/abs/1708.02657

原文发布于微信公众号 - 大数据文摘(BigDataDigest)

原文发表时间:2017-12-27

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

AI编曲震撼人心,RNN生成流行音乐(视频)

【新智元导读】AI 和音乐的结合已经成为一个新兴的行业,AI 编曲的《Free Break》风靡一时,它的成功,在于“AI+HI”的合作。 由 AI 编曲的《F...

3965
来自专栏腾讯研究院的专栏

何为实在

image.png 推荐语: 霍金的《大设计》(The Grand Design)与其说是本科普读物,莫如说是相关“实在与终极”的著作。过去几千年间,...

2395
来自专栏AI科技评论

动态 | 2018 NAACL语言学习建模竞赛:英语组冠军先声教育展望自适应学习技术

2018 NAACL语言学习建模竞赛对自适应学习技术的进步有巨大意义,AI 科技评论特邀秦龙博士,与他交流了大赛中的自适应领域最新研究成果。

922
来自专栏AI科技大本营的专栏

四个月就能学成机器学习?我们认真准备了一下该怎样做到

柯洁被AlphaGo虐哭的场景,想必大家历历在目: ? 输到没脾气的柯洁,承认人类在计算力和认知上确实有极限,他是这样说的:“我不会再跟它去下棋了,真的是太残酷...

39012
来自专栏大数据文摘

什么,这些人你还不认识?!一文带你有姿势地侃深度学习大佬

1362
来自专栏PPV课数据科学社区

【工具】R语言学习参考图书不完全指南

这里大部分都是英文的书。国内对于R的书籍的翻译中文几乎可以忽略的说。 1.入门级读物 R的帮助文档中提供了一些入门的读物,比如《Anintroduction t...

2273
来自专栏机器之心

观点 | Yoav与LeCun深度学习之争后续:谷歌VP Fernando Pereira谈NLP研究「三幕剧」

选自EarningMyTurns 机器之心编译 参与:机器之心编辑部 近日,著名学者 Yoav Goldberg 发布的一篇批评蒙特利尔大学新论文《Advers...

2106
来自专栏大数据文摘

用机器学习的经验指导人生:如何实现学习效率最大化

1103
来自专栏新智元

AI创作了史上第一部小说,读完之后我懵了

去年,一位小说家进行了一次横穿美国的公路旅行。这次旅行是为了效仿Jack Kerouac——在旅途中寻找一些重要的东西,并写下了自己的经历。

763
来自专栏专知

走近Hinton:AI教父传奇人生

【导读】Geoffrey Hinton花费了30年的时间默默无闻,直到2012年,他证明了其研究的价值,并驳回了大多数其他科学家所谓的正确观点。如今,这个被称为...

3826

扫码关注云+社区