专栏首页大数据文摘2017论文回顾 | Yann LeCun:中英日韩语文本分类通用编码机制(附论文下载)

2017论文回顾 | Yann LeCun:中英日韩语文本分类通用编码机制(附论文下载)

大数据文摘作品

作者:龙牧雪

今天的头条文章是Nature关于“论文零引用”的研究。2017年,各路AI会议颇多、论文频出,有哪些论文值得关注?它们给这个世界带来了什么样的影响?我们希望这个小栏目的存在,能让论文重新“发声”,得到更多关注。

如果你也有印象深刻的论文,本栏目欢迎你带着对论文的解读投稿,也希望更多论文作者主动联系我们。联系邮箱:zz@bigdatadigest.cn

今年8月,纽约大学教授、Facebook人工智能实验室主任Yann LeCun及其博士生Xiang Zhang在Arxiv上发表了论文“何种编码机制最适合中文、英语、日语、韩语的文本分类?”

他们首次对37种现有编码方法进行了系统性研究,使用到14个多语言数据库(共473个模型),数据集来自中国在线餐饮评论网站dianping.com,日本在线购物网站rakuten.co.jp,韩国在线购物网站11st.co.kr和“纽约时报”等网站,样本量超过1000万。

最终,性能最佳的是字符级5-gram fastText模型。fastText是Facebook AI实验室开发的一种开源方法。

他们的研究让多语言文本处理更加高效,对中文、日语和韩语的文本处理也在提醒我们AI研究的全球性。

他们也将开源他们的代码,代码地址:

https://github.com/zhangxiangxiao/glyph

论文第一作者Xiang Zhang的个人主页:

http://xzh.me/

信息来源:Twitter, Medium

论文地址:

https://arxiv.org/abs/1708.02657

本文分享自微信公众号 - 大数据文摘(BigDataDigest)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-12-27

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • NeurIPS 2018 开幕重磅:四篇最佳论文正式揭晓,论文接受全方位数据公开

    开幕式上公布了4篇最佳论文,其中一篇最佳论文一作来自华为诺亚方舟实验室,另外几篇最佳论文被来自多伦多、谷歌AI的研究者包揽。

    大数据文摘
  • NeurIPS评审规则5大变革:增设“预审拒绝”,研究需论述社会影响

    昨天,NeurIPS团队在medium专栏发布公告,宣布了2020会议投稿和评审的几项重要变化。

    大数据文摘
  • 400多篇论文被曝造假,集中在中国山东,数十家医院涉事,“论文作坊”真面初现?

    400篇医学论文,实验图片高度相似,这是医学界近年来被爆出的最大规模学术造假事件,而这些论文集中在中国山东地区。

    大数据文摘
  • 坏论文都写不满8页?这位顶会主席训练了一个好坏论文“颜值”分类器

    最近几年,研究者往计算机视觉领域的顶会投的论文越来越多。下图就能明显看出这一趋势,尤其是从2016年开始,论文提交的数量成指数型增长。如此激烈的竞争也让很多研究...

    刀刀老高
  • 如何高效读论文?剑桥CS教授亲授“三遍论”:论文最多读三遍,有的放矢,步步深入

    一方面,把握最前沿的研究动态,激发自身研究灵感。另一方面,不做好文献调研,自己的绝妙想法变成了重复造轮子,这种体验可不太妙。

    量子位
  • 凭“颜值”拒稿,误判率仅0.4%?这篇计算机视觉论文让AI学界炸了锅

    不少人哈哈哈哈怀疑作者在搞笑,当然也有很多人严肃读论文,辩论数据、结论的不合理之处。甚至有人说,研究揭示了论文评审中本就存在的人类偏见。

    小小詹同学
  • Reddit热议: 如何读论文才不至于发疯?

    Google Scholar的海洋如此深邃,一旦沉入其中,往往感到要阅读的东西如此之多,穷尽一生可能也读不完,很多人因而焦虑不已。

    新智元
  • 读论文的正确姿势是什么?

    但是有没有发现当你费劲巴拉的读到最后,发现所读的论文并不是你想要的。显然,这种不错过每一张表格,不错过每一个数字和每一个公式的“害怕错过”式阅读法并不是最有效的...

    AI科技评论
  • 历年 CVPR 最佳论文盘点(2000 年——2018 年)

    作为计算机视觉领域的顶级学术会议,CVPR 2019 近期公布了最终论文接收结果,引来学界密切关注。据悉,CVPR 2019 今年一共获得 5165 篇有效提交...

    朱晓霞
  • 阿里达摩院员工业余打造“论文知识图谱”工具:极速搜索,完全可视化

    最近,Reddit上的一位网友便分享了这样一款论文可视化工具—— Connected Papers,8小时就收获260赞。

    量子位

扫码关注云+社区

领取腾讯云代金券