重磅福利!腾讯 AI Lab 开源大规模高质量中文词向量数据,800 万中文词随你用!

今日,腾讯 AI Lab 宣布开源大规模、高质量的中文词向量数据。该数据包含 800 多万中文词汇,相比现有的公开数据,在覆盖率、新鲜度及准确性上大幅提高,为对话回复质量预测和医疗实体识别等自然语言处理方向的业务应用带来显著的效能提升。针对业界现有的中文词向量公开数据的稀缺和不足,腾讯 AI Lab 此次开源,可为中文环境下基于深度学习的自然语言处理(NLP)模型训练提供高质量的底层支持,推动学术研究和工业应用环境下中文 NLP 任务效果的提升。

数据下载地址:https://ai.tencent.com/ailab/nlp/embedding.html

近年来,深度学习技术在自然语言处理领域中得到了广泛应用。基于深度神经网络的模型已经在词性标注、命名实体识别、情感分类等诸多任务上显著超越了传统模型。用深度学习技术来处理自然语言文本,离不开文本的向量化,即把一段文本转化成一个 n 维的向量。在大量任务中,作为千变万化的文本向量化网络架构的共同底层,嵌入层(Embedding Layer)负责词汇(文本的基本单元)到向量(神经网络计算的核心对象)的转换,是自然语言通向深度神经网络的入口。大量的学界研究和业界实践证明,使用大规模高质量的词向量初始化嵌入层,可以在更少的训练代价下得到性能更优的深度学习模型。

目前,针对英语环境,工业界和学术界已发布了一些高质量的词向量数据,并得到了广泛的使用和验证。其中较为知名的有谷歌公司基于 word2vec 算法[1]、斯坦福大学基于 GloVe 算法[2]、Facebook 基于 fastText 项目[3]发布的数据等。然而,目前公开可下载的中文词向量数据[3,4]还比较少,并且数据的词汇覆盖率有所不足,特别是缺乏很多短语和网络新词。

腾讯 AI Lab 词向量的特点

腾讯 AI Lab 此次公开的中文词向量数据包含 800 多万中文词汇,其中每个词对应一个 200 维的向量。相比现有的中文词向量数据,腾讯 AI Lab 的中文词向量着重提升了以下 3 个方面,相比已有各类中文词向量大大改善了其质量和可用性:

1. 覆盖率(Coverage):

该词向量数据包含很多现有公开的词向量数据所欠缺的短语,比如“不念僧面念佛面”、“冰火两重天”、“煮酒论英雄”、“皇帝菜”、“喀拉喀什河”等。以“喀拉喀什河”为例,利用腾讯 AI Lab 词向量计算出的语义相似词如下:

墨玉河、和田河、玉龙喀什河、白玉河、喀什河、叶尔羌河、克里雅河、玛纳斯河

2. 新鲜度(Freshness):

该数据包含一些最近一两年出现的新词,如“恋与制作人”、“三生三世十里桃花”、“打 call ”、“十动然拒”、“供给侧改革”、“因吹斯汀”等。以“因吹斯汀”为例,利用腾讯 AI Lab 词向量计算出的语义相似词如下:

一颗赛艇、因吹斯听、城会玩、厉害了 word 哥、emmmmm、扎心了老铁、神吐槽、可以说是非常爆笑了

3. 准确性(Accuracy):

由于采用了更大规模的训练数据和更好的训练算法,所生成的词向量能够更好地表达词之间的语义关系,如下列相似词检索结果所示:

得益于覆盖率、新鲜度、准确性的提升,在内部评测中,腾讯 AI Lab 提供的中文词向量数据相比于现有的公开数据,在相似度和相关度指标上均达到了更高的分值。在腾讯公司内部的对话回复质量预测和医疗实体识别等业务场景中,腾讯 AI Lab 提供的中文词向量数据都带来了显著的性能提升。

腾讯 AI Lab 词向量的构建

为了生成高覆盖率、高新鲜度、高准确性的词向量数据,腾讯 AI Lab 主要从以下 3 个方面对词向量的构建过程进行了优化:

1. 语料采集:

训练词向量的语料来自腾讯新闻和天天快报的新闻语料,以及自行抓取的互联网网页和小说语料。大规模多来源语料的组合,使得所生成的词向量数据能够涵盖多种类型的词汇。而采用新闻数据和最新网页数据对新词建模,也使得词向量数据的新鲜度大为提升。

2. 词库构建:

除了引入维基百科和百度百科的部分词条之外,还实现了 Shi 等人于 2010 年提出的语义扩展算法 [5],可从海量的网页数据中自动发现新词——根据词汇模式和超文本标记模式,在发现新词的同时计算新词之间的语义相似度。

3. 训练算法:

腾讯 AI Lab 采用自研的 Directional Skip-Gram (DSG)算法 [6] 作为词向量的训练算法。DSG 算法基于广泛采用的词向量训练算法 Skip-Gram (SG),在文本窗口中词对共现关系的基础上,额外考虑了词对的相对位置,以提高词向量语义表示的准确性。

此份中文词向量数据的开源,是腾讯 AI Lab 依托公司数据源优势,对自身基础 AI 能力的一次展示,将为中文环境下基于深度学习的 NLP 模型训练提供高质量的底层支持,推动学术研究和工业应用环境下中文 NLP 任务效果的提升。

除发布此份中文词向量数据外,腾讯 AI Lab 长期以来在文本表示学习方面有着持续的投入,相关研究成果近期在 ACL、EMNLP、IJCAI 等自然语言处理及人工智能顶级会议上发表[7,8,9,10],并被应用于多个落地场景。未来,腾讯 AI Lab 将着眼于常规文本与社交媒体文本两种不同的文本类型,继续探索词汇、词组/实体、句子/消息、篇章/对话等各粒度文本对象的语义建模和理解,为自然语言处理领域的重要应用提供基础支持。

参考文献

[1] Tomas Mikolov, Ilya Sutskever, Kai Chen, Gregory S. Corrado, and Jeffrey Dean:Distributed Representations of Words and Phrases and their Compositionality. NIPS 2013.

[2] Jeffrey Pennington, Richard Socher, and Christopher D. Manning. GloVe: Global Vectors for Word Representation. EMNLP 2014.

[3] P. Bojanowski, E. Grave, A. Joulin, T. Mikolov, Enriching Word Vectors with Subword Information. TACL 2017 (5).

[4] Shen Li, Zhe Zhao, Renfen Hu, Wensi Li, Tao Liu, Xiaoyong Du. Analogical Reasoning on Chinese Morphological and Semantic Relations. ACL 2018.

[5] Shuming Shi, Huibin Zhang, Xiaojie Yuan, and Ji-Rong Wen. Corpus-based Semantic Class Mining: Distributional vs. Pattern-Based Approaches. COLING 2010.

[6] Yan Song, Shuming Shi, Jing Li, and Haisong Zhang. Directional Skip-Gram: Explicitly Distinguishing Left and Right Context for Word Embeddings. NAACL 2018.

[7] Jialong Han, Yan Song, Wayne Xin Zhao, Shuming Shi, and Haisong Zhang. hyperdoc2vec: Distributed Representations of Hypertext Documents. ACL 2018.

[8] Jichuan Zeng, Jing Li, Yan Song, Cuiyun Gao, Michael R. Lyu, and Irwin King. Topic Memory Networks for Short Text Classification. EMNLP 2018.

[9] Yan Song and Shuming Shi. Complementary Learning of Word Embeddings. IJCAI 2018.

[10] Yan Song, Shuming Shi, and Jing Li. Joint Learning Embeddings for Chinese Words and their Components via Ladder Structured Networks. IJCAI 2018.

原文发布于微信公众号 - 进击的Coder(FightingCoder)

原文发表时间:2018-10-19

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏数据派THU

资源 | 25个深度学习开源数据集,have fun !

30450
来自专栏PPV课数据科学社区

500款各领域机器学习数据集,总有一个是你要找的

金融 美国劳工部统计局官方发布数据:http://dataju.cn/Dataju/web/datasetInstanceDetail/139 沪深股票除权除息...

3K110
来自专栏华章科技

500款各领域机器学习数据集,总有一个是你要找的

美国劳工部统计局官方发布数据:http://dataju.cn/Dataju/web/datasetInstanceDetail/139

32210
来自专栏AI研习社

数据分析秘籍在这里:Kaggle 六大比赛最全面解析(上)

AI 研习社按,Kaggle 上有各式各样的数据挖掘类比赛,很多参赛者也乐于分享自己的经验,从他人的经验中进行总结归纳,对自己的实践也非常重要。

19230
来自专栏量化投资与机器学习

【Matlab量化投资】基于神经网络的利率债16国开10收益率预测模型

以往大家接触的量化投资与机器学习在股票和期货上运用的较多,然而大家却忽略了一个重要的金融市场,那就是债券市场。今天小编就告诉大家机器学习在债券市场上的运用。在机...

34090
来自专栏企鹅号快讯

Github 本周最热的 10 款“机器学习”开源项目

这是 PaperDaily 的第27篇文章 Kubeflow #用于 Kubernetes 的机器学习工具库 Kubeflow 是由 Google 发布的机器学...

48890
来自专栏深度学习入门与实践

【机器学习Machine Learning】资料大全

  昨天总结了深度学习的资料,今天把机器学习的资料也总结一下(友情提示:有些网站需要"科学上网"^_^)   推荐几本好书: 1.Pattern Recogni...

79850
来自专栏小樱的经验随笔

【资料分享】500篇干货解读人工智能新时代

500篇干货解读人工智能新时代 本文主要目的是为了分享一些机器学习以及深度学习的资料供大家参考学习,整理了大约500份国内外优秀的材料文章,打破一些学习人工智能...

54140
来自专栏WeaponZhi

机器学习股票价格预测从爬虫到预测-预测与调参

上篇文章我们进行了黄金行情数据爬取,并对黄金数据进行了一波花式分析,这篇文章我们将用我们之前的文章所用过的策略进行黄金价格的分析,并通过分析,优化我们的代码,提...

19460
来自专栏量子位

高清变脸更快更逼真!比GAN更具潜力的可逆生成模型来了 | OpenAI论文+代码

18210

扫码关注云+社区

领取腾讯云代金券