800万中文词,腾讯AI Lab开源大规模NLP数据集

源 | AI科技大本营

10 月19 日,腾讯 AI Lab 宣布开源大规模、高质量的中文词向量数据。该数据包含 800 多万中文词汇。

腾讯 AI Lab 表示,相比现有的公开数据,该数据在覆盖率、新鲜度及准确性上大幅提高,为对话回复质量预测和医疗实体识别等自然语言处理方向的业务应用带来显著的效能提升。

▌腾讯 AI Lab 词向量的特点

腾讯 AI Lab 此次公开的中文词向量数据包含 800 多万中文词汇,其中每个词对应一个 200 维的向量。相比现有的中文词向量数据,腾讯 AI Lab 的中文词向量着重提升了以下 3 个方面:

覆盖率(Coverage):

该词向量数据包含很多现有公开的词向量数据所欠缺的短语,比如“不念僧面念佛面”、“冰火两重天”、“煮酒论英雄”、“皇帝菜”、“喀拉喀什河”等。以“喀拉喀什河”为例,利用腾讯AI Lab词向量计算出的语义相似词如下:

墨玉河、和田河、玉龙喀什河、白玉河、喀什河、叶尔羌河、克里雅河、玛纳斯河

新鲜度(Freshness):

该数据包含一些最近一两年出现的新词,如“恋与制作人”、“三生三世十里桃花”、“打call”、“十动然拒”、“供给侧改革”、“因吹斯汀”等。以“因吹斯汀”为例,利用腾讯 AI Lab 词向量计算出的语义相似词如下:

一颗赛艇、因吹斯听、城会玩、厉害了word哥、emmmmm、扎心了老铁、神吐槽、可以说是非常爆笑了

准确性(Accuracy):

由于采用了更大规模的训练数据和更好的训练算法,所生成的词向量能够更好地表达词之间的语义关系,如下列相似词检索结果所示:

输入

刘德华

兴高采烈

狂奔

自然语言处理

相似词

刘天王

兴高彩烈

飞奔

自然语言理解

周润发

兴冲冲

一路狂奔

计算机视觉

华仔

欢天喜地

奔跑

自然语言处理技术

梁朝伟

兴致勃勃

狂跑

深度学习

张学友

眉飞色舞

疾驰

机器学习

古天乐

得意洋洋

飞驰

图像识别

张家辉

喜笑颜开

疾奔

语义理解

张国荣

欢呼雀跃

奔去

语音识别

得益于覆盖率、新鲜度、准确性的提升,在内部评测中,腾讯AI Lab提供的中文词向量数据相比于现有的公开数据,在相似度和相关度指标上均达到了更高的分值。

▌腾讯 AI Lab 词向量的构建

为了生成高覆盖率、高新鲜度、高准确性的词向量数据,腾讯 AI Lab 主要从以下 3 个方面对词向量的构建过程进行了优化:

语料采集:

训练词向量的语料来自腾讯新闻和天天快报的新闻语料,以及自行抓取的互联网网页和小说语料。大规模多来源语料的组合,使得所生成的词向量数据能够涵盖多种类型的词汇。而采用新闻数据和最新网页数据对新词建模,也使得词向量数据的新鲜度大为提升。

词库构建:

除了引入维基百科和百度百科的部分词条之外,还实现了 Shi 等人于 2010 年提出的语义扩展算法 [5],可从海量的网页数据中自动发现新词——根据词汇模式和超文本标记模式,在发现新词的同时计算新词之间的语义相似度。

训练算法:

腾讯 AI Lab 采用自研的 Directional Skip-Gram (DSG)算法 [6] 作为词向量的训练算法。DSG 算法基于广泛采用的词向量训练算法 Skip-Gram (SG),在文本窗口中词对共现关系的基础上,额外考虑了词对的相对位置,以提高词向量语义表示的准确性。

▌中文 NLP 数据集的意义

近年来,深度学习技术在自然语言处理领域中得到了广泛应用。基于深度神经网络的模型已经在词性标注、命名实体识别、情感分类等诸多任务上显著超越了传统模型。用深度学习技术来处理自然语言文本,离不开文本的向量化,即把一段文本转化成一个n维的向量。在大量任务中,作为千变万化的文本向量化网络架构的共同底层,嵌入层(Embedding Layer)负责词汇(文本的基本单元)到向量(神经网络计算的核心对象)的转换,是自然语言通向深度神经网络的入口。大量的学界研究和业界实践证明,使用大规模高质量的词向量初始化嵌入层,可以在更少的训练代价下得到性能更优的深度学习模型。

目前,针对英语环境,工业界和学术界已发布了一些高质量的词向量数据,并得到了广泛的使用和验证。其中较为知名的有谷歌公司基于word2vec算法[1]、斯坦福大学基于GloVe算法[2]、Facebook基于fastText项目[3]发布的数据等。

然而,目前公开可下载的中文词向量数据[3,4]还比较少,并且数据的词汇覆盖率有所不足,特别是缺乏很多短语和网络新词。因此,腾讯 AI Lab 开源中文词向量数据对中文 NLP 的研究者来说,绝对算得上是一个利好消息。

最后,送上传送门:

https://ai.tencent.com/ailab/nlp/embedding.html


原文发布于微信公众号 - 机器学习算法与Python学习(guodongwei1991)

原文发表时间:2018-10-20

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏数据科学与人工智能

【数据挖掘】机器学习与数据挖掘的学习路线图1

应部分朋友要求,特奉上“机器学习与数据挖掘的学习路线图”,供有兴趣的读者研究。 说起机器学习和数据挖掘,当然两者并不完全等同。如果想简单的理清二者的关系,不妨这...

2539
来自专栏PPV课数据科学社区

500款各领域机器学习数据集,总有一个是你要找的

金融 美国劳工部统计局官方发布数据:http://dataju.cn/Dataju/web/datasetInstanceDetail/139 沪深股票除权除息...

2.8K11
来自专栏新智元

深度学习辅助北京大学第一医院读片,前列腺癌诊断准确率超过90%

【新智元导读】北京大学第一医院前列腺癌MR资料库训练的智能辅助诊断系统,运用了人工神经网络的技术,从 MR 图像数据中挖掘出有用信息,让计算机可以从中“学到”肿...

3525
来自专栏灯塔大数据

塔荐 | 人工智能工程师的三个层次

导 读 Google Tensorflow框架的Contributor。在计算机视觉领域有深厚的工业经验,带领团队开发的“花伴侣”植物识别App,上线数月即在0...

3403
来自专栏新智元

解密 NIPS2016 论文评议内幕(附 DeepMind 8 篇论文下载)

【新智元导读】备受推崇的顶级会议NIPS预计12月举行,但从4月起议论就没有停,尤其是围绕论文。今天,组织方公开了NIPS 2016论文评议过程,本文就从这届会...

38515
来自专栏我是攻城师

近200篇机器学习&深度学习资料分享(含各种文档,视频,源码等)

6207
来自专栏PPV课数据科学社区

【干货】近200篇机器学习&深度学习资料分享(上)

编者按:本文收集了百来篇关于机器学习和深度学习的资料,含各种文档,视频,源码等。而且原文也会不定期的更新,望看到文章的朋友能够学到更多。 《Brief Hist...

4216
来自专栏量化投资与机器学习

【必看】机器学习应用量化投资必须要踩的那些坑(系列55)

2655
来自专栏人工智能头条

近200篇机器学习/深度学习资料分享(含各种文档,视频,源码等)

2373
来自专栏专知

【干货荟萃】机器学习&深度学习知识资料大全集(一)(论文/教程/代码/书籍/数据/课程等)

点击上方“专知”关注获取更多AI知识! 【导读】转载来自ty4z2008(GItHub)整理的机器学习&深度学习知识资料大全荟萃,包含各种论文、代码、视频、书籍...

8145

扫码关注云+社区

领取腾讯云代金券