编译:chux
出品:ATYUN订阅号
腾讯开源了一个语料库,为超过800万个汉语词汇提供了200维向量表征,即嵌入,这些词汇是在大规模高质量数据上预先训练的。这些向量捕获中文单词和短语的语义含义,可以广泛应用于许多下游中文处理任务(例如,命名实体识别和文本分类)以及进一步的研究中。
预训练的嵌入在Tencent_AILab_ChineseEmbedding.txt中。第一行显示嵌入的总数及其尺寸大小,以空格分隔。在下面的每一行中,第一列表示中文单词或短语,后跟一个选项卡及其嵌入。对于每次嵌入,其在不同维度中的值由空格分隔。
与现有的汉语嵌入语料库相比,该语料库的优越性主要在于覆盖率,新鲜度和准确性。
为了确保语料库的覆盖范围,新鲜度和准确性,我们从以下几个方面精心设计了数据准备和训练流程:
为了举例说明学习的表示,在下面展示了一些样本单词最相似的单词。这里嵌入之间的余弦距离用于计算两个单词/短语的距离。
下载:ai.tencent.com/ailab/nlp/embedding.html