我需要构建像“电子工程师”或"microsoft excel“这样的复合词的语义词嵌入表示。一种方法是使用一个标准的预先训练的模型--一个平均的单词,但是,既然我有我的领域的语料库,有可能有更好的方法吗?
更确切地说:
我所拥有的数据是数以百万计的文件的总集。每一份文件都有半页,包含了这些复合术语。但是,语料库中可能没有包含复合词。
谢谢
发布于 2017-08-25 12:16:36
如果你想要一个准确的答案,请提供一个精确的问题,即定义你有哪些数据,以及你到底想要什么。
这就是说,通常情况下,您需要一个包含这些复合术语的文本数据集。如何处理复合词本身就是一个完整的科学领域,但是既然您正在谈论语义词嵌入,我建议您看一看词和短语的分布式表示及其组成一文。介绍word2vec的那些人在这里描述了一种简单的方法,从单词表示到短语表示,顺便给出了一种在单个术语中合并复合词的方法。"microsoft_excel“这个词变成了”microsoft_excel“,并得到了自己独特的嵌入。
如果您想要一个python实现,请看一下gensim.models.phrase类。这与上一篇文章中介绍的工作相同。
https://datascience.stackexchange.com/questions/22572
复制相似问题