首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何才能获得复合词的语义分词?

如何才能获得复合词的语义分词?
EN

Data Science用户
提问于 2017-08-25 10:08:50
回答 1查看 1.2K关注 0票数 1

我需要构建像“电子工程师”或"microsoft excel“这样的复合词的语义词嵌入表示。一种方法是使用一个标准的预先训练的模型--一个平均的单词,但是,既然我有我的领域的语料库,有可能有更好的方法吗?

更确切地说:

我所拥有的数据是数以百万计的文件的总集。每一份文件都有半页,包含了这些复合术语。但是,语料库中可能没有包含复合词。

谢谢

EN

回答 1

Data Science用户

回答已采纳

发布于 2017-08-25 12:16:36

如果你想要一个准确的答案,请提供一个精确的问题,即定义你有哪些数据,以及你到底想要什么。

这就是说,通常情况下,您需要一个包含这些复合术语的文本数据集。如何处理复合词本身就是一个完整的科学领域,但是既然您正在谈论语义词嵌入,我建议您看一看词和短语的分布式表示及其组成一文。介绍word2vec的那些人在这里描述了一种简单的方法,从单词表示到短语表示,顺便给出了一种在单个术语中合并复合词的方法。"microsoft_excel“这个词变成了”microsoft_excel“,并得到了自己独特的嵌入。

如果您想要一个python实现,请看一下gensim.models.phrase类。这与上一篇文章中介绍的工作相同。

票数 2
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/22572

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档