是否存在预训练的Gensim
的Phrases模型?如果没有,是否可以使用预训练的单词嵌入进行逆向工程并创建短语模型?
我正在尝试将GoogleNews-vectors-negative300.bin与Gensim的Word2Vec
一起使用。首先,我需要将我的单词映射到短语中,这样我就可以从Google的预训练嵌入中查找它们的向量。
我搜索了Gensim的官方文档,但没有找到任何信息。谢谢!
发布于 2020-10-16 04:49:47
我不知道有没有人分享Phrases
模型。任何这样的模型都会对预处理/标记化步骤以及创建者使用的特定参数非常敏感。
除了高级算法描述之外,我还没有看到谷歌对输入到GoogleNews
2013词向量的数据进行了准确的选择,这些数据在任何地方都有记录。一些关于预处理的猜测可以通过查看存在的标记来进行,但我不知道有任何代码可以将类似的选择应用于其他文本。
你可以试着模仿它们的单字形标记化,然后推测性地将单字形字符串组合成更长的多字符串,直到某个最大值,检查这些组合是否存在,如果不存在,则恢复为单字形(或存在的最大组合)。如果做得很幼稚,这可能会很昂贵,但如果真的很重要,则可以进行优化-特别是对于更频繁的单词的某些子集-因为GoogleNews
集似乎遵守按频率降序列出单词的约定。
(总的来说,虽然它是一组快速而简单的词向量,但我认为GoogleNews
有点过度依赖了。它将缺乏自2013年以来发展起来的单词/短语和新的含义,它所捕捉到的任何含义都是由2013年前的新闻文章决定的……这可能与其他领域中的单词的主导意义不匹配。如果您的域不是特别新的,并且您有足够的数据,那么决定您自己的特定于域的标记化/组合可能会执行得更好。)
https://stackoverflow.com/questions/64377890
复制相似问题