文章/答案/技术大牛

发布

社区首页 >问答首页 >是否有可能比较两个单词嵌入存储库之间的相似性分数？

问是否有可能比较两个单词嵌入存储库之间的相似性分数？
EN

Stack Overflow用户

提问于 2020-05-09 08:33:13

回答 1查看 1K关注 0票数 0

在我的研究中，我正在探索一套媒体与另一套媒体相比，是否存在统计上的显著意识形态偏见。我希望用单词嵌入的方法来探讨这个问题。

让我们以美国和英国新闻媒体为例。如果我在给定的时间内建立一个由所有美国媒体文章组成的语料库，并在同一时期建立一个单独的所有英国媒体文章的语料库，用相同的参数集(例如窗口和向量大小)，使用相同的单词嵌入算法(gensim/word2vec/fasttext)对它们进行训练，是否可以检验美国语料库中的一对词之间的余弦相似度在统计上是否显著大于英国企业同一词之间的余弦相似度？

非常感谢你的帮助！

nlp

stanford-nlp

gensim

word2vec

fasttext

回答 1

Stack Overflow用户

发布于 2020-05-09 13:37:24

你的目标、方法和问题都不清楚。

你的目标是发现任何意识形态上的偏见如果它们存在
你可以通过比较相同单词嵌入算法(比方说Word2Vec)
的两个不同输出来实现你的问题是，是否有可能比较来自两个不同语料库

的两个向量

不过，我会回答你的问题。答案是肯定的，当然有可能

是否有可能检验美国语料库中一对词之间的余弦相似度在统计学上是否显著大于英国语料库中同一词之间的余弦相似度？

我个人对此的看法是：

对于每个语料库，请做：

得到一个随机单词
得到最接近该单词的100个单词
度量平均距离

进行p检验，以检验同一语料库中单词之间的相似性是否显著。

但是要注意的是，这是否能真正实现你的实际目标并不重要。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/61693901

复制

相似问题

问是否有可能比较两个单词嵌入存储库之间的相似性分数？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问是否有可能比较两个单词嵌入存储库之间的相似性分数？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问是否有可能比较两个单词嵌入存储库之间的相似性分数？
EN