首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >是否有可能比较两个单词嵌入存储库之间的相似性分数?

是否有可能比较两个单词嵌入存储库之间的相似性分数?
EN

Stack Overflow用户
提问于 2020-05-09 08:33:13
回答 1查看 1K关注 0票数 0

在我的研究中,我正在探索一套媒体与另一套媒体相比,是否存在统计上的显著意识形态偏见。我希望用单词嵌入的方法来探讨这个问题。

让我们以美国和英国新闻媒体为例。如果我在给定的时间内建立一个由所有美国媒体文章组成的语料库,并在同一时期建立一个单独的所有英国媒体文章的语料库,用相同的参数集(例如窗口和向量大小),使用相同的单词嵌入算法(gensim/word2vec/fasttext)对它们进行训练,是否可以检验美国语料库中的一对词之间的余弦相似度在统计上是否显著大于英国企业同一词之间的余弦相似度?

非常感谢你的帮助!

EN

回答 1

Stack Overflow用户

发布于 2020-05-09 13:37:24

你的目标、方法和问题都不清楚。

  • 你的目标是发现任何意识形态上的偏见如果它们存在
  • 你可以通过比较相同单词嵌入算法(比方说Word2Vec)
  • 的两个不同输出来实现你的问题是,是否有可能比较来自两个不同语料库

的两个向量

不过,我会回答你的问题。答案是肯定的,当然有可能

是否有可能检验美国语料库中一对词之间的余弦相似度在统计学上是否显著大于英国语料库中同一词之间的余弦相似度?

我个人对此的看法是:

对于每个语料库,请做:

  • 得到一个随机单词
  • 得到最接近该单词的100个单词
  • 度量平均距离

进行p检验,以检验同一语料库中单词之间的相似性是否显著。

但是要注意的是,这是否能真正实现你的实际目标并不重要。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/61693901

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档