在我的研究中,我正在探索一套媒体与另一套媒体相比,是否存在统计上的显著意识形态偏见。我希望用单词嵌入的方法来探讨这个问题。
让我们以美国和英国新闻媒体为例。如果我在给定的时间内建立一个由所有美国媒体文章组成的语料库,并在同一时期建立一个单独的所有英国媒体文章的语料库,用相同的参数集(例如窗口和向量大小),使用相同的单词嵌入算法(gensim/word2vec/fasttext
)对它们进行训练,是否可以检验美国语料库中的一对词之间的余弦相似度在统计上是否显著大于英国企业同一词之间的余弦相似度?
非常感谢你的帮助!
发布于 2020-05-09 13:37:24
你的目标、方法和问题都不清楚。
的两个向量
不过,我会回答你的问题。答案是肯定的,当然有可能
是否有可能检验美国语料库中一对词之间的余弦相似度在统计学上是否显著大于英国语料库中同一词之间的余弦相似度?
我个人对此的看法是:
对于每个语料库,请做:
进行p检验,以检验同一语料库中单词之间的相似性是否显著。
但是要注意的是,这是否能真正实现你的实际目标并不重要。
https://stackoverflow.com/questions/61693901
复制相似问题