文章/答案/技术大牛

发布

社区首页 >问答首页 >定量评价两个文本语料库之间的相似性

问定量评价两个文本语料库之间的相似性
EN

Data Science用户

提问于 2023-01-10 09:36:46

回答 1查看 24关注 0票数 1

我想评估两个语料库有多相似或不同，以及这种相似性是否具有统计学意义。一些接近Kolmogorov-Smirnov测试的统计数据，但文本数据。

对于附加语境，两个语料库与同一事件相关，其中一个语料库随后比另一个语料库大。

任何关于这方面的线索/suggestions都将不胜感激。谢谢

nlp

text-mining

data-analysis

corpus

回答 1

Data Science用户

发布于 2023-01-10 17:06:34

首先，文本的相似性不同:词汇(使用相同的词)、语义(谈论的主题大多相同)、文体(大多是用相同的风格写的，可能是同一个作者写的)等等。

我假设是最标准的情况，也就是你在寻找某种语义相似性。有不同的方法：

最简单的可能是将这两种文本表示为TFIDF向量，并使用余弦TFIDF对它们进行比较。请注意，预处理选项可能会产生巨大的影响，例如滤除低频、美化等。
更高级的方法将这两个文本表示为嵌入并比较这些向量。这需要预先训练的单词嵌入，并且需要更多的计算。

无论如何，没有二进制答案，文本相似性通常被认为是连续的。这更有意义，因为往往没有明确的答案:不同的人可能不同意两种文本是否相似。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/117663

复制

相似问题

问定量评价两个文本语料库之间的相似性
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问定量评价两个文本语料库之间的相似性EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问定量评价两个文本语料库之间的相似性
EN