首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >定量评价两个文本语料库之间的相似性

定量评价两个文本语料库之间的相似性
EN

Data Science用户
提问于 2023-01-10 09:36:46
回答 1查看 24关注 0票数 1

我想评估两个语料库有多相似或不同,以及这种相似性是否具有统计学意义。一些接近Kolmogorov-Smirnov测试的统计数据,但文本数据。

对于附加语境,两个语料库与同一事件相关,其中一个语料库随后比另一个语料库大。

任何关于这方面的线索/suggestions都将不胜感激。谢谢

EN

回答 1

Data Science用户

发布于 2023-01-10 17:06:34

首先,文本的相似性不同:词汇(使用相同的词)、语义(谈论的主题大多相同)、文体(大多是用相同的风格写的,可能是同一个作者写的)等等。

我假设是最标准的情况,也就是你在寻找某种语义相似性。有不同的方法:

  • 最简单的可能是将这两种文本表示为TFIDF向量,并使用余弦TFIDF对它们进行比较。请注意,预处理选项可能会产生巨大的影响,例如滤除低频、美化等。
  • 更高级的方法将这两个文本表示为嵌入并比较这些向量。这需要预先训练的单词嵌入,并且需要更多的计算。

无论如何,没有二进制答案,文本相似性通常被认为是连续的。这更有意义,因为往往没有明确的答案:不同的人可能不同意两种文本是否相似。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/117663

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档