我想评估两个语料库有多相似或不同,以及这种相似性是否具有统计学意义。一些接近Kolmogorov-Smirnov测试的统计数据,但文本数据。
对于附加语境,两个语料库与同一事件相关,其中一个语料库随后比另一个语料库大。
任何关于这方面的线索/suggestions都将不胜感激。谢谢
发布于 2023-01-10 17:06:34
首先,文本的相似性不同:词汇(使用相同的词)、语义(谈论的主题大多相同)、文体(大多是用相同的风格写的,可能是同一个作者写的)等等。
我假设是最标准的情况,也就是你在寻找某种语义相似性。有不同的方法:
无论如何,没有二进制答案,文本相似性通常被认为是连续的。这更有意义,因为往往没有明确的答案:不同的人可能不同意两种文本是否相似。
https://datascience.stackexchange.com/questions/117663
复制相似问题