我读过用奇异值分解(SVD)在文本语料库中进行潜在语义分析(LSA)的文章。我知道如何做到这一点,我也理解SVD的数学概念。
但我不明白为什么它适用于文本的语料库(我相信--必须有语言解释)。有人能用语言学的观点来解释我吗?
谢谢
发布于 2011-10-04 13:51:50
没有语言解释,没有语法,没有处理等价类,同义词,同音词,词干等等。把“文档”当作购物车:它包含单词(购买)的组合。词汇往往与“相关”词一起出现。
例如:“毒品”这个词可以和{爱、医生、医学、体育、犯罪}中的任何一个一起出现;每个词都会指向不同的方向。但是,结合文档中的许多其他单词,您的查询可能会从类似的字段中找到文档。
发布于 2011-10-04 10:34:51
发生在一起的词(例如,在语料库中的附近或同一文档中)有助于语境。潜在语义分析基本上是根据相似文档在上下文上的相似程度对相似的文档进行分组。
我认为该示例和这页面上的word文档绘图将有助于理解。
发布于 2014-12-02 06:31:23
假设我们有以下五个文档集
还有一个搜索查询:死了,匕首。
显然,d3应该排在第一位,因为它包含两个模具,匕首。然后,d2和d4应该跟随,每个都包含查询的一个单词。然而,d1和d5怎么办?是否应该将它们作为这个查询的可能有趣的结果返回?作为人类,我们知道d1与查询非常相关。另一方面,d5与查询没有多大关系。因此,我们希望d1而不是d5,或者说,我们希望d1的排名高于d5。
问题是:机器能推断出这一点吗?答案是肯定的,LSI就是这样做的。在本例中,LSI将能够看到术语匕首与d1相关,因为它与D1的术语罗密欧和朱丽叶一起发生,分别在d2和d3中。此外,术语死亡与d1和d5有关,因为它分别与d3和d4中D1的术语罗密欧和d5的术语新罕布什尔有关。LSI还将正确权衡已发现的连接;d1更多与查询相关。
因为d5通过罗密欧和朱丽叶“双倍”地连接到匕首,通过罗密欧连接到死,而d5通过新罕布什尔州只有一个连接到查询。
参考文献:潜在语义分析(Alex )
https://stackoverflow.com/questions/7059954
复制相似问题