现在的问题是term document matrix是如何由tm包计算的。我想像下面解释的那样稍微调整一下。目前,任何术语文档矩阵都是通过在文档中寻找一个单词,例如“milky”作为单独的单词(而不是字符串)来创建的。包),'milky‘将在第一个文档中找到,而在第二个文档中不会找到,因为该算法将术语milky作为一个单独的单词来查找。grepl('milky', 'this is a milkyway galaxy')谁能帮
我有一个包含有文本的10137行(dataframe命名短语)的dataframe和另一个包含62000个术语(dataframe命名单词)的数据框架,我想在第一个数据帧中使用它,以便在第一个数据帧的文本中发现,如果第二个数据帧不存在或不存在,则第二个单词分别使用0或1。grepl(word, phrases))}))names(df) <- words
然而,如果我在第一行中使用我的初始数据作为解列