我正在使用tm库在R中处理文本挖掘。我知道如何提取关键字,但我想提取文档中经常“在一起”的单词的关联(例如,获取表达式proof of concept或hydraulic jack)。我知道有findAssocs函数,但似乎只有当你想知道与特定单词相关的单词时,它才是相关的……我想自动检测“链接在一起的词对”。
这是一种使用tm库实现此目的的方法吗?或者在R上以任
我有一个很大的语料库,我想要从其中删除某些单词。类似于从文本中删除停用词,但我现在想从语料库中删除二元语法。我有我的二元词列表,但很明显,简单的列表理解方法来删除停用词并不会减少它。我在考虑使用正则表达式,从一个单词列表中编译一个模式,然后替换这些单词。overjoyed.'import re
words_to