我想用Quanteda构建所有这些文档的语料库,但又不会失去将不同的文本链接回相应用户的能力。 我将给您一个示例代码,以帮助您更多地了解我失败的地方。df <- data.frame('ID'=c(1,1,2), 'Text'=c('I ate apple', "I don't like fruits", "I swim in the dark"),stringsAsFactors = FALSE)
df_corpus <
我正在尝试将脚本从tm迁移到quanteda。阅读quanteda文档时,有一种将变更应用到“下游”以使原始语料库保持不变的哲学。好的。我以前写过一个脚本来查找tm语料库中的拼写错误,并得到我们团队的支持来创建一个手动查找。因此,我有一个csv文件有2列,第一列是拼写错误的术语,第二列是该术语的正确版本。在使用tm包之前,我这样做了:# "Spellingdoc" is the
使用tm(小写,删除点,删除数字,词干词)清洗语料库的方法是什么,如下面的示例所示?明确地说,我不想用dfm()创建文档特性矩阵,我只想要一个干净的语料库,可以用于特定的下游任务。# This is what I want to do in quantedadata("crude")crude <- tm_map(crude, remov