如何使用Tidytext加载.txt文件的文件夹以进行文本挖掘?
我偶然发现了Silge & Robinson的"Text mining with R: a tidy approach“(https://www.tidytextmining.com/),对于我的目的来说,它似乎非常有前途。但我对R非常陌生(为了这个目的而尝试学习它),所以我偶然发现了一些非常基本的问题。
虽然我可以跟随并重现这些示例,但它们大多是从导入现有的库(例如have或gutenbergr)开始的,而我拥有的是一个包含30个txt文件的文件夹(每个文件都包含瑞典外交部长向议会提交的年度声明)。
我通过使用其他一些教程和tm包,首先创建了一个语料库,然后创建了一个DTM,然后我可以将它转换成一个整洁的数据框架,但我想肯定有一种更简单的方法,可以直接从txt文件的文件夹转到一个整洁的数据框架。
发布于 2018-03-03 12:06:17
如果文件夹中包含.txt文件,则可以将它们读入名为tbl的数据框中,该数据框有一个名为text的列,代码如下:
library(tidyverse)
tbl <- list.files(pattern = "*.txt") %>%
map_chr(~ read_file(.)) %>%
data_frame(text = .)它使用基数R中的函数查找文件(list.files()),并使用purrr中的函数迭代所有文件。看看related question here吧。
在此之后,您可以继续执行其他分析任务。
https://stackoverflow.com/questions/49076186
复制相似问题