我有一个大型数据(大约500,000次观察),包括RStudio中的Twitter数据(即用户名、rewtweet计数、文本)。我想在tweet上运行文本分析,但是我首先需要删除retweet标记,这样它们就不会影响我的关键字搜索。
例如,在转发的tweet中,文本如下所示:RT @BobsAccount Great article! Can't wait to learn more.,我想删除附加到RT @....的字符串。
我使用了lapply和gsub来删除特定的字符。例如,成功地删除了"@“:data <- data.frame(lapply(data, function(x) {gsub("@","", x)}))
但我不知道如何删除“字符串模式”(即附加到"RT @“的任何文本)。任何帮助都将不胜感激!
发布于 2018-11-07 08:42:48
你可以用
data <- data.frame(lapply(data, function(x) {gsub("\\bRT\\s+@\\S*\\s*","", x)}))\bRT\s+@\S*\s*模式匹配
\bRT -一个完整的词RT\s+ - 1+白空间@ -a @ char\S* - 0+非空白字符\s* - 0+空白字符见regex演示。
R代码示例:
text <- c("RT @BobsAccount Great article! Can't wait to learn more.")
data <- data.frame(text)
data <- data.frame(lapply(data, function(x) {gsub("\\bRT\\s+@\\S*\\s*","", x)}))
data
## => text
## 1 Great article! Can't wait to learn more.https://stackoverflow.com/questions/53185829
复制相似问题