首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >从dataframe中删除字符串模式(RStudio中的Twitter数据)

从dataframe中删除字符串模式(RStudio中的Twitter数据)
EN

Stack Overflow用户
提问于 2018-11-07 08:32:38
回答 1查看 125关注 0票数 1

我有一个大型数据(大约500,000次观察),包括RStudio中的Twitter数据(即用户名、rewtweet计数、文本)。我想在tweet上运行文本分析,但是我首先需要删除retweet标记,这样它们就不会影响我的关键字搜索。

例如,在转发的tweet中,文本如下所示:RT @BobsAccount Great article! Can't wait to learn more.,我想删除附加到RT @....的字符串。

我使用了lapplygsub来删除特定的字符。例如,成功地删除了"@“:data <- data.frame(lapply(data, function(x) {gsub("@","", x)}))

但我不知道如何删除“字符串模式”(即附加到"RT @“的任何文本)。任何帮助都将不胜感激!

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-11-07 08:42:48

你可以用

代码语言:javascript
复制
data <- data.frame(lapply(data, function(x) {gsub("\\bRT\\s+@\\S*\\s*","", x)}))

\bRT\s+@\S*\s*模式匹配

  • \bRT -一个完整的词RT
  • \s+ - 1+白空间
  • @ -a @ char
  • \S* - 0+非空白字符
  • \s* - 0+空白字符

regex演示

R代码示例:

代码语言:javascript
复制
text <- c("RT @BobsAccount Great article! Can't wait to learn more.")
data <- data.frame(text)
data <- data.frame(lapply(data, function(x) {gsub("\\bRT\\s+@\\S*\\s*","", x)}))
data
## =>                                       text
##     1 Great article! Can't wait to learn more.
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/53185829

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档