首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >汉字函数R工作室

汉字函数R工作室
EN

Stack Overflow用户
提问于 2017-01-12 11:03:09
回答 1查看 236关注 0票数 0

我正在尝试用R做中文文本挖掘。

在我的数据集中,我有一个列,上面有人们的评论,比如"连锁店购买的“。多亏了JiebaR,我还创建了另外两个专栏。它们保存分段的消息(“连锁店”,“购买”,“的”)和来自这些消息的关键字(“连锁店”,“购买”)。关键字选择删除了“不”(中文中是“no”),因此我尝试从单词中提取它并将其添加到关键字中。很简单,对吧?

为了有一个干净的代码,我把我的所有函数放在一个单独的文件中,并将其放在我的主文件中。现在发生了一些非常奇怪的事情:当函数在主文件中时,它可以工作,但当它在我源文件中时,它不能工作!(我只是将函数从我的main复制并粘贴到" function“文件中,然后运行源代码(...)行...)。

代码语言:javascript
运行
复制
fetchingNeg <- function(df){
  for (i in 1:nrow(df)){
    if ("不" %in% unlist(df[i,]$words)){
      df[i,]$keywords <- list(append(unlist(df[i,]$keywords),"不"))
    }
  }
  return(df)
}
EN

回答 1

Stack Overflow用户

发布于 2017-01-12 11:09:42

所以我发现了错误:编码!有一个字符c,我知道它是"不“,但当我打印(”不“== c)时,它会给出FALSE...在本例中,"不“不是以UTF8编码的,所以为了使我的代码正常工作,我必须将它更改为

代码语言:javascript
运行
复制
    fetchingNeg <- function(df){
       for (i in 1:nrow(df)){
          # "不" is "\u{4e0d}" in UTF-8
          if ("\u{4e0d}" %in% unlist(df[i,]$words)){
             df[i,]$keywords <- list(append(unlist(df[i,]$keywords),"\u{4e0d}"))
          }
       }
       return(df)
    }
票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/41604425

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档