文章/答案/技术大牛

发布

社区首页 >问答首页 >在R中标记日文:只有指定列的第一行被标记

问在R中标记日文:只有指定列的第一行被标记
EN

Stack Overflow用户

提问于 2018-07-31 07:51:26

回答 1查看 291关注 0票数 0

我试图用日本标记器RMeCab，特别是函数RMeCabDF (用于dataframes)来标记一组tweet。

该文档说明了以下使用情况：

RMeCabDF 描述 RMeCabDF将数据帧作为第一个参数，并分析第二个参数指定的列。空白数据应替换为NA。如果1被指定为第三个参数，则以其基本形式返回每个语素。使用 RMeCabDF(dataf，coln，mypref，dic = ""，mecabrc =“”等) 参数 dataf data.frame 包含日语句子的coln列号或名称 mypref默认值为0，则返回文本上出现的相同的变体形式。如果指定了1，则它们的基本形式是。指定用户字典e.x。ishida.dic 未实现mecabrc (指定mecab资源文件) mecab的其他选择

因此，接下来，我使用以下代码在dataframe 89中标记列号trump_ja

trump_ja_tokens <- RMeCabDF(trump_ja, coln = 89)

这就产生了一个List of 1 --但是正如您所看到的，dataframe有989行。

我的其他几排去哪了？

我必须逐行标记吗？如果是这样的话，是否有任何方法可以使此过程自动化以避免键入1000行代码(或者使用Excel生成1000行代码)？

mecab

dataframe

tokenize

tidytext

Stack Overflow用户

回答已采纳

发布于 2018-08-15 01:58:01

您可以使用带有tidytext的RMeCab令牌程序，就像这个用户那样。你会像这样设置它：

df %>%
    unnest_tokens(word, text, token = RMeCab::RMeCabC)

其中df是您的数据框架，word是您将要创建的新列，text是您已经拥有的包含要标记的文本的旧列。token参数在unnest_tokens()中可以将一个函数作为参数，就像这样的情况。

票数 1

查看全部 1 条回答

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/51608141

复制

相似问题

问在R中标记日文:只有指定列的第一行被标记
EN

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在R中标记日文:只有指定列的第一行被标记EN

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在R中标记日文:只有指定列的第一行被标记
EN