我试图用日本标记器RMeCab,特别是函数RMeCabDF (用于dataframes)来标记一组tweet。
该文档说明了以下使用情况:
RMeCabDF 描述 RMeCabDF将数据帧作为第一个参数,并分析第二个参数指定的列。空白数据应替换为NA。如果1被指定为第三个参数,则以其基本形式返回每个语素。 使用 RMeCabDF(dataf,coln,mypref,dic = "",mecabrc =“”等) 参数 dataf data.frame 包含日语句子的coln列号或名称 mypref默认值为0,则返回文本上出现的相同的变体形式。如果指定了1,则它们的基本形式是。 指定用户字典e.x。ishida.dic 未实现mecabrc (指定mecab资源文件) mecab的其他选择
因此,接下来,我使用以下代码在dataframe 89中标记列号trump_ja
trump_ja_tokens <- RMeCabDF(trump_ja, coln = 89)这就产生了一个List of 1 --但是正如您所看到的,dataframe有989行。

我的其他几排去哪了?
我必须逐行标记吗?如果是这样的话,是否有任何方法可以使此过程自动化以避免键入1000行代码(或者使用Excel生成1000行代码)?
发布于 2018-08-15 01:58:01
您可以使用带有tidytext的RMeCab令牌程序,就像这个用户那样。你会像这样设置它:
df %>%
unnest_tokens(word, text, token = RMeCab::RMeCabC)其中df是您的数据框架,word是您将要创建的新列,text是您已经拥有的包含要标记的文本的旧列。token参数在unnest_tokens()中可以将一个函数作为参数,就像这样的情况。
https://stackoverflow.com/questions/51608141
复制相似问题