首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >在R中标记日文:只有指定列的第一行被标记

在R中标记日文:只有指定列的第一行被标记
EN

Stack Overflow用户
提问于 2018-07-31 07:51:26
回答 1查看 291关注 0票数 0

我试图用日本标记器RMeCab,特别是函数RMeCabDF (用于dataframes)来标记一组tweet。

该文档说明了以下使用情况:

RMeCabDF 描述 RMeCabDF将数据帧作为第一个参数,并分析第二个参数指定的列。空白数据应替换为NA。如果1被指定为第三个参数,则以其基本形式返回每个语素。 使用 RMeCabDF(dataf,coln,mypref,dic = "",mecabrc =“”等) 参数 dataf data.frame 包含日语句子的coln列号或名称 mypref默认值为0,则返回文本上出现的相同的变体形式。如果指定了1,则它们的基本形式是。 指定用户字典e.x。ishida.dic 未实现mecabrc (指定mecab资源文件) mecab的其他选择

因此,接下来,我使用以下代码在dataframe 89中标记列号trump_ja

代码语言:javascript
复制
trump_ja_tokens <- RMeCabDF(trump_ja, coln = 89)

这就产生了一个List of 1 --但是正如您所看到的,dataframe有989行。

我的其他几排去哪了?

我必须逐行标记吗?如果是这样的话,是否有任何方法可以使此过程自动化以避免键入1000行代码(或者使用Excel生成1000行代码)?

EN

Stack Overflow用户

回答已采纳

发布于 2018-08-15 01:58:01

您可以使用带有tidytext的RMeCab令牌程序,就像这个用户那样。你会像这样设置它:

代码语言:javascript
复制
df %>%
    unnest_tokens(word, text, token = RMeCab::RMeCabC)

其中df是您的数据框架,word是您将要创建的新列,text是您已经拥有的包含要标记的文本的旧列。token参数在unnest_tokens()中可以将一个函数作为参数,就像这样的情况。

票数 1
EN
查看全部 1 条回答
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/51608141

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档