首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何在R中进行堵塞和柠檬化?

如何在R中进行堵塞和柠檬化?
EN

Stack Overflow用户
提问于 2019-05-22 11:23:56
回答 1查看 1.6K关注 0票数 1

我正在处理具有如下所示字符串的文本数据

iisc团队合作开发低成本催化剂快速水制氢气的重大步骤

为了得到正确的单词形式,在text...stemming或柠檬化是要做的。我正在这样做,但它没有给出所需的输出。

代码语言:javascript
运行
复制
stemDocument(p[1], language = "english")

1“朝着大规模氢气产品iisc团队开发低成本催化剂、快速水发生器、氢气的重要一步”。

代码语言:javascript
运行
复制
lemmatize_strings(p[1], dictionary = lexicon::hash_lemmas)

1“朝着大规模生产氢气迈出了重要的一步,iisc团队合作jncasr研究人员开发低成本的催化剂,快速分离水产生氢气”。

如何获得这样的输出

iisc小组在大规模制氢方面迈出了重要的一步,合作开发了低成本的催化剂,快速分离水,产生氢气。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-05-22 13:18:51

给出您正在使用的包可能是值得的。若要执行您希望的操作,请使用以下两个包执行以下操作

代码语言:javascript
运行
复制
library(udpipe)

# This takes a minute to download the english dictionary
x <- udpipe(x = "significant step towards large scale hydrogen production iisc team 
            collaboration jncasr researcher develop low cost catalyst 
            speed split water generate hydrogen gas",
            object = "english")

这将为你的分析提供各种各样的信息,包括标记,引理,等等。你可以用它做很多事情。

代码语言:javascript
运行
复制
 x$lemma
 [1] "significant"   "step"          "towards"       "large"         "scale"         "hydrogen"      "production"   
 [8] "iisc"          "team"          "collaboration" "jncasr"        "researcher"    "develop"       "low"          
[15] "cost"          "catalyst"      "speed"         "split"         "water"         "generate"      "hydrogen"     
[22] "gas" 

为了阻止这个词,您可以使用tm包。如果你想阻止这些引理,你就有了它们:

代码语言:javascript
运行
复制
library(tm)
tm::stemDocument(x$lemma)

这将给你以下几个方面:

代码语言:javascript
运行
复制
[1] "signific" "step"     "toward"   "larg"     "scale"    "hydrogen" "product"  "iisc"     "team"     "collabor"
[11] "jncasr"   "research" "develop"  "low"      "cost"     "catalyst" "speed"    "split"    "water"    "generat" 
[21] "hydrogen" "gas"     
票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/56255753

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档