文章/答案/技术大牛

发布

社区首页 >问答首页 >如何在R中进行堵塞和柠檬化？

问如何在R中进行堵塞和柠檬化？
EN

Stack Overflow用户

提问于 2019-05-22 11:23:56

回答 1查看 1.6K关注 0票数 1

我正在处理具有如下所示字符串的文本数据

iisc团队合作开发低成本催化剂快速水制氢气的重大步骤

为了得到正确的单词形式，在text...stemming或柠檬化是要做的。我正在这样做，但它没有给出所需的输出。

stemDocument(p[1], language = "english")

1“朝着大规模氢气产品iisc团队开发低成本催化剂、快速水发生器、氢气的重要一步”。

lemmatize_strings(p[1], dictionary = lexicon::hash_lemmas)

1“朝着大规模生产氢气迈出了重要的一步，iisc团队合作jncasr研究人员开发低成本的催化剂，快速分离水产生氢气”。

如何获得这样的输出

iisc小组在大规模制氢方面迈出了重要的一步，合作开发了低成本的催化剂，快速分离水，产生氢气。

stemming

lemmatization

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-05-22 13:18:51

给出您正在使用的包可能是值得的。若要执行您希望的操作，请使用以下两个包执行以下操作

library(udpipe)

# This takes a minute to download the english dictionary
x <- udpipe(x = "significant step towards large scale hydrogen production iisc team 
            collaboration jncasr researcher develop low cost catalyst 
            speed split water generate hydrogen gas",
            object = "english")

这将为你的分析提供各种各样的信息，包括标记，引理，等等。你可以用它做很多事情。

 x$lemma
 [1] "significant"   "step"          "towards"       "large"         "scale"         "hydrogen"      "production"   
 [8] "iisc"          "team"          "collaboration" "jncasr"        "researcher"    "develop"       "low"          
[15] "cost"          "catalyst"      "speed"         "split"         "water"         "generate"      "hydrogen"     
[22] "gas"

为了阻止这个词，您可以使用tm包。如果你想阻止这些引理，你就有了它们：

library(tm)
tm::stemDocument(x$lemma)

这将给你以下几个方面：

[1] "signific" "step"     "toward"   "larg"     "scale"    "hydrogen" "product"  "iisc"     "team"     "collabor"
[11] "jncasr"   "research" "develop"  "low"      "cost"     "catalyst" "speed"    "split"    "water"    "generat" 
[21] "hydrogen" "gas"

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/56255753

复制

相似问题

问如何在R中进行堵塞和柠檬化？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何在R中进行堵塞和柠檬化？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何在R中进行堵塞和柠檬化？
EN