我正在处理具有如下所示字符串的文本数据
iisc团队合作开发低成本催化剂快速水制氢气的重大步骤
为了得到正确的单词形式,在text...stemming或柠檬化是要做的。我正在这样做,但它没有给出所需的输出。
stemDocument(p[1], language = "english")
1“朝着大规模氢气产品iisc团队开发低成本催化剂、快速水发生器、氢气的重要一步”。
lemmatize_strings(p[1], dictionary = lexicon::hash_lemmas)
1“朝着大规模生产氢气迈出了重要的一步,iisc团队合作jncasr研究人员开发低成本的催化剂,快速分离水产生氢气”。
如何获得这样的输出
iisc小组在大规模制氢方面迈出了重要的一步,合作开发了低成本的催化剂,快速分离水,产生氢气。
发布于 2019-05-22 13:18:51
给出您正在使用的包可能是值得的。若要执行您希望的操作,请使用以下两个包执行以下操作
library(udpipe)
# This takes a minute to download the english dictionary
x <- udpipe(x = "significant step towards large scale hydrogen production iisc team
collaboration jncasr researcher develop low cost catalyst
speed split water generate hydrogen gas",
object = "english")
这将为你的分析提供各种各样的信息,包括标记,引理,等等。你可以用它做很多事情。
x$lemma
[1] "significant" "step" "towards" "large" "scale" "hydrogen" "production"
[8] "iisc" "team" "collaboration" "jncasr" "researcher" "develop" "low"
[15] "cost" "catalyst" "speed" "split" "water" "generate" "hydrogen"
[22] "gas"
为了阻止这个词,您可以使用tm
包。如果你想阻止这些引理,你就有了它们:
library(tm)
tm::stemDocument(x$lemma)
这将给你以下几个方面:
[1] "signific" "step" "toward" "larg" "scale" "hydrogen" "product" "iisc" "team" "collabor"
[11] "jncasr" "research" "develop" "low" "cost" "catalyst" "speed" "split" "water" "generat"
[21] "hydrogen" "gas"
https://stackoverflow.com/questions/56255753
复制相似问题