在Spark/Scala ML中使用RegexTokenizer()后，StopWords()无法工作

在Spark/Scala ML中使用RegexTokenizer()后，StopWords()无法工作的原因是，RegexTokenizer()将文本数据按照指定的正则表达式进行分词，生成了一个包含所有单词的列表。然而，StopWords()函数需要一个包含停用词的列表作为输入，以便过滤掉这些常见词语。

解决这个问题的方法是，在使用StopWords()之前，需要先将RegexTokenizer()生成的单词列表转换为DataFrame的一列。然后，使用StopWordsRemover类来过滤停用词。

下面是一个示例代码：

import org.apache.spark.ml.feature.{RegexTokenizer, StopWordsRemover}
import org.apache.spark.sql.SparkSession

// 创建SparkSession
val spark = SparkSession.builder()
  .appName("StopWordsExample")
  .getOrCreate()

// 创建一个示例数据集
val data = Seq(
  (0, "Hello world"),
  (1, "I am learning Spark"),
  (2, "Spark is great")
).toDF("id", "text")

// 创建RegexTokenizer实例
val tokenizer = new RegexTokenizer()
  .setInputCol("text")
  .setOutputCol("words")
  .setPattern("\\W") // 使用非单词字符进行分词

// 使用RegexTokenizer对文本进行分词
val tokenized = tokenizer.transform(data)

// 创建StopWordsRemover实例
val remover = new StopWordsRemover()
  .setInputCol("words")
  .setOutputCol("filtered")

// 使用StopWordsRemover过滤停用词
val filtered = remover.transform(tokenized)

// 打印结果
filtered.select("id", "filtered").show(false)

这段代码首先创建了一个SparkSession，并定义了一个包含文本数据的DataFrame。然后，创建了一个RegexTokenizer实例，并使用它对文本进行分词。接下来，创建了一个StopWordsRemover实例，并使用它过滤停用词。最后，打印了过滤后的结果。

推荐的腾讯云相关产品是腾讯云机器学习平台（Tencent Machine Learning Platform，TMLP），它提供了丰富的机器学习和深度学习算法库，以及强大的分布式计算能力，可以方便地进行大规模数据处理和模型训练。您可以通过以下链接了解更多关于腾讯云机器学习平台的信息：腾讯云机器学习平台

在Spark/Scala ML中使用RegexTokenizer()后，StopWords()无法工作

、、、、

在使用RegexTokenizer之后，我需要使用StopWordsRemover。然而，我注意到没有任何停用词被删除。我注意到在使用Tokenizer (而不是RegexTokenizer)时，停用词会被删除，因为Tokenizer会将输出转换为术语数组。RegexTokenizer仅输出带有(不是逗号分隔)的字符串数组。有什么办法可以解决这个问题吗？代码： val <

浏览 37提问于2019-10-21得票数 1

回答已采纳

3回答

在Spark2.0中访问向量列时的MatchError

、、、、

使用JSON文件创建spark上下文：将文本标记化val tokenizer/stopwor

浏览 3提问于2016-08-08得票数 4

回答已采纳

1回答

输入类型必须是字符串类型，但在使用Scala时得到ArrayType(StringType，true)错误

、

我是星火新手，我正在使用Scala创建一个基本分类器。我从文本文件中读取数据集，并将其分成训练和测试数据集。$.require(Predef.scala:224)at org.apache.spark.ml.UnaryTransformer.tra

浏览 0提问于2016-10-26得票数 1

回答已采纳

1回答

为什么朴素的贝叶斯不能像Logistic回归那样在星火MLlib管道中工作？

、、、

我正在研究使用Scala的tweet情绪分析中的一个问题。我有一个使用逻辑回归模型的工作版本，具体如下：import org.apache.spark.mllib.feature.HashingTF{CountVectorizer, RegexTokenizer, StopWordsRemover} import org.apache.

浏览 5提问于2016-12-23得票数 2

回答已采纳

1回答

无法在Pyspark中执行用户定义函数RegexTokenizer

、、、、

我正在尝试使用Pyspark在数据中使用文本特征执行文本分类。下面是我的文本预处理代码，代码是执行用户定义的函数RegexTokenizer失败。tokenizer = RegexTokenizer(inputCol = "text", outputCol = "words", pattern = "\\W") add_stopwordsjava.base/java.lang.Thread.run(Thread.java:834

浏览 25提问于2020-06-25得票数 0

回答已采纳

2回答

将JavaRDD<Row>转换为JavaRDD<Vector>

、、、

在获得原始文本的RDD后，我创建了一个数据帧，并通过Tokenizer、StopWords和CountVectorizer管道对其进行转换。下面是我的代码： RegexTokenizer tokenizer = new RegexTokenizer()at org.apache.<e

浏览 0提问于2016-04-05得票数 2

1回答

Scala和Python中的LSH

、、

我遵循这一点，所以post 来获得一些字符串匹配使用LSH算法。出于某种原因，可以通过python获得结果，但在Scala中则不然。我看不出Scala代码缺少什么地方。以下是这两项守则：from pyspark.ml.feature import RegexTokenizer, NGram, HashingTF[鲍勃·琼斯] [b，o.=0.6]> +--------------------+---

浏览 3提问于2019-11-12得票数 3

1回答

在火星雨中找不到字段

、、、

我目前正在从事scala/scala家庭作业项目ibn的工作，我将在一个包含数千部电影评论的csv文件中阅读该项目。然后，我将分析这些审查，并培训一个模型，以检测审查是积极的还是消极的。我将训练这些模型使用TF-以色列国防军和Word2Vec。我遇到的问题是，到目前为止我编写的代码没有找到指定的标题字段"word“，该字段是由regex令牌程序输出的。import org.apache.spark.rdd.RDD import org.apache.spark

浏览 2提问于2018-03-13得票数 0

回答已采纳

1回答

多类分类评估器字段不存在错误- Apache

、

我是斯派克的新手，在Scala中尝试一个基本的分类器。我试图获得精确性，但是当使用MulticlassClassificationEvaluator时，它会给出以下错误：at scala.collection.AbstractMap.getOrElse(Map.scala:59) at org.apache.

浏览 2提问于2016-10-28得票数 1

回答已采纳

1回答

在PySpark ML中创建自定义转换器

、、、、

我是Spark SQL DataFrames和ML on它们(PySpark)的新手。如何创建自定义标记器，例如删除停用词并使用中的一些库？我可以扩展默认的吗？

浏览 1提问于2015-09-01得票数 31

回答已采纳

1回答

Apache火花文本相似度

、、

secondDataFrame = spark.createDataFrame(secondRow, MyRecord.class); secondDataFrame.show(20, false); }

浏览 0提问于2017-12-03得票数 4

回答已采纳

1回答

为什么我在RegexTokenizer中的PySpark转换与所需的模式相反？

、、

当我使用RegexTokenizer from pyspark.ml.feature来标记我的dataframe中的句子列以查找所有单词时，当python 包用于同一个句子时，我得到的结果正好相反。下面是示例代码：from pyspark.ml.feature import RegexTokenizer .master(

浏览 3提问于2020-05-06得票数 1

回答已采纳

1回答

如何使用PySpark的RegexTokenizer从字符串中删除数字？

、、

我想使用PySpark的RegexTokenizer从DataFrame列中删除5位或更多位的数字。我可以使用下面的代码提取这些数字，但有人知道我如何删除它们吗？我的代码： regexTokenizer = RegexTokenizer(inputCol="description", outputCol="tokenized_description", gaps

浏览 0提问于2019-02-13得票数 0

1回答

用RegexTokenizer和Word2Vec标记句子并将其矢量化

、、、、

我有一个火花DataFrame，我可以标记"body“列中的句子。DataFrame如下所示：我想将创建的text_token列矢量化。我使用下面的代码来完成此操作。java.base/java.lang.Thread.run(Thread.java:829) at org.apache.spark.ml.feature.RegexTokenizer(Word2Vec.sca

浏览 4提问于2021-08-14得票数 0

回答已采纳

1回答

R包和火花/python为文档术语频率任务提供了不同的词汇量。

、、、、

第一步是生成文档术语矩阵，其中每个术语都有文档中的相对频率计数。问题是，我正在使用R获得不同的词汇表大小，尊重spark或python (火花和python在结果上是一致的)。tolower = FALSE,import org.ap

浏览 0提问于2018-08-23得票数 0

回答已采纳

2回答

PySpark诉内存问题

、、

这是一个概念性的问题，还是我在某个地方编码错了？RandomForest.fit(features,labels)data = sqlContext.read.format('com.databricks.spark.csvRegexTokenizer, StopWordsRemover, CountVectorizer from pyspark.ml.classification import LogisticRegression# regular expre

浏览 0提问于2019-02-06得票数 2

回答已采纳

1回答

为什么LogisticRegression在"IllegalArgumentException: IllegalArgumentException“中失败？

、、、

我试图运行简单的逻辑回归程序在火花。我得到了这个错误:我试图包含各种语言来解决问题，但这并不是解决问题。;import org.apache.spark.sql.Dataset;import org.apache.spark.ml</em

浏览 7提问于2017-06-30得票数 2

3回答

正在尝试将数据帧写入文件，写入行时获取org.apache.spark.SparkException: Task失败

、、

").save("someFile.csv") at org.apache.spark.ml.feature.RegexTokenizer$$ano

浏览 2提问于2017-03-11得票数 9

回答已采纳

1回答

MLlib regexTokenizer正在忽略重音

、、

*- from pyspark.sql.functions import row_numbersentenceData = spark.createDataFrame([ (["Eu我在文档中没有找到任何可以解决这个问题的东西。所以，我在这里迷路了！我曾尝试更改“

浏览 9提问于2020-01-07得票数 0

1回答

火花ML管道api保存不工作

、、

在版本1.6中，管道api获得了一组新的特性来保存和加载管道阶段。在我训练了一个分类器之后，我尝试将一个阶段保存到磁盘上，然后再加载它以重用它，并节省计算的工作量，以重新建模。当我再次加载它时，我会得到以下异常：线程"main“中的异常: org.apache.spark.rdd.RDD$$anonfun$first$1.apply(RDD.scala:1330) at(RDD.scala:1327 )上的空集合)在or

浏览 0提问于2016-01-11得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在Spark/Scala ML中使用RegexTokenizer()后，StopWords()无法工作

相关·内容

在Spark/Scala ML中使用RegexTokenizer()后，StopWords()无法工作

在Spark2.0中访问向量列时的MatchError

输入类型必须是字符串类型，但在使用Scala时得到ArrayType(StringType，true)错误

为什么朴素的贝叶斯不能像Logistic回归那样在星火MLlib管道中工作？

无法在Pyspark中执行用户定义函数RegexTokenizer

将JavaRDD<Row>转换为JavaRDD<Vector>

Scala和Python中的LSH

在火星雨中找不到字段

多类分类评估器字段不存在错误- Apache

在PySpark ML中创建自定义转换器

Apache火花文本相似度

为什么我在RegexTokenizer中的PySpark转换与所需的模式相反？

如何使用PySpark的RegexTokenizer从字符串中删除数字？

用RegexTokenizer和Word2Vec标记句子并将其矢量化

R包和火花/python为文档术语频率任务提供了不同的词汇量。

PySpark诉内存问题

为什么LogisticRegression在"IllegalArgumentException: IllegalArgumentException“中失败？

正在尝试将数据帧写入文件，写入行时获取org.apache.spark.SparkException: Task失败

MLlib regexTokenizer正在忽略重音

火花ML管道api保存不工作

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐