使用索引器和编码器时出现PySpark管道错误

文章/答案/技术大牛

发布

1回答

、、、、

我正在使用bank data from UCI来创建一个项目的模板。我在他们的文档网站上关注了PySpark教程(对不起，我再也找不到链接了)。在流水线中运行时，我一直收到错误。我已经加载了数据，转换了特征类型，并完成了分类和数值特征的管道。我想要任何关于代码任何部分的反馈，但特别是我在哪里得到了错误，这样我就可以继续这个构建。提前谢谢你！Pipeline().setStages(stages)prepped_df = pipelin

浏览 11提问于2019-06-14得票数 3

回答已采纳

3回答

列变换后的Pyspark随机森林特征重要性映射

、、、

因为我也有文本分类变量和数字变量，所以我不得不使用管道方法，这种方法类似于- 使用向量汇编程序创建包含特征向量的特征列。=categoricalCol，outputCol=categoricalCol + "Index") # Use OneHotEncoder将分类变量转换为二进制StringIndexer#编码器=“<e

浏览 1提问于2018-06-19得票数 4

1回答

用于org.json.JSONObject的Apache波束编码器

、

我正在Apache中编写一个数据管道，它从Pub/Sub读取，反序列化消息到JSONObjects，并将它们传递到其他管道阶段。问题是，当我试图提交代码时，会出现以下错误：执行Java类时发生异常。纠正以下原因之一:没有手动指定任何编码程序；您可以使用.setCoder()这样做。从CoderRegistry推断编码器失败:无法为org.json.JSONObject提供编码器。使用已注册的CoderP

浏览 3提问于2019-12-10得票数 4

回答已采纳

1回答

拟星体: kmeans的分类变量准备

我在下面的代码中有错误。我从蜂巢中读取我的表，在管道中使用一个编码器，然后将代码发送到Kmeans。运行这段代码时，我会收到一个错误。错误是否是以数据类型输入给Kmeans的？如果是这样，我如何将索引数据传输到numpy数组！？！？所有的评论都被删除了，谢谢你的帮助！我得到的错误："/usr/hdp/2.3.2.0-2950/spark/python/lib&#x

浏览 1提问于2016-02-02得票数 0

2回答

在数据库上运行时将PySpark标准输出和标准错误日志保存到云对象存储中

、、、、

我正在标准databricks集群上运行我的PySpark数据管道代码。我需要将所有Python/PySpark标准输出和标准错误消息保存到Azure BLOB帐户中的文件中。当我在本地运行Python代码时，我可以看到所有的消息，包括终端中的错误，并将它们保存到日志文件中。对于PySpark数据管道代码，如何使用Databricks和Azure BLOB实现类似的功能呢？

浏览 14提问于2022-07-05得票数 0

2回答

Netty -分隔ZLib编码数据

、、

是否有必要对Netty的ZlibDecoders使用诸如LengthFieldBasedFrameDecoder之类的分隔符？我有一个问题，解码器有时会出现“未知压缩方法”的错误，当我修改管道来界定数据时，这个问题就消失了。Zlib编码器/解码器的javadoc没有按要求提到这一点，尽管他们的超类提到了这一点。

浏览 1提问于2012-06-06得票数 1

回答已采纳

1回答

如何在gstreamer中暂停视频录制

、

我创建了一个管道，如下所示： tee -> queue -> v4l2sink现在我想暂停录制(保持回送，但暂停编码器)，当我恢复时，我希望记录文件从我恢复的地方继续。我尝试使用gst_element_set_state:如果我暂停管道，回送就会停止。如果我暂停编码器，gst_element_set_state的

浏览 2提问于2011-09-23得票数 4

1回答

如何确定Netty通道管道中的操作顺序

、、

例如，如果我想构建一个websocket服务器，我想知道应该在initChannel方法中放入什么。

浏览 4提问于2016-08-08得票数 0

回答已采纳

1回答

OneHotEncoding:在一个数据文件中工作，而不是在非常、非常相似的数据very中工作。

、、、、

第一个数据文件如下：当我应用一个热编码时，一切都很好：但是，当我将完全相同的函数应用于这个不同但非常相似的dataframe时：发生下列错误：我不明白为什么会发生这种情况，因为dataframe 1和2都是从以前的dataframe中提取出来的(它们作为一个训练和测试df用于机器学习应用程序)。两者都是pyspark.sql数据格式。有谁可以帮我？

浏览 1提问于2020-12-29得票数 0

回答已采纳

1回答

我可以在Scio中设置/取消设置默认编码器吗？

、、

此外，如果我不能为包含RicherIndicator的Tuples或KVs提供一个新的编码器，那么我希望获得一个编译时或运行时错误，而不是求助于一个次优的编码器。case class RicherIndicator ( indicator: IndicatorScio也不会优先考虑注册到CoderRegistry的自定义编码器], RicherIndicatorCoder.of) // Not used 因此，无论这种类型的SCollection出现

浏览 5提问于2019-06-11得票数 0

1回答

设置自定义编码器&处理参数化类型

、

我有两个问题，有关编码器的问题，我正面临我的数据流管道。如何为自定义数据类型设置编码器？该类仅由三个项组成--两个双项和另一个参数化属性。我试着用SerializableCoder对类型进行注释，但最终还是出现了错误，SerializableCoder无法提供基于类接口java.util.Set的基于值的编码器:没有为类注册CoderFactory即使没有自定义数据类型，每当我尝试切换到转换函数的参数化版本时，它也会导致编码器<

浏览 1提问于2015-09-09得票数 5

1回答

缺失ToolBox项

、、、

在我的Visual 2013环境中，我似乎缺少了JSON编码器和解码器。我在我的开发VM和Visual 2013高级安装中安装了BizTalk 2013 R2。我的一位同事确实有JSON编码器/解码器。我最初的安装是BizTalk 2013，当它可用时，我升级到R2。我的同事重新安装了R2 --这是我唯一能看出的不同之处。我尝试过的事情：将一个项目手动添加到我的工具箱和BizTalk管道组件

浏览 3提问于2015-10-19得票数 0

回答已采纳

2回答

如何在不创建无数中间DataFrames的情况下应用多个索引器和编码器？

、、

val labelindexer = new StringIndexer().setInputCol("label").setOutputCol("labelIndex") 有没有办法应用所有这些编码器和索引器而不创建无数的中间数据格式

浏览 3提问于2017-07-27得票数 1

回答已采纳

1回答

火花放电管道中的用户定义变压器

、、、、

我正在尝试创建一个pyspark管道来运行一个分类模型。我的数据集有一个列，它是一个字符串。因此，在应用管道模型之前，我使用“StringIndexer”将其转换为数字。我的管道只包含两个阶段StringIndexer和ClassificationModel有其他方法可以删除StringInd

浏览 0提问于2017-07-19得票数 2

回答已采纳

1回答

使用mongo max/min的多键索引-查找给定键的最新记录

我正在尝试使用多关键字索引来按另一个关键字查找最新记录。我似乎不能让它表现出来。post_time timestamp, content text);然后，我可以点击索引使用MongoAnd查询 db.my_table.aggregate( { $group:{ '_id':'$

浏览 1提问于2015-02-06得票数 1

1回答

机器学习算法导致电火花算法的精度低。

、、、、

我使用数据集和机器学习算法，根据87个特征(列)对75个网络流量类进行分类。数据集由3.577.296个实例(行)组成。首先对标签进行索引，对具有连续值的列进行标准化，应用特征选择，然后使用ML算法进行分类: Logistic回归、随机森林、决策树和朴素基。所有算法的精度都很低(在NV中使用DT & 0.005 )为0.59。这些低准确度背后的原因是什么？from pyspark.sql import SparkSess

浏览 8提问于2022-02-13得票数 -1

2回答

将Spark (pyspark.pandas.Dataframe)从Azure DataBricks导出到Excel文件

、、、、

我很难将一个pyspark.pandas.Dataframe导出到一个Excel文件。spark.conf.set(f"fs.azure.account.key.更新更

浏览 13提问于2022-09-14得票数 0

回答已采纳

1回答

混合特征的Sklearn管道:数值和(倾斜)分类

、、

我已经对数据做了一些预处理(缺少值、类别聚合、选择序号和单热)。我正在尝试实现一个管道，以简化代码。管道由一个包含两个组件的ColumnTransformer组成:一个组件包含一个应用于数值和序号特征的标准定标器；第二个组件有一个用于其余特征集的一个热编码器。当GridSearchCV试图运行交叉验证时，它会引发一个错误，说明在验证模型时发现了未知类别。我认为这是因为在安装单热编码器时，火车集不包含

浏览 0提问于2020-03-18得票数 2

回答已采纳

3回答

XSD编码器管道从BizTalk生成错误的JSON对象

、、、、

我正在使用BizTalk管道和JSON编码器来将XML转换为JSON。我已经创建了XSD，但是生成的JSON有#text，而不仅仅是我的元素的值。你知道我做错了什么吗？

浏览 3提问于2018-12-25得票数 1

2回答

对SparkMlib中的多个分类列应用OneHotEncoder

、、、、

我有几个分类功能，并希望使用OneHotEncoder将它们全部转换。然而，当我尝试应用StringIndexer时，我得到了一个错误： inputCol = ['a', 'b','c','d'],

浏览 0提问于2016-03-05得票数 10

回答已采纳

点击加载更多