如何在PySpark中使用UnaryTransformer？

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

1回答

、、、

在这里，我找不到我的实现出了什么问题，也找不到任何关于如何在PySpark管道中使用UnaryTransformer计算自定义转换的示例。from pyspark.ml import Pipeline, UnaryTransformerfrompyspark.sql.types import DoubleType df = spark.createData

浏览 27提问于2021-01-26得票数 1

回答已采纳

1回答

对于输入，VectorAssembler需要什么样的数据类型？

、、、

核心问题是这里df = spark.createDataFrame([([1, 2, 3], 0, 3)]我知道这是个玩具问题，但我正在尝试将它集成到一个更长的流水线中，并有步骤自定义UnaryTransformer将所有1乘10

浏览 1提问于2021-01-28得票数 0

回答已采纳

1回答

如何将索引转换为PySpark DataFrame？

、、、

我有一个PySpark DataFrame，类似：------------|201 |efgh ||133 |mnop|mylist = ['abcd', 'ijkl', 'efgh', 'efgh', 'abcd', 'ijkl', 'ijkl'] 我希望使用pyspar

浏览 2提问于2019-08-20得票数 1

回答已采纳

1回答

在使用PySpark时，如何在Spark中实现Python数据结构？

、、、

我目前正在自学Spark programming，并试图用PySpark重新编写一个现有的Python应用程序。然而，我仍然对如何在PySpark中使用常规Python对象感到困惑。我了解Spark中的分布式数据结构，如RDD、DataFrame、Datasets、vector等。Spark有自己的转换操作和动作操作，如.map()、.reduceByKey()来操作这些对象。但是，如果我在PySpark中创建传统的Python数据对

浏览 34提问于2017-03-01得票数 1

回答已采纳

1回答

使用套接字的火花结构化流，设置模式，在控制台中显示DATAFRAME

、、、

如何在DataFrame中为流PySpark设置架构。from pyspark.sql import SparkSessionfrom pyspark.sql.functionsimport splitfrom pyspark.sql.types import * .builderforma

浏览 3提问于2016-12-29得票数 3

回答已采纳

1回答

使用pyspark从s3读取流数据

、、、、

我想利用python的极其简单的文本解析和函数式编程能力，并利用丰富的科学计算库，如numpy和scipy，因此我想使用pyspark来完成一项任务。我一开始要执行的任务是从一个存储桶中读取数据，其中有文本文件作为流的一部分被写入。有人可以粘贴一个代码片段，说明如何使用pyspark从s3路径中读取流数据吗？直到最近我还以为只能使用scala和java才能做到这一点，但我今天才发现Spark1.2以后的版本，pyspark也支持流媒体

浏览 1提问于2015-04-11得票数 2

1回答

用火花放电流到HBase

、、、

在线上有相当数量的关于使用Scala进行星火流的批量加载的信息( 是特别有用的)，以及一些用于PySpark的信息，但是使用PySpark似乎缺乏这样的信息。所以我的问题是：任何语言中的大多数示例都只显示每一行上的一个列。如何在每一行中插入多列？我以前已经取得了一些进展，有很多各种各样的错误(如文档化的和)

浏览 2提问于2016-01-29得票数 3

1回答

无法将组织模块导入到PySpark集群

、、、、

我也尝试过将org.apache.spark替换为pyspark，但仍然不起作用。 !

浏览 19提问于2020-06-02得票数 0

回答已采纳

1回答

如何为HIVE/PySpark表中的每一列获取唯一值？

、、

我有一张带有A、B和C列的HIVE/PySpark的桌子。我想为每一列获得唯一的值，如任何格式(数据、表格等) 如何在或PySpark中高效地执行这个(与每个列并行)？

浏览 0提问于2018-07-18得票数 0

回答已采纳

3回答

为什么当我使用IPython运行Pyspark时总是得到错误env: ipython:没有这样的文件或目录

、

我想用IPython运行Pyspark终端。我已经在正确的目录中运行了该命令，如但我最终得到的是env: ipython: No such file or directory 我已经使用brew cask install安装了An

浏览 6提问于2016-01-28得票数 2

回答已采纳

1回答

获取执行者任务在pyspark中的任务id

、、

我在pyspark中有一个rdd.foreachPartition(some_function)操作。some_function函数将executor中当前任务的数据写入所有executor通用位置的文件(如hdfs或s3 bucket)。现在，如果我在所有的执行器中使用相同的文件名，那么这个文件就会被替换，只剩下最后一个写入的文件。因此，我正在寻找一个唯一的标识符来表示每个任务，从而表示每个文件名。但是在任何地方都找不到，如何在pyspark中获取任务ID。我在sca

浏览 0提问于2018-05-05得票数 2

2回答

在windows操作系统中运行pyspark* (Anaconda - Spyder)*

、、、

亲爱的们，我使用的是windows10，我熟悉在Spyder中测试我的python代码。然而，当我试着写without pyspark“命令时，Spyder显示”没有模块命名为' Pyspark '“pyspark安装在我的PC上，我也可以在命令提示符中导入pyspark而没有任何错误。我找到了许多博客解释如何在Ubuntu中做这件事，但我没有找到如何在windows中解决它。

浏览 1提问于2018-09-26得票数 3

3回答

如何在不更改log4j.properties的情况下关闭PySpark日志中的信息？

、、

我在一个集群中工作，在这个集群中，我没有权限在使用log4j.properties时更改文件以停止信息记录(如第一个答案中所解释的那样)。在上面问题的第一个答案中解释的以下解决方案适用于spark-shell (scala)import org.apache.log4j.Level但是对于带有python的spark (即pyspark)，它不起作用，也不能用于以下操作 Logger.getLogger("org&

浏览 2提问于2015-09-11得票数 17

回答已采纳

2回答

无法导入模块'lambda_function'：没有名为'pyspark‘的模块

、、

我正在尝试使用AWS Lambda函数运行我的PySpark作业代码。下面是错误:无法导入模块'lambda_function'：没有名为'pyspark‘的模块from pyspark.sql import

浏览 0提问于2018-12-11得票数 0

1回答

如何在pyspark中对A1、A2、A10等in进行排序？

、

如何在pyspark中对in进行排序，如A1, A2, A10, B1等？当我尝试使用orderBy进行排序时，我得到的数据如下：A10A2etc..

浏览 0提问于2019-01-27得票数 5

1回答

在Pyspark上安装seaborn

、、

我正在使用Apache Pyspark和Jupyter notebook。在其中一个机器学习教程中，讲师使用了seaborn和pyspark。我们如何在Apache Spark (而不是Pyspark)上安装和使用像Seaborn这样的第三方库？

浏览 20提问于2017-06-28得票数 0

1回答

如何在python (anaconda)中使用较早版本的GLIBC？

、、

我正在运行一个python脚本，它在集群上提交一个pyspark作业。然而，在GLIBC问题上，工作失败了。platform('glibc', '2.17') # This is my machine 解决这个问题的一种方法是确保我的机器上的python使用我正在使用anaconda创建python虚拟env。我该怎么处理这个？

浏览 1提问于2021-07-16得票数 1

回答已采纳

2回答

AssertionError: col应该是列

、、、

如何在PySpark中创建一个新列并用今天的日期填充该列？

浏览 4提问于2017-12-20得票数 30

回答已采纳

4回答

Python导入语法:我不认识这个(“它错了.”)

、

PySpark的文档在示例中包括以下内容：from pyspark.sql.functions import *from datetime import date, timedelta, datetime 我不认识或理解最后两行的语法。我知道导入路径中的.和.. (“相对导入路径”)，但是这个语法对我来说是新的，我找不到它的文档位置或名称。我

浏览 5提问于2022-06-15得票数 0

回答已采纳

1回答

在VS代码中调试PySpark

、、

我正在使用VS代码在PySpark中构建一个项目。我安装了PySpark，PySpark被正确导入并运行在木星笔记本上。这样做，我就跑：findspark.init() from pyspark.context import SparkContextsc = SparkContext('

浏览 2提问于2022-07-20得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云