解压python字典的pyspark pipelineRDD到pyspark Dataframe

文章/答案/技术大牛

发布

1回答

、、、、

这是扁平图之后我的结果的样本行： [Row(XXXX-XXXX-XXXX-XXXXX-XXXXXX={'m_ci_id': 'XXXX-XXXX-XXXX-XXXXX-XXXXXX', 'ci_id':dict中看到的列相同，这是我在平面映射中使用的函数： def get_poles_phases(row): :param row: """new_

浏览 42提问于2021-04-16得票数 1

回答已采纳

2回答

不明白火种是怎么让蟒蛇跑到亚恩的？ProcessBuilder如何处理zip文件？

、、、、

这一步骤是：2.火花-提交给纱线，它将pyspark.zip分发给所有的机器。3.火花工作者找到pyspark.zip并在其中处理python文件。但是代码和显示它只将压缩文件的路径放到ProcessBuilder的环境中。我还没有找到解压缩pyspark.zip的代码。所以我想知道ProcessBuilder是如何<

浏览 6提问于2016-04-14得票数 1

回答已采纳

2回答

PySpark dataframe到python不带嵌套字典列表

、、、

，但是作为"words“的字典列表不会保留字典列表的格式。它们变成了元组的列表。我怎么才能避免呢？在火星雨中：转换为python dataframe：python

浏览 4提问于2022-03-10得票数 0

2回答

如何在Pyspark中使用Scala类

、、、、

我已经搜索了一段时间了，如果有任何方法在Pyspark中使用一个Pyspark类，我还没有找到任何关于这个主题的文档或指南。假设我在Scala中创建了一个简单的类，它使用了一些apache-spark库，如下所示： def exe(): DataFrame = {

浏览 3提问于2016-03-15得票数 29

回答已采纳

1回答

星星之火1.6:如何将从Scala jar生成的RDD转换为吡火花RDD？

、、、

以下是Scala端的代码： } 这就是我在PySpark端访问它所做的事情：>>> type(moo) >>> <class 'pyspark

浏览 18提问于2017-05-05得票数 0

回答已采纳

1回答

为什么我得到了TypeError:不能在使用_thread.RLock时选择'_thread.RLock‘对象

、、、、

我用火花来处理我的数据，就像这样： url='jdbc:/site-packages/pyspark/python/lib/pyspark.zip/pyspark/context.py"，行611，在"/Librar

浏览 2提问于2022-05-11得票数 0

回答已采纳

1回答

火星城有相当于蟒蛇的瓷砖吗？

、、、、

我在python中有一个numpy数组，我想复制它自己，因此我使用了tile(array(x), (2, 1))。这一点，假设数组[1,2,3]将返回[[1,2,3],[1,2,3]]谢谢

浏览 2提问于2016-11-18得票数 0

回答已采纳

2回答

pyspark.pandas和熊猫有什么区别？

、

开始在Databricks上使用PySpark，我看到我可以在pandas的同时导入pyspark.pandas。有什么不同吗？我想这不像koalas，对吧？

浏览 13提问于2022-09-20得票数 0

1回答

在使用PySpark时，如何在Spark中实现Python数据结构？

、、、

我目前正在自学Spark programming，并试图用PySpark重新编写一个现有的Python应用程序。然而，我仍然对如何在PySpark中使用常规Python对象感到困惑。我了解Spark中的分布式数据结构，如RDD、DataFrame、Datasets、vector等。Spark有自己的转换操作和动作操作，如.map()、.reduceByKey()来操作这些对象。但是，如果我在PySpark中创建传统的Pytho

浏览 34提问于2017-03-01得票数 1

回答已采纳

1回答

未解决的关于吡咯烷酮的引用“火种”

、、

我是个用python编程的乞丐，我只是想从pyspark包中导入一些特性。问题是，当我写这个的时候：有人说“未解决的参考火花”。为什么会这样呢？下面是我创建proyect所遵循的步骤：名为"main.py“的新python文件

浏览 1提问于2017-10-02得票数 0

1回答

如何在PySpark中将字典转换为数据帧？

、、

/apache-spark/2.4.5/libexec/python/pyspark/sql/session.py", line 730, in prepare verify_func(obj)File "/usr/local/Cellar/apache-spark/2.4.5/libexec/python/pyspark/sql

浏览 8提问于2020-04-21得票数 5

回答已采纳

2回答

Pyspark将列列表放入聚合函数

、、、

我有一个关于Pyspark中的udf的问题和一个具体的案例。我正在尝试创建一个简单的、可重用的函数来聚合不同级别和组上的值。输入应为：现有数据帧 group by的变量(单列或列表) 要聚合的变量(同上) 要应用的函数(可以是一个特定的函数，也可以是它们的列表)。我保持简单的求和，平均，最小，最大值，等等。当我有一个单独的函数或一个列表时，我让

浏览 60提问于2020-11-26得票数 0

回答已采纳

4回答

pyspark: pip安装找不到版本

、

我正在尝试使用pip install安装pyspark，如下所示。但是我得到了以下错误。(python_virenv)edamame$ pip install pyspark Could not find a version that satisfiesthe requirement pyspark (from versions: )有谁知道吗？

浏览 7提问于2016-07-16得票数 6

1回答

pyspark对每个目标变量的类进行过采样

、、、、

我想知道是否有任何方法可以使用pyspark对数据进行过采样。我有10个类的目标变量的数据集。对于ex，如果第四个类有2000行，第二个类有10行，则手动检查并相应地提供值16,12，如上面的代码所示请原谅我提到的代码是不完整的。只是为了给出我所提出的观点。我想知道在pyspark中有没有像SMOTE这样的自动化方法。我看到了下面的链接，Oversampling or SMOTE in Pyspark 它说我的

浏览 121提问于2020-07-03得票数 0

6回答

无法安装pyspark

、

我正在尝试安装pyspark，如下所示：我得到了这个错误：已经安装了pypandoc 有什么办法可以安装pyspark吗？

浏览 6提问于2018-07-24得票数 15

2回答

如何生产熊猫数据行以激发数据

、、、、

嗨，我正在进行转换，我已经创建了some_function(iter)生成器到yield Row(id=index, api=row['api'], A=row['A'], B=row['B']，以生成从熊猫数据格式到rdd的转换行，并激发数据格式。(我必须使用熊猫来转换数据，因为有大量的遗留代码)respond_sdf.show() +------------------------------------

浏览 5提问于2020-12-22得票数 2

回答已采纳

1回答

我是否需要使用普通的python，除了pyspark，或者pyspark拥有我所需要的所有东西？

、、、

我的公司正转向使用Hadoop & learning进行机器学习。我知道python在库中是非常全面的，但是当我们切换到pyspark时，如果我们需要的东西还没有在pyspark中可用呢？而且，继续使用python可能更容易一些，因为我已经知道了python.So：

浏览 4提问于2017-08-30得票数 0

1回答

在AWS lambda函数上使用pyspark二进制文件时，错误Java网关进程在向驱动程序发送其端口号之前已退出

、、

我的lambda函数(python 3.6)有问题，lambda函数使用pyspark (spark-2.3.0-bin-hadoop2.7二进制文件)。由于pyspark二进制文件非常大(226MB的压缩文件)，我将其上传到S3存储桶中。lambda函数将文件解压到/tmp文件夹中。pyspark解压后，将对文件夹和文件授予权限： for root, dirs, filenames in os.walk(/tmp/spa

浏览 5提问于2018-05-02得票数 0

1回答

当从RDD转换到DataFrame时，我得到一个EOFError。是什么导致了这种情况，我如何阻止它？

、、

当尝试将RDD转换为DataFrame时，我得到一个错误，"EOFError“。我能做些什么来阻止这一切？我尝试过用另一种方法创建DataFrame，但这有其自身的复杂性。我认为我目前尝试创建DataFrame的方法是最简单的方法。： Traceback (most recent call last): File "/opt/spark/python/lib/pyspark.z

浏览 31提问于2019-10-04得票数 1

回答已采纳

1回答

在PySpark* (本地)上编程与在Jupyter Notebook上使用Python编程*

、、

最近我一直在使用pySpark，所以我已经习惯了它的语法、不同的API和HiveContext函数。很多时候，当我开始处理一个项目时，我并不完全知道它的范围是什么，或者输入数据的大小，所以有时我最终需要分布式计算的全部功能，而在另一些情况下，我最终得到了一些在我的本地计算机上运行良好的脚本。我的问题是，与常规的Python/Pandas相比，将pySpark作为我

浏览 0提问于2016-07-27得票数 1

点击加载更多