如何在pyspark中使用链接？

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

1回答

如何在Visual代码中向PYTHONPATH添加或追加python或PySpark模块

、、、、

在IDE中设置Pyspark的两种方法是：通过在"PYTHONPATH“路径中添加PySpark模块，如下文所述。- [PySpark in Eclipse: using PyDev](https://stackoverflow.com/questions/33326749/pyspark-in-eclipse-usi

浏览 1提问于2019-03-11得票数 0

回答已采纳

1回答

如何将索引转换为PySpark DataFrame？

、、、

我有一个PySpark DataFrame，类似：------------|201 |efgh ||133 |mnop|mylist = ['abcd', 'ijkl', 'efgh', 'efgh', 'abcd', 'ijkl', 'ijkl'] 我希望使用pyspar

浏览 2提问于2019-08-20得票数 1

回答已采纳

1回答

在使用PySpark时，如何在Spark中实现Python数据结构？

、、、

我目前正在自学Spark programming，并试图用PySpark重新编写一个现有的Python应用程序。然而，我仍然对如何在PySpark中使用常规Python对象感到困惑。我了解Spark中的分布式数据结构，如RDD、DataFrame、Datasets、vector等。Spark有自己的转换操作和动作操作，如.map()、.reduceByKey()来操作这些对象。但是，如果我在PySpark中创建传统的Python数据对

浏览 34提问于2017-03-01得票数 1

回答已采纳

1回答

如何在jupyter笔记本中使用apachee-toree内核的pyspark以良好的格式显示数据帧

、、、、

如果输出的格式不是很好，就会变得非常困难，如链接-> 中的图像所示。我在使用apache-toree内核的pyspark中的jupyter笔记本上运行我的代码。目前，当我展示我的数据帧时，它看起来有点像这个链接-> 中的图像。我知道有一种方法可以使用apache 上提到的“魔法”，但它在pyspark中也不起作用。它给出了用pyspark显示在中的错

浏览 2提问于2018-06-27得票数 1

2回答

如何将数据从Google PubSub主题流到PySpark ( Google上)

、、、

我可以看到使用简单Python代码的数据：def callback(message):future.result() 上面的python代码从Google PubSub主题(使用订阅服务器我希望将来自主题的相同数据流到PySpark (RDD或dataframe)中，这样我就可以进行

浏览 1提问于2018-09-17得票数 1

1回答

使用套接字的火花结构化流，设置模式，在控制台中显示DATAFRAME

、、、

如何在DataFrame中为流PySpark设置架构。from pyspark.sql import SparkSessionfrom pyspark.sql.functionsimport splitfrom pyspark.sql.types import * .builderforma

浏览 3提问于2016-12-29得票数 3

回答已采纳

1回答

PySpark与方法链

、、、

我是PySpark的新手，我想知道如何在那里使用方法链接。在熊猫中，我会用lambda来赋值，例如 .drop(columns=['numbe

浏览 1提问于2020-04-28得票数 3

回答已采纳

1回答

使用pyspark从s3读取流数据

、、、、

我想利用python的极其简单的文本解析和函数式编程能力，并利用丰富的科学计算库，如numpy和scipy，因此我想使用pyspark来完成一项任务。我一开始要执行的任务是从一个存储桶中读取数据，其中有文本文件作为流的一部分被写入。有人可以粘贴一个代码片段，说明如何使用pyspark从s3路径中读取流数据吗？直到最近我还以为只能使用scala和java才能做到这一点，但我今天才发现Spark1.2以后的版本，pyspark也支持流媒体

浏览 1提问于2015-04-10得票数 2

1回答

用火花放电流到HBase

、、、

在线上有相当数量的关于使用Scala进行星火流的批量加载的信息( 是特别有用的)，以及一些用于PySpark的信息，但是使用PySpark似乎缺乏这样的信息。所以我的问题是：任何语言中的大多数示例都只显示每一行上的一个列。如何在每一行中插入多列？我以前已经取得了一些进展，有很多各种各样的错误(如文档化的和)

浏览 2提问于2016-01-28得票数 3

1回答

如何从火花放电中的rdd中创建关键值paris

、、

我遇到了这个链接，有人能帮助我如何在火花呢？由于我是PySpark新手，有人能帮助我理解如何用PySpark编写下面的代码吗？

浏览 4提问于2022-06-06得票数 0

回答已采纳

2回答

为初学者安装pyspark

、、

我目前正在data camp中学习pyspark课程，现在我想开始尝试使用pyspark在我自己的计算机上构建一些我自己的项目。然而，我对spark/pysaprk本身的安装以及如何在jypter notebook中运行它感到非常困惑。我还遵循了此链接中的安装说明： https://medium.com/@brajendragouda/installing-apache-spark-on-ubuntu-pyspa

浏览 23提问于2019-12-20得票数 0

回答已采纳

1回答

无法将组织模块导入到PySpark集群

、、、、

我也尝试过将org.apache.spark替换为pyspark，但仍然不起作用。 !

浏览 19提问于2020-06-01得票数 0

回答已采纳

1回答

如何为HIVE/PySpark表中的每一列获取唯一值？

、、

我有一张带有A、B和C列的HIVE/PySpark的桌子。我想为每一列获得唯一的值，如任何格式(数据、表格等) 如何在或PySpark中高效地执行这个(与每个列并行)？

浏览 0提问于2018-07-17得票数 0

回答已采纳

3回答

为什么当我使用IPython运行Pyspark时总是得到错误env: ipython:没有这样的文件或目录

、

我想用IPython运行Pyspark终端。我已经在正确的目录中运行了该命令，如但我最终得到的是env: ipython: No such file or directory 我已经使用brew cask install安装了An

浏览 6提问于2016-01-27得票数 2

回答已采纳

1回答

获取执行者任务在pyspark中的任务id

、、

我在pyspark中有一个rdd.foreachPartition(some_function)操作。some_function函数将executor中当前任务的数据写入所有executor通用位置的文件(如hdfs或s3 bucket)。现在，如果我在所有的执行器中使用相同的文件名，那么这个文件就会被替换，只剩下最后一个写入的文件。因此，我正在寻找一个唯一的标识符来表示每个任务，从而表示每个文件名。但是在任何地方都找不到，如何在pyspark中获取任务ID。我在sca

浏览 0提问于2018-05-05得票数 2

1回答

、、、

我有一个名为Incito的数据帧，在该数据帧的Supplier Inv No列中由逗号分隔值组成。我需要通过使用pyspark适当地重复那些逗号分隔值来重新创建数据帧。我正在使用下面的that.Can代码，我可以将其转换为pyspark吗？中尝试的方法，我没有得到预期的结果。from pyspark.context import SparkContext, SparkConf from pyspark.sql.session import SparkS

浏览 10提问于2021-05-18得票数 0

回答已采纳

2回答

在windows操作系统中运行pyspark (Anaconda - Spyder)

、、、

亲爱的们，我使用的是windows10，我熟悉在Spyder中测试我的python代码。然而，当我试着写without pyspark“命令时，Spyder显示”没有模块命名为' Pyspark '“pyspark安装在我的PC上，我也可以在命令提示符中导入pyspark而没有任何错误。我找到了许多博客解释如何在Ubuntu中做这件事，但我没有找到如何在windows中解决它。

浏览 1提问于2018-09-25得票数 3

3回答

如何在不更改log4j.properties的情况下关闭PySpark日志中的信息？

、、

我在一个集群中工作，在这个集群中，我没有权限在使用log4j.properties时更改文件以停止信息记录(如第一个答案中所解释的那样)。在上面问题的第一个答案中解释的以下解决方案适用于spark-shell (scala)import org.apache.log4j.Level但是对于带有python的spark (即pyspark)，它不起作用，也不能用于以下操作 Logger.getLogger("org&

浏览 2提问于2015-09-10得票数 17

回答已采纳

1回答

ValueError:尝试在pyspark中的非包中进行相对导入/找不到kmodes模块(Pyspark)

、、、

ValueError:尝试在pyspark中的非包中进行相对导入。当我尝试在pyspark .So中使用kmode时，上面的错误就来了，我使用sc.addFile("home/pyspark-distributedkmodesmaster/pyspark_kmodes/pyspark_kmodes.py") .If来解析kmode包，我没有使用sc上下文添加文件代码，它抛出了错误-“找

浏览 1提问于2017-10-24得票数 0

2回答