腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
在使用
PySpark
时,如
何在
Spark
中
实现Python数据结构?
python
、
python-2.7
、
apache-spark
、
pyspark
我目前正在自学Spark programming,并试图用
PySpark
重新编写一个现有的Python
应用
程序。然而,我仍然对如
何在
PySpark
中使用常规Python对象感到困惑。我了解Spark
中
的分布式数据结构,
如
RDD、DataFrame、Datasets、vector等。Spark有自己的转换操作和动作操作,
如
.map()、.reduceByKey()来操作这些对象。但是,如果我在
PySpark
中
创建传统的Python数据对
浏览 34
提问于2017-03-01
得票数 1
回答已采纳
1
回答
在
pyspark
中
的列上具有某些条件的多个列上的Dataframe连接
python
、
apache-spark
、
pyspark
、
apache-spark-sql
line 1, in <module> File "/opt/cloudera/parcels/CDH-5.10.2-1.cdh5.10.2.p2667.3017/lib/spark/python/
pyspark
浏览 1
提问于2018-05-25
得票数 0
2
回答
无法导入模块'lambda_function':没有名为'
pyspark
‘的模块
python-3.x
、
pyspark
、
aws-lambda
我正在尝试使用AWS Lambda
函数
运行我的
PySpark
作业代码。下面是错误:无法导入模块'lambda_function':没有名为'
pyspark
‘的模块from
pyspa
浏览 0
提问于2018-12-11
得票数 0
1
回答
用火花放电流到HBase
hadoop
、
hbase
、
pyspark
、
spark-streaming
在线上有相当数量的关于使用Scala进行星火流的批量加载的信息( 是特别有用的),以及一些用于
PySpark
的信息,但是使用
PySpark
似乎缺乏这样的信息。所以我的问题是: streamingContext.awaitTermin
浏览 2
提问于2016-01-29
得票数 3
1
回答
使用
pyspark
从s3读取流数据
numpy
、
amazon-web-services
、
amazon-s3
、
apache-spark
、
pyspark
我想利用python的极其简单的文本解析和
函数
式编程能力,并利用丰富的科学计算库,
如
numpy和scipy,因此我想使用
pyspark
来完成一项任务。我一开始要执行的任务是从一个存储桶
中
读取数据,其中有文本文件作为流的一部分被写入。有人可以粘贴一个代码片段,说明如何使用
pyspark
从s3路径
中
读取流数据吗?直到最近我还以为只能使用scala和java才能做到这一点,但我今天才发现Spark1.2以后的版本,
pyspark
也支持流媒体,但不确定是否支持S3流媒体?我如<
浏览 1
提问于2015-04-11
得票数 2
2
回答
如
何在
pyspark
中
应用
函数
?
pyspark
、
apache-spark-sql
我有一个返回特定日期的
函数
,如下所示: def specific_date(date_input):+----------+----+---+----+----+----+----+ df1.createOrReplaceTempView("vw") 然后,如果我调用一个
函数
浏览 5
提问于2020-11-10
得票数 0
回答已采纳
1
回答
如
何在
调试模式下调用
PySpark
?
python
、
python-2.7
、
hadoop
、
intellij-idea
、
apache-spark
我在ApacheSpark1.4
中
设置了IntelliJ IDEA。我目前正在运行这个Python来初始化星火进程。
浏览 5
提问于2015-07-06
得票数 22
1
回答
获取执行者任务在
pyspark
中
的任务id
python
、
apache-spark
、
pyspark
我在
pyspark
中有一个rdd.foreachPartition(some_function)操作。some_function
函数
将executor
中
当前任务的数据写入所有executor通用位置的文件(
如
hdfs或s3 bucket)。但是在任何地方都找不到,如
何在
pyspark
中
获取任务ID。我在scala/java中找到了一些,但在
pyspark
中
找不到。 更新:按照建议,我查看了。然而,当我对每个阶段
中</
浏览 0
提问于2018-05-05
得票数 2
1
回答
如何将索引转换为
PySpark
DataFrame?
python
、
indexing
、
pyspark
、
databricks
我有一个
PySpark
DataFrame,类似:------------|201 |efgh ||133 |mnop|mylist = ['abcd', 'ijkl', 'efgh', 'efgh', 'abcd', 'ijkl', 'ijkl'] 我希望使用
pyspark
将列表
浏览 2
提问于2019-08-20
得票数 1
回答已采纳
3
回答
调试python-spark代码的最佳实践
apache-spark
、
pyspark
、
pdb
我现在这样做的方式是启动
pyspark
shell,复制粘贴,然后逐行执行代码。我想知道是否有更好的方法。 如果pdb.set_trace()能够工作,那么它将是一个更有效的选择。但是,在shell
中
输入的任何pdb命令都会被挂起。pdb.set_trace()被插入在spark
函数
调用之间,据我所知,应该在本地运行的驱动程序
中
执行,并附加一个终端。
浏览 0
提问于2018-03-13
得票数 8
1
回答
用火花放电写自定义的联非新议程
python
、
pandas
、
pyspark
、
user-defined-functions
我需要编写一个自定义的
pySpark
,我遇到了这个例子。在类似的行
中
,
如
线程的最后一部分所示,我提出了以下
函数
StructField("keybloomfilter
如</em
浏览 1
提问于2019-04-04
得票数 1
2
回答
如何正确循环和构建
pyspark
dataframe
python
、
apache-spark
、
dataframe
、
pyspark
、
iteration
我已经完成了
Pyspark
dataframe的逻辑,现在必须
应用
不同的输入并组合结果。 我想知道创建一个UDF并多次调用它是否对性能有任何好处,而不是遍历这些值,如下所示。
浏览 0
提问于2019-07-03
得票数 1
1
回答
使用套接字的火花结构化流,设置模式,在控制台中显示DATAFRAME
apache-spark
、
pyspark
、
apache-spark-sql
、
spark-structured-streaming
如
何在
DataFrame
中
为流
PySpark
设置架构。from
pyspark
.sql import SparkSessionfrom
pyspark
.sql.functionsimport splitfrom
pyspark
.sql.types import * .builderforma
浏览 3
提问于2016-12-29
得票数 3
回答已采纳
1
回答
用
PySpark
计算形状值
python
、
pandas
、
apache-spark
、
pyspark
、
shap
我正在寻找一种方法来减少在我的大型数据集上计算SHAP值所需的计算时间(大约180米行,6个特性),我遇到了这个,讨论了如
何在
SHAP上使用
PySpark
。代码片段演示了如
何在
PySpark
中使用Pandas并行化
应用
扩展程序。我们定义了一个名为calculate_shap的熊猫UDF,然后将这个
函数
传递给mapInPandas。然后使用此方法将并行化方法
应用
于
PySpark
数据。我们将使用这个UDF来运行SHAP性能测试。 我不太明白
P
浏览 6
提问于2022-07-28
得票数 2
3
回答
如何从RDD[
PYSPARK
]
中
删除重复的值
python
、
apache-spark
、
rdd
我有以下表格作为RDD:1 y1 y1 n2 n我想从Value
中
删除所有的重复项。输出应如下所示:1 y2 y在
pyspark
中
工作时,输出应该是如下所示的键值对列表:我不知道如
何在
这里
应用
for循
浏览 4
提问于2014-09-18
得票数 14
回答已采纳
1
回答
如
何在
postgres驱动程序中使用nextval()?
sql
、
postgresql
、
apache-spark
、
jdbc
、
pyspark
在Postgres
中
,我有一个名为"mytable“的表,其中有两个列,id (bigint)和value (varchar(255))。id使用nextval('my_sequence')从序列
中
获取其值。
PySpark
应用
程序接受一个dataframe并使用postgresql(PostgreSQL42.1.4.jar)将数据插入到"mytable“
中
。我可以看到,在读取数据()时可以调用Postgres方法,但我不确定如何调用Postgres
函数</e
浏览 0
提问于2018-01-21
得票数 2
回答已采纳
1
回答
没有为方案配置AbstractFileSystem : gs
gcloud
、
gobblin
、
gcs
at org.apache.hadoop.fs.AbstractFileSystem.createFileSystem(AbstractFileSystem.java:160) 我能够在命令行
中
运行
浏览 13
提问于2021-12-09
得票数 0
2
回答
斯卡拉是星火的必备品吗?
scala
、
apache-spark
在它的文档
中
,它说它可以在Scala或Python中使用。 一些博客说,火花依赖于scala (例如,)。因此,我想知道:scala是Spark的必修课吗?
浏览 2
提问于2014-12-21
得票数 6
1
回答
Spark
中
的withField
sql
、
apache-spark
、
pyspark
、
struct
、
apache-spark-sql
在
PySpark
中
,我们可以使用# | |-- _1: long (nullable = true)如
何在
中使用df.explain(True) #
浏览 10
提问于2022-08-03
得票数 2
回答已采纳
1
回答
我需要安装Hadoop才能使用
Pyspark
的所有方面吗?
python
、
apache-spark
、
hadoop
、
pyspark
我已经安装了
pyspark
,但没有单独安装任何hadoop或spark版本。显然,在Windows下,
pyspark
需要访问Hadoop的winutils.exe来做一些事情(例如,将文件写入磁盘)。当
pyspark
想要访问winutilis.exe时,它会在HADOOP_HOME环境变量(用户变量)指定的文件夹的bin目录
中
查找它。因此,我将winutils.exe复制到
pyspark
(.\site-packages\
pyspark
\bin)的bin目录
中
,并将HA
浏览 4
提问于2020-03-24
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何在 Bash 中编写函数
如何在 Linux Shell 编程中定义和使用函数
Excel中函数Vlookup的应用
如何在OpenStack中轻松部署MySQL应用
Pandas库中的函数应用和映射
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券