腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
需要
帮助
在
pyspark
中
的
for循
环中
添加
dataframe
pyspark
、
apache-spark-sql
我们
在
where子句中有
需要
应用于查询
的
条件列表 Conditions=[ Condition-2] 我们有这样
的
查询 for condition in Conditions: df = spark.sql("SELECT col1, col2 from tablewhere" + condition) 但是我们想要一个包含所有条件结果
的
最终数据帧,如何做that...our要求是这样
的
。
浏览 34
提问于2021-10-31
得票数 0
1
回答
如何用
pyspark
中
的
map转换替换python
中
的
for循环,
在
pyspark
中
,我们希望用多个条件比较前一行和当前行
pyspark
、
rdd
刚在
pyspark
dataframe
上应用map函数时遇到了路障,
需要
你
的
帮助
才能走出来。 虽然问题更复杂,但让我用下面的例子来简化它,使用字典和for循环,并
需要
在
pyspark
中
解决。下面是关于虚拟数据
的
python代码示例,我希望
在
pyspark
映射转换中使用when、使用窗口
的
子句或任何其他方式相同。问题-我在下面的字典中有一个以列名为键
的
pys
浏览 0
提问于2018-03-09
得票数 0
1
回答
pySpark
3.0如何裁剪所有列
的
空格[复制]
apache-spark
、
pyspark
、
apache-spark-sql
这个问题在这里已经有答案了 :
在
Pyspark
Dataframe
中
修剪 (3个答案) 3天前就关门了。 对于此数据帧:如何修剪循
环中
每列
的
所有前导空格和尾随空格?['col1', 'col2','col3'] # add your columns label here df.show(5) 我知道如何通过如下方式指定每一列,但
需要
对循
环中
的
所有列执行
浏览 19
提问于2021-02-26
得票数 0
回答已采纳
1
回答
向类
添加
功能
的
最佳方法-
PySpark
python
、
pandas
、
dataframe
、
oop
、
pyspark
有一段时间,我
在
寻找如何将多个列一次重命名为一个
PySpark
DF,并遇到了如下情况:def rename_sdf(df, mapper={}, **kwargs_mapper,其中通过赋值语句将方法
添加
到
pyspark
.
DataFrame
类
中
。问题是,我正在创建一个Github来存储我
的
所有函数和ETL,我认为如果我能够应用上面显示
的
逻辑,就可以非常容易地创建一个__init__.py模块,在其中实
浏览 6
提问于2020-07-09
得票数 1
2
回答
Pyspark
中
的
填充
pyspark
、
spark-dataframe
我有一个具有以下数据(所有列都有字符串数据类型)
的
Pyspark
(原始数据): 1 103我
需要
在value列
中
创建一个新
的
带有填充
的
修改
的
dataframe
,这样该列
的
长度应该是4字符。如果长度小于4个字符,则在数据
中
添加
0,如下所示: i
浏览 2
提问于2017-07-30
得票数 11
1
回答
火花
DataFrame
提示函数
的
可能值是什么?
apache-spark-sql
在
Spark
DataFrame
的
hint函数
中
可以使用哪些可能
的
值 我正在查看文档,但除了broadcast https://spark.apache.org/docs/latest/api/python/
pyspark
.sql.html#
pyspark
.sql.
DataFrame
.hint之外没有太多
帮助
浏览 10
提问于2019-10-06
得票数 1
回答已采纳
1
回答
将一个函数应用到多个文件
中
,将数据加载到
python
、
pyspark
我有许多结构混乱
的
JSON文件。我想把这些解析成一个
PySpark
DataFrame
。我编写了一个解析函数,并希望将其应用于目录
中
的
每个文件,并将其输入到我
的
DataFrame
中
。我对
PySpark
完全陌生,所以任何
帮助
都是非常感谢
的
。我曾希望我能做一些事情来达到这样
的
效果: data_files = [...] #
浏览 4
提问于2022-02-28
得票数 0
回答已采纳
1
回答
Python/
PySpark
并行处理示例
python
、
pandas
、
parallel-processing
、
pyspark
、
spark-dataframe
我在理解如何在我
的
python脚本
中
利用并行处理
的
能力时遇到了麻烦。(面包、糖果等)我
的
脚本:2.Filter
pyspark
dataframe
for the subset (e.g. category == 'bread')我
需要
在迭代循
环中
<em
浏览 10
提问于2018-03-04
得票数 0
1
回答
PYSPARK
:-
在
不丢失null值
的
情况下分解
dataframe
中
的
数组:“
DataFrame
”对象没有属性“_get_object_id”
python
、
python-3.x
、
pyspark
、
pyspark-sql
调用下面的对象时出错是
在
不丢失空值
的
情况下分解
dataframe
中
的
数组,但在调用列时我得到错误,说对象没有属性‘_ code.This _ object _id’。
需要
帮助
,在其他方式调用列,可以工作。from
pyspark
.sql import SparkSessionfrom
pyspark
.sql import Row
浏览 2
提问于2018-07-05
得票数 2
1
回答
如何在
Pyspark
中将Int列转换为字符串?
pyspark
、
amazon-athena
由于我是
Pyspark
的
初学者,有人可以
帮助
我将Integer列转换为字符串吗? 这是我
在
Aws Athena
中
的
代码,我
需要
将它转换为
pyspark
dataframe
。
浏览 37
提问于2020-01-14
得票数 0
1
回答
有没有一种方法可以将在for循环期间创建
的
变量写到
pyspark
中
的
dataframe
中
?
apache-spark
、
pyspark
、
pyspark-sql
、
pyspark-dataframes
我
在
for循
环中
创建了四个变量,我试图将这些变量写到
pyspark
中
的
dataframe
中
。然后,我想将这个数据写入一个拼图和csv文件
中
。有没有一种有效
的
方法。
浏览 2
提问于2019-11-16
得票数 0
回答已采纳
2
回答
如何在
Pyspark
中使用Scala类
python
、
scala
、
apache-spark
、
pyspark
、
apache-spark-sql
我已经搜索了一段时间了,如果有任何方法
在
Pyspark
中使用一个
Pyspark
类,我还没有找到任何关于这个主题
的
文档或指南。假设我
在
Scala
中
创建了一个简单
的
类,它使用了一些apache-spark库,如下所示: def exe():
DataFrame
= { impor
浏览 3
提问于2016-03-15
得票数 29
回答已采纳
1
回答
如何在Databricks
pyspark
中导入Excel文件
python
、
apache-spark
、
pyspark
、
bigdata
我正在尝试将我
的
excel文件导入Azure-DataBricks机器
中
的
PySpark
,我必须将其移动到
PySpark
Dataframe
。我无法执行此操作。Error : field Additional Information: Can not merge type <class '
pyspark
.sql.types.DoubleType'> and <class '
pyspark
.sql.type
浏览 2
提问于2018-09-18
得票数 0
1
回答
如何对
pyspark
dataframe
列应用函数
python-3.x
、
dataframe
、
pyspark
我正在尝试将我
的
pandas代码转换为
pyspark
dataframe
,并尝试
在
dataframe
的
一列上应用函数。我
在
pandas
dataframe
中
做了一些如下
的
事情。
在
操作了几个列值之后,将新列
添加
到pandas数据帧
中
,如下所示。return USD_amount salesData['Sales (INR)'] = salesD
浏览 15
提问于2020-01-03
得票数 1
回答已采纳
6
回答
如何在
Pyspark
中
定义一个空
的
dataframe
并将其附加到相应
的
dataframe
?
pyspark
、
pyspark-sql
所以我想从一个目录
中
读取csv文件,作为
pyspark
dataframe
,然后将它们附加到单个
dataframe
中
。而不是像我们
在
熊猫身上做
的
那样,
在
pyspark
中
得到替代方案。例如,
在
熊猫
中
,我们这样做: for f in files:
浏览 5
提问于2017-04-10
得票数 11
2
回答
用不同
的
列合并两个星火数据格式,以获得所有列
python
、
apache-spark
、
pyspark
AUS null brand2 450 230 我
需要
我
的
结果数据brand2 450 230因此,我想要
的
df应该包含来自这两个数据
的
所有列,我还
需要
所有行
中
的
Dat
浏览 3
提问于2021-08-19
得票数 0
回答已采纳
1
回答
spark流式传输到
pyspark
json文件
中
的
数据帧
python
、
json
、
pyspark
、
spark-streaming
我
需要
火种
的
帮助
。我正在从kafka流式传输json数据,我
需要
转换为
pyspark
中
的
Dataframe
。为了流媒体,我使用了下面的代码。from
pyspark
.streaming import StreamingContextfrom
pyspark
.sqlimport SparkSession f
浏览 3
提问于2017-07-30
得票数 0
1
回答
如何将numpy.array作为新列
添加
到
pyspark
.SQL
DataFrame
?
python
、
apache-spark
、
apache-spark-sql
、
pyspark
、
pyspark-sql
下面是创建
pyspark
.sql
DataFrame
的
代码import pandas as pddf = pd.
DataFrame
(np.array([[1,2,3],[4,5,6],[7,8,9],[10,11,12]]),sqlContext.createDataFrame(df, samplingRatio=
浏览 0
提问于2015-08-11
得票数 6
1
回答
pyspark
.sql.utils.AnalysisException: Parquet数据源不支持空数据类型
apache-spark
、
pyspark
、
types
、
parquet
、
void
我试图
在
PySpark
中
的
dataframe
PySpark
中
添加
一个列。我试过
的
密码:df1 = df1.withColumn("empty_column", F.lit(None)) 但我知道这个错误:
pyspark
.sql.utils.AnalysisException: Parquet数据源不支持空数据
浏览 23
提问于2022-10-18
得票数 3
回答已采纳
2
回答
Pyspark
将列列表放入聚合函数
python
、
apache-spark
、
pyspark
、
apache-spark-sql
我有一个关于
Pyspark
中
的
udf
的
问题和一个具体
的
案例。我正在尝试创建一个简单
的
、可重用
的
函数来聚合不同级别和组上
的
值。输入应为: 现有数据帧 group by
的
变量(单列或列表) 要聚合
的
变量(同上) 要应用
的
函数(可以是一个特定
的
函数,也可以是它们
的
列表)。我保持简单
的
求和,平均,最小,最大值,等等。当我有一个单独
的
函数
浏览 60
提问于2020-11-26
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
PySaprk之DataFrame
Dataiku DSS Code Recipe 介绍
Python开源数据分析工具TOP 3!
大数据下Python的三款大数据分析工具
遇见YI算法之初识Pyspark(二)
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券