腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
带有
pyspark
数据
帧
的
NullPointerException
我有一个
pyspark
数据
帧
,.show()表示一切正常,但.toPandas()、.count()、.write.parquet(“abc/abc_pred.parket”)都会生成
NullPointerException
我不能对这个
数据
帧
做任何事情。您知道如何导出此
数据
帧
吗?
浏览 37
提问于2019-06-17
得票数 0
1
回答
使用
PySpark
从Blob存储容器加载CSV文件
、
、
、
我无法使用Jupyter Notebook中
的
PySpark
将CSV文件从Azure Blob Storage直接加载到RDD中。我已经通读了几乎所有其他类似问题
的
答案,但我还没有找到关于我想要做什么
的
具体说明。我知道我也可以使用Pandas将
数据
加载到Notebook中,但之后我需要将Panda DF转换为RDD。我理想
的
解决方案应该是这样
的
,但是这个特定
的
代码给我
的
错误是它不能推断出CSV
的
模式。inferSch
浏览 21
提问于2019-04-28
得票数 0
1
回答
将列有条件地添加到
数据
帧
中
、
、
、
、
我在
PySpark
中有一个
数据
帧
。我想有条件地在
数据
框架中添加一列。 如果
数据
帧
没有列,那么添加一个
带有
null值
的
列。如果列存在,则不执行任何操作,并返回与新
数据
帧
相同
的
数据
帧
。如何在
PySpark
中传递条件语句
浏览 6
提问于2017-01-20
得票数 0
回答已采纳
1
回答
Pyspark
使用窗口函数和我自己
的
函数
、
、
、
我有一个Pandas
的
代码,它计算出x窗口上线性回归
的
R2。参见我
的
代码: def lr_r2_Sklearn(data): X = pd.Series(list(range(0,len(data),1return(regressor.score(X,Y)) r2_rolling = df[['value']].rolling(300).agg([lr_r2_Sklearn]) 我做了一个大小为300
的
滚动,并计算每个窗口
的
浏览 29
提问于2020-06-26
得票数 0
回答已采纳
1
回答
分组依据列表中
的
元素
、
、
我是
PySpark
的
新手。我创建了spark dataframe,并且我有一个" countries“列,其中包含国家列表。如何通过存在于国家/地区列表中
的
单个国家/地区来groupBy我
的
数据
帧
+-----------------++-----------------+ | [
浏览 4
提问于2019-10-09
得票数 0
2
回答
将
PySpark
数据
写入BigQuery“数字”
数据
类型
、
、
、
、
为了简单起见,我在BigQuery中有一个表,其中有一个类型为“数字”
的
字段。当我尝试用一列编写一个
NullPointerException
.
数据
帧
时,它会继续引发
PySpark
我尝试将
pyspark
列转换为int、float、string,甚至编码它,但它一直在抛出
NullPointerException
即使在花了5到6个小时之后,我也无法自己或在互联网上弄清楚这里
的
问题是什么,以及将它映射到BigQuery数字列类型的确切
的
列类型
浏览 5
提问于2022-04-28
得票数 0
1
回答
Pyspark
数据
框架操作
的
单元测试用例
、
、
、
我已经用python写了一些
带有
sql上下文
的
代码,即
pyspark
,通过将csv转换为
pyspark
dataframe来对csv执行一些操作(df操作,如预处理、重命名列名、创建新列并将其附加到相同
的
我没有在
数据
帧
上编写单元测试用例
的
想法。有谁能帮我在
pyspark
的
dataframe上写单元测试用例吗?或者给我一些
数据
帧
上
的
测试用例
的
来源?
浏览 1
提问于2016-04-14
得票数 3
1
回答
Pandas版本0.22.0 - drop_duplicates()获得意外
的
关键字参数'keep‘
、
、
、
我正在尝试使用子集(drop_duplicates=‘’,keep=False)在我
的
数据
帧
中删除重复项。显然,它在我
的
Jupyter Notebook中工作正常,但当我试图通过终端以.py文件
的
形式执行时,我得到了以下错误: Traceback (most recent call last): File"/home/source/fork/
PySpark
_Analytics/Notebooks/Krish
浏览 110
提问于2019-06-20
得票数 1
2
回答
将
PySpark
数据
帧
转换为
PySpark
.pandas
数据
帧
、
、
在链接中,用户可以在Spark3.2中
的
PySpark
之上与熊猫合作。是否需要很长时间才能将
PySpark
数据
帧
转换为
PySpark
熊猫
数据
框架?我知道将
PySpark
数据
帧
转换为熊猫
数据
框架需要很长时间。
浏览 9
提问于2022-03-02
得票数 1
回答已采纳
2
回答
从
Pyspark
Dataframe列提取文件扩展名
、
、
我有一个
带有
列FullPath
的
pyspark
数据
帧
。谢谢。
浏览 0
提问于2018-03-19
得票数 2
2
回答
PySpark
列向绑定
在
PySpark
中有什么特定
的
方法可以像我们在r中那样绑定两个
数据
帧
吗? 我需要在
PySpark
中同时绑定
数据
帧
和作为一个
数据
帧
。
浏览 1
提问于2017-08-30
得票数 3
1
回答
如何将Azure Synapse Dataframe转换为JSON on Databricks?
、
、
、
、
因为当我尝试
的
时候,它得到了一个错误。下面是我
的
synapse
的
脚本: @staticmethod .mode(write_mode) ) 这是我选择我
的
表
的
时候= df_dim_store.to
浏览 19
提问于2021-05-31
得票数 0
回答已采纳
1
回答
Pyspark
pyspark
.sql.functions行为怪异
、
、
、
当我们有超过3个节点来分发
数据
时,
pyspark
.sql.functions下
的
"last“函数在spark上返回不一致
的
结果。from
pyspark
.sql.types import DoubleType numeric = sqlContext.createDataFramecolor").agg(F.last("v1&
浏览 1
提问于2017-02-02
得票数 1
1
回答
在
PySpark
(本地)上编程与在Jupyter Notebook上使用Python编程
、
、
最近我一直在使用
pySpark
,所以我已经习惯了它
的
语法、不同
的
API和HiveContext函数。很多时候,当我开始处理一个项目时,我并不完全知道它
的
范围是什么,或者输入
数据
的
大小,所以有时我最终需要分布式计算
的
全部功能,而在另一些情况下,我最终得到了一些在我
的
本地计算机上运行良好
的
脚本。我
的
问题是,与常规
的
Python/Pandas相比,将
pySpark
作为我
浏览 0
提问于2016-07-27
得票数 1
1
回答
Pyspark
管道在pandas
数据
帧
上
的
应用
、
、
、
我有一个
pyspark
管道(包含估算和一个机器学习模型)和一个pandas
数据
帧
。我是否可以在不将其转换为
Pyspark
dataframe
的
情况下将管道应用于此pandas
数据
帧
?如果不可能,我如何有效地使用
pyspark
管道来生成对pandas
数据
帧
的
预测?
浏览 3
提问于2021-09-13
得票数 1
5
回答
E-num / get Dummies in
pyspark
、
我想在中创建一个函数
PYSPARK
获取
数据
帧
和参数列表(代码/分类特征),并返回
带有
附加虚拟列
的
数据
帧
,如列表PFA中特征在DF之前和之后
的
类别:
数据
帧
之前和之后- Examplepython中
的
代码如下所示
浏览 115
提问于2017-03-15
得票数 5
回答已采纳
1
回答
如何使用
Pyspark
从xml文件创建子
数据
帧
?
我在
pyspark
中有所有这些支持库,并且我能够为parent创建
数据
帧
- def xmlReader(root, row, filename): return xref df1.head() 我无法创建子<em
浏览 11
提问于2019-03-15
得票数 0
2
回答
从
PySpark
数据
帧
获取第一个元素
、
、
、
我有一个
PySpark
数据
框架,它只包含一个元素。如何从
数据
帧
中提取数字? 例如,如何从
PySpark
数据
帧
中获得数字5.0?
浏览 0
提问于2022-07-13
得票数 1
回答已采纳
1
回答
如何使用
pyspark
合并来自两个不同
数据
帧
的
数据
?
、
、
、
、
我有两个不同
的
(非常大
的
)
数据
帧
(详细信息如下)。我需要合并他们两个人
的
数据
。由于这些
数据
帧
非常庞大(第一个
数据
帧
有数百万行,第二个
数据
帧
有数千行),我尝试使用AWS EMR服务。但我不太明白它是如何在那里完成
的
,我看到
的
教程大多只显示了一个
数据
帧
的
说明。所以,我一直想知道如何使用
py
浏览 11
提问于2021-06-03
得票数 0
回答已采纳
1
回答
Databricks:如何将行
的
值转换为数组类型
、
假设我有下面的
数据
帧
col1 a b c有什么想法吗?
浏览 16
提问于2019-11-07
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Excel筛选带有小数点的数据的方法
tcp/ip模型中,帧是第几层的数据单元?
Redis发布带有“流式”数据类型的5.0版本
WiFi协议的节能机制曝重大设计缺陷,可利用漏洞窃取数据帧
如何从Pandas迁移到Spark?这8个问答解决你所有疑问
热门
标签
更多标签
云服务器
ICP备案
实时音视频
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券