腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
使用
PySpark
的
数据
帧
中
的
前
N
列
python
、
scala
、
apache-spark
、
pyspark
如何选择
数据
框
中
的
前
N
列
并使其成为另一个
数据
框? 有一个包含180
列
的
DF,我想创建另一个包含
前
105
列
的
DF,不在脚本
中
隐式提及列名。
浏览 42
提问于2021-02-20
得票数 0
回答已采纳
0
回答
减去Pandas或
Pyspark
Dataframe
中
的
连续
列
python
、
pandas
、
pyspark
、
multiple-columns
、
subtraction
我想在pandas或
pyspark
数据
帧
中
执行以下操作,但我仍然没有找到解决方案。我描述
的
操作可以在下图中看到。 请记住,输出
数据
帧
在第一
列
上不会有任何值,因为输入表
中
的
第一
列
不能被
前
一
列
减去,因为它不存在。
浏览 1
提问于2016-07-12
得票数 4
回答已采纳
1
回答
Pyspark
将数组
列
分解为带滑动窗口
的
子列表
python
、
apache-spark
、
pyspark
、
apache-spark-sql
我在
PySpark
中有一个行,我想在给定一个
列
中
的
一个值
的
情况下将其分成几个较小
的
行。生成
的
df将如下所示: output_df = spark.createDataFrame([| 2|[1, 2]| 3|| 2|[3, 4]| 5| +---+------+------+ 关于如何拆分列表以使指
浏览 44
提问于2021-08-16
得票数 1
回答已采纳
1
回答
将列有条件地添加到
数据
帧
中
python
、
apache-spark
、
dataframe
、
pyspark
、
multiple-columns
我在
PySpark
中有一个
数据
帧
。我想有条件地在
数据
框架
中
添加一
列
。 如果
数据
帧
没有
列
,那么添加一个带有null值
的
列
。如果
列
存在,则不执行任何操作,并返回与新
数据
帧
相同
的
数据
帧
。如何在
PySpark
中
传递条件语句
浏览 6
提问于2017-01-20
得票数 0
回答已采纳
2
回答
PySpark
列
向绑定
pyspark
在
PySpark
中有什么特定
的
方法可以像我们在r
中
那样绑定两个
数据
帧
吗? 我需要在
PySpark
中
同时绑定
数据
帧
和作为一个
数据
帧
。
浏览 1
提问于2017-08-30
得票数 3
1
回答
Spark
使用
前
一行
中
的
值向dataframe添加新
列
python
、
apache-spark
、
dataframe
、
pyspark
、
apache-spark-sql
我想知道如何在Spark (
Pyspark
)
中
实现以下内容+--+---++--+---++--+---++--+---++--+---++--+---++--+---+-------++--+---+-------++--+---+-------+ |3 |7.0|
浏览 50
提问于2015-12-16
得票数 38
回答已采纳
1
回答
无法在
PySpark
SQLContext DataFrame
中
显示
列
python
、
dataframe
、
pyspark
如果我输入: df[['avg_wind_speed_9am']].head() 它返回: Row(avg_wind_speed_9am=2.080354199999768) 我不明白,通常它应该打印一
列
。下面是我导入
数据
帧
的
方式: from
pyspark
.sql import SQLContextdf = sqlContext.read.loadbig-data-4/daily_weather.csv',
浏览 15
提问于2020-11-09
得票数 0
1
回答
将多个
PySpark
DataFrames与MergeSchema合并
python
、
pyspark
、
pyspark-dataframes
我想将多个
PySpark
数据
帧
合并到一个
PySpark
数据
帧
中
。它们都来自相同
的
模式,但是它们可能会有所不同,因为有时会缺少一些
列
(例如,模式通常包含200个具有已定义
数据
类型
的
列
,其中dataFrame A有120
列
,dataFrame B有60
列
)。是否有可能在不写入和读取所有
数据
帧
的
情况
浏览 2
提问于2020-06-22
得票数 0
2
回答
如何
使用
PySpark
将这些多个csv文件(大约130,000个)有效地合并为一个大型
数据
集?
python
、
apache-spark
、
memory
、
pyspark
、
bigdata
我之前发布了这个问题,并得到了一些
使用
PySpark
的
建议。 下面的压缩文件()包含一个名为data
的
文件夹,其中包含大约130,000个csv文件。我想把它们合并到一个单独
的
数据
帧
中
。我有16 of
的
RAM,当我访问
前
几百个文件时,我一直在耗尽RAM。这些文件
的
总大小只有300-400MB
的
数据
。所以现在我改用
PySpark
,但是我不知道连接
浏览 14
提问于2020-02-17
得票数 2
回答已采纳
2
回答
如何检查来自不同
数据
帧
的
列
值?
python
、
apache-spark
、
pyspark
、
apache-spark-sql
我有两个
pyspark
数据
帧
,我想检查第一个
数据
帧
列
值是否存在于第二
列
dataframe.If第一个
数据
帧
列
值不存在于第二个
数据
帧
列
中
,我需要确定这些值并将其写入list.Is有没有更好
的
方法来
使用
pyspark
感谢您
的
回复。 df[Name].show()Ora
浏览 37
提问于2020-09-03
得票数 0
回答已采纳
1
回答
在火花中
使用
循环连接不同
的
DataFrames
apache-spark
、
pyspark
我在一个文件中有5个CSV文件,并希望将它们连接到
Pyspark
中
的
一个
数据
框架
中
:我
使用
代码()下面的代码for
n
inname_file:
浏览 0
提问于2022-02-06
得票数 1
回答已采纳
1
回答
Pyspark
:在groupBy之后删除
列
条件
中
的
行
pyspark
、
apache-spark-sql
这是我
的
输入
数据
帧
:1 Y2 a3
N
id val 2 a 3
N
我想在val
中
同时包含Y和
N
的
列
id上进行分组,然后删除val
列
包含"
N
“
的
行。请帮我解决这个问题,因为我是
pyspark
的
初学者。
浏览 7
提问于2018-09-06
得票数 2
回答已采纳
1
回答
Python spark从dataframe中提取字符
python-2.7
、
apache-spark
、
pyspark
我在spark中有一个
数据
帧
,大概是这样
的
:------ | ----2 | SOMEOTHERCHARACTERS3 | ANOTHERSTRING我想要做
的
是从
列
中提取
前
5个字符加上第8个字符,并创建一个新
列
,如下所示:1 | ST
浏览 0
提问于2016-12-02
得票数 13
回答已采纳
3
回答
我可以将pandas
数据
帧
转换为spark rdd吗?
pyspark
Pbm: a)读取一个本地文件到Panda dataframe
中
,比如PD_DF。b)操纵/海量PD_DF并添加列到dataframe
中
。c)需要
使用
spark将PD_DF写到HDFS。
浏览 0
提问于2015-04-15
得票数 4
1
回答
pyspark
将数组类型
的
列
拆分成多
列
python-3.x
、
pyspark
在对
数据
集运行
pyspark
中
的
ALS算法后,我遇到了一个最终
的
数据
帧
,如下所示 ? 推荐
的
列
是数组类型,现在我想拆分这一
列
,我
的
最终
数据
帧
应该如下所示 ? 谁能建议我,哪个
pyspark
函数可以用来形成这个
数据
帧
?
数据
帧
的
模式 root |
浏览 61
提问于2021-07-11
得票数 0
回答已采纳
1
回答
如何在
Pyspark
Dataframe
中
训练和测试拆分
的
时间序列
数据
apache-spark
、
pyspark
、
apache-spark-sql
、
train-test-split
我想对排序后
的
Pyspark
数据
帧
进行基于时间
的
训练测试拆分。假设
前
300行将在训练集中,下200行将在测试拆分
中
。我可以用以下命令选择
前
300行: train = df.show(300) 但是如何从
Pyspark
dataframe中选择最后200行呢?
浏览 14
提问于2019-03-13
得票数 1
1
回答
Spark 2.0.2 Data Frame -如何添加由现有
列
的
前
两个字符组成
的
新
列
?
python
、
apache-spark
、
pyspark
我来自熊猫
的
背景,在一个简单
的
操作上,我正在与Spark 2.0.2 (
PySpark
)作斗争。如何向现有
数据
框添加新
列
,该
数据
框包含现有
列
的
前
两个字符。Diana", 6, "Singapore", 4)], ["FirstName", "Sales", "State", "Cost"])尝试#1 fr
浏览 3
提问于2016-11-20
得票数 0
1
回答
pySpark
3.0如何裁剪所有
列
的
空格[复制]
apache-spark
、
pyspark
、
apache-spark-sql
这个问题在这里已经有答案了 : 在
Pyspark
Dataframe
中
修剪 (3个答案) 3天
前
就关门了。 对于此
数据
帧
:如何修剪循环中每
列
的
所有前导空格和尾随空格?, ) df.show(5) 我知道如何通过如下方式指定每一
列
,但需要对循环中
的
浏览 19
提问于2021-02-26
得票数 0
回答已采纳
1
回答
windowPartitionBy和
pyspark
中
的
重新分区
apache-spark
、
pyspark
、
apache-spark-sql
、
sparkr
我在SparkR中有一个小代码,我想把它转换成
pyspark
。我对这个windowPartitionBy并不熟悉,并且重新分区。你能帮我了解一下这段代码是做什么
的
吗?
浏览 34
提问于2020-12-18
得票数 0
回答已采纳
1
回答
如何遍历
PySpark
数据
帧
并打印
前
5次迭代?
python
、
dataframe
、
loops
、
pyspark
我有一个由一
列
和十行组成
的
pyspark
数据
帧
。我在上面的代码
中
删除了其他
列
。它看起来是这样
的
: +--------------------++--------------------+|Shattered Image (...|+-------------------
浏览 17
提问于2020-11-08
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何从Pandas迁移到Spark?这8个问答解决你所有疑问
一文读懂PySpark数据框
Python大数据处理库PySpark实战——使用PySpark处理文本多分类问题
一文读懂 PySpark 数据框
Python开源数据分析工具TOP 3!
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券