腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何
组合
不同
形状
和
不同
列
的
pyspark
数据
帧
pyspark-dataframes
我在
Pyspark
里有两个
数据
帧
。一个有1000多行,而另一个只有4行。
列
也不匹配。超过1000行
的
df1: +----+--------+--------------+-------------+| key | col_c | col_d | +-----+--------| val
浏览 5
提问于2020-01-25
得票数 0
1
回答
将多个
PySpark
DataFrames与MergeSchema合并
python
、
pyspark
、
pyspark-dataframes
我想将多个
PySpark
数据
帧
合并到一个
PySpark
数据
帧
中。它们都来自相同
的
模式,但是它们可能会有所
不同
,因为有时会缺少一些
列
(例如,模式通常包含200个具有已定义
数据
类型
的
列
,其中dataFrame A有120
列
,dataFrame B有60
列
)。是否有可能在不写入
和
读取所有
数据
帧
<em
浏览 2
提问于2020-06-22
得票数 0
1
回答
组合
不同
列
数
的
Spark
数据
帧
pyspark
、
bigdata
、
rdd
在this问题中,我问过
如何
组合
具有
不同
列
数
的
PySpark
数据
帧
。给出
的
答案要求每个
数据
帧
必须具有相同
的
列
数才能将它们全部合并: from
pyspark
.sql import SparkSessionfor
浏览 13
提问于2021-06-28
得票数 1
回答已采纳
1
回答
如何
用另一个
数据
帧
中
的
值替换
数据
帧
中
的
缺失值?
python
、
dataframe
、
join
、
merge
我有两个
不同
形状
的
数据
帧
。我想从df2中存在
的
数据
中填充我
的
df1中缺少
的
数据
。我试过使用pd.merge,但我认为我
的
语法不正确。我已经在
数据
帧
中创建了新
列
,但是
浏览 19
提问于2019-08-22
得票数 0
1
回答
在
pyspark
中使用union或append合并两个
不同
宽度
的
数据
帧
pyspark
Df1.unix(Df2)
如何
将其扩展到处理具有
不同
列
数
的
pyspark
数据
帧
?
浏览 18
提问于2019-02-21
得票数 0
1
回答
将numpy中
的
不同
数组添加到
数据
帧
的
每一行
apache-spark
、
pyspark
、
apache-spark-sql
、
pyspark-sql
我有一个SparkSQL
数据
帧
和
2Dnumpy矩阵。它们具有相同
的
行数。我打算将numpy矩阵中
的
每个
不同
数组作为新
列
添加到现有的
PySpark
数据
帧
中。这样,添加到每一行
的
列表是
不同
的
。例如,
PySpark
数据
帧
如下所示 | Id | Name || 1
浏览 16
提问于2019-10-05
得票数 0
1
回答
数据
库时间戳格式-
如何
找到准确
的
格式?
apache-spark
、
pyspark
、
databricks
当我尝试通过show()
和
display( dataframe )显示来自
pyspark
dataframe
的
date
列
时,这些
数据
列
的
格式是
不同
的
。现在,我们
如何
得出
数据
帧
中存在哪种日期格式?
浏览 15
提问于2021-04-23
得票数 2
2
回答
对于1-2
列
,多个镶嵌块文件具有
不同
的
数据
类型
python
、
pyspark
、
schema
、
parquet
我尝试使用
Pyspark
将
不同
的
拼图文件读取到一个
数据
帧
中,但它给了我错误,因为多个拼图文件中
的
一些
列
具有
不同
数据
类型
的
列
。例如:
列
"geo“在某些文件中
的
数据
类型为"Double”,在另一些文件中为"String“。 我应该
如何
处理这个问题?我必须在多个拼图文件中手动转换具有
不同
浏览 12
提问于2021-11-22
得票数 0
2
回答
如何
使用SparkR访问使用
PySpark
创建
的
DataFrame?
pyspark
、
sparkr
、
apache-spark-dataset
我在Databricks上创建了一个
PySpark
DataFrame。创建
的
df1。DATABRICKS_CURRENT_TEMP_CMD__)) : object 'df1' not found
如何
使用sparkR访问
pySpark
数据
帧
,反之亦然?或者每个Dataframe都是一个完全
不同
的
对象?
浏览 1
提问于2018-10-05
得票数 0
1
回答
pyspark
.sql.utils.IllegalArgumentException:‘字段’features‘不存在
machine-learning
、
pyspark
、
apache-spark-ml
我正在尝试通过SparkNLP对文本
数据
进行主题建模
和
情感分析。我已经对
数据
集执行了所有预处理步骤,但在LDA中遇到错误。Error 程序是: from
pyspark
.ml import Pipelinefrom
pyspark
.sql.types imp
浏览 187
提问于2021-04-22
得票数 1
回答已采纳
2
回答
如何
对联合
数据
帧
进行分组以
组合
相同
的
行
apache-spark
、
dataframe
、
group-by
、
pyspark
、
union
我刚刚在
pyspark
中联合了两个
数据
帧
,它不是将日期相同
的
行
组合
在一起,而是将它们堆叠在一起,如下所示: df1 = +----------+------------+--------------+bounceCount
和
captureCount
组合
在一起: +----------+------------+--------------+| 20190524| nul
浏览 18
提问于2019-06-05
得票数 0
回答已采纳
2
回答
优化
PySpark
与pandas DataFrames之间
的
转换
pandas
、
pyspark
、
apache-spark-sql
、
azure-databricks
、
pyarrow
我有一个13M行
的
pyspark
数据
帧
,我想把它转换成pandas
数据
帧
。然后,将根据其他参数以
不同
的
频率(例如1秒、1分钟、10分钟)对
数据
帧
进行重新采样以进行进一步分析。从文献[,]中,我发现使用以下任何一行都可以加快
pyspark
到pandas
数据
帧
之间
的
转换: spark.conf.set("spark.sql.executio
浏览 11
提问于2021-11-19
得票数 0
1
回答
通过连接比较两个
pyspark
数据
帧
python
、
dataframe
、
join
、
pyspark
我有两个
pyspark
数据
帧
,它们
的
行数
不同
。我试图通过在多个键上连接这两个
数据
帧
来比较所有
列
中
的
值,这样我就可以找到这些
列
中具有
不同
值
的
记录
和
具有相同值
的
记录。df1 and df2 on multiple keys same=df1.join(df2, on=['id','age','sex
浏览 14
提问于2021-02-13
得票数 0
1
回答
两个
数据
帧
的
Pyspark
联合
pyspark
我想做两个
pyspark
数据
帧
的
联合。它们具有相同
的
列
,但
列
的
顺序
不同
我试过了 joined_df = A_df.unionAll(B_DF) 但结果是基于
列
顺序
和
混合结果
的
。有没有一种方法可以基于列名而不是
列
的
顺序进行联合。提前感谢
浏览 5
提问于2020-08-24
得票数 1
回答已采纳
1
回答
我是使用合并还是连接来比较两个
数据
格式?
python
、
pandas
我需要
数据
集,old
和
new。两者应该有三个共同
的
列
:mmsi、d、ts。77 1458215400 46.3675533333 48.01107这两个集合应该有共同
的
mmsi、d、ts,但是当我执行合并时,结果
数据
帧
的
形状
与old或new
的
形状
有很大
不同
。在此实例中是否使用
浏览 3
提问于2016-03-17
得票数 3
回答已采纳
1
回答
如何
在
Pyspark
中以编程方式解析固定宽度
的
文本文件?
apache-spark
、
pyspark
、
spark-dataframe
这篇文章很好地展示了
如何
使用
pyspark
()将固定宽度
的
文本文件解析成Spark
数据
帧
。 我有几个要解析
的
文本文件,但每个文件
的
模式都略有
不同
。而不是像上一篇文章所建议
的
那样,为每个文件编写相同
的
过程,我想编写一个通用函数,它可以解析给定宽度
和
列名
的
固定宽度文本文件。我是
pyspark
的
新手,所以我不确定
如何
编写
列<
浏览 0
提问于2017-09-08
得票数 2
2
回答
为具有
不同
长度
的
数组替换pd.dataframe中
列
的
一部分
python
、
pandas
、
dataframe
我想创建一个具有多个
不同
长度
的
列
的
数据
帧
,因为我认为这在pd.dataframe中是不可能
的
。我首先创建一个只有零
的
数据
帧
,现在我想用我以前存储
的
数组(具有
不同
的
长度)替换每一
列
。我已经尝试了dataframe.replace
和
dataframe.update,但是我不能得到这个结果。 ? 数组
的
类型<
浏览 41
提问于2019-04-19
得票数 3
回答已采纳
2
回答
从
pyspark
中
的
字典
列
创建
数据
帧
python
、
python-2.7
、
dictionary
、
pyspark
、
pyspark-sql
我想从
pyspark
中现有的dataframe创建一个新
的
dataframe。
数据
帧
"df“包含一个名为"data”
的
列
,该
列
具有字典行,并具有字符串形式
的
模式。并且每个字典
的
键都不是fixed.For,例如,name
和
address是第一个行字典
的
键,但对于其他行来说情况并非如此,它们可能
不同
。
如何
转换为包含单个
列
的
浏览 2
提问于2018-11-09
得票数 1
1
回答
将两个
不同
类型
的
pyspark
数据
框
列
相乘(array[double] vs double),而不需要微风
python
、
pyspark
、
pyspark-sql
、
pyspark-dataframes
我有相同
的
问题,问here,但我需要一个解决方案,在
pyspark
和
没有微风。例如,如果我
的
pyspark
数据
帧
如下所示: user | weight | vec"u1" | 0.5 |[4, 8, 12] "u2" | 0.5 | [20, 40, 60] 在
列
权重
的
浏览 26
提问于2020-01-08
得票数 1
1
回答
Pyspark
:
如何
在
不同
条件下在dataframe中创建
列
dataframe
、
pyspark
我想用两个
不同
的
条件
和
一个dataframe : df = dataframecol1,col2在
Pyspark
中创建to
列
。=基于df_A::MTAV = df_B::CODE将df_B与df_A::MTAV连接起来
如何
在
数据
帧
中创建两
列
浏览 1
提问于2021-12-20
得票数 -1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何在Excel表格中一键核对两列数据的不同?
Excel综合应用:如何显著标记出两列数据中的不同值?
【WPS神技能】如何在WPS-Excel表格中批量查找两列数据的不同?
一文读懂PySpark数据框
一文读懂 PySpark 数据框
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券