腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
2
回答
从
spark
dataframe
中
删除
具有
相同
值
的
重
复列
、
|222 ||5 |2321 | +---+------+ 我正在以下面的方式使用drop table_df.drop("ID").show(false) 这将
删除
这两个如何在此处
删除
重复
的
第二列"ID“?
浏览 83
提问于2020-07-16
得票数 1
1
回答
PySpark数据
重
分区
、
例如这是否将
具有
类似'id'
的
数据移动到
相同
的
分区?
spark
.sql.shuffle.partitions
值
如何影响
重
分区?
浏览 0
提问于2018-02-22
得票数 11
回答已采纳
1
回答
使用pyspark
中
的
列索引
删除
同名
的
列
、
、
、
这是我
的
数据帧,我正在尝试使用index
删除
同名
的
重
复列
: df =
spark
.createDataFrame([(1,2,3,4,5)],['c','b','a','a','b'])| c| b| a| a| b|| 1| 2| 3| 4| 5| +---+---+---+---+---+ 我拿到了数据帧
浏览 30
提问于2019-12-19
得票数 4
2
回答
需要
删除
Pandas
中
的
相同
列名
、
、
我有一个
具有
相同
列名
的
dataframe
,我想
删除
一个特定
的
重
复列
。
浏览 5
提问于2022-08-24
得票数 -1
回答已采纳
2
回答
检查
相同
的
列名在Pandas
中
是否
具有
相同
的
值
、
所以我有一个
DataFrame
,它有多个
相同
的
列名。我首先分隔这些列,并创建一个
具有
这些重
复列
名
的
DataFrame
。我想知道
的
是,有没有办法仔细检查行
中
的
所有
值
是否彼此
具有
相同
的
值
?在这种情况下,我知道一列是另一列
的
完全重复,我可以
删除
它吗?(checking_empty_list).ite
浏览 35
提问于2021-11-22
得票数 0
回答已采纳
3
回答
如何
从
数据框
中
移除
具有
相同
值
的
重
复列
、
4 8 4 k 1 k 2 1 2 t 1 t 我想
删除
具有
相同
值
的
重
复列
,即列3与列1
重
复,因此我想
删除
列3或列1,列6与列4
重
复,因此我想
删除
列6或列4。我有800列
的
大数据,列名为a1、a2、a3....a800。所以我
的
结果将是这样
的<
浏览 1
提问于2014-02-16
得票数 2
1
回答
如何
删除
pandas中所有行
中
具有
重复
值
的
列
、
、
、
我想从我
的
数据框列
中
删除
所有行
中
具有
重复
值
的
列。我有这样
的
数据帧: test = [('a', 1, 'a', 34, 'b', 34,'a'), ('a', 1, 'a', 30, 'v', 30,'a'),a', 40, 'a
浏览 9
提问于2019-06-26
得票数 0
3
回答
如何
删除
PySpark
DataFrame
中
的
列复制而不声明列名
、
、
这是我在熊猫身上做
的
事如何在PySpark
中
做到这一点? 我找到了,但是代码
的
数量太不一样了
浏览 3
提问于2021-09-30
得票数 2
回答已采纳
1
回答
熊猫:寻找重复
的
栏
、
我有一个包含不同dtypes
的
数据文件,如int、float、object、datatime等。我正在执行data cleaning,以列出或查找数据文件
中
的
重
复列
名。重复标准如下:
具有
相同
数据
值
的
列 我试着使用transpose方法df.T.duplicated()来列出重复
的
列名,但对于大数据格式来说似乎比较慢。我知道我们可以使用pivot、pivot_table或corr列出重
浏览 0
提问于2023-05-21
得票数 0
回答已采纳
3
回答
需要将重复
的
列
从
pyspark
中
的
数据
中
移除。
、
、
、
我有一个432列
的
dataframe
和24个重复
的
列。 : org.apache.
spark
.sql.catalyst.errors.package$TreeNodeException: execute, tree: HashAggregate(keys
浏览 0
提问于2019-05-31
得票数 0
回答已采纳
1
回答
如何在pyspark中将重
复列
名
的
数据帧写入csv文件
、
、
、
如何在join操作后将
具有
相同
列名
的
数据帧写入csv文件。目前,我正在使用以下代码。dfFinal.coalesce(1).write.format('com.databricks.
spark
.csv').save('/home/user/output/',header = 'true')将在“/home/user/output”
中
写入数据帧"dfFinal“.But
浏览 0
提问于2018-10-03
得票数 6
1
回答
使用来自另一个
dataframe
的
新数据更新python数据
、
我试图用从不同
的
数据框架(df2)接收
的
数据更新现有的数据帧(Df2)。数据帧df2可能有新列、新行或新数据。下面是我想要完成
的
事情
的
一个例子。12 15 7f 2 4 6 df2 (请注意,这几乎与df1类似,只是它没有列var1,有一个新
的
列var4,有更新
的
var3
值
,var2是
相同
的
,并有一个新行“Mones3”)。15
浏览 0
提问于2018-09-14
得票数 0
回答已采纳
3
回答
在将运行时7.3LTS(
Spark
3.0.1)升级到9.1LTS(
Spark
3.1.2)后创建PySpark数据库时json文件
中
的
重
复列
抛出错误
、
、
、
、
问题陈述:在升级Databricks运行时版本时,复制列在创建
dataframe
时抛出错误。在较低
的
运行时,会创建
dataframe
,并且由于下游不需要重
复列
,因此它只是在select中被排除在外。以前,我们在Databricks运行时7.3LTS(
Spark
3.0.1)上运行,在那里它创建了包含重
复列
的
dataframe
,但是由于我们没有进一步使用它,它没有受到伤害。但是,我们现在正在升级到运行时9.1LTS(
Spark
3.1.2)
浏览 1
提问于2021-11-16
得票数 2
回答已采纳
1
回答
仅通过其
值
删除
重
复列
、
我刚刚得到了一个赋值,我在csv文件
中
获得了许多特性(作为列)和记录(作为行)。使用Python (包括熊猫)清理数据:1,1,11,0,1 谢谢。
浏览 0
提问于2016-02-13
得票数 0
1
回答
[
spark
-cassandra-connector]如何在
spark
2.3.1
中
将scala隐式支持
的
代码转换为java
、
、
、
我正在尝试将
spark
-cassandra使用
的
项目
从
scala_2.11
重
构为java_1.8。我使用
的
是
spark
-sql_2.11-2..3.1和
spark
-cassandra-connector_2.11-2.3.1。现在我正在尝试将代码重构到java 1.8
中
。我有一些隐含和
DataFrame
被使用。import com.datastax.
spark
.connector._ import
spark
浏览 7
提问于2019-04-17
得票数 0
回答已采纳
2
回答
熊猫在创建中与合并栏连接()
、
、
我正在尝试创建一个非常大
的
dataframe
,它由许多较小
的
dataframe
(重命名为
dataframe
名称)组成
的
一列组成。我使用CONCAT()和循环遍历表示dataframes
的
字典
值
,并在索引
值
上循环创建大型
dataframe
。CONCAT() join_axes是所有数据格式
的
公共索引。这很好,但是我有重复
的
列名。 我必须能够在指定
的
窗口上循环索引,
浏览 9
提问于2016-11-03
得票数 0
回答已采纳
1
回答
Spark
db连接器正在
删除
大多数行为空
的
列。
、
、
、
我试图使用以下代码
从
cosmos db
中
读取30K行数据,使用
spark
连接器 "Endpoint" -> "", "query_custom" -> """SELECT t.id,t.gender,t.loc from Tab t""
浏览 0
提问于2021-05-22
得票数 3
回答已采纳
2
回答
为什么列表应该先转换为RDD,然后再转换为
Dataframe
?有没有办法把list转换成
dataframe
?
、
、
、
我是
spark
的
新手,我有一些简单
的
问题。我想使用prefixspan
的
方法,但它只支持数据集和数据帧。因此,我将list转换为rdd,然后将其转换为
dataframe
。为什么列表不能直接转换为
dataframe
?Row([[1, 2], [3]]), Row([[1], [3, 2], [2]]), Row([[1, 2], [5]]), Row([[6]])]rdd =
spark
.sparkContext.
浏览 71
提问于2021-09-28
得票数 0
1
回答
如何通过在
spark
中使用IN子句传递另一个列
值
来检索列
值
、
、
我有一个场景,通过where条件
从
同一个
DataFrame
中使用另一个列
从
DataFrame
读取一列,这个
值
作为IN条件通过,
从
另一个
DataFrame
中选择
相同
的
值
,我如何在
spark
DataFrame
中
实现。在SQL
中
,它将类似于: select distinct(A.date) from table A where A.key in (s
浏览 19
提问于2021-05-28
得票数 0
回答已采纳
1
回答
移除“来自星火
DataFrame
列名
、
、
、
如何
删除
“。”
从
星火
DataFrame
的
列名?下面的代码是可复制
的
。# import
Spark
libraries, configuration, Contexts, and types.from pyspark.sql importSparkSession im
浏览 12
提问于2017-11-15
得票数 3
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券