腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
合并
spark
dataframe
中
的
重
复列
、
、
我有一个
spark
数据框,它可以有重复
的
列,具有不同
的
行值,是否可以
合并
这些重复
的
列,并获得没有任何重
复列
的
数据帧|name |upload| name| upload1| | null|
浏览 4
提问于2018-01-05
得票数 3
回答已采纳
1
回答
合并
()是如何在火花内部工作
的
?
我正在探索聚合()函数,我有几个问题没有得到回答: 是只在executor中移动数据,还是将分布在多台机器上
的
数据分区移动?如果它只是执行器级别,那么在这种情况下,如果每台机器只有一个分区,并且在三个节点上有3个分区,则
合并
()是如何工作
的
?如何
合并
(1)?当我在数据帧上运行coalesce()函数时,它创建了一个500 MB
的
输出文件和一个1.2 GB文件
的
输出文件,为什么会有如此巨大
的
差异?我知道coalesce()分区
的
大小并不相同,但是创建大文
浏览 4
提问于2021-06-10
得票数 0
3
回答
Spark
Dataframe
中
的
重
复列
、
、
、
、
我在hadoop集群中有一个10 in
的
csv文件,其中包含重复
的
列。我尝试用SparkR分析它,所以我使用
spark
-csv包将它解析为
DataFrame
sqlContext, source= "com.databricks.
spark
.csv", mode = "DROPMALFORMED"但是由
浏览 0
提问于2015-11-20
得票数 7
回答已采纳
3
回答
如何删除PySpark
DataFrame
中
的
列复制而不声明列名
、
、
这是我在熊猫身上做
的
事如何在PySpark
中
做到这一点? 我找到了,但是代码
的
数量太不一样了
浏览 3
提问于2021-09-30
得票数 2
回答已采纳
3
回答
在将运行时7.3LTS(
Spark
3.0.1)升级到9.1LTS(
Spark
3.1.2)后创建PySpark数据库时json文件
中
的
重
复列
抛出错误
、
、
、
、
问题陈述:在升级Databricks运行时版本时,复制列在创建
dataframe
时抛出错误。在较低
的
运行时,会创建
dataframe
,并且由于下游不需要重
复列
,因此它只是在select中被排除在外。文件位置:存储在ADLS Gen2 (Azure)上
的
Json文件。集群模式:标准 代码:我们在
中
阅读它,如下所示。以前,我们在Databricks运行时7.3LTS(
Spark
3.0.1)上运行,在那里它创建了包含重
复列
的
data
浏览 1
提问于2021-11-16
得票数 2
回答已采纳
1
回答
要将应用程序从
Spark
1.5迁移到
Spark
2.1,我需要做哪些更改?
、
我必须迁移到
Spark
2.1,这是一个使用
Spark
1.6用Scala2.10.4编写
的
应用程序。
浏览 1
提问于2019-01-31
得票数 0
回答已采纳
2
回答
处理dataskew而不盐碱化
spark
中
的
连接键
、
、
我试图用一个30行
的
dataframe
内部连接一百万行数据,这两个表都有相同
的
连接键,
spark
正在尝试执行排序
合并
连接,并且由于这个原因,我
的
所有数据都在同一个执行器
中
结束,而Job永远不会完成。Select /*+ BROADCAST(Df2) */ Df1.* from Df1 inner join Df2 on Df1.id=Df2.id").createTempView("temp")
重
分区
浏览 8
提问于2020-06-06
得票数 1
1
回答
[
spark
-cassandra-connector]如何在
spark
2.3.1
中
将scala隐式支持
的
代码转换为java
、
、
、
我正在尝试将
spark
-cassandra使用
的
项目从scala_2.11
重
构为java_1.8。我使用
的
是
spark
-sql_2.11-2..3.1和
spark
-cassandra-connector_2.11-2.3.1。现在我正在尝试将代码重构到java 1.8
中
。我有一些隐含和
DataFrame
被使用。import com.datastax.
spark
.connector._ import
spark
.imp
浏览 7
提问于2019-04-17
得票数 0
回答已采纳
2
回答
熊猫
合并
列复制和和值
、
、
如何
合并
重
复列
和它们
的
值?我所拥有的A 40我所需要
的
B 50d = {'address': ["A", "A", "B"], 'balances': [30, 40, 50]}df
浏览 0
提问于2019-03-10
得票数 11
回答已采纳
1
回答
Git
重
基工作流问题
、
、
有许多关于git
重
基工作流
的
帖子/问题/博客。:所以让我们尝试解决它们
的
git状态。# both modified: sql/hive/src/main/scala/org/apache/
spark
/sql/hive/HiveQl.scalagit add -a git
浏览 3
提问于2014-08-04
得票数 0
回答已采纳
1
回答
星火中
的
分区是什么?
、
我
的
理解是,当我们从源和位置读取到任何特定
的
Datatset时,数据集就可以被分割成多个sub-Datasets,这些sub-Datasets被称为分区,以及它在集群中分布
的
位置和方式。是对
的
吗?当我读到一些网上文章时,我产生了怀疑,上面写着 这种状态打破了我
的
地位。这是我
的
代码片段,在这里我从JSON
中
浏览 4
提问于2020-09-16
得票数 0
1
回答
需要针对具有过滤器
的
量角器元件ng重复。
、
、
过滤器将元素从同一
重
复列
表
中
的
其他元素中分离出来。我想把名单上
的
第一个element(By.repeater('caseReferral in caseReferrals').row(0)).click() 如何将过滤器
合并
浏览 3
提问于2016-03-16
得票数 1
回答已采纳
1
回答
重命名
Spark
DataFrame
的
重
复列
?
、
、
关于管理来自连接
的
数据帧
的
重
复列
,有几个很好
的
答案,例如(How to avoid duplicate columns after join?),但是如果我只看到一个包含重
复列
的
DataFrame
,我必须处理它怎么办。在此之前,我无法控制流程。1,2),(3,4)).toDF("a","a")| a| a|| 1| 2|+---+---
浏览 18
提问于2021-11-04
得票数 0
回答已采纳
5
回答
用逗号将重复
的
列
合并
成一个单独
的
数据。
、
、
我
的
dataframe
几乎没有重复
的
列名。如果找到重
复列
名,则将重
复列
合并
为一个列。我还想保留用逗号分隔
的
重
复列
数据。有谁能建议一下这样做吗。 Col1 Col2 Col3 Col2B CB1 CB5 CB3 CB5 C CC1
浏览 4
提问于2016-06-20
得票数 5
回答已采纳
1
回答
Spark
中区分大小写
的
拼图模式
合并
、
我正在试着用
Spark
加载和分析一些镶木地板文件。我使用schemaMerge加载文件,因为较新
的
文件有一些额外
的
列。此外,一些文件
的
列名是小写
的
,而其他文件
的
列名是大写
的
。integer,我遇到了一个关于ParquetFileFormat类
的
inferSchema方法
的
问题。模式
合并
被委托给
spark
sql
的
StructType merge方法
浏览 23
提问于2019-07-31
得票数 4
回答已采纳
1
回答
如何使用Python / Pyspark
合并
数据库
中
的
数据
、
、
、
我正在使用Databricks笔记本来提取gz压缩
的
csv文件并加载到
dataframe
对象
中
。我对下面的第2部分有困难。 df1 =
spark
.read.option("header",True).option("delimiter", "|").csv("dbfs:/model/.../file_2.cs
浏览 5
提问于2021-02-10
得票数 1
回答已采纳
1
回答
在读取重复
的
列名excel文件时使用sparkexcel库获取异常。如何克服这个问题
、
、
我使用火花- excel (com.crealytics.
spark
.excel)库来读取excel文件.如果excel文件
中
没有重
复列
,则库可以正常工作。如果excel文件中出现任何重复
的
列名,则在异常下面抛出。有什么解决办法来解决这个问题吗?线程"main“org.apache.
spark
.sql.AnalysisException
中
的
异常:在数据模式中找到重
复列
:net territory;at
浏览 5
提问于2018-05-19
得票数 0
2
回答
如何
合并
火花(java)
中
具有不同模式
的
两个拼花文件
、
、
我有两个不同列数
的
拼板文件,并试图将它们与下面的代码片段
合并
如何使用java
中
的
spark
合并
这些文件?| 11 | 22 |
浏览 2
提问于2021-08-26
得票数 2
回答已采纳
2
回答
星星之火:如果
DataFrame
有一个模式,
DataFrame
如何成为Dataset[Row]?
、
、
、
声称
Spark
中
的
DataFrame
等同于Dataset[Row],但是显示
DataFrame
有一个模式。以博客文章
中
关于将RDD转换为
DataFrame
的
例子:如果
DataFrame
与Dataset[Row]相同,那么将RDD转换为
DataFrame
应该是一样简单
的
。= sparkSession.createDataFrame(rddStringToRowRDD,dfschema) val rDD
浏览 0
提问于2016-10-07
得票数 6
回答已采纳
1
回答
Pandas连接产生重复
的
结果和标头- python
、
、
、
我正在尝试从CDOT网站收集几年
的
流量数据进行分析。我使用以下代码来获取每个月和年
的
数据
的
URL;我需要将这些信息连接到一个大型数据帧
中
。value)
dataframe
= pd.read_html(r.text, header =0) appended_data.append(
dataframe</e
浏览 37
提问于2020-06-24
得票数 0
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券