腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
组合
不同
列
数
的
Spark
数据
帧
、
、
在this问题中,我问过如何
组合
具有
不同
列
数
的
PySpark
数据
帧
。给出
的
答案要求每个
数据
帧
必须具有相同
的
列
数
才能将它们全部合并: from pyspark.sql import SparkSession
浏览 13
提问于2021-06-28
得票数 1
回答已采纳
1
回答
统一
Spark
中具有
不同
列
数
的
两个表
、
如何联合包含
不同
列
数
的
两个
数据
帧
A和B,并为
数据
帧
A和B中不常见
的
列
获取空值?我可以看到
spark
的
unionAll不支持此操作,并抛出以下错误 org.apache.
spark
.sql.AnalysisException: Union can only be performedon tables with the same number of columns,
浏览 0
提问于2016-08-04
得票数 0
2
回答
Spark
Dataframe分区
数
、
、
有人能解释一下为
Spark
Dataframe创建
的
分区数量吗?但是对于
Spark
dataframe,在创建时,我们看起来没有像RDD那样指定分区数量
的
选项。我认为唯一
的
可能性是,在创建
数据
帧
之后,我们可以使用重新分区API。所以谁能
浏览 1
提问于2016-09-07
得票数 9
回答已采纳
1
回答
为什么"groupBy agg count alias“不创建新
列
?
、
、
alias("count")) .limit(3)它在以下行失败:.orderBy(df("count").desc),说明没有这样
的
列
浏览 2
提问于2018-11-08
得票数 0
1
回答
火花DataFrame
的
元
数据
、
、
、
、
我正在通过"sparklyr“和"SparkR”对
spark
in R进行基准测试。我在
不同
的
Testdata上测试
不同
的
函数。在两种特殊
的
情况下,我计算了一
列
中
的
零
的
数量和一
列
中
的
NA
的
数量,我意识到无论
数据
有多大,在不到一秒
的
时间内就能得到结果。所有其他计算都会随着
数据
的
大小而变化。所以
浏览 0
提问于2017-03-24
得票数 1
2
回答
使用scala统计
spark
数据
帧
中
列
组合
的
实例
、
、
我在scala中有一个名为df
的
spark
数据
帧
,它有两
列
,即a和b,a
列
包含字母,b
列
包含数字,如下所示。a b g 0 g 0我可以使用以下命令获取
不同
的
行它提供了以下内容:---------- g
浏览 2
提问于2015-10-28
得票数 9
回答已采纳
1
回答
接受未知
列
数
的
Spark
UDF
、
、
、
、
我有一个
不同
模式
的
spark
数据
帧
列表。# df3.columns = ['a', 'b', 'c', 'd']现在,我想要编写一个udf,它能够操作具有
不同
列
数
的
浏览 4
提问于2016-08-06
得票数 3
回答已采纳
2
回答
将
Spark
中
的
多个ArrayType
列
合并为一个ArrayType
列
、
、
我想在
spark
中合并多个ArrayTypeStringType
列
来创建一个ArrayTypeStringType。为了
组合
两
列
,我在这里找到了解决方案: 但是,如果我不知道编译时
的
列
数
,我该如何进行
组合
呢?在运行时,我将知道要
组合
的
所有
列
的
名称。一种选择是使用上面的stackoverflow问题中定义
的
UDF,在循环中多次添加两
列
。但这涉及到
浏览 0
提问于2018-08-30
得票数 0
1
回答
如何将
不同
的
数据
帧
组合
和排序为一个
数据
帧
?
、
、
给定两个
数据
帧
,这两个
数据
帧
可能具有完全
不同
的
模式,除了索引
列
(本例中为<code>D0</code>),例如下面的df1和df2:<code>A1</code><code>A2</code> 我如何将这两个
数据
帧
组合
成一个如下所示
的
数据
帧
浏览 18
提问于2019-03-27
得票数 0
1
回答
是否可以在多个分区上分别并行运行Deequ异常检测
、
、
、
我们将
Spark
数据
帧
分区到多个列上。例如,我们有一个合作伙伴
列
,可以是Google、Facebook和Bing。我们有一个通道
列
,可以是PLA和Text。我们想在Google-PLA,Google-TEXT,Facebook-TEXT上运行异常检测,...等等,因为它们遵循
不同
的
模式。到目前为止,我已经知道我可以用
不同
的
过滤器描述来配置AnomalyCheckConfig,并在检查结果时使用相同
的
过滤器。但首先,我
浏览 27
提问于2021-02-02
得票数 0
1
回答
如何避免R中sqldf中
的
完全外连接
、
我有两个
数据
帧
(让我们分别指定df1和df2),每个
数据
帧
有1347
列
(两个
数据
帧
的
组合
名完全相同)和
不同
的
行数( df1中有730行,df2中有706行)。我需要计算所有
列
之间
的
差异(除了一
列
之外,即1346
列
之间
的
差异),并保存
列
的
名称。我所知道
的
最好<
浏览 10
提问于2021-04-24
得票数 0
4
回答
比较两种
数据
火花
、
、
、
、
我试图比较两个
列
数
相同
的
两个
数据
帧
,即在两个
数据
帧
中有4
列
以id作为键
列
df2 =
spark
.read.csv("/path/to/data2.csv") 现在我想将新
列
附加到DF2,即colu
浏览 7
提问于2020-02-18
得票数 7
回答已采纳
2
回答
获取数组
列
的
大小/长度
、
、
我是Scala编程
的
新手,这是我
的
问题:如何计算每行
的
字符串
数
?我
的
数据
帧
由ArrayString类型
的
单个
列
组成。friendsDF: org.apache.
spark
.sql.DataFrame = [friends: array<string>]
浏览 2
提问于2017-09-07
得票数 45
回答已采纳
1
回答
Spark
Java将dataframe中
的
每个值四舍五入到两位小数。
、
、
我在
spark
中有一个
数据
帧
,有10
列
和100行左右
的
行。
数据
帧
中
的
每个单元格都包含一个十进制
数
。我想把所有的小数四舍五入到小数点后两位。我如何在Java中做到这一点?
浏览 0
提问于2017-06-08
得票数 0
1
回答
为什么我看不到所请求
的
重新分区
的
较小任务?
、
、
、
我有一个
数据
集,我想要将每个
列
的
唯一值平均地重新划分到10个桶中,并且我希望将这个结果调整到大量
的
分区中,这样每个分区都是小
的
。col_1保证是["CREATE", "UPDATE", "DELETE"]中
的
值之一。我
的
代码如下所示:"""| col_1|col_2|index| +------+-----+----
浏览 4
提问于2021-12-13
得票数 0
回答已采纳
1
回答
如何合并合并结果
的
列
元素
我有7个
数据
帧
,具有
不同
的
行号,但
列
数
相同,我想生成所有
数据
帧
的
每一个可能
的
组合
。我使用以下命令将所有
数据
帧
组合
到一个数组中:Dataset[[1,1,1]] <- df1Dataset[[1,
浏览 0
提问于2013-01-02
得票数 1
回答已采纳
1
回答
R-根据
数据
帧
名称中
的
模式
组合
多个
数据
帧
、
、
我想在全局环境中根据
数据
帧
名称中
的
模式
组合
数据
帧
,同时添加原始文件
的
名称。我
的
问题是,我最初有一个zip文件,在主文件夹和子文件夹中有20多个文本文件,主要观察两个
不同
的
场景:"test“和"train”。因此,我决定首先将所有的txt文件读取到R中,创建具有"test“或"train”模式
的
两个
不同
的
df名称列表,并使用这
浏览 9
提问于2020-09-21
得票数 2
回答已采纳
3
回答
删除
spark
数据
帧
中重复
的
所有记录
、
、
、
、
我有一个包含多个
列
的
spark
数据
帧
。我想找出并删除
列
中有重复值
的
行(其他
列
可以是
不同
的
)。我尝试使用dropDuplicates(col_name),但它只删除重复
的
条目,但仍然在
数据
帧
中保留一条记录。我需要
的
是删除所有最初包含重复条目的条目。我使用
的
是
Spark
1.6和Scala 2.10。
浏览 4
提问于2018-04-10
得票数 5
回答已采纳
1
回答
如何检查
数据
帧
(Pandas)中是否存在所有可能
的
列
组合
?
、
、
我有以下
数据
帧
A B ... 1 1 20 2 1 2 2 3 我想检查一下dataframe是否是每个
列
中条目的完整
组合
。在上面的
数据
帧
中,情况就是这样。A= {1,2} B= {1,2,3},
数据
帧
包含所有可能
的
组合
。以下示例将导致false。A B 1 1 2 0
浏览 20
提问于2021-04-07
得票数 2
回答已采纳
2
回答
Rdd到Dataframe,其中架构以编程方式基于标头
、
、
、
、
sc.parallelize(Array( "1, cat, dog",我想将RDD转换为dataframe,其中模式是基于RDD
的
第一行以动态/编程方式创建
的
。我希望将逻辑应用于多个类似的RDDs,并且不能使用case类以编程方式指定模式,也不能从一开始就使用
spark
-csv将
数据
作为dataframe加载。我已经创建了一个扁平化
的
datafra
浏览 1
提问于2019-11-19
得票数 0
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券