腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
使用SparkR向
Spark
dataframes添加包含函数值
的
列
、
、
、
我正在使用SparkR来处理一些在其技术堆栈
中
包含R和
spark
的
项目。sdf1$result <- sdf1$value == sdf2$value 问题是当我必须比较两个
不同
长度
的
数据
帧
时。使用函数操作sdf1和sdf2
数据<
浏览 3
提问于2017-05-18
得票数 0
0
回答
从
spark
数据
帧
中
的
列
生成
不同
的
值
、
、
、
我有一个
spark
数据
框,如下所示1 |ravi|21 |[M,J,J,K]我
的
输出应该是这样
的
1 |ravi|21 |[M,J,K]
浏览 2
提问于2017-01-05
得票数 0
2
回答
Spark
Dataframe分区数
、
、
有人能解释一下为
Spark
Dataframe创建
的
分区数量吗?但是对于
Spark
dataframe,在创建时,我们看起来没有像RDD那样指定分区数量
的
选项。我认为唯一
的
可能性是,在创建
数据
帧
之后,我们可以使用重新分区API。所以谁能
浏览 1
提问于2016-09-07
得票数 9
回答已采纳
1
回答
统一
Spark
中
具有
不同
列
数
的
两个表
、
如何联合包含
不同
列
数
的
两个
数据
帧
A和B,并为
数据
帧
A和B
中
不常见
的
列
获取空
值
?我可以看到
spark
的
unionAll不支持此操作,并抛出以下错误 org.apache.
spark
.sql.AnalysisException: Union can only be performedon tables with the same number of
浏览 0
提问于2016-08-04
得票数 0
1
回答
pyspark尝试检索具有相同id
的
行
、
、
、
我使用
的
是
spark
2.1.0。下面是我
的
数据
框架。问题语句来自b
列
,我需要检索在a
中
具有相同
值
而在b
中
具有
不同
值
的
行。提到了
生成
的
数据
帧
结果
数据
帧
:我使用了下面的代码
浏览 0
提问于2017-08-02
得票数 0
3
回答
删除
spark
数据
帧
中
重复
的
所有记录
、
、
、
、
我有一个包含多个
列
的
spark
数据
帧
。我想找出并删除
列
中有重复
值
的
行(其他
列
可以是
不同
的
)。我尝试使用dropDuplicates(col_name),但它只删除重复
的
条目,但仍然在
数据
帧
中保留一条记录。我需要
的
是删除所有最初包含重复条目的条目。我使用
的
是
Spark
1.6和Scala 2.1
浏览 4
提问于2018-04-10
得票数 5
回答已采纳
1
回答
对partitionBy创建
的
一个输出目录
中
的
数据
进行排序
、
、
、
我有一个很大
的
地理空间
数据
集partitionBy qk5
的
level 5。在每个quadkey级别的目录
中
,大约有1-50 Gb
的
数据
,所以它不适合放在一个文件
中
。因此,我希望一个qk5分区
中
的
文件按更高
的
qk分辨率排序(比方说四键级别10)。问:有没有一种方法可以在partitionBy批处理
中
对
数据
进行排序?part30000.parquet part40000.pa
浏览 19
提问于2021-09-23
得票数 2
回答已采纳
2
回答
使用定义
的
StructType转换
Spark
数据
帧
的
值
、
、
、
有没有一种方法可以使用StructType转换
数据
帧
的
所有
值
?让我用一个例子来解释我
的
问题: import org.apache.
spark
.sql(等同于读
浏览 7
提问于2018-07-28
得票数 4
回答已采纳
1
回答
spark
是否提供了一种
生成
64位随机盐
的
方法?
、
我正在使用Pyspark,并希望
生成
随机加密盐作为我
的
数据
帧
中
的
一个附加
列
。我想用它来为我
的
数据
生成
Hash或一种保留加密密码
值
的
格式。
Spark
dataframe API
中
是否有
生成
加密盐
的
最佳实践?
浏览 2
提问于2018-05-30
得票数 0
1
回答
Spark
问题:如果我不缓存
数据
帧
,它会被多次运行吗?
、
、
如果我不缓存使用带有limit选项
的
spark
SQL
生成
的
dataframe,当我编辑得到
的
dataframe并显示它时,我会得到不稳定
的
结果吗? 描述。我有一个类似下面的表格,它是通过使用带有limit选项
的
spark
SQL
生成
的
: +---------+---+---+---+---++--| 10| 18| | 1| 0| 0| 1
浏览 6
提问于2021-04-21
得票数 0
回答已采纳
2
回答
优化PySpark与pandas DataFrames之间
的
转换
、
、
、
、
我有一个13M行
的
pyspark
数据
帧
,我想把它转换成pandas
数据
帧
。然后,将根据其他参数以
不同
的
频率(例如1秒、1分钟、10分钟)对
数据
帧
进行重新采样以进行进一步分析。
从
文献[,]
中
,我发现使用以下任何一行都可以加快pyspark到pandas
数据
帧
之间
的
转换:
spark
.conf.set("
spark
浏览 11
提问于2021-11-19
得票数 0
1
回答
Databricks -将
Spark
dataframe转换为表:它是相同
的
数据
源吗?
、
、
您将需要执行相当多
的
计算,
从
源
数据
帧
,一个
Spark
表,不是吗?或者,dataframe和table都是指向相同
数据
的
指针(即,在创建表时,不是在创建重复
数据
)?我猜我想要弄清楚
的
是,你是否可以从一个
Spark
数据
帧
到一个表‘开关开关’,或者这样做
的
计算量是否(非常)昂贵(毕竟这是大
数据
...)
浏览 26
提问于2021-04-26
得票数 0
3
回答
如何
从
pandas
数据
帧
中提取值并将其放入numpy数组
中
?
、
我有多个pandas
数据
帧
,我想写一个函数,它将取出
数据
帧
每
列
中
的
值
,并将它们放入自己
的
numpy数组
中
。示例
数据
帧
In [2]: df 0 1 2
浏览 1
提问于2019-04-10
得票数 0
3
回答
查看
Spark
Dataframe
列
的
内容
、
、
、
我使用
的
是
Spark
1.3.1。 我正在尝试查看Python
中
Spark
dataframe
列
的
值
。有了
Spark
dataframe,我可以使用df.collect()来查看
数据
帧
的
内容,但在我看来,
Spark
dataframe
列
还没有这样
的
方法。例如,
数据
帧
df包含一个名为'zip_code&
浏览 1
提问于2015-06-30
得票数 43
回答已采纳
1
回答
通过连接比较两个pyspark
数据
帧
、
、
、
我有两个pyspark
数据
帧
,它们
的
行数
不同
。我试图通过在多个键上连接这两个
数据
帧
来比较所有
列
中
的
值
,这样我就可以找到这些
列
中
具有
不同
值
的
记录和具有相同
值
的
记录。df1 and df2 on multiple keys same=df1.join(df2, on=['id'
浏览 14
提问于2021-02-13
得票数 0
1
回答
spark
json模式元
数据
可以映射到配置单元?
、
、
在使用apache
spark
时,我们可以很容易地
生成
一个json文件来描述Dataframe结构。此
数据
帧
结构如下所示: "type": "struct", { "type": "stringsap", "business_key"
浏览 1
提问于2020-05-14
得票数 0
1
回答
对火花
列
中
的
空
值
抛出错误
、
我有一个Scala函数,它接受一个
数据
框架,并向它添加了一个额外
的
"id“
列
。
生成
的
id是
从
数据
帧
中
其他
列
的
值
派生
的
GUID。a new id (uuid) column from hashed values } 如果在我用来
生
浏览 1
提问于2020-12-10
得票数 0
回答已采纳
1
回答
如何合并或连接
spark
中
列
号不相等
的
数据
帧
、
、
、
、
我正在做一个使用
spark
的
项目。在某些阶段,我需要在单个
数据
帧
中
合并或连接3个
数据
帧
。这些
数据
帧
来自
spark
sql表,我使用了联合函数,它已经合并了两个表
中
具有相同编号
的
列
,但我也需要合并不相等
的
列
值
。我现在很困惑,有没有办法在pyspark
中
合并或连接不相等
的
基于<e
浏览 13
提问于2016-09-22
得票数 0
2
回答
用于计算
Spark
中频率(
值
的
等级)
的
UDF
、
、
、
我想要计算
数据
帧
Spark
中
列
值
的
频率,即计算出现频率最高
的
values.How
的
等级。我们在
Spark
中
为此定义
数据
帧
UDF了吗?
浏览 7
提问于2017-07-31
得票数 0
1
回答
Spark
Join:分析异常引用不明确
、
、
、
您好,我正在尝试连接
spark
中
的
两个
数据
帧
,并收到以下错误:could be: Adapazari#100064, Adapazari#100065.; 根据几个消息来源
的
说法,当您尝试将两个
不同
的
数据
帧
连接在一起时,可能会
浏览 8
提问于2017-02-14
得票数 1
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券