腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
2
回答
用于
计算
Spark
中
频率
(值
的
等级)
的
UDF
、
、
、
我想要
计算
数据
帧
Spark
中
列
值
的
频率
,即
计算
出现
频率
最高
的
values.How
的
等级。我们在
Spark
中
为此定义
数据
帧
UDF了吗?
浏览 7
提问于2017-07-31
得票数 0
1
回答
在
spark
/scala
中
寻找
计算
数据
帧
频率
分布
的
方法
、
我想
使用
spark
和scala
计算
数据
帧
的
频率
分布(返回每
列
中最常见
的
元素以及它出现
的
次数)。我尝试过
使用
DataFrameStatFunctions库,但在我只过滤了数字类型
列
的
数据
帧
之后,我无法应用该库
中
的
任何函数。创建UDF
的
最佳方式是什么?
浏览 0
提问于2016-07-02
得票数 2
1
回答
使用
spark
sql
计算
数据
帧
中
列
的
频率
、
、
、
我正在尝试获取
Spark
dataframe
列
中
不同值
的
频率
,类似于Python Pandas
中
的
"value_counts“。我
的
意思是,表列中出现
频率
最高
的
值(如秩1值、秩2、秩3等)。在预期输出
中
,1在
列
a中出现了9次,因此它具有最高
的
频率
。 我正在
使用
Spark
SQL
,但它
浏览 1
提问于2017-07-21
得票数 0
2
回答
优化PySpark与pandas DataFrames之间
的
转换
、
、
、
、
我有一个13M行
的
pyspark
数据
帧
,我想把它转换成pandas
数据
帧
。然后,将根据其他参数以不同
的
频率
(例如1秒、1分钟、10分钟)对
数据
帧
进行重新采样以进行进一步分析。从文献[,]
中
,我发现
使用
以下任何一行都可以加快pyspark到pandas
数据
帧
之间
的
转换:
spark
.conf.set("
spark
浏览 11
提问于2021-11-19
得票数 0
1
回答
如何将带有键
的
值映射到
Spark
DataFrame
中
的
列
、
、
、
我正在用Scala在
Spark
2.3
中
做一些功能工程。我在
Spark
DataFrame
的
一
列
中有IP地址,如下所示 现在,我希望将这些
频率
中
的
每个
频率
映射到原始
数据
帧
。在那里我会 ip | freq
浏览 0
提问于2018-04-03
得票数 0
1
回答
AWS胶-不知道如何将NullType保存为红移
、
、
、
下面是AWS Glue
的
简单脚本。我有一个带有空单元格
的
文本文件和一个接受空值
的
表。当我运行胶水作业时,它会失败,例外情况是“不知道如何将NullType保存为REDSHIFT”。如何处理此问题,或者通过Glue在RedShift
中
不支持空插入?我没有任何空字符就重新生成了我
的
文件,我也有同样
的
问题。 我添加了这行代码。推断了一些不存在
的
NullType字段。我
的
字段
中
只有大约1/2有值。
浏览 4
提问于2017-11-28
得票数 5
1
回答
Spark
Scala -如何迭代dataframe
中
的
行,并将
计算
值添加为
数据
框
的
新
列
、
、
、
我有一个包含两
列
"date“和"value”
的
dataframe,如何在dataframe
中
添加两个新
列
"value_mean“和"value_sd”,其中"value_mean“是过去10天(包括”date“中指定的当天)
的
平均值,"value_sd”是过去10天内"value“
的
标准差?
浏览 0
提问于2016-02-12
得票数 4
3
回答
取消持久化(py)
spark
中
的
所有
数据
帧
、
、
、
、
我是一个
spark
应用程序,有几个点我想要持久化当前状态。这通常是在一个大
的
步骤之后,或者缓存一个我想要多次
使用
的
状态之后。似乎当我第二次对我
的
数据
帧
调用cache时,一个新
的
副本被缓存到内存
中
。在我
的
应用程序
中
,这会导致在扩展时出现内存问题。尽管在我当前
的
测试
中
,给定
的
数据
帧
最大大约为100MB,但中间结果<
浏览 9
提问于2016-04-28
得票数 39
回答已采纳
1
回答
如何合并或连接
spark
中
列
号不相等
的
数据
帧
、
、
、
、
我正在做一个
使用
spark
的
项目。在某些阶段,我需要在单个
数据
帧
中
合并或连接3个
数据
帧
。这些
数据
帧
来自
spark
sql
表,我
使用
了联合函数,它已经合并了两个表
中
具有相同编号
的
列
,但我也需要合并不相等
的
列
值。我现在很困惑,有没有办法在pyspark
中
合并或连
浏览 13
提问于2016-09-22
得票数 0
2
回答
如何查找
频率
表键
列
是否包含列表
中
的
所有值
、
、
我有一个
数据
帧
,并且我正在对一
列
进行
频率
表计数。我想要搜索表
中
的
key
列
是否包含此列表ls = ['Agree', 'Disagree', 'Neutral', 'N/A']
中
的
所有值,如果
列
key缺少列表
中
的
某些值,我想将缺少
的
值添加到该
列
中</e
浏览 12
提问于2019-11-16
得票数 2
回答已采纳
1
回答
R
中
的
Countif函数(excel)
、
、
、
我有一个
数据
集"a“,它
的
列
"id”大约有23,000行,这在这个
数据
帧
中
是唯一
的
。我想要
计算
这些唯一值在另外两个
数据
集"b“和"c”
中
的
出现
频率
。"b”
中
的
第45
列
。这段代码适用于b
中
的
计数,但当我尝试
使用
相同
的</
浏览 1
提问于2016-04-29
得票数 0
3
回答
查看
Spark
Dataframe
列
的
内容
、
、
、
我
使用
的
是
Spark
1.3.1。 我正在尝试查看Python
中
Spark
dataframe
列
的
值。有了
Spark
dataframe,我可以
使用
df.collect()来查看
数据
帧
的
内容,但在我看来,
Spark
dataframe
列
还没有这样
的
方法。例如,
数据
帧
df包含一个名为'
浏览 1
提问于2015-06-30
得票数 43
回答已采纳
1
回答
通过在不同线程
中
执行多个查询来触发
数据
帧
缓存
、
我想知道
spark
中
的
数据
帧
缓存是否是线程安全
的
。在我们
的
一个用例
中
,我从一个hive-table创建一个dataframe,然后通过不同
的
线程在同一个dataframe上运行多个
SQL
。由于我们
的
存储和
计算
是解耦
的
,而且由于某些原因读取非常慢,我在考虑将
数据
帧
缓存到内存
中
,并将缓存
的
浏览 17
提问于2020-03-10
得票数 0
1
回答
在databricks中
使用
sparklyr查找日期
列
的
最大值
、
、
我只是尝试
使用
databricks
中
的
sparklyr导入
的
数据
来查找日期
列
的
最大值: data %>% dplyr::select(date_variable) %>% max() 这将返回一个错误max()和min()一定是最常用
的
函数之一吗?我在这里做错了什么?
浏览 7
提问于2020-09-26
得票数 1
2
回答
获取数组
列
的
大小/长度
、
、
我是Scala编程
的
新手,这是我
的
问题:如何
计算
每行
的
字符串数?我
的
数据
帧
由ArrayString类型
的
单个
列
组成。friendsDF: org.apache.
spark
.
sql
.DataFrame = [friends: array<string>]
浏览 2
提问于2017-09-07
得票数 45
回答已采纳
2
回答
DataFrame错误:“重载方法值select with alternatives”
、
、
我尝试通过从
数据
帧
中选择小时+分钟/60和其他
列
来创建新
的
数据
帧
,如下所示: (col: String,cols: String*)org.apache.
spark
.
sql
.Dat
浏览 0
提问于2017-02-12
得票数 2
回答已采纳
1
回答
正在将pyspark
数据
帧
写入文本文件
、
我有一个从
sql
server
中
的
一个表创建
的
pyspark
数据
框架,我对它做了一些转换,现在我要将它转换为动态
数据
框架,以便能够将其保存为s3存储桶
中
的
文本文件。当我将
数据
帧
写入文本文件时,我将向该文件添加另一个头文件。这是我
的
动态
数据
框,将保存为文件: 2021-03-21 | MT.0000| 234.543
浏览 0
提问于2021-04-23
得票数 0
1
回答
星火
sql
百分位数在浮点列上
、
、
、
根据,百分位数命令应该给出每个数字
列
的确切百分位数。至少当我
的
输入是由浮点数组成时--这不是真的。from pyspark.
浏览 0
提问于2019-07-21
得票数 2
1
回答
从PySpark运行大量配置单元查询
、
、
、
我想要执行大量
的
配置单元查询,并将结果存储在
数据
帧
中
。我有一个非常大
的
数据
集,结构如下:| visid_high,它
使用
每一行作为二级查询
的
输入:for session in sessions.collect()[:100]: query = "
浏览 5
提问于2018-07-23
得票数 0
1
回答
统一
Spark
中
具有不同
列
数
的
两个表
、
如何联合包含不同
列
数
的
两个
数据
帧
A和B,并为
数据
帧
A和B
中
不常见
的
列
获取空值?我可以看到
spark
的
unionAll不支持此操作,并抛出以下错误 org.apache.
spark
.
sql
.AnalysisException: Union can only be performedon tables with the same number of columns,
浏览 0
提问于2016-08-04
得票数 0
点击加载更多
相关
资讯
使用Python更改数据框中的指定列
大数据中的Spark 优秀的计算框架 总结内容免费分享给你 过来拿吧
Zzreal的大数据笔记-SparkDay04
教程:Apache Spark SQL入门及实践指南!
Spark SQL在字节跳动数据仓库领域的优化实践
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券