腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
使用
pyspark
聚合
json
数据
json
、
pyspark
我目前正在
使用
pyspark
和伟大的语言游戏
数据
集,它包含几个样本作为
json
对象,如下所示。我已经看过
pyspark
documentation,但由于我对python/
pyspark
还很陌生,所以它并不真正理解
聚合
函数是如何工作的。
浏览 21
提问于2019-05-17
得票数 0
1
回答
为
聚合
增加或减少分区?
apache-spark
、
pyspark
、
spark-dataframe
我不确定在执行
聚合
操作时是否应该增加或减少分区的数量。假设我
使用
的是火花放电
数据
格式。
pyspark
1.6.1。增加分区数量的论据:由于为了
聚合
,我们必须对
数据
进行洗牌,所以您需要对周围的
数据
进行洗牌,从而增加分区的数量,以减小分区的大小。因此,过多的分区将导致过多的开销,而
浏览 1
提问于2017-08-10
得票数 1
回答已采纳
6
回答
PySpark
groupBy中的中位数/分位数
apache-spark
、
pyspark
、
apache-spark-sql
我想计算星火
数据
中的组分位数(
使用
PySpark
)。无论是近似的还是精确的结果都可以。我更喜欢可以在groupBy / agg上下文中
使用
的解决方案,以便将其与其他
PySpark
聚合
函数混合
使用
。是相关的,但没有指明如何
使用
approxQuantile作为
聚合
函数。 我还可以访问percentile_approx Hive,但我不知道如何
使用
它作为
聚合
函数。为了具体起见,假设我有以下<em
浏览 5
提问于2017-10-20
得票数 76
回答已采纳
1
回答
在
pyspark
中
聚合
json
数据
apache-spark
、
pyspark
我刚接触
pyspark
,有没有人能帮我汇总一下这些
数据
。我在一个文本文件中有
json
数据
,如下所示{"a":1 , "b":"abc2", "c":&q
浏览 2
提问于2017-02-27
得票数 2
回答已采纳
1
回答
是否有可能将.agg(字典)与.alias()重命名为结果列?
pyspark
、
aggregate
我有一个'
pyspark
_df‘,我想对
数据
进行分组,并将
数据
聚合
成一个通用函数字符串名,如下所示:'avg’、'count‘、'max’、'mean‘、'min’或'sum‘。无论
聚合
类型如何,我都需要得到
聚合
的名称。我做到了以下几点。'Balance'name_to_be_Changed = aggType + '(' +
浏览 3
提问于2019-11-13
得票数 0
回答已采纳
1
回答
在AWS Glue中
聚合
数据
帧的好方法是什么
amazon-web-services
、
apache-spark
、
spark-dataframe
、
aws-glue
我正在尝试在AWS Glue中
聚合
数据
帧。我
使用
了以下
pySpark
代码来执行
聚合
:是否有更好的方式在AWS Glue中执行
聚合
?
浏览 0
提问于2017-11-09
得票数 5
1
回答
使用
Pyspark
处理具有不同
JSON
模式行的单个
数据
集
python
、
json
、
apache-spark
、
pyspark
、
databricks
我
使用
的是
PySpark
,我需要处理附加到单个
数据
帧中的日志文件。大多数列看起来都是正常的,但其中一列在{}中有
JSON
字符串。基本上,每一行都是一个单独的事件,对于
JSON
字符串,我可以应用单独的Schema。但我不知道在这里处理
数据
的最好方法是什么。 示例: ? 这个表稍后将帮助我以所需的方式
聚合
事件。我尝试
使用
函数withColumn和from_
json
。它成功地在单个列中工作: from
pyspark
.
浏览 15
提问于2021-09-01
得票数 0
1
回答
如何在spark中进行嵌套collect_list?
apache-spark
、
pyspark
、
apache-spark-sql
我对
数据
砖火花SQL很陌生。我正在寻找嵌套的collect_list并试图找出答案。policy policy.CustomerPartyId不允许在另一个
聚合
函数的参数中
使用
聚合
函数请在子查询中
使用
内部
聚合
函数。 from
pyspark
i
浏览 4
提问于2021-06-11
得票数 2
回答已采纳
2
回答
星星之火中的
json
列的合并和计数
sql
、
json
、
dataframe
、
pyspark
我想将一个列值(
json
)
聚合
到星火
数据
表和hive表中。例如: 2010 01 [{"a_id":"caes"},{"a_id":"rgvtsa"},{"a_id":"btbsdv
数据
被保存为一个蜂巢表,所以最好是通过
pyspark
来处理它? 我也想知道如何工作,如果它是一个火花
数据</e
浏览 4
提问于2020-07-24
得票数 1
1
回答
具有列表
数据
类型的列: Spark HiveContext
pyspark
、
spark-dataframe
、
pyspark-sql
下面的代码
聚合
并创建一个
数据
类型为list的列: "column_name_1" expr("collect_list(column_name_2) " ) 因此,似乎可以将“list”作为dataframe中的列
数据
类型。我想知道我是否可以写一个返回自定义
数据
类型的udf,例如p
浏览 2
提问于2016-07-15
得票数 0
2
回答
不带
聚合
或计数的
Pyspark
groupBy DataFrame
python
、
pyspark
、
pyspark-dataframes
它可以在没有
聚合
或计数的情况下遍历
Pyspark
groupBy
数据
帧吗?. Is there a difference in how to iterate groupby in
Pyspark
or have to use aggregation
浏览 54
提问于2020-01-07
得票数 3
回答已采纳
2
回答
有没有办法在
Pyspark
中动态猜测模式?
python
、
arrays
、
python-3.x
、
apache-spark
、
pyspark
我尝试为其中几个定义了Struct模式,如下所示- from
pyspark
.sql.types import StructType,StructField, StringType StructField("col1",StringType(),True), StructField("col4",
浏览 23
提问于2021-10-02
得票数 3
回答已采纳
2
回答
扩展Scala
聚合
中的表达式
scala
、
apache-spark
、
expression
、
aggregation
、
expansion
我正在尝试将一个简单的
聚合
代码从
PySpark
转换到Scala。
数据
文件:from
pyspark
.sql import functions as F [([10, 100],),200],)],// Scala (Seq(10, 100)),).toDF("val
浏览 9
提问于2022-06-30
得票数 2
回答已采纳
1
回答
电火花
聚合
pyspark
、
iteration
、
aggregation
比如说,我有
数据
如下所示100 | ws | | | 2022-02-01|现在我有一个sql
聚合
,如下所示mid,min(NEXT(m_date1,as dat1,min(NEXT(m_date3, 'SA
浏览 5
提问于2022-04-23
得票数 1
回答已采纳
1
回答
火花溢出与指定的执行器内存无关
apache-spark
、
hdfs
、
pyspark
我注意到了在
使用
spark 2.0运行
pyspark
应用程序时的奇怪行为。奇怪的是,我还看到,当这个阶段正在运行时,几乎没有
使用
任何分配的存储内存(如spark中的executors选项卡中所报告的那样)。
浏览 2
提问于2016-12-27
得票数 4
回答已采纳
1
回答
无法将
聚合
数据
放入内存
apache-spark
、
pyspark
我想把
聚合
的
数据
放入内存,但得到error.Any建议?orders = spark.read.
json
("/user/order_items_
json
") df_2 = orders.where("order_item_order_id == 2").groupby
浏览 1
提问于2020-05-06
得票数 1
回答已采纳
1
回答
访问和爆炸
json
嵌套项的
Pyspark
python
、
json
、
pyspark
我是个新手,我正试图解析一个包含要
聚合
的
数据
的
json
文件,但是我无法找到它的内容。我寻找其他的解决方案,但我找不到在我的情况下起作用的任何东西。这是导入的
json
的
数据
架构: |-- UrbanDataset: struct (nullable = true) | |-- context: struct (nullable我的目标是从此模式检索值结构,并操作/
聚合
位于line.element.property.element.val中的所有val。、U
浏览 1
提问于2019-02-21
得票数 0
1
回答
为什么在将
聚合
数据
帧写入文件接收器时会出现异常?
apache-spark
、
pyspark
、
apache-spark-sql
、
spark-structured-streaming
我正在对流
数据
帧执行
聚合
,并尝试将结果写入输出目录。但我得到了一个例外
pyspark
.sql.utils.AnalysisException: 'Data source
json
does not support Update output mode;grouped_df.filter(col('total_count') > threshold)writer_query = result_host.writeStream \ .format("
json
浏览 9
提问于2020-11-01
得票数 0
回答已采纳
2
回答
带有groupby的
pyspark
collect_set或collect_list
list
、
group-by
、
set
、
pyspark
、
collect
在groupby之后,如何在
数据
帧上
使用
collect_set或collect_list。例如:df.groupby('key').collect_set('values')。
浏览 2
提问于2016-06-02
得票数 62
回答已采纳
1
回答
使用
套接字的火花结构化流,设置模式,在控制台中显示DATAFRAME
apache-spark
、
pyspark
、
apache-spark-sql
、
spark-structured-streaming
如何在DataFrame中为流
PySpark
设置架构。from
pyspark
.sql import SparkSessionfrom
pyspark
.sql.functionsimport splitfrom
pyspark
.sql.types import * .builder如何
使用
它们的
数据<
浏览 3
提问于2016-12-29
得票数 3
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python大数据处理库PySpark实战——使用PySpark处理文本多分类问题
PySpark算子处理空间数据全解析(5):如何在PySpark里面使用空间运算接口
Ajax-使用Ajax传递Json数据
使用聚合数据开发新闻头条
Greenplum数据库使用总结-对JSON的支持
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券