腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
使用
PySpark
对
ArrayType
列
中
的
行
进行
分组
python
、
pyspark
、
pyspark-sql
我有一个带有模式
的
Pyspark
DataFrame,如下所示 root |-- address: string (nullable[ 023466466, 069855633 ] 4 Tokyo [ 044656611, 061316561 ] 您可以看到,id1与id2有1个共同
的
电话号码(012346789),id2与id3有1个共同
的
电话号码(069855633),所以我想创建新
的
数据帧来将
浏览 22
提问于2019-09-13
得票数 0
回答已采纳
1
回答
如何在
使用
spark ml时以另一种方式索引分类特征
apache-spark
、
apache-spark-mllib
火花指数
中
的
VectorIndexer根据变量
的
频率来分类特征。但我想用另一种方式对分类特征
进行
索引。例如,对于下面的数据集,"a“、"b”、"c“将被索引为0、1、2,如果我在spark中
使用
VectorIndexer。但是我想根据标签给它们做索引。有4
行
数据被索引为1,其中3
行
具有特征'a',1
行
feautre 'c‘。在这里,我将索引'a‘为0,'c’为1,'
浏览 4
提问于2016-10-26
得票数 3
回答已采纳
1
回答
如何在
PySpark
中
过滤数组
列
中
的
值?
apache-spark
、
pyspark
我在
Pyspark
上有一篇
ArrayType
专栏。我只想为每一
行
过滤Array
中
的
值(我不想过滤出实际
的
行
!)而不
使用
UDF。例如,给定包含
ArrayType
的
A
列
的
数据集:______________|[1] |我只希望输出为正值
浏览 1
提问于2020-11-12
得票数 1
2
回答
在创建DataFrame时,
Pyspark
列
值将自动移动。
dataframe
、
apache-spark
、
pyspark
、
databricks
我正在尝试
使用
下面的嵌套模式手动创建一个
pyspark
dataframe - StructField('fields',
ArrayType
(StructType([ StructField('sourceids',
ArrayType
(IntegerType(StringType()))我正在<
浏览 2
提问于2020-04-23
得票数 0
回答已采纳
1
回答
从
PySpark
数组
列
中
删除重复项
python
、
apache-spark
、
pyspark
、
apache-spark-sql
我有一个
PySpark
Dataframe,它包含一个
ArrayType
(StringType())
列
。此列包含需要删除
的
数组
中
的
重复字符串。例如,一
行
条目可能类似于[milk, bread, milk, toast]。假设我
的
数据文件名为df,我
的
列名为arraycol。我需要这样
的
东西: df = df.withColumn("arraycol_without_dupes", F.remove
浏览 1
提问于2019-01-14
得票数 2
回答已采纳
1
回答
如何处理不同类型
的
PySpark
自定义项返回值?
list
、
dataframe
、
pyspark
、
typeerror
、
user-defined-functions
我有一个只有一
列
的
数据框。在此数据框
的
每一
行
中
,都有一个列表。1,并将列表
中
的
第二个数字加1.5。def calculate(mylist) : y = mylist[1] + 1.5from
pyspark
.sq
浏览 25
提问于2020-01-23
得票数 0
回答已采纳
1
回答
Spark DataFrame
ArrayType
或MapType用于检查
列
中
的
值
python-2.7
、
apache-spark
、
pyspark
、
apache-spark-sql
、
pyspark-sql
我有一个,其中一
列
是is列表。例如,我想获取其中包含特定ID
的
行数。但是,要
使用
映射,我需要
使用
自定义udf而不是内置(scala)函数array_contains
进行
筛选。
ArrayType
,我可以做到:
浏览 1
提问于2018-10-30
得票数 2
回答已采纳
2
回答
是否
使用
Window()计算
PySpark
中
数组
的
滚动和?
apache-spark
、
pyspark
、
apache-spark-sql
、
pyspark-dataframes
我想计算给定unix时间戳
的
ArrayType
列
的
滚动和,并以2秒为增量
对
其
进行
分组
。输入/输出示例如下。我认为Window()函数会起作用,我
对
PySpark
非常陌生,完全迷失了方向。任何意见都是非常感谢
的
!编辑:多个
列
可以有相同
的
时间戳/它们可能不连续。vars
的
长度也可以大于3。请寻找稍微通用
的
解决方案。
浏览 11
提问于2020-02-26
得票数 2
回答已采纳
1
回答
Python to
Pyspark
函数UDF如何输出列表列表
python
、
apache-spark
、
pyspark
、
apache-spark-sql
、
user-defined-functions
我在Python语言中有一个函数(有许多不同
的
函数,但情况相同),我正在将它转换为
PySpark
,然而,这个函数有一个不同整数类型
的
列表作为输入,有一个输出是一个列表,其中包含n个整数类型
的
列表,举个例子
pyspark
.sql.types import StructType, StructField, IntegerType, FloatType, StringType,
ArrayType
my_func
浏览 55
提问于2021-09-19
得票数 0
1
回答
在
PySpark
-模式问题中展开json
列
- AttributeError:'tuple‘对象没有属性'name’
python
、
json
、
apache-spark
、
pyspark
、
apache-spark-sql
我正在
使用
pyspark
从mutli
行
json对象中提取数据。我能够在文件
中
读取,但无法解析几何图形
列
的
内容。+--------------------+--------------------+-------+但是,当我尝试在
PySpark</e
浏览 2
提问于2021-11-11
得票数 1
4
回答
如何在Spark
中
压缩两个数组
列
python
、
pandas
、
apache-spark
、
pyspark
、
apache-spark-sql
我有潘达
的
数据。我尝试将包含字符串值
的
两个
列
连接到一个列表
中
,然后
使用
zip将列表
中
的
每个元素都用'_‘连接起来。我
的
数据集如下:df['column_2']: '1.0, 2.0, 3.0' 我想将这两
列
连接到第三
列
中
,如下所示,我
的<
浏览 2
提问于2019-01-21
得票数 9
回答已采纳
1
回答
火花放电数据帧
中
数组
的
访问字段
pyspark
、
pyspark-sql
、
orc
我正在开发基于一组ORC文件
的
spark数据访问sql查询。这个程序是这样
的
:spark_session = SparkSession.builder.appName("test").getOrCreate/data/")现在我有了一张名为“测试”
的
桌子。如果我做这样
的
事: spark_s
浏览 0
提问于2018-02-16
得票数 5
回答已采纳
1
回答
当
Pyspark
返回语句中
的
func调用时,不返回任何输出。
python
、
pyspark
、
user-defined-functions
、
pyspark-sql
我正试图在
ArrayType
DataFrame
中
对
一个DataFrame
进行
排序。下面是电火花代码,它是,不提供任何输出from
pyspark
.sql.functions import * return sorted(row, key=itemgetter(1)) # sorting the <e
浏览 0
提问于2018-06-22
得票数 0
1
回答
使用
Pyspark
从数组
中
读取JSON项?
json
、
pyspark
、
databricks
、
azure-databricks
我在从databricks
中
的
Cosmos DB读取项目时遇到了一些问题,它似乎将JSON读取为字符串值,并将数据从JSON
中
读取到
列
中
。我有一个名为ProductRanges
的
列
,其中一
行
包含以下值: [ { "min": 0, "max": 99,JSON文档是有效
的
,当
浏览 29
提问于2019-05-13
得票数 4
回答已采纳
2
回答
分组
依据并过滤
Pyspark
数据框
python
、
dataframe
、
pyspark
我有一个有3
列
的
PySpark
数据框。有些行在两
列
中
相似,但第三
列
不相似,请参见下面的示例。Wood |[2,3] |Sar
浏览 29
提问于2019-10-05
得票数 2
回答已采纳
1
回答
在
pyspark
中
透视
ArrayType
列
apache-spark
、
pyspark
、
apache-spark-sql
、
pyspark-dataframes
我有一个具有以下模式
的
pyspark
dataframe +----------+-------------------+-----------------------------------+---按date和numeric_id
进行
分组
。------------------+-----------------------+----------------------+ 这不同于在旋转字符串Pivot String column on
Pyspark
Dataframe上发布
的
问题,因为
浏览 22
提问于2021-01-27
得票数 0
回答已采纳
1
回答
在
pyspark
数据帧
中
查找非重叠窗口
apache-spark
、
pyspark
、
apache-spark-sql
、
pyspark-sql
假设我有一个以秒为单位
的
id
列
和时间
列
(t)
的
pyspark
数据帧。对于每个id,我希望
对
行
进行
分组
,以便每个组都包含在该组开始时间之后5秒内
的
所有条目。我可以接受在Scala中
使用
自定义UDAF
的
解决方案,只要它是有效
的
。 计算每个组
中
的
(cumsum(t)-(cumsum(t)%5))/5可以用来识别第一个窗口,但不能识别超出第一个
浏览 20
提问于2019-07-19
得票数 0
1
回答
用map迭代
PySpark
中
的
数组
列
python
、
apache-spark
、
pyspark
在
PySpark
中
,我有一个由两
列
组成
的
数据文件:| str1 | array_of_str |我想添加一个
列
concat_result,该
列
包含array_of_str
中
每个元素
的
连接和str1
列
中
的
字符串。|from
pyspa
浏览 1
提问于2019-06-20
得票数 5
回答已采纳
3
回答
如何从数据帧
对
基于
行
的
值
进行
分组
apache-spark
、
pyspark
、
apache-spark-sql
我需要根据以下数据帧
中
的
每个索引
对
基于
行
的
值
进行
分组
。| 2000 | acnt2 |2-4-21 |由于索引立场对于每一
行
和日期都是唯一
的
,所以我需要将
行
值
分组
如下|index|amoun
浏览 10
提问于2022-03-21
得票数 0
回答已采纳
2
回答
对
清单
进行
排序
的
udf
apache-spark
、
pyspark
我有一个名为stopped
的
列
是:| stopped||[nintendo, dsi|[tractor, door, m...||[kaleidoscope, to...|我想要创建另一个
列
,它包含相同
的
列表,但其中
的
关键字是有序
的
。据我所知,我需要创建一个接收并返回列表<e
浏览 3
提问于2017-07-03
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
一文读懂PySpark数据框
一文读懂 PySpark 数据框
PySaprk之DataFrame
Python开源数据分析工具TOP 3!
Oracle学习笔记(二)
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券