腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何
防止
pyspark
使用
explode
()
复制
数据
?
、
、
、
、
} } "PartNumber": "ABC"] df2 = df1.select("*").withColumn("PriceArray",
explode
("
浏览 6
提问于2020-11-14
得票数 0
回答已采纳
1
回答
将句子的“规范化”
数据
转换为更大的词汇
数据
、
、
、
、
使用
Python和Spark: 假设我有一个包含句子行的DataFrame,那么我
如何
(从DBMS术语中)将句子DataFrame变成另一个DataFrame,每一行包含一个从句子中分离出来的单词?现在,我对行计数或唯一的单词并不感兴趣,这是因为我想加入sentence_id上的其他RDD,以获得存储在其他地方的其他有趣的
数据
。
浏览 1
提问于2015-12-16
得票数 2
回答已采纳
1
回答
如何
在
Pyspark
中从MapType列中获取键和值
、
、
、
我尝试在
PySpark
中
复制
这个问题的解决方案(Spark < 2.3,所以没有map_keys):下面的是我的代码(与上面链接的问题的df相同): .select(F.
explode
("alpha"))\ .distinct()\ df.select对
如何
修复它有什么想法吗?
浏览 44
提问于2020-05-20
得票数 0
回答已采纳
1
回答
数据
库中的枢轴问题
、
我有一个具有值的dataframe表:00 Russian Digestion;Destillationid Country Int Interest00Q7 Russ Destillation Digestion;Destillat
浏览 2
提问于2022-10-17
得票数 0
1
回答
PySpark
转换为数组类型
、
我目前正在处理以下错误,同时试图在
pyspark
.sql.functions.
explode
中的DataFrame中的数组列上运行
PySpark
。我不知道
如何
访问这一行来查看
数据
,以了解我需要考虑哪些条件。 我更多的是寻找调试的建议,但如果你知道答案,这也是很好的!. : org.apache.spark.sql.AnalysisException: cannot resolve '
explode
(lot)' due to data type mismatch:(df
浏览 2
提问于2017-11-20
得票数 1
回答已采纳
1
回答
使用
套接字的火花结构化流,设置模式,在控制台中显示DATAFRAME
、
、
、
如何
在DataFrame中为流
PySpark
设置架构。from
pyspark
.sql import SparkSessionfrom
pyspark
.sql.functionsimport splitfrom
pyspark
.sql.types import * .builder
如
浏览 3
提问于2016-12-29
得票数 3
回答已采纳
2
回答
在
PySpark
中分解
、
、
、
如何
在DataFrame中的列上分解?DF = sqlContext.createDataFrame([('cat \n\n elephantresolve '
explode
(word)' due to data
浏览 2
提问于2016-07-06
得票数 30
回答已采纳
1
回答
根据有爆炸和数组的条件
复制
行
、
、
这是我的
数据
格式df。4 3/1/2019 SOD Null Null from
pyspark
.sql import functions as F df1 = df.withColumn("EndOfTheMonthcol("EndDate") >= col("EndO
浏览 1
提问于2019-10-21
得票数 1
回答已采纳
1
回答
将字典的列转换为
pyspark
dataframe中的列
、
、
我有下面的
pyspark
数据
帧df。它的模式如下所示。我还提供了一些样本
数据
,以及我正在寻找的所需输出。我遇到的问题是attributes列的值是字典。所以我在
使用
explode
或from_json时遇到了问题。 我基于另一个
使用
explode
的SO post进行了一次尝试,我运行的代码和错误低于示例
数据
和所需的输出。有谁有建议
如何
做到这一点?我正在考虑将它转换为pandas,并尝试以这种方式解决它,但我希望有一个更好/更快
浏览 43
提问于2021-10-05
得票数 1
回答已采纳
2
回答
将具有数组形状的字符串的
pyspark
databricks
数据
框转换为标准列
、
、
我有一个databricks
数据
框架,里面有大量的问卷结果,df上的问卷长度各不相同,问题也并不总是相同。
如何
从字符串字段Responses中获取问题和答案,这样我就有了一个包含3列的"CustomerID, Questions, Answers"列表 因此,从这里开始 CustomerID Responses
浏览 7
提问于2021-09-22
得票数 0
回答已采纳
1
回答
在PysparkSQL中爆炸JSON
、
、
、
from
pyspark
.sql import SparkSessionfrom
pyspark
.sql.types import*from
pyspark
.sql import Row .select((F.<
浏览 7
提问于2021-11-18
得票数 0
回答已采纳
1
回答
AWS glue
pyspark
-将源表中的一行转换为目标中的多行
、
、
我有以下要求
如何
使用
pyspark
explode
函数实现此功能?
浏览 7
提问于2020-03-03
得票数 2
1
回答
PySpark
UDF:一个fir变换示例
、
、
我对
pyspark
非常陌生,并且正在尝试将一些python代码转换为
PySpark
。我从熊猫开始,转换成文档项矩阵,然后应用PCA.我正在
使用
火花2.4.4版本。
浏览 7
提问于2022-03-18
得票数 0
回答已采纳
1
回答
由于
数据
类型不匹配的
PySpark
,无法解析列
、
、
在
PySpark
中遇到的错误:
数据
结构df.select('result_set.currency', 'result_set.date
浏览 3
提问于2020-03-12
得票数 2
回答已采纳
1
回答
如何
在
使用
spark ml时以另一种方式索引分类特征
、
例如,对于下面的
数据
集,"a“、"b”、"c“将被索引为0、1、2,如果我在spark中
使用
VectorIndexer。但是我想根据标签给它们做索引。有4行
数据
被索引为1,其中3行具有特征'a',1行feautre 'c‘。在这里,我将索引'a‘为0,'c’为1,'b‘为2。 是否有任何可行的方法来实现这一点?
浏览 4
提问于2016-10-26
得票数 3
回答已采纳
1
回答
如何
分解
pyspark
dataframe中的map类型?
、
、
我有一个
数据
帧 import os, sysimport pyodbc from
pyspark
.sql.functions import
explode
, col, from_json, litfrom
pyspark<
浏览 28
提问于2020-10-06
得票数 0
回答已采纳
2
回答
火花放电中sql.dataframe.DataFrame阵列的扁平阵列(不同尺寸)
我有一个
pyspark
.sql.dataframe.DataFrame,是这样的: +---------------------------+--------------------+---------
浏览 5
提问于2019-12-09
得票数 0
回答已采纳
1
回答
PySpark
用浮点划分
数据
阵列
、
、
、
我有一个
数据
格式的dfDistance。为什么它在
PySpark
情况下不能工作,我应该
如何
修改代码才能工作呢?
浏览 0
提问于2019-04-27
得票数 1
回答已采纳
2
回答
基于另一列中的值的
PySpark
数据
帧中的重复行
、
、
我有一个
数据
帧,如下所示:123 2789 3所以输出应该是ID_New 123-2ID_New 789-1ID_New 789-3 我正在研究"
explode
“函数,但根据我看到的例子
浏览 1
提问于2017-01-06
得票数 1
2
回答
PySpark
2.2爆炸删除空行(
如何
实现
explode
_outer)?
、
、
、
我正在处理
PySpark
数据
帧中的一些深度嵌套
数据
。当我试图将结构扁平化为行和列时,我注意到当我调用withColumn时,如果该行在源列中包含null,那么该行将从我的结果
数据
帧中删除。相反,我希望找到一种方法来保留行,并在结果列中
使用
null。要
使用
的示例
数据
帧:f
浏览 0
提问于2018-10-11
得票数 2
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何使用pyspark统计词频?
复制证明如何防止攻击?
如何防止文档内容被复制
PySpark算子处理空间数据全解析(5):如何在PySpark里面使用空间运算接口
如何防止PDF被复制或打印
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券