腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
PySpark
:
如何
更新
嵌套
列
?
、
、
、
关于
如何
更新
数据帧中的
嵌套
列
,StackOverflow有几个答案。然而,它们中的一些看起来有点复杂。我该
如何
将其转换为Python?
浏览 11
提问于2019-04-25
得票数 0
回答已采纳
2
回答
用json模式
更新
spark数据帧中的
列
、
、
、
、
element: struct (containsNull = true)我试过几件事;from
pyspark
.sql.types import StringTypename =
浏览 2
提问于2016-11-14
得票数 0
回答已采纳
1
回答
将
嵌套
字典键值转换为
pyspark
数据
、
、
、
我有一个
Pyspark
数据文件,看起来像这样:我希望提取"dic“
列
中的
嵌套
字典,并将它们转换为
PySpark
数据格式。如下所示:请告诉我
如何
做到这一点。 谢谢!
浏览 2
提问于2020-07-20
得票数 2
2
回答
Pyspark
:更改
嵌套
列
数据类型
、
如何
在
Pyspark
中更改
嵌套
列
的数据类型?例如,
如何
将value的数据类型从string更改为int?
浏览 19
提问于2017-08-23
得票数 1
回答已采纳
6
回答
用
PySpark
删除数据表的
嵌套
列
、
、
、
、
我正在尝试使用
PySpark
从中的结构中删除一些
嵌套
列
。 我为Scala找到了这个,它似乎正是我想做的,但我不熟悉Scala,也不知道
如何
用Python编写它。
浏览 8
提问于2017-07-12
得票数 10
回答已采纳
1
回答
将事务分组到
嵌套
模式中
、
、
我希望将存储在
pyspark
.sql.dataframe.DataFrame "ddf“中的事务按
列
"key”分组,该
列
指示事务的来源(在本例中为customer )。分组是一个非常昂贵的过程,因此我想在
嵌套
模式中将组写入磁盘: (key, [[c1, c2, c3,...], ...])
如何
创建
嵌套
模式并将其写入磁盘?
浏览 6
提问于2016-05-14
得票数 0
回答已采纳
1
回答
将3级
嵌套
字典键值转换为
pyspark
dataframe
、
、
、
我有一个
Pyspark
数据框架,看起来像这样: ? 我想提取"dic“
列
中的那些
嵌套
字典,并将它们转换为
PySpark
数据帧。如下所示: ? 请告诉我
如何
才能做到这一点。 谢谢!
浏览 22
提问于2020-07-22
得票数 0
1
回答
使用
pyspark
解析JSON时不工作的
嵌套
动态模式
、
、
我正在尝试从
嵌套
的JSON (具有动态模式)中提取某些参数,并使用
pyspark
生成火花数据。我的代码非常适合于第1级(key:value),但对于作为
嵌套
JSON一部分的每一对(key:value)都无法获得独立的
列
。注意-这不是确切的模式。它只是给出了模式的
嵌套
性质的概念。|[@realDonaldTrump...|我想要每个键的独立
列
。此外,请注意,您已经有一个父级密钥的同名文本。你将
如何
处理这种情况?理想情况下,我希望
列<
浏览 2
提问于2019-04-28
得票数 0
回答已采纳
1
回答
基于其他
列
更新
列
的
Pyspark
行
、
我有一个data frame在
pyspark
,如下所示。---+----++---+----+| 2| Tim|| 4| sam|现在,我向df添加了一个新
列
,| 2| Tim| null|| 4| sam| null|现在,我想根据一个条件
更新
pyspark
中实现这一点。编辑--我不是在寻找if the语句,
浏览 1
提问于2018-05-02
得票数 0
回答已采纳
1
回答
Pyspark
:获取
嵌套
结构
列
的数据类型
、
、
、
问题是,当涉及到
列
的数据类型时,每个文件都有细微的差异。有人能给我解释一下检索
嵌套
结构
列
的数据类型的一般方法吗?在互联网上,我只能找到
如何
对它们做选择:https://sparkbyexamples.com/
pyspark
/
pyspark
-select-nested-struct-columns/ 如果我有这样的格式编辑: Json文件当然已经写在dataframe中,我的问题是
如何
查询dataframe以检索数据类型
浏览 42
提问于2021-10-22
得票数 0
2
回答
通过JDBC从
pyspark
dataframe插入到外部数据库表时的重复键
更新
、
、
、
、
嗯,我使用的是
PySpark
,我有一个Spark dataframe,我使用它将数据插入到mysql表中。df.write.jdbc(url=url, table="myTable", mode="append") 我希望通过
列
值和特定数字的总和来
更新
列
值(不在主键中我的问题是,我们
如何
像在my
浏览 4
提问于2015-09-16
得票数 12
2
回答
将MinMaxScaler应用于
PySpark
中的多
列
、
、
我想将MinMaxScalar of
PySpark
应用于
PySpark
数据帧df的多
列
。到目前为止,我只知道
如何
将其应用于单个
列
,例如x。from
pyspark
.ml.feature import MinMaxScaler pdf = pd.DataFrame({'x':range(3), 'y':[1,2,5], 'z':[100,200,1000对于
PySpark
中的许多
列
,有什么方
浏览 0
提问于2020-02-18
得票数 17
回答已采纳
1
回答
Pyspark
使用一条when语句
更新
两
列
?
、
因此,我在
PySpark
中使用df.Withcolumn()来创建
列
,并使用F.when()来指定何时应该
更新
该
列
的条件。df = df.withColumn('ab', F.when(df['text']=="0", 1).otherwise(0)) 基本上,如果符合条件,我会将
列
更新
为“1”。现在,如果相同的条件匹配,我想要
更新
同一df中的另一
列
(例如,df['text'
浏览 3
提问于2016-10-19
得票数 0
1
回答
使用
Pyspark
从数组中读取JSON项?
、
、
、
我在从databricks中的Cosmos DB读取项目时遇到了一些问题,它似乎将JSON读取为字符串值,并将数据从JSON中读取到
列
中。我有一个名为ProductRanges的
列
,其中一行包含以下值: [ { "min": 0, "max": 99,我尝试使用分解并读取基于
列
值的模式,但它确实显示为'in vaild document',我认为这可能是因为<e
浏览 29
提问于2019-05-13
得票数 4
回答已采纳
1
回答
如何
从其他
列
(withColumn)中将具有
嵌套
元素的
列
添加到数据格式中
、
、
我有一个
PySpark
数据文件,它看起来像1 2 3 41 2 3 4 {"C:1", "C1:2", "C2:3", "C3:4"} 我尝试过,但是我不知道
PySpark
中正确的语法是什么,而不是这个问题,它是Scala
如何</
浏览 1
提问于2018-11-30
得票数 0
回答已采纳
1
回答
如何
在需要拆分数据集时加速
Pyspark
编程
、
我认为这将占用时间,所以我选择了这样一种方式:(1)我使用
pyspark
读取所有的csv文件,生成一个大文件df。(2)我从df中获得了股票列表。然后进行迭代,每次我选择一个股票数据的
pyspark
,把它转移到熊猫数据中,在熊猫中计算它。最后,将该文件输出到本地文件中。from
pyspark
.sql import SparkSession spark=SparkSession.builder.appName('data_processin
浏览 4
提问于2020-04-19
得票数 0
1
回答
(Py) SQL语法中的星火getItem()
、
、
数组类型
列
的第n项可以使用getitem(n)检索.地图类型的
列
可以使用getItem(key)或'column.key'分开。数组有类似的语法吗?上下文:目标是以可读的方式从大规模
嵌套
的json中获取特定字段。from
pyspark
import SparkContext sc = SparkContext.getOrCreate(
浏览 4
提问于2020-10-09
得票数 0
回答已采纳
1
回答
将array<string>转换为string
pyspark
dataframe
、
、
、
、
我有一个
pyspark
dataframe,其中一些
列
包含字符串数组(其中一
列
包含
嵌套
数组)。因此,我无法将数据帧写入csv。| Null +-------+--------------------+---------+ 我对
pyspark
浏览 2
提问于2017-09-11
得票数 5
回答已采纳
1
回答
在PysparkSQL中爆炸JSON
、
、
、
我想爆炸一个
嵌套
的json到CSV文件。希望将
嵌套
的json解析为行和
列
。from
pyspark
.sql import SparkSessionfrom
pyspark
.sql.types import*from
pyspark
.sql import Row df=spark.read.option(
浏览 7
提问于2021-11-18
得票数 0
回答已采纳
1
回答
如何
读取大于3 3GB且
嵌套
元素中有重复列的json文件
、
、
、
我在Azure技术上工作,想要读取json文件,它超过3 3GB,并且在
嵌套
元素中有重复的
列
。我试过
pyspark
,数据流,pipeines。但不走运。你能建议我使用哪种技术吗?
浏览 34
提问于2021-11-18
得票数 0
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券