腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
在
pyspark
的
StructStreaming
中
;
如何将
DataFrame
中
的
每
一行
(
json
格式
的
字符串
)转
换为
多
列
python
、
pyspark
我
的
DataFrame
结构如下所示 +--------------------++--------------------++--------------------+ 然后这里
的
字符串
结构看起来像这样 { "client_args":{"00000065753&q
浏览 17
提问于2020-04-21
得票数 2
2
回答
以
每
列为关键字将
PySpark
数据帧转
换为
JSON
apache-spark
、
pyspark
、
apache-spark-sql
、
databricks
我正在研究
PySpark
。我有一个数据框,我需要将其
转
储为
JSON
文件,但
JSON
文件应具有以下
格式
,例如- {"Column 1": [9202, 9202, 9202, ....], "Column 2": ["FEMALE因此,
每
列
应该有一个键,相应
的
值应该包含该
列
中
的
所有值
的
列表 我尝试将其转
换为
Panda
浏览 14
提问于2019-12-18
得票数 1
回答已采纳
1
回答
将
字符串
列转
换为
pyspark
dataframe
中
的
字典
json
、
string
、
pyspark
、
pyspark-sql
我必须使用一种文件
格式
,其中
每
一行
都是一个
json
对象。而且,实际
的
结构要大得多,嵌套也要
多
。这些文件是
在
s3
中
分发
的
。我以前只使用过地板或csv,所以我不知道如何读取这些文件。我目前正在编写一个进程来将该数据与其他几个表连接起来,而且由于数据很大,并且位于s3
中
,所以我
在
emr集群中使用
pyspark
.sql进行操作。我可以使用以下方法创建一个包含对象为
字符串
<
浏览 3
提问于2020-03-02
得票数 1
回答已采纳
1
回答
将
PySpark
DataFrame
中
的
每
一行
转
换为
s3
中
的
文件
python
、
apache-spark
、
amazon-s3
、
pyspark
、
pyspark-sql
我正在使用
PySpark
,并且需要将
DataFrame
中
的
每
一行
转
换为
JSON
文件(
在
s3
中
),最好使用选定
列
的
值来命名该文件。 我不知道该怎么做。任何帮助都将不胜感激。
浏览 10
提问于2019-08-05
得票数 0
1
回答
PySpark
PCA:
如何将
数据行从
多
列
转
换为
单列DenseVector?
apache-spark
、
pyspark
、
apache-spark-mllib
、
pca
、
apache-spark-ml
我想使用
PySpark
(Spark1.6.2)对存在于Hive表
中
的
数值数据执行主成分分析(PCA)。= hiveContext.sql("SELECT * FROM my_table")<class '
pyspark
.sql.
dataframe
.
DataFrame
有一篇优秀
的
StackOverflow文章展示了如何在
PySpark
:<e
浏览 1
提问于2016-10-06
得票数 4
回答已采纳
2
回答
如何在
PySpark
中将df
列
[
JSON
_Format]转
换为
多个
列
?
python
、
apache-spark
、
pyspark
、
apache-kafka
、
spark-structured-streaming
我从Kafka那里得到了
JSON
格式
的
数据,并在
PySpark
中
以
DataFrame
的
形式读取了这些数据。
在
我从Kafka获得数据后,它显示为
DataFrame
格式
:
DataFrame
[value: string] 但是,该值包含
JSON
/ DICT
格式
。testing.writeStream.foreach(print_row).start() R
浏览 24
提问于2020-01-13
得票数 0
1
回答
将
Dataframe
激发到StringType
json
、
apache-spark
、
pyspark
、
apache-kafka
在
PySpark
中
,
如何将
Dataframe
转
换为
普通
字符串
?我将
PySpark
与Kafka一起使用,而不是硬编码代理名称,而是
在
PySpark
中
参数化了Kafka broker名称。
Json
文件保存了代理详细信息,Spark读取这个
Json
输入并将值赋值给变量。这些变量为带有
字符串
的
Dataframe</em
浏览 0
提问于2021-03-05
得票数 0
1
回答
使用Spark按行和
列
展开
JSON
字符串
json
、
pyspark
、
apache-spark-sql
我刚开始使用Spark并使用
JSON
,我很难做一些相当简单
的
事情(我认为)。我试过用一些类似问题
的
解决方案,但不能完全正确。我现在有一个Spark,它有几个列表示变量。
每
一行
都是变量值
的
唯一组合。然后,我有一个应用于
每
一行
的
UDF,该行接受
每
一
列
作为输入,进行一些分析,并将汇总表输出为
每
一行
的
JSON
字符串
,并
浏览 1
提问于2020-04-14
得票数 5
回答已采纳
3
回答
pyspark
将
dataframe
列
从时间戳转
换为
"YYYY-MM-DD“
格式
的
字符串
apache-spark
、
pyspark
在
pyspark
中
,有没有办法将时间戳数据类型
的
dataframe
列
转
换为
格式
为'YYYY-MM-DD‘
格式
的
字符串
?
浏览 3
提问于2018-02-22
得票数 14
回答已采纳
1
回答
如何将
除string以外
的
任何数据类型转
换为
pyspark
dataframe
中
的
字符串
python-3.x
、
apache-spark
、
pyspark
、
spark-dataframe
、
pyspark-sql
我正在尝试对两个数据
格式
中
的
每
一行
应用
pyspark
函数散
列
算法来识别差异。散
列
算法是基于
字符串
的
,所以我尝试将任何数据类型转
换为
字符串
。我
在
日期
列
转换
中
面临大多数问题,因为
在
转
换为
字符串
之前,需要更改日期
格式
,以使基于哈希
的
matchin
浏览 1
提问于2018-02-02
得票数 0
回答已采纳
3
回答
优化火花放电
中
的
行访问和转换
python
、
amazon-web-services
、
apache-spark
、
amazon-s3
、
pyspark
我有一个大型数据集(5GB),其
格式
是S3桶
中
的
jason。我需要转换数据
的
模式,并使用ETL脚本将转换后
的
数据写回S3。#df is the
pyspark
浏览 3
提问于2020-05-30
得票数 1
回答已采纳
1
回答
将
dataframe
的
每
一行
转
换为
字符串
apache-spark
、
pyspark
、
apache-spark-sql
、
pyspark-sql
我正试图使用
pyspark
中
的
hashlib.md5为
dataframe
生成哈希代码。它只接受一个
字符串
来生成哈希代码。我试过: str=df.sele
浏览 4
提问于2017-12-21
得票数 1
回答已采纳
1
回答
如何将
所有的日期
格式
转
换为
日期
列
的
时间戳?
apache-spark
、
datetime
、
pyspark
、
apache-spark-sql
我使用
的
是
PySpark
版本3.0.1。我正在将csv文件读取为具有2个日期
列
的
PySpark
数据帧。但是,当我尝试打印模式时,两
列
都被填充为
字符串
类型。 ? ? 上面附加
的
屏幕截图是
Dataframe
和
Dataframe
模式。 如何使用
pyspark
将date
列
中
的
行值转
换为
时间戳
格式
?我已经尝
浏览 16
提问于2020-12-30
得票数 2
1
回答
如何从
列
中
删除不包含数字
的
行,以及
如何将
带数字
的
字符串
转
换为
整数?
python
、
pandas
我有一个有2
列
的
DataFrame
。一个是描述,另一个是数量。amounts
列
中
的
每
一行
都有数字,但它们被
格式
化为带有"“
的
字符串
,其中一些不是数字。那么有两个问题,我如何删除非数字
字符串
?另外,
如何将
字符串
转
换为
整数?, "Jay", "John", "Claud&q
浏览 13
提问于2021-11-18
得票数 0
1
回答
将嵌套
的
JSON
列
转
换为
Pyspark
列
arrays
、
json
、
dataframe
、
pyspark
我已经使用S3数据
格式
在
pyspark
.pandas
中
读取和存储了拼花文件。现在,
在
第二阶段,我试图
在
databricks
中
读取
pyspark
dataframe
中
的
parquet文件,并面临将嵌套
的
json
列
转
换为
适当
列
的
问题。首先,我使用以下命令从S3读取拼图数据: adf = spark
浏览 8
提问于2022-06-07
得票数 0
1
回答
在
Pyspark
中
的
布尔
列
中
填充空值
python
、
json
、
apache-spark
、
pyspark
、
null
我有一个有一些布尔
列
的
dataframe
,这些列有时看起来是空
的
,就像其他数据类型
的
其他
列
一样。df.toJson().zipWithIndex() 但是,当某
列
的
行为null时,该
列
不会转
换为
键,这给我留下了不匹配<em
浏览 19
提问于2022-02-02
得票数 1
1
回答
如何从
PySpark
中
的
向量
列
中提取浮点数?
python
、
apache-spark
、
pyspark
、
user-defined-functions
、
pyspark-dataframes
我
的
星火
DataFrame
有以下
格式
的
数据:printSchema()显示
每
一
列
都是vector类型
的
。我尝试使用下面的代码从[和]
中
获取值(对于1
列
col1):from
pyspark
.sql.types import FloatTypefirstelement=udf(lambda v:float(v[0]
浏览 0
提问于2020-02-18
得票数 1
回答已采纳
1
回答
我是否需要使用普通
的
python,除了
pyspark
,或者
pyspark
拥有我所需要
的
所有东西?
hadoop
、
machine-learning
、
pyspark
、
cloudera
我
的
公司正转向使用Hadoop & learning进行机器学习。我知道python在库
中
是非常全面的,但是当我们切换到
pyspark
时,如果我们需要
的
东西还没有
在
pyspark
中
可用呢?而且,继续使用python可能更容易一些,因为我已经知道了python.So: 你能把它们混合在一
浏览 4
提问于2017-08-30
得票数 0
2
回答
使用来自另一个
dataframe
的
JSON
对象创建新
的
数据
python
、
json
、
pandas
、
dataframe
、
pyspark
我有一个
dataframe
,它在一个
列
中
存储一个
JSON
对象。我希望处理
JSON
对象来创建一个新
的
dataframe
(
列
的
数目和类型不同,每行将从
JSON
对象生成n个新行)。我在下面编写了这样
的
逻辑:
在
迭代原始数据集时,将字典(行)附加到列表
中
。data = [] global data f
浏览 4
提问于2022-10-19
得票数 1
回答已采纳
1
回答
将
JSON
对象数组转
换为
pyspark
中
的
字符串
json
、
apache-spark
、
pyspark
、
apache-spark-sql
我有一个需求,需要从一个
PySpark
数据帧返回
的
列
创建一个自定义
的
JSON
。因此,我编写了一个UDF,如下所示,它将为
每
一行
从UDF返回一个
字符串
格式
的
JSON
。参数entities
在
JSON
格式
的
数组
中
。def halResponse(entities, admantx, copilot_id): <
浏览 20
提问于2020-12-23
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
肝了3天,整理了90个Pandas案例
数据加载、存储与文件格式
干货:手把手教你用Python读写CSV、JSON、Excel及解析HTML
4个解决特定的任务的Pandas高效代码
练习题067:如何将一列数据转换为四列多行
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券