腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Pyspark
新手入门
-
导入
CSV
并
创建
包含
数组
列
的
parquet
文件
、
、
、
、
我是
Pyspark
的
新手,我一直在努力完成一些我认为相当简单
的
事情。我正在尝试做一个将
csv
文件
转换为拼图
文件
的
ETL过程。
CSV
文件
有几个简单
的
列
,但其中一
列
是一个分隔
的
整数
数组
,我希望将其展开/解压缩到一个
parquet
文件
中。这个拼图
文件
实际上是由一个.net核心微服务使用<e
浏览 11
提问于2019-03-22
得票数 0
回答已采纳
1
回答
PySpark
拼花数据类型
、
我使用
PySpark
读取一个相对较大
的
csv
文件
(~10 to ):所有
列
都有数据类型string。例如,在更改column_a
的
数据类型后,我可以看到数据类型已更改为integer。如果我将ddf写到一个拼图
文件
中,
并
读取这个拼图
文件
,我会注意到所有的
列
都有
浏览 4
提问于2018-06-01
得票数 0
1
回答
如何优化存储数据,以便在谷歌云上使用
PySpark
、
、
我将使用
PySpark
运行一些东西(回归、ML等)。在相当大
的
结构化数值数据集(>1TB)上。目前,谷歌云存储上
的
数据是
CSV
格式
的
。是否将数据转换为其他格式(
Parquet
等)?在
csv
中加速阅读火花,还是阅读速度大致相同?
浏览 2
提问于2017-06-27
得票数 0
回答已采纳
1
回答
Apache :如何使用保存在"avro.schema“属性中
的
模式从
CSV
文件
创建
拼花
文件
、
、
我正在尝试使用Apache从
CSV
文件
创建
一个
parquet
文件
。我能够将
CSV
转换为
parquet
文件
,但问题是,这个
parquet
文件
的
模式
包含
struct类型(我需要克服这种结构类型),并将其转换为string类型。到目前为止,我一直试图把
CSV
转换成地板.我还想知道,如何在Windows中查看.
parquet
文件
。目前,
浏览 3
提问于2021-08-02
得票数 0
回答已采纳
9
回答
如何将
csv
文件
转换为拼接
、
我刚接触BigData.I需要将
csv
/txt
文件
转换为
Parquet
格式。我搜索了很多,但找不到任何直接
的
方法。有什么方法可以做到这一点吗?
浏览 3
提问于2014-09-30
得票数 40
1
回答
在使用Python中
的
Polars读写
Parquet
文件
时,我可以指定模式吗?
、
、
、
、
当使用Python中
的
Polars读取
CSV
文件
时,我们可以使用参数dtypes来指定要使用
的
模式(对于某些
列
)。我想知道我们在读或写
Parquet
文件
时能做同样
的
事情吗?我有一些从
PySpark
生成
的
Parquet
文件
,
并
希望将这些
Parquet
文件
加载到Rust中。锈蚀需要无符号整数,而火花/
PySpark
浏览 13
提问于2022-05-20
得票数 1
2
回答
为dynamodb
导入
将
parquet
转换为json
、
如果我想使用这些拼图格式
的
s3
文件
来恢复dynamodb中
的
表,这就是我
的
想法-读取每个拼图
文件
并将其转换为json,然后将json格式
的
数据插入到dynamodb中(使用下面几行中
的
pyspark
)# set sql contextparquetFile.write.json(output_path) 使用- https:
浏览 19
提问于2019-12-29
得票数 1
回答已采纳
1
回答
火花数据柱抵抗重命名
、
我有一个Spark df,它只有一个列名为“我
的
列名”。它是通过读取一个拼花
文件
来
创建
的
。编辑拼花
文件
是通过读取名为test.
csv
的
CSV
文件
创建
的
,该
文件
包含
以下内容:test1然后用熊猫test.
parquet
(“test.
parquet
”) /edit把它写到一个
浏览 8
提问于2022-05-18
得票数 1
1
回答
拼图格式-拆分不同
文件
中
的
列
、
、
在拼图文档上明确提到,该设计支持将元数据和数据拆分到不同
的
文件
中,还包括不同
列
组可以存储在不同
文件
中
的
可能性。你知道怎么做到这一点吗?
浏览 11
提问于2021-02-17
得票数 2
2
回答
在编写拼花时删除分区
列
、
、
、
我有一个带有日期
列
的
数据格式。我把它分析成了年、月、日
的
专栏。我想在这些列上进行分区,但我不希望这些
列
持久存在于
parquet
文件
中。下面是我对数据进行分区和编写
的
方法: df = df.withColumn('year', f.year(f.col('date_col'))).withColumn('month',f.month(f.col'))).withColumn('day'
浏览 0
提问于2019-06-24
得票数 1
回答已采纳
1
回答
如何将星火ArrayType
列
输出到Postgres
的
.
csv
、
、
、
、
假设DF有2
列
,如下所示:我遇到
的
问题是我
的
dataframe
包含
一个ArrayType (字符串)
列
。问题: 有更好
的
方法跳过S3吗?还是使用类似于.
parquet
格式
的
中介
的
方法?(postgres似乎不支持一种简单
的
批量插入拼板
文件
的
方法
浏览 4
提问于2019-09-23
得票数 0
1
回答
将多个
列
的
值存储在新
列
下
的
pyspark
dataframe中
、
、
我从
csv
文件
导入
数据,其中
包含
列
Reading1和Reading2,并将其存储到
pyspark
数据帧中。我
的
目标是有一个新
的
列名为Reading,它
的
值是一个
包含
Reading1和Reading2值
的
数组
。怎样才能在
pyspark
中实现同样
的
效果。
浏览 9
提问于2019-09-22
得票数 0
回答已采纳
1
回答
从密钥和字典到数据帧
的
RDD
、
、
我有来自不同时间和大陆
的
许多温度测量数据。我将数据加载到rdd (我在此代码示例中给出了数据
的
示例),按键组合它,然后将字典列表转换为dataframe。a.append(b) a.extend(b) sc =
pyspark
.SparkContext'time': '1'}]), ('America', [{'temp': &
浏览 1
提问于2018-03-22
得票数 0
2
回答
如何使用
pySpark
读取分区parquets
的
子示例?
、
、
、
假设为我提供了parquets数据
的
以下分区:└── data/ │ ├── <hash>_toto.
parquet
└── product=cake/ └── ...我想使用
PySpark
读取数据,但不包括
包含
<
浏览 8
提问于2022-01-20
得票数 1
回答已采纳
1
回答
利用Avro/
Parquet
将地理数据
导入
BigQuery
、
、
、
、
目前,我使用拼图
文件
将数据
导入
BigQuery (地理信息系统)。其中一个拼图
文件
包含
几何
列
,将几何数据表示为WKT字符串(MultiPolygon),我想将该列作为GEOGRAPHY类型
导入
。文档提到不支持从WKT (string)到GEOGRAPHY
的
自动转换,那么我如何克服这个问题?我希望避免使用
CSV
文件
,
并
手动提供模式定义。然而,即使我首先
创建
了空表,并且只想添加新
的
拼图
浏览 29
提问于2018-09-18
得票数 3
回答已采纳
1
回答
Python火花-在拼花
文件
中转义引号
、
、
我
的
拼花
文件
是从
CSV
派生出来
的
,在
CSV
中,有些单元格被转义了。这是一种价值我想把这封信读成我试图在阅读时从拼花
文件
中转义引号。如果我读
的
是
CSV
,我可以按以下方式来做 df = spark.read.option('quote', '"').option
浏览 0
提问于2018-09-24
得票数 0
回答已采纳
1
回答
将具有动态柱
的
CSV
转换为拼图
、
、
我有一个表
的
csv
文件
,该表
包含
顺序不确定
的
动态
列
:name, id, age, job
csv
文件
2:002, PM, Brandonspark.read.
csv
(input
浏览 6
提问于2020-06-04
得票数 0
1
回答
验证镶嵌块
文件
中
的
空值
、
我在读第三方
的
镶木地板
文件
。似乎无论
文件
是如何编写
的
,
parquet
总是将
文件
的
模式转换为可空
的
列
。 在读取这些
文件
时,我希望拒绝在特定
列
中
包含
空值
的
文件
。(myPath) 如果在col1中
包含
NULL,则加载将被拒绝。我可以对空值
的
列
进行筛选或计数,然后引发错误-从性能角度来看,这是很糟糕<
浏览 29
提问于2020-09-25
得票数 0
回答已采纳
1
回答
读取
csv
文件
时不返回数据格式结果。
、
、
、
我正在尝试读取
csv
文件
,下面是我使用
的
代码,它没有返回任何结果。在指定
的
路径中,
csv
文件
中
包含
数据。当我使用ValidFile = spark.read.
csv
(ValidationFileDest, header = True)时,我遇到了一些问题,为此返回结果,但是
列
的
数据是交换
的
,并且是空
的
,这就是我在代码中应用模式DROPMALFORMED
的
原因
浏览 7
提问于2022-07-07
得票数 0
2
回答
如何在AWS Glue中正确重命名动态数据帧
的
列
?
、
、
、
、
我加载JSON数据,并在动态数据帧上使用relationalize方法来扁平化否则嵌套
的
JSON对象,并将其保存为
parquet
格式。问题是,为了更快
的
雅典娜查询,一旦保存为
parquet
格式,列名就
包含
点,这违反了雅典娜SQL查询语法,因此我无法进行特定于
列
的
查询。为了解决这个问题,我还对Glue作业中
的
列名进行了重命名,以排除圆点
并
添加下划线。我
的
问题是,这两种方法中哪一种更好,为什么?(效率-内存?节点上<em
浏览 132
提问于2019-11-29
得票数 4
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
一文读懂PySpark数据框
一文读懂 PySpark 数据框
10个Pandas的另类数据处理技巧
遇见YI算法之初识Pyspark(二)
Python开源数据分析工具TOP 3!
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
即时通信 IM
活动推荐
运营活动
广告
关闭
领券