腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
使用
pyspark
比较
拼图
文件
的
元
数据
pyspark
、
schema
、
metadata
、
parquet
我正在
使用
pyspark
,有一个情况,我需要
比较
2
拼图
文件
的
元
数据
。示例:-
拼图
1架构为: 1,ID,字符串2,地址字符串3,日期,日期
拼图
2架构为: 1,ID,字符串2,日期,日期3,地址字符串 这应该会显示出不同之处,因为拼花地板2中
的
col2移到了col3。
浏览 12
提问于2020-01-21
得票数 0
1
回答
使用
iceberg表格式向DataFrame模式添加自定义
元
数据
apache-spark
、
apache-spark-sql
、
apache-spark-mllib
、
apache-spark-ml
、
apache-spark-2.0
我
使用
将自定义
元
数据
添加到
PySpark
应用程序
的
DataFrames模式中但是它不能
使用
冰山表格格式。
浏览 22
提问于2021-11-22
得票数 0
2
回答
对于1-2列,多个镶嵌块
文件
具有不同
的
数据
类型
python
、
pyspark
、
schema
、
parquet
我尝试
使用
Pyspark
将不同
的
拼图
文件
读取到一个
数据
帧中,但它给了我错误,因为多个
拼图
文件
中
的
一些列具有不同
数据
类型
的
列。例如:列"geo“在某些
文件
中
的
数据
类型为"Double”,在另一些
文件
中为"String“。 我应该如何处理这个问题?我必须在多个
拼图
文件
浏览 12
提问于2021-11-22
得票数 0
1
回答
如何从多个目录中读取多个.parquet
文件
到单个pandas
数据
帧中?
pandas
、
parquet
我需要从多个目录中读取
拼图
文件
。.parquet .parquet 有没有办法将这些
文件
读取到单个pandas
数据
帧中?注意:所有的
拼图
文件
都是
使用
pyspark
生成
的
。
浏览 87
提问于2020-01-15
得票数 3
回答已采纳
1
回答
在
pyspark
中,Inferschema将列检测为字符串,而不是parquet中
的
双精度
pyspark
、
azure-databricks
问题-我正在
使用
azure databricks在
pyspark
中读取
拼图
文件
。有一些列有很多空值并且有十进制值,这些列被读取为字符串而不是双精度。有没有办法推断出
pyspark
中正确
的
数据
类型?代码- 要读取拼花面板
文件
- df_raw_data = sqlContext.read.parquet(data_filename[5:]) 它
的
输出是一个包含100多列
的
数据
帧,其中大多数列都是doub
浏览 16
提问于2020-06-23
得票数 0
1
回答
PySpark
拼花
数据
类型
python-3.x
、
pyspark
我
使用
PySpark
读取一个相对较大
的
csv
文件
(~10 to ):所有列都有
数据
类型string。例如,在更改column_a
的
数据
类型后,我可以看到
数据
类型已更改为integer。如果我将ddf写到一个
拼图
文件
中,并读取这个
拼图
文件
,我会注意到所有的列都有
浏览 4
提问于2018-06-01
得票数 0
1
回答
追加到
拼图
文件
的
EMR Spark步骤正在覆盖
拼图
文件
python
、
apache-spark
、
amazon-emr
、
parquet
在
使用
Python 3.6
的
Amazon EMR集群(1个主服务器,2个节点)上运行Spark 2.4.2 我正在读取亚马逊s3中
的
对象,以
拼图
格式压缩它们,并将它们添加(附加)到现有的
拼图
数据
存储中。当我在
pyspark
shell中运行我
的
代码时,我能够读取/压缩对象并将新
的
拼图
文件
添加到现有的
拼图
文件
中,并且,当我对
拼图
数
浏览 17
提问于2019-07-10
得票数 1
回答已采纳
2
回答
如何阅读由Spark编写
的
PySpark
拼花?
python
、
scala
、
apache-spark
、
pyspark
、
data-science-experience
我正在
使用
两个Jupyter笔记本在分析中做不同
的
事情。在我
的
Scala笔记本中,我将一些清理过
的
数据
写到了parquet中:然后,我转到我
的<
浏览 0
提问于2017-03-24
得票数 32
2
回答
从
pyspark
作业在s3存储桶中动态创建
文件
夹
python-3.x
、
amazon-web-services
、
amazon-s3
、
pyspark
我正在将
数据
写入s3存储桶,并
使用
pyspark
创建
拼图
文件
。我
的
存储桶结构如下:子
文件
夹和表如果
文件
夹不存在,这两个
文件
夹应该在运行时创建,如果
文件
夹存在,
拼图
文件
应该在
文件
夹表中。当我在本地机器上运行
pyspark
程序时,它
浏览 2
提问于2020-12-03
得票数 0
1
回答
雪花不扣除拼花中
的
按列分区
snowflake-cloud-data-platform
、
parquet
我有一个关于雪花
的
新功能-Infer模式表函数
的
问题。推断模式函数在
拼图
文件
上执行得非常好,并返回正确
的
数据
类型。但是,当对
拼图
文件
进行分区并将其存储在S3中时,推断模式
的
功能与
pyspark
数据
帧不同。在DataFrames中,分区
文件
夹名和值被读取为最后一列;在Snowflake推断模式中,有没有办法实现同样
的
结果? @GregPavlik
浏览 0
提问于2021-10-21
得票数 5
1
回答
如何
使用
PySpark
处理来自Kafka
的
数据
?
pyspark
、
apache-kafka
、
data-processing
我想处理从Kafka流到
PySpark
的
日志
数据
并保存到
拼图
文件
中,但我不知道如何将
数据
输入到Spark。请帮帮我谢谢。
浏览 68
提问于2020-07-04
得票数 0
2
回答
读取
PySpark
中
的
所有分区
拼图
文件
apache-spark
、
pyspark
、
apache-spark-sql
、
parquet
我想要加载存储在S3 AWS
文件
夹结构中
的
所有
拼图
文件
。
文件
夹结构如下:<code>D0</code> 我想要
的
是一次读取所有的
拼图
文件
,所以我希望
PySpark
读取2019年所有可用
的
月份和日期
的
所有
数据
,然后将其存储在一个
数据
帧中(这样您就可以获得一个包含2019年所有日期
的
连接/联合
数据<
浏览 70
提问于2019-12-04
得票数 0
1
回答
快速拼接:如何禁用rle编码
python
、
apache-spark
、
pyspark
、
parquet
我正在
使用
files parquet将pandas
数据
帧转换为parquet
文件
。这比我之前
使用
pyspark
的
方法要快得多。Unsupported encoding: RLE 有没有办法在
使用
快速拼接write方法时禁用R
浏览 4
提问于2017-05-11
得票数 1
1
回答
为什么我不能
使用
"cat file1.parket file2. parquet > result.parquet“来合并多个
拼图
文件
?
apache-spark
、
pyspark
、
parquet
我已经
使用
pyspark
创建了多个
拼图
文件
,现在我正在尝试将所有的
拼图
文件
合并为1。我可以合并这些
文件
,但在读取结果
文件
时,我得到了一个错误。以前有没有人遇到过这个问题?
浏览 35
提问于2020-11-08
得票数 2
回答已采纳
2
回答
雅典娜(蜂巢/Presto)拼花vs ORC计数查询
hive
、
parquet
、
presto
、
amazon-athena
、
orc
我正在雅典娜测试一个大型
数据
集(1.5TB,5.5b记录),包括
拼图
和兽人两种格式。我
的
第一个测试是一个简单
的
计数查询-SELECT COUNT(*) FROM events_parquet parquet
文件
占用一半
的
时间来运行这个查询作为orc
文件
。但我注意到
的
一件事是,当对
拼图
文件
运行计数时,当扫描字节时,它返回0kb,而对于兽人,它返回78gb
浏览 1
提问于2020-05-01
得票数 3
1
回答
使用
AWS Glue ETL python spark (
pyspark
)将多个
拼图
文件
合并到单个
拼图
文件
中
的
亚马逊S3
amazon-s3
、
pyspark
、
parquet
、
aws-glue
我每15分钟运行一次AWS Glue ETL Job,每次在S3中生成1个
拼图
文件
。我需要创建另一个作业来运行每小时结束,以合并所有4个
拼图
文件
在S3到一个单一
的
拼图
文件
使用
AWS胶水ETL
pyspark
代码。 有人试过吗?建议和最佳实践? 提前感谢!
浏览 12
提问于2020-03-24
得票数 1
1
回答
PySpark
中是否有时间
数据
类型?
apache-spark
、
pyspark
23:15:20)
使用
PySpark
从内部
数据
库转换为
拼图
文件
。似乎没有时间
数据
类型来做这件事。实现这一目标的最佳实践是什么?
浏览 12
提问于2021-04-18
得票数 0
1
回答
以
拼图
格式存储Spark
数据
帧时
数据
丢失
apache-spark
、
pyspark
、
parquet
我有一个csv
数据
文件
,可以加载到
pyspark
中:检查
数据
帧<e
浏览 7
提问于2020-05-06
得票数 0
2
回答
关于
使用
parquet处理时间序列
数据
的
问题
apache-spark
、
time-series
、
parquet
我现在正在尝试
使用
Spark和Parquet
文件
来执行这些查询,但我在这个主题上
的
研究中有一些问题无法回答,即:client_id/sensor_id/year/month/day.parquet 但我担心
的
是,当Spark加载包含许多Parquet
文件
的
顶层
文件
夹时,行组信息
的
元
数据</e
浏览 1
提问于2019-07-28
得票数 2
2
回答
为dynamodb导入将parquet转换为json
pyspark
、
amazon-dynamodb
我正在
使用
AWS Glue作业在s3中以
拼图
格式备份dynamodb表,以便能够在雅典娜中
使用
它。如果我想
使用
这些
拼图
格式
的
s3
文件
来恢复dynamodb中
的
表,这就是我
的
想法-读取每个
拼图
文件
并将其转换为json,然后将json格式
的
数据
插入到dynamodb中(
使用
下面几行中
的
pyspark
)set sq
浏览 19
提问于2019-12-29
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
使用bbed恢复offline drop的数据文件的测试
文件元数据修改方法:mp3音频和mp4视频的元数据如何批量修改的实例图文
一文读懂PySpark数据框
一文读懂 PySpark 数据框
对社会保险数据备份方式的比较之二—目前我国主要使用的备份方式
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券