使用pyspark比较拼图文件的元数据_使用pyspark并发编写拼图文件_使用Pyspark读取拼图和ORC HDFS文件 - 腾讯云开发者社区

pyspark、schema、metadata、parquet

我正在使用pyspark，有一个情况，我需要比较2拼图文件的元数据。示例：- 拼图1架构为: 1，ID，字符串2，地址字符串3，日期，日期拼图2架构为: 1，ID，字符串2，日期，日期3，地址字符串这应该会显示出不同之处，因为拼花地板2中的col2移到了col3。

浏览 12提问于2020-01-21得票数 0

1回答

使用iceberg表格式向DataFrame模式添加自定义元数据

apache-spark、apache-spark-sql、apache-spark-mllib、apache-spark-ml、apache-spark-2.0

我使用将自定义元数据添加到PySpark应用程序的DataFrames模式中但是它不能使用冰山表格格式。

浏览 22提问于2021-11-22得票数 0

2回答

对于1-2列，多个镶嵌块文件具有不同的数据类型

python、pyspark、schema、parquet

我尝试使用Pyspark将不同的拼图文件读取到一个数据帧中，但它给了我错误，因为多个拼图文件中的一些列具有不同数据类型的列。例如:列"geo“在某些文件中的数据类型为"Double”，在另一些文件中为"String“。我应该如何处理这个问题？我必须在多个拼图文件

浏览 12提问于2021-11-22得票数 0

1回答

如何从多个目录中读取多个.parquet文件到单个pandas数据帧中？

pandas、parquet

我需要从多个目录中读取拼图文件。.parquet .parquet 有没有办法将这些文件读取到单个pandas数据帧中？注意:所有的拼图文件都是使用pyspark生成的。

浏览 87提问于2020-01-15得票数 3

回答已采纳

1回答

在pyspark中，Inferschema将列检测为字符串，而不是parquet中的双精度

pyspark、azure-databricks

问题-我正在使用azure databricks在pyspark中读取拼图文件。有一些列有很多空值并且有十进制值，这些列被读取为字符串而不是双精度。有没有办法推断出pyspark中正确的数据类型？代码- 要读取拼花面板文件- df_raw_data = sqlContext.read.parquet(data_filename[5:]) 它的输出是一个包含100多列的数据帧，其中大多数列都是doub

浏览 16提问于2020-06-23得票数 0

1回答

PySpark拼花数据类型

python-3.x、pyspark

我使用PySpark读取一个相对较大的csv文件(~10 to )：所有列都有数据类型string。例如，在更改column_a的数据类型后，我可以看到数据类型已更改为integer。如果我将ddf写到一个拼图文件中，并读取这个拼图文件，我会注意到所有的列都有

浏览 4提问于2018-06-01得票数 0

1回答

追加到拼图文件的EMR Spark步骤正在覆盖拼图文件

python、apache-spark、amazon-emr、parquet

在使用Python 3.6的Amazon EMR集群(1个主服务器，2个节点)上运行Spark 2.4.2 我正在读取亚马逊s3中的对象，以拼图格式压缩它们，并将它们添加(附加)到现有的拼图数据存储中。当我在pyspark shell中运行我的代码时，我能够读取/压缩对象并将新的拼图文件添加到现有的拼图文件中，并且，当我对拼图数

浏览 17提问于2019-07-10得票数 1

回答已采纳

2回答

如何阅读由Spark编写的PySpark拼花？

python、scala、apache-spark、pyspark、data-science-experience

我正在使用两个Jupyter笔记本在分析中做不同的事情。在我的Scala笔记本中，我将一些清理过的数据写到了parquet中：然后，我转到我的<

浏览 0提问于2017-03-24得票数 32

2回答

从pyspark作业在s3存储桶中动态创建文件夹

python-3.x、amazon-web-services、amazon-s3、pyspark

我正在将数据写入s3存储桶，并使用pyspark创建拼图文件。我的存储桶结构如下：子文件夹和表如果文件夹不存在，这两个文件夹应该在运行时创建，如果文件夹存在，拼图文件应该在文件夹表中。当我在本地机器上运行pyspark程序时，它

浏览 2提问于2020-12-03得票数 0

1回答

雪花不扣除拼花中的按列分区

snowflake-cloud-data-platform、parquet

我有一个关于雪花的新功能-Infer模式表函数的问题。推断模式函数在拼图文件上执行得非常好，并返回正确的数据类型。但是，当对拼图文件进行分区并将其存储在S3中时，推断模式的功能与pyspark数据帧不同。在DataFrames中，分区文件夹名和值被读取为最后一列；在Snowflake推断模式中，有没有办法实现同样的结果？ @GregPavlik

浏览 0提问于2021-10-21得票数 5

1回答

如何使用PySpark处理来自Kafka的数据？

pyspark、apache-kafka、data-processing

我想处理从Kafka流到PySpark的日志数据并保存到拼图文件中，但我不知道如何将数据输入到Spark。请帮帮我谢谢。

浏览 68提问于2020-07-04得票数 0

2回答

读取PySpark中的所有分区拼图文件

apache-spark、pyspark、apache-spark-sql、parquet

我想要加载存储在S3 AWS文件夹结构中的所有拼图文件。文件夹结构如下：<code>D0</code> 我想要的是一次读取所有的拼图文件，所以我希望PySpark读取2019年所有可用的月份和日期的所有数据，然后将其存储在一个数据帧中(这样您就可以获得一个包含2019年所有日期的连接/联合数据<

浏览 70提问于2019-12-04得票数 0

1回答

快速拼接:如何禁用rle编码

python、apache-spark、pyspark、parquet

我正在使用files parquet将pandas数据帧转换为parquet文件。这比我之前使用pyspark的方法要快得多。Unsupported encoding: RLE 有没有办法在使用快速拼接write方法时禁用R

浏览 4提问于2017-05-11得票数 1

1回答

为什么我不能使用"cat file1.parket file2. parquet > result.parquet“来合并多个拼图文件？

apache-spark、pyspark、parquet

我已经使用pyspark创建了多个拼图文件，现在我正在尝试将所有的拼图文件合并为1。我可以合并这些文件，但在读取结果文件时，我得到了一个错误。以前有没有人遇到过这个问题？

浏览 35提问于2020-11-08得票数 2

回答已采纳

2回答

雅典娜(蜂巢/Presto)拼花vs ORC计数查询

hive、parquet、presto、amazon-athena、orc

我正在雅典娜测试一个大型数据集(1.5TB，5.5b记录)，包括拼图和兽人两种格式。我的第一个测试是一个简单的计数查询-SELECT COUNT(*) FROM events_parquet parquet文件占用一半的时间来运行这个查询作为orc文件。但我注意到的一件事是，当对拼图文件运行计数时，当扫描字节时，它返回0kb，而对于兽人，它返回78gb

浏览 1提问于2020-05-01得票数 3

1回答

使用AWS Glue ETL python spark (pyspark)将多个拼图文件合并到单个拼图文件中的亚马逊S3

amazon-s3、pyspark、parquet、aws-glue

我每15分钟运行一次AWS Glue ETL Job，每次在S3中生成1个拼图文件。我需要创建另一个作业来运行每小时结束，以合并所有4个拼图文件在S3到一个单一的拼图文件使用AWS胶水ETL pyspark代码。有人试过吗？建议和最佳实践？提前感谢！

浏览 12提问于2020-03-24得票数 1

1回答

PySpark中是否有时间数据类型？

apache-spark、pyspark

23:15:20)使用PySpark从内部数据库转换为拼图文件。似乎没有时间数据类型来做这件事。实现这一目标的最佳实践是什么？

浏览 12提问于2021-04-18得票数 0

1回答

以拼图格式存储Spark数据帧时数据丢失

apache-spark、pyspark、parquet

我有一个csv数据文件，可以加载到pyspark中：检查数据帧<e

浏览 7提问于2020-05-06得票数 0

2回答

关于使用parquet处理时间序列数据的问题

apache-spark、time-series、parquet

我现在正在尝试使用Spark和Parquet文件来执行这些查询，但我在这个主题上的研究中有一些问题无法回答，即：client_id/sensor_id/year/month/day.parquet 但我担心的是，当Spark加载包含许多Parquet文件的顶层文件夹时，行组信息的元数据</e

浏览 1提问于2019-07-28得票数 2

2回答

为dynamodb导入将parquet转换为json

pyspark、amazon-dynamodb

我正在使用AWS Glue作业在s3中以拼图格式备份dynamodb表，以便能够在雅典娜中使用它。如果我想使用这些拼图格式的s3文件来恢复dynamodb中的表，这就是我的想法-读取每个拼图文件并将其转换为json，然后将json格式的数据插入到dynamodb中(使用下面几行中的pyspark )set sq

浏览 19提问于2019-12-29得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云