Python -从变量中读取拼图数据

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

2回答

、、、

我正在读取一个拼图文件并将其转换为dataframe。fastparquet import ParquetFile df = pf.to_pandas() 有没有一种方法可以从一个变量(以前读取并现在保存了拼图数据)中读取拼图文件？

浏览 12提问于2019-03-07得票数 0

1回答

我正在加载两个拼图文件，每个文件都有1行，在Snowflake上的一个表中有一个变量列。当我使用python读取这两个文件并打印字段时，我看到相同数量的字段(在本例中为30个)。当我将这两个拼图文件加载到雪花上的表的variant数据类型列中并查询该表时，我只看到一个文件中的29个字段和其他文件中的30个字段。当我查看这个缺少的字段的python输出时，我看到一个文件有一个值(在本例中</e

浏览 20提问于2020-06-06得票数 0

1回答

使用Azure数据工厂生成的拼图-无法在配置单元中创建表

、、、

从Azure Data Factory生成拼图文件(复制活动-从Azure SQL复制到数据湖中的拼图)。当我尝试从蜂窝中读取相同的拼图时，它给出了错误，因为org.apache.parquet.io.ParquetDecodingException:无法读取块中0的值。如果你使用Spark生成拼图，那么你可以设置Spark.sql.parquet.writeLe

浏览 0提问于2021-07-02得票数 0

1回答

我如何知道拼图文件块的大小？

、、

我如何知道拼图文件块的大小？

浏览 3提问于2020-08-26得票数 0

4回答

如何使用boto3将S3中的单个拼图文件读取到pandas数据帧中？

、、、、

我正在尝试读取存储在S3存储桶中的单个拼图文件，并使用boto3将其转换为熊猫数据帧。

浏览 0提问于2018-06-26得票数 2

1回答

ParquetWriter或AvroParquetWriter可以单独存储模式吗？

、、

您知道吗，ParquetWriter或AvroParquetWriter可以在没有数据的情况下单独存储模式吗？现在，schema被写入到parquet文件中： AvroParquetWriter.Builder builder = AvroParquetWriter.Path(file.getName())) .build90; 您知道可以只将没有模式的数据写入到拼图文件中吗

浏览 13提问于2020-04-21得票数 0

1回答

Pandas to parquet不是放入文件系统，而是在变量中获取结果文件的内容

、、、

我需要将编写的拼图文件的内容放到一个变量中，但我还没有看到这一点。我主要想要和pandas.to_csv一样的行为，如果没有提供路径，它会以字符串的形式返回结果。当然，我可以通过标准的文件读取操作将文件从python写入字符串。由于我正在写入大量数据，这将在文件系统上产生大量负载……

浏览 65提问于2019-02-13得票数 3

回答已采纳

5回答

在Pyspark中读取多个目录中的拼图文件

、

我需要从不是父目录或子目录的多个路径读取拼图文件。dir2 --- ------- dir2_1 ------- dir2_2现在，我正在读取每个目录，并使用"unionAll“合并数据帧。有没有办法在不使用unionAll的情况下从dir1_2和dir2_1中

浏览 3提问于2016-05-16得票数 18

1回答

追加到拼图文件的EMR Spark步骤正在覆盖拼图文件

、、、

在使用Python 3.6的Amazon EMR集群(1个主服务器，2个节点)上运行Spark 2.4.2 我正在读取亚马逊s3中的对象，以拼图格式压缩它们，并将它们添加(附加)到现有的拼图数据存储中。当我在pyspark shell中运行我的代码时，我能够读取/压缩对象并将新的拼图文件添加到现有的拼图文件中，并且，当我对拼图数据运行查

浏览 17提问于2019-07-10得票数 1

回答已采纳

1回答

读取拼图文件失败

Azure ML无法从拼图文件中读取表格数据集，许多拼图文件。创建数据集 from azureml.data.datapath import DataPathtabular_dataset

浏览 7提问于2020-12-31得票数 2

回答已采纳

1回答

PySpark拼花数据类型

、

我使用PySpark读取一个相对较大的csv文件(~10 to )：所有列都有数据类型string。例如，在更改column_a的数据类型后，我可以看到数据类型已更改为integer。如果我将ddf写到一个拼图文件中，并读取这个拼图文件，我会注意到所有的列都有数据类型string。问题：如何确保拼花文件包含正确的

浏览 4提问于2018-06-01得票数 0

1回答

如何从拼花地板创建DataSet？

、

我使用以下代码将数据从拼图读取到Dataframe如何从拼图到数据集读取数据

浏览 2提问于2016-03-26得票数 3

1回答

如何使用通过Apache Drill inside Hive创建的Parquet文件

、、、

Apache Drill有一个很好的功能，可以从许多传入的数据集中制作拼图文件，但似乎没有太多关于如何在以后使用这些拼图文件的信息-特别是在Hive中。也许可以创建一个表并从拼图文件中加载数据，或者创建一个表并以某种方式将这些拼图文件放在hdfs中，以便Hive读取它？

浏览 0提问于2017-01-13得票数 0

1回答

波束/数据流读取拼图文件并将文件名/路径添加到每个记录

、、

我正在使用Apache Beam Python SDK，并且我正在尝试使用apache_beam.io.parquetio从拼图文件中读取数据，但我还想将文件名(或路径)添加到数据中，因为它也包含数据。我查看了建议的模式，并阅读到Parquetio类似于fileio，但它似乎没有实现允许遍历文件并将其添加到派对中的功能。谢谢!

浏览 18提问于2021-02-28得票数 0

回答已采纳

2回答

如何在Python中使用pyarrow读取带条件的拼图文件

、、、、

我从数据库中创建了一个包含三列(id、author、title)的拼图文件，并想要在有条件(title='Learn Python')的情况下读取该拼图文件。下面提到的是我在这个POC中使用的python代码。pd.io.sql.read_sql(sql, conn) 如何在read_pyarrow方法中添加

浏览 0提问于2018-02-10得票数 9

1回答

R-读取拼图文件的一部分

、、

有没有办法从拼图文件中读取特定数量的行？类似于来自data.table的fread的nrows。我有一个庞大的数据，读起来可能需要很长时间，但我只想分析它的结构和完整性。我只需要读取拼图数据的一些行，这似乎是使用Sparklyr的函数spark_read_parquet无法完成的事情。

浏览 2提问于2017-07-22得票数 1

1回答

如何将.msg文件加载到pyspark RDD中？

、、、、

我对pyspark编程比较陌生，因此正在寻找一种从数据库文件系统(dbfs)中读取一堆outlook (.msg)文件的方法。在执行下面的代码行时，我得到了一些垃圾unicode数据，如以下输出所示：输出： [(u'dbfs:/..

浏览 0提问于2019-07-25得票数 0

1回答

Apache光束Python* SDK -从GCS读取GZIP压缩的拼图文件*

、、、

我想读取一个GZIP压缩的帕奎特文件从GCS到BigQuery使用Python SDK for Apache光束。但是，apache_beam.io.parquetio.ReadFromParquet方法似乎不支持从压缩文件中读取。根据源代码，压缩类型被硬编码为UNCOMPRESSED。有没有一个技巧来读取压缩的拼图文件，而不需要在GCS中预先解压缩文件？如果这是唯一的方法，有没有办法在GCS中直接解压缩文件？

浏览 2提问于2019-11-25得票数 0

1回答

如何从Apache Spark编写HDF5文件？

、

我已经找到了从Spark读取HDF5文件的工具，但不是用来写它们的。有可能吗？我们希望使用HDF5，因为它在科学界得到了广泛的接受。它在Matlab和Stata等程序中的支持似乎明显好于parquet。

浏览 14提问于2021-03-11得票数 1

回答已采纳

1回答

如何获取拼图文件中的记录数

、

我有一个用猪脚本从文本/dat文件创建的拼图文件。有没有这样一种方式，Parquet文件在元数据中的某个地方存储了行数？

浏览 3提问于2016-01-30得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云