为什么我不能使用"cat file1.parket file2. parquet > result.parquet“来合并多个拼图文件？

、、

我已经使用pyspark创建了多个拼图文件，现在我正在尝试将所有的拼图文件合并为1。我可以合并这些文件，但在读取结果文件时，我得到了一个错误。以前有没有人遇到过这个问题？

浏览 35提问于2020-11-08得票数 2

回答已采纳

2回答

如何使用linux或hdfs命令将多个拼图文件合并为单个拼图文件？

、

我有多个小的parquet文件生成作为配置单元ql作业的输出，我想合并输出文件到单个拼图文件？使用hdfs or linux commands最好的方法是什么？我们过去常常使用cat命令合并文本文件，但这也适用于parquet吗？我们是否可以在编写输出文件时使用HiveQL本身，就像我们在s

浏览 35提问于2016-07-27得票数 13

1回答

Dask DataFrame将不美观的拼图文件索引从datetime64转换为object，为什么？

、、、

我很努力地使用datetime64'ns‘dtype将我的拼图文件与索引一起保存。但是，当我读取Dask Dataframe中的多个拼图文件时，它会将索引转换为dtype对象(str)。为什么？我不能在read_parquet调用中使用parse_dates参数，因为它只对列起作用。我用pandas读取了每个单独的底层拼图文件<

浏览 2提问于2020-01-15得票数 0

2回答

关于使用parquet处理时间序列数据的问题

、、

我现在正在尝试使用Spark和Parquet文件来执行这些查询，但我在这个主题上的研究中有一些问题无法回答，即：client_id/sensor_id/year/month/day.parquet 但我担心的是，当Spark加载包含许多Parquet文件的顶层文件夹时，行组信息的元

浏览 1提问于2019-07-28得票数 2

1回答

如何向Spark中的现有分区添加行？

、、

我必须更新历史数据。我所说的update是指向S3上的现有分区添加新行，有时甚至添加新列。为了避免每个分区有太多对象，我执行以下操作来维护单个对象/分区： dest_path = form_path_stringcreated_month", "created_day").write.partitionBy( "created_year",

浏览 0提问于2020-08-05得票数 2

1回答

我有一种星型模式的数据库结构，就像一个包含所有id和skey的事实表，而有多个维度表包含事实表中引用的id的实际id、代码和描述。我们将所有这些表(事实和维度)分别移动到S3 (云)，并且每个表数据在S3位置被分成多个拼图文件(每个表一个S3对象)。此文件稍后将由Redshift for Analytics使用。我的疑问:实现这个解决方案的最好方法是什么，因为我不需要Redshift中的原始数据(skey和id)来

浏览 4提问于2017-08-08得票数 2

1回答

使用Sparklyr在R中创建延迟火花读写Parquet作业

、、、、

我想创建一个火花作业，它从一个sql源读取(使用'spark_read_jdbc')，然后将结果写入一个拼图文件('spark_write_parquet')。我希望这个工作是懒洋洋地创造出来的，这样多个执行者就可以接手这个工作了。TEMP", options = optionSet, memory = FALSE) TEMP %>% s

浏览 0提问于2018-06-14得票数 1

回答已采纳

6回答

使用CDH5的Sqoop import --as-parquetfile

、

我正在尝试将数据直接从mysql导入到parquet，但它似乎不能正常工作……sqoop import --connect jdbc:mysql://xx.xx.xx.xx/database --username username --password mypasspage_id --hive-import --hive-table default.pages_users3 --ta

浏览 0提问于2015-01-09得票数 2

5回答

如何在火花中将拼花文件分割成多个分区？

、、

因此，我只有一个拼花文件，我正在读取与Spark (使用SQL材料)，我希望它被处理100个分区。我尝试将spark.default.parallelism设置为100，我们还尝试将拼板的压缩更改为none (从gzip)。现在，根据一些消息来源(如以下所示)，拼花应该是可分割的(即使使用gzip!)，所以我非常困惑，希望得到一些建议。我使用的是Spark1.0.0，显然spark.sql.shuffle.partitions的默认值

浏览 5提问于2014-11-28得票数 19

回答已采纳

1回答

sqoop创建英帕拉拼花台面

、、、、

我对sqooping的过程比较陌生，所以请原谅我的无知。我一直在尝试将数据源中的表作为拼图文件进行sqoop操作，并创建一个impala表(也作为拼图)，我将在其中插入sqooped数据。/EWT_CALL_PROF_DIM_SQOOP/ec2fe2b0-c9fa-4ef9-91f8-46cf0e12e272.parquet' has an incompatible Parquet schemaColum

浏览 3提问于2017-02-08得票数 0

回答已采纳

5回答

如何控制输出文件的大小？

、

在spark中，控制输出文件大小的最佳方法是什么。例如，在log4j中，我们可以指定最大文件大小，超过此大小后，文件将旋转。我有几个变通方法，但没有一个是好的。如果我想将文件限制为64mb，那么一种选择是对数据进行重新分区并写入临时位置。然后使用临时位置中的文件大小将文件合并<

浏览 1提问于2016-08-28得票数 25

3回答

从Kafka中读取并写入parquet中的hdfs

、、、、

我是BigData生态系统的新手，也算是入门了。我读过几篇关于使用spark流媒体阅读kafka主题的文章，但我想知道是否可以使用spark作业而不是流媒体来阅读kafka？我的问题的第二部分是以parquet格式写入hdfs。一旦我读了Kafka，我想我会有一个rdd。将这个rdd转换成一个dataframe，然后把dataframe写成一个parquet文件。

浏览 1提问于2017-08-23得票数 12

回答已采纳

1回答

使用pyarrow重新划分pyarrow表的大小，并将其写入几个拼图文件？

、、、

正如标题所述，我想通过使用pyarrow并写入几个拼图文件来按大小(或行组大小)对pyarrow表进行重新分区。我已经查看了pyarrow文档，并确定了分区数据集章节，这似乎是一个方向。不幸的是，它表明可以按列内容进行分区，但不能按大小(或行组大小)进行分区。那么，从一个表开始，我如何控制写入步骤，以便以受控的大小x MB写入多个文件？(或行组大小) import pandas as pd import nump

浏览 36提问于2020-12-15得票数 1

回答已采纳

1回答

与合并的地板文件的Impala表的性能问题

、、、、

这里，我让python实用程序使用Pyarrow库为单个数据集创建多个parquet文件，因为数据集的大小在一天内是很大的。这里的拼花文件包含10K的拼板行组，在每个分割的拼花文件中，最后我们将分裂的文件组合成一个文件来创建一个大的单一的拼花文件。这里，我创建了两个Impala表，其中包含一个合并文件和多个拆分文件</e

浏览 0提问于2019-01-28得票数 0

回答已采纳

2回答

在脚本中迭代/循环Spark拼图文件会导致内存错误/堆积(使用Spark SQL查询)

、、、、

当我循环处理拼图文件和几个后处理函数时，我一直在试图弄清楚如何防止Spark因为内存问题而崩溃。很抱歉出现了大量的文本，但这并不是一个特定的bug (我使用的是PySpark)。这段代码使用spark SQL查询，所以我没有成功地创建一个包含所有SQL查询/函数的包装器函数，并将其传递给foreach (它不能接受sparkContext或sqlQuery作为输入)，而不是标准的从技术上讲，这是一个有分区的大parquet文件</em

浏览 0提问于2016-05-20得票数 5

2回答

创建1GB分区Spark

、、、

在用S3编写spark时，我试图将数据拆分为1GB。我尝试的方法是在GB ( define_coalesce函数)中计算define_coalesce的大小，然后使用这个数字用S3编写：我试着这样

浏览 8提问于2022-09-20得票数 0

2回答

以编程方式从CSV文件格式创建HBase表并加载其内容

、、、、

嗨，我是hadoop的新手，我正在尝试使用MapReduce导入一个csv表到Hbase。我使用的是Cloudera 5.9 我首先想使用MapReduce从CSV表格式以编程方式创建一个HBase表(因为我使用由非常多的列组成的csv文件)，然后将CSV文件的内容加载到HBase表中。请任何人指导我或告诉我如何解决这个问题

浏览 0提问于2016-11-16得票数 1

2回答

在pySpark中处理空数组(可选二进制元素(UTF8)不是一个组)

、、

我有一个类似于json的结构，看起来如下：id: stringid: string element: string 当然，如果我想读取多个分区，这是一个问题，因为schemas不能

浏览 8提问于2020-02-19得票数 5

回答已采纳

4回答

如何使用pyarrow添加到拼图文件中？

、、、

如何使用pyarrow向parquet文件追加/更新？import pandas as pdimport pyarrow.parquet as pq #append pqTest2 here? 我在文档中没有发现任何关于附加拼花面板文件的内容。而且，

浏览 2提问于2017-11-05得票数 36

回答已采纳

1回答

有没有办法检测unix命令"cat“完成合并文件？

、、、

我想知道，有什么方法可以检测到cat函数完成了文件合并，这样我就可以压缩文件了吗？.xls，并使用html5我将切片每个文件，并上传它的一部分，这将导致上述结构。在每个文件的所有部分完成上传之后，我将使用一个ajax调用来使用cat unix命令合并文件。 $command = '(files=(&#

浏览 0提问于2013-03-28得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何使用linux或hdfs命令将多个拼图文件合并为单个拼图文件？

Dask DataFrame将不美观的拼图文件索引从datetime64转换为object，为什么？

关于使用parquet处理时间序列数据的问题

如何向Spark中的现有分区添加行？

不使用Scala或Python的AWS EMR中的数据转换

使用Sparklyr在R中创建延迟火花读写Parquet作业

使用CDH5的Sqoop import --as-parquetfile

如何在火花中将拼花文件分割成多个分区？

sqoop创建英帕拉拼花台面

如何控制输出文件的大小？

从Kafka中读取并写入parquet中的hdfs

使用pyarrow重新划分pyarrow表的大小，并将其写入几个拼图文件？

与合并的地板文件的Impala表的性能问题

在脚本中迭代/循环Spark拼图文件会导致内存错误/堆积(使用Spark SQL查询)

创建1GB分区Spark

以编程方式从CSV文件格式创建HBase表并加载其内容

在pySpark中处理空数组(可选二进制元素(UTF8)不是一个组)

如何使用pyarrow添加到拼图文件中？

有没有办法检测unix命令"cat“完成合并文件？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐