如何在HDFS中将csv转换为parquet文件_将所有csv文件从s3转换为parquet_如何在PIG中将XLSX文件转换为CSV文件？ - 腾讯云开发者社区

csv、apache-spark、pyspark、parquet

我正在尝试使用Spark将一堆csv文件转换为parquet，有趣的是，输入的csv文件已经按目录“分区”了。所有输入文件都有相同的一组列。输入文件结构如下： /path/dir1/file1.csv /path/dir1/file2.csv /path/dir2/file3.csv /path/dir3/file4.csv /path/dir3/file5.csv /path/dir3/file6.csv 我想用Spark读取这些文件，并将它们的数据写入hdfs中的parquet表，保留分区(按输入目录分区)，例如每个分区有一个输出文件。输出文件结构应如下所示： hdfs://path/di

浏览 2提问于2016-11-15得票数 4

2回答

如何在python中使用pyarrow读取csv文件

pyarrow

我已经使用以下命令连接到我的HDFS import pyarrow as pa import pyarrow.parquet as pq fs = pa.hdfs.connect(self.namenode, self.port, user=self.username, kerb_ticket = self.cert) 我正在使用下面的命令来读取parquet文件 fs.read_parquet() 但是对于常规的文本文件(例如csv文件)没有读取方法。如何使用pyarrow读取csv文件。

浏览 104提问于2019-09-25得票数 2

1回答

加载到配置单元表时转换为拼接文件格式

mysql、hadoop

我们希望进行从mysql到hdfs的实时复制，并将文件存储为hdfs集群中的parquet格式。据我们所知，我们可以使用以下两种方法之一来完成此操作 1)钨复制器或2)Mysql服务器支持实时复制到hdfs。但我们的问题是，在将数据加载到hdfs时，它们都不支持转换为parquet。因此，我只想知道是否有任何方法可以对hdfs集群中存储为parquet的文件进行实时复制。第二个问题是，当您使用"LOAD DATA INPATH“在hive表格中加载csv文件时，如果表格被定义为Parquet文件格式，hive是否会将文件转换为parquet格式，或者我们需要编写一个实用程序将文

浏览 0提问于2016-01-08得票数 0

1回答

使用Hive时HDFS中的文件分发和分区

apache-spark、hadoop、hive、hdfs、bigdata

一方面，在HDFS文档中，他们说： HDFS被设计为支持非常大的文件。与HDFS兼容的应用程序是处理大型数据集的应用程序。这些应用程序只写他们的数据一次，但他们读它一次或多次，并要求这些读取满足流速度。HDFS支持在文件上写一次读-许多语义.HDFS使用的典型块大小为64 MB。因此，HDFS文件被分割成64 MB块，如果可能，每个块将驻留在不同的DataNode上。这意味着每个文件都将在节点之间被分割。另一方面，当我使用Hive或Spark时，我管理分区的方式是每个分区都有一个文件夹，并且内部的所有文件都属于这个分区。例如： /Sales /country=Spain

浏览 0提问于2019-08-28得票数 1

回答已采纳

3回答

使用火花将csv.gz文件转换为Parquet

scala、hadoop、amazon-s3、apache-spark、parquet

我需要实现将文件夹中的csv.gz文件(无论是AWS S3还是HDFS )转换为使用Spark (Scala首选)的Parquet文件。数据的一个列是时间戳，我只有一周的数据集。时间戳格式是： “‘yyyy mm-dd hh:mm:ss” 我想要的输出是，每天都有一个文件夹(或分区)，该特定日期的Parquet文件位于其中。所以会有7个输出文件夹或分区。我对如何做到这一点只有一个模糊的想法，只有sc.textFile在我的脑海中。星火中是否有可以转换为Parquet的功能？如何在S3和HDFS中实现这一点？谢谢你的帮助。

浏览 7提问于2015-10-21得票数 4

回答已采纳

1回答

如何在HDFS中将csv转换为parquet文件

python、csv、hadoop、hdfs、parquet

我是Big Data的新手，所以Hadoop和hdfs对我来说有点陌生，所以我寻求帮助。现在我在HDFS集群中有4个csv格式的文件，我应该用Python制作4个PARQUET格式的文件，但是我不知道怎么做。我希望你能帮助我解决这个不难的问题。

浏览 45提问于2020-04-29得票数 1

1回答

如何使用Java在HDFS中创建和填充Parquet文件？

java、hadoop、hdfs、parquet

在没有Hive或Impala库支持的情况下，使用Java在HDFS中创建和填充Parquet文件的最佳方法是什么？我的目标是将一个简单的csv记录(String)写入位于HDFS中的Parquet文件。以前提出的所有问题/答案都令人困惑。

浏览 0提问于2017-03-19得票数 0

回答已采纳

1回答

bluedata写访问问题: hdfs_access_control_exception:权限被拒绝

apache-spark、pyspark、bluedata-3.7、bluedata

我们有BlueData 3.7运行，我启动Cloudera5.14集群与火花和纱线。我从每个NFS的Qumulo获取一个csv文件，每个DTAP将一个csv文件放入Spark容器中，只需执行一个小的过滤器，并将结果保存为每个DTAP的parquet文件，然后保存到我们的外部HDFS Cloudera集群中。除了将文件写入外部HDFS集群之外，一切都正常。我完全可以从HDFS中读取每个DTAP，并将每个DTAP写入Qumulo。只是每个DTAP写入HDFS不起作用。我得到的消息是，我的用户(在AD组的EPIC中)没有编写权限(如您在下面的图片中看到的)。知道为什么吗？HDFS的DTAP不配置为

浏览 1提问于2019-07-22得票数 1

1回答

Apache :使用文件夹结构减少分析的运行时间

apache-spark、hdfs、wildcard

我希望通过将一个巨大的csv文件细分为不同的分区来优化星火应用程序的运行时间，这取决于它们的特性。例如，我有一列有客户ids (整数，a)，一列有日期(month+year，例如01.2015，b)，一列有产品ids (整数，c) (还有更多的列具有特定于产品的数据，分区不需要)。我想要构建一个像/customer/a/date/b/product/c这样的文件夹结构。当用户想知道2016年1月销售的客户X的产品信息时，他可以加载并分析保存在/customer/X/date/01.2016/*中的文件。是否有可能通过通配符加载此类文件夹结构？还应该能够装载特定时间范围内的所有客户或产品，

浏览 4提问于2016-06-14得票数 9

回答已采纳

2回答

使用Parquet-tools.jar从Parquet文件中转储特定列

hadoop、parquet

我想使用parquet tools-1.8.1.jar.只转储某个文本文件上的特定列，但无法这样做。我正在尝试下面的命令。请注意，我的列名有正斜杠。 parquet-tools-1.8.1.jar dump --column 'dir1/log1/job12121' '/hdfs-path/to/parquet file with space.parquet' > /home/local/parquet/output.text

浏览 4提问于2016-07-20得票数 2

1回答

并行化GZip文件处理火花

python、hadoop、apache-spark、gzip、pyspark

我有一个巨大的GZip文件列表，需要转换为Parquet。由于GZip的压缩特性，无法对一个文件进行并行化。但是，由于我有很多，是否有一种相对简单的方法让每个节点执行文件的一部分？文件在HDFS上。我假设我不能使用RDD基础结构来编写Parquet文件，因为这都是在驱动程序上完成的，而不是节点本身。我可以并行化文件名列表，编写一个处理本地Parquets并将它们保存回HDFS的函数。我不知道该怎么做。我觉得我错过了一些显而易见的东西，谢谢！这是一个重复的问题，但事实并非如此。我完全意识到Spark可以将它们作为RDD读入，而不必担心压缩，我的问题是如何并行地将这些文件转换为结构化Parq

浏览 0提问于2016-02-15得票数 3

1回答

确定输入是拼花还是平面文件

java、maven、apache-spark-sql、parquet、flat-file

我正在处理一个Java Maven项目，我需要确定来自HDFS的输入是CSV文件目录还是Parquet文件。据我所知，我可能是错的，我认为HDFS将Parquet文件存储为目录。我的问题是，什么是确定这两个潜在输入之间的差异的好方法，以便我可以适当地处理它们？

浏览 14提问于2021-02-02得票数 0

3回答

如何使用星火将拼花文件加载到蜂巢表中？

python、scala、apache-spark、pyspark、hive

因此，我试图加载一个csv文件，然后将它保存为一个拼板文件，然后将它加载到一个Hive表中。但是，每当它将它加载到表中时，这些值就不合适了，而且到处都是。下面是我的csv文件中的内容：下面是我将csv转换为parquet并将其写入我的HDFS位置的代码： #This creates the sparkSession from pyspark.sql import SparkSession #from pyspark.sql import SQLContext spark = (SparkSession \ .builder \ .appName(&#

浏览 1提问于2019-07-22得票数 2

回答已采纳

1回答

Pyspark 1.6文件压缩问题

pyspark、pyspark-sql

我们使用的是pyspark 1.6。并试图通过压缩将文本转换为其他文件格式(如Json、csv等) (gzip、lz4、snappy等)。但无法看到压缩的工作原理。请找到我们尝试过的代码攻击。请帮助我们在我们的代码中指出问题，否则建议解决方法。为了补充这个问题，没有一个压缩在1.6中工作，但它在spark 2.X中工作良好选项1： from pyspark import SparkContext SparkConf sqlContext.setConf("spark.sql.parquet.compression.codec", "snappy") df

浏览 2提问于2017-07-21得票数 0

2回答

用于将地块文件导出为csv的impala shell命令

impala

我有一些存储在HDFS中的拼图文件，我想首先将它们转换为csv文件，然后使用ssh将它们导出到远程文件中。我不知道写一个spark作业是可能的还是简单的(我知道我们可以用spark.read.parquet把拼图转换成csv文件，然后用spark.write作为csv文件转换成相同的DF文件)。但我真的很想通过使用impala shell请求来做到这一点。所以，我想到了这样的东西： hdfs dfs -cat my-file.parquet | ssh myserver.com 'cat > /path/to/my-file.csv' 你能帮我处理这个请求吗？请。谢

浏览 31提问于2020-07-22得票数 3

1回答

如何用Python在HDFS中打开拼图文件？

python、pyspark、parquet

我正在寻找读取存储在HDFS中的拼接文件，我正在使用Python来完成此操作。我有下面的代码，但它不能在HDFS中打开文件。你能帮我修改代码吗？ sc = spark.sparkContext from pyspark.sql import SQLContext sqlContext = SQLContext(sc) df = sqlContext.read.parquet('path-to-file/commentClusters.parquet') 此外，我还希望将Dataframe保存为CSV文件。

浏览 9提问于2018-02-02得票数 2

回答已采纳

1回答

将Parquet文件加载到存储为Parquet File的表格中(值为null)

apache-spark、hadoop、hive、pyspark、impala

我只是试图在单元格中创建一个表，该表存储为一个拼花文件，然后将保存数据的csv文件转换为一个拼图文件，然后将其加载到hdfs目录中，插入values.below是我正在执行的序列，但没有效果：首先，我在Hive中创建了一个表： CREATE external table if not EXISTS db1.managed_table55 (dummy string) stored as parquet location '/hadoop/db1/managed_table55'; 然后，我使用这个火花将一个拼花文件加载到上面的hdfs位置： df=spark.read.cs

浏览 2提问于2019-10-02得票数 0

2回答

如何在Spark中使用分区发现

apache-spark、apache-spark-sql

给出HDFS中的下一个结构，其中包含了拼花文件： data ├── name=Steve └── name=Michael 在SparkSQL中，使用以下查询： CREATE TABLE test USING parquet OPTIONS (path 'hdfs://namenode:8020/data') 未正确恢复分区，也未检测到数据： SELECT * FROM test LIMIT 1 +---+----+ |ID |name| +---+----+ +---+----+ 但是，另一种方法是在创建表时指定架构，然后使用恢复分区执行altern

浏览 0提问于2018-08-23得票数 1

回答已采纳

1回答

如何使用Spark修复parquet文件分区中不一致的模式

apache-spark、pyspark、azure-data-lake、databricks、azure-databricks

我是新手，在将新数据附加到分区时遇到了问题。我的管道通过Databricks将每天的CSV注入Azure Datalake (基本上是HDFS)。我还对数据运行了一些简单的转换，并删除了重复项等等。但是，我注意到，有时inferSchema=True选项并不总是最好的，有时会在分区文件之间造成模式中的不一致。当我去读所有的文件时： df = sqlContext.read.parquet("path/to/directory") 我被一个： Parquet column cannot be converted in file path/to/directory/file Col

浏览 0提问于2018-12-03得票数 3

回答已采纳

1回答

在读取HDFS目录时，如何处理某些文件的错误拼图模式？

apache-spark、apache-spark-sql

我在HDFS中有以下目录。 /HDFS/file/date=20200801/id=1 .. /HDFS/file/date=20200831/id=1 /HDFS/file/date=20200901/id=1 /HDFS/file/date=20200902/id=1 /HDFS/file/date=20200903/id=1 ... /HDFS/file/date=20200930/id=1 我正在使用以下命令读取这些文件 df=spark.read.parquet('/HDFS/file/').option("mergeSchema","true

浏览 0提问于2020-09-30得票数 2

4回答

如何将大熊猫的数据保存到hdfs？

python、pandas、apache-spark、pyarrow、apache-arrow

我和熊猫一起工作，和火花数据中心一起工作。数据格式总是很大(> 20 GB)，标准的火花函数不足以满足这些大小。目前我正在把我的熊猫数据转换成这样的星星之火： dataframe = spark.createDataFrame(pandas_dataframe) 我之所以进行这种转换，是因为通过星星之火将数据写入hdfs非常容易： dataframe.write.parquet(output_uri, mode="overwrite", compression="snappy") 但是对于大于2GB的数据文件来说，转换失败了。如果我将星火数据转换成熊猫

浏览 7提问于2017-11-20得票数 13

回答已采纳

1回答

如何使用Java/Scala将kafka消费者输出附加到HDFS中的文件(拼图)中？

apache-spark、apache-kafka、append、hdfs、parquet

这是一个卡夫卡批处理过程。我想读一个本地CSV文件，并将它写入一个Kafka主题。然后消费者必须从他们订阅的主题中获取数据。预期：，我希望将消耗的数据附加到格式的Parquet格式的文件中。请帮助我以有效的方式实现这一目标。卡夫卡制作人投入：卡夫卡消费者产出：我希望将该值附加到HDFS中的文件中。

浏览 3提问于2020-03-05得票数 0

1回答

PySpark从按文件名进行分区的目录写入拼图

python、apache-spark、hadoop、pyspark

在HDFS中，我在这个文件夹中有一个文件夹/landing/my_data/flow_name/，我有很多.csv文件： /landing/my_data/children_flow/20212503_1_children.csv/landing/my_data/children_flow/20212503_2_children.csv/landing/my_data/children_flow/20212503_3_children.csv 我希望使用/landing/my_data/children_flow/目录创建一个按文件名分区的拼花文件，并将其放入/staging/my_data/

浏览 4提问于2021-03-25得票数 2

回答已采纳

3回答

如何修正气流错误: print_context()缺少一个必需的位置参数：'ds‘

airflow、directed-acyclic-graphs

我有一个如下所示的守护程序: ingest_excel.py： from __future__ import print_function import time from builtins import range from datetime import timedelta from pprint import pprint import airflow from airflow.models import DAG #from airflow.operators.bash_operator import BashOperator from airflow.operators.pytho

浏览 1提问于2018-11-26得票数 1

回答已采纳

1回答

如何在PySpark中将Parquet文件编写为来自Dataframe的输出时，如何在HDFS中创建元数据文件？

pyspark、hdfs、schema、parquet

我有一个火花转换程序，它读取2个Parquet文件，并创建一个最终的Dataframe，然后写入HDFS中另一个目录中的Parquet文件。是否有方法在HDFS中的同一个目录中创建Parquet的元数据/架构文件？我们需要这个元数据/模式文件来进行另一个处理。

浏览 2提问于2020-05-09得票数 1

回答已采纳

1回答

对于相同的总数据量，从多个宗地文件进行SparkSQL查询要比从单个宗地文件查询慢得多

apache-spark、pyspark、apache-spark-sql、parquet

我发现使用sparksql (来自pyspark)查询从多个拼图文件生成的DataFrame的效率远低于从单个拼图文件生成的相同数量的数据，尽管过滤条件不是第一列(所以我猜它不是索引内容)。有人知道为什么会发生这种情况吗？如何才能使查询响应时间与后者一样高效？ # the parquet files are stored on hdfs hdfs_path = 'hdfs://localhost:9000/Test/' paths = [hdfs_path+'p1.parquet', hdfs_path+'p2.parquet', hdfs_p

浏览 10提问于2020-08-05得票数 0

1回答

查询基于CSV的星火DataFrame比基于Parquet的查询更快吗？

apache-spark、apache-spark-sql、parquet

我必须使用Spark从HDFS加载一个CSV文件到DataFrame中。我想知道是否有一个“性能”改善(查询速度)从一个DataFrame支持的CSV文件和一个支持一个拼花文件？通常，我会像下面这样将CSV文件加载到数据帧中。 val df1 = sqlContext.read .format("com.databricks.spark.csv") .option("header", "true") .option("inferSchema", "true") .load("hdfs://box/

浏览 4提问于2016-09-16得票数 8

回答已采纳

14回答

火花加载CSV文件作为DataFrame？

scala、apache-spark、hadoop、apache-spark-sql、hdfs

我想在spark中读取CSV，并将它转换为DataFrame，然后用df.registerTempTable("table_name")存储在HDFS中。我试过： scala> val df = sqlContext.load("hdfs:///csv/file/dir/file.csv") 我发现的错误： java.lang.RuntimeException: hdfs:///csv/file/dir/file.csv is not a Parquet file. expected magic number at tail [80, 65, 82, 4

浏览 33提问于2015-04-17得票数 164

回答已采纳

1回答

Pyspark -按年和月计算的平均天数

pyspark、apache-spark-sql、hdfs、rdd、parquet

我在hdfs中存储了一个CSV文件，格式如下： Business Line,Requisition (Job Title),Year,Month,Actual (# of Days) Communications,1012_Com_Specialist,2017,February,150 Information Technology,5781_Programmer_Associate,2017,March,80 Information Technology,2497_Programmer_Senior,2017,March,120 Services,6871_Business_Analyst_

浏览 0提问于2018-06-13得票数 0

1回答

如何在GUI中显示Spark结果(Tkinter)

python、apache-spark、hadoop、tkinter

我选择了不同的文件(.csv .json .txt ...)这就是我的工作，但是当我把这个函数和一个按钮关联起来的时候，结果就会显示在GUI中:这个函数在终端上执行，而GUI不显示。我怎么才能解决这个问题。代码如下： def classifyCSV(): spark = SparkSession.builder \ .appName("SparkByExamples.com") \ .getOrCreate() df = spark.read.csv("... /file3.csv") df.printS

浏览 15提问于2021-08-21得票数 0

2回答

从HDFS集群读取Parquet文件

hdfs、apache-nifi

查找有关如何使用Apache从hdfs集群读取拼板文件的建议。在集群中，有多个文件存在于单个目录下，想要在一个流程中全部读取。Nifi是否提供了一个内置组件来读取HDFS目录中的文件(本例中为parquet)？示例-目录中的3个文件- hdfs://app/data/customer/file1.parquet hdfs://app/data/customer/file2.parquet hdfs://app/data/customer/file3.parquet 谢谢!

浏览 0提问于2018-11-09得票数 0

回答已采纳

1回答

如何将InfluxDB线协议转换为NiFi中的Parquet协议

apache-kafka、apache-nifi、parquet、influxdb

我有influxDB Line记录，通过ConsumeKafka处理器进入NiFi，然后合并成包含10,000个记录的流文件。现在，我希望将它们转换为Parquet，并存储在HDFS中，最终目标是为最终用户构建Impala表。是否有一种方法将Line转换为PutParquet处理器可消费的东西，或者另一种方式将其转换为Parquet文件？我确实找到了一个定制的处理器，但是关于如何使用这个处理器没有什么信息和例子(我已经找到了)，所以我不确定它是否适合这个用例。或者，我可以使用Spark来完成转换和编写Parquet文件，但是我希望尽一切可能在NiFi中完成所有事情，特别是因为我还没有找到在

浏览 7提问于2019-12-03得票数 0

回答已采纳

2回答

“不受支持的编码:DELTA_BYTE_ARRAY”，同时使用pyspark将拼花数据写入csv

pyspark、apache-spark-sql

我想把二进制格式的拼花文件转换成csv文件。我正在使用以下命令的火花。 sqlContext.setConf("spark.sql.parquet.binaryAsString","true") val source = sqlContext.read.parquet("path to parquet file") source.coalesce(1).write.format("com.databricks.spark.csv").option("header","true").save(&

浏览 0提问于2018-10-01得票数 3

回答已采纳

1回答

Kafka Connect -从HDFS中的JSON记录到Avro文件

apache-kafka、hdfs、apache-kafka-connect、jsonschema、confluent-schema-registry

我当前的设置包含Kafka、HDFS、Kafka Connect和Schema注册表，它们都位于网络对接容器中。 Kafka主题包含没有模式的简单JSON数据： { "repo_name": "ironbee/ironbee" } Schema注册表包含一个JSON模式，描述Kafka主题中的数据： {"$schema": "https://json-schema.org/draft/2019-09/schema", "$id": "http://example.com/example.json&#

浏览 15提问于2022-11-28得票数 0

回答已采纳

2回答

如何在Azure HDInsight上设置镶木镶木块大小？

azure、apache-spark、pyspark、parquet、azure-hdinsight

我有大约3500个csv，我将其转换为按日期划分的镶木地板(此数据跨越7天)。我想设置拼图文件的大小，使每个文件都是1 1gb。目前，我收到的文件太多(每天400-600个)，大小从64 MB到128 MB不等。我可以重新分区(使用repartition/coalesce)到x个文件，每个分区(天)，但我仍然有不同的文件大小，这取决于一天中存在的数据量，所以第一天可能有20 gb，所以10个文件每个2 gb，但第二天有10 gb，所以每个文件都是1 gb。我正在寻找如何设置/编码，使每个分区中的每个文件都是1 1gb。我正在使用pyspark，下面是我用来编写拼花面板文件的代码。 csv_re

浏览 2提问于2017-07-19得票数 0

2回答

如何检查HDFS文件夹是否包含CSV拼板文件？

scala、apache-spark、hdfs

如何以编程方式检查何时使用 spark.read.csv(path) 或 spark.read.parquet(path) 没有用户说明路径是包含拼花还是文本文件。路径应该在HDFS上。

浏览 3提问于2020-10-06得票数 0

回答已采纳

2回答

覆盖拼图文件在spark中抛出异常

scala、apache-spark、dataframe、hdfs

我正在尝试从hdfs位置读取拼图文件，做一些转换并覆盖相同位置的文件。我必须在相同的位置覆盖文件，因为我必须多次运行相同的代码。下面是我写的代码 val df = spark.read.option("header", "true").option("inferSchema", "true").parquet("hdfs://master:8020/persist/local/") //after applying some transformations lets say the final dataframe

浏览 0提问于2018-09-04得票数 1

1回答

如何在HDFS上复制拼图文件并覆盖旧文件

apache-spark、hdfs、parquet

我的问题是，假设我们在HDFS上有两个拼图文件:file1.parket和file2.parket，它们位于不同的路径中，我想复制file1.parket来替换file2.parquet。我使用了命令hdfs dfs -cp -f /path1/file1.parquet /path2/file2.parqet，没有抛出错误，但是file2.parquet根本没有改变。我必须先删除file2.parket，然后再复制file1.parquet。有什么想法吗？谢谢

浏览 11提问于2020-06-04得票数 2

2回答

如何将1TB文件的处理并行化？

apache-spark、dataframe、parallel-processing、apache-spark-sql

虚问题一个巨大的CSV日志文件，假设1TB的大小，该文件位于USB驱动器上日志包含世界各地用户的活动日志，假设该行包含50列，其中有Country。我们要每个国家的线路数，从下到下。让我们假设火花集群有足够多的具有RAM的节点来处理内存中的整个1TB (20个节点，4个核心CPU，每个节点有64‘s) My Poorman的概念解决方案使用 & $ ./spark-shell --packages com.databricks:spark-csv_2.10:1.4.0 val dfBigLog = sqlContext.read .format(&

浏览 2提问于2016-04-09得票数 12

2回答

是目录的HDFS“文件”

hadoop、pyspark、hdfs、parquet

背景--我们正在尝试将不同的文件类型(csv或parquet)读入pyspark，而我的任务是编写一个确定文件类型的程序。看来，拼花文件总是目录，在HDFS中显示为目录。我们有一些csv文件也是目录，其中文件名是目录名，目录包含几个部分文件。这是什么过程？为什么有些文件--“文件”和“目录”？

浏览 2提问于2017-08-10得票数 0

回答已采纳

2回答

对hdfs中的文件使用拼花工具

maven、hdfs、parquet、parquet-mr

我下载并构建了的1.5.0。现在，我想在hdfs中对我的parquet文件运行一些命令。我试过这个： cd ~/parquet-mr/parquet-tools/src/main/scripts ./parquet-tools meta hdfs://localhost/my_parquet_file.parquet 我得到了：错误:找不到或加载主类parquet.tools.Main

浏览 1提问于2018-11-14得票数 0

1回答

拼花分区和HDFS文件大小

hdfs、avro、parquet

我的数据是相对较小的Avro记录形式，用Parquet文件编写(平均< 1mb)。到目前为止，我使用本地文件系统对Spark进行了一些测试。我使用目录层次结构对数据进行了分区。我想知道在Avro记录上“构建”分区并积累更大的文件是否更好.但是，我认为分区Parquet文件也会“映射”到HDFS分区文件。最好的办法是什么？编辑(根据评论澄清)： “在Avro记录上构建分区”：假设我的目录结构为P1=/P2=/file.avro，并且Avro记录包含字段F1和F2。我可以将所有这些保存在一个包含字段P1、P2、F1和F2的Avro文件中。不需要包含目录的分区结构，因为它都存在于

浏览 5提问于2016-08-22得票数 0

1回答

将数据迁移到HDFS中已有数据的新数据格式

hadoop、hdfs、data-migration、dataformat、devops

将csv数据从外部源导入HDFS并以特定格式存储的过程和工具是众所周知的；然而，如何转换HDFS中已经存在的数据的数据格式呢？我正在使用Json格式/未压缩的HDFS上的现有数据集(~ multi )。如何将集群上的数据转换为相同集群上的Parquet，同时最小化集群资源？选项：暂时获得另一个相同大小的集群，并在转换时将所有数据移到上面，然后再移回数据？临时补充现有集群上的额外节点？如何确保它们只用于这种迁移？ ?？谢谢, 哑光

浏览 4提问于2015-05-11得票数 0

1回答

如何在达到特定大小(128Mb)时将Kafka消息提交到HDFS接收器

apache-kafka、avro、parquet、apache-kafka-connect、confluent-platform

我的配置: Confluent (5.0.0) Kafka生成一些avro消息。Connect worker (HDFS连接器接收器)以Parquet格式将这些消息流式传输到HDFS节点。我将connect worker配置为每5000条消息向HDFS提交一次消息(flush.size=5000)。此配置运行良好。我的问题是:有没有办法在达到128Mb(或256Mb)时提交消息，而不是消息计数？我的HDFS连接器配置文件： name=hdfs-sink connector.class=io.confluent.connect.hdfs.HdfsSinkConnector format.c

浏览 7提问于2019-04-23得票数 2

回答已采纳

1回答

如何在火花放电中设置spark.sql.parquet.output.committer.class

python、apache-spark、pyspark、parquet、pyspark-sql

我正在尝试设置，而我所做的任何事情似乎都无法使设置生效。我试图让许多线程写入同一个输出文件夹，这将与org.apache.spark.sql. parquet.DirectParquetOutputCommitter一起工作，因为它不使用_temporary文件夹。我得到了以下错误，这就是我知道它不工作的原因： Caused by: java.io.FileNotFoundException: File hdfs://path/to/stuff/_temporary/0/task_201606281757_0048_m_000029/some_dir does not exist.

浏览 22提问于2016-06-28得票数 7

1回答

星星之火TypeError: LongType不能接受<type 'unicode'>类型中的对象u‘’Value‘>

python、apache-spark、spark-dataframe、parquet

我是转换一个csv文件为地板格式使用火花。我正在使用下面的代码。 from pyspark import SparkContext from pyspark.sql import SQLContext from pyspark.sql.types import * if __name__ == "__main__": sc = SparkContext(appName="CSV2Parquet") sqlContext = SQLContext(sc) schema = StructType([ Struct

浏览 4提问于2017-02-01得票数 1

回答已采纳

1回答

Spark 2.2.0在AWS EMR中写入Parquet下拉行

amazon-web-services、apache-spark、pyspark、spark-dataframe、parquet

因此，我有一个问题，在编写分区Parquet文件时，DataFrame中的某些行会被删除。以下是我的步骤：用指定的模式从S3读取CSV数据文件按“日期”列(DateType)分区用mode=append编写Parquet 阅读的第一步如预期，没有解析问题。为了进行质量检查，我执行以下操作：对于date='2012-11-22'的特定分区，对CSV文件、加载的DataFrame和parquet文件执行计数。下面是一些代码，可以使用pyspark来再现： logs_df = spark.read.csv('s3://../logs_2012/

浏览 0提问于2017-11-02得票数 2

回答已采纳

1回答

OCR / Parquet文件的存储策略

hadoop、ocr、parquet、bigdata

假设我的HDFS块大小等于256 my，并且我需要在OCR/Parquet文件上存储20 or的数据，那么最好将所有数据存储在一个OCR/Parquet文件上，还是最好将其存储在多个256 my的ORC/Parquet文件(HDFS块大小)上？提前谢谢。

浏览 3提问于2016-01-29得票数 1

回答已采纳

3回答

Spark :仅当路径存在时才读取文件

scala、apache-spark、parquet

我正在尝试读取scala中路径的Sequence中的文件。以下是示例(伪)代码： val paths = Seq[String] //Seq of paths val dataframe = spark.read.parquet(paths: _*) 现在，在上面的序列中，一些路径存在，而一些路径不存在。有没有办法在读取parquet文件时忽略缺失的路径(以避免org.apache.spark.sql.AnalysisException: Path does not exist)？我尝试了下面的方法，它似乎起作用了，但是，我最终读了两次相同的路径，这是我想避免做的事情： val filter

浏览 7提问于2017-07-19得票数 24

1回答

如何在java中编写类似pyspark的分区拼图文件？

hadoop、pyspark、parquet

我可以像这样将拼图文件写入pyspark中的分区： rdd.write .partitionBy("created_year", "created_month") .parquet("hdfs:///my_file") 拼图文件被自动划分为created_year、created_month。如何在java中做同样的事情呢？我在ParquetWriter类中看不到任何选项。有没有别的类可以做到这一点呢？谢谢,

浏览 1提问于2016-10-25得票数 1