用Apache Hudi编写的Parquet文件名的每个部分代表什么？

文章/答案/技术大牛

发布

1回答

apache-spark、parquet、apache-hudi

Apache Hudi写出每个拼图文件，如下所示： 0743209d-51cb-4233-a7cd-5bb712fba1ff-0_21-64-5300_20211117172738.parquet 我正在尝试理解文件的每个部分代表什么这是我目前的理解，但我希望任何可能知道的人都能确认和澄清。5bb712fba1ff = file group/file name 20211

浏览 85提问于2021-11-17得票数 0

1回答

Hudi分区和upsert不工作

pyspark、apache-hudi

这个配置中的错误是什么，分区键在HUDI中不起作用，并且在执行upsert时，hudi数据集中的所有记录都会更新。所以不能从表中提取增量。commonConfig = {'className' : 'org.apache.hudi','hoodie.datasource.write.

浏览 50提问于2021-08-29得票数 1

1回答

Hoodie (Hudi)预组合字段在NULL上失败

apache-spark、aws-glue、cdc、apache-hudi、hoodie

我为Hudi CDC编写的AWS Glue作业在一个预组合字段的列上失败了(请参阅下面的错误消息)。我已经验证了这个列上没有空值(它有一个后更新触发器和默认的NOW() set)。当我使用spark查询拼花文件时，唯一显示NULL的记录是用DELETE操作('op')标记的记录。据我所知，Hudi只在DELETE操作上传输主键，而没有其他任何内容。为什么Hudi在DELETE操作

浏览 4提问于2022-06-06得票数 0

回答已采纳

1回答

为什么德尔塔湖似乎存储了这么多多余的信息？

apache-spark、amazon-s3、delta-lake

(为了提高可读性，我将替换文件名中的实际UUID值)dataGen = sc._jvm.org.apache.hudi.QuickstartUtils.DataGenerator()df = spark.read.jsonsnappy.parq

浏览 1提问于2020-10-19得票数 2

回答已采纳

1回答

用于Rdd键的zipwithindex并获得新的RDD。

scala、apache-spark、rdd

我想要新的带有filepath和zipWithIndex索引的zipWithIndex 我试过地图，但没有成功。

浏览 0提问于2019-05-18得票数 1

回答已采纳

1回答

从Databricks到Analytics:当我们将数据加载到表中时，为什么需要将parquet.writeLegacyFormat设置为True？

apache-spark、azure-databricks、polybase、azure-synapse

现在，需要设置Parquet的火花配置，如下所示："spark.sql.parquet.writeLegacyFormat",为什么它需要遗留格式(即这是强制性的吗？上面的语句是每个会话，所以它不会影响其他正在运行的作业，但是我想知道为什么我们需要使用遗留格式？我们是否有其他的方法，例如存

浏览 0提问于2020-07-09得票数 0

2回答

如何在一行中修改和剪切(使用相同的模式)字符串列表？

bash、find、cut

我打算编写一个脚本，根据文件名前缀收集文件，并将它们放在一起(当它们共享相同的前缀时)。我没有前缀列表，我需要从文件名本身构建它。文件的名称如下： top-1.parquetside-1.parquetbot-tom-1.parquet bot-tom-2.parquet| sort -zu) (此脚本或多或少是从SO上的</em

浏览 18提问于2020-10-18得票数 0

回答已采纳

1回答

我正在努力想出一种有效的方法来解决似乎是dask.dataframe groupby+apply的典型用例，并且想知道我是否遗漏了一些明显的东西( 谈到了这个问题，但我还没有完全解决它)。简而言之，我正在尝试加载一个中等大小(例如10 to )的数据帧，按某些列分组，为每个子集训练一个机器学习模型(每个模型几秒钟，大约100k个子集)，并将该模型保存到磁盘。到目前为止，我最好的尝试是：df = dd.read_par

浏览 0提问于2018-02-03得票数 2

3回答

java.lang.UnsupportedOperationException:写入时spark出错

apache-spark、apache-spark-dataset

当我尝试将数据集写入到地块文件中时，出现以下错误org.apache.spark.SparkException989, ip-10-253-194-207.nonprd.aws.csp.net, executor 4): java.lang.UnsupportedOperationException: org.apache.parquet.column.values.dictionary.Plain

浏览 0提问于2018-11-05得票数 5

6回答

没有Hadoop的地板？

hadoop、hdfs、parquet

我想在我的一个项目中使用地板作为柱状存储。但是我不想依赖hadoop/hdfs库。是否可以在hdfs之外使用地板？或者，最小依赖是什么？

浏览 6提问于2015-03-26得票数 28

回答已采纳

2回答

是目录的HDFS“文件”

hadoop、pyspark、hdfs、parquet

背景--我们正在尝试将不同的文件类型(csv或parquet)读入pyspark，而我的任务是编写一个确定文件类型的程序。为什么有些文件--“文件”和“目录”？

浏览 2提问于2017-08-10得票数 0

回答已采纳

1回答

并行化GZip文件处理火花

python、hadoop、apache-spark、gzip、pyspark

我有一个巨大的GZip文件列表，需要转换为Parquet。由于GZip的压缩特性，无法对一个文件进行并行化。我可以并行化文件名列表，编写一个处理本地Parquets并将它们保存回HDFS<

浏览 0提问于2016-02-15得票数 3

2回答

将URL转换为文件名的简单方法

android、file-io

我正在为Android编写一个异步图像下载器，我只是想知道，给定一个任意的URL，例如：如果有人有任何想法，我很乐意听听！谢谢

浏览 143提问于2012-01-30得票数 5

回答已采纳

2回答

外部拼花项目静态库中的“未定义引用”错误

linux、cmake、linker、parquet

我想链接专家‘地板’项目( )作为我当前项目的一部分在Linux上。为此，我运行了具有以下参数的cmake。这就是我不太了解的地方，为什么lib在parquet项目本身中编译得很好，但是现在有很多未解决的问题，当我使用它来链接到我自己的项目中时？此外，我还为windows编写了项目，当我做同样的事情时，但是使用arrow.lib和parquet.lib (而不是libparquet.a和libarrow.a )，

浏览 0提问于2019-01-14得票数 0

1回答

S3和Spark:文件大小和文件格式的最佳实践

apache-spark、amazon-s3、pyspark

我需要读取数据(来自一个包含5列的RedShift表，表的总大小约为500 job 1tb)，通过PySpark将数据从PySpark读入Spark，以完成每天的批处理任务。是否有任何最佳做法：谢谢!

浏览 1提问于2019-07-10得票数 1

回答已采纳

2回答

在Spark中，如何读取用bucketBy编写的拼花文件，并保存存储的数据？

scala、apache-spark、parquet

在ApacheSpark2.4.5中，如何打开一组用bucketBy和saveAsTable编写的拼花文件？将/tmp/output中的文件移动到/tmp/newPlace，并启动一个全新的星火会话。 .whatGoesHere?你需要做些什么才能把它们用同样的桶状信息读回来呢？这

浏览 2提问于2020-05-05得票数 3

回答已采纳

2回答

从包含嵌套文件夹的目录中获取特定数据类型的所有文件名。

scala、apache-spark

.parquet 12-00 part00001.parquet val allParquetFiles = sc.wholeTextFiles("C:/MyDocs/201

浏览 4提问于2017-09-05得票数 2

2回答

从正在更新的拼花文件中读取错误

apache-spark、apache-spark-sql、parquet

我们以原子的方式进行这些更新(用现有数据生成一个新的parquet文件，再加上新的数据到一个临时文件名，然后通过对现有文件的文件名的原子OS调用将文件重命名)。问题是，如果我们对上面描述的“半活”文件进行搜索，我们就会得到错误。这可能并不重要，但文件是通过AvroBasedParquetWriter.write()编写的。读取是通过调用SparkSession.read.

浏览 0提问于2019-04-04得票数 0

1回答

org.apache.parquet.io.InputFile的S3实现？

java、amazon-s3、aws-lambda、parquet

我正在尝试编写一个基于Scala的AWS Lambda来读取基于S3的快速压缩的Parquet文件。该过程将它们写回分区的JSON文件中。我一直在尝试使用org.apache.parquet.hadoop.ParquetFileReader类来读取文件...未被弃用的方法似乎是将org.apache.parquet.io.InputFile有一个是针对Hadoop (HadoopI

浏览 35提问于2019-07-18得票数 2

点击加载更多