腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
用
Apache
Hudi
编写
的
Parquet
文件名
的
每个
部分
代表
什么
?
apache-spark
、
parquet
、
apache-hudi
Apache
Hudi
写出
每个
拼图文件,如下所示: 0743209d-51cb-4233-a7cd-5bb712fba1ff-0_21-64-5300_20211117172738.
parquet
我正在尝试理解文件
的
每个
部分
代表
什么
这是我目前
的
理解,但我希望任何可能知道的人都能确认和澄清。5bb712fba1ff = file group/file name 20211
浏览 85
提问于2021-11-17
得票数 0
1
回答
Hudi
分区和upsert不工作
pyspark
、
apache-hudi
这个配置中
的
错误是
什么
, 分区键在
HUDI
中不起作用,并且在执行upsert时,
hudi
数据集中
的
所有记录都会更新。所以不能从表中提取增量。commonConfig = {'className' : 'org.
apache
.
hudi
','hoodie.datasource.write.
浏览 50
提问于2021-08-29
得票数 1
1
回答
Hoodie (
Hudi
)预组合字段在NULL上失败
apache-spark
、
aws-glue
、
cdc
、
apache-hudi
、
hoodie
我为
Hudi
CDC
编写
的
AWS Glue作业在一个预组合字段
的
列上失败了(请参阅下面的错误消息)。我已经验证了这个列上没有空值(它有一个后更新触发器和默认
的
NOW() set)。当我使用spark查询拼花文件时,唯一显示NULL
的
记录是
用
DELETE操作('op')标记
的
记录。据我所知,
Hudi
只在DELETE操作上传输主键,而没有其他任何内容。为
什么
Hudi
在DELETE操作
浏览 4
提问于2022-06-06
得票数 0
回答已采纳
1
回答
为
什么
德尔塔湖似乎存储了这么多多余
的
信息?
apache-spark
、
amazon-s3
、
delta-lake
(为了提高可读性,我将替换
文件名
中
的
实际UUID值)dataGen = sc._jvm.org.
apache
.
hudi
.QuickstartUtils.DataGenerator()df = spark.read.jsonsnappy.
parq
浏览 1
提问于2020-10-19
得票数 2
回答已采纳
1
回答
用于Rdd键
的
zipwithindex并获得新
的
RDD。
scala
、
apache-spark
、
rdd
我想要新
的
带有filepath和zipWithIndex索引
的
zipWithIndex 我试过地图,但没有成功。
浏览 0
提问于2019-05-18
得票数 1
回答已采纳
1
回答
从Databricks到Analytics:当我们将数据加载到表中时,为
什么
需要将
parquet
.writeLegacyFormat设置为True?
apache-spark
、
azure-databricks
、
polybase
、
azure-synapse
现在,需要设置
Parquet
的
火花配置,如下所示:"spark.sql.
parquet
.writeLegacyFormat",为
什么
它需要遗留格式(即这是强制性
的
吗? 上面的语句是
每个
会话,所以它不会影响其他正在运行
的
作业,但是我想知道为
什么
我们需要使用遗留格式?我们是否有其他
的
方法,例如存
浏览 0
提问于2020-07-09
得票数 0
2
回答
如何在一行中修改和剪切(使用相同
的
模式)字符串列表?
bash
、
find
、
cut
我打算
编写
一个脚本,根据
文件名
前缀收集文件,并将它们放在一起(当它们共享相同
的
前缀时)。我没有前缀列表,我需要从
文件名
本身构建它。文件
的
名称如下: top-1.
parquet
side-1.
parquet
bot-tom-1.
parquet
bot-tom-2.
parquet
| sort -zu) (此脚本或多或少是从SO上
的</em
浏览 18
提问于2020-10-18
得票数 0
回答已采纳
1
回答
任务DataFrame分组/应用效率
python
、
pandas
、
dask
、
dask-distributed
我正在努力想出一种有效
的
方法来解决似乎是dask.dataframe groupby+apply
的
典型
用
例,并且想知道我是否遗漏了一些明显
的
东西( 谈到了这个问题,但我还没有完全解决它)。简而言之,我正在尝试加载一个中等大小(例如10 to )
的
数据帧,按某些列分组,为
每个
子集训练一个机器学习模型(
每个
模型几秒钟,大约100k个子集),并将该模型保存到磁盘。到目前为止,我最好
的
尝试是:df = dd.read_
par
浏览 0
提问于2018-02-03
得票数 2
3
回答
java.lang.UnsupportedOperationException:写入时spark出错
apache-spark
、
apache-spark-dataset
当我尝试将数据集写入到地块文件中时,出现以下错误org.
apache
.spark.SparkException989, ip-10-253-194-207.nonprd.aws.csp.net, executor 4): java.lang.UnsupportedOperationException: org.
apache
.
parquet
.column.values.dictionary.Plain
浏览 0
提问于2018-11-05
得票数 5
6
回答
没有Hadoop
的
地板?
hadoop
、
hdfs
、
parquet
我想在我
的
一个项目中使用地板作为柱状存储。但是我不想依赖hadoop/hdfs库。是否可以在hdfs之外使用地板?或者,最小依赖是
什么
?
浏览 6
提问于2015-03-26
得票数 28
回答已采纳
2
回答
是目录
的
HDFS“文件”
hadoop
、
pyspark
、
hdfs
、
parquet
背景--我们正在尝试将不同
的
文件类型(csv或
parquet
)读入pyspark,而我
的
任务是
编写
一个确定文件类型
的
程序。为
什么
有些文件--“文件”和“目录”?
浏览 2
提问于2017-08-10
得票数 0
回答已采纳
1
回答
并行化GZip文件处理火花
python
、
hadoop
、
apache-spark
、
gzip
、
pyspark
我有一个巨大
的
GZip文件列表,需要转换为
Parquet
。由于GZip
的
压缩特性,无法对一个文件进行并行化。我可以并行化
文件名
列表,
编写
一个处理本地Parquets并将它们保存回HDFS<
浏览 0
提问于2016-02-15
得票数 3
2
回答
将URL转换为
文件名
的
简单方法
android
、
file-io
我正在为Android
编写
一个异步图像下载器,我只是想知道,给定一个任意
的
URL,例如:如果有人有任何想法,我很乐意听听! 谢谢
浏览 143
提问于2012-01-30
得票数 5
回答已采纳
2
回答
外部拼花项目静态库中
的
“未定义引用”错误
linux
、
cmake
、
linker
、
parquet
我想链接专家‘地板’项目( )作为我当前项目的一
部分
在Linux上。 为此,我运行了具有以下参数
的
cmake。这就是我不太了解
的
地方,为
什么
lib在
parquet
项目本身中编译得很好,但是现在有很多未解决
的
问题,当我使用它来链接到我自己
的
项目中时?此外,我还为windows
编写
了项目,当我做同样
的
事情时,但是使用arrow.lib和
parquet
.lib (而不是libparquet.a和libarrow.a ),
浏览 0
提问于2019-01-14
得票数 0
1
回答
S3和Spark:文件大小和文件格式
的
最佳实践
apache-spark
、
amazon-s3
、
pyspark
我需要读取数据(来自一个包含5列
的
RedShift表,表
的
总大小约为500 job 1tb),通过PySpark将数据从PySpark读入Spark,以完成每天
的
批处理任务。是否有任何最佳做法: 谢谢!
浏览 1
提问于2019-07-10
得票数 1
回答已采纳
2
回答
在Spark中,如何读取用bucketBy
编写
的
拼花文件,并保存存储
的
数据?
scala
、
apache-spark
、
parquet
在ApacheSpark2.4.5中,如何打开一组
用
bucketBy和saveAsTable
编写
的
拼花文件?将/tmp/output中
的
文件移动到/tmp/newPlace,并启动一个全新
的
星火会话。 .whatGoesHere?你需要做些
什么
才能把它们
用
同样
的
桶状信息读回来呢?这
浏览 2
提问于2020-05-05
得票数 3
回答已采纳
2
回答
从包含嵌套文件夹
的
目录中获取特定数据类型
的
所有
文件名
。
scala
、
apache-spark
.
parquet
12-00 part00001.
parquet
val allParquetFiles = sc.wholeTextFiles("C:/MyDocs/201
浏览 4
提问于2017-09-05
得票数 2
2
回答
从正在更新
的
拼花文件中读取错误
apache-spark
、
apache-spark-sql
、
parquet
我们以原子
的
方式进行这些更新(
用
现有数据生成一个新
的
parquet
文件,再加上新
的
数据到一个临时
文件名
,然后通过对现有文件
的
文件名
的
原子OS调用将文件重命名)。问题是,如果我们对上面描述
的
“半活”文件进行搜索,我们就会得到错误。 这可能并不重要,但文件是通过AvroBasedParquetWriter.write()
编写
的
。读取是通过调用SparkSession.read.
浏览 0
提问于2019-04-04
得票数 0
1
回答
org.
apache
.
parquet
.io.InputFile
的
S3实现?
java
、
amazon-s3
、
aws-lambda
、
parquet
我正在尝试
编写
一个基于Scala
的
AWS Lambda来读取基于S3
的
快速压缩
的
Parquet
文件。该过程将它们写回分区
的
JSON文件中。我一直在尝试使用org.
apache
.
parquet
.hadoop.ParquetFileReader类来读取文件...未被弃
用
的
方法似乎是将org.
apache
.
parquet
.io.InputFile有一个是针对Hadoop (HadoopI
浏览 35
提问于2019-07-18
得票数 2
点击加载更多
热门
标签
更多标签
云服务器
对象存储
ICP备案
云点播
腾讯会议
活动推荐
运营活动
广告
关闭
领券