如何使用scala在拼图文件中写入常量值？

文章/答案/技术大牛

发布

1回答

、、、

我正在使用spark .I，希望将重复13849次的值2.484保存在拼图文件中，而不是控制台。如何将其保存到拼花文件中？

浏览 16提问于2019-10-17得票数 0

2回答

使用Spark从S3A读取拼图文件时出现重复列异常

、、

我有一个包含多个Int8和字符串列的模式，我已经将它们写入到Parquet格式中，并存储在一个S3A存储桶中供以后使用。当我尝试使用SqlContext.read.option("mergeSchema","false").parquet("s3a://....")读取这个拼图文件时，我得到了以下异常。我尝试使用parquet -tools(带有schem

浏览 1提问于2016-10-04得票数 1

1回答

s3 parquet写入-分区太多，写入缓慢

、、、、

我有我的scala spark作业要作为拼图文件写入到s3中。到目前为止，它有60亿条记录，而且还会每天都在增长。根据用例，我们的api会根据id查询拼图。因此，为了使查询结果更快，我在id上编写了带有分区的拼图。然而，我们有1330360个唯一的is，所以这是在写的同时创建了1330360个拼图文件，所以写的步骤非常慢，写了9个小时，它仍然在运行。

浏览 2提问于2018-05-06得票数 1

1回答

Databricks Delta缓存包含过时的页脚和过时的页面条目错误

、

我经常遇到与查询从位于ADLS Gen2挂载上的拼图文件中选择的TEMPORARY VIEW相关的笔记本故障。)在执行notebook命令之前，使用snappy压缩对源(来自MSSQL表)和宿( Copy Data文件)执行数据工厂notebook活动。没有其他活动或管道

浏览 0提问于2021-03-18得票数 0

1回答

删除spark-structured-streaming写入的损坏拼接文件时会丢失数据吗？

、、、

我使用spark-structured-streaming作为消费者从kafka获取数据，按照指南参考https://spark.apache.org/docs/latest/structured-streaming-kafka-integration.html然后将数据保存到hdfs作为拼图文件。这是我的问题:程序运行良好，但一些容器很少失败(但它确实发生了)，导致了一些损坏的拼接文件。它将导致错误，如不是拼图文件(长度太小: 4)或[

浏览 20提问于2019-05-25得票数 0

1回答

拼接文件输出Sink - Spark结构化流

、

想知道什么(以及如何修改)会触发Spark Sturctured流查询(配置了拼图文件输出接收器)以将数据写入拼图文件。我定期提供流输入数据(使用StreamReader读入文件)，但它不会为作为输入提供的每个文件将输出写入Parquet文件。一旦我给它提供了几个文件，它往往会很好地编写一个Parquet文件。我想知道如何控制这一点。我希望能够强

浏览 7提问于2019-03-28得票数 1

1回答

写入S3 on LocalStack with Spark3: RemoteFileChangedException - S3在打开位置时报告的更改。ETag不可用

、、、、

我试图在测试容器中的Local堆栈中将拼图写入S3，并得到以下错误：它使用的是真正的S3，它使用的是Spark2.4和Hadoop2.7。我使用的是: Scala 2.12.15，Spark 3.2.1，hadoop-aws 3.3.1，testcon

浏览 9提问于2022-06-14得票数 0

1回答

Spark Structured Streaming应用程序将空拼图文件生成到Azure blob

、

我从Apache Kafka读取json消息，然后使用Apache Spark将拼图文件写入Azure blob存储中。我使用方法partitionBy将这些拼图文件写入嵌套文件夹中。test") .start() 我注意到spark应用程

浏览 1提问于2020-10-26得票数 2

2回答

结构化流传输将Parquet文件写入Hadoop

、

我能够将结构化流式传输的结果写入到拼图文件中。问题是这些文件在本地文件系统中，现在我想将它们写入Hadoop文件系统。有没有办法做到这一点？hdfs://localhost:19000/data/checkpoints") .start("hdfs://localhost:19000/data/

浏览 9提问于2017-03-01得票数 1

回答已采纳

1回答

将S3中的地块文件映射到其方案以求解配置单元ClassCastException

、、、、

我在拼图文件上有一个按时间戳划分的hive表，并进行了快速转换。问题是，由于一个字段在某些拼图模式中提供LongType，而在另一个字段中提供字符串，因此运行查询会抛出ClassCastException。所以我现在要做的就是读取我所有的拼图文件并检查它们的模式，这样我就可以重新创建它们了。我希望将我的文件名映射到关联拼图的模式。和org.apache.spark.sql.functions的input_file_name函数一起<e

浏览 17提问于2019-03-22得票数 0

回答已采纳

1回答

用户代理解析器(ua- parser )减慢EMR上的Spark

、、、、

我在我的UDF中使用来解析用户代理信息。我注意到，与没有解析器的作业相比，这些作业非常慢。下面是一个示例：val parser: Parser = Parser.default奇怪的是，当我提交作业作为EMR步骤时，它很慢，但当我在Zeppelin或Spark s

浏览 0提问于2019-12-03得票数 0

2回答

如何在关闭ParquetWriter对象并将其写入磁盘之前获取该对象的内存大小？

、、、

我正在从一个流中读取Avro消息，并使用parquet.hadoop.ParquetWriter将它们写出到Parquet文件中。我正在尝试使输出文件的大小超过阈值限制。问题是，ParquetWriter将所有内容都保存在内存中，只有在writer关闭时才会将其写出到磁盘。根据Parquet文档，数据以最终格式写入内存对象，这意味着内存中对象的大小与磁盘上的最终大小相同。我的问题是，如何获得内存中<

浏览 1提问于2015-03-06得票数 3

3回答

通过Spark读取保存在文件夹中的所有拼图文件

、、

我有一个包含拼图文件的文件夹。: int] 当我去读取df文件夹中的所有拼图文件时，在保存数据帧后，它给出了错误。(DataFr

浏览 0提问于2017-03-27得票数 13

回答已采纳

2回答

Spark:来自异构数据的编写包

、、、、

例如，RDD[(Type, JSON)]和Set[Type]，包含原始RDD中的所有类型。现在，我想将这些JSON写入到一个类型化的Parquet文件中，并按类型进行分区。

浏览 14提问于2021-09-28得票数 2

1回答

如何在jxls 2.x中在jdbc.query中设置参数${}

我以前常使用jxls v.1.x。现在我学习第2.x节。我希望将参数从上下文设置为sql查询。我在xls-模板中: jx:each(items="jdbc.query('select * from table1 field1 < ?'如果我在${val1}中设置常量值，那么它就工作了。如何将参数值从“context”设置为jdbc.query()

浏览 1提问于2016-02-26得票数 0

回答已采纳

1回答

使用Java从拼图文件中读取嵌套JSON

、、、

我在Java中使用Spark 1.5.2，并且我试图读入一个包含来自JSON文件的数据的parquet文件。我已经浏览了Spark页面以读取拼图文件，但似乎没有一个示例与我正在寻找的相匹配。我做了一些搜索，找到了与scala相似但特定于scala的东西。ArrayType(StructType(StructField(ids,ArrayType(StringType,true),true)),true),true)) 我猜我需要为该字段创建一个模式，但

浏览 1提问于2016-01-30得票数 3

1回答

org.json4s.JsonDSL$.seq2jvalue(Lscala/collection/Traversable;Lscala/Function1;)Lorg/json4s/JsonAST$JArray；：java.lang.NoSuchMethodError

、、、

我试图写数据从火花DataFrame到拼图文件使用spark-submit，我得到java.lang.NoSuchMethodError错误与JsonDSL。从Spark-Shell运行时，相同的写入块工作正常。在使用sqlContext写入拼图文件时，我需要添加任何额外的依赖项吗？当我从Cassandra表中读取数据时，我使用的是Spark sqlContext。$tilde(JsonDSL.<e

浏览 101提问于2020-12-11得票数 0

2回答

使用s3-dist-cp合并拼接文件

、、

我想知道是否可以使用s3-dist-cp工具来合并拼图文件(快速压缩)。我尝试了"--groupBy“和"--targetSize”选项，它确实将小文件合并为更大的文件。但我无法在Spark或AWS Athena中阅读它们。在aws athena中，我得到了以下错误： HIVE_CURSOR_ERROR: Expected 246379 values in column chunk at s3:/

浏览 5提问于2017-12-16得票数 4

1回答