我有一个StructType模式。我想以相同的格式将它存储在一个单独的文件中，并在我的Spark程序中从该文件中读取它_我有一个存储在文本文件中的数据，我想访问该数据，但跳过初始值，一旦读取了数据，则转到下一行 - 腾讯云开发者社区

scala、apache-spark、schema

我有下面的模式，val schema = new StructType( Array( StructField("Age",IntegerType,true), StructField("Name",StringType,true), ) ) 我想将它保存在一个单独的文件中，格式相同，并在我</em

浏览 21提问于2021-09-14得票数 2

1回答

json文件向三角湖的动态模式演化

json、databricks、delta-lake、dbt

我正在建立一个三角洲湖，我正在努力将我的json数据加载到三角洲湖。我们有100种不同的json文件格式。都存储在一个数据湖里。现在，我试图避免编写100种不同的python笔记本，而是构建一个元数据驱动的笔记本，它应该能够处理所有不同的json格式。我能

浏览 2提问于2022-02-05得票数 0

2回答

如何将带nullable = false的架构应用于json读取

apache-spark

我试图用json文件编写一些用于数据文件的测试用例(而生产将是parquet)。我使用的是火花测试基框架，在断言数据帧相等时遇到了麻烦，因为模式不匹配，json模式总是有nullable = true。import com.holdenkarau.<e

浏览 4提问于2017-11-22得票数 12

回答已采纳

2回答

Avro模式引发StructType

java、apache-spark、apache-spark-sql、avro

这实际上与我的相同，但使用Avro而不是JSON作为数据格式。我正在使用一个Spark dataframe，它可以从几个不同的模式版本中加载数据：{"namespace": "com.example.avro", .format("co

浏览 1提问于2015-11-25得票数 7

3回答

星星之火:在分区拼花数据中读取DateType列时出错

python、apache-spark、amazon-s3、pyspark、parquet

我有S3中的拼图数据，由nyc_date以s3://mybucket/mykey/nyc_date=Y-m-d/*.gz.parquet格式分区。我有一个DateType列event_date，由于某种原因，当我尝试使用EMR从S3读取并写入hdfs时，会抛出这个错误。： Local :-)：我以相同<

浏览 6提问于2016-12-14得票数 14

回答已采纳

2回答

用电火花把地板点燃

scala、apache-spark、spark-dataframe、avro、parquet

我有一个avro格式化数据流(json编码)，它需要存储在拼花文件中。我只能这么做，然后把df写成地板。在这里，模式是从json推断出来的。但是我已经有了avsc文件，我不希望spark从

浏览 2提问于2016-03-18得票数 4

回答已采纳

2回答

Pyspark:从JSON文件创建模式

pyspark、apache-spark-sql、jsonschema

我正在处理来自非常长的嵌套JSON文件的数据。问题是，这些文件的结构并不总是与其他文件的列相同。我希望从包含所有列的空JSON文件中创建一个自定义模式。如果我稍后将JSON文件读入这个预定义的模式中，则不存在的</

浏览 7提问于2021-10-26得票数 3

回答已采纳

1回答

在Python中为spark.read()使用json文件中包含的模式

python、json、pyspark、schema

问题：我将以下模式硬编码到python脚本中，这对于我的代码非常有效： StructField("computer_name", StringType()), StructField("ow

浏览 3提问于2021-08-09得票数 0

回答已采纳

1回答

在avro模式中表示spark* `StructType`*

apache-spark、avro、parquet

如何描述avro模式中的spark StructType数据类型？我正在生成一个拼图文件，其格式在avro模式中描述。然后将该文件从S3加载到spark中。存在array和map数据类型，但这些数据类型与StructType不对应。

浏览 18提问于2020-04-06得票数 0

1回答

用S3读取DataFrameReader文件

java、amazon-web-services、apache-spark、amazon-s3、databricks

嗨，我在用S3读取文件时遇到了问题--当文件是本地的时候，我能够读取完全相同的文件，但是当它存储在s3上时，我无法读取它，下面是我的代码片段 private SparkSession getSparkSessionstructType, String src

浏览 1提问于2017-02-09得票数 0

回答已采纳

3回答

用多RowTags读取Spark中的XML文件

spark-dataframe、databricks、apache-spark-xml

我想将一个包含3个不同RowTags的巨大XML文件读入中。有没有办法在一次读取中读取该<em

浏览 6提问于2017-08-18得票数 0

3回答

如何将HDFS小文件合并为一个大文件？

bash、scala、apache-spark、hdfs

我有从Kafka流生成的小文件的数量，所以我喜欢合并小文件到一个单一的文件，但这种合并是基于日期，即原始文件夹可能有以前的文件数量，但我只喜欢合并给定的日期文件到一个单一的文件。有什么建议吗？

浏览 9提问于2018-07-26得票数 0

2回答

复杂嵌套数据的火花数据

scala、apache-spark、apache-spark-sql、azure-databricks

我有3个数据文件，目前称为dfA、dfB和dfC。dfB说是5科尔。第二种方法，是对dFA记录的FK引用。#^ Zip #^Zip#^Zip街#^Zip城市#^Zip#^Zip使用Spark我想将它加载到这样一个

浏览 0提问于2019-04-18得票数 1

1回答

如何在spark-avro 2.4模式中设置logicalType？

scala、apache-spark、avro、spark-avro

我们从应用程序中的avro文件中读取时间戳信息。我正在测试从Spark 2.3.1升级到Spark 2.4的过程，其中包括新内置的spark-avro集成。从使用Databricks spark-avro 4.0.0包查看Spark 2.3.1下的测试avro文件</

浏览 36提问于2019-02-07得票数 2

回答已采纳

2回答

火花推断器模式在read.csv期间有限制

apache-spark

我想从一个CSV文件目录中，使用一小部分行(例如，Spark.DataFrame )来推断一个CSV模式。但是，将inferSchema设置为True意味着FileScanRDD的Input Size / Records似乎总是等于所有CSV文件中的行数。是否有一种方法可以使FileScan更具选择性，例如在推断模式时，Spark可以查

浏览 0提问于2019-04-29得票数 4

回答已采纳

1回答

如何通过配置文件在dataframe中添加模式

scala、apache-spark

我有一个文件，我正在将其转换为Dataframe。对于模式，我希望从配置文件中读取它。我不想在代码中给出硬编码的模式，因为它可能会随着时间的推移而改变，所以我们将模式放在一个单独的文件中</em

浏览 0提问于2019-05-21得票数 1

1回答

如何使用闪烁读取文件并使用Scala写入一个简单的文件？

scala、apache-spark、spark-streaming、parquet

我试图使用scala SparkStreaming程序读取一个文件。该文件存储在本地计算机上的一个目录中，并试图将其写入本地计算机本身上的一个新文件。但是，每当我写我的流，并将它作为地板存储，我最终得到空白文件夹。这是我<

浏览 1提问于2016-12-13得票数 0

回答已采纳

2回答

火花拼花模式演变

apache-spark、parquet

我有一个分区的hdfs拼板位置，它有不同的模式是不同的分区。第一个分区中有5个列，第二个分区中有4个科尔。现在我尝试读取基本的Parquet路径，然后过滤第二个分区。这给了我DF中的5列，即使我在第二个分区的Parquet文件中只有4列。当我直接读第二个分区时，它<

浏览 6提问于2020-03-17得票数 2

4回答

如何在星火中创建架构文件

scala、apache-spark-sql、schema、orc

我正在尝试读取一个Schema文件(这是一个文本文件)，并将它应用到我的CSV文件中，而没有头文件。因为我已经有了一个模式文件，所以我不想使用InferSchema选项，这是一种开销。我的输入模式文件如下， "num Intege

浏览 1提问于2018-05-24得票数 5

回答已采纳

1回答

火花读CSV -没有显示corroupt记录

apache-spark、apache-spark-sql、databricks

Spark有一个读取Permissive文件的CSV模式，它将corroupt记录存储到一个名为_corroupt_record的单独列中。允许--当所有字段遇到损坏的记录时，将其设置为null，并将所有损坏的记录放置在名为_corrupt_record的字符串列中。但是，当我尝试下面的示例时

浏览 0提问于2019-10-30得票数 2

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云