Spark中的ClassCastException读Teradata和写拼图_如何从spark中的驱动程序读/写HDFS - 腾讯云开发者社区

java、apache-spark、pyspark、schema、classcastexception

我正在运行一个Spark作业，它从Teradata DBMS读取一个带有SQL查询的DataFrame。当作业将S3上的文件写为parquet时， partition_keys = ["Cat$col1", "Cat$col2"] df.write.mode("overwrite").partitionBy(partition_keys) 抛出以下java.lang.ClassCastException异常： File &quo

浏览 27提问于2021-07-15得票数 0

2回答

Spark SQL -如何将DataFrame写入文本文件？

java、apache-spark-sql

我正在使用Spark SQL读拼图和写拼图文件。但在某些情况下，我需要将DataFrame编写为文本文件，而不是Json或Parquet。

浏览 1提问于2016-03-15得票数 11

回答已采纳

0回答

读取拼花时出现spark错误

apache-spark、parquet

我们正在使用apache spark，我们将json文件保存为hdfs中的gzip压缩拼图文件。但是，在回读它们以生成数据帧时，某些文件(但不是所有文件)会导致以下异常：org.apache.parquet.io.ParquetDecodingExceptionCaused by: java.lang.ClassCastException: org.apache.

浏览 0提问于2018-07-12得票数 3

回答已采纳

1回答

在SparkSQL中使用Avro模式和Parquet格式进行读写

apache-spark、apache-spark-sql、avro、parquet

我正在尝试从SparkSQL中写入和读取镶木面板文件。出于模式演变的原因，我希望在写入和读取时使用Avro模式。我的理解是，这在Spark之外(或在Spark内手动)是可能的，例如使用AvroParquetWriter和Avro的通用API。但是，我想使用SparkSQL的write()和read()方法(它们与DataFrameWriter和DataFrameR

浏览 1提问于2017-01-04得票数 5

1回答

Teradata和Spark中的相似哈希算法

hash、pyspark、teradata

我正在对来自Teradata数据库的数据执行增量加载，并将其存储为一个拼花文件。因为Teradata中的表包含数十亿行，所以我希望我的PySpark脚本能够比较哈希值。Teradata：我的PySpark脚本使用JDBC连接来调用teradata： .format("jdbc"=somed

浏览 0提问于2019-01-16得票数 5

2回答

使用Spark从S3A读取拼图文件时出现重复列异常

apache-spark、amazon-s3、parquet

我有一个包含多个Int8和字符串列的模式，我已经将它们写入到Parquet格式中，并存储在一个S3A存储桶中供以后使用。当我尝试使用SqlContext.read.option("mergeSchema","false").parquet("s3a://....")读取这个拼图文件时，我得到了以下异常。我尝试使用parquet -tools(带有schema和meta选项)来读取parquet文件，但是我得到

浏览 1提问于2016-10-04得票数 1

1回答

星星之火:在HDFS中创建的Paquet文件中，日语字母被混淆

apache-spark、hadoop、character-encoding、parquet、spark-csv

当我在本地运行此作业时，读取S3 CSV文件并将其写入本地文件夹中，日文字母看起来很好。但是当我在我的星体集群上运行这个程序时，读取相同的S3 CSV文件并将拼图写到HDFS时，所有的日文字母都会被混淆。/spdb-mvn-release/com.mycompany.data/teradata-spark_2.11/0.1/teradata-spark_2.11-0.1-assembly.jar 在本地

浏览 2提问于2020-05-18得票数 0

2回答

java.io.FileNotFoundException:在ORC表上未找到并发读/写项目

apache-spark、hive、google-cloud-storage

当我尝试使用spark应用程序对一个表进行并发读/写时，我得到了以下错误：我使用的是Google Cloud

浏览 13提问于2019-11-17得票数 0

1回答

使用Spark连接到Teradata

apache-spark、teradata

我正试图连接到使用Spark从Teradata提取数据。我在主父目录上创建了一个"lib“目录，并放置了外部Teradata并运行了sbt包。此外，我还在我的星火壳命令中提供了“- jar”选项来提供jar。然而，当我运行星际争霸时，它似乎找不到这个类。Exception in thread "main" java.lang.ClassNotFoundException: com.teradata.hadoop.tool.TeradataImportTool

浏览 3提问于2017-06-17得票数 1

1回答

从Spark读取字符串数组

scala、apache-spark

我将Array[String]保存到了Spark的拼图文件中。要阅读它，我使用：但是get：下面是printSchema()的结果 root

浏览 0提问于2015-10-19得票数 12

回答已采纳

3回答

通过Spark读取保存在文件夹中的所有拼图文件

scala、apache-spark、apache-spark-sql

我有一个包含拼图文件的文件夹。= [value: int] 当我去读取df文件夹中的所有拼图文件时，在保存数据帧后，它给出了错误scala> val read = spark.read.parquet("/tmp/test/df") org.apache.sp

浏览 0提问于2017-03-27得票数 13

回答已采纳

1回答

Pyspark模式中StructType的VectorType

python、apache-spark、pyspark

我正在读取一个具有以下模式的拼图文件： |-- time: integer (nullable = true) |-- pcaVector: vector (nullable = true)sche

浏览 18提问于2018-07-26得票数 3

回答已采纳

1回答

将S3中的地块文件映射到其方案以求解配置单元ClassCastException

scala、amazon-web-services、apache-spark、amazon-s3、hive

考虑到这个表，我发现了一些不一致的地方。问题是，由于一个字段在某些拼图模式中提供LongType，而在另一个字段中提供字符串，因此运行查询会抛出ClassCastException。所以我现在要做的就是读取我所有的拼图文件并检查它们的模式，这样我就可以重新创建它们了。我希望将我的文件名映射到关联拼图的模式。与Scala和org.apache.spark.sql.functions的

浏览 17提问于2019-03-22得票数 0

回答已采纳

2回答

Spark:数据帧检查点与显式写入磁盘的效率

scala、apache-spark、apache-spark-sql

检查点版本：spark.sparkContext.setCheckpointDir(savePath)写入磁盘版本：val df = spark.read.parquet(savePath) 我认为两者都以同样的方式打破了血统。在我的实验中，磁盘上的checkpoint比parquet大了近30 (68

浏览 1提问于2018-08-10得票数 19

1回答

在配置单元中使用另一个表创建表时出现问题

hadoop、memory、hive

表数据有多个小文件，所以我想使用该测试表创建另一个表，这样新创建的表就会有更少的分区，查询速度也会更快。但是我创建了一个新的表，它给了我错误。: Status: Failed ERROR : FAILED: Execution Error, return code 3 from org.apache.hadoop.hive.ql.exec.spark.SparkTaskwhile processing statement: FAILED: Execution Error, return code 3 from org.ap

浏览 8提问于2018-01-08得票数 0

1回答

需要一种解决方案来使用Pyspark连接Teradata

pyspark、teradata

下面的代码将用于将hadoop连接到Teradata。sc = spark.sparkContextsqlContext = SQLContext(sc) df = sqlContext.read.format("jdbc").options(url="jdbc:teradata://teradata-dns-sysa.fg.rbc.com",driver="com.tera

浏览 1提问于2019-02-05得票数 0

1回答

在不更改列名的情况下创建PySpark数据框

apache-spark、pyspark、apache-spark-sql、databricks

FROM TBL1 在那之后，我正在使用下面的PySpark代码读取新创建的位置(TBL2)下面的文件。但是，下面的data frame仅使用lowercase中的所有列名创建。而预期的结果是在camel case中，就像我在上面对CTAS所做的那样。df = spark.read.format('ORC') \ .option('hea

浏览 12提问于2019-12-23得票数 1

回答已采纳

1回答

显示Spark+Parquet程序中读取的字节数

apache-spark、query-optimization、parquet

我正试图通过利用分区和下推来优化一些Spark查询和一个Parquet模式。我的理解是，这些技术允许跳过大部分的拼图文件。有没有办法显示Spark读取的字节数与Parquet文件的总大小之间的关系？另外，读操作的数量是多少？(我使用的是S3，因此我希望最小化由于S3应用程序接口调用的开销而导致的读取操作的数量

浏览 0提问于2019-03-14得票数 0

1回答

Spark load parquet无法从已分区列推断时间戳

apache-spark、pyspark、pyspark-sql、pyspark-dataframes

我可以保存由一个看起来像时间戳但实际上是一个字符串的列划分的拼图文件。当我尝试使用spark.read.load()将拼图加载回spark时，它会自动推断分区的列有一个日期，导致我丢失所有的时间信息。有没有一种方法可以将parquet文件作为字符串读回到分区列中，或者更好的是让它自动解析成指定格式的时间戳？下面是一个例子： test_df = spark.createDataFra

浏览 16提问于2020-02-12得票数 1

回答已采纳

1回答

删除spark-structured-streaming写入的损坏拼接文件时会丢失数据吗？

scala、apache-kafka、parquet、spark-structured-streaming

我使用spark-structured-streaming作为消费者从kafka获取数据，按照指南参考https://spark.apache.org/docs/latest/structured-streaming-kafka-integration.html然后将数据保存到hdfs作为拼图文件。这是我的问题:程序运行良好，但一些容器很少失败(但它确实发生了)，导致了一些损坏的拼接文件。它将导致错误，如不是拼图文件(长度太小: 4)或[

浏览 20提问于2019-05-25得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云