腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Spark
中
的
ClassCastException
读
Teradata
和
写
拼图
java
、
apache-spark
、
pyspark
、
schema
、
classcastexception
我正在运行一个
Spark
作业,它从
Teradata
DBMS读取一个带有SQL查询
的
DataFrame。当作业将S3上
的
文件
写
为parquet时, partition_keys = ["Cat$col1", "Cat$col2"] df.write.mode("overwrite").partitionBy(partition_keys) 抛出以下java.lang.
ClassCastException
异常: File &quo
浏览 27
提问于2021-07-15
得票数 0
2
回答
Spark
SQL -如何将DataFrame写入文本文件?
java
、
apache-spark-sql
我正在使用
Spark
SQL
读
拼图
和
写
拼图
文件。 但在某些情况下,我需要将DataFrame编写为文本文件,而不是Json或Parquet。
浏览 1
提问于2016-03-15
得票数 11
回答已采纳
0
回答
读取拼花时出现
spark
错误
apache-spark
、
parquet
我们正在使用apache
spark
,我们将json文件保存为hdfs
中
的
gzip压缩
拼图
文件。但是,在回
读
它们以生成数据帧时,某些文件(但不是所有文件)会导致以下异常:org.apache.parquet.io.ParquetDecodingExceptionCaused by: java.lang.
ClassCastException
: org.apache.
浏览 0
提问于2018-07-12
得票数 3
回答已采纳
1
回答
在SparkSQL中使用Avro模式
和
Parquet格式进行读写
apache-spark
、
apache-spark-sql
、
avro
、
parquet
我正在尝试从SparkSQL
中
写入
和
读取镶木面板文件。出于模式演变
的
原因,我希望在写入
和
读取时使用Avro模式。我
的
理解是,这在
Spark
之外(或在
Spark
内手动)是可能
的
,例如使用AvroParquetWriter
和
Avro
的
通用API。但是,我想使用SparkSQL
的
write()
和
read()方法(它们与DataFrameWriter
和
DataFrameR
浏览 1
提问于2017-01-04
得票数 5
1
回答
Teradata
和
Spark
中
的
相似哈希算法
hash
、
pyspark
、
teradata
我正在对来自
Teradata
数据库
的
数据执行增量加载,并将其存储为一个拼花文件。因为
Teradata
中
的
表包含数十亿行,所以我希望我
的
PySpark脚本能够比较哈希值。
Teradata
:我
的
PySpark脚本使用JDBC连接来调用
teradata
: .format("jdbc"=somed
浏览 0
提问于2019-01-16
得票数 5
2
回答
使用
Spark
从S3A读取
拼图
文件时出现重复列异常
apache-spark
、
amazon-s3
、
parquet
我有一个包含多个Int8
和
字符串列
的
模式,我已经将它们写入到Parquet格式
中
,并存储在一个S3A存储桶
中
供以后使用。当我尝试使用SqlContext.read.option("mergeSchema","false").parquet("s3a://....")读取这个
拼图
文件时,我得到了以下异常。我尝试使用parquet -tools(带有schema
和
meta选项)来读取parquet文件,但是我得到
浏览 1
提问于2016-10-04
得票数 1
1
回答
星星之火:在HDFS
中
创建
的
Paquet文件
中
,日语字母被混淆
apache-spark
、
hadoop
、
character-encoding
、
parquet
、
spark-csv
当我在本地运行此作业时,读取S3 CSV文件并将其写入本地文件夹
中
,日文字母看起来很好。但是当我在我
的
星体集群上运行这个程序时,读取相同
的
S3 CSV文件并将
拼图
写到HDFS时,所有的日文字母都会被混淆。/spdb-mvn-release/com.mycompany.data/
teradata
-
spark
_2.11/0.1/
teradata
-
spark
_2.11-0.1-assembly.jar 在本地
浏览 2
提问于2020-05-18
得票数 0
2
回答
java.io.FileNotFoundException:在ORC表上未找到并发
读
/
写
项目
apache-spark
、
hive
、
google-cloud-storage
当我尝试使用
spark
应用程序对一个表进行并发
读
/
写
时,我得到了以下错误:我使用
的
是Google Cloud
浏览 13
提问于2019-11-17
得票数 0
1
回答
使用
Spark
连接到
Teradata
apache-spark
、
teradata
我正试图连接到使用
Spark
从
Teradata
提取数据。我在主父目录上创建了一个"lib“目录,并放置了外部
Teradata
并运行了sbt包。此外,我还在我
的
星火壳命令中提供了“- jar”选项来提供jar。然而,当我运行星际争霸时,它似乎找不到这个类。Exception in thread "main" java.lang.ClassNotFoundException: com.
teradata
.hadoop.tool.TeradataImportTool
浏览 3
提问于2017-06-17
得票数 1
1
回答
从
Spark
读取字符串数组
scala
、
apache-spark
我将Array[String]保存到了
Spark
的
拼图
文件
中
。要阅读它,我使用:但是get:下面是printSchema()
的
结果 root
浏览 0
提问于2015-10-19
得票数 12
回答已采纳
3
回答
通过
Spark
读取保存在文件夹
中
的
所有
拼图
文件
scala
、
apache-spark
、
apache-spark-sql
我有一个包含
拼图
文件
的
文件夹。= [value: int] 当我去读取df文件夹
中
的
所有
拼图
文件时,在保存数据帧后,它给出了错误scala> val read =
spark
.read.parquet("/tmp/test/df") org.apache.
sp
浏览 0
提问于2017-03-27
得票数 13
回答已采纳
1
回答
Pyspark模式
中
StructType
的
VectorType
python
、
apache-spark
、
pyspark
我正在读取一个具有以下模式
的
拼图
文件: |-- time: integer (nullable = true) |-- pcaVector: vector (nullable = true)sche
浏览 18
提问于2018-07-26
得票数 3
回答已采纳
1
回答
将S3
中
的
地块文件映射到其方案以求解配置单元
ClassCastException
scala
、
amazon-web-services
、
apache-spark
、
amazon-s3
、
hive
考虑到这个表,我发现了一些不一致
的
地方。问题是,由于一个字段在某些
拼图
模式中提供LongType,而在另一个字段中提供字符串,因此运行查询会抛出
ClassCastException
。所以我现在要做
的
就是读取我所有的
拼图
文件并检查它们
的
模式,这样我就可以重新创建它们了。我希望将我
的
文件名映射到关联
拼图
的
模式。与Scala
和
org.apache.
spark
.sql.functions
的
浏览 17
提问于2019-03-22
得票数 0
回答已采纳
2
回答
Spark
:数据帧检查点与显式写入磁盘
的
效率
scala
、
apache-spark
、
apache-spark-sql
检查点版本:
spark
.sparkContext.setCheckpointDir(savePath)写入磁盘版本:val df =
spark
.read.parquet(savePath) 我认为两者都以同样
的
方式打破了血统。在我
的
实验
中
,磁盘上
的
checkpoint比parquet大了近30 (68
浏览 1
提问于2018-08-10
得票数 19
1
回答
在配置单元中使用另一个表创建表时出现问题
hadoop
、
memory
、
hive
表数据有多个小文件,所以我想使用该测试表创建另一个表,这样新创建
的
表就会有更少
的
分区,查询速度也会更快。但是我创建了一个新
的
表,它给了我错误。: Status: Failed ERROR : FAILED: Execution Error, return code 3 from org.apache.hadoop.hive.ql.exec.
spark
.SparkTaskwhile processing statement: FAILED: Execution Error, return code 3 from org.ap
浏览 8
提问于2018-01-08
得票数 0
1
回答
需要一种解决方案来使用Pyspark连接
Teradata
pyspark
、
teradata
下面的代码将用于将hadoop连接到
Teradata
。sc =
spark
.sparkContextsqlContext = SQLContext(sc) df = sqlContext.read.format("jdbc").options(url="jdbc:
teradata
://
teradata
-dns-sysa.fg.rbc.com",driver="com.
tera
浏览 1
提问于2019-02-05
得票数 0
1
回答
在不更改列名
的
情况下创建PySpark数据框
apache-spark
、
pyspark
、
apache-spark-sql
、
databricks
FROM TBL1 在那之后,我正在使用下面的PySpark代码读取新创建
的
位置(TBL2)下面的文件。但是,下面的data frame仅使用lowercase
中
的
所有列名创建。而预期
的
结果是在camel case
中
,就像我在上面对CTAS所做
的
那样。df =
spark
.read.format('ORC') \ .option('hea
浏览 12
提问于2019-12-23
得票数 1
回答已采纳
1
回答
显示
Spark
+Parquet程序
中
读取
的
字节数
apache-spark
、
query-optimization
、
parquet
我正试图通过利用分区
和
下推来优化一些
Spark
查询
和
一个Parquet模式。我
的
理解是,这些技术允许跳过大部分
的
拼图
文件。 有没有办法显示
Spark
读取
的
字节数与Parquet文件
的
总大小之间
的
关系?另外,
读
操作
的
数量是多少?(我使用
的
是S3,因此我希望最小化由于S3应用程序接口调用
的
开销而导致
的
读取操作
的
数量
浏览 0
提问于2019-03-14
得票数 0
1
回答
Spark
load parquet无法从已分区列推断时间戳
apache-spark
、
pyspark
、
pyspark-sql
、
pyspark-dataframes
我可以保存由一个看起来像时间戳但实际上是一个字符串
的
列划分
的
拼图
文件。当我尝试使用
spark
.read.load()将
拼图
加载回
spark
时,它会自动推断分区
的
列有一个日期,导致我丢失所有的时间信息。有没有一种方法可以将parquet文件作为字符串
读
回到分区列
中
,或者更好
的
是让它自动解析成指定格式
的
时间戳?下面是一个例子: test_df =
spark
.createDataFra
浏览 16
提问于2020-02-12
得票数 1
回答已采纳
1
回答
删除
spark
-structured-streaming写入
的
损坏拼接文件时会丢失数据吗?
scala
、
apache-kafka
、
parquet
、
spark-structured-streaming
我使用
spark
-structured-streaming作为消费者从kafka获取数据,按照指南参考https://
spark
.apache.org/docs/latest/structured-streaming-kafka-integration.html然后将数据保存到hdfs作为
拼图
文件。这是我
的
问题:程序运行良好,但一些容器很少失败(但它确实发生了),导致了一些损坏
的
拼接文件。它将导致错误,如不是
拼图
文件(长度太小: 4)或[
浏览 20
提问于2019-05-25
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
微软发布SQL Server 2019公开预览版
HBaseSQL及分析-Phoenix&Spark
Spark 2.4 原生支持了avro,别再引用第三方库了
基于 Hudi 和 Kylin 构建准实时高性能数据仓库
心血来潮系列之一——利用spark将数据集转化为Tensorflow的tfrecords格式
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券