腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
如何
使用
scala
在
拼图
文件
中
写入
常
量值
?
、
、
、
我正在
使用
spark .I,希望将重复13849次的值2.484保存在
拼图
文件
中
,而不是控制台。
如何
将其保存到拼花
文件
中
?
浏览 16
提问于2019-10-17
得票数 0
2
回答
使用
Spark从S3A读取
拼图
文件
时出现重复列异常
、
、
我有一个包含多个Int8和字符串列的模式,我已经将它们
写入
到Parquet格式
中
,并存储
在
一个S3A存储桶
中
供以后
使用
。当我尝试
使用
SqlContext.read.option("mergeSchema","false").parquet("s3a://....")读取这个
拼图
文件
时,我得到了以下异常。我尝试
使用
parquet -tools(带有schem
浏览 1
提问于2016-10-04
得票数 1
1
回答
s3 parquet
写入
-分区太多,
写入
缓慢
、
、
、
、
我有我的
scala
spark作业要作为
拼图
文件
写入
到s3
中
。到目前为止,它有60亿条记录,而且还会每天都在增长。根据用例,我们的api会根据id查询
拼图
。因此,为了使查询结果更快,我
在
id上编写了带有分区的
拼图
。然而,我们有1330360个唯一的is,所以这是
在
写的同时创建了1330360个
拼图
文件
,所以写的步骤非常慢,写了9个小时,它仍然在运行。
浏览 2
提问于2018-05-06
得票数 1
1
回答
Databricks Delta缓存包含过时的页脚和过时的页面条目错误
、
我经常遇到与查询从位于ADLS Gen2挂载上的
拼图
文件
中选择的TEMPORARY VIEW相关的笔记本故障。)
在
执行notebook命令之前,
使用
snappy压缩对源(来自MSSQL表)和宿( Copy Data
文件
)执行数据工厂notebook活动。没有其他活动或管道
浏览 0
提问于2021-03-18
得票数 0
1
回答
删除spark-structured-streaming
写入
的损坏拼接
文件
时会丢失数据吗?
、
、
、
我
使用
spark-structured-streaming作为消费者从kafka获取数据,按照指南参考https://spark.apache.org/docs/latest/structured-streaming-kafka-integration.html然后将数据保存到hdfs作为
拼图
文件
。这是我的问题:程序运行良好,但一些容器很少失败(但它确实发生了),导致了一些损坏的拼接
文件
。它将导致错误,如不是
拼图
文件
(长度太小: 4)或[
浏览 20
提问于2019-05-25
得票数 0
1
回答
拼接
文件
输出Sink - Spark结构化流
、
想知道什么(以及
如何
修改)会触发Spark Sturctured流查询(配置了
拼图
文件
输出接收器)以将数据
写入
拼图
文件
。我定期提供流输入数据(
使用
StreamReader读入
文件
),但它不会为作为输入提供的每个
文件
将输出
写入
Parquet
文件
。一旦我给它提供了几个
文件
,它往往会很好地编写一个Parquet
文件
。我想知道
如何
控制这一点。我希望能够强
浏览 7
提问于2019-03-28
得票数 1
1
回答
写入
S3 on LocalStack with Spark3: RemoteFileChangedException - S3在打开位置时报告的更改。ETag不可用
、
、
、
、
我试图
在
测试容器
中
的Local堆栈中将
拼图
写入
S3,并得到以下错误:它
使用
的是真正的S3,它
使用
的是Spark2.4和Hadoop2.7。我
使用
的是:
Scala
2.12.15,Spark 3.2.1,hadoop-aws 3.3.1,testcon
浏览 9
提问于2022-06-14
得票数 0
1
回答
Spark Structured Streaming应用程序将空
拼图
文件
生成到Azure blob
、
我从Apache Kafka读取json消息,然后
使用
Apache Spark将
拼图
文件
写入
Azure blob存储
中
。我
使用
方法partitionBy将这些
拼图
文件
写入
嵌套
文件
夹
中
。test") .start() 我注意到spark应用程
浏览 1
提问于2020-10-26
得票数 2
2
回答
结构化流传输将Parquet
文件
写入
Hadoop
、
我能够将结构化流式传输的结果
写入
到
拼图
文件
中
。问题是这些
文件
在
本地
文件
系统
中
,现在我想将它们
写入
Hadoop
文件
系统。有没有办法做到这一点?hdfs://localhost:19000/data/checkpoints") .start("hdfs://localhost:19000/data/
浏览 9
提问于2017-03-01
得票数 1
回答已采纳
1
回答
将S3
中
的地块
文件
映射到其方案以求解配置单元ClassCastException
、
、
、
、
我
在
拼图
文件
上有一个按时间戳划分的hive表,并进行了快速转换。问题是,由于一个字段
在
某些
拼图
模式中提供LongType,而在另一个字段中提供字符串,因此运行查询会抛出ClassCastException。所以我现在要做的就是读取我所有的
拼图
文件
并检查它们的模式,这样我就可以重新创建它们了。我希望将我的
文件
名映射到关联
拼图
的模式。和org.apache.spark.sql.functions的input_file_name函数一起<e
浏览 17
提问于2019-03-22
得票数 0
回答已采纳
1
回答
用户代理解析器(ua- parser )减慢EMR上的Spark
、
、
、
、
我
在
我的UDF中
使用
来解析用户代理信息。我注意到,与没有解析器的作业相比,这些作业非常慢。下面是一个示例:val parser: Parser = Parser.default奇怪的是,当我提交作业作为EMR步骤时,它很慢,但当我
在
Zeppelin或Spark s
浏览 0
提问于2019-12-03
得票数 0
2
回答
如何
在关闭ParquetWriter对象并将其
写入
磁盘之前获取该对象的内存大小?
、
、
、
我正在从一个流
中
读取Avro消息,并
使用
parquet.hadoop.ParquetWriter将它们写出到Parquet
文件
中
。我正在尝试使输出
文件
的大小超过阈值限制。问题是,ParquetWriter将所有内容都保存在内存
中
,只有
在
writer关闭时才会将其写出到磁盘。根据Parquet文档,数据以最终格式
写入
内存对象,这意味着内存
中
对象的大小与磁盘上的最终大小相同。我的问题是,
如何
获得内存
中
<
浏览 1
提问于2015-03-06
得票数 3
3
回答
通过Spark读取保存在
文件
夹
中
的所有
拼图
文件
、
、
我有一个包含
拼图
文件
的
文件
夹。: int] 当我去读取df
文件
夹
中
的所有
拼图
文件
时,
在
保存数据帧后,它给出了错误。(DataFr
浏览 0
提问于2017-03-27
得票数 13
回答已采纳
2
回答
Spark:来自异构数据的编写包
、
、
、
、
例如,RDD[(Type, JSON)]和Set[Type],包含原始RDD
中
的所有类型。 现在,我想将这些JSON
写入
到一个类型化的Parquet
文件
中
,并按类型进行分区。
浏览 14
提问于2021-09-28
得票数 2
1
回答
如何
在jxls 2.x
中
在
jdbc.query
中
设置参数${}
我以前
常
使用
jxls v.1.x。现在我学习第2.x节。我希望将参数从上下文设置为sql查询。我
在
xls-模板
中
: jx:each(items="jdbc.query('select * from table1 field1 < ?'如果我
在
${val1}
中
设置常
量值
,那么它就工作了。
如何
将参数值从“context”设置为jdbc.query()
浏览 1
提问于2016-02-26
得票数 0
回答已采纳
1
回答
使用
Java从
拼图
文件
中
读取嵌套JSON
、
、
、
我
在
Java中
使用
Spark 1.5.2,并且我试图读入一个包含来自JSON
文件
的数据的parquet
文件
。我已经浏览了Spark页面以读取
拼图
文件
,但似乎没有一个示例与我正在寻找的相匹配。我做了一些搜索,找到了与
scala
相似但特定于
scala
的东西。ArrayType(StructType(StructField(ids,ArrayType(StringType,true),true)),true),true)) 我猜我需要为该字段创建一个模式,但
浏览 1
提问于2016-01-30
得票数 3
1
回答
org.json4s.JsonDSL$.seq2jvalue(Lscala/collection/Traversable;Lscala/Function1;)Lorg/json4s/JsonAST$JArray;:java.lang.NoSuchMethodError
、
、
、
我试图写数据从火花DataFrame到
拼图
文件
使用
spark-submit,我得到java.lang.NoSuchMethodError错误与JsonDSL。从Spark-Shell运行时,相同的
写入
块工作正常。
在
使用
sqlContext
写入
拼图
文件
时,我需要添加任何额外的依赖项吗?当我从Cassandra表
中
读取数据时,我
使用
的是Spark sqlContext。$tilde(JsonDSL.<e
浏览 101
提问于2020-12-11
得票数 0
2
回答
使用
s3-dist-cp合并拼接
文件
、
、
我想知道是否可以
使用
s3-dist-cp工具来合并
拼图
文件
(快速压缩)。我尝试了"--groupBy“和"--targetSize”选项,它确实将小
文件
合并为更大的
文件
。但我无法
在
Spark或AWS Athena
中
阅读它们。
在
aws athena
中
,我得到了以下错误: HIVE_CURSOR_ERROR: Expected 246379 values in column chunk at s3:/
浏览 5
提问于2017-12-16
得票数 4
1
回答
如何
使用
spark streaming读取.csv
文件
并
使用
Scala
写入
拼图
文件
?
、
、
、
、
我正在尝试
使用
spark 2.1.0 SparkStreaming程序读取
文件
。csv
文件
存储
在
我的本地机器上的一个目录
中
,并尝试
在
我的本地机器上
使用
writestream parquet和一个新
文件
。但每当我尝试它总是错误的.parquet或得到空白
文件
夹。
浏览 23
提问于2017-03-06
得票数 3
1
回答
pyspark -
如何
保留模式
、
、
、
、
我有两个数据源,它们都有相同的列,即id, product_name作为csv和json
文件
出现。我希望将这两个数据帧结合在一起,并将它们写在拼接
文件
中
。
在
写出模式之前,先强制执行模式的好方法是什么?
浏览 3
提问于2021-03-05
得票数 0
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券