腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
在
Spark
中
读取
SequenceFile
时
,
是否
可以
仅
评估
密钥
?
、
、
我正在尝试
读取
一个序列文件,其中包含
spark
作业的
sequencefile
输入的K和V的自定义可写子类。请注意,我最近尝试在这里泛泛地将其读为"Writable“,然后再转换回来,这在功能上是有效的,但仍然会导致迭代器
中
的完全反序列化。val rdd = sc.
sequenceFile
( classOf[MyKeyClassWritable], classOf[Writable]
浏览 15
提问于2019-04-26
得票数 0
回答已采纳
1
回答
如何在
Spark
中
拆分序列文件
、
我是
Spark
的新手,尝试
读取
序列文件并将其用于分类问题。下面是我
读取
序列文件的方法 val tfidf = sc.
sequenceFile
("/user/hadoop/strainingtesting/tfidf-vectors", classOf[Text
浏览 1
提问于2015-07-31
得票数 0
2
回答
无法从Sqoop创建的
Spark
中
的序列文件
中
创建数据
、
、
、
、
我希望
读取
orders数据并从中创建RDD,该数据作为sequence文件存储
在
cloudera vm
中
的hadoop
中
。retail_db --username retail_dba --password cloudera --table orders -m 1 --target-dir /ordersDataSet --as-
sequencefile
2)
读取
spark
中
的文件:val sequenc
浏览 1
提问于2018-11-10
得票数 1
回答已采纳
2
回答
来自sqoop导入的序列文件
、
、
我已经尝试过sc.
sequenceFile
(),但是我不确定要传递什么作为keyClass和value类。我试着
在
keyClass和valueClass上使用org.apache.hadoop.io.Text、org.apache.hadoop.io.LongWritable,但都不起作用。我正在使用pyspark来
读取
文件。
浏览 4
提问于2020-01-21
得票数 0
1
回答
星火Kryo反序列化EMR生成的文件
在
本地失败。
、
、
、
、
在
将EMR版本升级到6.2.0 (我们以前使用5.0 beta - ish)和
Spark
3.0.1
时
,我们注意到我们无法
在
本地
读取
从EMR集群
中
编写的Kryo文件(这在以前显然是可能的)。当试图
读取
这样的文件
时
,引发的异常大致如下: com.esotericsoftware.kryo.KryoException: java.lang.ClassCastException: scala.Tuple3cannot be cast to scala.Tup
浏览 12
提问于2021-05-10
得票数 1
回答已采纳
1
回答
Hadoop序列文件的压缩
、
、
、
、
1)默认压缩编解码器
在
多大程度上压缩文件? 2)当我
读取
该文件并将其内容转储到文本文件
时
,我发现hadoop序列文件为100 MB,我观察到的文本文件大小约为1GB(
可以
吗?)3)在
读取
序列文件
时
,"syncSeen()“和”seek(长位置)“的意义是什么?如果我
在
阅读
时
不使用这些电话,有什么问题吗?有关于如何使用这些方法的例子吗?
浏览 3
提问于2011-11-29
得票数 0
回答已采纳
1
回答
在
spark
中
读取
hadoop.hive.ql.io.HiveSequenceFileOutputFormat蜂窝表
、
、
、
我
在
hadoop中有一个hive表,它的输出格式为我正在使用
spark
读取
这个表。
spark
.sql('select * from testtable where y = 2021 and month = 12 and day =12') 火花作业运行得非常慢,我已经尝试过调整每个执行器的执行器数量和内存,但是似乎没有任何东西
可以
提高性能。我
在
博客上看到,当谈到蜂箱表<em
浏览 5
提问于2021-12-17
得票数 -1
1
回答
从
Spark
RDD
读取
Kryo文件
、
我需要
读取
和分析
Spark
中
的一个文件,该文件是
在
我的scala代码中使用Kryo序列化编写的:import com.esotericsoftware.kryo.io.Output这个文件看起来写得很好,但是当我
在
Spark
RDD
中
读取
它
时
,我遇到了问题val conf = new SparkC
浏览 0
提问于2014-05-13
得票数 2
1
回答
java.io.EOFException而不是空文件上的
SequenceFile
、
、
、
spark
.table("table_name")如果没有空文件,两者都
可以
工作;如果表
中
包含空文件,则两者都会在java.io.EOFException: /path/to/file/1612735495084_12eed62a-b1ee-4cf5-8b71-a87149acd
浏览 5
提问于2021-02-14
得票数 1
回答已采纳
1
回答
如何在
spark
sql
中
设置配置单元参数和多个语句
、
因此,当在该表上触发配置单元查询
时
,新行数据将被视为新记录,我
可以
在
配置单元
中
通过设置参数"set hive.query.result.fileformat=
SequenceFile
;“克服这一问题。现在,我正在迁移此参数和MR查询,以便在
spark
sql
中
运行。此外,我还想在实际查询之前运行一些其他查询,如drop table语句。我的代码如下所示
spark
.sql(set hive.query.result.fileformat=<e
浏览 10
提问于2018-08-08
得票数 0
1
回答
在
Spark
中
读取
级联序列文件
、
、
、
我们有一些HDFS文件编写为级联序列文件,我们希望使用Apache
Spark
处理这些文件。我尝试使用JavaPairRDD
读取
键值对,如下所示:在运行此作业
时
,我收到以下错误: java.io.IOException: Could not find a deserializer for the
浏览 2
提问于2015-08-07
得票数 0
1
回答
kafka-connect-hdfs : SequenceFileWriter
在
连接器重启
时
创建坏文件,导致SequenceFileReader中出现EOFException
、
、
、
、
在
Kafka connect hdfs
中
,我们有下面的SequenceFileWriter.java类,用于
在
SequenceFileFormat
中
写入kafka消息。管理的docker容器
中
运行confluent 5.0.0。我们已经观察到,当我们删除运行kafka连接器的k8s
中
的复制控制器并重新创建复制控制器
时
,一些序列文件被破坏。我们有一个
spark
作业,它使用SequenceFileReader
读取
这些数据,并接收下面的EO
浏览 8
提问于2018-09-17
得票数 0
2
回答
在
PySpark 2.0
中
读取
序列文件
、
、
在
Scala
中
,我
可以
通过val data = reader.map{case (x,y) => (y.toString)}我很难把它转换成PySpark。我试过用 reader= sc.
sequenceFile
("/path",&q
浏览 2
提问于2017-01-09
得票数 1
回答已采纳
3
回答
使用Hadoop处理大型二进制文件
、
、
、
这些文件的大小
可以
从几百K到数百mb不等。 我们目前正在使用自定义记录阅读器处理这些文件,该阅读器将文件的全部内容
读取
到每个映射中。从那里,我们提取适当的元数据,我们希望将其序列化为JSON。
浏览 0
提问于2012-06-21
得票数 2
1
回答
如何拆分文本Gzipped文件进行
Spark
处理
使用
spark
dataframe
读取
文件
时
,发现1个文件
仅
使用了1个vcore。
是否
可以
将文件拆分为多个文件,然后使用
Spark
Dataframe,这样多个vcore就
可以
提高gzipped文件的
读取
性能?
是否
可以
使用zcat和csplit创建多个文件,
是否
存在数据丢失或任何其他已知问题?
浏览 0
提问于2017-10-09
得票数 0
1
回答
坚持
Spark
2.0指的是什么?
、
假设我
在
pyspark工作。现在是将sc.Textfile(file.txt)持久化在内存
中
,还是将rdd.filter(lambda x: 'hi' in x)持久化?
浏览 0
提问于2018-02-20
得票数 0
4
回答
我
可以
写一个纯文本HDFS (或本地)文件从一个火花程序,而不是从一个RDD?
、
、
我有一个星火计划(
在
Scala)和一个SparkContext。我正在用RDD的saveAsTextFile编写一些文件。
在
我的本地机器上,我
可以
使用本地文件路径,它
可以
使用本地文件系统。
在
我的集群
中
,它
可以
使用HDFS。 作为处理的结果,我还想编写其他任意文件。我将它们作为常规文件写入本地机器上,但希望它们进入集群
中
的HDFS
中
。
浏览 2
提问于2015-10-05
得票数 10
回答已采纳
1
回答
用于处理保存在HDFS
中
的小型二进制文件的
Spark
架构
、
、
、
、
Spark
应用程序从kafka streaming
读取
消息,
在
master(驱动程序)上收集它们,然后处理它们。我首先收集消息,因为我需要将代码移动到数据,而不是将数据移动到接收消息的位置。我理解
spark
将作业分配给已经
在
本地有文件执行程序。我对kafka有问题,因为我被迫首先收集它们出于上述原因,当我想创建检查点应用程序崩溃
时
,“因为你试图从广播变量引用SparkContext”,即使代码
在
添加检查点之前运行(我在那里使用sparkContext我读到HBase是保
浏览 0
提问于2017-01-05
得票数 1
1
回答
Spark
是否
必须在执行操作之前完成所有输入文件的
读取
?
但是map阶段
可以
更早开始吗?换句话说,
Spark
是否
会逐段创建每个分区,然后立即开始对该分区的数据运行map操作……或者它会等到所有10个文件
中
的所有数据全部加载完毕,然后才在所有分区上同时启动map操作?
浏览 0
提问于2016-04-30
得票数 0
2
回答
HBase键值压缩?
、
、
、
在
开始之前,我想告诉您,我对Hadoop & HBase非常陌生。到目前为止,我发现Hadoop非常有趣,并希望
在
未来做出更多的贡献。 我主要感兴趣的是改进HBase的性能。为此,我修改了HBase的/io/hfile/Hfile.java
中
的/io/hfile/Hfile.java方法,使其能够完成高速缓冲数据汇编,然后直接写入Hadoop,以便以后
可以
由HBase加载。现在,我想出一种压缩键值对的方法,这样就
可以
节省带宽。我做了很多研
浏览 7
提问于2011-06-20
得票数 0
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
云直播
活动推荐
运营活动
广告
关闭
领券