在Spark中读取SequenceFile时，是否可以仅评估密钥？

文章/答案/技术大牛

发布

1回答

、、

我正在尝试读取一个序列文件，其中包含spark作业的sequencefile输入的K和V的自定义可写子类。请注意，我最近尝试在这里泛泛地将其读为"Writable“，然后再转换回来，这在功能上是有效的，但仍然会导致迭代器中的完全反序列化。val rdd = sc.sequenceFile( classOf[MyKeyClassWritable], classOf[Writable]

浏览 15提问于2019-04-26得票数 0

回答已采纳

1回答

如何在Spark中拆分序列文件

、

我是Spark的新手，尝试读取序列文件并将其用于分类问题。下面是我读取序列文件的方法 val tfidf = sc.sequenceFile("/user/hadoop/strainingtesting/tfidf-vectors", classOf[Text

浏览 1提问于2015-07-31得票数 0

2回答

我希望读取orders数据并从中创建RDD，该数据作为sequence文件存储在cloudera vm中的hadoop中。retail_db --username retail_dba --password cloudera --table orders -m 1 --target-dir /ordersDataSet --as-sequencefile2)读取spark中的文件：val sequenc

浏览 1提问于2018-11-10得票数 1

回答已采纳

2回答

来自sqoop导入的序列文件

、、

我已经尝试过sc.sequenceFile()，但是我不确定要传递什么作为keyClass和value类。我试着在keyClass和valueClass上使用org.apache.hadoop.io.Text、org.apache.hadoop.io.LongWritable，但都不起作用。我正在使用pyspark来读取文件。

浏览 4提问于2020-01-21得票数 0

1回答

星火Kryo反序列化EMR生成的文件在本地失败。

、、、、

在将EMR版本升级到6.2.0 (我们以前使用5.0 beta - ish)和Spark 3.0.1时，我们注意到我们无法在本地读取从EMR集群中编写的Kryo文件(这在以前显然是可能的)。当试图读取这样的文件时，引发的异常大致如下： com.esotericsoftware.kryo.KryoException: java.lang.ClassCastException: scala.Tuple3cannot be cast to scala.Tup

浏览 12提问于2021-05-10得票数 1

回答已采纳

1回答

Hadoop序列文件的压缩

、、、、

1)默认压缩编解码器在多大程度上压缩文件？ 2)当我读取该文件并将其内容转储到文本文件时，我发现hadoop序列文件为100 MB，我观察到的文本文件大小约为1GB(可以吗？)3)在读取序列文件时，"syncSeen()“和”seek(长位置)“的意义是什么？如果我在阅读时不使用这些电话，有什么问题吗？有关于如何使用这些方法的例子吗？

浏览 3提问于2011-11-29得票数 0

回答已采纳

1回答

在spark中读取hadoop.hive.ql.io.HiveSequenceFileOutputFormat蜂窝表

、、、

我在hadoop中有一个hive表，它的输出格式为我正在使用spark读取这个表。spark.sql('select * from testtable where y = 2021 and month = 12 and day =12') 火花作业运行得非常慢，我已经尝试过调整每个执行器的执行器数量和内存，但是似乎没有任何东西可以提高性能。我在博客上看到，当谈到蜂箱表<em

浏览 5提问于2021-12-17得票数 -1

1回答

从Spark RDD读取Kryo文件

、

我需要读取和分析Spark中的一个文件，该文件是在我的scala代码中使用Kryo序列化编写的：import com.esotericsoftware.kryo.io.Output这个文件看起来写得很好，但是当我在Spark RDD中读取它时，我遇到了问题val conf = new SparkC

浏览 0提问于2014-05-13得票数 2

1回答

java.io.EOFException而不是空文件上的SequenceFile

、、、

spark.table("table_name")如果没有空文件，两者都可以工作；如果表中包含空文件，则两者都会在java.io.EOFException: /path/to/file/1612735495084_12eed62a-b1ee-4cf5-8b71-a87149acd

浏览 5提问于2021-02-14得票数 1

回答已采纳

1回答

如何在spark sql中设置配置单元参数和多个语句

、

因此，当在该表上触发配置单元查询时，新行数据将被视为新记录，我可以在配置单元中通过设置参数"set hive.query.result.fileformat=SequenceFile;“克服这一问题。现在，我正在迁移此参数和MR查询，以便在spark sql中运行。此外，我还想在实际查询之前运行一些其他查询，如drop table语句。我的代码如下所示 spark.sql(set hive.query.result.fileformat=<e

浏览 10提问于2018-08-08得票数 0

1回答

在Spark中读取级联序列文件

、、、

我们有一些HDFS文件编写为级联序列文件，我们希望使用Apache Spark处理这些文件。我尝试使用JavaPairRDD读取键值对，如下所示：在运行此作业时，我收到以下错误： java.io.IOException: Could not find a deserializer for the

浏览 2提问于2015-08-07得票数 0

1回答

kafka-connect-hdfs : SequenceFileWriter在连接器重启时创建坏文件，导致SequenceFileReader中出现EOFException

、、、、

在Kafka connect hdfs中，我们有下面的SequenceFileWriter.java类，用于在SequenceFileFormat中写入kafka消息。管理的docker容器中运行confluent 5.0.0。我们已经观察到，当我们删除运行kafka连接器的k8s中的复制控制器并重新创建复制控制器时，一些序列文件被破坏。我们有一个spark作业，它使用SequenceFileReader读取这些数据，并接收下面的EO

浏览 8提问于2018-09-17得票数 0

2回答

在PySpark 2.0中读取序列文件

、、

在Scala中，我可以通过val data = reader.map{case (x,y) => (y.toString)}我很难把它转换成PySpark。我试过用 reader= sc.sequenceFile("/path",&q

浏览 2提问于2017-01-09得票数 1

回答已采纳

3回答

使用Hadoop处理大型二进制文件

、、、

这些文件的大小可以从几百K到数百mb不等。我们目前正在使用自定义记录阅读器处理这些文件，该阅读器将文件的全部内容读取到每个映射中。从那里，我们提取适当的元数据，我们希望将其序列化为JSON。

浏览 0提问于2012-06-21得票数 2

1回答

如何拆分文本Gzipped文件进行Spark处理

使用spark dataframe读取文件时，发现1个文件仅使用了1个vcore。是否可以将文件拆分为多个文件，然后使用Spark Dataframe，这样多个vcore就可以提高gzipped文件的读取性能？是否可以使用zcat和csplit创建多个文件，是否存在数据丢失或任何其他已知问题？

浏览 0提问于2017-10-09得票数 0

1回答

坚持Spark 2.0指的是什么？

、

假设我在pyspark工作。现在是将sc.Textfile(file.txt)持久化在内存中，还是将rdd.filter(lambda x: 'hi' in x)持久化？

浏览 0提问于2018-02-20得票数 0

4回答

我可以写一个纯文本HDFS (或本地)文件从一个火花程序，而不是从一个RDD？

、、

我有一个星火计划(在Scala)和一个SparkContext。我正在用RDD的saveAsTextFile编写一些文件。在我的本地机器上，我可以使用本地文件路径，它可以使用本地文件系统。在我的集群中，它可以使用HDFS。作为处理的结果，我还想编写其他任意文件。我将它们作为常规文件写入本地机器上，但希望它们进入集群中的HDFS中。

浏览 2提问于2015-10-05得票数 10

回答已采纳

1回答

用于处理保存在HDFS中的小型二进制文件的Spark架构

、、、、

Spark应用程序从kafka streaming读取消息，在master(驱动程序)上收集它们，然后处理它们。我首先收集消息，因为我需要将代码移动到数据，而不是将数据移动到接收消息的位置。我理解spark将作业分配给已经在本地有文件执行程序。我对kafka有问题，因为我被迫首先收集它们出于上述原因，当我想创建检查点应用程序崩溃时，“因为你试图从广播变量引用SparkContext”，即使代码在添加检查点之前运行(我在那里使用sparkContext我读到HBase是保

浏览 0提问于2017-01-05得票数 1

1回答

Spark是否必须在执行操作之前完成所有输入文件的读取？

但是map阶段可以更早开始吗？换句话说，Spark是否会逐段创建每个分区，然后立即开始对该分区的数据运行map操作……或者它会等到所有10个文件中的所有数据全部加载完毕，然后才在所有分区上同时启动map操作？

浏览 0提问于2016-04-30得票数 0

2回答

HBase键值压缩？

、、、

在开始之前，我想告诉您，我对Hadoop & HBase非常陌生。到目前为止，我发现Hadoop非常有趣，并希望在未来做出更多的贡献。我主要感兴趣的是改进HBase的性能。为此，我修改了HBase的/io/hfile/Hfile.java中的/io/hfile/Hfile.java方法，使其能够完成高速缓冲数据汇编，然后直接写入Hadoop，以便以后可以由HBase加载。现在，我想出一种压缩键值对的方法，这样就可以节省带宽。我做了很多研

浏览 7提问于2011-06-20得票数 0

点击加载更多