如何在Java中使用newAPIHadoopRDD (spark)读取Hbase数据

在Java中使用newAPIHadoopRDD (spark)读取Hbase数据，可以按照以下步骤进行操作：

首先，确保你已经正确安装了Hadoop和Spark，并且已经配置好了相关环境变量。
导入必要的依赖库，包括HBase和Spark相关的依赖库。例如，在Maven项目中，可以在pom.xml文件中添加以下依赖：

<dependencies>
    <!-- HBase dependencies -->
    <dependency>
        <groupId>org.apache.hbase</groupId>
        <artifactId>hbase-client</artifactId>
        <version>版本号</version>
    </dependency>
    <dependency>
        <groupId>org.apache.hbase</groupId>
        <artifactId>hbase-common</artifactId>
        <version>版本号</version>
    </dependency>
    <dependency>
        <groupId>org.apache.hbase</groupId>
        <artifactId>hbase-server</artifactId>
        <version>版本号</version>
    </dependency>
    
    <!-- Spark dependencies -->
    <dependency>
        <groupId>org.apache.spark</groupId>
        <artifactId>spark-core_2.11</artifactId>
        <version>版本号</version>
    </dependency>
    <dependency>
        <groupId>org.apache.spark</groupId>
        <artifactId>spark-sql_2.11</artifactId>
        <version>版本号</version>
    </dependency>
</dependencies>

请注意，你需要将上述代码中的"版本号"替换为适合你项目的实际版本号。

在Java代码中，创建SparkConf和JavaSparkContext对象，用于配置和初始化Spark。

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaSparkContext;

public class HBaseSparkExample {
    public static void main(String[] args) {
        SparkConf conf = new SparkConf().setAppName("HBaseSparkExample").setMaster("local");
        JavaSparkContext sc = new JavaSparkContext(conf);
        
        // 在这里编写读取HBase数据的代码
    }
}

请注意，上述代码中的"local"可以替换为你实际的Spark集群地址。

使用newAPIHadoopRDD方法读取HBase数据。首先，创建HBaseConfiguration对象，并设置HBase相关的配置。

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.client.Result;
import org.apache.hadoop.hbase.io.ImmutableBytesWritable;
import org.apache.hadoop.hbase.mapreduce.TableInputFormat;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.PairFunction;
import scala.Tuple2;

public class HBaseSparkExample {
    public static void main(String[] args) {
        SparkConf conf = new SparkConf().setAppName("HBaseSparkExample").setMaster("local");
        JavaSparkContext sc = new JavaSparkContext(conf);
        
        Configuration hbaseConf = HBaseConfiguration.create();
        hbaseConf.set("hbase.zookeeper.quorum", "ZooKeeper地址");
        hbaseConf.set("hbase.zookeeper.property.clientPort", "ZooKeeper端口号");
        hbaseConf.set(TableInputFormat.INPUT_TABLE, "HBase表名");
        
        JavaPairRDD<ImmutableBytesWritable, Result> hbaseRDD = sc.newAPIHadoopRDD(
                hbaseConf,
                TableInputFormat.class,
                ImmutableBytesWritable.class,
                Result.class
        );
        
        // 在这里对hbaseRDD进行操作，如转换为DataFrame或执行其他计算操作
        
        sc.stop();
    }
}

请注意，上述代码中的"ZooKeeper地址"、"ZooKeeper端口号"和"HBase表名"需要替换为你实际的配置。

对hbaseRDD进行进一步的操作。你可以将hbaseRDD转换为DataFrame，以便进行更方便的数据处理和分析。

import org.apache.spark.api.java.function.Function;
import org.apache.spark.sql.DataFrame;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.SQLContext;

public class HBaseSparkExample {
    public static void main(String[] args) {
        SparkConf conf = new SparkConf().setAppName("HBaseSparkExample").setMaster("local");
        JavaSparkContext sc = new JavaSparkContext(conf);
        
        Configuration hbaseConf = HBaseConfiguration.create();
        hbaseConf.set("hbase.zookeeper.quorum", "ZooKeeper地址");
        hbaseConf.set("hbase.zookeeper.property.clientPort", "ZooKeeper端口号");
        hbaseConf.set(TableInputFormat.INPUT_TABLE, "HBase表名");
        
        JavaPairRDD<ImmutableBytesWritable, Result> hbaseRDD = sc.newAPIHadoopRDD(
                hbaseConf,
                TableInputFormat.class,
                ImmutableBytesWritable.class,
                Result.class
        );
        
        // 将hbaseRDD转换为DataFrame
        SQLContext sqlContext = new SQLContext(sc);
        DataFrame hbaseDF = hbaseRDD.map(new Function<Tuple2<ImmutableBytesWritable, Result>, Row>() {
            @Override
            public Row call(Tuple2<ImmutableBytesWritable, Result> tuple) throws Exception {
                // 在这里根据需要解析Result对象，并返回Row对象
                return null;
            }
        }).toDF();
        
        // 在这里对hbaseDF进行操作，如执行SQL查询、数据过滤等
        
        sc.stop();
    }
}

在上述代码中，你需要根据实际情况解析HBase的Result对象，并将其转换为DataFrame的Row对象。

这是一个基本的示例，展示了如何在Java中使用newAPIHadoopRDD方法读取HBase数据。根据实际需求，你可以进一步扩展和优化代码。对于更复杂的数据处理和分析，你可以使用Spark的其他功能和库。

PySpark HBase/Phoenix集成

、、

我应该把菲尼克斯的数据读到pyspark里。编辑:我使用的是火花HBase转换器：下面是一个代码片段： port="2181" host="zookeperserver" keyConv = "org.apache.spark.examples.pythonconverters.ImmutableBytesWritableToStringConverter" valueConv = "org.apache.spark.examples.pythonconverters.HBaseResultToStringConverter"

浏览 5提问于2015-09-15得票数 0

1回答

从列表行键创建Spark DataFrame

、、、、

我在表单或Array[Row]中有一个HBase行键的列表，并希望从使用这些RowKeys从HBase获取的行中创建一个Spark DataFrame。我在想像这样的东西： def getDataFrameFromList(spark: SparkSession, rList : Array[Row]): DataFrame = { val conf = HBaseConfiguration.create() val mlRows : List[RDD[String]] = new ArrayList[RDD[String]] conf.set("hbase.zoo

浏览 15提问于2019-10-02得票数 1

回答已采纳

2回答

如何在Java中使用newAPIHadoopRDD (spark)读取Hbase数据

、、、

我试着用spark API读取Hbase数据。代码： // Define SparkContext SparkConf sparkConf = new SparkConf().setAppName("Spark-Hbase").setMaster("master"); sparkConf.set("XXX", "XXX"); JavaSparkContext jsc = new JavaSparkContext(sparkConf); // Conf with Hbase Con

浏览 10提问于2017-02-03得票数 3

回答已采纳

2回答

org.apache.hadoop.hbase.io.ImmutableBytesWritable异常在HBase中

、

我们尝试测试以下访问HBase表的示例代码(Spark-1.3.1、HBase-1.1.1、Hadoop-2.7.0)： import sys from pyspark import SparkContext if __name__ == "__main__": if len(sys.argv) != 3: print >> sys.stderr, """ Usage: hbase_inputformat <host> <table> Run with ex

浏览 0提问于2015-10-14得票数 4

2回答

HBase·PySpark表加载错误

、、

我试着从PySpark的HBase中读取一个表格。这是我的代码。 from pyspark.sql.types import * host = 'localhost' keyConv = "org.apache.spark.examples.pythonconverters.ImmutableBytesWritableToStringConverter" valueConv = "org.apache.spark.examples.pythonconverters.HBaseResultToStringConverter" tes

浏览 1提问于2016-07-27得票数 1

1回答

尝试从木星笔记本访问时出现区域错误

、、、、

我正在尝试从运行PySpark内核的木星笔记本中运行对的并行访问。我以为例，使用特定的项目/区域/集群/表名。身份验证通过火花上下文中广播的服务帐户凭据进行。 jconf = {"hbase.client.connection.impl": "com.google.cloud.bigtable.hbase1_1.BigtableConnection", "google.bigtable.project.id": myProject, "google.bigtable.zone.name": myZo

浏览 7提问于2017-09-28得票数 1

回答已采纳

1回答

hbase与pyspark的集成

、、

我正在尝试从HDP 2.3中的pyspark访问hbase，现在我只是尝试使用以下命令执行spark目录中给出的示例程序： spark-submit --driver-class-path /usr/hdp/current/spark-client/lib/spark-examples-1.3.1.2.3.0.0-2557-hadoop2.7.1.2.3.0.0-2557.jar --jars /root/{user}/hbase-0.94.0.jar /usr/hdp/current/spark-client/examples/src/main/python/hbase_inputforma

浏览 1提问于2015-09-21得票数 1

2回答

用Spark和JAVA从HBase中读取数据

、、、

我想使用JAVA通过Spark访问HBase。除此之外，我还没有找到任何这样的例子。这个一个。答案是这样写的：您也可以用Java编写以下代码我从如何使用spark读取hbase ： import org.apache.hadoop.hbase.client.{HBaseAdmin, Result} import org.apache.hadoop.hbase.{ HBaseConfiguration, HTableDescriptor } import org.apache.hadoop.hbase.mapreduce.TableInputFormat import org.ap

浏览 69提问于2017-02-21得票数 1

1回答

从HBase中提取数据时在RDD中获取空数据

、、、、

我需要使用SparkSQL从HBase中提取数据，并像SparkSQL一样在数据顶部进行查询。我所做的事情如下：创建Spark对象创建HBase对象编写JAVPairRDD来获取记录。我的主要类代码如下： import java.io.Serializable; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.client.Result; import org.apache.hadoop.hbase.io.ImmutableBytesWritable; imp

浏览 2提问于2017-01-18得票数 0

1回答

com.fasterxml.jackson.module.scala.deser.BigDecimalDeserializer :NoSuchMethodError

、、、、

sc.newAPIHadoopRDD不断地给我错误。 val hBaseRDD = sc.newAPIHadoopRDD(hbase_conf, classOf[TableInputFormat], classOf[org.apache.hadoop.hbase.io.ImmutableBytesWritable], classOf[org.apache.hadoop.hbase.client.Result]); java.lang.NoSuchMethodError: ava.lang.NoSuchMethodError: com.fasterxml.jackson.module.sca

浏览 1提问于2018-03-16得票数 1

回答已采纳

1回答

在EMR集群上提交Spark作业时，如何避免java.lang.NoClassDefFoundError？

、、、、

我的星火应用程序成功地运行在我的本地机器上。我使用Hbase Docker容器，从它将数据加载到我的Spark应用程序中。现在我已经创建了EMR集群，安装了Spark和Hbase。当我试图提交JAR文件时，请购买以下异常： java.lang.NoClassDefFoundError: org/apache/hadoop/hbase/HBaseConfiguration 在本地运行我的应用程序时，我可以通过向--jars添加spark-submit标志来避免这类错误，从而为所有Hbase Jars提供了Spark的路径。在电子病历上运行时如何克服此错误？，，我是不是也应该把火花引向Hb

浏览 3提问于2021-02-15得票数 0

1回答

使用Spark读取where子句的HBase表

、、、、

我正在尝试使用读取HBase表。示例代码： conf.set("hbase.master", "localhost:60000") conf.set("hbase.zookeeper.quorum", "localhost") conf.set(TableInputFormat.INPUT_TABLE, tableName) val hBaseRDD = sc.newAPIHadoopRDD(conf, classOf[TableInputFormat], classOf[ImmutableBytesWritable], cla

浏览 0提问于2016-10-17得票数 1

回答已采纳

1回答

如何使用Python连接HBase和Spark？

、、、、

我有一个令人尴尬的并行任务，我使用星火分配计算。这些计算是用Python进行的，我使用PySpark来读取和预处理数据。我的任务的输入数据存储在HBase中。不幸的是，我还没有找到一种令人满意的(即易于使用和可伸缩的)方法来使用Python从/写入HBase数据。我以前探索过的东西：使用happybase从我的Python进程中进行连接。这个包允许通过使用HBase的HBase API从Python连接到Python。这样，我基本上跳过了Spark的数据读取/写入，并错过了潜在的HBase优化。阅读速度似乎相当快，但写速度却很慢。这是目前我最好的解决方案。使用SparkConte

浏览 4提问于2016-07-19得票数 15

回答已采纳

3回答

火花和HBase快照

、、、

假设如果直接从HDFS中提取数据而不是使用HBase API，我们可以更快地访问数据，那么我们正在尝试构建一个基于来自HBase的表快照的RDD。因此，我有一个名为"dm_test_snap“的快照。我似乎能够让大多数配置工作正常，但我的RDD是空的(尽管快照本身有数据)。我很难找到这样一个例子，有人在用Spark对HBase快照进行离线分析，但我不敢相信只有我一个人想要做到这一点。如有任何帮助或建议，将不胜感激。下面是我的代码片段： object TestSnap { def main(args: Array[String]) { val config = Con

浏览 9提问于2015-06-10得票数 9

回答已采纳

1回答

Spark:对从HBase数据创建的RDD进行分区

、、、

如果我使用以下命令从HBase (或MapR-DB)表中读取一些数据 JavaPairRDD<ImmutableBytesWritable, Result> usersRDD = sc.newAPIHadoopRDD(hbaseConf, TableInputFormat.class, ImmutableBytesWritable.class, Result.class); 生成的RDD有一个分区，我可以看到调用usersRDD.partitions().size()。就像Spark抱怨的那样，使用usersRDD.repartition(10)这样的东西是不可行的，因为Immut

浏览 1提问于2016-05-05得票数 2

1回答

为什么我得到未读的块数据-非法状态异常？

、

我只有以下几点： JavaPairRDD<ImmutableBytesWritable, Result> dataRDD = jsc .newAPIHadoopRDD( hbase_conf, TableInputFormat.class, org.apache.hadoop.hbase.io.ImmutableBytesWritable.class, org.apache.hadoop.hbase.

浏览 2提问于2014-11-11得票数 4

1回答

Spark不能读取整行Hbase的数据，只能读取最后一个属性的值

、、、

为什么我无法在终端中获得完整的Hbase数据 host = 'localhost' table = 'student' conf = {"hbase.zookeeper.quorum": host, "hbase.mapreduce.inputtable": table} keyConv = "org.apache.spark.examples.pythonconverters.ImmutableBytesWritableToStringConverter" valueConv = "org.apache.

浏览 0提问于2018-05-02得票数 0

1回答

用JAVA实现云DataProc +火花+云BigTable的依赖问题

、、、

我需要创建一个在云DataProc上运行的应用程序，并使用Spark以大规模并行的方式处理大型BigTable写入、扫描和删除。这可能是在JAVA (或者Python，如果它是可行的)。我正在尝试使用Eclipse编写最低限度的代码，以实现从一个bulkPut/bulkDelete/butkGet表中获取一个RDD的基本功能，或者使用newAPIHadoopRDD()或类似的东西。我在SO和其他地方看到了多篇文章，介绍了如何做到这一点，以及连接Bigtable、HBase API和Spark的各种挑战。这些职位中有些已经过时了(几年前，所以可能与此无关)。到目前为止，我还没有成功地发挥任何

浏览 0提问于2018-03-12得票数 0

回答已采纳

2回答

java.lang.IllegalArgumentException:偏移量(0) +长度(8)超出数组容量:4

、

运行spark作业以从Hbase读取数据时出现此错误。谢谢。以下是代码 val hBaseRDD = sc.newAPIHadoopRDD(conf, classOf[TableInputFormat], classOf[org.apache.hadoop.hbase.io.ImmutableBytesWritable], classOf[org.apache.hadoop.hbase.client.Result]) hBaseRDD.count() // transform (ImmutableBytesWritable, Result) tup

浏览 0提问于2017-06-09得票数 1

1回答

当使用spark scala连接Hbase时，我得到了这个期望的"java.lang.NumberFormatException.forInputString(Unknown源代码

、、

我正在使用spark scala读取Hbase表。代码如下： package HBase import org.apache.hadoop.hbase.client.{HBaseAdmin, Result} import org.apache.hadoop.hbase.{ HBaseConfiguration, HTableDescriptor } import org.apache.hadoop.hbase.mapreduce.TableInputFormat import org.apache.hadoop.hbase.io.ImmutableBytesWritable import

浏览 5提问于2016-09-29得票数 0

2回答

Spark to Hbase使用Oozie

、、、、

我试图在Hbase中从Spark创建一个表，并插入数据，从中读取数据。当我从命令行运行spark作业时，它工作得很好。但是，每次我尝试使用oozie运行它时，它都会抛出不同类型的异常。下面是我的spark hbase代码 val sc = new SparkContext("local", "Hbase spark") val tableName = "Morbidity_Dummy2" val conf = HBaseConfiguration.create() // Add local HBase co

浏览 0提问于2016-06-16得票数 1

1回答

错误TableInputFormat: Java.lang.NullPointerException at org.Apache.Hadoop.hbase.TableName.valueOf

、、、、

我正在尝试使用Spark从HBase读取数据。我使用的版本是Spark1.3.1和HBASE1.1.1。我收到了跟随错误 ERROR TableInputFormat: java.lang.NullPointerException at org.apache.hadoop.hbase.TableName.valueOf(TableName.java:417)

浏览 2提问于2015-11-04得票数 0

回答已采纳

1回答

与Hbase的火花流连接

、、、

我有一个传入的spark数据流，它接收包含设备Ids的消息： {deviceId=123 , deviceState: "turned off" } 我想将它加入到设备信息表中： {deviceId=123 , deviceInfo: "The red refrigirator" } 若要获得非规范化元组，如： {deviceId=123 , deviceState: "turned off", deviceInfo: "The red refrigirator" } device_info表存储在HBASE中。现在的问题是:每隔

浏览 1提问于2015-11-25得票数 1

1回答

使用齐柏林飞艇上的Spark读取HBase表

、、、

我有一段代码可以读取HBase表，使其格式化良好，然后将其转换为DataFrame： import org.apache.spark._ import org.apache.spark.rdd.NewHadoopRDD import org.apache.hadoop.hbase.{HBaseConfiguration, HTableDescriptor} import org.apache.hadoop.hbase.client.HBaseAdmin import org.apache.hadoop.hbase.mapreduce.TableInputFormat import org.ap

浏览 0提问于2016-09-30得票数 1

1回答

HBase TimeoutIOException

、、

我正在尝试使用spark和scala来获取HBase数据。然而，我得到了一个我无法思考的错误。代码 import org.apache.spark.{SparkConf, SparkContext} import org.apache.hadoop.hbase.HBaseConfiguration import org.apache.hadoop.hbase.HConstants import org.apache.hadoop.hbase.client.{HBaseAdmin, Result} import org.apache.hadoop.hbase.io.ImmutableBytes

浏览 3提问于2016-11-17得票数 0

1回答

如何将最新的100行从Hbase加载到Spark

、、

我正在使用Spark将Hbase数据加载到JavaPairRDD<>中。现在，我想知道是否可以将最新的100行加载到Spark中，而不是Hbase中的所有行。1)我尝试了scan.setCaching(100)，但它仍然返回所有行。这是为了限制我从Hbase加载的行吗? 2)如何确保它是最新的100行？有什么想法吗？非常感谢。 Scan scan = new Scan(); scan.setFilter(A list of filters); scan.setCaching(100); ClientProtos.Scan proto = Prot

浏览 4提问于2015-12-23得票数 2

回答已采纳

1回答

Spark 3.2.1获取不使用HBase的NewAPIHadoopRDD数据

、、、、

下面是用于从HBase获取数据的示例代码片段。这在Spark3.1.2中很有效。但是，升级到Spark3.2.1之后，它就不能工作了，即返回的RDD不包含任何值。而且，它也没有抛出任何例外。 def getInfo(sc: SparkContext, startDate:String, cachingValue: Int, sparkLoggerParams: SparkLoggerParams, zkIP: String, zkPort: String): RDD[(String)] = {{ val scan = new Scan scan.addFamily("famil

浏览 3提问于2022-02-23得票数 1

2回答

星星之火SQL性能

、、、、

我的代码的算法如下 Step1.获取一个hbase实体数据到hBaseRDD JavaPairRDD<ImmutableBytesWritable, Result> hBaseRDD = jsc.newAPIHadoopRDD(hbase_conf, TableInputFormat.class, ImmutableBytesWritable.class, Result.class); Step2.将hBaseRDD转换为rowPairRDD // in the rowPairRDD t

浏览 6提问于2014-12-25得票数 7

回答已采纳

1回答

Spark:如何使用HBase过滤器，例如QualiferFilter by python-api

、、、

我想通过在HBase -api中使用像QualiferFilter这样的过滤器从python中获取行。我知道从HBase获取行的方法，就像在代码下一样。 host = 'localhost' keyConv = "org.apache.spark.examples.pythonconverters.ImmutableBytesWritableToStringConverter" valueConv = "org.apache.spark.examples.pythonconverters.HBaseResultToStringConverter"

浏览 2提问于2016-08-22得票数 4

2回答

Spark无法检索特定列中的所有Hbase数据

、、、

我的Hbase表有3,000万条记录，每条记录都有列raw:sample，raw是列sample是列。这个列非常大，大小从几KB到50MB。当我运行下面的Spark代码时，它只能得到4万条记录，但我应该得到3000万条记录： val conf = HBaseConfiguration.create() conf.set("hbase.zookeeper.quorum", "10.1.1.15:2181") conf.set(TableInputFormat.INPUT_TABLE, "sampleData") conf.set(TableInpu

浏览 3提问于2016-01-27得票数 0

1回答

使用spark将RDD保存到hbase时，输出目录未设置异常

、、

我有一个工作，用spark作为rdd从hbase中检索数据，并做一个过滤器，然后将其作为示例数据保存回数据库，如下所示： object FilterData { def main(args: Array[String]) { filterData() } def filterData() = { val sparkConf = new SparkConf().setAppName("filterData").setMaster("spark://spark:7077") val sc = new SparkContext(s

浏览 1提问于2016-09-06得票数 1

2回答

java.lang.ClassNotFoundException: org.apache.hadoop.hbase.HBaseConfiguration

、、、、

我想使用scala示例创建我的第一个scala程序，该示例在Sparkd 1.4.1中提供。目标是连接到HBase并完成一些基本工作，例如计数行或扫描行。然而，当我试图执行程序时，我得到了一个错误。看来斯派克找不到HBaseConfiguration类。假设我们找到了我的项目HBaseTest2 /usr/local/Cellar/spark/programs/HBaseTest2的根路径。下面是一些例外的详细信息： ./src/main/scala/com/orange/spark/examples/HBaseTest2.scala package com.orange.spark.exam

浏览 3提问于2015-08-18得票数 2

1回答

在Spark中，sc.newAPIHadoopRDD使用5个分区读取2.7 GB的数据

、、

我使用的是Spark1.4，我正在尝试使用sc.newAPIHadoopRDD从Hbase读取2.7 GB的数据，但是有5个任务是为这个阶段创建的，并且需要2 t0 3分钟来处理它。谁能告诉我如何增加更多的分区来快速读取数据？

浏览 18提问于2016-09-22得票数 1

3回答

如何在使用Java中的MongoDB读取newAPIHadoopRDD集合后停止线程？

、、

我正在使用Java中的MongoDB阅读newAPIHadoopRDD集合。首先，我使用以下类创建了一个JavaSparkContext对象： public class SparkLauncher { public JavaSparkContext javaSparkContext ; public SparkLauncher() { javaSparkContext = null; } public JavaSparkContext getSparkContext() { if (javaSparkContext =

浏览 8提问于2015-12-23得票数 3

回答已采纳

1回答

使用spark读取hbase表

、、、、

我有一个有216个列的表"Gazelle“，我想在一个javaPairRDD中得到它们的一些列。我试着遵循这个链接：和这个：为了导入我需要的所有jars，我将这个依赖项添加到我的pom文件中： '<?xml version="1.0" encoding="UTF-8"?> 4.0.0 <groupId>fr.aid.cim</groupId> <artifactId>spark-poc</artifactId> <version>1.0-SNAPSHOT</ver

浏览 4提问于2014-11-25得票数 1

回答已采纳

1回答

独立的HBase和火花，HBaseTest.scala给出了错误

、、、

嗨，我使用的是独立的hbase，我想测试它的火花。我的机器上没有hadoop。当我试图使用HBaseTest.scala (在scala示例中)获取表的计数时，我得到以下错误： ERROR TableInputFormat: java.io.IOException: java.lang.reflect.InvocationTargetException at org.apache.hadoop.hbase.client.HConnectionManager.createConnection(HConnectionManager.java:416) at org.apache.

浏览 0提问于2015-04-30得票数 0

回答已采纳

1回答

如何从Spark中的Hbase表中读取数据？

、、、

我在Hbase中有一个表，其中包含以下数据： ROW COLUMN+CELL 1 column=brid:, timestamp=1470047093100, value=a1234 1 column=custid:, timestamp=1470046713207, value=811411 2 column=brid:, timestamp=1470047231583, value=a6789 2 column=custid:, timestamp=1470047156905, value=848727431 我正在尝试将这些数据读取到Spark中，然后将表中的数据打印到控

浏览 13提问于2016-08-02得票数 0

1回答

hbase数据上的Spark作业

、

我是spark的新手，我正在尝试从HBASE表中获取我的facebook数据，模式如下：我想在它上面做一个火花工作，如下所述。下面是我获取JavaPairRDD的代码。 SparkConf sparkConf = new SparkConf().setAppName("HBaseRead").setMaster("local[2]"); sparkConf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer");

浏览 0提问于2016-03-18得票数 0

1回答

因hbase-spark对ClassNotFoundException的依赖而导致的Spark phoenix读取中断: org.apache.hadoop.hbase.client.HConnectionManager

、、

我正在写一个简单的火花程序从Phoenix读取和写入Hbase使用spark -Hbase-连接器。我成功地分别从Phoenix读取和使用SHC写入Hbase。但是，当我将所有东西放在一起(具体添加hbase-spark依赖项)时，管道在Phoenix read语句处中断。代码： import org.apache.spark.sql.SparkSession import org.apache.spark.sql.datasources.hbase.HBaseTableCatalog object SparkHbasePheonix { def main(args: Array[St

浏览 136提问于2020-05-19得票数 0

1回答

Apache火花:从检查点恢复状态的NPE

、、、

我们正在构建简单的流应用程序，它使用HBase RDD与传入的DStream连接。样本代码： val indexState = sc.newAPIHadoopRDD( conf, classOf[TableInputFormat], classOf[ImmutableBytesWritable], classOf[Result]).map { case (rowkey, v) => //some logic} val result = dStream.transform { rdd => rdd.leftOuterJoin(indexState) } 它可

浏览 1提问于2017-02-16得票数 1

回答已采纳

2回答

编译Spark代码时出错:对象mapreduce不是包org.apache.hadoop.hbase的成员

、、、

编辑:我将顶层pom文件中定义的hbase依赖项添加到项目级pom中，现在它可以找到包了。我有一个scala对象，用于从Spark (1.0.1)中的HBase (0.98.4-hadoop2)表中读取数据。但是，当我尝试导入org.apache.hadoop.hbase.mapreduce.TableInputFormat.时，使用maven编译会导致错误 error: object mapreduce is not a member of package org.apache.hadoop.hbase 代码和相关的pom如下： import org.apache.hadoop.hbase

浏览 0提问于2014-08-14得票数 2

1回答

查询星系团以HBase引发"java.lang.IllegalStateException:未读块数据“异常

、

我们的Spark设置在3台服务器上，所有人都可以看到HBase集群服务器。我正在使用Hadoop2.7.3、HBase 1.2.6和Spark2.1.3。我连接到星火 /opt/spark/bin/spark-shell --master spark://master:7077 并运行以下命令 import org.apache.hadoop.hbase.util.Bytes import org.apache.hadoop.hbase.client.{HBaseAdmin, Result, Put, HTable} import org.apache.hadoop.hbase.{ HBa

浏览 1提问于2018-07-17得票数 0

回答已采纳

3回答

问题: Spark中的Scala代码用于从Hbase检索数据

、、、

我们试图在Spark中执行一个简单的Scala代码来从Hbase中检索数据。Hadoop环境启用了Kerberos，我们已经确保执行kinit。调用Spark Shell的步骤： MASTER=yarn-client DRIVER_CLASSPATH="/opt/cloudera/parcels/CDH/lib/hbase/lib/*" DRIVER_LIBRARY_PATH="/opt/cloudera/parcels/CDH/lib/hadoop/lib/native" spark-shell --driver-class-path "$DRI

浏览 12提问于2016-02-11得票数 1

回答已采纳

2回答

使用Spark读取Scala中的Hbase表值

、、、

我们已经从一个SparkRDD表创建了一个HBase，现在我们希望访问它的元素。以下是我们所做的工作：创建RDD val hBaseRDD = sc.newAPIHadoopRDD(conf, classOf[TableInputFormat], classOf[ImmutableBytesWritable], classOf[Result]) println("hbase RDD:") hBaseRDD.collect().foreach(println) hBaseRDD的o/p如下： (31 30 31,keyvalues={100/f1:id/

浏览 3提问于2018-02-09得票数 1

1回答

无法在纱线集群模式下用火花读取Hbase数据

、、、

集群配置： CDH-6.2.1Spark：Hadoop： 2.4.0Hbase: 2.0 我所做的:通过星火读取HBase数据当我使用IntelliJ和local模式时，一切正常，但是当我将模式更改为spark-submit --master yarn时，会发生以下堆栈跟踪： 20/05/20 11:00:46 ERROR mapreduce.TableInputFormat: java.io.IOException: java.lang.reflect.InvocationTargetException at org.apache.hadoop.hbase.client.Conne

浏览 1提问于2020-05-20得票数 3

回答已采纳

2回答

Spark/Scala打开压缩的CSV文件

、

我是Spark和Scala的新手。我们有广告事件日志文件格式为CSV的，然后使用pkzip压缩。我见过很多关于如何使用Java解压压缩文件的例子，但是我该如何使用Scala for Spark来解压呢？最终，我们希望从每个传入文件中获取、提取数据并将其加载到Hbase目标表中。也许这可以用HadoopRDD来完成？在此之后，我们将引入Spark streaming来查看这些文件。谢谢，本

浏览 1提问于2014-02-19得票数 5

1回答

使用Apache从HBase读取数据

、、、

我有一个用Scala编写的Apache应用程序，它尝试从HBase读取数据并使用它做一些事情。我遇到过像这样的方法，也遇到过如何这样做的方法-- 因此，我编写了以下代码： def main(args: Array[String]): Unit = { val configuration = HBaseConfiguration.create() configuration.set(TableInputFormat.INPUT_TABLE, "urls") configuration.set(TableInputFormat.SCAN_COLUMNS,

浏览 2提问于2016-03-10得票数 0

回答已采纳

1回答

火花流:源HBase

、、、

是否可能有火花流作业设置来跟踪HBase表并读取每批新的/更新的行？博客说HDFS文件属于受支持的源代码。但是他们似乎使用了以下静态API： sc.newAPIHadoopRDD(..) 我找不到这方面的任何文件。是否可以使用火花流上下文从hbase中流？任何帮助都是非常感谢的。谢谢!

浏览 4提问于2016-12-08得票数 2

1回答

当使用hbase作为数据源时，spark是否利用hbase键的排序顺序？

、、、、

我将time-series数据存储在HBase中。行键由user_id和timestamp组成，如下所示： { "userid1-1428364800" : { "columnFamily1" : { "val" : "1" } } } "userid1-1428364803" : { "columnFamily1" : { "val" :

浏览 2提问于2015-04-07得票数 4

回答已采纳

2回答

找不到值类'org.apache.hadoop.hbase.client.Result‘的序列化程序

、、、、

我尝试从HBase中读取数据并将其另存为sequenceFile，但是 java.io.IOException: Could not find a serializer for the Value class: 'org.apache.hadoop.hbase.client.Result'. Please ensure that the configuration 'io.serializations' is properly configured, if you're usingcustom serialization. 错误。我看到了两个类似的帖子

浏览 6提问于2017-05-26得票数 1