如何从Spark中的Hbase表中读取数据？ - 腾讯云开发者社区

文章/答案/技术大牛

发布

2回答

如何使用scala使用spark streaming从HBASE表中获取数据

、、、

我正在尝试确定一种解决方案，使用火花流从HBASE表中读取数据，并将数据写入另一个HBASE表。例如，如果我有一个HBASE<

浏览 0提问于2018-12-11得票数 0

2回答

通过火花流从HBase读取数据

、、

所以我的项目流程是Kafka -> Spark Streaming ->HBase现在我不知道

浏览 30提问于2016-07-25得票数 1

回答已采纳

2回答

如何使用pyspark和shc(spark* hbase连接器)从hbase读取一个表的部分数据，而不是整个数据集？*

、、

我正在使用pyspark通过shc访问hbase的表。这个表有大量的记录，但是我的spark集群只有三台服务器，性能很差。我认为从hbase表中读取全部数据，然后用spark的过滤器处理它是不合理的，那么我如何使用pyspark和shc从hbase中

浏览 1提问于2019-07-20得票数 0

1回答

什么是与Hbase交互的最佳方式？

、、、、

我使用的是火花火花2.3.1和Hbase 1.2.1，我想知道怎样才能最好地使用pyspark访问Hbase？的。我尝试在pyspark中实现基本代码：from pyspark.sql import SQLContext sqlc = SQLContext(sc) data_source_format = 'org.apache.spark<

浏览 1提问于2019-02-22得票数 1

回答已采纳

1回答

堆栈溢出上的几个帖子有一些响应，其中包含关于如何通过Spark作为JDBC分布式查询引擎访问RDD表的部分信息。因此，关于如何做到这一点，我想问以下问题以获得完整的信息：在Spark应用程序中，我们需要使用HiveContext注册表吗？或者我们可以只使用SQL上下文吗？我们在哪里以及如何使用HiveThriftServer2.startWithContext？:7077-hiveconf h

浏览 2提问于2015-07-18得票数 6

回答已采纳

1回答

凤凰火花加载表作为DataFrame

、、

我已经从一个有5亿行的DataFrame表(菲尼克斯)创建了一个HBase表。从DataFrame中，我创建了一个JavaBean的RDD，并使用它来连接文件中的数据。tableName);DataFrame df = sqlContext.read().format("org.apache.phoenix.<em

浏览 3提问于2016-05-18得票数 5

回答已采纳

2回答

用Spark和JAVA从HBase中读取数据

、、、

我想使用JAVA通过Spark访问HBase。除此之外，我还没有找到任何这样的例子。这个一个。答案是这样写的：您也可以用Java编写以下代码我从如何使用spark读取hbase ： import org.apache.hadoop.hbase.client.import org.apache.hadoop.hbase.io.ImmutableBytesWritable import o

浏览 69提问于2017-02-21得票数 1

0回答

spark怎么利用shc读取hbase的高表？

、、、、

spark通过hortonworks的开源框架shc读取hbase的时候，需要定义schema,当HBase中的表是高表，只有一列数据，上千万行，如何定义schema？？

浏览 292提问于2019-11-11

1回答

如何在hadoop集群中插入从SparkR到Hbase的数据

、、、、

我正在寻找帮助，让SparkR数据直接加载到HBase中。read函数可以使用SparkR (sparkR.session)从Hive外部表读取数据。执行的步骤：

浏览 1提问于2018-10-18得票数 0

2回答

hbase -火花连接器能用于按性能良好的列对hbase行进行排序吗？

、

问题的标题说明了一切。我有一个要求，要求在某些列中获取与top X(例如前10位)值相对应的行键。因此，我需要按照所需的列值对hbase行进行排序。我不明白我该怎么做，甚至是做不到。看来hbase并不能很好地满足这一需求。此外，它也不允许任何这样的功能开箱即用。 Q1. --我可以使用加载整个hbase数据并在其中执行排序吗？会很快吗？连接器和火花将如何处理它？它会在单个节点或多个节点上获取全部数据

浏览 0提问于2018-04-27得票数 2

回答已采纳

1回答

将数据从NoSQL迁移到关系型数据库管理系统

、、、

我们有数据存在于HBase中，我们想要转移到AWS Aurora (MySQL)，我们需要使用现有的数据，所以必须以某种方式将NoSQL数据加载到Aurora中。它不是一个非常大的数据库。有没有将数据从NoSQL迁移到关系数据库的最佳实践/工具？我在互联网上看到了很多反向问题(DB -> NoSQL)，但我的要求有点不同，我找不到任何有用

浏览 71提问于2020-03-31得票数 0

3回答

哪个过滤器更快-扫描的SingleColumnValueFilter还是RDD的火花过滤器？

、

我使用Hbase和Spark。我需要通过状态(可能是0,1,2,3)从表中获得过滤后的数据。我只需要状态为0的数据-这大约是Hbase中所有数据的5%。哪个更快-使用筛选器扫描Hbase或使用Spark筛选器读取所有Hbase数据的所有数据的</em

浏览 0提问于2019-08-08得票数 1

1回答

如何从hbase列中读取日期、时间和时间戳

、、

我使用Phoenix在Hbase中创建了以下表格。upsert into test_Table(test_date) values('2013-11-30');我使用以下代码来读取所有数据，但不确定如何从字节读取数据。org.apache.

浏览 29提问于2017-05-10得票数 0

1回答

Spark:对从HBase数据创建的RDD进行分区

、、、

如果我使用以下命令从HBase (或MapR-DB)表中读取一些数据生成的RDD有一个分区，我可以看到调用usersRDD.partitions就像<e

浏览 1提问于2016-05-05得票数 2

1回答

Spark - Getting exception org.apache.spark.Logging未找到

、、

我们正在使用Spark 2.3.0创建一个基于Spark的应用程序。我们的Spark作业与HBase交互。在创建JAR时，我们得到以下编译时异常异常: ERROR class file for org.apache.spark.Logging not found此异常发生在代码中，即从HBase表中读取数据使用下面的jar配置/版本，我们能够成功地将<e

浏览 1提问于2018-09-21得票数 0

1回答

火花结构化流检查点在生产中的使用

、、、、

当使用Spark结构化流时，我难以理解检查点是如何工作的。将已连接的DataFrame

浏览 7提问于2020-07-08得票数 3

2回答

是否有可能从hbase转换为spark* rdd效率？*

、、、

我在hbase中有一个很大的项目数据集，我想要加载到spark rdd中进行处理。我的理解是，hbase针对hadoop上的低延迟单项目搜索进行了优化，所以我想知道是否有可能在hbase中高效地查询1亿个项目(大约10TB大小)？

浏览 1提问于2017-10-25得票数 0

3回答

我的Spark程序的处理时间不会随着集群中节点数量的增加而减少

、、

我有一个带有3个节点的Cloudera集群，其中安装了Apache Spark。我正在运行一个Spark程序，该程序从HBase表中读取数据，转换数据并将其存储在不同的HBase表中。对于3个节点，500万行HBase数据所用的时间大约为1分10秒。在减少或增加节点数量时，所用的</e

浏览 2提问于2016-08-26得票数 0

2回答

测试Spark* Sql查询本地*

、、、

最近我在一个Spark应用程序中工作，作为项目的一部分，数据集从Kafka服务器读取，Spark HBase修改读取的数据并保存到Kafka。有没有一种方法或其

浏览 0提问于2020-11-20得票数 1

4回答

如何使用火花从hbase中读取

、、

下面的代码将从hbase中读取，然后将其转换为json结构并转换为schemaRDD，但问题是，我是using List来存储json字符串，然后传递给javaRDD，对于大约100 GB的数据，主服务器将装载内存中的数据从hbase加载数据的正确方法是什么，然后执行操作，然后转换为JavaRDD。; import org.apach

浏览 9提问于2014-07-30得票数 47

回答已采纳

点击加载更多

如何使用scala使用spark streaming从HBASE表中获取数据

通过火花流从HBase读取数据

如何使用pyspark和shc(spark* hbase连接器)从hbase读取一个表的部分数据，而不是整个数据集？*

什么是与Hbase交互的最佳方式？

如何通过Spark作为JDBC分布式查询引擎访问RDD表？

凤凰火花加载表作为DataFrame

用Spark和JAVA从HBase中读取数据

spark怎么利用shc读取hbase的高表？

如何在hadoop集群中插入从SparkR到Hbase的数据

hbase -火花连接器能用于按性能良好的列对hbase行进行排序吗？

将数据从NoSQL迁移到关系型数据库管理系统

哪个过滤器更快-扫描的SingleColumnValueFilter还是RDD的火花过滤器？

如何从hbase列中读取日期、时间和时间戳

Spark:对从HBase数据创建的RDD进行分区

Spark - Getting exception org.apache.spark.Logging未找到

火花结构化流检查点在生产中的使用

是否有可能从hbase转换为spark* rdd效率？*

我的Spark程序的处理时间不会随着集群中节点数量的增加而减少

测试Spark* Sql查询本地*

如何使用火花从hbase中读取

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐