如何使用pyspark从HBase表中读取数据？

使用pyspark从HBase表中读取数据可以通过以下步骤实现：

首先，确保已经安装了HBase和Spark，并且配置正确。
导入必要的库和模块：

from pyspark import SparkContext, SparkConf
from pyspark.sql import SparkSession

创建SparkSession对象：

spark = SparkSession.builder \
    .appName("Read data from HBase") \
    .getOrCreate()

配置HBase连接信息：

conf = {
    "hbase.zookeeper.quorum": "<Zookeeper Quorum>",
    "hbase.mapreduce.inputtable": "<HBase Table Name>",
    "hbase.mapreduce.scan.row.start": "<Start Row Key>",
    "hbase.mapreduce.scan.row.stop": "<Stop Row Key>",
    "hbase.mapreduce.scan.columns": "<Column Family>:<Column Qualifier>"
}

其中，"<Zookeeper Quorum>"是Zookeeper的地址，"<HBase Table Name>"是要读取的HBase表名，"<Start Row Key>"和"<Stop Row Key>"是可选的起始行键和结束行键，"<Column Family>:<Column Qualifier>"是要读取的列族和列限定符。

通过SparkContext创建RDD：

rdd = spark.sparkContext.newAPIHadoopRDD(
    "org.apache.hadoop.hbase.mapreduce.TableInputFormat",
    "org.apache.hadoop.hbase.io.ImmutableBytesWritable",
    "org.apache.hadoop.hbase.client.Result",
    keyConverter="org.apache.spark.examples.pythonconverters.ImmutableBytesWritableToStringConverter",
    valueConverter="org.apache.spark.examples.pythonconverters.HBaseResultToStringConverter",
    conf=conf
)

将RDD转换为DataFrame：

df = rdd.toDF()

可以对DataFrame进行进一步的操作和分析，如过滤、聚合等。
最后，关闭SparkSession：

spark.stop()

这样就可以使用pyspark从HBase表中读取数据了。

注意：上述代码中的"<Zookeeper Quorum>"、"<HBase Table Name>"、"<Start Row Key>"、"<Stop Row Key>"和"<Column Family>:<Column Qualifier>"需要根据实际情况进行替换。另外，如果需要使用其他相关的腾讯云产品，可以参考腾讯云官方文档进行选择和配置。

如何使用pyspark和shc(spark hbase连接器)从hbase读取一个表的部分数据，而不是整个数据集？

、、

我正在使用pyspark通过shc访问hbase的表。这个表有大量的记录，但是我的spark集群只有三台服务器，性能很差。我认为从hbase表中读取全部数据，然后用spark的过滤器处理它是不合理的，那么我如何使用pyspark和shc从hbase中读取部分数据呢？例如，我希望筛选行键具有起始值、结束值或筛选列这里有一个基本的write和read方法，谢谢 from pyspark.sql import SparkSession spark = SparkSession.builder.master('localhost').appName('test_1')

浏览 1提问于2019-07-20得票数 0

2回答

如何使用scala使用spark streaming从HBASE表中获取数据

、、、

我正在尝试确定一种解决方案，使用火花流从HBASE表中读取数据，并将数据写入另一个HBASE表。我在互联网上找到了许多示例，它们要求创建一个DSTREAM来从HDFS文件和all.But中获取数据。我找不到任何示例来从HBASE表中获取数据。例如，如果我有一个HBASE表'SAMPLE‘，它的列是'name’和'activeStatus‘。如何使用spark streaming从基于activeStatus列的表SAMPLE中检索数据(新数据？欢迎使用spark streaming从HBASE表检索数据的任何示例。致敬，Adarsh K S

浏览 0提问于2018-12-11得票数 0

2回答

使用Phoenix从PySpark更新HBase

、、、、

我正在尝试使用Phoenix连接器从PySpark读取和写入HBase。我已经看到中的示例代码复制了此处的示例代码，以便于参考： df.write \ .format("org.apache.phoenix.spark") \ .mode("overwrite") \ .option("table", "TABLE1") \ .option("zkUrl", "localhost:2181") \ .save() 我已经能够从pyspark读写到hbase了。然而，这个例子只给

浏览 5提问于2018-01-06得票数 0

1回答

如何将HBase表作为pyspark数据帧读取？

、

有没有可能在不使用Hive或Phoenix或Hortonworks提供的spark-Hbase连接器的情况下直接以Pyspark Dataframes的形式读取Hbase表？我对Hbase比较陌生，找不到一个直接的Python示例来将Hbase表转换为Pyspark数据帧。我看到的大多数示例都是用Scala或Java编写的。

浏览 2提问于2017-10-05得票数 1

1回答

什么是与Hbase交互的最佳方式？

、、、、

我使用的是火花火花2.3.1和Hbase 1.2.1，我想知道怎样才能最好地使用pyspark访问Hbase？我进行了一些初始级别的搜索，发现很少有可用的选项，比如使用shc:1.1.1-2.1-s2.11.jar，这可以实现，但是无论我想找什么例子，大多数地方的代码都是用Scala编写的，或者示例也是基于scala的。我尝试在pyspark中实现基本代码： from pyspark import SparkContext from pyspark.sql import SQLContext def main(): sc = SparkContext() sqlc = SQ

浏览 1提问于2019-02-22得票数 1

回答已采纳

1回答

如何在hbase中使用pyspark创建表？

、、

我想创建新的hbase表，如果名称空间/hbase中不存在用于存储数据的pyspark代码，有人可以帮助我完成此任务吗？

浏览 2提问于2018-09-27得票数 0

0回答

如何使用pyspark从HBase表中读取数据？

、、

我已经创建了一个名为emp的虚拟HBase表，其中有一条记录。下面是数据。 > hbase(main):005:0> put 'emp','1','personal data:name','raju' 0 row(s) > in 0.1540 seconds > hbase(main):006:0> scan 'emp' ROW > COLUMN+CELL 1 column=personal >

浏览 11提问于2017-12-05得票数 1

2回答

使用HBase写入PySpark表时出错

、、、、

我正在尝试使用pySpark写入hbase表。到目前为止，我还能读到hbase的数据。但是当写入hbase表时会出现异常。 from pyspark.sql import SparkSession from pyspark import SparkContext from pyspark.sql.types import * properties = { "instanceId" : "hbase", "zookeepers" : "10-x-x-x.local:2181,10-x-x-x.local:2181,10-x-x-x

浏览 2提问于2017-10-25得票数 0

回答已采纳

1回答

PySpark: java.lang.ClassCastException

、、

我有一个PySpark代码，它开发查询并在另一个内部映射到HBase表的Hive表上运行insert into命令。当我使用spark sql在Hive表上运行insert into命令时，我得到了以下异常。 java.lang.ClassCastException: org.apache.hadoop.hive.hbase.HiveHBaseTableOutputFormat cannot be cast to org.apache.hadoop.hive.ql.io.HiveOutputFormat 我检查了数据类型和tblproperties，但无法通过此异常。我使用的版本是： PyS

浏览 1提问于2017-07-25得票数 3

2回答

从多个RDDs提取和保存具有相同密钥的值的最佳方法

、、

我在PySpark中使用从HBase提取的数据创建了两个RDDs。我希望收集具有相同行键的项，存储这些项，然后搜索与每个项关联的值。理想情况下，我应该将结果存储在一个pyspark.sql对象中，因为我希望对其内容应用Levenshtein距离。详细信息：在HBase中，我有位置数据，其中行键是给定区域的地散列，在该区域的列中有多个地点，位置上有更多的细节(json和描述以及其他文本数据)。我有两个HBase表，它们的位置可以是相同的。我想搜索这两个RDD中的数据，检查类似的geohashes，并将结果存储在一个新的数据结构中。我不想重新发明轮子，我刚刚开始学习星火，因此我想知道:做这样

浏览 1提问于2017-07-21得票数 3

回答已采纳

1回答

对HDFS、HBase和Hive的几点质疑

、、

我对Hadoop生态系统有几点怀疑。渴望很好地理解这些概念。蜂巢表在哪里存储数据？对于Datawarehouse，我们是否需要在Hive和Hbase表中都有相同的数据。如何从Hbase中插入、更新、读取数据。除了csv之外，HDFS还可以存储所有文件格式。我们能吃点Hbase吗。如果我有蜂巢，我可以省略Hbase表吗？

浏览 4提问于2012-10-17得票数 0

2回答

如何以Parquet格式将HBase表移动到HDFS？

、、、

我必须构建一个工具，它将处理从HBase(HFiles)到HDFS的数据存储。请建议将数据从HBase表移动到Parquet表的最佳方法之一。我们必须将4亿张唱片从HBase移到Parquet。如何实现这一点，以及最快的数据移动方式是什么？提前谢谢。致以敬意，帕迪普·夏尔马。

浏览 1提问于2016-05-04得票数 4

回答已采纳

3回答

使用Hbase映射减少API将数据加载到HBASE表中

、、

我是非常新的Hbase和地图减少API。我很困惑地图还原的概念。我需要使用MAPReduce API将文本文件加载到Hbase表中。我在谷歌上搜索了一些例子，但在这方面我可以找到MAPPER ()，而不是还原器方法。我对何时使用mapper和何时使用Reducer ()感到困惑。我的想法是：要将数据写入Hbase，我们使用mapper 要从HBASE读取数据，我们使用映射器和减速器()。请给我详细解释一下。我正在尝试将数据从文本文件加载到HBASE表中。我搜索并尝试了一些代码，但我不知道如何加载文本文件并在中读取。我真的很感谢你的帮助

浏览 2提问于2012-08-31得票数 4

回答已采纳

1回答

对于如何通过HFile将协议缓冲区文件批量加载到HBase，有什么想法吗？

、、、、

我想做的是：将数据从Hive加载到由协议缓冲区序列化的HBase中。我尝试过多种方法：直接创建与HBase的连接，并将其放入HBase。这是可行的，但显然不是很有效。我从S3中的Hive中导入了json表，并将它们存储为文本文件(由选项卡分隔)，然后使用importTsv实用程序生成HFile并将它们装载到HBase中，这也是可行的。但现在我想以一种更有效的方式来实现这一点：从S3中的Hive表导出我的数据，将它们序列化为协议缓冲区对象，然后生成HFile并将HFile直接挂载到HBase上。我正在使用星火作业从蜂巢读取，这可以给我JavaRDD，然后我可以构建我

浏览 6提问于2017-06-01得票数 0

回答已采纳

1回答

Hadoop映射器输出到HBase表和减速器

、、、、

我正在尝试编写一个MapReduce作业，它解析一个CSV文件，将数据存储在HBase中，并一次执行一个约简函数。理想情况下我想 Mapper输出好记录到HBase表好 Mapper输出坏记录到HBase表坏 Mapper使用密钥将所有良好的数据发送给减速机。还想更新第三个表，显示是否存在新的数据。此表将包含有关数据和日期的基本信息。很可能每个CSV文件有一两条记录。我知道如何使用HBase MultiTableOutputFormat执行1和2，但不确定如何执行3和4。任何关于如何做到这一点的建议都是非常感谢的。我对如何做到这一点有一些想法：对于1和2，我将

浏览 4提问于2014-07-01得票数 1

1回答

从mysql到hbase的数据转换

、、

我想把我的数据表从MySql数据库转换成HBase。我将用java代码来实现。因此，我从mySql中选择了表，但我找不到如何将它们逐行放入hbase的表中。有什么办法可以做到这一点吗？我不会通过导入Tsv文件或批量文件来做到这一点。请帮帮我。

浏览 2提问于2013-09-12得票数 0

1回答

使用java准确地确定从HDFS加载到一个Hbase表中的文件？

、、

我是大数据和Hadoop的新手。我在学习Hadoop和Hbase。我有问题，但还是不知道。你能帮我一下吗？我将3个csv文件放入HDFS，包括：文件1(Subscribe_info.txt)：numID，active_date，status 文件2(Recharge.txt)：numID、recharge_history_date、金额、方法文件3 (Charge.txt)：numID，charge_date，amount_charge 它们都是通过: numID相互关联的。我需要将以上所有数据加载到Hbase表中，行键是numID，并包含所有相关列，如下所示： H

浏览 3提问于2016-07-14得票数 2

回答已采纳

1回答

在将表加载到DF时无法连接到菲尼克斯4.11.0版本的Spark 2.2.0

、、

我正在使用下面的技术栈，并试图使用PySpark代码连接菲尼克斯表。我已经从url下载了以下jars，并尝试执行以下代码。在日志中，建立了到hbase的连接，但是控制台不需要执行任何操作。如果有人遇到类似的问题，请告诉我。罐子:凤凰-火花-4.11.0-HBase-1.2.jar凤凰-client.jar 所有技术堆栈都在同一个主机上运行： ApacheSpark2.2.0版本 Hbase 1.2版本凤凰4.11.0版将hbase-site.xml复制到文件夹路径/spark/conf/hbase-site.xml中。执行的命令-> usr/本地/spark>spark提

浏览 0提问于2018-07-30得票数 0

回答已采纳

1回答

java.lang.ClassNotFoundException:未能找到数据源: org.apache.hadoop.hbase.spark时读入hbase表

、、

我使用pyspark将hbase表读入数据，但它出现了一些错误： sc = SparkContext(master="local[*]", appName="test") spark = SparkSession(sc).builder.getOrCreate() df = spark.read.format('org.apache.hadoop.hbase.spark') \ .option('hbase.table', 'h_table') \ .option('hbase.column

浏览 9提问于2020-01-06得票数 1

1回答

HBase链MapReduce作业，向所有Mappers广播较小的表

、、

我正试图在MapReduce表中的数据上编写一个链式的HBase作业，并且需要在这个概念上提供一些帮助。我不希望人们通过伪代码来提供代码，基于HBase的Java将是很好的选择。总之，我想做的是， MapReduce作业1:从两个没有公共行键的表中读取数据，并在还原器中从它们中创建一个摘要。还原器的输出是一个Java对象，它包含已序列化为字节码的摘要。我将此对象存储在HBase中的临时表中。 MapReduce工作2:这就是我遇到问题的地方。现在我需要读取这个摘要对象，以便在每个映射器中都可用，这样当我从第三个(不同)表读取数据时，我可以使用这个摘要对象对从第三个表读取的数据执行更多的计算。

浏览 7提问于2014-07-02得票数 0

回答已采纳

1回答

原生mapreduce与hbase mapreduce

、、

如果我使用TableMapReduceUtil( hbase )创建MR job，似乎hbase扫描仪将数据输入映射器，并将数据从还原器转换为特定的hbase输出格式，以便将其存储在hbase表中。由于这个原因，我预计hbase mapreduce作业将比本地MR job花费更多的时间。那么，Hbase的工作时间肯定要比本地的先生长多长时间？

浏览 3提问于2014-02-19得票数 2

回答已采纳

1回答

使用Spark将数据存储到HBase中

、、

在此CDP7中，我将数据存储到CDP7中的pyspark的hbase表中，在此之后，使用的组件如下：火花版本3.1.1 Scala版本2.12.10 shc-核-1.1.1-2.1-S_2.11.jar 我使用的命令： spark3-submit --packages com.hortonworks:shc-core:1.1.1-2.1-s_2.11 --repositories http://repo.hortonworks.com/content/groups/public/ --files /etc/hbase/conf/hbase-site.xml test-h

浏览 0提问于2021-08-02得票数 0

1回答

py4j.protocol.Py4JJavaError:调用o63保存时出错。：java.lang.NoClassDefFoundError: org/apache/火星/日志记录

、、、、

我对组件- HBase很陌生，我正尝试用Pyspark编写Python代码，并连接到HBase，从HBase读取数据。我使用以下版本： spark-3.1.2-bin-hadoop2.7Python版本：3.8.5HBase版本：hbase-2.3.5 我已经在我当地的ubuntu 20.04安装了独立的Hbase和Spark 代码： from pyspark import SparkContext from pyspark.sql import SQLContext sc = SparkContext.getOrCreate() sqlc = SQLContext(sc) data_so

浏览 1提问于2021-06-25得票数 1

1回答

Hbase如何处理重复记录？

、、

浏览 10提问于2016-09-30得票数 1

2回答

在hbase中为我的nutch种子文件中的每个不同的url创建不同的表？

、

我使用的是集成了Hbase 0.92.1的nutch 2.1。当我从网站获取数据时，所有的数据都只写在Hbase的一个表中，这就是我的问题。该表的名称是"webpage“。有没有办法让我的种子文件中的每个不同的URL都创建一个新的表？

浏览 0提问于2012-10-01得票数 1

2回答

PySpark HBase/Phoenix集成

、、

我应该把菲尼克斯的数据读到pyspark里。编辑:我使用的是火花HBase转换器：下面是一个代码片段： port="2181" host="zookeperserver" keyConv = "org.apache.spark.examples.pythonconverters.ImmutableBytesWritableToStringConverter" valueConv = "org.apache.spark.examples.pythonconverters.HBaseResultToStringConverter"

浏览 5提问于2015-09-15得票数 0

3回答

HBASE火花与HDFS火花

、、、

我知道HBASE是一个柱状数据库，它将表的结构化数据按列而不是按行存储到HDFS中。我知道Spark可以从HDFS读/写，还有一些用于Spark的HBASE连接器现在也可以读写HBASE表。问题： 1)在HBASE之上分层火花而不是单独使用HBASE所带来的附加功能是什么？它只取决于程序员的能力，或者有任何性能原因来这样做？是否有星火所能做的事，而HBASE却无法做到？ 2)源于前面的问题，什么时候应该在HDFS和SPARK之间添加HBASE，而不是直接使用HDFS？

浏览 4提问于2016-08-13得票数 9

回答已采纳

1回答

用于实时分析解决方案的HBase模式/密钥

、、、、

我们正在考虑使用HBase进行实时分析. 在HBase之前，我们将在日志文件上运行作业，并对数据进行聚合，并将细粒度聚合结果存储在HBase中，以便对聚合数据进行实时分析和查询。因此，HBase表将具有预先聚合的数据(按日期划分)。我的问题是:如何最好地设计HBase数据库的模式和主键设计，以支持快速但灵活的查询。例如，假设我们将以下行存储在数据库中： timestamp, client_ip, url, referrer, useragent 并且假设我们的map-还原作业生成三个不同的输出字段，每个输出字段都要存储在一个单独的“表”中(HBase列系列)： date，operating

浏览 2提问于2012-05-29得票数 5

回答已采纳

2回答

用python将火花2与HBase集成连接起来的jars

、、、

我在Spark2中使用pyspark，是否有任何jars将HBase与可用的pyspark连接。请帮我拿一下样本代码。

浏览 2提问于2018-01-12得票数 1

回答已采纳

1回答

PySpark: saveAsNewAPIHadoopDataset()可以用作HBase的批量加载吗？

、、、、

我们目前使用saveAsNewAPIHadoopDataset()通过Spark RDDs (pyspark)将数据导入到HBase表中。此函数是否通过mapreduce使用HBase批量加载功能？换句话说，直接导入到HBase的saveAsNewAPIHadoopDataset()是否等同于使用saveAsNewAPIHadoopFile()将Hfiles写入HDFS，然后调用org.apache.hadoop.hbase.mapreduce.LoadIncrementalHFiles加载到HBase？以下是我们的HBase加载例程的示例片段： conf = {"hbase.zo

浏览 5提问于2015-08-24得票数 3

1回答

使用pyspark将Json数据加载到hbase

、、

我想加载数据到Hbase表使用pyspark，有人可以帮助如何加载的json数据到Hbase的行键作为和所有其他进入一个列族。请在下面找到json。 { "ticid"："1496"，"ticlocation"："vizag"，"custnum"："222"，"Comments"：{ "comment"：{ "commentno"："1"，"desc"：“旅程”，“乘客座位”：{ "intele"：

浏览 1提问于2018-05-24得票数 0

2回答

HBase截断表

、、

如果我将从HBase截断表，那么1)它是否也从底层HDFS系统中删除数据，或者它只是用删除标记标记数据? 2)我如何确保/验证数据也从底层HDFS系统中删除？

浏览 0提问于2012-05-08得票数 2

回答已采纳

1回答

S3和Spark:文件大小和文件格式的最佳实践

、、

我需要读取数据(来自一个包含5列的RedShift表，表的总大小约为500 job 1tb)，通过PySpark将数据从PySpark读入Spark，以完成每天的批处理任务。是否有任何最佳做法：我如何用S3存储数据的首选文件格式？(格式是否重要？) 最佳文件大小？任何资源/链接，可以指出我的正确方向，也将发挥作用。谢谢!

浏览 1提问于2019-07-10得票数 1

回答已采纳

1回答

如何在Scala中从Spark中检索和更新HBase表

、、、、

似乎没有合适的资源或文档或书籍来访问HBase表，就像我们有HIve一样，我正在创建Hbase配置和sacnning，并试图放置，但缺少一些链接如何做到这一点(只是从论坛和github复制粘贴，但无法理解)，谁能发布一个端到端的代码，以检索和更新Hbase表的细节？？或推荐从spark访问的任何Hbase书籍/博客

浏览 0提问于2016-01-29得票数 1

1回答

通过Sqoop将所有表导入HBase

、、

操作系统: Windows 使用这个，我可以将特定的表导入到HBase中；但是，如何将数据库的所有表作为单独的表导入HBase？ Sqoop命令将所有表从数据库导入到单个HBase表中 sqoop import-all-tables --hbase-table testhbaseall --hbase-create-table --column-family hr --connect jdbc:mysql://localhost/madha --username root --password sa --warehouse-dir /user/h40/hr -m 1 --hbase-ro

浏览 3提问于2015-08-21得票数 2

1回答

如何在hbase中连接表

、

我必须在Hbase中加入表格。我集成了HIVE和HBase，并且工作得很好。我可以使用HIVE进行查询。但是有没有人可以教我如何在不使用HIVE的情况下在HBase中连接表。我认为使用mapreduce我们可以做到这一点，如果是这样的话，任何人都可以分享一个我可以参考的工作示例。请分享你的观点。我已经有了一个方法。那是, 如果我需要连接表A x B x C；我可以使用TableMapReduceUtil遍历A，然后在TableMapper中从B和C获取数据。然后使用TableReducer写回另一个表Y。这种方法会是一个好的方法吗？

浏览 0提问于2012-07-04得票数 10

回答已采纳

1回答

从mysql到Hbase的几乎实时同步

、、、

目前，在将数据从mysql同步到hbase期间，我面临一个问题，我需要一个从mysql到hbase的近乎实时的数据同步，而且在数据同步期间，我需要将多个mysql表合并成一个hbase表。我试过sqoop，看上去不符合我们的要求。因此，是否有任何现有的工具/lib可以用于我的情况，或任何其他解决方案，我可以尝试火花。

浏览 2提问于2016-03-09得票数 1

回答已采纳

2回答

通过火花流从HBase读取数据

、、

所以我的项目流程是Kafka -> Spark Streaming ->HBase 现在，我想再次从HBase读取数据，它将遍历由前一个作业创建的表，并执行一些聚合操作，然后以不同的列格式将其存储在另一个表中 Kafka ->火花流(2ms)->HBase->火花流(10ms)->HBase 现在我不知道如何使用Spark Streaming从HBase中读取数据。我发现了一个Cloudera Lab项目，它是SparkOnHbase()库，但我不知道如何从HBase获取用于流处理的inputDStream。请提供任何指针或库链接，如果有任何可以帮助我做到这

浏览 30提问于2016-07-25得票数 1

回答已采纳

1回答

将OpenCV Java中的Mat对象保存到Hbase表中

、

目前，我正在使用Hbase Java提取图像特征并将其存储到OpenCV表中。但是我得到了一个问题，图像的图像特征在OpenCV中是Mat或MatOfKeyPoint类型的，而如果我们想要将数据插入到Hbase表中，那么我们必须使用byte[]。 ...... featureDetector.detect(trainImages, trainKeypoints); descriptorExtractor.compute(trainImages, trainKeypoints, trainDescriptors); //Save to Hbase Put put = new Put(key.ge

浏览 0提问于2015-07-15得票数 0

2回答

HBase·PySpark表加载错误

、、

我试着从PySpark的HBase中读取一个表格。这是我的代码。 from pyspark.sql.types import * host = 'localhost' keyConv = "org.apache.spark.examples.pythonconverters.ImmutableBytesWritableToStringConverter" valueConv = "org.apache.spark.examples.pythonconverters.HBaseResultToStringConverter" tes

浏览 1提问于2016-07-27得票数 1

2回答

python reload()没有任何效果？

、

我在吡咯烷酮目录中有一个hbase.py文件。在REPL内部，我尝试重新加载它： >>> reload(pyspark.hbase) <module 'pyspark.hbase' from '/shared/hwspark2/python/pyspark/hbase.py'> >>> from pyspark.hbase import * >>> # run the code .. latest changes not apparent.. 没有错误..。但是，没有更新类的定义-没有出现新的打印

浏览 1提问于2014-10-22得票数 2

回答已采纳

1回答

如何使用Hive向HBase插入动态查询数据

、

我是Hbase和Hive的新手。有人能解释一下如何使用Hive将数据插入Hbase吗？我发现了很多关于这方面的信息，但他们都在谈论同样的事情。换句话说，它们从另一个已经存在的表中插入到Hbase表中。就我而言，情况就不一样了。我有一个应用程序，它从用户那里读取一些数据并发送到服务器，传入的数据需要写入Hbase表中。我怎么能这么做？这是我的桌子： CREATE TABLE hive_table (key INT, username STRING, password STRING, address STRING) STORED BY 'org.apache.hadoop.hive

浏览 3提问于2013-05-22得票数 0

1回答

显示整数列空的HBase表上的单元表

、、

我试图在Hbase表上创建Hive表。详情如下： HBase表的数据如下： Connected to: Phoenix (version 4.7) Driver: PhoenixEmbeddedDriver (version 4.7) Autocommit status: true Transaction isolation: TRANSACTION_READ_COMMITTED Building list of tables and columns for tab-completion (set fastconnect to true to skip)... 1341/1341 (100%)

浏览 1提问于2017-07-11得票数 2

回答已采纳

1回答

hbase shell中区域列表中的无效十六进制字符

我们有一个以Java作为键的hBase表。行是通过以下方式添加的： Put put = new Put(Bytes.toBytes(longVal)); 当我在hbase shell中显示表的区域时，我看到显示了非十六进制值： scan 'hbase:meta',{FILTER=>"PrefixFilter('table_name')"} ... START => '\x00\x00\x00\xB3t\XAE\x1E' 这些不是都是有效的巫术吗？我不知道这是如何发生的。 hBa

浏览 3提问于2016-06-27得票数 0

回答已采纳

1回答

如何从R中的spark访问存储在hbase中的数据

、、

我需要让存储在hbase中的数据在R中进行分析，但我需要通过Spark来完成，因为数据不适合内存。有人知道如何通过Spark in R访问hbase中的数据吗？我在网上都找过了，但是没有什么乐趣。我找到了一些页面，解释了如何从R访问hbase中的数据，但它们不是通过Spark来实现的。我看到的所有解释如何在R和Spark中访问数据的页面(使用sparklyr)都提供了iris数据集的示例:( 任何帮助都是非常感谢的！

浏览 0提问于2017-01-10得票数 0

1回答

从hbase存储和读取图像

我想将图像存储在我的hbase table.And中，我想将图像文件从hbase表中读取为一个image.Is，可以在hbase中这样做。图像大小不能超过10MB.For，每行都应该有一个图像与it.Wondering相关联，如何做it.Need，一些线索才能继续进行。

浏览 1提问于2015-06-15得票数 0

回答已采纳

1回答

将HBase表数据保存在特定的HDFS位置

、

在Hive表上，我可以创建外部表来保存特定HDFS位置上的数据。我想在HBase上做类似的事情，这样就可以将HBase表数据保存在外部HDFS位置上。在类似于Hive的HBase上可以这样做吗？我想知道HDFS上保存HBase表数据的默认路径是什么？谢谢

浏览 4提问于2020-12-18得票数 0

回答已采纳

1回答

如何通过执行内部联接并将数据带入配置单元来从hbase表中检索数据

、、、、

我有两个Hbase表'hbaseTable'，'hbaseTable1‘和Hive表'hiveTable’，我的查询如下： 'insert overwrite hiveTable select col1, h2.col2, col3 from hbaseTable h1,hbaseTable2 h2 where h1.col=h2.col2'; 我需要在hbase中执行内部联接，并将数据带到hive。我们使用的是hive和java，它的性能非常差。因此，计划通过使用spark来改变方法。也就是说，如何使用SPARK从我的java代码连接到hbas

浏览 16提问于2017-02-02得票数 0

回答已采纳

1回答

使用配置单元元数据读取HDFS文件- Pyspark

、、、、

我是PySpark新手，正在尝试读取HDFS文件(上面创建了hive表)并创建PySpark数据帧。通过PySpark读取配置单元表非常耗时。有没有什么方法可以动态获取hive列名(用作dataframe中的模式)？我希望将文件位置、表名和数据库名作为输入传递给aa程序/函数，以便从配置单元元数据(可能是元数据xml)中获取模式/列名称，并作为dataframe返回。请指教

浏览 15提问于2019-03-06得票数 0

回答已采纳

1回答

表数据从本地导出到生产

、

我计划将数据从本地hbase导出到我的生产hbase表中，这里我想将导出的数据附加到生产中。我该如何实现？是否可以在生产环境中使用hbase export shell命令和导入？是否将数据追加到现有的表中？有没有什么工具可以做同样的事情？ $ bin/hbase org.apache.hadoop.hbase.mapreduce.Export <tablename> <outputdir> [<versions> [<starttime> [<endtime>]]] $ bin/hbase org.apache.hadoop.hba

浏览 4提问于2012-12-17得票数 0

回答已采纳