hbase 二级索引_hbase二级索引_用于Solr的Hbase索引器 - 腾讯云开发者社区

、

我目前正在尝试体验hbase，为给定的项目开发hbase连接器。所以我需要为它建立二级索引。因此，我只需要知道hbase 0.94.18是否支持使用协处理器的辅助索引。有人能帮我做这个吗？因为我对hbase很陌生。

浏览 4提问于2014-04-22得票数 0

回答已采纳

1回答

Phoenix二级索引是否专门处理WAL日志？

、、、

我们正在为我们的hbase集群使用phoenix和hbase-indexer，并且我们发现了一个关于phoenix二级索引的奇怪现象：我们将数据(使用psql导入csv数据)与来自phoenix的两个全局可变索引表(C_PICRECORD_IDX1和C_PICRECORD_IDX2)放入一个表(C_PICRECORD)中，并使用hbase-indexer将数据复制到solr中。数据导入完成后，我们发现solr document numfound与hbase表行数不同。当我们删除索引表，清除数据并再次放入数据时，我们发现solr document numfound与hbase表的行数相同。最

浏览 2提问于2016-06-01得票数 1

1回答

HBase中的Geomesa属性索引

、、

HBase不支持二级索引，但是将数据存储在HBase之上的Geomesa支持属性索引。那件事怎么可能？

浏览 1提问于2019-04-02得票数 0

回答已采纳

2回答

Hbase 0.92.1二级索引示例

、、

我正在处理hbase 0.92.1中的百万行和百万列。现在，我想知道如何使用协处理器创建二级索引。为此，给出一些示例程序。请提供支持hbase 0.92.1的程序。

浏览 2提问于2012-06-06得票数 2

回答已采纳

3回答

HBase访问和索引

、

我有一个大约5000万行的HBase表，每一行都有几个列。我的目标是从表中检索在给定列中具有给定值的行，例如列'col_1‘的值为'val_1’的行。我有两个选择：从开始到结束对表格进行扫描，检查每一行，看看是否应该检索；为该表构建索引(例如，对列‘col_1’中的值进行索引)，然后对于给定的列值'val_1'，获取与此索引‘val_1’相关联的所有行键，然后遍历这些行键并在我心目中检索相应的rows.This将涉及对原始hbase表的随机访问。有没有人给我建议哪个选项跑得更快，或者你还有另一个更好的选择？非常感谢!

浏览 3提问于2011-12-02得票数 3

1回答

apache如何查询HBase？

、、、

当我们在Hbase列上启动SQL with condition时，hbase是否每次都会进行完全扫描？或者，drill使用了某种索引机制来避免完全扫描？另外，我们是否需要在每个区域服务器上安装drillbits以获得最佳数据局部性？

浏览 0提问于2018-03-22得票数 0

3回答

如何在毫秒内从HBase表中查询数据？

、、

我正在编写一个接口来查询Hbase表中的分页数据，我通过一些条件查询分页数据，但是它的.My rowkey非常慢：12345678:yyyy-mm-dd、8个随机数的长度和日期.I尝试使用Redis缓存所有rowkeys并在其中进行分页，但是很难通过其他条件查询数据。我还考虑在Hbase中设计二级指标，并与同事讨论，他们认为二级指标很难维持。那么，谁能给我一些想法呢？

浏览 3提问于2016-08-17得票数 1

回答已采纳

2回答

如何设计Hbase模式？

、、、

假设我有这个RDBM表()： col1: entityID col2: attributeName col3: value 由于缩放问题，我想使用HBase。我知道访问Hbase表的唯一方法是使用主键(游标)。您可以获取特定键的游标，并逐个迭代行。问题是，在我的例子中，我希望能够在所有3列上迭代。例如：对于给定的entityID，我想得到它的所有属性和值为了给attributeName和价值，我想要所有的entitiIDS . 因此，我的一个想法是构建一个Hbase表，它将保存数据(表数据，以entityID作为主索引)，和2个“索引”表--一个以attributeNa

浏览 3提问于2008-12-17得票数 11

回答已采纳

2回答

使用协处理器或HBase创建辅助索引

、、

我一直在尝试编写自己的协处理器，使用prePut钩子创建二级索引。首先，我一直在尝试让prePut协处理器正常工作。到目前为止，我可以将协处理器添加到传递给它的put对象中。我发现我不能让协处理器将写入的行与传入的put对象写入的行分开。显然，要创建二级索引，我需要弄清楚这一点。下面是我的协处理器的代码，但它不能工作。是的，所有的表都存在，'colfam1‘也存在。 HBase版本:来自Cloudera的CDH4的HBase 0.92.1-cdh4.1.2 有人知道问题出在哪里吗？ @Override public void prePut(final Obs

浏览 1提问于2013-01-27得票数 4

回答已采纳

3回答

列存储dbs上的辅助索引

、

有没有支持二级索引的列存储数据库？我知道HBase有，但它还没到那一步。哈盖。

浏览 1提问于2009-07-15得票数 3

1回答

用于表格格式的Hbase存储

我需要将web服务器(比如Tomcat)生成的日志存储在HBase表中。请为我定义正确的格式为列族，键值等。我要存储的值，如ipaddress，日志数据和日志级别等。

浏览 1提问于2013-12-19得票数 0

2回答

Hadoop超立方体

、、、、

嘿，我正在启动一个基于hadoop的超立方体，具有灵活的维度数量。有没有人知道这方面的现有方法？我刚刚找到了，但是没有代码可以使用它。另一种方法是来自lastfm的，它使用hbase，但似乎已经死了。我想我会开始一个猪的解决方案，也许你有一些建议？

浏览 6提问于2011-03-03得票数 2

2回答

使用Solr查询HBase

、、

我有一个数据仓库问题，需要查询一个大型数据集。就本例而言，假设一个典型的状态有3000万个用户，每个用户都有活动统计数据。理想情况下，我可以购买数据仓库工具(Vertica、Infobright等)但这不在卡片或预算中。现在我正在考虑使用Solr来查询HBase。虽然我相信HBase可以扩展到满足需求，但我还是担心Solr。它作为搜索引擎进行了优化，即结果的第一页在最后一页之前返回，并且不支持数据库游标之类的东西。到目前为止的测试表明，从Solr中获取大型结果集的速度比我希望的要慢。例如，比较在社区版Infobright中检索一半可用用户(最终返回500MB数据的用户)的查询在一分钟内完成，

浏览 6提问于2013-02-08得票数 1

2回答

HBase或配置单元- web请求

、、、、

HBase/Hive是否适合作为您的传统(非)关系数据库的替代品？他们是否能够提供来自web客户端的web请求并及时做出响应？HBase/Hive是否仅适用于大型数据集分析？对不起，我在这方面是个新手。提前感谢！

浏览 0提问于2013-06-11得票数 0

回答已采纳

1回答

hbase如何处理索引表与数据表的一致性？

、、、

当索引表中有高并发更新时，hbase如何保证索引与数据的一致性？当查询主表时，对索引表扫描不会看到过时的数据。例如，有按时间索引的“主题”和“帖子”表，当帖子到来时，主题表被更新，也有时间列的二级索引。 # topics table key: uuid columns: [title, time] secondary index: time -> uuid (key) 如果存在二级索引扫描，数据可能会改变，扫描可能会丢失/获得过时的数据？hbase如何处理索引表与数据表的一致性？

浏览 2提问于2011-03-01得票数 0

回答已采纳

3回答

卡桑德拉还是Hbase？

、

我有一个要求，我想存储以下内容： Mac地址// PKEY TimeStamp // PKEY LocationID ownerName 信号强度插入逻辑如下：为每个活动设备(MacAddress)在每个位置(LocationID)每小时存储一次上述统计信息。条目是在每小时结束时创建的，所以主键总是MAC+TimeStamp。没有更新，只有插入。可以执行的查询如下：给我最后一个'N‘小时的所有条目，MacAddress =“.” 给我最后'N‘小时的所有条目，LocationID IN (locID1，locID2

浏览 2提问于2013-02-19得票数 2

1回答

从存储在hbase中的json对象查询多列

、、、、

我们有一个json数据存储在一个单列家族中，它有几个名称/值对。我们使用不同的名称/值组合查询这些数据，这些查询并不特别倾向于任何名称/值对(这使得很难将它们分解为列族)。提高这些查询性能的最佳方法是什么？像二级索引、黑斑羚或菲奥尼克斯之类的东西会有帮助吗？把他们分成多个列族会有帮助吗？考虑到hbase对2或3列家庭最有效，不确定这是否是正确的做法。什么是存储嵌套数据或json数据以获得良好查询性能的好系统？像apache钻机这样的东西会有帮助吗？

浏览 14提问于2014-07-14得票数 0

2回答

HBase扫描速度慢

、

问题我正试图用凤凰号建立一个二级索引。创建索引需要几个小时。这似乎是由于缓慢的HBase扫描，因为我注意到了以下性能：我可能需要2个小时来扫描这个表，而其他开发人员报告了几分钟的时间来处理较大的表(1亿行)。 HBase shell可以在大约的时间内计数行数。每秒10.000次，这意味着3800秒(>1小时！)若要计数此表的所有行，请执行以下操作。同时使用HBase外壳和Java扫描器。注:GET(按行键)操作性能良好(约0.5s)。上下文 3800万行/ 1000列/单列族/ 96Go与GZ压缩。集群有6个节点(126 24，24个核心)和5个区域

浏览 2提问于2015-05-06得票数 14

回答已采纳

1回答

Google二级索引

、、

在查看Google时，我发现它没有提供定义二级索引的能力。因此，如果你有10亿笔交易，对于1000万个客户来说，你似乎需要一个完整的表格扫描来提取一个客户的所有事务。由于Google似乎正在使用Apache HBase，我的第一个想法是:大概可以将Apache凤放在首位。然而，我发现在这个方向上几乎没有发现，最相关的似乎是2018年的，提到“这将是困难的，因为不支持协处理器”。好吧，现在我们还有很长的路要走，虽然我确认协处理器似乎仍然不被支持，但我想知道是否出现了支持二级指数的模式？

浏览 10提问于2022-05-27得票数 0

回答已采纳

1回答

使用协处理器的HBase二级索引

、

我正在使用协处理器实现一个HBase表的二级索引。将行键放入索引表后，如果扫描主表，是否会自动扫描索引表。链接是如何发生的？这里我指的是的实现这仍然是使用非rowkey快速过滤数据的有效解决方案吗？

浏览 4提问于2018-06-28得票数 0

2回答

菲尼克斯创建索引遇到异常

、

当我想在上创建索引时，在sqlline中有超过1亿行的大型hbase表，几分钟后我得到了一个异常。我不知道如何解决这个问题。我的env是： hbase(主要)：001:0>版本 1.0.0-cdh5.4.2，rUnknown，Tue，5月19日17:07:29 凤凰城连接:菲尼克斯(4.6版) 驱动程序: PhoenixEmbeddedDriver (版本4.6) 自动提交状态:真异常信息看起来如下： 15/12/11 14:20:08 WARN client.ScannerCallable: Ignore, probably already closed org.a

浏览 6提问于2015-12-11得票数 0

2回答

列限定符上的Hbase排序

、、

我有一张有几百万张唱片的Hbase表。每个记录都有两个描述记录的属性，每个属性都存储在一个列限定符中。(主要是int或string值)，我有一个要求，即我应该能够看到基于列限定符(或者将来甚至不止一个)分页和排序的记录。做这件事的最佳方法是什么？我已经研究过使用协处理器的二级索引(主要是来自华为的hindex )，但它似乎与我的用例不完全匹配。我还考虑过将所有数据复制到多个表中，每个sort属性一个表，这些表将包含在rowkey中，然后将查询重定向到这些表中。但这似乎很乏味，因为我已经有了一些所谓的属性。谢谢你的建议。

浏览 1提问于2014-01-07得票数 4

回答已采纳

1回答

如何在hbase协处理器中进行截取扫描

、、、

你如何拦截在hbase中被查询的内容？我看到您可以拦截preGetOp和preScannerOpen，但我不知道column families和column qualifiers被查询的是什么。你怎么看出来的？我愿意写一个协处理器来拦截查询并在一个二级索引表中搜索.

浏览 5提问于2015-01-12得票数 0

回答已采纳

1回答

& Solr :未找到数据

、、

我目前正在使用hbase在solr中索引hbase。当我执行愚弄命令检查索引器时， hbase-indexer$ bin/hbase-indexer list-indexers --zookeeper 127.0.0.1:2181 其结果是： myindexer + Lifecycle state: ACTIVE + Incremental indexing state: SUBSCRIBE_AND_CONSUME + Batch indexing state: INACTIVE + SEP subscription ID: Indexer_myindexer + SEP subscript

浏览 4提问于2017-01-24得票数 2

回答已采纳

1回答

选择NoSQL数据库

、、、

我需要一个运行在Windows上的NoSQL数据库，它可以很好地处理以下参数。目前，Azure Table，HBase和Cassandra似乎是最有希望的选择。 10亿个实体每秒最多读取100次，但是缓存通常会使其更少。大约10 - 50写每秒。强的一致性将是一个好处，所以在这方面HBase也许会比卡桑德拉更好。查询通常是在内存中的二级数据库上进行的，除了ElasticSearch或Windows搜索全文搜索之外，还有一些筛选。 Azure表存储看起来可能不错，但据我所知，Azure表存储与HBase的最大区别是，HBase支持更新和读取单个属性的值，而不是一次性读

浏览 1提问于2015-01-22得票数 1

1回答

是否有用于输入Hbse Puts的Java / Scala实现来实际显示事务的结果

、、、

我发现我的Hbase条目之一无法工作。我想有一个用于Java / Scala Hbase客户端的Hbase方法，可以显示在Hbase表中输入Puts的结果。在Hbase中似乎没有任何关于事务的条目。

浏览 1提问于2016-06-21得票数 0

1回答

使用NGDATA Hbase索引器集成Solr和Hbase

、、、、

在使用对Hbase表数据进行索引之后，数据不会反映在Solr中。我遵循了中提供的步骤。1.创建HBase表2.将hbase-sep jar文件复制到Hbase的lib目录下。3.使用索引信息创建索引器xml文件4.使用索引器xml文件创建索引器。在执行了上述所有步骤之后，我尝试使用Solr UI进行搜索，但没有看到数据反映在那里。有人做过这件事吗？

浏览 0提问于2015-10-14得票数 0

1回答

如何在Hbase中按列查询？

示例表如下。我想按姓氏搜索所有的记录。如何在Hbase中查询？ Key First Name Last Name Sport 1 John Smith Baseball 2 Wayne Smith Baseball 3 Robert Reynolds Basketball 4 Mark Thompson Basketball 注意:这里我的行id是“Key”列。

浏览 0提问于2017-03-20得票数 0

2回答

Hbase模式设计

、、、

我必须设计一个Hbase表来存储用户信息，这些信息是针对社交网络的，比如:年龄、性别、教育程度、爱好、读书、旅行的国家.注:我们可以在未来增加更多的信息，我们现在不知道所有的信息。姓名: Olha，年龄: 25岁，性别:女性，学历:信息技术学士，学历:计算机硕士，爱好:篮球，爱好:乒乓球，书:随风而去，书:达芬奇码，语言:英语，语言:法语，国家:德国主要的想法是能够做这样的问询:回报所有女性，年龄: 22岁，说:英语，说:法语，看书随风而去，喜欢乒乓球，喜欢篮子球和德语。因此，可以将任何条件添加到搜索查询中。您对HBASE表模式(行键、列族.)有什么建议？这优化了这类搜索查询(考虑到我

浏览 2提问于2013-04-14得票数 0

回答已采纳

1回答

Hbase在哪里存储数据？

、、、、

我是HBase的新手。目前，我正在使用hortonworks沙箱hdp2。在学习Hbase的时候，我遇到了一些问题。 hbase在哪里存储数据？如果它存储在HDFS上，那么它是如何执行更新操作的，因为hdfs是写一次并多次读取。

浏览 2提问于2015-08-24得票数 6

回答已采纳

2回答

apache菲尼克斯连接查询性能

、、、、

几个月前我就开始用凤凰号了。下面是环境和版本的详细信息。 Hadoop - Cloudera CDH 5.4.7-1凤凰- 4.3 -凤凰城，在CDH5.4.7-1上作为包裹。HBase版本- HBase 1.0.0 JDK - 1.7.0_67 1主服务器和3个区域服务器。我们开始做一个POC来评估Apache凤凰城。我们在Oracle DB的12个不同表中有数据。我们使用Oracle金门将数据输入Hadoop系统。有12个不同的凤凰表，每个表都有40-100列，有几百行。我们执行转换过程，然后将其加载到最终的表中。这是我们正在做的基本ETL。转换过程经历了几个中间阶段，其中我们填充中间

浏览 2提问于2016-01-22得票数 5

1回答

Java.lang.ClassNotFoundException导致Apache Phoenix IndexTool失败: org.apache.tephra.TransactionSystemClient

、、

我有Cloudera CDH 5.14.2集群，安装了Apache Phoenix Parcel (APACHE_PHOENIX-4.14.0-cdh5.14.2.p0.3)。我有一个包含二级索引的表，我想使用Apache Phoenix提供的IndexTool填充这个索引。但这给了我以下错误： 19/01/02 13:58:10 INFO mapreduce.Job: The url to track the job: http://mor-master-01.triviadata.local:8088/proxy/application_1546422102410_0020/ 19/0

浏览 215提问于2019-01-02得票数 0

回答已采纳

1回答

一级指标和二级指标到底有什么区别？

、、、

谁能告诉我一级索引和二级索引的确切区别是什么？在一级和二级指标类别下有哪些不同的指标？使用主索引比使用辅助索引有什么优点?反之亦然？

浏览 0提问于2013-12-29得票数 55

回答已采纳

1回答

org.apache.hadoop.hbase.NotServingRegionException区域未联机的HBase失败

、、

我有一个异步应用程序，它使用HBase将数据保存到。我的HBase版本是: 1.0.0-cdh5.6.0我的异步HBase客户端版本是: 0.9.0 应用程序运行了一段时间(~4或5天)，但在周末期间，它开始失败，但有以下例外： org.apache.hadoop.hbase.NotServingRegionException: Region pageviews,,1463568860289.298bb29bbd148a0a62ec90885ef8d027. is not online on //some address here at org.apache.hadoop.h

浏览 3提问于2016-05-29得票数 4

回答已采纳

1回答

HBase中的简单查询

、

我是HBase的新手。我知道HBase并不等同于关系数据库管理系统。但是，我喜欢在HBase中运行简单的查询，这在关系数据库管理系统中非常简单。我尝试使用扫描和过滤器，但我不知道如何通过使用值得到列。考虑一下这个简单的MySQL查询："SELECT username FROM members WHERE email = myname@domain.com“ 在HBase中，我有一个表名: members。我有两个专栏:用户名和电子邮件。现在，我想提取用户名，其中电子邮件等于myname@domain.com。在指定列族和限定符时，我发现了许多可以提取值的示例。但我的情况不

浏览 2提问于2015-05-02得票数 0

1回答

Storm拓扑中Solr索引与Hbase NG索引

、、、

我正在设计Solr中的数据索引功能。我们正在使用Storm拓扑，并有一个Hbase螺栓，它正在添加数据到Hbase。需要的是，我们在Hbase中添加的数据，也需要索引。可供选择的办法如下：添加代码到索引在Solr，在Hbase螺栓本身。创建一个新的螺栓，并将Solr索引分开使用Hbase ND索引器，并将Solr索引器与Hbase行插入集成。前两个选项类似于事务，即Hbase和Solr或none。但不确定，我们能否做到这一点，因为我们正在处理大规模的数据。对于第三种选择，起点是Hbase，因此假定所有数据都在那里。但是，我们无法完全控制调试，因为我们必须将jar

浏览 3提问于2015-05-21得票数 0

回答已采纳

2回答

HBase中的随机访问性能和HDFS中的数据块大小

、

HBase可以使用HDFS作为后端分布式文件系统。但是，它们的默认块大小有很大的不同。HBase默认块大小为64KB，HDFS默认块大小至少为64MB，至少是HBase的1000倍。我知道HBase是为随机访问而设计的，所以较小的块大小是有帮助的。但是，当在HBase中访问64K的块时，还需要在HDFS中访问一个64MB的块吗？如果是真的，HBase能很好地处理极端随机访问吗？

浏览 1提问于2012-09-18得票数 12

回答已采纳

2回答

hbase -索引器solr numFound不同于hbase表行大小

、、、

最近，我的团队正在使用CDH上的将hbase表列索引到solr。当我们部署服务器(被称为键值存储索引器)并开始测试时。我们发现，hbase表和solr索引之间的行大小不同：我们使用菲尼克斯计算hbase表行： 0: jdbc:phoenix:slave1,slave2,slave3:2181> SELECT /*+ NO_INDEX */ COUNT(1) FROM C_PICRECORD; +------------------------------------------+ | COUNT(1) | +-----

浏览 4提问于2016-05-17得票数 1

回答已采纳

2回答

Solr HBase搜索引擎

、、、、

我需要在HBase和HDFS之上使用SolrCloud作为搜索引擎，以搜索大量文档。目前，这些文档位于不同的数据源中。我搞不懂Solr是应该在自己内部搜索、索引和存储这些文档，还是应该只使用Solr来索引，并且文档及其元数据应该驻留在HBAse/HDFS层中。我尝试过搜索Solr集成是如何工作得最好的(意思是应该在HBase级别做什么，在Hadoop级别做什么)，但都是徒劳的。有没有人之前做过这种大数据搜索，可以给出一些建议？谢谢

浏览 3提问于2015-08-07得票数 1

1回答

提高HBase查询性能

、、、、

我有一个大约5亿行的大型HBase表，大约有100列(每行不同)的数据。我希望尽可能快地根据任何列限定符值查询这些数据。我知道，当我们知道行键时，HBase是为快速读取而优化的，但是我想根据不同的列值进行查询。但是使用列过滤器(使用JAVA )会导致全表扫描，从而减慢系统的运行速度。我有什么选择？索引:每行中的列都会发生更改。我还能做索引吗？我是否继续使用HBase存储数据？或者和Solr或者ElasticSearch一起使用？对于基于任何可能有10亿行的列值的随机查询，我可以期望获得什么样的性能？欢迎任何其他建议。

浏览 2提问于2014-03-03得票数 1

1回答

Cassandra在运行集群中添加新的数据中心

我使用CassandraDSE4.7，3个节点运行一个数据中心，现在我们计划添加另一个有3个节点的数据中心。我遵循了以下步骤： http://docs.datastax.com/en/cassandra/2.0/cassandra/operations/ops_添加_数据中心_至_集群_t.html。我们在每个节点上有大约20 We的数据(总计:60 We)。问题是当我跑的时候： nodetool rebuild --old_datacenter_name on one of new node 从集群同步数据是非常缓慢的。我已经增加了getstreamthroughput和getcom

浏览 0提问于2015-10-20得票数 0

回答已采纳

2回答

Apache菲尼克斯与Hbase原生API

、

我正在使用Apache菲尼克斯简化我在Hbase上的数据检索/更新操作。但是我想知道从性能的角度来看，哪一个更好？使用Hbase本机API的凤凰包装还是自定义包装？或者，我们是否有其他不影响性能的方法？

浏览 5提问于2015-02-06得票数 5

回答已采纳

1回答

菲尼克斯盐表主题与Hbase

、、

当我对菲尼克斯表进行盐化并直接从hbase插入数据时，我遇到了一个行键问题。下面是一个场景： 1-使用salt_buckets=16在菲尼克斯上创建一个表 2-数据由风暴hbase螺栓插入到hbase表中。hbase螺栓直接在hbase中插入数据，而不经过菲尼克斯。问题是，在对菲尼克斯运行select查询时，菲尼克斯行键总是比first行键缺少第一个字符。示例： hbase行键: 1f05d01f-6a17-4d7b-8d97-df32d8856666 凤凰号: f05d01f-6a17-4d7b-8d97-df32d8856666 我期待着得到回应，伙计们。提前谢谢你。

浏览 6提问于2017-12-14得票数 0

4回答

浅谈蔚蓝表二级索引

、、

我知道二级索引还没有到这里：我喜欢从可靠的源中获得一些关于传入的二级索引的想法(或信息)。第一个问题：我注意到MS计划了“二级索引”：这是否意味着我们可以在一个表上创建任意数量的索引第二个问题：当前的索引是"PartitionKey+RowKey"，如果上面的问题不是真的，第二个索引是"RowKey+PartitionKey“，还是我们有很好的机会可以定制它？我喜欢获得一些想法，因为我目前正在设计一个表，因为数据从一开始就不会太多，所以我认为现在我可以在不创建多个表的情况下等待二级索引功能。请分享你的想法或任何来源，谢谢。

浏览 4提问于2012-01-13得票数 1

回答已采纳

1回答

Spark access行对象值

、、

我想按分区迭代一个数据帧，并为每个分区迭代它的所有行，并为它们创建一个deleteList，其中将包含每行的HBase的delete对象。我在Java中使用Spark和HBase，并用以下代码创建了一个Row对象： df.foreachPartition((ForeachPartitionFunction<Row> iterator -> { while (iterator.hasNext()) { Row row = RowFactory.create(iterator.next()); deleteList.add(new Delete(Bytes.

浏览 38提问于2021-10-11得票数 0

回答已采纳

1回答

如何用二进制数据作为SOLR字段索引HBase列？

、、、、

我需要索引存储在HBase行中的数据。显而易见的解决方案是通过复制使用莉莉HBase索引器并将结果推送到SOLR集合中。问题的根源在于我的HBase行中有一些‘简短的二进制’列，如MD5、CRC64、UUID等等。当然，我将它们存储为原始的byte[]表示形式，这为我节省了很多空间。但是，我需要基于存储实际表示的一些标准来索引数据。如何正确地做到这一点？目前，我只在SOLR中看到BinaryField作为适当的SOLR字段类型。但是它需要HBase列内容被Base64编码，莉莉HBase索引器看起来不像支持这个的解决方案。我通过莉莉HBase索引器看到的唯一选项是将列映射配置为b

浏览 2提问于2014-07-18得票数 2

回答已采纳

2回答

Riak二级索引数据类型的用途是什么？

、

Riak中有二级索引的数据类型概念，我不确定为什么我们需要这个数据类型？因为索引看起来就像是存储数据对象的类别。我没有找到任何关于这方面的文件。

浏览 2提问于2012-03-22得票数 2

1回答

是否可以将Hbase数据与Solr数据一起检索？

、、

我有Hbase，莉莉，Solr和色调设置搜索和可视化的管道。我可以使用Hue在Solr中搜索索引的数据，但我不能查看所有必需的数据，因为我没有将Hbase中的所有字段都存储在Solr中。我也不打算存储所有的数据。那么，有没有一种方法可以从Hbase中检索这些字段以及Solr响应，以便使用Hue可视化数据？据我所知，我相信可以设置Solr 来执行此操作，但我还没有找到一个具体的示例来帮助我更好地理解(我对Solr和Hbase都是新手，所以示例很有帮助) 我的问题类似于。但我无法在那里发表评论以获得更多信息。当前的解决方案归功于Romain的建议:使用HTML小部件为色调搜索页面中的每个记录

浏览 0提问于2015-07-15得票数 2

2回答

HDFS如何修改数据

、、

如果HDFS不允许修改文件，HBase为什么要存储和修改数据？很难找到这个问题的答案，因为结果大多是面向HBase物理数据格式的。但是我找不到HBase是如何解决HHDFS文件不可变的问题的？

浏览 2提问于2013-10-01得票数 3

回答已采纳

1回答

如何避免solr中的重复文档？

、、、

我正在尝试使用MapReduceindexer工具来索引hbase数据。我正在使用下面的命令成功地索引 hadoop jar /usr/lib/hbase-solr/tools/hbase-indexer-mr-1.5-cdh5.3.0-job.jar --hbase-indexer-zk localhost --hbase-table-name indexdemo-user --hbase-indexer-name mynewindexer --hbase-indexer-file /home/cloudera/indexdemo-indexer.xml --collection c

浏览 0提问于2015-07-13得票数 2