大数据智能实战-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

大数据智能实战

大数据与人工智能方向的论文复现、技术探索、工程实践的点滴记录和积累。

专栏成员

256

文章

411317

阅读量

56

订阅数

Spark实现HIVE统计结果导入到HBase操作

hive 编程算法 python hbase spark

由于HIVE更新的机制极其不适应SPARK环境，于是利用HBase来执行HIVE中某些统计结果的更新。首先要做的是实现Spark + Hive访问，得到RDD，再将这个RDD导入到HBase中操作。然而网上关于这一块目前资料还真很少。但是其原理总体上来说是非常简单的。步骤主要是两步： (1)开启hive连接器，实现spark + hive的访问，得到dataframe对象。

2022-05-07

5600

Spark访问HBase的Eclipse代码实现

java hadoop hbase spark TDSQL MySQL 版

Hbase是一个列式数据库，从其本质上来看，可以当做是一个数据源，而Spark本身又可以进行Hbase的连接，访问数据并进行查询。

2022-05-07

3800

ZooKeeper集群安装与Hbase全分布式安装

hbase TDSQL MySQL 版 zookeeper ubuntu linux

Apache ZooKeeper 是一个面向分布式应用程序的高性能协调服务器。要实现Hbase全分布式安装，需要安装ZooKeeper，当然后面kafka也需要安装这个东西。

2022-05-07

3040

HBase启动错误client.ConnectionManager$HConnectionImplementation的解决办法

数据库 hbase

有时候，HBase因为在写入过程中直接强行中断之后，再次重启过程中，会经常出现一些异常信息。其中标题这个错误也是经常碰到的一个。具体报的错误如下： 2016-09-28 14:08:16,448 E

2018-01-09

1.4K0

HBase中正则过滤表达式与JAVA正则表达式不一致问题的分析和解决

hbase java 正则表达式 express

HBase提供了丰富的查询过滤功能。比如说它提供了RegexStringComparator这样的函数，可以实现按照正则表达式进行过滤。它可以有效地弥补向前缀查询这样的机制，从而可以使hbase也支持了类似于like查询之类的功能。然而在实践过程中，很多人都会遇到一个问题，对于里面的正则表达式没有过于详细的介绍，一直以为是直接从JAVA等一些标准的正则表达式演化过来。直接拿过来用就可以。但是，这只是美好的猜测而已。如stackoverflow上的这篇问题一样。http://stackoverflow

2018-01-09

1.2K0

HBase暴力删除HDFS数据后建表出现Table already exist问题的解决

大数据 hbase

在一些情况下，不得不对HBase数据进行暴力删除，这种情况如原始数据量特别大，而又不需要存储的时候。或者HBase无法启动等问题。删除比较简单，直接调用hadoop fs -rm -r /hbase

2018-01-09

1.1K0

Hbase的后缀过滤查询

HBase原生自带了对RowKey的很多种查询策略。通过这个过滤器可以在HBase中的数据的多个维度（行，列，数据版本）上进行对数据的筛选操作，也就是说过滤器最终能够筛选的数据能够细化到具体的一个存储单元格上（由行键，列明，时间戳定位）。其API中提供的Filter大致如下： CompareFilter 是高层的抽象类，下面我们将看到他的实现类和实现类代表的各种过滤条件 RowFilter,FamliyFilter,QualifierFilter,ValueFilter 行，列组，列，值等的过滤

2018-01-09

3.7K0

HBase启动过于缓慢的原因及其优化策略

数据库 hbase

当HBASE导入了几十亿的数据记录时，某一天重启一下HBASE，发现启动过于缓慢，一直在提示PleaseHoldException:Master is initializing, 打开日志实时查看了下，其提示的信息一直是region transition　状态的各种变化。然而最惨的是，运行到最近，直接由于zookeeper超时，导致无法启动。网上关于master is initalizing的问题解决都没有相应的问题。于是针对这个问题，只能仔细去摸一下Region的内核。特别是从http://hbase

2018-01-09

1K0

org/apache/hadoop/hbase/CompatibilityFactory(scan)没有找到类的解决办法

apache hadoop hbase

在做spark连接Hbase的时候，总会蹦出一些问题。总结起来就是各种类的找不到。如：org/apache/hadoop/hbase/CompatibilityFactory没有找到类， E xception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/hbase/client/Scan 如此等等。这些问题的核心还是没有正确加载Hbase所需要的库。而Hbase中的一些库存在的会与spark中有一些版本

2018-01-09

1.8K0

Spark Hbase读取操作的一些总结与测试

spark 数据库 hbase

Spark连接HBase实现查询的操作有好多种步骤，其中常用的是直接调用Hbase本身提供的写入和读出的接口。然而不少人在此基础上进行了各种封装，有的支持spark sql on Hbase，著名如

2018-01-09

1.1K0

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态