首页
学习
活动
专区
工具
TVP
发布

大数据智能实战

大数据与人工智能方向的论文复现、技术探索、工程实践的点滴记录和积累。
专栏作者
256
文章
392688
阅读量
56
订阅数
Spark实现HIVE统计结果导入到HBase操作
由于HIVE更新的机制极其不适应SPARK环境,于是利用HBase来执行HIVE中某些统计结果的更新。首先要做的是实现Spark + Hive访问,得到RDD,再将这个RDD导入到HBase中操作。 然而网上关于这一块目前资料还真很少。但是其原理总体上来说是非常简单的。 步骤主要是两步: (1)开启hive连接器,实现spark + hive的访问,得到dataframe对象。
sparkexpert
2022-05-07
5420
Spark访问HBase的Eclipse代码实现
Hbase是一个列式数据库,从其本质上来看,可以当做是一个数据源,而Spark本身又可以进行Hbase的连接,访问数据并进行查询。
sparkexpert
2022-05-07
3660
ZooKeeper集群安装与Hbase全分布式安装
      Apache ZooKeeper 是一个面向分布式应用程序的高性能协调服务器。要实现Hbase全分布式安装,需要安装ZooKeeper,当然后面kafka也需要安装这个东西。
sparkexpert
2022-05-07
2690
HBase启动错误client.ConnectionManager$HConnectionImplementation的解决办法
有时候,HBase因为在写入过程中直接强行中断之后,再次重启过程中,会经常出现一些异常信息。其中标题这个错误也是经常碰到的一个。 具体报的错误如下: 2016-09-28 14:08:16,448 E
sparkexpert
2018-01-09
1.3K0
HBase中正则过滤表达式与JAVA正则表达式不一致问题的分析和解决
HBase提供了丰富的查询过滤功能。 比如说它提供了RegexStringComparator这样的函数,可以实现按照正则表达式进行过滤。它可以有效地弥补向前缀查询这样的机制,从而可以使hbase也支持了类似于like查询之类的功能。 然而在实践过程中,很多人都会遇到一个问题,对于里面的正则表达式没有过于详细的介绍,一直以为是直接从JAVA等一些标准的正则表达式演化过来。直接拿过来用就可以。 但是,这只是美好的猜测而已。 如stackoverflow上的这篇问题一样。http://stackoverflow
sparkexpert
2018-01-09
1.2K0
HBase暴力删除HDFS数据后建表出现Table already exist问题的解决
在一些情况下,不得不对HBase数据进行暴力删除,这种情况如原始数据量特别大,而又不需要存储的时候。或者HBase无法启动等问题。 删除比较简单,直接调用hadoop fs -rm -r /hbase
sparkexpert
2018-01-09
1K0
Hbase的后缀过滤查询
HBase原生自带了对RowKey的很多种查询策略。通过这个过滤器可以在HBase中的数据的多个维度(行,列,数据版本)上进行对数据的筛选操作,也就是说过滤器最终能够筛选的数据能够细化到具体的一个存储单元格上(由行键,列明,时间戳定位)。 其API中提供的Filter大致如下: CompareFilter 是高层的抽象类,下面我们将看到他的实现类和实现类代表的各种过滤条件 RowFilter,FamliyFilter,QualifierFilter,ValueFilter 行,列组,列,值等的过滤
sparkexpert
2018-01-09
3.6K0
HBase启动过于缓慢的原因及其优化策略
当HBASE导入了几十亿的数据记录时,某一天重启一下HBASE,发现启动过于缓慢,一直在提示PleaseHoldException:Master is initializing, 打开日志实时查看了下,其提示的信息一直是region transition 状态的各种变化。然而最惨的是,运行到最近,直接由于zookeeper超时,导致无法启动。 网上关于master is initalizing的问题解决都没有相应的问题。于是针对这个问题,只能仔细去摸一下Region的内核。 特别是从http://hbase
sparkexpert
2018-01-09
9230
org/apache/hadoop/hbase/CompatibilityFactory(scan)没有找到类的解决办法
在做spark连接Hbase的时候,总会蹦出一些问题。总结起来就是各种类的找不到。 如:org/apache/hadoop/hbase/CompatibilityFactory没有找到类, E xception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/hbase/client/Scan 如此等等。 这些问题的核心还是没有正确加载Hbase所需要的库。 而Hbase中的一些库存在的会与spark中有一些版本
sparkexpert
2018-01-09
1.7K0
Spark Hbase读取操作的一些总结与测试
Spark连接HBase实现查询的操作有好多种步骤,其中常用的是直接调用Hbase本身提供的写入和读出的接口。 然而不少人在此基础上进行了各种封装,有的支持spark sql on Hbase,著名如
sparkexpert
2018-01-09
1K0
没有更多了
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战,赢鹅厂证书、公仔好礼!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档