腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

我是攻城师

专栏作者

492

文章

957842

阅读量

119

订阅数

关于Hbase多版本存储的一个注意点

我们知道hbase是一个多版本的管理系统，在0.96的版本之前默认每个列是3个version，在hbase 0.96之后每个列是1个version，所谓的version其实就是同一条数据插入不同的时间戳来实现的，在hbase底层的存储是基于时间戳排序的，所以每次我们查到的数据都是最新的版本，除非我们指定了要读取特定的时间范围的数据。先看下Hbase里面Put和Delete命令的api： Put： Put(byte[] row) Put(byte[] row, long ts) Put(byte[] row

我是攻城师

2018-05-15

2.3K0

Elasticsearch如何保证数据不丢失？

上篇文章提到过，在elasticsearch和磁盘之间还有一层cache也就是filesystem cache，大部分新增或者修改，删除的数据都在这层cache中，如果没有flush操作，那么就不能100%保证系统的数据不会丢失，比如突然断电或者机器宕机了，但实际情况是es中默认是30分钟才flush一次磁盘，这么长的时间内，如果发生不可控的故障，那么是不是必定会丢失数据呢？很显然es的设计者早就考虑了这个问题，在两次full commit操作（flush）之间，如果发生故障也不能丢失数据，那么es是如何

我是攻城师

2018-05-15

5.7K0

如何使用scala+spark读写hbase？

scala hbase spark

最近工作有点忙，所以文章更新频率低了点，希望大家可以谅解，好了，言归正传，下面进入今天的主题：如何使用scala+spark读写Hbase 软件版本如下： scala2.11.8 spark2.1.0 hbase1.2.0 公司有一些实时数据处理的项目，存储用的是hbase，提供实时的检索，当然hbase里面存储的数据模型都是简单的，复杂的多维检索的结果是在es里面存储的，公司也正在引入Kylin作为OLAP的数据分析引擎，这块后续有空在研究下。接着上面说的，hbase存储着一些实时的数据，前两周新需求

我是攻城师

2018-05-14

1.5K0

Spark如何读取Hbase特定查询的数据

最近工作需要使用到Spark操作Hbase，上篇文章已经写了如何使用Spark读写Hbase全量表的数据做处理，但这次有所不同，这次的需求是Scan特定的Hbase的数据然后转换成RDD做后续处理，简单的使用Google查询了一下，发现实现方式还是比较简单的，用的还是Hbase的TableInputFormat相关的API。基础软件版本如下：直接上代码如下：上面的少量代码，已经完整实现了使用spark查询hbase特定的数据，然后统计出数量最后输出，当然上面只是一个简单的例子，重要的是能把hbase数

我是攻城师

2018-05-14

2.7K0

浅谈ElasticSearch的嵌套存储模型

es 2 存储 spark hbase

最近一个半月都在搞SparkStreaming+Hbase+Redis+ES相关的实时流项目开发，其中重度使用了ElasticSearch作为一个核心业务的数据存储，所以这段时间更新文章较少，现在开发基本完事，接下来的会写几篇有关ElastiSearch的使用心得。大多数时候我们使用es都是用来存储业务比较简单的数据，比如日志log类居多，就算有一些有主外键关联的数据，我们也会提前join好，然后放入es中存储。的确，扁平化后的数据存入索引，无论是写入，更新，查询都比较简单。但是有一些业务却没法扁平化后

我是攻城师

2018-05-14

1.9K0

如何监控你的Hadoop+Hbase集群？

前言监控hadoop的框架有不少，如CDH的CM组件和Ambari都可以监控他们自己的hadoop，但是它不能监控apache的hadoop，如果你是使用原生的Apache Hadoop，那么也没关系，原生的Hadoop天生就提供了非常详细的对接Ganglia的jmx接口，里面包含了各个核心组件metrics获取功能，这一点你可以查看hadoop和hbase包括spark的conf下面的metrics文件里面配置，就能得到验证。（一）Ganglia是什么？　Ganglia 是 UC Berk

我是攻城师

2018-05-14

1.3K0

Hadoop+Hbase集群数据迁移问题

hbase TDSQL MySQL 版单片机 java hadoop

数据迁移或备份是任何一个公司都有可能到遇到的一件事，有关hbase数据迁移，官网也给出了几种方案，这里比较推荐使用hadoop distcp这种方式迁移。比较适合大数据量或者跨版本集群之间的数据迁移服

我是攻城师

2018-05-14

1.5K0

Hbase+Solr实现二级索引提供高效查询

hbase lucene/solr github hive

接着上一篇介绍协处理器的文章http://qindongliang.iteye.com/blog/2277145，本篇我们来实战一个例子，看下如何使用协处理来给Hbase建立二级索引。 github地址：https://github.com/qindongliang/hbase-increment-index 业务需求：现有一张Hbase的表，数据量千万级+，而且不断有新的数据插入，或者无效数据删除，每日新增大概几百万数据，现在已经有离线的hive映射hbase 提供离线查询，但是由于性能

我是攻城师

2018-05-14

2.9K0

Hbase协处理器介绍

（一）Hbase协处理器的前世今生 Hbase是仿照Google的BigTable设计的，而其协处理器也是仿照BigTable的协处理实现完成的，具体链接可参考：http://research.google.com/people/jeff/SOCC2010-keynote-slides.pdf （二）什么是Hbase协处理器（Coprocessors ）？ Hbase的协处理器在Hbase中属于高级的应用功能，它可以让开发者自定义的代码在服务器端执行，来完成特定的一些功能。（三）为什

我是攻城师

2018-05-14

1.4K0

Apache Phoenix安装使用

前提Hadoop+Hbase集群已经能够正常运转，如果不知道如何安装，请查看如下两篇文章： Hadoop安装 http://qindongliang.iteye.com/blog/2222145 Hbase安装 http://qindongliang.iteye.com/blog/2095733 框架版本： Apache Hadoop2.7.1 Apache Hbase0.98.12 Apache Zookeeper3.4.6 Centos6.5 Apache Ant1.9.5

我是攻城师

2018-05-14

1.6K0

Hive集成Tez让大象飞起来

hive apache hadoop hbase

基础环境 Apache Hadoop2.7.1 Centos6.5 Apache Hadoop2.7.1 Apache Hbase0.98.12 Apache Hive1.2.1 Apache Tez0.7.0 Apache Pig0.15.0 Apache oozie4.2.0 Apache Spark1.6.0 Cloudrea Hue3.8.1 安装Tez，请参考上篇文章：http://qindongliang.iteye.com/blog/2271440 安装成功之后

我是攻城师

2018-05-14

1.2K0

一次bug死磕经历之Hbase堆内存小导致regionserver频繁挂掉编辑

hbase apache zookeeper

环境如下： Centos6.5 Apache Hadoop2.7.1 Apache Hbase0.98.12 Apache Zookeeper3.4.6 JDK1.7 Ant1.9.5 Maven3.0.5 最近在测Hbase的压缩，Hadoop安装了lzo和snappy，插入50条文本数据，每条数据大约4M，来看他们的压缩率对比，然后在测的过程中，发现用java客户端去scan这50条数据时，regionserver频繁宕机看hbase的log发现并无明显异常，查看datano

我是攻城师

2018-05-14

7490

设置Hadoop+Hbase集群pid文件存储位置

有时候，我们对运行几天或者几个月的hadoop或者hbase集群做停止操作，会发现，停止命令不管用了，为什么呢？因为基于java开发的程序，想要停止程序，必须通过进程pid来确定，而hadoop和hbase默认的情况下，会把pid文件存储在Linux上的/tmp目录的某个目录下，进程名命令规则一般是框架名-用户名-角色名.pid，而默认情况下，linux的tmp里面的东西，一天会删除一次，所以把pid文件放在这里面，并不是长久之计，为了安全起见，我们还是放到一个固定的目录下最好，当然不能放在/tmp

我是攻城师

2018-05-14

1.7K0

hadoop常见问题解答

hadoop mapreduce hbase TDSQL MySQL 版分布式

（1）Hadoop适不适用于电子政务？为什么？电子政务是利用互联网技术实现政府组织结构和工作流程的重组优化，建成一个精简、高效、廉洁、公平的政府运作信息服务平台。因此电子政务肯定会产生相关的大量数据以及相应的计算需求，而这两种需求涉及的数据和计算达到一定规模时传统的系统架构将不能满足，就需要借助海量数据处理平台，例如Hadoop技术，因此可以利用Hadoop技术来构建电子政务云平台。总结一下，任何系统没有绝对的适合和不适合，只有当需求出现时才可以决定，在一个非常小的电子政务系统上如果没有打数据处

我是攻城师

2018-05-11

1.1K0

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态