腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
我是攻城师
专栏作者
举报
492
文章
957842
阅读量
119
订阅数
订阅专栏
申请加入专栏
全部文章
java
其他
编程算法
es 2
spark
存储
hadoop
大数据
lucene/solr
数据库
数据结构
apache
开源
api
sql
github
jdk
jvm
scala
hive
安全
缓存
搜索引擎
linux
分布式
hbase
oracle
数据分析
git
mapreduce
二叉树
node.js
maven
机器学习
json
人工智能
shell
python
spring
hashmap
容器镜像服务
容器
网络安全
https
javascript
云数据库 SQL Server
云数据库 Redis
ide
nginx
yarn
spring boot
数据处理
windows
系统架构
nat
xml
nosql
eclipse
opencv
c++
html
jar
游戏
jdbc
npm
php
ruby
go
servlet
react
mvc
打包
TDSQL MySQL 版
网站
http
压力测试
正则表达式
yum
numpy
zookeeper
gradle
微信
微服务
数据挖掘
swift
c 语言
perl
.net
bootstrap
angularjs
css
ajax
android
单片机
tomcat
unix
centos
深度学习
文件存储
日志服务
mongodb
图像处理
自动化
黑客
爬虫
html5
图像识别
grep
cdn
tcp/ip
flash
kernel
anaconda
机器人
数据可视化
物联网
安全漏洞
云计算
apple
com
google
microsoft
yahoo
磁盘
域名
搜索文章
搜索
搜索
关闭
关于Hbase多版本存储的一个注意点
hbase
存储
我们知道hbase是一个多版本的管理系统,在0.96的版本之前默认每个列是3个version,在hbase 0.96之后每个列是1个version,所谓的version其实就是同一条数据插入不同的时间戳来实现的,在hbase底层的存储是基于时间戳排序的,所以每次我们查到的数据都是最新的版本,除非我们指定了要读取特定的时间范围的数据。 先看下Hbase里面Put和Delete命令的api: Put: Put(byte[] row) Put(byte[] row, long ts) Put(byte[] row
我是攻城师
2018-05-15
2.3K
0
Elasticsearch如何保证数据不丢失?
es 2
hbase
上篇文章提到过,在elasticsearch和磁盘之间还有一层cache也就是filesystem cache,大部分新增或者修改,删除的数据都在这层cache中,如果没有flush操作,那么就不能100%保证系统的数据不会丢失,比如突然断电或者机器宕机了,但实际情况是es中默认是30分钟才flush一次磁盘,这么长的时间内,如果发生不可控的故障,那么是不是必定会丢失数据呢? 很显然es的设计者早就考虑了这个问题,在两次full commit操作(flush)之间,如果发生故障也不能丢失数据,那么es是如何
我是攻城师
2018-05-15
5.7K
0
如何使用scala+spark读写hbase?
scala
hbase
spark
最近工作有点忙,所以文章更新频率低了点,希望大家可以谅解,好了,言归正传,下面进入今天的主题: 如何使用scala+spark读写Hbase 软件版本如下: scala2.11.8 spark2.1.0 hbase1.2.0 公司有一些实时数据处理的项目,存储用的是hbase,提供实时的检索,当然hbase里面存储的数据模型都是简单的,复杂的多维检索的结果是在es里面存储的,公司也正在引入Kylin作为OLAP的数据分析引擎,这块后续有空在研究下。 接着上面说的,hbase存储着一些实时的数据,前两周新需求
我是攻城师
2018-05-14
1.5K
0
Spark如何读取Hbase特定查询的数据
spark
hbase
最近工作需要使用到Spark操作Hbase,上篇文章已经写了如何使用Spark读写Hbase全量表的数据做处理,但这次有所不同,这次的需求是Scan特定的Hbase的数据然后转换成RDD做后续处理,简单的使用Google查询了一下,发现实现方式还是比较简单的,用的还是Hbase的TableInputFormat相关的API。 基础软件版本如下: 直接上代码如下: 上面的少量代码,已经完整实现了使用spark查询hbase特定的数据,然后统计出数量最后输出,当然上面只是一个简单的例子,重要的是能把hbase数
我是攻城师
2018-05-14
2.7K
0
浅谈ElasticSearch的嵌套存储模型
es 2
存储
spark
hbase
最近一个半月都在搞SparkStreaming+Hbase+Redis+ES相关的实时流项目开发,其中重度使用了ElasticSearch作为一个核心业务的数据存储,所以这段时间更新文章较少,现在开发基本完事,接下来的会写几篇有关ElastiSearch的使用心得。 大多数时候我们使用es都是用来存储业务比较简单的数据,比如日志log类居多,就算有一些有主外键关联的数据,我们也会提前join好,然后放入es中存储。 的确,扁平化后的数据存入索引,无论是写入,更新,查询都比较简单。但是有一些业务却没法扁平化后
我是攻城师
2018-05-14
1.9K
0
如何监控你的Hadoop+Hbase集群?
hadoop
hbase
前言 监控hadoop的框架有不少,如CDH的CM组件和Ambari都可以监控他们自己的hadoop,但是它不能监控apache的hadoop,如果你是使用原生的Apache Hadoop,那么也没关系,原生的Hadoop天生就提供了非常详细的对接Ganglia的jmx接口,里面包含了各个核心组件metrics获取功能,这一点你可以查看hadoop和hbase包括spark的conf下面的metrics文件里面配置,就能得到验证。 (一)Ganglia是什么? Ganglia 是 UC Berk
我是攻城师
2018-05-14
1.3K
0
Hadoop+Hbase集群数据迁移问题
hbase
TDSQL MySQL 版
单片机
java
hadoop
数据迁移或备份是任何一个公司都有可能到遇到的一件事,有关hbase数据迁移,官网也给出了几种方案,这里比较推荐使用hadoop distcp这种方式迁移。比较适合大数据量或者跨版本集群之间的数据迁移服
我是攻城师
2018-05-14
1.5K
0
Hbase+Solr实现二级索引提供高效查询
hbase
lucene/solr
github
hive
接着上一篇介绍协处理器的文章http://qindongliang.iteye.com/blog/2277145,本篇我们来实战一个例子,看下如何使用协处理来给Hbase建立二级索引。 github地址:https://github.com/qindongliang/hbase-increment-index 业务需求: 现有一张Hbase的表,数据量千万级+,而且不断有新的数据插入,或者无效数据删除,每日新增大概几百万数据,现在已经有离线的hive映射hbase 提供离线查询,但是由于性能
我是攻城师
2018-05-14
2.9K
0
Hbase协处理器介绍
hbase
(一)Hbase协处理器的前世今生 Hbase是仿照Google的BigTable设计的,而其协处理器也是仿照BigTable的协处理实现完成的,具体链接可 参考:http://research.google.com/people/jeff/SOCC2010-keynote-slides.pdf (二)什么是Hbase协处理器(Coprocessors )? Hbase的协处理器在Hbase中属于高级的应用功能,它可以让开发者自定义的代码在服务器端执行,来完成特定的一些功能。 (三)为什
我是攻城师
2018-05-14
1.4K
0
Apache Phoenix安装使用
apache
hbase
前提Hadoop+Hbase集群已经能够正常运转,如果不知道如何安装,请查看如下两篇文章: Hadoop安装 http://qindongliang.iteye.com/blog/2222145 Hbase安装 http://qindongliang.iteye.com/blog/2095733 框架版本: Apache Hadoop2.7.1 Apache Hbase0.98.12 Apache Zookeeper3.4.6 Centos6.5 Apache Ant1.9.5
我是攻城师
2018-05-14
1.6K
0
Hive集成Tez让大象飞起来
hive
apache
hadoop
hbase
基础环境 Apache Hadoop2.7.1 Centos6.5 Apache Hadoop2.7.1 Apache Hbase0.98.12 Apache Hive1.2.1 Apache Tez0.7.0 Apache Pig0.15.0 Apache oozie4.2.0 Apache Spark1.6.0 Cloudrea Hue3.8.1 安装Tez,请参考上篇文章:http://qindongliang.iteye.com/blog/2271440 安装成功之后
我是攻城师
2018-05-14
1.2K
0
一次bug死磕经历之Hbase堆内存小导致regionserver频繁挂掉 编辑
hbase
apache
zookeeper
环境如下: Centos6.5 Apache Hadoop2.7.1 Apache Hbase0.98.12 Apache Zookeeper3.4.6 JDK1.7 Ant1.9.5 Maven3.0.5 最近在测Hbase的压缩,Hadoop安装了lzo和snappy,插入50条文本数据,每条数据大约4M,来看他们的压缩率对比, 然后在测的过程中,发现用java客户端去scan这50条数据时,regionserver频繁宕机看hbase的log发现并无明显异常,查看datano
我是攻城师
2018-05-14
749
0
设置Hadoop+Hbase集群pid文件存储位置
hadoop
hbase
有时候,我们对运行几天或者几个月的hadoop或者hbase集群做停止操作,会发现,停止命令不管用了,为什么呢? 因为基于java开发的程序,想要停止程序,必须通过进程pid来确定,而hadoop和hbase默认的情况下,会把pid文件存储在Linux上的/tmp目录的某个目录下,进程名命令规则一般是 框架名-用户名-角色名.pid,而默认情况下,linux的tmp里面的东西,一天会删除一次,所以把pid文件放在这里面,并不是长久之计,为了安全起见,我们还是放到一个固定的目录下最好,当然不能放在/tmp
我是攻城师
2018-05-14
1.7K
0
hadoop常见问题解答
hadoop
mapreduce
hbase
TDSQL MySQL 版
分布式
(1)Hadoop适不适用于电子政务?为什么? 电子政务是利用互联网技术实现政府组织结构和工作流程的重组优化,建成一个精简、高效、廉洁、公平的政府运作信息服务平台。因此电子政务肯定会产生相关的大量数据以及相应的计算需求,而这两种需求涉及的数据和计算达到一定规模时传统的系统架构将不能满足,就需要借助海量数据处理平台,例如Hadoop技术,因此可以利用Hadoop技术来构建电子政务云平台。 总结一下,任何系统没有绝对的适合和不适合,只有当需求出现时才可以决定,在一个非常小的电子政务系统上如果没有打数据处
我是攻城师
2018-05-11
1.1K
0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
立即发文
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档