腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
码字搬砖
专栏成员
举报
209
文章
303130
阅读量
32
订阅数
订阅专栏
申请加入专栏
全部文章(209)
java(36)
大数据(35)
编程算法(33)
flink(32)
http(16)
kafka(16)
其他(15)
apache(14)
ide(13)
jvm(13)
sql(12)
hive(12)
spark(11)
linux(10)
缓存(10)
hadoop(8)
二叉树(8)
hbase(8)
python(7)
xml(7)
jar(7)
jdk(7)
node.js(6)
数据库(6)
文件存储(6)
json(5)
存储(5)
scrapy(5)
nat(5)
排序(5)
spring(4)
shell(4)
网络安全(4)
数据结构(4)
云数据库 SQL Server(3)
打包(3)
网站(3)
面向对象编程(3)
https(3)
processing(3)
javafx(3)
c++(2)
javascript(2)
go(2)
bash(2)
html(2)
jquery(2)
云数据库 Redis(2)
api(2)
maven(2)
unix(2)
centos(2)
批量计算(2)
yarn(2)
容器(2)
分布式(2)
自动化(2)
爬虫(2)
jdbc(2)
hashmap(2)
asp(2)
zookeeper(2)
windows(2)
es(2)
count(2)
join(2)
table(2)
工作(2)
数据(2)
算法(2)
tensorflow(1)
.net(1)
scala(1)
bootstrap(1)
react(1)
css(1)
汇编语言(1)
access(1)
eclipse(1)
git(1)
struts(1)
搜索引擎(1)
ubuntu(1)
容器镜像服务(1)
mapreduce(1)
专用宿主机(1)
腾讯云测试服务(1)
vr 视频解决方案(1)
express(1)
serverless(1)
parcel(1)
开源(1)
运维(1)
数据迁移(1)
yum(1)
grep(1)
ntp(1)
anaconda(1)
数据分析(1)
腾讯云开发者社区(1)
Elasticsearch Service(1)
apply(1)
bit(1)
driver(1)
func(1)
function(1)
hash(1)
impala(1)
int(1)
key(1)
label(1)
null(1)
object(1)
olap(1)
output(1)
pivot(1)
snapshot(1)
state(1)
tableview(1)
task(1)
time(1)
window(1)
遍历(1)
登录(1)
递归(1)
队列(1)
数组(1)
索引(1)
统计(1)
效率(1)
压缩(1)
异常(1)
字符串(1)
搜索文章
搜索
搜索
关闭
常见开源OLAP技术架构对比
搜索引擎
https
网络安全
hive
Elasticsearch Service
OLAP(On-line Analytical Processing,联机分析处理)是在基于数据仓库多维模型的基础上实现的面向分析的各类操作的集合。可以比较下其与传统的OLTP(On-line Transaction Processing,联机事务处理)的区别来看一下它的特点:
shengjk1
2021-11-09
2.2K
0
CDH impala hive hbase 整合
hive
最终达到的效果是这样的:hbase是数据的存储中心。impala、hive可以增查habse数据,不支持insert overwrite impala hive hbase的增删改在三者任何之一处操作,另两处均可以查到
shengjk1
2018-10-24
2K
0
Impala原理、使用
hive
nat
java
sql
缓存
简介: impala属于Cloudera,基于内存的,可用户实时的交互式查询。Cloudera建议Impala集群内存最少128G,Impalad与DataNode运行在同一节点上
shengjk1
2018-10-24
1.4K
0
sqoop原理
jdbc
云数据库 SQL Server
hive
数据库
sqoop,各位看官基本上都了解或者听说过,小二就不进行废话了。另外基于国内大部分用的为CDH,小二就想说一点:CDH中的sqoop2其实是apace版的sqoop1,聪明的看官不要被表面所迷惑了.
shengjk1
2018-10-24
2.1K
0
hive原理分析
hive
基于hive1.1(从hive2.0开始,hive开始基于内存了,底层的实现框架不在基于MR)
shengjk1
2018-10-24
1.1K
0
hive动态分区
hive
http
apache
hive分区可以方便快速定位,查找( 设置分区,可以直接定位到hdfs上相应的文件目录下,避免全表扫描)。 hive分区可以分为静态分区、动态分区,另外静动态分区又都可以分为复合分区和单分区表。下面我们以动态复合分区为例,来记述一下分区的建立。
shengjk1
2018-10-24
4.4K
0
CDH集成Kafka
http
hive
parcel
spark
1.离线 先下载相应版本的kafka http://archive.cloudera.com/kafka/parcels/ 然后放置相应目录,如下图:
shengjk1
2018-10-24
1.2K
0
Hbase在HDFS上的各个目录作用
hbase
存储
hive
运维
1、/hbase/.META. 就是存储1中介绍的 META 表的存储路径。 2、/hbase/.archive HBase 在做 Split或者 compact 操作完成之后,会将 HFile 移到.archive 目录中,然后将之前的 hfile 删除掉,该目录由 HMaster 上的一个定时任务定期去清理。 3、/hbase/.corrupt 存储HBase做损坏的日志文件,一般都是为空的。 4、/hbase/.hbck HBase 运维过程中偶尔会遇到元数据不一致的情况,这时候会用到提供的 hbck 工具去修复,修复过程中会使用该目录作为临时过度缓冲。 5、/hbase/WAL 大家都知道 HBase 是支持 WAL(Write Ahead Log) 的,HBase 会在第一次启动之初会给每一台 RegionServer 在.log 下创建一个目录,若客户端如果开启WAL 模式,会先将数据写入一份到.log 下,当 RegionServer crash 或者目录达到一定大小,会开启 replay 模式,类似 MySQL 的 binlog。 6、/hbase/oldlogs 当.logs 文件夹中的 HLog 没用之后会 move 到.oldlogs 中,HMaster 会定期去清理。 7、/hbase/.snapshot hbase若开启了 snapshot 功能之后,对某一个用户表建立一个 snapshot 之后,snapshot 都存储在该目录下,如对表test 做了一个 名为sp_test 的snapshot,就会在/hbase/.snapshot/目录下创建一个sp_test 文件夹,snapshot 之后的所有写入都是记录在这个 snapshot 之上。 8、/hbase/.tmp 当对表做创建或者删除操作的时候,会将表move 到该 tmp 目录下,然后再去做处理操作。 9、/hbase/hbase.id 它是一个文件,存储集群唯一的 cluster id 号,是一个 uuid。 10、/hbase/hbase.version 同样也是一个文件,存储集群的版本号,貌似是加密的,看不到,只能通过web-ui 才能正确显示出来。
shengjk1
2018-10-24
2.7K
0
CDH安装遇到问题
hive
spark
xml
yum
3.若hive想关联spark All HiveServer2 roles must have a Spark role (such as a Gateway) on the same host to pick up the Spark configuration. You must deploy Spark client configuration before this will work correctly.
shengjk1
2018-10-24
706
0
kylin报错 java.lang.ArrayIndexOutOfBoundsException: -1
java
apache
hadoop
hive
当用kylin做报表时,kylin报错 2017-06-26 14:51:52,523 ERROR [IPC Server handler 3 on 33033] org.apache.hadoop.mapred.TaskAttemptListenerImpl: Task: attempt_1498453243500_0032_m_000000_0 - exited : java.lang.ArrayIndexOutOfBoundsException: -1 at org.apache.kylin.engine.mr.steps.FactDistinctHiveColumnsMapper.putRowKeyToHLL(FactDistinctHiveColumnsMapper.java:179) at org.apache.kylin.engine.mr.steps.FactDistinctHiveColumnsMapper.map(FactDistinctHiveColumnsMapper.java:155)
shengjk1
2018-10-24
1.4K
0
org.apache.hadoop.mapred.YarnChild: GC overhead limit
apache
hadoop
yarn
jdk
hive
hive query 时,报错org.apache.hadoop.mapred.YarnChild: Error running child : java.lang.OutOfMemoryError: GC overhead limit exceeded at org.apache.hadoop.io.Text.setCapacity(Text.java:268) at org.apache.hadoop.io.Text.set(Text.java:224) at org.apache.hadoop.io.Text.set(Text.java:214)
shengjk1
2018-10-24
1.9K
0
sqoop连接sqlServer
sql
hive
hadoop
http
背景:最近公司需要把sqlServer的数据导入到hive中方便数据组的同事进行分析。国内资料相对老套,很多资料针对于sqoop1.3及其以下的,所以记录以下,方便后来者。各位看官,开始喽!!!
shengjk1
2018-10-24
2.2K
0
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
立即查看
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档