凹谷

LV0
发表了文章

ElasticSearch Server 扩展的弹性搜索解决方案

索引(相当数据库,包含行(代表文档)和列(字段)的表)、副本(用于控制查询性能及数据故障)、分片(每个分片就是一个Lucene索引)

凹谷
发表了文章

RAID 0、1、5、1+0总结

RAID(Redundant Array Of Independent Disk,独立磁盘冗余阵列),可以提供比普通磁盘更快的速度、更高的安全性,生产环境中服务...

凹谷
发表了文章

千亿级海量数据库OceanBase

OceanBase是阿里集团研发的可扩展性关系型数据库,实现了数千亿条记录、数百TB数据上的跨行跨表事务。

凹谷
发表了文章

大数据时代个人学习篇

牛津大学职业研究分析报告可以看到,大数据智能时代首先取代的是比较有规则的职业,如重复性、机械性的会被淘汰,终身学习、人文沟通、信息化与数字化、智能协作等方面的能...

凹谷
发表了文章

大流量限流与消峰方案

连接资源耗尽、分布式缓存容量被撑爆、数据库吞吐量降低,最终引起系统雪崩。2、应对高并发、大流量的常规手段:

凹谷
发表了文章

缓存技术-大促场景下热点数据的读/写优化方案

1、缓存是指将被频繁访问的热点数据存储在距离计算最近的地方,以方便系统快速做出响应。

凹谷
发表了文章

分布式协调服务ZooKeeper

分布式协调服务是分布式应用中不可缺少的,通常担任协调角色,比如leader选举、负载均衡、服务发现、分布式队列和分布式锁

凹谷
发表了文章

资源管理与调度系统YARN

YARN作为一个通用的资源管理系统,目标是将短作业和长服务混合部署到一个集群中,并为他们提供统一的资源管理和调度功能,概括起来主要解决以下两个问题:1.提高集群...

凹谷
发表了文章

大数据查询引擎Presto

Presto设计精巧,可以处理海量数据,最大化地利用硬件性能,计算全部在内存中完成,很好的利用高速网络来进行数据调度。性能基本上是Hive的10倍。

凹谷
发表了文章

大数据工作流Oozie

因为工作需要用到oozie,但是网上的资料越看越迷茫,经过很大的努力,终于折腾清楚了,这里,做一个总结,帮助后来者更好地进行入门,当然,粗鄙之言,难免疏漏...

凹谷
发表了文章

流式计算引擎-Storm、Spark Streaming

目前常用的流式实时计算引擎分为两类:面向行和面向微批处理,其中面向行的流式实时计算引擎的代表是Apache Storm,典型特点是延迟低,但吞吐率也低。而面向微...

凹谷
发表了文章

Hive-数据仓库

交互方式-用户接口:CLI(linux命令行)、WUI(hive web页面)、Client(连接远程服务HiveServer2,eg:JDBC、ODBC)

凹谷
发表了文章

Docker的基本概念

容器:又称“集装箱”,其核心技术是Cgroups和namespace。容器技术通过namespace实现资源隔离,通过Cgroups实现资源控制。

凹谷
发表了文章

分布式消息队列Kafka

Zookeeper:保存集群元数据和消费者信息,broker和主题元数据、消费者元数据分区偏移量

凹谷
发表了文章

HBSAE-NoSQL 非关系型数据库

每天写入量巨大,而相对读数量较小的应用,不需要复杂查询条件来查询数据的应用,HBase只支持基于rowkey的查询

凹谷
发表了文章

场景下的交互式计算引擎Impala和Presto

1、跟Hadoop生态系统完好结合,可与Hive Metastore对接,处理hive中的表,可直接处理存储在HDFS和Hbase中的数据。

凹谷
发表了文章

全文搜索引擎 ElasticSearch

字段:以Json的键值对方式组织的多个字段。字段可以是对象类型、数组类型或者核心数据类型,字段可以与数据库列对应。

凹谷
发表了文章

linux 常用命令总结

执行alias myls ='is - alh' 命令可以定义一个名为myls的命令别名,以后在执行myls 即等同于执行“ls -alh”命令。

凹谷
发表了文章

大数据技术

如果没有一个好的开始,不妨试试一个坏的开始吧。因为一个坏的开始,总比没有开始强。而完美的开始,则永远都不会来到。

凹谷
发表了文章

Hive原理实践

Driver组件:核心组件,整个Hive的核心,该组件包括Complier(编译器)、Optimizer(优化器)和Executor(执行器),它们的作用是对H...

凹谷

个人简介

个人成就

扫码关注云+社区

领取腾讯云代金券