加米谷大数据-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

加米谷大数据

加米谷大数据实战经验分享，大数据项目分享，大数据开发培训等

专栏成员

296

文章

360010

阅读量

61

订阅数

成为大数据工程师必备的技能有哪些？（上）

hive mapreduce http java hbase

http://www.aboutyun.com/thread-11873-1-1.html

加米谷大数据

2020-05-09

7530

0基础入门大数据开发学习的经典书籍推荐

hadoop hive hbase TDSQL MySQL 版 kafka

本书内容丰富，展示了如何使用Hadoop构建可靠、可伸缩的分布式系统，程序员可从中探索如何分析海量数据集，管理员可以了解如何建立与运行Hadoop集群。

加米谷大数据

2019-11-15

8900

Hadoop的发家简史

hadoop mapreduce apache hbase

说到大数据技术不得不提起Hadoop，今天加米谷大数据就来简单介绍一下Hadoop的简史。

加米谷大数据

2019-06-05

1.6K0

hdfs hbase hive hbase分别的适用场景

mapreduce hive hadoop hbase TDSQL MySQL 版

不想用程序语言开发MapReduce的朋友，熟悉SQL的朋友可以使用Hive开离线的进行数据处理与分析工作。

加米谷大数据

2019-04-19

1.4K0

大数据Hadoop入门需要填的坑

hadoop 分布式 hbase apache

Hadoop是一个由Apache基金会所开发的分布式系统集成架构，用户可以在不了解分布式底层细节情况下，开发分布式程序，充分利用集群的威力来进行高速运算与存储，具有可靠、高效、可伸缩的特点。

加米谷大数据

2019-01-09

4440

大数据入门之Hadoop基础学习

hbase hadoop spark mapreduce nosql

目前人工智能和大数据火热，使用的场景也越来越广，日常开发中前端同学也逐渐接触了更多与大数据相关的开发需求。因此对大数据知识也有必要进行一些学习理解。

加米谷大数据

2019-01-09

4230

hdfs hbase hive hbase分别的适用场景

hive hbase 数据库 hadoop

不想用程序语言开发MapReduce的朋友，熟悉SQL的朋友可以使用Hive开离线的进行数据处理与分析工作。

加米谷大数据

2019-01-08

7240

大数据技术学习：Hbase应该怎么学？

hbase 数据库大数据

大数据中HBase是一个分布式的、面向列的开源数据库，Hbase的名字的来源是Hadoop database，即hadoop数据库， HBase中的所有数据文件都存储在Hadoop HDFS文件系统上

加米谷大数据

2019-01-08

6930

７种最常见的Hadoop和Spark项目

spark hadoop sas hbase

称之为“企业级数据中心”或“数据湖”，这个想法是你有不同的数据源，你想对它们进行数据分析。这类项目包括从所有来源获得数据源（实时或批处理）并且把它们存储在hadoop中。有时，这是成为一个“数据驱动的公司”的第一步；有时，或许你仅仅需要一份漂亮的报告。

加米谷大数据

2018-07-25

3710

如何避免HBase写入过快引起的各种问题

client api ==> RPC ==> server IPC ==> RPC queue ==> RPC handler ==> write WAL ==> write memstore ==> flush to filesystem

加米谷大数据

2018-07-25

9730

Spark Streaming应用与实战全攻略

spark 爬虫大数据 hbase

有一块业务主要是做爬虫抓取与数据输出，通过大数据这边提供的SOA服务入库到HBase,架构大致如下：

加米谷大数据

2018-07-25

8260

ZooKeeper在HBase中的应用

zookeeper hbase 分布式 yarn

HBase主要用ZooKeeper来实现HMaster选举与主备切换、系统容错、RootRegion管理、Region状态管理和分布式SplitWAL任务管理等。 HMaster选举与主备切换 HMaster选举与主备切换的原理和HDFS中NameNode及YARN中ResourceManager的HA原理相同。系统容错当HBase启动时，每个RegionServer都会到ZooKeeper的/hbase/rs节点下创建一个信息节点（下文中，我们称该节点为”rs状态节点”），例如/hbase/rs/

加米谷大数据

2018-06-04

2.3K0

技术分享 | HBase二级索引实现方案

hbase 数据库

1. 概要设计主要思路：为每个DataTable创建一个与之对应的IndexTable，通过各种途径，保证IndexTable Region与DataTable Region一一对应，并且存储在同一个RegionServer上，存储结构如图所示。最终要实现的效果是，每个IndexTable Region是对应的DataTable Region的局部索引，使用索引进行查询时，将对每个IndexTable Region进行检索，找出所有符合条件的DataTable RowKey，再根据DataTabl

加米谷大数据

2018-04-02

1.1K0

技术分享 | 提升Hadoop性能和利用率你知道有哪些吗？

hadoop hive mapreduce java hbase

时下流行的词汇是大数据和Hadoop。了解大数据的知道Hadoop有三个组件，即HDFS、MapReduce和Yarn。 HDFS代表Hadoop分布式文件系统。 Hadoop分布式文件系统用于整个集群中以块的形式在计算机之间存储数据。 MapReduce是一种编程模型，可以用来编写我们的业务逻辑并获取所需的数据。而Yarn是HDFS和Spark、Hbase等其他应用程序之间的接口。我们不知道的是，Hadoop使用了很多其他应用程序有助于其最佳性能和利用率。 1、Hbase HBase是一个基于HDFS的

加米谷大数据

2018-04-02

1.3K0

技术干货 | Hbase的数据坐标

hbase 数据库

Hbase在表里存储数据使用的是四维坐标系统。分别是：行健、列族、列限定符和时间版本。如：列族A 行健列限定符(name) 列限定符(email) 列限定符C(password) aaa 单元(value1) 单元(value4) 单元(value7) bbb 单元(value2) 单元(value5) 单元(value8) ccc 单元(value3) 单元(value6) 时间版本1：单元(value9),时间版本2：单元(value10) 行健按照字典排

加米谷大数据

2018-04-02

1.1K0

技术干货 | hbase配置详解

hbase 数据库

为了能够让namespace支持使用配置属性，如：namespace下表个数（hbase.namespace.quota.maxtables）或者region个数（hbase.namespace.quota.maxregions）需要设置hbase.quota.enabled为true或者设置 <property> <name>hbase.coprocessor.region.classes</name> <value>org.apache.hadoop.hbase.namespace.Namespace

加米谷大数据

2018-04-02

1.7K0

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态