首页
学习
活动
专区
工具
TVP
发布

加米谷大数据

加米谷大数据实战经验分享,大数据项目分享,大数据开发培训等
专栏成员
296
文章
360010
阅读量
61
订阅数
成为大数据工程师必备的技能有哪些?(上)
http://www.aboutyun.com/thread-11873-1-1.html
加米谷大数据
2020-05-09
7530
0基础入门大数据开发学习的经典书籍推荐
本书内容丰富,展示了如何使用Hadoop构建可靠、可伸缩的分布式系统,程序员可从中探索如何分析海量数据集,管理员可以了解如何建立与运行Hadoop集群。
加米谷大数据
2019-11-15
8900
Hadoop的发家简史
说到大数据技术不得不提起Hadoop,今天加米谷大数据就来简单介绍一下Hadoop的简史。
加米谷大数据
2019-06-05
1.6K0
hdfs hbase hive hbase分别的适用场景
不想用程序语言开发MapReduce的朋友,熟悉SQL的朋友可以使用Hive开离线的进行数据处理与分析工作。
加米谷大数据
2019-04-19
1.4K0
大数据Hadoop入门需要填的坑
Hadoop是一个由Apache基金会所开发的分布式系统集成架构,用户可以在不了解分布式底层细节情况下,开发分布式程序,充分利用集群的威力来进行高速运算与存储,具有可靠、高效、可伸缩的特点。
加米谷大数据
2019-01-09
4440
大数据入门之Hadoop基础学习
目前人工智能和大数据火热,使用的场景也越来越广,日常开发中前端同学也逐渐接触了更多与大数据相关的开发需求。因此对大数据知识也有必要进行一些学习理解。
加米谷大数据
2019-01-09
4230
hdfs hbase hive hbase分别的适用场景
不想用程序语言开发MapReduce的朋友,熟悉SQL的朋友可以使用Hive开离线的进行数据处理与分析工作。
加米谷大数据
2019-01-08
7240
大数据技术学习:Hbase应该怎么学?
大数据中HBase是一个分布式的、面向列的开源数据库,Hbase的名字的来源是Hadoop database,即hadoop数据库, HBase中的所有数据文件都存储在Hadoop HDFS文件系统上
加米谷大数据
2019-01-08
6930
7种最常见的Hadoop和Spark项目
称之为“企业级数据中心”或“数据湖”,这个想法是你有不同的数据源,你想对它们进行数据分析。这类项目包括从所有来源获得数据源(实时或批处理)并且把它们存储在hadoop中。有时,这是成为一个“数据驱动的公司”的第一步;有时,或许你仅仅需要一份漂亮的报告。
加米谷大数据
2018-07-25
3710
如何避免HBase写入过快引起的各种问题
client api ==> RPC ==> server IPC ==> RPC queue ==> RPC handler ==> write WAL ==> write memstore ==> flush to filesystem
加米谷大数据
2018-07-25
9730
Spark Streaming应用与实战全攻略
有一块业务主要是做爬虫抓取与数据输出,通过大数据这边提供的SOA服务入库到HBase,架构大致如下:
加米谷大数据
2018-07-25
8260
ZooKeeper在HBase中的应用
HBase主要用ZooKeeper来实现HMaster选举与主备切换、系统容错、RootRegion管理、Region状态管理和分布式SplitWAL任务管理等。 HMaster选举与主备切换 HMaster选举与主备切换的原理和HDFS中NameNode及YARN中ResourceManager的HA原理相同。 系统容错 当HBase启动时,每个RegionServer都会到ZooKeeper的/hbase/rs节点下创建一个信息节点(下文中,我们称该节点为”rs状态节点”),例如/hbase/rs/
加米谷大数据
2018-06-04
2.3K0
技术分享 | HBase二级索引实现方案
1. 概要设计 主要思路: 为每个DataTable创建一个与之对应的IndexTable,通过各种途径,保证IndexTable Region与DataTable Region一一对应,并且存储在同一个RegionServer上,存储结构如图所示。最终要实现的效果是,每个IndexTable Region是对应的DataTable Region的局部索引,使用索引进行查询时,将对每个IndexTable Region进行检索,找出所有符合条件的DataTable RowKey,再根据DataTabl
加米谷大数据
2018-04-02
1.1K0
技术分享 | 提升Hadoop性能和利用率你知道有哪些吗?
时下流行的词汇是大数据和Hadoop。了解大数据的知道Hadoop有三个组件,即HDFS、MapReduce和Yarn。 HDFS代表Hadoop分布式文件系统。 Hadoop分布式文件系统用于整个集群中以块的形式在计算机之间存储数据。 MapReduce是一种编程模型,可以用来编写我们的业务逻辑并获取所需的数据。 而Yarn是HDFS和Spark、Hbase等其他应用程序之间的接口。我们不知道的是,Hadoop使用了很多其他应用程序有助于其最佳性能和利用率。 1、Hbase HBase是一个基于HDFS的
加米谷大数据
2018-04-02
1.3K0
技术干货 | Hbase的数据坐标
Hbase在表里存储数据使用的是四维坐标系统。分别是:行健、列族、列限定符和时间版本。 如: 列族A 行健 列限定符(name) 列限定符(email) 列限定符C(password) aaa 单元(value1) 单元(value4) 单元(value7) bbb 单元(value2) 单元(value5) 单元(value8) ccc 单元(value3) 单元(value6) 时间版本1:单元(value9),时间版本2:单元(value10) 行健按照字典排
加米谷大数据
2018-04-02
1.1K0
技术干货 | hbase配置详解
为了能够让namespace支持使用配置属性,如:namespace下表个数(hbase.namespace.quota.maxtables)或者region个数(hbase.namespace.quota.maxregions) 需要设置hbase.quota.enabled为true或者设置 <property> <name>hbase.coprocessor.region.classes</name> <value>org.apache.hadoop.hbase.namespace.Namespace
加米谷大数据
2018-04-02
1.7K0
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档