首页
学习
活动
专区
工具
TVP
发布

大数据和云计算技术

专栏作者
298
文章
438557
阅读量
101
订阅数
Docker和hadoop
Docker很热,怎么形容?感觉开源除了spark技术,就是docker了,甚至把Go语言也带火了,把Go在TIOBE的排名从百名外带入主流语言的行列。 Docker快成救世主了,这么牛逼的技术,docker和hadoop碰撞出什么火花来呢,是不是得赶紧用上呢? 就不介绍具体什么是docker了,不是一门全新的技术,是基于LXC的高级容器引擎,从linux内核发展出来的轻量隔离技术。相比单纯的隔离,核心是标准化了镜像打包,部署和发布这个过程,相当于标准化了开发过程。就运行态来说,相比VM,核心优势就是轻量,
大数据和云计算技术
2018-03-08
1.5K0
hadoop运行环境搭建
森哥/洋哥hadoop系列,非常适合初学者: Hive 元数据表结构详解 HDFS学习:HDFS机架感知与副本放置策略 Yarn【label-based scheduling】实战总结(二) Yarn
大数据和云计算技术
2018-03-08
1.7K0
Hadoop二次开发环境构建
1 Hadoop二次开发环境构建 1.1 Hadoop编译环境构建 1.1.1 系统信息 Linux版本: 1.1.2 编译环境准备 1.1.2.1 安装jdk7.0 rpm -ivh jdk-7u2
大数据和云计算技术
2018-03-08
1.6K0
SQL on Hadoop 技术分析(二)
森哥大作,接上一篇:SQL on Hadoop技术分析(一) SQL on Hadoop 技术分析(二) 本篇继续分析SQL on Hadoop的相关技术,本次分析的重点是查询优化器(技术上的名词叫SQL Parser),在SQL on Hadoop技术中有着非常重要的地位,一次查询SQL下来,SQL Parser分析SQL词法,语法,最终生成执行计划,下发给各个节点执行,SQL的执行的过程快慢,跟生成的执行计划的好坏,有直接的关系,下面以目前业界SQL onHadoop 使用的比较多的组件Impala、H
大数据和云计算技术
2018-03-08
1.2K0
SQL on Hadoop技术分析(一)
背景 Hadoop的诞生是划时代的数据变革,但关系型数据库时代的存留也为Hadoop真正占领数据库领域埋下了许多的障碍。对SQL(尤其是PL/SQL)的支持一直是Hadoop大数据平台在替代旧数据时代亟待解决的问题。Hadoop对SQL数据库的支持度一直是企业用户最关心的诉求点之一,也是他们选择的Hadoop平台的重要标准。 自打Hive出现之后,SQL onHadoop相关系统已经百花齐放,速度越来越快,功能也越来越齐全。目前比较主流的有Impala,Spark SQL,HAWQ,Tez,Drill,
大数据和云计算技术
2018-03-08
9970
HDFS学习:HDFS机架感知与副本放置策略
洋哥YARN和HDFS实践系列大作,这是第三篇,前面两篇分别是: Yarn【label-based scheduling】实战总结(二) Yarn【label-based scheduling】实战总结(一) 1.1 机架感知(RackAwareness)概述 通常,大型Hadoop集群会分布在很多机架上。在这种情况下, -- 希望不同节点之间的通信能够尽量发生在同一个机架之内,而不是跨机架。 -- 为了提高容错能力,名称节点会尽可能把数据块的副本放到多个机架上。 综合考虑这两点的基础上Hadoop
大数据和云计算技术
2018-03-08
5K1
Yarn【label-based scheduling】实战总结(一)
1.1 Label-based scheduling介绍 故名思议,Label based scheduling是一种调度策略,就像priority-based scheduling一样,是调度器调度众多调度策略中的一种,可以跟其他调度策略混合使用,实际上,hadoop也是这样做的。但是,相比于其他调度策略,基于标签的调度策略则复杂的多,这个feature的代码量非常大,基本上需要修改YARN的各个模块,包括API, ResourceManager,Scheduler等。该策略的基本思想是:用户可以为每个n
大数据和云计算技术
2018-03-08
2.8K0
浅论Hadoop应用工作思路
随着企业对大数据越来越重视,hadoop应用达到了前所未有的高度。今天聊聊hadoop应用的工作思路,我想了下以下几方面,和大家一起讨论: 首先最重要的是建立一支以开发人员为主的团队。 Hadoop虽然很火,但是还是在初级阶段,开源的东西存在业务不完全匹配,成熟度低等诸多问题。所以不管是什么公司,什么部门,应该建设一支以开发人员为主的团队。立足于能读懂开源代码,能修改bug,可以根据自己的场景进行适度匹配。 团队建立之后,以团队技能成熟度模型为指导,牵引团队技能逐渐成熟,达到事成人爽。关于团队成熟度,以前写
大数据和云计算技术
2018-03-08
4990
大数据几个思考
这篇文章是我一年半以前写的文章,内容比较简单,没有长篇大论,就是几个对大数据技术的判断。现在翻出来看一看,觉得当初自己简单的想法,现在还是成立的。今天发出来,希望和同学们一起再探讨一下。 1,平台选数据仓库还是hadoop 甘特把大数据定义为三个V(高容量,髙速度,多类型),主要讲的是数据量大的问题,传统的数据库在处理结构化,容量有限的数据有非常大的性能优势。碰到数据量大到一定程度,且对实时性要求不高的话,hadoop平台在稳定性方面有很大优势。传统数据仓库普遍存在价格高,稳定性一般的问题。 2,no
大数据和云计算技术
2018-03-08
6300
hadoop发行商介绍:Cloudera
‍‍‍‍在Hadoop生态系统中,规模最大、知名度最高的公司则是Cloudera。现在国内很多公司也都选用他们的发行版本(CDH)。‍‍ ‍‍Cloudera由来自Facebook、谷歌和雅虎的前工程师杰夫·哈‍‍默巴切(Jeff Hammerbacher)、克里斯托弗·比塞格利亚(‍‍Christophe Bisciglia)、埃姆·阿瓦达拉(Amr‍‍ Awadallah)以及现任CEO、甲骨文前高管迈克·奥尔森(Mike Olson)在2008年创建。‍‍‍‍ ‍‍首先来看下Cloudera的技术框架
大数据和云计算技术
2018-03-08
9680
Big data analytics beyond hadoop
今天给大家推荐一本书《big data analytics beyond hadoop》。书的名字应该可以翻译为《hadoop下一代数据分析技术》。 这本书主要讲的是BDAS(Berkeley Dat
大数据和云计算技术
2018-03-08
7680
资源管理框架(mesos/YARN/coraca/Torca/Omega)分析
1 资源调度的目标和价值 1.1 子系统高效调度 任务之间资源隔离,减少争抢。 任务分配调度时结合资源分配,各个任务分配合理的资源,充分利用系统资源,减少资源利用不充分的问题。 资源调度结合优先级,优先级高的分配更多的资源。 1.2 提高全系统的资源利用率 各个子系统,存在不同时期,对资源需求不一样的情况,平滑系统资源的利用。 1.3 支持动态调整切分资源,增强系统扩展性。 系统对资源的规划很难一次性准确,通过mesos支持虚拟主机的方式,动态扩展。 2 资源调度使用限制以及难点 2.1 资源调度使用限制
大数据和云计算技术
2018-03-07
2.2K0
没有更多了
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战,赢鹅厂证书、公仔好礼!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档