大数据和云计算技术-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

大数据和云计算技术

专栏成员

298

文章

455975

阅读量

101

订阅数

Docker和hadoop

容器镜像服务 hadoop yarn node.js 大数据

Docker很热，怎么形容？感觉开源除了spark技术，就是docker了，甚至把Go语言也带火了，把Go在TIOBE的排名从百名外带入主流语言的行列。 Docker快成救世主了，这么牛逼的技术，docker和hadoop碰撞出什么火花来呢，是不是得赶紧用上呢？就不介绍具体什么是docker了，不是一门全新的技术，是基于LXC的高级容器引擎，从linux内核发展出来的轻量隔离技术。相比单纯的隔离，核心是标准化了镜像打包，部署和发布这个过程，相当于标准化了开发过程。就运行态来说，相比VM，核心优势就是轻量，

大数据和云计算技术

2018-03-08

1.5K0

hadoop运行环境搭建

hadoop hive yarn 分布式 linux

森哥/洋哥hadoop系列，非常适合初学者： Hive 元数据表结构详解 HDFS学习：HDFS机架感知与副本放置策略 Yarn【label-based scheduling】实战总结（二） Yarn

大数据和云计算技术

2018-03-08

1.8K0

Hadoop二次开发环境构建

1 Hadoop二次开发环境构建 1.1 Hadoop编译环境构建 1.1.1 系统信息 Linux版本： 1.1.2 编译环境准备 1.1.2.1 安装jdk7.0 rpm -ivh jdk-7u2

大数据和云计算技术

2018-03-08

1.7K0

SQL on Hadoop 技术分析（二）

sql hadoop 数据库

森哥大作，接上一篇：SQL on Hadoop技术分析（一） SQL on Hadoop 技术分析（二）本篇继续分析SQL on Hadoop的相关技术，本次分析的重点是查询优化器（技术上的名词叫SQL Parser），在SQL on Hadoop技术中有着非常重要的地位，一次查询SQL下来，SQL Parser分析SQL词法，语法，最终生成执行计划，下发给各个节点执行，SQL的执行的过程快慢，跟生成的执行计划的好坏，有直接的关系，下面以目前业界SQL onHadoop 使用的比较多的组件Impala、H

大数据和云计算技术

2018-03-08

1.2K0

SQL on Hadoop技术分析（一）

sql 数据库 hadoop

背景 Hadoop的诞生是划时代的数据变革，但关系型数据库时代的存留也为Hadoop真正占领数据库领域埋下了许多的障碍。对SQL（尤其是PL/SQL）的支持一直是Hadoop大数据平台在替代旧数据时代亟待解决的问题。Hadoop对SQL数据库的支持度一直是企业用户最关心的诉求点之一，也是他们选择的Hadoop平台的重要标准。自打Hive出现之后，SQL onHadoop相关系统已经百花齐放，速度越来越快，功能也越来越齐全。目前比较主流的有Impala，Spark SQL，HAWQ，Tez，Drill，

大数据和云计算技术

2018-03-08

1K0

HDFS学习：HDFS机架感知与副本放置策略

洋哥YARN和HDFS实践系列大作，这是第三篇，前面两篇分别是： Yarn【label-based scheduling】实战总结（二） Yarn【label-based scheduling】实战总结（一） 1.1 机架感知(RackAwareness)概述通常，大型Hadoop集群会分布在很多机架上。在这种情况下， -- 希望不同节点之间的通信能够尽量发生在同一个机架之内，而不是跨机架。 -- 为了提高容错能力，名称节点会尽可能把数据块的副本放到多个机架上。综合考虑这两点的基础上Hadoop

大数据和云计算技术

2018-03-08

5.1K1

Yarn【label-based scheduling】实战总结（一）

1.1 Label-based scheduling介绍故名思议，Label based scheduling是一种调度策略，就像priority-based scheduling一样，是调度器调度众多调度策略中的一种，可以跟其他调度策略混合使用，实际上，hadoop也是这样做的。但是，相比于其他调度策略，基于标签的调度策略则复杂的多，这个feature的代码量非常大，基本上需要修改YARN的各个模块，包括API， ResourceManager，Scheduler等。该策略的基本思想是：用户可以为每个n

大数据和云计算技术

2018-03-08

2.9K0

浅论Hadoop应用工作思路

hadoop 大数据

随着企业对大数据越来越重视，hadoop应用达到了前所未有的高度。今天聊聊hadoop应用的工作思路，我想了下以下几方面，和大家一起讨论：首先最重要的是建立一支以开发人员为主的团队。 Hadoop虽然很火，但是还是在初级阶段，开源的东西存在业务不完全匹配，成熟度低等诸多问题。所以不管是什么公司，什么部门，应该建设一支以开发人员为主的团队。立足于能读懂开源代码，能修改bug，可以根据自己的场景进行适度匹配。团队建立之后，以团队技能成熟度模型为指导，牵引团队技能逐渐成熟，达到事成人爽。关于团队成熟度，以前写

大数据和云计算技术

2018-03-08

5190

大数据几个思考

大数据 sql 数据库存储 hadoop

这篇文章是我一年半以前写的文章，内容比较简单，没有长篇大论，就是几个对大数据技术的判断。现在翻出来看一看，觉得当初自己简单的想法，现在还是成立的。今天发出来，希望和同学们一起再探讨一下。 1，平台选数据仓库还是hadoop 甘特把大数据定义为三个V(高容量，髙速度，多类型)，主要讲的是数据量大的问题，传统的数据库在处理结构化，容量有限的数据有非常大的性能优势。碰到数据量大到一定程度，且对实时性要求不高的话，hadoop平台在稳定性方面有很大优势。传统数据仓库普遍存在价格高，稳定性一般的问题。 2，no

大数据和云计算技术

2018-03-08

6500

hadoop发行商介绍：Cloudera

开源 hadoop hbase spark TDSQL MySQL 版

‍‍‍‍在Hadoop生态系统中，规模最大、知名度最高的公司则是Cloudera。现在国内很多公司也都选用他们的发行版本（CDH)。‍‍ ‍‍Cloudera由来自Facebook、谷歌和雅虎的前工程师杰夫·哈‍‍默巴切(Jeff Hammerbacher)、克里斯托弗·比塞格利亚(‍‍Christophe Bisciglia)、埃姆·阿瓦达拉(Amr‍‍ Awadallah)以及现任CEO、甲骨文前高管迈克·奥尔森(Mike Olson)在2008年创建。‍‍‍‍ ‍‍首先来看下Cloudera的技术框架

大数据和云计算技术

2018-03-08

9940

Big data analytics beyond hadoop

大数据数据分析 hadoop

今天给大家推荐一本书《big data analytics beyond hadoop》。书的名字应该可以翻译为《hadoop下一代数据分析技术》。这本书主要讲的是BDAS(Berkeley Dat

大数据和云计算技术

2018-03-08

7920

资源管理框架（mesos/YARN/coraca/Torca/Omega)分析

任务调度 yarn node.js hadoop 容器

1 资源调度的目标和价值 1.1 子系统高效调度任务之间资源隔离，减少争抢。任务分配调度时结合资源分配，各个任务分配合理的资源，充分利用系统资源，减少资源利用不充分的问题。资源调度结合优先级，优先级高的分配更多的资源。 1.2 提高全系统的资源利用率各个子系统，存在不同时期，对资源需求不一样的情况，平滑系统资源的利用。 1.3 支持动态调整切分资源，增强系统扩展性。系统对资源的规划很难一次性准确，通过mesos支持虚拟主机的方式，动态扩展。 2 资源调度使用限制以及难点 2.1 资源调度使用限制

大数据和云计算技术

2018-03-07

2.3K0

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态