首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

行进中换轮胎——万字长文解析美团和大众点评两大数据平台是怎么融合的

背景 互联网格局复杂多变,大规模的企业合并重组不时发生。原来完全独立甚至相互竞争的两家公司,有着独立的技术体系、平台和团队,如何整合,技术和管理上的难度都很大。2015年10月,美团与大众点评合并为今天的“美团点评”,成为全球规模最大的生活服务平台。主要分布在北京和上海两地的两支技术团队和两套技术平台,为业界提供了一个很好的整合案例。 本文将重点讲述数据平台融合项目的实践思路和经验,并深入地讨论Hadoop多机房架构的一种实现方案,以及大面积SQL任务重构的一种平滑化方法。最后介绍这种复杂的平台系统如何保证

017

怎样在初创公司里搭建稳定、可访问的数据基础架构

数据是创立Asana的核心部分,并且每一个团队都依赖他们自己的方式。我们的负责增长的团队依靠事件数据来分析试验结果(对比试验)。我们做很多快速的实验–通常会有很多实验一起跑–让这些互相影响的作用和其他关键度量引导我们需要放弃什么和投入什么。 项目经理,设计师和产品工程师通过分析使用数据来发现不可避免的妥协,比如简洁性对强大性。通过这种方法,我们可以知道什么样的新产品方向能够释放出最多的潜力。 市场部门需要明确在他们的竞争力中的哪个部分能够驱使新用户到Asana。财会部门需要非常可靠的关于总体增长模式的统

010

Ambari + HDP 整体介绍

Ambari 是 hortonworks推出的管理监控Hadoop集群的Web工具,此处的Hadoop集群不单单指Hadoop集群,而是泛指hadoop 整个生态,包括Hdfs,yarn,Spark,Hive,Hbase,Zookeeper,druid等等,管理指的是可以通过Ambari对整个集群进行动态管理,包括集群的部署,修改,删除,扩展等,监控指Ambari实时监控集群的运行状况,包括运行内存,剩余内存,CPU使用率,节点故障等。所以通过Ambari可以简化对集群的管理和监控,让开发者更多的聚焦与业务逻辑。     Ambari + HDP介绍:         Ambari:WEB应用程序,后台为Ambari Server,负责与HDP部署的集群工作节点进行通讯,集群控制节点包括Hdfs,Spark,Zk,Hive,Hbase等等。         HDP:HDP包中包含了很多常用的工具,比如Hadoop,Hive,Hbase,Spark等         HDP-Util:包含了公共包,比如ZK等一些公共组件。     老的集群部署方式:         1. 集群配置(免密登陆,静态IP,防火墙)         2. JDK,MySql 部署 (Hive相关表结构管理,如果没有用到Hive,无需安装)         3. Hadoop Hdfs 部署(修改配置) (分布式文件存储)         4. Hadoop Yarn 部署(修改配置) (MapReduce 任务调度)         5. (可选) Zookeeper部署,需要修改NameNode 和 ResourceManager 的配置文件         6. Hive 部署 (数据仓库,对Hdfs上保存的数据进行映射管理)         7. HBase 部署 (NoSQL数据库,进行数据存储)         8. (可选) Flume,Sqoop 部署(主要用于数据采集,数据迁移)         9. Spark 部署 (计算框架部署)         10. 后面还需要部署 监控框架等等,         部署准备:MySql,JDK,Hadoop,Hive,HBase,Zookeeper,Spark,Flume,Sqoop等         部署缺点:以上全部部署都是通过命令行来部署,麻烦复杂,容易出错,动态扩展较难,无集群监控    部署优点:整体可控,对集群内部运行逻辑比较清楚,只部署需要的服务,所以对集群要求(内存,CPU及硬盘) 可以不是很高     Ambari 集群部署方式:         1. 集群配置(免密登陆,静态IP,防火墙)         2. JDK,MySql 部署 (需要配置Ambari,Hive,Hbase等多张表)         3. 部署Ambari 服务         4. 通过Ambari Web工具 部署Hdfs,Spark,Hive,Zk,Hbase,Flume等,想怎么部署就怎么部署,鼠标选择服务和需要部署的节点即可         5. 通过Ambari Web工具进行集群监控,并且对警告及错误进行处理         部署准备:MySql,JDK,Ambari,HDP,HDP-Util,和上面老的部署方式相比,是不是少了很多    部署注意事项:通过Ambari部署集群对集群节点机器要求比较高,因为有好多关于AmbariServer服务会部署在同一个管理节点上,同时其他集群节点也会同时部署很多其他服务,这对节点的配置(CPU,内存,硬盘)要求比较高,可能运行不起来。         部署优点:部署简单,一键部署,方便监控,方便扩展,多集群同时管理     Ambari 部署步骤:         1. 单节点:Ntp,java,selinux,hosts,hostname,ip         2. 克隆节点,修改ip及hostname         3. 安装mysql,配置免密登陆         4. 安装httpd,配置本地ambari+HDP 的yum源         5. Ambari Server安装及初始化         6. Ambari Server 通过向导安装集群         7. Ambari 使用介绍         8. Hdfs HA的高可用         9. 接下来就可以根据我们的需求使用集群了,这部分后面会有专门章节针对Hadoop MR 和Spark进行详细解读。

01

被热捧的云原生,和大数据怎么结合才能驱动商业?

导语 | 近几年炙手可热的云原生首先由Matt Stine提出并延续使用至今,但其并没有标准的、严格的定义,比较公认的四要素是:DevOps、微服务、持续交付、以及容器,更多的则是偏向应用系统的一种体系架构和方法论。那么在云上如何改进大数据基础架构让其符合云原生标准,同时给企业客户带来真真切切的数据分析成本降低和性能保障是一个开放性的话题。本文由腾讯专家工程师、腾讯云EMR技术负责人陈龙在 Techo TVP开发者峰会「数据的冰与火之歌——从在线数据库技术,到海量数据分析技术」 的《云原生环境下大数据基础技术演进》演讲分享整理而成,与大家分享和探讨在云上如何实现存储计算云原生,以及未来下一代云原生大数据基础架构。

05

大数据系列(1)——Hadoop集群坏境搭建配置

文|指尖流淌 前言 关于时下最热的技术潮流,无疑大数据是首当其中最热的一个技术点,关于大数据的概念和方法论铺天盖地的到处宣扬,但其实很多公司或者技术人员也不能详细的讲解其真正的含义或者就没找到能被落地实施的可行性方案,更有很多数据相关的项目比如弄几张报表,写几个T-SQL语句就被冠以“大数据项目”,当然了,时下热门的话题嘛,先把“大数据”帽子扣上,这样才能显示出项目的高大上,得到公司的重视或者高层领导的关注。 首先,关于大数据的概念或者架构一直在各方争议的背景下持续的存在着。目前,关于大数据项目可以真正

05
领券