前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >大数据核心技术之分布式基础入门

大数据核心技术之分布式基础入门

作者头像
成都加米谷大数据
修改2020-10-22 17:31:33
5190
修改2020-10-22 17:31:33
举报
文章被收录于专栏:大数据开发大数据开发

大数据技术的核心,离不开分布式理论。大数据从概念走向落地,也是因为大数据技术的成熟,换句话说,就是大数据技术使得大规模数据处理成为可能,而大数据技术背后的核心,指向的是分布式理论。今天我们就来具体讲一讲分布式技术基础入门。

自大数据在企业当中落地,以Hadoop为代表的计算框架,得到了普遍的重视。而Hadoop,就是基于分布式理论而实现的开源技术框架,并由此形成了开源的技术生态,帮助企业能够以相对较低的成本,来搭建起自身的大数据系统平台。

为什么选择分布式?

为什么会是分布式,使得大批量数据处理成为可能呢?因为分布式理论支持下的系统框架,解决了以下三个问题:

1、高并发、低延迟的网络服务需求

大批量的数据处理,必然带来大规模的访问请求,超出系统承受能力之后,就只能宕机了。而有了分布式,多台服务器共同高效协作,去处理尽可能多的任务,系统的吞吐量得到极大的提升。以Hadoop为例,TB级及以上的数据存储和计算任务,也能完全扛得住。

2、分布式的可扩展性能够大幅度降低企业的网络成本

由于分布式系统的多台计算机可以在空间位置上随意分布,机器性能也可以独立运行和随时变动,这就使得多个独立服务可以得到针对性地升级,而不是传统架构下的“大锅饭”。这样能够对系统服务性能进行更好的配置,满足不同阶段的需求。

3、分布式系统具有高安全性

在分布式系统当中,计算机没有主/从之分,所有计算机节点都是对等的,在对外服务时分布式系统都会对数据和服务进行副本处理,从而直接有效地防止了企业关键数据丢失无法找回的“悲剧”。

基于分布式理论,行业当中已经发展出了分布式存储、分布式计算、分布式数据库、分布式消息中间件等,共同来解决大数据处理当中的具体需求问题。

以Hadoop来说,Hadoop作为主流选择的分布式基础架构,HDFS负责分布式存储,MapReduce/Spark负责分布式计算,Elasticsearch、Redis等作为分布式数据库系统,Kafka提供分布式消息中间件服务等。

关于大数据核心技术,分布式基础入门,以上就为大家做了简单的讲解了。分布式理论是大数据技术的基础,理解和掌握分布式理论,熟悉主流分布式相关的技术框架组件,是大数据学习的重要部分。

本文系转载,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文系转载前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 为什么选择分布式?
相关产品与服务
大数据处理套件 TBDS
腾讯大数据处理套件(Tencent Big Data Suite,TBDS)依托腾讯多年海量数据处理经验,基于云原生技术和泛 Hadoop 生态开源技术对外提供的可靠、安全、易用的大数据处理平台。 TBDS可在公有云、私有云、非云化环境,根据不同数据处理需求组合合适的存算分析组件,包括 Hive、Spark、HBase、Flink、presto、Iceberg、Alluxio 等,以快速构建企业级数据湖、数据仓库。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档