首页
学习
活动
专区
工具
TVP
发布

桥路_大数据

专栏成员
183
文章
246902
阅读量
36
订阅数
【建议收藏】大数据Hadoop实战入门手册,配套B站视频教程1小时速通
大数据技术是一组用于处理、存储和分析大规模数据集的技术和工具。随着数字化时代的到来,数据量的爆炸性增长使得传统的数据处理和分析方法变得不够高效,因此大数据技术应运而生。
十里桃花舞丶
2024-07-31
2540
谁懂?这23个关于大数据的灵魂拷问!
大数据是海量数据模式下,对数据进行存储以及计算的一种架构,或者说生态。数据量达到这个级别,单机数据库、MPP架构都无法支撑的时候,只能寻求大数据架构去做解决。
十里桃花舞丶
2023-10-23
2330
产品图鉴:Greenplum
Greenplum是老牌的MPP数据仓库,查询稳定性很强,SQL支持非常全面(支持ANSI SQL 2008和SQL OLAP 2003扩展;支持ODBC和JDBC应用编程接口。完善的标准支持使得系统开发、维护和管理都大为方便。),基于PostgreSQL构建而成,主要面向结构化数据OLAP计算,Greenplum在6.0版本大大的提高了对OLTP的支持,tpcb性能提升60倍,单节点查询达到80000TPS(Transactions Per Second,数据库每秒处理事务数),插入操作达到18000TPS,更新操作约7000TPS。
十里桃花舞丶
2023-10-16
2220
大数据开发的工作内容与流程
我们之后在做开发的时候,可能是选择某几个组件来使用。比如做数仓开发,可能就是用sqoop把数据抽到hdfs里,用spark或者mapreduce对这部分数据做一个清洗。
十里桃花舞丶
2023-10-16
2660
类比一下,秒懂大数据模式
大数据这个架构,好像产品非常多,对于初学者来说似乎很不友好。于是大家觉得,好像和我们之前的开发很不一样。但实际上和之前的开发是一模一样的。为什么一模一样?
十里桃花舞丶
2023-10-16
2040
大数据技术生态全景一览
大数据有很多的产品,琳琅满目。从架构图上就能看出产品很多。这些产品它们各自的功能是什么,它们又是怎么样相互配合来完成一整套的数据存储,包括分析计算任务。这里要给大家进行一个讲解与分析。
十里桃花舞丶
2023-10-16
4710
大数据常见应用场景及架构改进
对于离线场景,最典型的就是数据仓库。它和传统的数仓不太一样。因为传统数仓它只能解决中小规模的数据存储与分析问题。大数据这一块要能承接海量的数据。
十里桃花舞丶
2023-10-16
4290
如何区分大数据离线与实时场景
大数据的应用场景一般分为离线处理场景和实时处理场景。这个放在传统开发这里也成立,都是一样的。
十里桃花舞丶
2023-10-16
5200
转型大数据,要在恰当的时机
当传统数据存储与处理架构,在数据达到海量以后,产生了存储与性能瓶颈。这个时候大数据出现了,它帮忙解决了数据在海量规模情况下的的存储与计算问题。这是一个技术发展的必要途径,旧的技术无法适应新出现的场景,新技术就要诞生去进行解决。
十里桃花舞丶
2023-10-16
1270
大数据技术为何诞生,它究竟解决了哪些问题?
大数据是什么?其实大数据是满足数据达到海量这个规模以后,对这部分数据要完成存储包括计算的一种技术。
十里桃花舞丶
2023-10-16
5010
Hadoop面试题汇总-20221031
HDFS提供了一个高效的缓存加速机制—— Centralized Cache Management ,它允许用户指定要缓存的HDFS路径。NameNode会和保存着所需Block数据的所有DataNode通信,并指导它们把块数据缓存在堆外内存(off-heap)中进行缓存。DataNode会通过心跳机制向NameNode汇报缓存状态。
十里桃花舞丶
2022-11-14
7240
【微话】究竟什么是大数据?
我认为,大数据是一种在海量数据规模下进行数据存储和计算的一种技术体系(或解决方案)。
十里桃花舞丶
2022-05-10
2630
【MapReduce】基本原理
首先以词频统计的案例,来描述一下MapReduce的运算原理与一些基本的概念。这里输入的数据是一些英文的文章,它有很多行组成,而每一行又包含很多单词,每个单词之间由空格隔开;现在需要使用MapReduce来统计每个单词的出现次数。
十里桃花舞丶
2021-09-10
4140
【MapReduce】分布式计算框架MapReduce
MapReduce起源是2004年10月Google发表了MapReduce论文,之后由Mike Cafarella在Nutch(爬虫项目)中实现了MapReduce的功能。它的设计初衷是解决搜索引擎中大规模网页数据的并行处理问题,之后成为Apache Hadoop的核心子项目。
十里桃花舞丶
2021-09-10
5540
历时三个月,游乐场优雅的干掉了我的环境搭建恐惧症
你能想象,在一套刚装好的centos集群中,2分钟之内快速完成一整个集群完成初始化工作吗?
十里桃花舞丶
2021-09-10
2520
【HDFS】服务启动&Shell命令
因为脚本执行过程中,已经自动将Hadoop环境变量和节点间SSH免密登录配置好了,所以直接执行start-dfs.sh便可以直接启动HDFS集群(同时会启动Yarn)。
十里桃花舞丶
2021-09-10
1.1K0
【HDFS】集群高可用
HDFS单点架构存在一些问题,首先是NameNode内存受限,因为数据的元数据信息全部保存在NameNode内存中。如果数据量足够庞大,可能会将NameNode内存占满,这种情况下会导致HDFS的扩展性上限。
十里桃花舞丶
2021-09-10
4630
【HDFS】系统架构与存储机制
HDFS是主从架构(Master/Slave),当然这也是大数据产品最常见的架构。主节点为NameNode,从节点为DataNode。其中DataNode用于存储数据,存储的数据会被拆分成Block块(默认按照128M进行切分),然后均匀的存放到各个DataNode节点中,为了保证数据安全性,这些Block块会进行多副本的存储,备份到不同的节点。而NameNode则负责管理整个集群,并且存储数据的元数据信息(记录数据被拆分为哪几块,分别存储到了哪个DataNode中)。DataNode会通过心跳机制,与NameNode进行通信(默认3秒),汇报健康状况和存储的Block数据信息,如果NameNode超过一定时间没有收到DataNode发送的心跳信息,则认为DataNode宕机,会启动容灾机制。
十里桃花舞丶
2021-09-10
3650
【HDFS】分布式文件系统HDFS
HDFS全称Hadoop Distributed File System,Hadoop分布式文件系统。它是2003年10月Google发表的GFS(Google File System)论文的开源实现,之后成为Apache Hadoop的核心子项目,用于解决海量数据存储问题。它在开源大数据技术体系中,地位无可替代,到现在为止,依然是主流的大数据存储选型。
十里桃花舞丶
2021-09-10
5380
【简介】大数据技术体系
这一节,来认识下大数据的技术框架有哪些,它们分别用于解决哪些问题?它们的内在逻辑和适用场景有哪些?OK,一起去探索下。
十里桃花舞丶
2021-09-10
6620
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档