腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
桥路_大数据
专栏成员
举报
183
文章
246902
阅读量
36
订阅数
订阅专栏
申请加入专栏
全部文章(183)
大数据(47)
hive(28)
sql(26)
数据(25)
存储(24)
数据库(20)
hadoop(19)
mapreduce(18)
mysql(16)
node.js(13)
编程算法(12)
分布式(10)
linux(9)
yarn(9)
shell(9)
云数据库 SQL Server(8)
kafka(8)
索引(8)
优化(8)
spark(7)
java(6)
react(6)
文件存储(6)
缓存(6)
windows(6)
hbase(6)
性能(6)
python(5)
html(5)
ide(5)
TDSQL MySQL 版(5)
开源(5)
数据分析(5)
产品(5)
工具(5)
架构(5)
内存(5)
javascript(4)
git(4)
jar(4)
网络安全(4)
面向对象编程(4)
数据处理(4)
nat(4)
开发(4)
线程(4)
其他(3)
bash(3)
android(3)
github(3)
http(3)
reactnative(3)
自动化(3)
tcp/ip(3)
https(3)
管理(3)
进程(3)
连接(3)
数据仓库(3)
系统(3)
最佳实践(3)
php(2)
nosql(2)
api(2)
centos(2)
apache(2)
nginx(2)
bash 指令(2)
spring(2)
访问管理(2)
serverless(2)
yum(2)
zookeeper(2)
系统架构(2)
迁移(2)
etl(2)
sqoop(2)
磁盘(2)
服务器(2)
函数(2)
脚本(2)
入门(2)
数组(2)
搜索(2)
统计(2)
费用中心(1)
云服务器(1)
官方文档(1)
机器学习(1)
bootstrap(1)
jquery ui(1)
xml(1)
css(1)
qt(1)
postgresql(1)
打包(1)
maven(1)
unix(1)
容器镜像服务(1)
神经网络(1)
深度学习(1)
专用宿主机(1)
云数据库 MongoDB(1)
消息队列 CMQ 版(1)
腾讯云测试服务(1)
es 2(1)
mongodb(1)
网站(1)
企业(1)
数据安全(1)
electron(1)
容器(1)
运维(1)
压力测试(1)
html5(1)
jdk(1)
ssh(1)
dns(1)
npm(1)
grep(1)
markdown(1)
gradle(1)
安全(1)
虚拟化(1)
实时数仓(1)
Elasticsearch Service(1)
action(1)
app(1)
block(1)
clickhouse(1)
dql(1)
error(1)
exe(1)
greenplum(1)
having(1)
hdfs(1)
message(1)
model(1)
native(1)
partition(1)
range(1)
rows(1)
select(1)
sort(1)
tabbar(1)
title(1)
遍历(1)
操作系统(1)
测试(1)
二维码(1)
高并发(1)
工作(1)
后端(1)
集合(1)
客户端(1)
框架(1)
流量(1)
路由(1)
命令行(1)
模型(1)
排序(1)
摄像头(1)
实践(1)
事务(1)
数据存储(1)
文件上传(1)
效率(1)
消息队列(1)
协程(1)
虚拟机(1)
压缩(1)
原理(1)
字符编码(1)
搜索文章
搜索
搜索
关闭
【建议收藏】大数据Hadoop实战入门手册,配套B站视频教程1小时速通
hadoop
大数据
函数
入门
数据
大数据技术是一组用于处理、存储和分析大规模数据集的技术和工具。随着数字化时代的到来,数据量的爆炸性增长使得传统的数据处理和分析方法变得不够高效,因此大数据技术应运而生。
十里桃花舞丶
2024-07-31
254
0
谁懂?这23个关于大数据的灵魂拷问!
企业
大数据
产品
架构
数据
大数据是海量数据模式下,对数据进行存储以及计算的一种架构,或者说生态。数据量达到这个级别,单机数据库、MPP架构都无法支撑的时候,只能寻求大数据架构去做解决。
十里桃花舞丶
2023-10-23
233
0
产品图鉴:Greenplum
大数据
greenplum
产品
数据
数据仓库
Greenplum是老牌的MPP数据仓库,查询稳定性很强,SQL支持非常全面(支持ANSI SQL 2008和SQL OLAP 2003扩展;支持ODBC和JDBC应用编程接口。完善的标准支持使得系统开发、维护和管理都大为方便。),基于PostgreSQL构建而成,主要面向结构化数据OLAP计算,Greenplum在6.0版本大大的提高了对OLTP的支持,tpcb性能提升60倍,单节点查询达到80000TPS(Transactions Per Second,数据库每秒处理事务数),插入操作达到18000TPS,更新操作约7000TPS。
十里桃花舞丶
2023-10-16
222
0
大数据开发的工作内容与流程
大数据
产品
工作
开发
数据
我们之后在做开发的时候,可能是选择某几个组件来使用。比如做数仓开发,可能就是用sqoop把数据抽到hdfs里,用spark或者mapreduce对这部分数据做一个清洗。
十里桃花舞丶
2023-10-16
266
0
类比一下,秒懂大数据模式
分布式
大数据
操作系统
开发
数据
大数据这个架构,好像产品非常多,对于初学者来说似乎很不友好。于是大家觉得,好像和我们之前的开发很不一样。但实际上和之前的开发是一模一样的。为什么一模一样?
十里桃花舞丶
2023-10-16
204
0
大数据技术生态全景一览
数据库
大数据
产品
管理
数据
大数据有很多的产品,琳琅满目。从架构图上就能看出产品很多。这些产品它们各自的功能是什么,它们又是怎么样相互配合来完成一整套的数据存储,包括分析计算任务。这里要给大家进行一个讲解与分析。
十里桃花舞丶
2023-10-16
471
0
大数据常见应用场景及架构改进
存储
分布式
大数据
架构
数据
对于离线场景,最典型的就是数据仓库。它和传统的数仓不太一样。因为传统数仓它只能解决中小规模的数据存储与分析问题。大数据这一块要能承接海量的数据。
十里桃花舞丶
2023-10-16
429
0
如何区分大数据离线与实时场景
大数据
数据分析
开发
数据
搜索
大数据的应用场景一般分为离线处理场景和实时处理场景。这个放在传统开发这里也成立,都是一样的。
十里桃花舞丶
2023-10-16
520
0
转型大数据,要在恰当的时机
存储
大数据
架构
数据
效率
当传统数据存储与处理架构,在数据达到海量以后,产生了存储与性能瓶颈。这个时候大数据出现了,它帮忙解决了数据在海量规模情况下的的存储与计算问题。这是一个技术发展的必要途径,旧的技术无法适应新出现的场景,新技术就要诞生去进行解决。
十里桃花舞丶
2023-10-16
127
0
大数据技术为何诞生,它究竟解决了哪些问题?
数据库
存储
大数据
架构
数据
大数据是什么?其实大数据是满足数据达到海量这个规模以后,对这部分数据要完成存储包括计算的一种技术。
十里桃花舞丶
2023-10-16
501
0
Hadoop面试题汇总-20221031
缓存
大数据
yarn
node.js
文件存储
HDFS提供了一个高效的缓存加速机制—— Centralized Cache Management ,它允许用户指定要缓存的HDFS路径。NameNode会和保存着所需Block数据的所有DataNode通信,并指导它们把块数据缓存在堆外内存(off-heap)中进行缓存。DataNode会通过心跳机制向NameNode汇报缓存状态。
十里桃花舞丶
2022-11-14
724
0
【微话】究竟什么是大数据?
存储
大数据
我认为,大数据是一种在海量数据规模下进行数据存储和计算的一种技术体系(或解决方案)。
十里桃花舞丶
2022-05-10
263
0
【MapReduce】基本原理
mapreduce
大数据
存储
javascript
首先以词频统计的案例,来描述一下MapReduce的运算原理与一些基本的概念。这里输入的数据是一些英文的文章,它有很多行组成,而每一行又包含很多单词,每个单词之间由空格隔开;现在需要使用MapReduce来统计每个单词的出现次数。
十里桃花舞丶
2021-09-10
414
0
【MapReduce】分布式计算框架MapReduce
分布式
mapreduce
大数据
MapReduce起源是2004年10月Google发表了MapReduce论文,之后由Mike Cafarella在Nutch(爬虫项目)中实现了MapReduce的功能。它的设计初衷是解决搜索引擎中大规模网页数据的并行处理问题,之后成为Apache Hadoop的核心子项目。
十里桃花舞丶
2021-09-10
554
0
历时三个月,游乐场优雅的干掉了我的环境搭建恐惧症
kafka
大数据
github
git
开源
你能想象,在一套刚装好的centos集群中,2分钟之内快速完成一整个集群完成初始化工作吗?
十里桃花舞丶
2021-09-10
252
0
【HDFS】服务启动&Shell命令
node.js
大数据
shell
hadoop
因为脚本执行过程中,已经自动将Hadoop环境变量和节点间SSH免密登录配置好了,所以直接执行start-dfs.sh便可以直接启动HDFS集群(同时会启动Yarn)。
十里桃花舞丶
2021-09-10
1.1K
0
【HDFS】集群高可用
大数据
hadoop
HDFS单点架构存在一些问题,首先是NameNode内存受限,因为数据的元数据信息全部保存在NameNode内存中。如果数据量足够庞大,可能会将NameNode内存占满,这种情况下会导致HDFS的扩展性上限。
十里桃花舞丶
2021-09-10
463
0
【HDFS】系统架构与存储机制
大数据
存储
系统架构
HDFS是主从架构(Master/Slave),当然这也是大数据产品最常见的架构。主节点为NameNode,从节点为DataNode。其中DataNode用于存储数据,存储的数据会被拆分成Block块(默认按照128M进行切分),然后均匀的存放到各个DataNode节点中,为了保证数据安全性,这些Block块会进行多副本的存储,备份到不同的节点。而NameNode则负责管理整个集群,并且存储数据的元数据信息(记录数据被拆分为哪几块,分别存储到了哪个DataNode中)。DataNode会通过心跳机制,与NameNode进行通信(默认3秒),汇报健康状况和存储的Block数据信息,如果NameNode超过一定时间没有收到DataNode发送的心跳信息,则认为DataNode宕机,会启动容灾机制。
十里桃花舞丶
2021-09-10
365
0
【HDFS】分布式文件系统HDFS
hadoop
大数据
windows
开源
HDFS全称Hadoop Distributed File System,Hadoop分布式文件系统。它是2003年10月Google发表的GFS(Google File System)论文的开源实现,之后成为Apache Hadoop的核心子项目,用于解决海量数据存储问题。它在开源大数据技术体系中,地位无可替代,到现在为止,依然是主流的大数据存储选型。
十里桃花舞丶
2021-09-10
538
0
【简介】大数据技术体系
大数据
spark
mapreduce
nosql
分布式
这一节,来认识下大数据的技术框架有哪些,它们分别用于解决哪些问题?它们的内在逻辑和适用场景有哪些?OK,一起去探索下。
十里桃花舞丶
2021-09-10
662
0
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
立即查看
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档