腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
个人分享
专栏成员
举报
238
文章
266790
阅读量
42
订阅数
订阅专栏
申请加入专栏
全部文章(238)
其他(116)
spark(43)
hadoop(22)
java(18)
sql(15)
编程算法(14)
存储(14)
人工智能(13)
大数据(13)
hbase(13)
mapreduce(12)
分布式(12)
apache(11)
hive(10)
api(9)
数据库(7)
云数据库 SQL Server(6)
linux(6)
zookeeper(6)
node.js(5)
xml(5)
云数据库 Redis(5)
缓存(5)
企业组织(5)
TDSQL MySQL 版(4)
mongodb(4)
决策树(4)
rpc(4)
数据挖掘(3)
.net(3)
json(3)
yarn(3)
shell(3)
yum(3)
数据处理(3)
机器学习(2)
bash(2)
servlet(2)
scala(2)
spring(2)
ssh(2)
面向对象编程(2)
jdbc(2)
hashmap(2)
grep(2)
数据结构(2)
自动驾驶(1)
bootstrap(1)
html(1)
oracle(1)
memcached(1)
mvc(1)
nginx(1)
bash 指令(1)
神经网络(1)
深度学习(1)
企业(1)
http(1)
容器(1)
jdk(1)
jvm(1)
erp(1)
监督学习(1)
二叉树(1)
ntp(1)
安全(1)
https(1)
架构设计(1)
nat(1)
kafka(1)
任务调度(1)
int(1)
io(1)
push(1)
selection(1)
队列(1)
工作(1)
搜索文章
搜索
搜索
关闭
大数据理论体系总结--数据仓库管理与全链路数据体系
大数据
分布式
存储
hadoop
spark
就这样,大数据领域蓬勃发展了好几年,有很多伙伴执迷于技术,成为了分布式计算与存储的领域专家。也有很多伙伴执迷于数据,成为了行业的数据研发专家。当然还有很多小伙伴,热衷于工具系统开发,成为了数据技术专家。那么我们回过头来考虑,什么是大数据,什么又是数据仓库,什么又是数据技术。大数据其实是个非常笼统的感念,它是由数据仓库演化而来的数据与技术方法论,那么我们先说一下数据仓库的由来:
用户3003813
2018-09-06
2.3K
0
思维体系---技术思维、业务数据思维、产品思维、复合思维
hadoop
spark
分布式
工作已有四年有余,从最初的亚信 到现在的 阿里。。总结了下思维模式,以个人的视角,供各位干代码的小伙伴们参考,能够深入无论 技术还是业务还是产品的本质。发现其中的规律,更好地把握自己的方向及未来。那么总的来说,我分为四种思维模式:
用户3003813
2018-09-06
1.2K
0
分布式系统简介
分布式
大数据
研究生阶段学习的分布式原理与泛型几乎忘完了,当初不怎么懂。。。现在工作中发现大数据技术的底层还是分布式系统,那么重新拾起,总结下~
用户3003813
2018-09-06
1.4K
0
通信协议
存储
分布式
由于没有存储共享器,分布式系统中的所有通信都是基于底层消息交换的。如果进程A要与进程B通信,A必须首先在自己的地址空间中生成该消息,再执行一个系统调用,通知操作系统将该消息通过网络发送给B。
用户3003813
2018-09-06
665
0
分布式系统中的线程与进程
分布式
存储
虽然进程构成了分布式系统中的基本组成单元,但是操作系统提供的用于构建分布式系统的进程在粒度上还是太大了,而就粒度而言,将每个进程细分为若干控制线程的形式则更加合适。
用户3003813
2018-09-06
904
0
数据集成中间件知识点总结
数据库
分布式
数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。
用户3003813
2018-09-06
1.6K
0
Spark on Yarn年度知识整理
spark
yarn
大数据
分布式
Spark是整个BDAS的核心组件,是一个大数据分布式编程框架,不仅实现了MapReduce的算子map 函数和reduce函数及计算模型,还提供更为丰富的算子,如filter、join、groupByKey等。是一个用来实现快速而同用的集群计算的平台。
用户3003813
2018-09-06
1.3K
0
海量数据处理技术学习
数据处理
mapreduce
分布式
大数据
外排序:因为海量数据无法全部装入内存,所以数据的大部分存入磁盘中,小部分在排序需要时存入内存。
用户3003813
2018-09-06
598
0
Spark工程开发前台技术实现与后台函数调用
spark
大数据
分布式
hadoop
Spark是一个通用的大规模数据快速处理引擎。可以简单理解为Spark就是一个大数据分布式处理框架。基于内存计算的Spark的计算速度要比Hadoop的MapReduce快上50倍以上,基于磁盘的计算速度也快于10倍以上。Spark运行在Hadoop第二代的yarn集群管理之上,可以轻松读取Hadoop的任何数据。能够读取HBase、HDFS等Hadoop的数据源。
用户3003813
2018-09-06
1.1K
0
Hbase伪分布式
hbase
分布式
存储
xml
hive
然后启动hbase即可,但我发现查询时报错啊。。报错信息被刷掉了- -大概错误是:
用户3003813
2018-09-06
678
0
HBASE解析
TDSQL MySQL 版
hbase
分布式
hadoop
mapreduce
Hbase是运行在Hadoop上的NoSQL数据库,它是一个分布式的和可扩展的大数据仓库,也就是说HBase能够利用HDFS的分布式处理模式,并从Hadoop的MapReduce程序模型中获益。这意味着在一组商业硬件上存储许多具有数十亿行和上百万列的大表。除去Hadoop的优势,HBase本身就是十分强大的数据库,它能够融合key/value存储模式带来实时查询的能力,以及通过MapReduce进行离线处理或者批处理的能力。总的来说,Hbase能够让你在大量的数据中查询记录,也可以从中获得综合分析报告。
用户3003813
2018-09-06
554
0
SparkSQL项目中的应用
spark
sql
大数据
分布式
Spark是一个通用的大规模数据快速处理引擎。可以简单理解为Spark就是一个大数据分布式处理框架。基于内存计算的Spark的计算速度要比Hadoop的MapReduce快上100倍以上,基于磁盘的计算速度也快于10倍以上。Spark运行在Hadoop第二代的yarn集群管理之上,可以轻松读取Hadoop的任何数据。能够读取HBase、HDFS等Hadoop的数据源。
用户3003813
2018-09-06
762
0
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
立即查看
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档