个人分享-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

个人分享

专栏成员

238

文章

266790

阅读量

42

订阅数

大数据理论体系总结--数据仓库管理与全链路数据体系

大数据分布式存储 hadoop spark

　　就这样，大数据领域蓬勃发展了好几年，有很多伙伴执迷于技术，成为了分布式计算与存储的领域专家。也有很多伙伴执迷于数据，成为了行业的数据研发专家。当然还有很多小伙伴，热衷于工具系统开发，成为了数据技术专家。那么我们回过头来考虑，什么是大数据，什么又是数据仓库，什么又是数据技术。大数据其实是个非常笼统的感念，它是由数据仓库演化而来的数据与技术方法论，那么我们先说一下数据仓库的由来：

2018-09-06

2.3K0

思维体系---技术思维、业务数据思维、产品思维、复合思维

hadoop spark 分布式

　　工作已有四年有余，从最初的亚信到现在的阿里。。总结了下思维模式，以个人的视角，供各位干代码的小伙伴们参考，能够深入无论技术还是业务还是产品的本质。发现其中的规律，更好地把握自己的方向及未来。那么总的来说，我分为四种思维模式：

2018-09-06

1.2K0

分布式系统简介

分布式大数据

　　研究生阶段学习的分布式原理与泛型几乎忘完了，当初不怎么懂。。。现在工作中发现大数据技术的底层还是分布式系统，那么重新拾起，总结下~

2018-09-06

1.4K0

存储分布式

　　由于没有存储共享器，分布式系统中的所有通信都是基于底层消息交换的。如果进程A要与进程B通信，A必须首先在自己的地址空间中生成该消息，再执行一个系统调用，通知操作系统将该消息通过网络发送给B。

2018-09-06

6650

分布式系统中的线程与进程

分布式存储

　　虽然进程构成了分布式系统中的基本组成单元，但是操作系统提供的用于构建分布式系统的进程在粒度上还是太大了，而就粒度而言，将每个进程细分为若干控制线程的形式则更加合适。

2018-09-06

9040

数据集成中间件知识点总结

数据库分布式

　　数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中，从而为企业提供全面的数据共享。

2018-09-06

1.6K0

Spark on Yarn年度知识整理

spark yarn 大数据分布式

Spark是整个BDAS的核心组件，是一个大数据分布式编程框架，不仅实现了MapReduce的算子map 函数和reduce函数及计算模型，还提供更为丰富的算子，如filter、join、groupByKey等。是一个用来实现快速而同用的集群计算的平台。

2018-09-06

1.3K0

海量数据处理技术学习

数据处理 mapreduce 分布式大数据

　　外排序：因为海量数据无法全部装入内存，所以数据的大部分存入磁盘中，小部分在排序需要时存入内存。

2018-09-06

5980

Spark工程开发前台技术实现与后台函数调用

spark 大数据分布式 hadoop

Spark是一个通用的大规模数据快速处理引擎。可以简单理解为Spark就是一个大数据分布式处理框架。基于内存计算的Spark的计算速度要比Hadoop的MapReduce快上50倍以上，基于磁盘的计算速度也快于10倍以上。Spark运行在Hadoop第二代的yarn集群管理之上，可以轻松读取Hadoop的任何数据。能够读取HBase、HDFS等Hadoop的数据源。

2018-09-06

1.1K0

Hbase伪分布式

hbase 分布式存储 xml hive

然后启动hbase即可，但我发现查询时报错啊。。报错信息被刷掉了- -大概错误是：

2018-09-06

6780

TDSQL MySQL 版 hbase 分布式 hadoop mapreduce

Hbase是运行在Hadoop上的NoSQL数据库，它是一个分布式的和可扩展的大数据仓库，也就是说HBase能够利用HDFS的分布式处理模式，并从Hadoop的MapReduce程序模型中获益。这意味着在一组商业硬件上存储许多具有数十亿行和上百万列的大表。除去Hadoop的优势，HBase本身就是十分强大的数据库，它能够融合key/value存储模式带来实时查询的能力，以及通过MapReduce进行离线处理或者批处理的能力。总的来说，Hbase能够让你在大量的数据中查询记录，也可以从中获得综合分析报告。

2018-09-06

5540

SparkSQL项目中的应用

spark sql 大数据分布式

Spark是一个通用的大规模数据快速处理引擎。可以简单理解为Spark就是一个大数据分布式处理框架。基于内存计算的Spark的计算速度要比Hadoop的MapReduce快上100倍以上，基于磁盘的计算速度也快于10倍以上。Spark运行在Hadoop第二代的yarn集群管理之上，可以轻松读取Hadoop的任何数据。能够读取HBase、HDFS等Hadoop的数据源。

2018-09-06

7620

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态