个人分享-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

个人分享

专栏成员

238

文章

266931

阅读量

42

订阅数

SparkConf加载与SparkContext创建（源码阅读二）

spark 存储 apache 缓存

　　1、下面，开始创建BroadcastManager,就是传说中的广播变量管理器。BroadcastManager用于将配置信息和序列化后的RDD、Job以及ShuffleDependency等信息在本地存储。紧接着blockManager的创建后创建。如下：

2018-09-06

4150

Spark数据传输及ShuffleClient（源码阅读五）

spark 存储 java

　　我们都知道Spark的每个task运行在不同的服务器节点上，map输出的结果直接存储到map任务所在服务器的存储体系中，reduce任务有可能不在同一台机器上运行，所以需要远程将多个map任务的中间结果fetch过来。那么我们就来学习下shuffleClient。shuffleClient存在于每个exeuctor的BlockManager中，它不光是将shuffle文件上传到其他executor或者下载到本地的客户端，也提供了可以被其他exeuctor访问的shuffle服务.当有外部的（其他节点）shuffleClient时，新建ExternalShuffleClient,默认为BlockTransferService.那么真正init的实现方法在NettyBlockTransferService中。

2018-09-06

7580

Hadoop源码学习之HDFS（一）

　　Hadoop的HDFS可以分为NameNode与DataNode,NameNode存储所有DataNode中数据的元数据信息。而DataNode负责存储真正的数据（数据块）信息以及数据块的ID。

2018-09-06

6540

大数据理论体系总结--数据仓库管理与全链路数据体系

大数据分布式存储 hadoop spark

　　就这样，大数据领域蓬勃发展了好几年，有很多伙伴执迷于技术，成为了分布式计算与存储的领域专家。也有很多伙伴执迷于数据，成为了行业的数据研发专家。当然还有很多小伙伴，热衷于工具系统开发，成为了数据技术专家。那么我们回过头来考虑，什么是大数据，什么又是数据仓库，什么又是数据技术。大数据其实是个非常笼统的感念，它是由数据仓库演化而来的数据与技术方法论，那么我们先说一下数据仓库的由来：

2018-09-06

2.3K0

Hbase客户端API基础小结笔记(未完)

hbase TDSQL MySQL 版 rpc 存储 api

　　HBase的主要客户端接口是由org.apache.hadoop.hbase.client包中的HTable类提供的，通过这个类，用户可以完成向HBase存储和检索数据，以及删除无效数据之类的操作。

2018-09-06

9290

Hadoop数据读写原理

node.js hadoop 存储编程算法 mapreduce

　　MapReduce作业(job)是客户端执行的单位：它包括输入数据、MapReduce程序和配置信息。Hadoop把输入数据划分成等长的小数据发送到MapReduce，称之为输入分片。Hadoop为每个分片创建一个map任务，由它来运行用户自定义的map函数来分析每个分片中的记录。

2018-09-06

2.3K0

存储分布式

　　由于没有存储共享器，分布式系统中的所有通信都是基于底层消息交换的。如果进程A要与进程B通信，A必须首先在自己的地址空间中生成该消息，再执行一个系统调用，通知操作系统将该消息通过网络发送给B。

2018-09-06

6660

面向消息的持久通信与面向流的通信

存储数据库

消息队列系统为持久异步通信提供多种支持，本质是提供消息的中介存储能力，这样就不需要消息发送方和接收方在消息传输过程中都保持激活状态。

2018-09-06

9050

分布式系统中的线程与进程

分布式存储

　　虽然进程构成了分布式系统中的基本组成单元，但是操作系统提供的用于构建分布式系统的进程在粒度上还是太大了，而就粒度而言，将每个进程细分为若干控制线程的形式则更加合适。

2018-09-06

9050

HotSpot 自动内存管理笔记与实战

1.对象的创建虚拟机遇到一条new指令时，首先会去检查这个指令的参数是否能在常量池中定位到一个类的符号引用，并且检查这个符号引用代表的类是否已被加载、解析和初始化过。如果没有，则必须先进行相应的类的加载。

2018-09-06

4360

邻接矩阵学习

邻接矩阵：是表示顶点之间相邻关系的矩阵。因此，用一个一维数组存放图中所有顶点数据；用一个二维数组存放顶点间的关系（边或弧）的数据，这个二维数组称为邻接矩阵。邻接矩阵又分为有向图邻接矩阵和无向图邻接矩阵。

2018-09-06

1.5K0

Hbase伪分布式

hbase 分布式存储 xml hive

然后启动hbase即可，但我发现查询时报错啊。。报错信息被刷掉了- -大概错误是：

2018-09-06

6780

Hive架构及Hive On Spark

hive spark 存储

(1)Table:每个表都对应在HDFS中的目录下，数据是经过序列化后存储在该目录中。同时Hive也支持表中的数据存储在其他类型的文件系统中，如NFS或本地文件系统。

2018-09-06

2.1K0

Redis简介及3.0.2编译安装

云数据库 Redis 数据库存储 memcached

Redis是一个key-value存储系统。和Memcached类似，它支持存储的value类型相对更多，包括string(字符串)、list(链表)、set(集合)、zset(sorted set --有序集合)和hash（哈希类型）。这些数据类型都支持push/pop、add/remove及取交集并集和差集及更丰富的操作，而且这些操作都是原子性的。在此基础上，redis支持各种不同方式的排序。与memcached一样，为了保证效率，数据都是缓存在内存中。区别的是redis会周期性的把更新的数据写入磁盘或者把修改操作写入追加的记录文件，并且在此基础上实现了master-slave(主从)同步。

2018-09-06

3740

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态