腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

个人分享

专栏作者

238

文章

255643

阅读量

42

订阅数

Spark Shuffle数据处理过程与部分调优（源码阅读七）

mapreduce 缓存 hadoop spark

　　shuffle。。。相当重要，为什么咩，因为shuffle的性能优劣直接决定了整个计算引擎的性能和吞吐量。相比于Hadoop的MapReduce,可以看到Spark提供多种计算结果处理方式，对shuffle过程进行了优化。

2018-09-06

7370

大数据生涯感悟

大数据 hadoop mapreduce spark hbase

　　不知不觉，毕业一年半了，从实习开始接触大数据技术。那时懵懂的我，不对，应该说懵逼的我在想，卧槽，这是啥这么牛逼，我都不会啊。。。啥都不会完蛋了。。即便现在也是这样认为= =

2018-09-06

7150

大数据全体系年终总结

spark kafka hadoop 云数据库 Redis 编程算法

　　1、文件存储当然是选择Hadoop的分布式文件系统HDFS，当然因为硬件的告诉发展，已经出现了内存分布式系统Tachyon，不论是Hadoop的MapReduce,Spark的内存计算、hive的MapReuduce分布式查询等等都可以集成在上面，然后通过定时器再写入HDFS，以保证计算的效率，但是毕竟还没有完全成熟。

2018-09-06

6420

大数据理论体系总结--数据仓库管理与全链路数据体系

大数据分布式存储 hadoop spark

　　就这样，大数据领域蓬勃发展了好几年，有很多伙伴执迷于技术，成为了分布式计算与存储的领域专家。也有很多伙伴执迷于数据，成为了行业的数据研发专家。当然还有很多小伙伴，热衷于工具系统开发，成为了数据技术专家。那么我们回过头来考虑，什么是大数据，什么又是数据仓库，什么又是数据技术。大数据其实是个非常笼统的感念，它是由数据仓库演化而来的数据与技术方法论，那么我们先说一下数据仓库的由来：

2018-09-06

2.2K0

思维体系---技术思维、业务数据思维、产品思维、复合思维

hadoop spark 分布式

　　工作已有四年有余，从最初的亚信到现在的阿里。。总结了下思维模式，以个人的视角，供各位干代码的小伙伴们参考，能够深入无论技术还是业务还是产品的本质。发现其中的规律，更好地把握自己的方向及未来。那么总的来说，我分为四种思维模式：

2018-09-06

1.1K0

Hadoop数据读写原理

node.js hadoop 存储编程算法 mapreduce

　　MapReduce作业(job)是客户端执行的单位：它包括输入数据、MapReduce程序和配置信息。Hadoop把输入数据划分成等长的小数据发送到MapReduce，称之为输入分片。Hadoop为每个分片创建一个map任务，由它来运行用户自定义的map函数来分析每个分片中的记录。

2018-09-06

2.3K0

Hbase集群搭建及所有配置调优参数整理及API代码运行

hbase api hadoop zookeeper

　　最近为了方便开发，在自己的虚拟机上搭建了三节点的Hadoop集群与Hbase集群，hadoop集群的搭建与zookeeper集群这里就不再详细说明，原来的笔记中记录过。这里将hbase配置参数进行相应整理，方便日后使用。

2018-09-06

1.1K0

读写hdfs文件（工作笔记）

java apache hadoop

import java.io.IOException; import java.io.InputStream; import java.util.List; import java.util.Map; import org.apache.commons.io.IOUtils; import org.apache.commons.lang3.StringUtils; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.f

2018-09-06

7220

Zookeeper + Hadoop2.6 集群HA + spark1.6完整搭建与所有参数解析

zookeeper hadoop spark yum

yum install autoconfautomake libtool cmake

2018-09-06

6520

Spark工程开发前台技术实现与后台函数调用

spark 大数据分布式 hadoop

Spark是一个通用的大规模数据快速处理引擎。可以简单理解为Spark就是一个大数据分布式处理框架。基于内存计算的Spark的计算速度要比Hadoop的MapReduce快上50倍以上，基于磁盘的计算速度也快于10倍以上。Spark运行在Hadoop第二代的yarn集群管理之上，可以轻松读取Hadoop的任何数据。能够读取HBase、HDFS等Hadoop的数据源。

2018-09-06

1.1K0

MapReduce编程job概念原理

mapreduce hadoop

　　在Hadoop中，每个MapReduce任务都被初始化为一个job,每个job又可分为两个阶段:map阶段和reduce阶段。这两个阶段分别用两个函数来表示。Map函数接收一个<key,value>形式的输入，然后同样产生一个<ey,value>形式的中间输出，Hadoop会负责将所有具有相同中间key值的value集合在一起传递给reduce函数，reduce函数接收一个如<key,(list of values)>形式的输入，然后对这个value集合进行处理，每个reduce产生0或1个输出，reduce的输出也是<key,value>形式。

2018-09-06

5240

Hadoop I/O操作原理整理

hadoop 编程算法 rpc 大数据

　　校验和方式是检查数据完整性的重要方式。一般会通过对比新旧校验和来确定数据情况，如果两者不同则说明数据已经损坏。比如，在传输数据前生成了一个校验和，将数据传输到目的主机时再次计算校验和，如果两次的校验结果不同，则说明数据已经损坏。因为Hadoop采用HDFS作为默认的文件系统，因此具有两方面的数据完整性。

2018-09-06

3660

Hadoop的管理目录

大数据 hadoop node.js

1、NameNode的文件结构,NameNode会创建VERSION、edits、fsimage、fstime文件目录。其中dfs.name.dir属性是一个目录列表，是每个目录的镜像文件。VERSION文件是JAVA属性文件，其中包含运行HDFS的版本信息。包含内容:

2018-09-06

7160

Hadoop MapReduce编程学习

hadoop mapreduce spark

一直在搞spark，也没时间弄hadoop，不过Hadoop基本的编程我觉得我还是要会吧，看到一篇不错的文章,不过应该应用于hadoop2.0以前，因为代码中有 conf.set("mapred.job.tracker", "192.168.1.2:9001");新框架中已改为 Yarn-site.xml 中的 resouceManager 及 nodeManager 具体配置项，新框架中历史 job 的查询已从 Job tracker 剥离，归入单独的mapreduce.jobtracker.jobhistory 相关配置. mapred.job.tracker的主要用途在于合并map之后的中间文件，就如同spark的repatition函数吧，为了防止接下来shuffle所造成的RDD过多，合并下~

2018-09-06

6290

Flink单机版安装与wordCount

spark http 大数据 hadoop

Flink为大数据处理工具，类似hadoop,spark.但它能够在大规模分布式系统中快速处理，与spark相似也是基于内存运算，并以低延迟性和高容错性主城，其核心特性是实时的处理流数据。从此大数据生态圈又再填一员。。。具体详解，还要等之后再分享，这里就先简要带过~

2018-09-06

1.3K0

TDSQL MySQL 版 hbase 分布式 hadoop mapreduce

Hbase是运行在Hadoop上的NoSQL数据库，它是一个分布式的和可扩展的大数据仓库，也就是说HBase能够利用HDFS的分布式处理模式，并从Hadoop的MapReduce程序模型中获益。这意味着在一组商业硬件上存储许多具有数十亿行和上百万列的大表。除去Hadoop的优势，HBase本身就是十分强大的数据库，它能够融合key/value存储模式带来实时查询的能力，以及通过MapReduce进行离线处理或者批处理的能力。总的来说，Hbase能够让你在大量的数据中查询记录，也可以从中获得综合分析报告。

2018-09-06

5370

Hadoop 2.6.0集群搭建

hadoop yum xml 大数据 ssh

yum install autoconfautomake libtool cmake

2018-09-06

2250

Hbase的安装（hadoop-2.6.0,hbase1.0)

hbase TDSQL MySQL 版 bash bash 指令 hadoop

　　Hbase的安装相对很简单啊。。。只要你装了Hadoop 装Hbase就是分分钟的事如果要装hadoop集群的话 hadoop分类的集群安装好了，如果已经装好单机版~ 那就再配置如下就好~

2018-09-06

4720

JAVA使用HBASE常用方法

java hbase apache hadoop

package HBaseTest; /** * Created by root on 11/11/22. */ import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.HColumnDescriptor; import org.apache.had

2018-09-06

8310

spark单机模式简单搭建

spark hadoop hive 面向对象编程 bash

待安装列表 hadoop hive scala spark 一.环境变量配置： ~/.bash_profile PATH=$PATH:$HOME/bin

2018-09-06

1.3K0

点击加载更多

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态