首页
学习
活动
专区
工具
TVP
发布

个人分享

专栏作者
238
文章
255436
阅读量
42
订阅数
SparkConf加载与SparkContext创建(源码阅读二)
  1、下面,开始创建BroadcastManager,就是传说中的广播变量管理器。BroadcastManager用于将配置信息和序列化后的RDD、Job以及ShuffleDependency等信息在本地存储。紧接着blockManager的创建后创建。如下:
用户3003813
2018-09-06
4000
Spark代码调优(一)
import org.apache.spark.sql.{DataFrame, Row, SQLContext}
用户3003813
2018-09-06
1.7K0
Spark数据传输及ShuffleClient(源码阅读五)
  我们都知道Spark的每个task运行在不同的服务器节点上,map输出的结果直接存储到map任务所在服务器的存储体系中,reduce任务有可能不在同一台机器上运行,所以需要远程将多个map任务的中间结果fetch过来。那么我们就来学习下shuffleClient。shuffleClient存在于每个exeuctor的BlockManager中,它不光是将shuffle文件上传到其他executor或者下载到本地的客户端,也提供了可以被其他exeuctor访问的shuffle服务.当有外部的(其他节点)shuffleClient时,新建ExternalShuffleClient,默认为BlockTransferService.那么真正init的实现方法在NettyBlockTransferService中。
用户3003813
2018-09-06
7130
Spark常用函数(源码阅读六)
  源码层面整理下我们常用的操作RDD数据处理与分析的函数,从而能更好的应用于工作中。
用户3003813
2018-09-06
8000
Spark之SQL解析(源码阅读十)
  如何能更好的运用与监控sparkSQL?或许我们改更深层次的了解它深层次的原理是什么。之前总结的已经写了传统数据库与Spark的sql解析之间的差别。那么我们下来直切主题~   如今的Spark已
用户3003813
2018-09-06
7970
Spark Shuffle数据处理过程与部分调优(源码阅读七)
  shuffle。。。相当重要,为什么咩,因为shuffle的性能优劣直接决定了整个计算引擎的性能和吞吐量。相比于Hadoop的MapReduce,可以看到Spark提供多种计算结果处理方式,对shuffle过程进行了优化。
用户3003813
2018-09-06
7370
Spark BlockManager的通信及内存占用分析(源码阅读九)
  之前阅读也有总结过Block的RPC服务是通过NettyBlockRpcServer提供打开,即下载Block文件的功能。然后在启动jbo的时候由Driver上的BlockManagerMaster对存在于Executor上的BlockManager统一管理,注册Executor的BlockManager、更新Executor上Block的最新信息、询问所需要Block目前所在的位置以及当Executor运行结束时,将Executor移除等等。那么Driver与Executor之间是怎么交互的呢?
用户3003813
2018-09-06
7880
Spark Netty与Jetty (源码阅读十一)
  spark呢,对Netty API又做了一层封装,那么Netty是什么呢~是个鬼。它基于NIO的服务端客户端框架,具体不再说了,下面开始。
用户3003813
2018-09-06
1K0
SparkStreaming(源码阅读十二)
  要完整去学习spark源码是一件非常不容易的事情,但是咱可以积少成多嘛~那么,Spark Streaming是怎么搞的呢?
用户3003813
2018-09-06
6530
大数据生涯感悟
  不知不觉,毕业一年半了,从实习开始接触大数据技术。那时懵懂的我,不对,应该说懵逼的我在想,卧槽,这是啥这么牛逼,我都不会啊。。。啥都不会完蛋了。。即便现在也是这样认为= =
用户3003813
2018-09-06
7150
大数据全体系年终总结
  1、文件存储当然是选择Hadoop的分布式文件系统HDFS,当然因为硬件的告诉发展,已经出现了内存分布式系统Tachyon,不论是Hadoop的MapReduce,Spark的内存计算、hive的MapReuduce分布式查询等等都可以集成在上面,然后通过定时器再写入HDFS,以保证计算的效率,但是毕竟还没有完全成熟。
用户3003813
2018-09-06
6410
spark集成hbase与hive数据转换与代码练习
  帮一个朋友写个样例,顺便练手啦~一直在做平台的各种事,但是代码后续还要精进啊。。。
用户3003813
2018-09-06
4620
sparksql工程小记
  最近做一个oracle项目迁移工作,跟着spark架构师学着做,进行一些方法的总结。
用户3003813
2018-09-06
6750
大数据理论体系总结--数据仓库管理与全链路数据体系
  就这样,大数据领域蓬勃发展了好几年,有很多伙伴执迷于技术,成为了分布式计算与存储的领域专家。也有很多伙伴执迷于数据,成为了行业的数据研发专家。当然还有很多小伙伴,热衷于工具系统开发,成为了数据技术专家。那么我们回过头来考虑,什么是大数据,什么又是数据仓库,什么又是数据技术。大数据其实是个非常笼统的感念,它是由数据仓库演化而来的数据与技术方法论,那么我们先说一下数据仓库的由来:
用户3003813
2018-09-06
2.2K0
思维体系---技术思维、业务数据思维、产品思维、复合思维
  工作已有四年有余,从最初的亚信 到现在的 阿里。。总结了下思维模式,以个人的视角,供各位干代码的小伙伴们参考,能够深入无论 技术还是业务还是产品的本质。发现其中的规律,更好地把握自己的方向及未来。那么总的来说,我分为四种思维模式:
用户3003813
2018-09-06
1.1K0
Spark shuffle详细过程
有许多场景下,我们需要进行跨服务器的数据整合,比如两个表之间,通过Id进行join操作,你必须确保所有具有相同id的数据整合到相同的块文件中。那么我们先说一下mapreduce的shuffle过程。
用户3003813
2018-09-06
2K0
Spark on Yarn年度知识整理
Spark是整个BDAS的核心组件,是一个大数据分布式编程框架,不仅实现了MapReduce的算子map 函数和reduce函数及计算模型,还提供更为丰富的算子,如filter、join、groupByKey等。是一个用来实现快速而同用的集群计算的平台。
用户3003813
2018-09-06
1.2K0
前一天数据偏移至当日数据
客户画像项目中可能会遇到此类问题,因为客户画像要求的是对单个用户信息的查询。 但倘若以日周期为准,今日梳理的数据宽表中某个字段为null,但此类字段不能以null显示,要以前一天有数据的值为今日的值,就需要做case when处理。 同时还有个问题,日表拥有某些客户信息(以日更新),但并不是用户全量表,而月表为用户全量表(拥有历史月的所有用户数),日表可能会增加也可能会减少数据。这样 不管你left join谁 都无法得到全量的用户数据。 使用以下方法便可实现:
用户3003813
2018-09-06
7030
获取表头信息
代码中的使用直接通过list<Map<String,Object>> tableHead = jdbcBaseDao.getBackSimpleJdbcTemplate().queryForList(sql.toString());
用户3003813
2018-09-06
2K0
用户画像的技术选型与架构实现
这里讲解下用户画像的技术架构和整体实现,那么就从数据整理、数据平台、面向应用三个方面来讨论一个架构的实现(个人见解)。
用户3003813
2018-09-06
1.6K0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档