腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

个人分享

专栏作者

238

文章

255436

阅读量

42

订阅数

SparkConf加载与SparkContext创建（源码阅读二）

spark 存储 apache 缓存

　　1、下面，开始创建BroadcastManager,就是传说中的广播变量管理器。BroadcastManager用于将配置信息和序列化后的RDD、Job以及ShuffleDependency等信息在本地存储。紧接着blockManager的创建后创建。如下：

2018-09-06

4000

Spark代码调优（一）

spark apache sql

import org.apache.spark.sql.{DataFrame, Row, SQLContext}

2018-09-06

1.7K0

Spark数据传输及ShuffleClient（源码阅读五）

spark 存储 java

　　我们都知道Spark的每个task运行在不同的服务器节点上，map输出的结果直接存储到map任务所在服务器的存储体系中，reduce任务有可能不在同一台机器上运行，所以需要远程将多个map任务的中间结果fetch过来。那么我们就来学习下shuffleClient。shuffleClient存在于每个exeuctor的BlockManager中，它不光是将shuffle文件上传到其他executor或者下载到本地的客户端，也提供了可以被其他exeuctor访问的shuffle服务.当有外部的（其他节点）shuffleClient时，新建ExternalShuffleClient,默认为BlockTransferService.那么真正init的实现方法在NettyBlockTransferService中。

2018-09-06

7130

Spark常用函数（源码阅读六）

spark 数据处理 hbase xml

　　源码层面整理下我们常用的操作RDD数据处理与分析的函数，从而能更好的应用于工作中。

2018-09-06

8000

Spark之SQL解析（源码阅读十）

spark sql 数据库 hive

　　如何能更好的运用与监控sparkSQL?或许我们改更深层次的了解它深层次的原理是什么。之前总结的已经写了传统数据库与Spark的sql解析之间的差别。那么我们下来直切主题~ 　　如今的Spark已

2018-09-06

7970

Spark Shuffle数据处理过程与部分调优（源码阅读七）

mapreduce 缓存 hadoop spark

　　shuffle。。。相当重要，为什么咩，因为shuffle的性能优劣直接决定了整个计算引擎的性能和吞吐量。相比于Hadoop的MapReduce,可以看到Spark提供多种计算结果处理方式，对shuffle过程进行了优化。

2018-09-06

7370

Spark BlockManager的通信及内存占用分析(源码阅读九）

spark rpc 人工智能 .net

　　之前阅读也有总结过Block的RPC服务是通过NettyBlockRpcServer提供打开，即下载Block文件的功能。然后在启动jbo的时候由Driver上的BlockManagerMaster对存在于Executor上的BlockManager统一管理，注册Executor的BlockManager、更新Executor上Block的最新信息、询问所需要Block目前所在的位置以及当Executor运行结束时，将Executor移除等等。那么Driver与Executor之间是怎么交互的呢？

2018-09-06

7880

Spark Netty与Jetty （源码阅读十一）

　　spark呢，对Netty API又做了一层封装，那么Netty是什么呢~是个鬼。它基于NIO的服务端客户端框架，具体不再说了，下面开始。

2018-09-06

1K0

SparkStreaming（源码阅读十二）

　　要完整去学习spark源码是一件非常不容易的事情，但是咱可以积少成多嘛~那么，Spark Streaming是怎么搞的呢？

2018-09-06

6530

大数据生涯感悟

大数据 hadoop mapreduce spark hbase

　　不知不觉，毕业一年半了，从实习开始接触大数据技术。那时懵懂的我，不对，应该说懵逼的我在想，卧槽，这是啥这么牛逼，我都不会啊。。。啥都不会完蛋了。。即便现在也是这样认为= =

2018-09-06

7150

大数据全体系年终总结

spark kafka hadoop 云数据库 Redis 编程算法

　　1、文件存储当然是选择Hadoop的分布式文件系统HDFS，当然因为硬件的告诉发展，已经出现了内存分布式系统Tachyon，不论是Hadoop的MapReduce,Spark的内存计算、hive的MapReuduce分布式查询等等都可以集成在上面，然后通过定时器再写入HDFS，以保证计算的效率，但是毕竟还没有完全成熟。

2018-09-06

6410

spark集成hbase与hive数据转换与代码练习

spark hbase hive java apache

　　帮一个朋友写个样例，顺便练手啦~一直在做平台的各种事，但是代码后续还要精进啊。。。

2018-09-06

4620

sparksql工程小记

spark sql oracle

　　最近做一个oracle项目迁移工作，跟着spark架构师学着做，进行一些方法的总结。

2018-09-06

6750

大数据理论体系总结--数据仓库管理与全链路数据体系

大数据分布式存储 hadoop spark

　　就这样，大数据领域蓬勃发展了好几年，有很多伙伴执迷于技术，成为了分布式计算与存储的领域专家。也有很多伙伴执迷于数据，成为了行业的数据研发专家。当然还有很多小伙伴，热衷于工具系统开发，成为了数据技术专家。那么我们回过头来考虑，什么是大数据，什么又是数据仓库，什么又是数据技术。大数据其实是个非常笼统的感念，它是由数据仓库演化而来的数据与技术方法论，那么我们先说一下数据仓库的由来：

2018-09-06

2.2K0

思维体系---技术思维、业务数据思维、产品思维、复合思维

hadoop spark 分布式

　　工作已有四年有余，从最初的亚信到现在的阿里。。总结了下思维模式，以个人的视角，供各位干代码的小伙伴们参考，能够深入无论技术还是业务还是产品的本质。发现其中的规律，更好地把握自己的方向及未来。那么总的来说，我分为四种思维模式：

2018-09-06

1.1K0

Spark shuffle详细过程

spark mapreduce 编程算法

有许多场景下，我们需要进行跨服务器的数据整合，比如两个表之间，通过Id进行join操作，你必须确保所有具有相同id的数据整合到相同的块文件中。那么我们先说一下mapreduce的shuffle过程。

2018-09-06

2K0

Spark on Yarn年度知识整理

spark yarn 大数据分布式

Spark是整个BDAS的核心组件，是一个大数据分布式编程框架，不仅实现了MapReduce的算子map 函数和reduce函数及计算模型，还提供更为丰富的算子，如filter、join、groupByKey等。是一个用来实现快速而同用的集群计算的平台。

2018-09-06

1.2K0

前一天数据偏移至当日数据

mongodb sql 人工智能 spark

客户画像项目中可能会遇到此类问题，因为客户画像要求的是对单个用户信息的查询。但倘若以日周期为准，今日梳理的数据宽表中某个字段为null,但此类字段不能以null显示，要以前一天有数据的值为今日的值，就需要做case when处理。同时还有个问题，日表拥有某些客户信息（以日更新)，但并不是用户全量表，而月表为用户全量表（拥有历史月的所有用户数），日表可能会增加也可能会减少数据。这样不管你left join谁都无法得到全量的用户数据。使用以下方法便可实现:

2018-09-06

7030

获取表头信息

spark sql hive jdbc

代码中的使用直接通过list<Map<String,Object>> tableHead = jdbcBaseDao.getBackSimpleJdbcTemplate().queryForList(sql.toString());

2018-09-06

2K0

用户画像的技术选型与架构实现

spark jdbc 数据库

这里讲解下用户画像的技术架构和整体实现，那么就从数据整理、数据平台、面向应用三个方面来讨论一个架构的实现（个人见解）。

2018-09-06

1.6K0

点击加载更多

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态