首页
学习
活动
专区
工具
TVP
发布

程序萌部落

个人博客请访问 www.cxmoe.com,自19年8月起搬迁至此。
专栏作者
130
文章
289427
阅读量
27
订阅数
Spark集群从搭建到任务提交-第N次记录
作为一名合格的计算机人士,百折不挠的瞎折腾精神是必备的。今天本想使用一下尘封已久的VMware虚拟机搭的集群,结果发现 Spark 有各种问题,应该是之前潦草搭集群时挖下的坑(前几天也用过,但并不是cluster mode,我现在才知道..),面对这些坑,果断的选择重装啊,所以叒叒叒开始愉快的搭环境了,,
ZONGLYN
2019-08-08
2.1K0
GraphX编程指南-官方文档-整理
GraphX 是新的(alpha)的图形和图像并行计算的Spark API。从整理上看,GraphX 通过引入 弹性分布式属性图(Resilient Distributed Property Graph)继承了Spark RDD:一个将有效信息放在顶点和边的有向多重图。为了支持图形计算,GraphX 公开了一组基本的运算(例如,subgraph,joinVertices和mapReduceTriplets),以及在一个优化后的 PregelAPI的变形。此外,GraphX 包括越来越多的图算法和 builder 构造器,以简化图形分析任务。
ZONGLYN
2019-08-08
3.9K0
Spark安装之问题
SparkSQL context 在执行sql语句时,现在使用spark.sql()替换sqlContext.sal()
ZONGLYN
2019-08-08
5530
分布式执行代码的认知纠正
Spark是一个分布式计算系统/组件/平台,这是都知道的,其用Scala实现Spark任务也是最原生的,但万万不能认为只要是在Spark环境下执行的Scala代码都是分布式执行的,这是大错特错的,一开始一直有错误的认识,但现在想想,如果拿Java和Hadoop的关系来作对比,其就很容易理解了。
ZONGLYN
2019-08-08
5910
Spark图计算及GraphX简单入门
Spark GraphX是一个分布式图处理框架,它是基于Spark平台提供对图计算和图挖掘简洁易用的而丰富的接口,极大的方便了对分布式图处理的需求。
ZONGLYN
2019-08-08
2.5K0
使用SBT正确构建IndexedRDD环境
IndexedRDD由AMPLab的Ankur Dave提出,它是Immutability和Fine-Grained updates的精妙结合。IndexedRDD是一个基于RDD的Key-Value Store,扩展自RDD[(K, V)],可以在IndexRDD上进行高效的查找、更新以及删除。由于其并没有合并到 Spark 的主项目分支,所以在使用时需要引入特别的对其的支持。
ZONGLYN
2019-08-08
1K0
提交Spark任务的三种方式
在使用Spark的过程中,一般都会经历调试,提交任务等等环节,如果每个环节都可以确认程序的输入结果,那么无疑对加快代码的调试起了很大的作用,现在,借助IDEA可以非常快捷方便的对Spark代码进行调试,在借助IDEA来完成Spark时,可以大致通过以下几个步骤来完成:
ZONGLYN
2019-08-08
5.3K0
如何使用IDEA加载已有Spark项目
背景是这样的:手上有一个学长之前实现的Spark项目,使用到了GraphX,并且用的Scala编写,现在需要再次运行这个项目,但如果直接在IDEA中打开项目,则由于各种错误会导致运行失败,这里就记录一下该如何使用IDEA来加载老旧的Spark项目。 注意:默认你的机器已有Scala环境,项目使用IDEA打开,对Sbt不做要求,因为这里采用的是NoSbt方式添加依赖的。
ZONGLYN
2019-08-08
1.9K0
IDEA如何在项目中快速添加Maven依赖
在日常项目开发中,组件的引入是很平常的事情,一般来说,我们的项目由Maven构建,然后在需要新引入一个依赖时,只需在pom.xml中添加依赖描述即可,但是,有时我们的项目未必采用Maven构建,比如Spark项目就多采用sbt,或者直接添加jar包的方式,这时,如果需要添加某个外部依赖如果采用添加jar包的方式就会非常繁琐,不过IDEA为我们提供了方便的添加方式。
ZONGLYN
2019-08-08
12K0
基于Spark的大数据热图可视化方法
针对普通客户端浏览和分析大数据困难的问题, 结合 Spark 和 LOD 技术, 以热图为例提出一种面向大数据可视化技术框架. 首先利用 Spark 平台分层并以瓦片为单位并行计算, 然后将结果分布式存储在 HDFS 上, 最后通过web 服务器应用Ajax技术结合地理信息提供各种时空分析服务.文中重点解决了数据点位置和地图之间的映射, 以及由于并行计算导致的热图瓦片之间边缘偏差这2个问题.实验结果表明,该方法将数据交互操作与数据绘制和计算任务分离, 为浏览器端大数据可视化提供了一个新的思路.
ZONGLYN
2019-08-08
1.9K0
Spark的RDDs相关内容
通常使用parallelize()函数可以创建一个简单的RDD,测试用(为了方便观察结果)。
ZONGLYN
2019-08-08
5340
Spark的运行环境及远程开发环境的搭建
2009 RAD实验室,引入内存存储 2010 开源 2011 AMP实验室,Spark Streaming 2013 Apache顶级项目
ZONGLYN
2019-08-08
2.1K0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档