首页
学习
活动
专区
工具
TVP
发布

CDA数据分析师

专栏作者
1603
文章
1878068
阅读量
174
订阅数
公开课丨Spark大数据分析从入门到精通
伴随Spark技术的普及推广,对专业人才的需求日益增加。Spark专业人才在未来也是炙手可热,轻而易举可以拿到百万的薪酬。最近,一份由O`Reilly做出的数据调查表明,数据技术人才学会使用Apache Spark和它与影随行的编程语言Scala,比博士学位更多地提高工资收入。
CDA数据分析师
2018-10-25
1.5K0
大数据分析师为什么需要学习Spark?
作者 CDA 数据分析师 Spark这套速度极快的内存分析引擎与以往的大数据处理框架相比具有诸多优势,从而能够轻松地为大数据应用企业带来理想的投资回报。Spark项目将一系列创新型思维带入了大数据处理市场,并且表现出极为强劲的发展势头。近年来,CDA大数据团队针对Spark框架开展了广泛深入的研究,并融入到大数据分析师的培训课程中,整个课程体系变得更加完善,我们相信,随着整个团队的不断努力,我们的大数据分析师培训项目将日臻完美。 一、Spark的发展 Spark是伯克利大学2009年开始研发的一个项
CDA数据分析师
2018-02-26
6870
嫌弃Hadoop?可能是你的打开方式有问题
原作者 Andrew Brust 编译 CDA 编译团队 本文为 CDA 数据分析师原创作品,转载需授权 关于 Hadoop 所谓的消亡,以及它跌落神坛的报道数不胜数。有很多人放马后炮说,Hadoop 从一开始就没有意义。还有人说“Hadoop 对于小型,临时的工作来说很慢”、“ Hadoop 很难”、“ Hadoop 已经死了,Spark 才是胜者”等等。那么事实真的如此吗如今围绕着 Hadoop 缺陷的争论和当初对其的大肆追捧一样激烈。 在这些喋喋不休的争论中,你可能已经得出结论,Hadoo
CDA数据分析师
2018-02-26
5570
O'Reilly2016数据科学从业者薪酬报告(附原文下载)
本中文版报告由CDA数据分析师依据O’Reilly的DATA SCIENCE SALARY SURVEY独家翻译制作,交流使用,请勿商用,转载请联系邮箱:zhoulei@cda.cn 回归正题,O'Reilly 近日发布了数据科学从业者薪酬报告(2016 Data Science Salary Survey),来自45个国家的超过900位各行业的人士参与了调查,这份调查通过64题的在线问卷收集数据,针对数据科学从业者使用的工具、薪酬待遇等问题进行了详细分析解读,下面CDA编译团队带大家来简单回顾这篇报告。
CDA数据分析师
2018-02-24
5930
别再比较Hadoop和Spark了,那不是设计人员的初衷
对Hadoop与Spark孰优孰劣这个问题,最准确的观点就是,设计人员旨在让Hadoop和Spark在同一个团队里面协同运行。 直接比较Hadoop和Spark有难度,因为它们处理的许多任务都一样,但是在一些方面又并不相互重叠。 比如说,Spark没有文件管理功能,因而必须依赖Hadoop分布式文件系统(HDFS)或另外某种解决方案。将Hadoop MapReduce与Spark作一番比较来得更明智,因为它们作为数据处理引擎更具有可比性。 过去几年,随着数据科学趋于成熟,也日益需要用一种不同的方法来处理
CDA数据分析师
2018-02-24
8080
大数据不同的瑞士军刀:对比 Spark 和 MapReduce
翻译 | 古月水语 来源 | 伯乐在线 Apache 基金会下的 Spark 再次引爆了大数据的话题。带着比 Hadoop MapReduce 速度要快 100 倍的承诺以及更加灵活方便的 API,一些人认为这或许预示着 Hadoop MapReduce 的终结。 作为一个开源的数据处理框架,Spark 是如何做到如此迅速地处理数据的呢?秘密就在于它是运行在集群的内存上的,而且不受限于 MapReduce 的二阶段范式。这大大加快了重复访问同一数据的速度。 Spark 既可以单独运行,也可以运行在 Hado
CDA数据分析师
2018-02-24
6640
Spark为什么能成为大数据分析主流工具?
一.Spark是什么 Spark是伯克利大学2009年开始研发的一个项目,它是大数据时代下的一个快速处理数据分析工作的框架。spark发展十分迅速,2014年,Hadoop的四大商业机构均宣称全力支持Spark,今后将全面接收基于Spark编写的数据挖掘与分析算法,多家世界顶级的数据企业例如Google,Facebook等现已纷纷转向Spark框架。 近两年,Spark在中国的发展达到了一个前所未有的状态和高度。其中阿里巴巴的搜索和广告业务,最初使用Mahout和MapReduce来解决复杂的机器学习问题
CDA数据分析师
2018-02-13
2.8K0
海纳百川 有容乃大:SparkR与Docker的机器学习实战
题图为美国尼米兹核动力航空母舰 介 绍 大数据时代,我们常常面对海量数据而头疼。作为学统计出身的人,我们想折腾大数据但又不想学习Hadoop或者Java,我们更倾向于把精力放在建模和算法设计上,Spa
CDA数据分析师
2018-02-05
6870
一位算法师工程师的Spark机器学习笔记:构建一个简单的推荐系统
推荐引擎应用场景: .用户有海量选择:随着场景内item越来越多,用户越来越难以选择到合适的产品 .个性化场景:在选择产品时,会借鉴那些与推荐用户相似地群体,利用群体智慧对用户进行推荐”千人千面” 在本篇博客中,会涉及到以下几个部分: .介绍不同类型的推荐引擎 .使用用户偏好模型来构造推荐模型 .使用训练好的模型来为指定user计算给定item的相似度大的items .使用标准的评测函数来构造推荐模型的好坏 推荐模型类别: .基于item的过滤:使用item的内容或者属性,选择给定item的相似的item
CDA数据分析师
2018-02-05
1K0
基于Spark的机器学习经验
作者简介 祝威廉目前在乐视云数据部门里从事实时计算,数据平台、搜索和推荐等多个方向。曾从事基础框架,搜索研发四年,大数据平台架构、推荐三年多,个人时间现专注于集群自动化部署,服务管理,资源自动化调度等方向。 前言 这篇内容基于我去年的一些感悟写的,但是今年才在Stuq 的微信群做的分享。从技术角度而言,对Spark的掌握和使用还是显得很手生的。但是今天一位做数据分析相关的朋友说,受这篇内容影响,他接受了Spark-Shell作为数据分析的工具,简单几个命令,轻松处理几千万行数据。于是我就重新整理了下这篇文章
CDA数据分析师
2018-02-05
6540
专栏 | Learning Spark (Python版) 学习笔记(二)----键值对、数据读取与保存、共享特性
本来应该上周更新的,结果碰上五一,懒癌发作,就推迟了 = =。以后还是要按时完成任务。废话不多说,第四章-第六章主要讲了三个内容:键值对、数据读取与保存与Spark的两个共享特性(累加器和广播变量)。
CDA数据分析师
2018-02-05
8120
读书 | Learning Spark (Python版) 学习笔记(三)----工作原理、调优与Spark SQL
周末的任务是更新Learning Spark系列第三篇,以为自己写不完了,但为了改正拖延症,还是得完成给自己定的任务啊 = =。这三章主要讲Spark的运行过程(本地+集群),性能调优以及Spark SQL相关的知识,如果对Spark不熟的同学可以先看看之前总结的两篇文章: Learning Spark (Python版) 学习笔记(一)----RDD 基本概念与命令Learning Spark (Python版) 学习笔记(二)----键值对、数据读取与保存、共享特性 第七章主要讲了Spark的运行架构以
CDA数据分析师
2018-02-05
1.2K0
读书 | Learning Spark (Python版) 学习笔记(一)----RDD 基本概念与命令
今天恰逢世界读书日,正好分享一篇CDA美女作者的读书笔记。C君提醒:好读书,都好书,每天都是读书日~ 《Learning Spark》这本书算是Spark入门的必读书了,中文版是《Spark快速大数据分析》,不过豆瓣书评很有意思的是,英文原版评分7.4,评论都说入门而已深入不足,中文译版评分8.4,评论一片好评,有点意思。我倒觉得这本书可以作为官方文档的一个补充,刷完后基本上对Spark的一些基本概念、码简单的程序是没有问题的了。这本书有一个好处是它是用三门语言写的,Python/Java/Scala,所以
CDA数据分析师
2018-02-05
6060
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档