首页
学习
活动
专区
工具
TVP
发布

PPV课数据科学社区

专栏作者
2119
文章
2429239
阅读量
187
订阅数
Apache Spark新方向:深度学习和流式数据处理支持
6月5~7日,Spark Summit 2017 在美国旧金山举行。来自 Databricks 的 Matei Zaharia、Michael Armbrust 和 Tim Hunter 分享了 《E
小莹莹
2018-04-24
1.1K0
什么是 Apache Spark?大数据分析平台如是说
自从 Apache Spark 2009 年在 U.C. Berkeley 的 AMPLab 默默诞生以来,它已经成为这个世界上最重要的分布式大数据框架之一。Spark 可以用多种方式部署,它为 Java、Scala、Python,和 R 编程语言提供了本地绑定,并且支持 SQL、流数据、机器学习,和图处理。你将会发现它被银行、电信公司、游戏公司、政府,和所有如 Apple、Facebook、IBM,和 Microsoft 等主要的科技巨头公司使用。 非常好,Spark 可以运行在一个只需要在你集群中的
小莹莹
2018-04-24
1.3K0
技术丨从Hadoop到Spark,看大数据框架发展之路
谈到大数据框架,不得不提Hadoop和 Spark,今天我们进行历史溯源,帮助大家了解Hadoop和Spark的过去,感应未来。 在Hadoop出现前人们采用什么计算模型呢?是典型的高性能 HPC workflow,它有专门负责计算的compute cluster,cluster memory很小,所以计算产生的任何数据会存储在storage中,最后在Tape里进行备份,这种workflow主要适用高速大规模复杂计算,像核物理模拟中会用到。 HPC workflow在实际应用中存在一些问题,这些问题
小莹莹
2018-04-24
9770
Spark Streaming场景应用- Spark Streaming计算模型及监控
摘要 Spark Streaming是一套优秀的实时计算框架。其良好的可扩展性、高吞吐量以及容错机制能够满足我们很多的场景应用。本篇结合我们的应用场景,介结我们在使用Spark Streaming方面的技术架构,并着重讲解Spark Streaming两种计算模型,无状态和状态计算模型以及该两种模型的注意事项;接着介绍了Spark Streaming在监控方面所做的一些事情,最后总结了Spark Streaming的优缺点。 一、概述 数据是非常宝贵的资源,对各级企事业单均有非常高的价值。但是数据的爆炸
小莹莹
2018-04-24
1.3K0
【解读】2015之大数据篇:大数据的黄金时代
2015年,整个IT技术领域发生了许多深刻而又复杂的变化,InfoQ策划了“解读2015”年终技术盘点系列文章,希望能够给读者清晰地梳理出技术领域在这一年的发展变化,回顾过去,继续前行。 本文是大数据解读篇,在这篇文章里我们将回顾2015展望2016,看看过去的一年里广受关注的技术有哪些进展,了解下数据科学家这个职业的火热。 在关键技术进展部分我们在大数据生态圈众多技术中选取了Hadoop、Spark、Elasticsearch和Apache Kylin四个点,分别请了四位专家:Hulu的董西成、明略数
小莹莹
2018-04-23
8060
【学习】2分钟读懂大数据框架Hadoop和Spark的异同
  谈到大数据,相信大家对 Hadoop 和 Apache Spark 这两个名字并不陌生。但我们往往对它们的理解只是停留在字面上,并没有对它们进行深入的思考,下面不妨跟我一块看下它们究竟有什么异同。
小莹莹
2018-04-23
7390
【学习】如何从菜鸟成长为Spark大数据高手?
Spark采用一个统一的技术堆栈解决了云计算大数据的如流处理、图技术、机器学习、NoSQL查询等方面的所有核心问题,具有完善的生态系统,这直接奠定了其一统云计算大数据领域的霸主地位; 要想成为Spark高手,需要经历一下阶段: 第一阶段:熟练的掌握Scala语言 1, Spark框架是采用Scala语言编写的,精致而优雅。要想成为Spark高手,你就必须阅读Spark的源代码,就必须掌握Scala,; 2,虽然说现在的Spark可以采用多语言Java、Python等进行应用程序开发,但是最快速的和支持最
小莹莹
2018-04-23
7800
【视频】大数据实战工具Spark 共64讲
学习目标 1. 学习Spark配置,掌握Spark集群部署; 2. 学习RDD和Scala,掌握Spark调优和应用开发; 3. 掌握Spark Streaming、Spark Sql使用技巧; 4. 学习MLib、SparkR和其他Spark生态组件; 学习对象 计算机专业背景的学生; 大数据工程师; 讲师介绍 罗老师,12年开始从事hadoop领域技术研究,14年专职从事spark技术研究与开发,目前在企业里从事spark相关工作,同时负责企业的内训,主讲spark部分。在14年夏做为Hadoop培训讲
小莹莹
2018-04-23
7340
【关注】2016年大数据领域预测:Spark淘汰MapReduce,拯救Hadoop
2016 年大数据领域会发生什么情况?考虑到如今在深层神经网络和规范性分析方面取得的进展,你可能觉得这个问题很好回答。而实际上,来自业界的大数据预测大不相同,本文精选出了最值得关注的 33 个预测,为您开启未知的 2016! 数据平民崛起 甲骨文公司预测一种新型用户:数据平民(Data Civilian)会崛起。该公司称:“虽然复杂的数据统计可能仍局限于数据科学家,但数据驱动的决策不会是这样。在未来一年,更简单的大数据发现工具让业务分析员可以寻找企业 Hadoop 集群中的数据集,将它们重新做成新的混搭组合
小莹莹
2018-04-23
6700
关键七步,用Apache Spark构建实时分析Dashboard
作者 | Abhinav 译者:王庆 摘要:本文我们将学习如何使用Apache Spark streaming,Kafka,Node.js,Socket.IO和Highcharts构建实时分析Dashboard。 问题描述 电子商务门户希望构建一个实时分析仪表盘,对每分钟发货的订单数量做到可视化,从而优化物流的效率。 解决方案 解决方案之前,先快速看看我们将使用的工具: Apache Spark – 一个通用的大规模数据快速处理引擎。Spark的批处理速度比Hadoop MapReduce快近10倍
小莹莹
2018-04-23
1.8K0
百度的基于Spark构建即席查询平台
作者介绍 孙垚光:目前是百度分布式计算方向架构师,离线计算技术负责人。2009年加入百度,先后从事内核网络协议栈、Hadoop/Spark大数据等方向的研发和优化工作,对Hadoop大数据生态有较为深入的理解,积累了丰富的大数据实战经验。 本文主要介绍百度基于Spark SQL构建的一体化即席查询平台,包括架构、特点、相关概念,以及其中涉及到的主要关键技术点,并选择其中一两个技术点做深入分析和探讨,接着是即席查询平台在百度内部业务上的应用案例,包括使用场景和业务收益,同时,面向百度开放云的企业客户,我
小莹莹
2018-04-23
1.7K0
Hadoop、Spark、HBase与Redis的适用性讨论
最近在网上又看到有关于Hadoop适用性的讨论[1]。想想今年大数据技术开始由互联网巨头走向中小互联网和传统行业,估计不少人都在考虑各种“纷繁复杂”的大数据技术的适用性的问题。这儿我就结合我这几年在Hadoop等大数据方向的工作经验,与大家讨论一下Hadoop、Spark、HBase及Redis等几个主流大数据技术的使用场景(首先声明一点,本文中所指的Hadoop,是很“狭义”的Hadoop,即在HDFS上直接跑MapReduce的技术,下同)。 我这几年实际研究和使用过大数据(包含NoSQL)技术包括
小莹莹
2018-04-23
8290
【译文】Spark高速实时分析
Apache Hadoop是一个成熟的开发框架,它有庞大的生态系统,并得到了Cloudera,Hortonworks,雅虎等重要参与者的支持和贡献。Apache Hadoop为企业管理各种规模的数据提供了工具。 在过去,Hadoop的批量处理特性使得使用MapReduce就足以满足大部分企业的处理需求。然而,越来越多的数据需要更快速的处理,这些需求来自于流技术、物联网和实时分析等领域的快速发展 。这些新的需求需要新的处理模式,现在,Apache Spark作为可以满足这些需求的一项重要新技术,已经获得相
小莹莹
2018-04-20
5510
【专访】携程李亚锋:大数据技术融合下的Spark更具魅力
PPV课大数据 “大数据”作为当下最火热的IT行业词汇,在主流的数据处理工具当中Hadoop和Spark都被大家所熟悉。不过,目前基于内存计算的Spark适合各种迭代算法和交互式数据分析,能够提升大数
小莹莹
2018-04-20
9120
【工具】Apache Spark 1.5发布了!!!
Apache Spark社区刚刚发布了1.5版本,大家一定想知道这个版本的主要变化,这篇文章告诉你答案。 DataFrame执行后端优化(Tungsten第一阶段) DataFrame可以说是整个Spark项目最核心的部分,在1.5这个开发周期内最大的变化就是Tungsten项目的第一阶段已经完成。主要的变化是由Spark自己来管理内存而不是使用JVM,这样可以避免JVM GC带来的性能损失。内存中的Java对象被存储成Spark自己的二进制格式,计算直接发生在二进制格式上,省去了序列化和反序列化时间。同
小莹莹
2018-04-20
5850
机器学习技术类书单推荐
机器学习技术类书单推荐,共11本: 《机器学习》 《图解机器学习》 《机器学习实战》【有电子版】 《机器学习系统设计》【有电子版】 《Python机器学习基础教程》【有电子版】 《Python机器学习
小莹莹
2018-04-20
9690
【了解】Spark和Hadoop是友,非敌
Spark 在 6 月份取得了激动人心的成绩。在圣何塞举办的 Hadoop 峰会上,Spark 成了人们经常提及的话题和许多演讲的主题。IBM 还在 6 月 15 号宣布,将对 Spark 相关的技术进行巨额投资。 这一声明帮助推动了旧金山 Spark 峰会 的召开。在这里,人们会看到有越来越多的工程师在学习 Spark,也有越来越多的公司在试验和采用 Spark。 对 Spark 的投资和采用形成了一个正向循环,迅速推动这一重要技术的成熟和发展,让整个大数据社区受益。然而,人们对 Spark 的日益关注让
小莹莹
2018-04-20
7350
TensorFlow On Spark 开源项目分析
原文:http://sparkdata.org/?p=423&utm_source=tuicool&utm_medium=referral 作者:京东大数据技术保障团队 概述 自Google发布Ten
小莹莹
2018-04-19
6.7K0
【学习】切勿妄谈Hadoop,以及4个数据管道打造实践
时至今日,大数据这个概念已充斥了整个IT界,各种“搭载”了大数据技术的产品,各种用于处理大数据工具更如雨后的春笋触目皆是。同时,如果某个产品还没抱上大数据的大腿,如果某个机构还没捣鼓过基于Hadoop、Spark、Impala、Storm等高大上的工具,更会予以过时黄花的评价。然而,你的数据量真的需要使用Hadoop这样工具吗?你业务处理的数据类型真的需要大数据技术来支撑吗? 文章出自有着多年从业经验的数据科学家Chris Stucchio,纽约大学柯朗研究所博士后,搞过高频交易
小莹莹
2018-04-19
9940
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档