腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

PPV课数据科学社区

专栏作者

2119

文章

2429239

阅读量

187

订阅数

Apache Spark新方向：深度学习和流式数据处理支持

apache spark 深度学习数据处理

6月5～7日，Spark Summit 2017 在美国旧金山举行。来自 Databricks 的 Matei Zaharia、Michael Armbrust 和 Tim Hunter 分享了《E

2018-04-24

1.1K0

什么是 Apache Spark？大数据分析平台如是说

apache spark 大数据分布式

自从 Apache Spark 2009 年在 U.C. Berkeley 的 AMPLab 默默诞生以来，它已经成为这个世界上最重要的分布式大数据框架之一。Spark 可以用多种方式部署，它为 Java、Scala、Python，和 R 编程语言提供了本地绑定，并且支持 SQL、流数据、机器学习，和图处理。你将会发现它被银行、电信公司、游戏公司、政府，和所有如 Apple、Facebook、IBM，和 Microsoft 等主要的科技巨头公司使用。非常好，Spark 可以运行在一个只需要在你集群中的

2018-04-24

1.3K0

技术丨从Hadoop到Spark，看大数据框架发展之路

hadoop 大数据 mapreduce spark java

谈到大数据框架，不得不提Hadoop和 Spark，今天我们进行历史溯源，帮助大家了解Hadoop和Spark的过去，感应未来。在Hadoop出现前人们采用什么计算模型呢？是典型的高性能 HPC workflow，它有专门负责计算的compute cluster，cluster memory很小，所以计算产生的任何数据会存储在storage中，最后在Tape里进行备份，这种workflow主要适用高速大规模复杂计算，像核物理模拟中会用到。 HPC workflow在实际应用中存在一些问题，这些问题

2018-04-24

9770

Spark Streaming场景应用- Spark Streaming计算模型及监控

spark 数据处理

摘要 Spark Streaming是一套优秀的实时计算框架。其良好的可扩展性、高吞吐量以及容错机制能够满足我们很多的场景应用。本篇结合我们的应用场景，介结我们在使用Spark Streaming方面的技术架构，并着重讲解Spark Streaming两种计算模型，无状态和状态计算模型以及该两种模型的注意事项;接着介绍了Spark Streaming在监控方面所做的一些事情，最后总结了Spark Streaming的优缺点。一、概述数据是非常宝贵的资源，对各级企事业单均有非常高的价值。但是数据的爆炸

2018-04-24

1.3K0

【解读】2015之大数据篇：大数据的黄金时代

大数据 spark es 2

2015年，整个IT技术领域发生了许多深刻而又复杂的变化，InfoQ策划了“解读2015”年终技术盘点系列文章，希望能够给读者清晰地梳理出技术领域在这一年的发展变化，回顾过去，继续前行。本文是大数据解读篇，在这篇文章里我们将回顾2015展望2016，看看过去的一年里广受关注的技术有哪些进展，了解下数据科学家这个职业的火热。在关键技术进展部分我们在大数据生态圈众多技术中选取了Hadoop、Spark、Elasticsearch和Apache Kylin四个点，分别请了四位专家：Hulu的董西成、明略数

2018-04-23

8060

【学习】2分钟读懂大数据框架Hadoop和Spark的异同

大数据 hadoop spark apache

　　谈到大数据，相信大家对 Hadoop 和 Apache Spark 这两个名字并不陌生。但我们往往对它们的理解只是停留在字面上，并没有对它们进行深入的思考，下面不妨跟我一块看下它们究竟有什么异同。

2018-04-23

7390

【学习】如何从菜鸟成长为Spark大数据高手？

spark 大数据

Spark采用一个统一的技术堆栈解决了云计算大数据的如流处理、图技术、机器学习、NoSQL查询等方面的所有核心问题，具有完善的生态系统，这直接奠定了其一统云计算大数据领域的霸主地位；要想成为Spark高手，需要经历一下阶段：第一阶段：熟练的掌握Scala语言 1， Spark框架是采用Scala语言编写的，精致而优雅。要想成为Spark高手，你就必须阅读Spark的源代码，就必须掌握Scala,； 2，虽然说现在的Spark可以采用多语言Java、Python等进行应用程序开发，但是最快速的和支持最

2018-04-23

7800

【视频】大数据实战工具Spark 共64讲

大数据 spark

学习目标 1. 学习Spark配置，掌握Spark集群部署； 2. 学习RDD和Scala，掌握Spark调优和应用开发； 3. 掌握Spark Streaming、Spark Sql使用技巧； 4. 学习MLib、SparkR和其他Spark生态组件；学习对象计算机专业背景的学生；大数据工程师；讲师介绍罗老师，12年开始从事hadoop领域技术研究，14年专职从事spark技术研究与开发，目前在企业里从事spark相关工作，同时负责企业的内训，主讲spark部分。在14年夏做为Hadoop培训讲

2018-04-23

7340

【关注】2016年大数据领域预测：Spark淘汰MapReduce，拯救Hadoop

大数据 spark

2016 年大数据领域会发生什么情况？考虑到如今在深层神经网络和规范性分析方面取得的进展，你可能觉得这个问题很好回答。而实际上，来自业界的大数据预测大不相同，本文精选出了最值得关注的 33 个预测，为您开启未知的 2016！数据平民崛起甲骨文公司预测一种新型用户：数据平民（Data Civilian）会崛起。该公司称：“虽然复杂的数据统计可能仍局限于数据科学家，但数据驱动的决策不会是这样。在未来一年，更简单的大数据发现工具让业务分析员可以寻找企业 Hadoop 集群中的数据集，将它们重新做成新的混搭组合

2018-04-23

6700

关键七步，用Apache Spark构建实时分析Dashboard

作者 | Abhinav 译者：王庆摘要：本文我们将学习如何使用Apache Spark streaming，Kafka，Node.js，Socket.IO和Highcharts构建实时分析Dashboard。问题描述电子商务门户希望构建一个实时分析仪表盘，对每分钟发货的订单数量做到可视化，从而优化物流的效率。解决方案解决方案之前，先快速看看我们将使用的工具： Apache Spark – 一个通用的大规模数据快速处理引擎。Spark的批处理速度比Hadoop MapReduce快近10倍

2018-04-23

1.8K0

百度的基于Spark构建即席查询平台

大数据 spark hadoop 企业

作者介绍孙垚光：目前是百度分布式计算方向架构师，离线计算技术负责人。2009年加入百度，先后从事内核网络协议栈、Hadoop/Spark大数据等方向的研发和优化工作，对Hadoop大数据生态有较为深入的理解，积累了丰富的大数据实战经验。本文主要介绍百度基于Spark SQL构建的一体化即席查询平台，包括架构、特点、相关概念，以及其中涉及到的主要关键技术点，并选择其中一两个技术点做深入分析和探讨，接着是即席查询平台在百度内部业务上的应用案例，包括使用场景和业务收益，同时，面向百度开放云的企业客户，我

2018-04-23

1.7K0

Hadoop、Spark、HBase与Redis的适用性讨论

hadoop spark hbase 大数据

最近在网上又看到有关于Hadoop适用性的讨论[1]。想想今年大数据技术开始由互联网巨头走向中小互联网和传统行业，估计不少人都在考虑各种“纷繁复杂”的大数据技术的适用性的问题。这儿我就结合我这几年在Hadoop等大数据方向的工作经验，与大家讨论一下Hadoop、Spark、HBase及Redis等几个主流大数据技术的使用场景（首先声明一点，本文中所指的Hadoop，是很“狭义”的Hadoop，即在HDFS上直接跑MapReduce的技术，下同）。我这几年实际研究和使用过大数据（包含NoSQL）技术包括

2018-04-23

8290

【译文】Spark高速实时分析

spark apache hadoop mapreduce

Apache Hadoop是一个成熟的开发框架,它有庞大的生态系统,并得到了Cloudera,Hortonworks,雅虎等重要参与者的支持和贡献。Apache Hadoop为企业管理各种规模的数据提供了工具。在过去,Hadoop的批量处理特性使得使用MapReduce就足以满足大部分企业的处理需求。然而,越来越多的数据需要更快速的处理，这些需求来自于流技术、物联网和实时分析等领域的快速发展。这些新的需求需要新的处理模式，现在,Apache Spark作为可以满足这些需求的一项重要新技术,已经获得相

2018-04-20

5510

【专访】携程李亚锋：大数据技术融合下的Spark更具魅力

hadoop spark hbase TDSQL MySQL 版大数据

PPV课大数据 “大数据”作为当下最火热的IT行业词汇，在主流的数据处理工具当中Hadoop和Spark都被大家所熟悉。不过，目前基于内存计算的Spark适合各种迭代算法和交互式数据分析，能够提升大数

2018-04-20

9120

【工具】Apache Spark 1.5发布了！！！

apache spark jvm

Apache Spark社区刚刚发布了1.5版本，大家一定想知道这个版本的主要变化，这篇文章告诉你答案。 DataFrame执行后端优化（Tungsten第一阶段） DataFrame可以说是整个Spark项目最核心的部分，在1.5这个开发周期内最大的变化就是Tungsten项目的第一阶段已经完成。主要的变化是由Spark自己来管理内存而不是使用JVM，这样可以避免JVM GC带来的性能损失。内存中的Java对象被存储成Spark自己的二进制格式，计算直接发生在二进制格式上，省去了序列化和反序列化时间。同

2018-04-20

5850

机器学习技术类书单推荐

机器学习 python spark java

机器学习技术类书单推荐，共11本：《机器学习》《图解机器学习》《机器学习实战》【有电子版】《机器学习系统设计》【有电子版】《Python机器学习基础教程》【有电子版】《Python机器学习

2018-04-20

9690

【了解】Spark和Hadoop是友，非敌

hadoop spark mapreduce 大数据 sql

Spark 在 6 月份取得了激动人心的成绩。在圣何塞举办的 Hadoop 峰会上，Spark 成了人们经常提及的话题和许多演讲的主题。IBM 还在 6 月 15 号宣布，将对 Spark 相关的技术进行巨额投资。这一声明帮助推动了旧金山 Spark 峰会的召开。在这里，人们会看到有越来越多的工程师在学习 Spark，也有越来越多的公司在试验和采用 Spark。对 Spark 的投资和采用形成了一个正向循环，迅速推动这一重要技术的成熟和发展，让整个大数据社区受益。然而，人们对 Spark 的日益关注让

2018-04-20

7350

TensorFlow On Spark 开源项目分析

tensorflow spark

原文：http://sparkdata.org/?p=423&utm_source=tuicool&utm_medium=referral 作者：京东大数据技术保障团队概述自Google发布Ten

2018-04-19

6.7K0

【学习】切勿妄谈Hadoop，以及4个数据管道打造实践

大数据 spark hadoop

时至今日，大数据这个概念已充斥了整个IT界，各种“搭载”了大数据技术的产品，各种用于处理大数据工具更如雨后的春笋触目皆是。同时，如果某个产品还没抱上大数据的大腿，如果某个机构还没捣鼓过基于Hadoop、Spark、Impala、Storm等高大上的工具，更会予以过时黄花的评价。然而，你的数据量真的需要使用Hadoop这样工具吗？你业务处理的数据类型真的需要大数据技术来支撑吗？文章出自有着多年从业经验的数据科学家Chris Stucchio，纽约大学柯朗研究所博士后，搞过高频交易

2018-04-19

9940

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态