腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

数据科学与人工智能

专栏作者

811

文章

1011268

阅读量

170

订阅数

PySpark做数据处理

spark 编程算法 python https

PySpark是一种适合在大规模数据上做探索性分析，机器学习模型和ETL工作的优秀语言。若是你熟悉了Python语言和pandas库，PySpark适合你进一步学习和使用，你可以用它来做大数据分析和建模。

陆勤_数据人网

2020-03-25

4.2K0

【大数据框架】Hadoop和Spark的异同

大数据 hadoop spark apache

谈到大数据，相信大家对 Hadoop 和 Apache Spark 这两个名字并不陌生。但我们往往对它们的理解只是提留在字面上，并没有对它们进行深入的思考，下面不妨一起看下它们究竟有什么异同。 1 解决问题的层面不一样首先，Hadoop 和 Apache Spark 两者都是大数据框架，但是各自存在的目的不尽相同。Hadoop 实质上更多是一个分布式数据基础设施: 它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储，意味着您不需要购买和维护昂贵的服务器硬件。同时，Hadoop 还会索引

陆勤_数据人网

2018-02-27

6880

【Spark框架】运用Spark加速实时数据分析

spark 数据分析 apache hadoop

Apache Hadoop是一个成熟的开发框架,其连接着庞大的生态系统，并且得到了Cloudera、Hortonwork、Yahoo这些卓越机构的支持与贡献，并且为各个组织提供了许多工具来管理不同大小规则的数据。在过去，Hadoop中运用MapReduce进行批处理的特性足以满足许多组织的处理需求。然而，随着信息化时代的发展，越来越多组织亟需使用更加快速的数据处理。这些需求来自各个领域的驱动，其中包括最近发展的流媒体技术、物联网、实时分析处理，这些也仅仅只是其中一部分。他们需要一套新的数据处理模型。在今天

陆勤_数据人网

2018-02-27

7050

【Spark研究】用Apache Spark进行大数据处理第二部分：Spark SQL

spark apache 大数据

在Apache Spark文章系列的前一篇文章中，我们学习了什么是Apache Spark框架，以及如何用该框架帮助组织处理大数据处理分析的需求。 Spark SQL，作为Apache Spark大数据框架的一部分，主要用于结构化数据处理和对Spark数据执行类SQL的查询。通过Spark SQL，可以针对不同格式的数据执行ETL操作（如JSON，Parquet，数据库）然后完成特定的查询操作。在这一文章系列的第二篇中，我们将讨论Spark SQL库，如何使用Spark SQL库对存储在批处理文件、JSO

陆勤_数据人网

2018-02-27

3.2K0

【Spark研究】用Apache Spark进行大数据处理第一部分：入门介绍

spark apache 大数据开源

什么是Spark Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架。最初在2009年由加州大学伯克利分校的AMPLab开发，并于2010年成为Apache的开源项目之一。与Hadoop和Storm等其他大数据和MapReduce技术相比，Spark有如下优势。首先，Spark为我们提供了一个全面、统一的框架用于管理各种有着不同性质（文本数据、图表数据等）的数据集和数据源（批量数据或实时的流数据）的大数据处理的需求。 Spark可以将Hadoop集群中的应用在内存中的运行速度提

陆勤_数据人网

2018-02-27

1.4K0

【Spark研究】Spark之工作原理

spark apache hadoop mapreduce

基本概念理解Spark的运行模式涉及一系列概念：（1）Cluster Manager：在集群上获取资源的外部服务。目前有三种类型：1. Standalone, Spark原生的资源管理；2. Apache Mesos, 和Hadoop Mapreduce兼容性良好的资源调度框架；3. Hadoop Yarn, 主要指YARN中的ResourceManager. （2）Application: 用户编写的应用应用程序。（3）Driver: Application中运行main函数并创建的SparkC

陆勤_数据人网

2018-02-27

1.3K0

【Spark研究】极简 Spark 入门笔记——安装和第一个回归程序

spark 数据处理 hadoop

现在的各种数据处理技术更新换代太快，新的名词和工具层出不穷，像是 Hadoop 和 Spark 这些，最近几年着实火了一把，但自己一直没精力和时间去尝试和学习。特别是听说这些工具配置起来比较复杂，就更懒得去折腾。在这一点上，果然是不如从前了。然而绝知此事要躬行。即使将来不一定会花大功夫在这上面，但对它们有些基本的了解总是好的。听说 Spark 有一段时间了，但一直是只闻其名不见其实，今天就来简单记录一下初学 Spark 的若干点滴。 Spark 是什么按照 Spark 官方的说法，Spark 是一个快速

陆勤_数据人网

2018-02-27

9220

【Spark研究】如何用 Spark 快速开发应用？

spark python 大数据

如果你还没有仔细研究过 Spark （或者还不知道 Spark 是什么），那么本文很好地介绍了 Spark。描述了基本的数据结构、shell ，并对其包含的 API 进行了概述。 ---- 你已经知道

陆勤_数据人网

2018-02-27

8510

【Spark研究】Spark编程指南(Python版)

Spark编程指南译者说在前面：最近在学习Spark相关的知识，在网上没有找到比较详细的中文教程，只找到了官网的教程。出于自己学习同时也造福其他初学者的目的，把这篇指南翻译成了中文，笔者水平有限，文章中难免有许多谬误，请高手不吝赐教。本文翻译自Spark Programming Guide,由于笔者比较喜欢Python，在日常中使用也比较多，所以只翻译了Python部分，不过Java和Scala大同小异。概述从高层次上来看，每一个Spark应用都包含一个驱动程序，用于执行用户的main函数以及在集群

陆勤_数据人网

2018-02-27

5K0

【Spark研究】用Apache Spark进行大数据处理之入门介绍

大数据 spark 数据处理

什么是Spark Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架。最初在2009年由加州大学伯克利分校的AMPLab开发，并于2010年成为Apache的开源项目之一。与Hadoop和Storm等其他大数据和MapReduce技术相比，Spark有如下优势。首先，Spark为我们提供了一个全面、统一的框架用于管理各种有着不同性质（文本数据、图表数据等）的数据集和数据源（批量数据或实时的流数据）的大数据处理的需求。将Hadoop集群的中的应用在内出中运行速度提升100倍，甚至

陆勤_数据人网

2018-02-27

1.8K0

【数据科学家】SparkR：数据科学家的新利器

摘要：R是非常流行的数据统计分析和制图的语言及环境，有调查显示，R语言在数据科学家中使用的程度仅次于SQL，但大数据时代的海量数据处理对R构成了挑战。摘要：R是数据科学家中最流行的编程语言和环境之一，在Spark中加入对R的支持是社区中较受关注的话题。作为增强Spark对数据科学家群体吸引力的最新举措，最近发布的Spark 1.4版本在现有的Scala/Java/Python API之外增加了R API（SparkR）。SparkR使得熟悉R的用户可以在Spark的分布式计算平台基础上结合R本身强大的统计

陆勤_数据人网

2018-02-27

3.5K0

【数据科学】数据科学中的 Spark 入门

本文由伯乐在线 - zhique 翻译，xxmen 校稿。未经许可，禁止转载！英文出处：Ram Sriharsha。欢迎加入翻译组。 Apache Spark 为数据科学提供了许多有价值的工具。随着 Apache Spark 1.3.1 技术预览版的发布，强大的 Data Frame API 也可以在 HDP 上使用数据科学家使用数据挖掘和可视化来帮助构造问题架构并对学习进行微调。Apache Zeppelin 正好能够帮他们做到这些。 Zeppelin 是一个基于 Web 的 notebook 服务器

陆勤_数据人网

2018-02-26

1.4K0

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态