腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

华章科技

专栏作者

2207

文章

2238716

阅读量

126

订阅数

盘点8个数据分析相关的Python库（实例+代码）

spark numpy matlab

导读：Python中常会用到一些专门的库，如NumPy、SciPy、Pandas和Matplotlib。数据处理常用到NumPy、SciPy和Pandas，数据分析常用到Pandas和Scikit-Learn，数据可视化常用到Matplotlib，而对大规模数据进行分布式挖掘时则可以使用Pyspark来调用Spark集群的资源。

IT阅读排行榜

2022-03-11

2K0

盘点13种流行的数据处理工具

hadoop hive spark apache 开源

作者：所罗伯·斯里瓦斯塔瓦（Saurabh Shrivastava）、内拉贾利·斯里瓦斯塔夫（Neelanjali Srivastav）

IT阅读排行榜

2022-01-20

2.1K0

为什么Spark能成为最火的大数据计算引擎？它是怎样工作的？

spark 大数据 mapreduce 机器学习 sql

十年前我们只有Hadoop，大家首先通过HDFS实现海量数据的共享存储，然后使用MapReduce以批处理的方式处理这些海量数据，这一切看起来似乎十分完美。

IT阅读排行榜

2020-09-14

8120

Spark入门必读：核心概念介绍及常用RDD操作

缓存 c 语言 spark hashmap mapreduce

导读：Spark是由加州大学伯克利分校AMP实验室开源的分布式大规模数据处理通用引擎，具有高吞吐、低延时、通用易扩展、高容错等特点。Spark内部提供了丰富的开发库，集成了数据分析引擎Spark SQL、图计算框架GraphX、机器学习库MLlib、流计算引擎Spark Streaming。

IT阅读排行榜

2019-05-10

6150

干货请收好：终于有人把用户画像的流程、方法讲明白了

大数据数据分析 spark 机器学习 NLP 服务

导读：用户画像将产品设计的焦点放在目标用户的动机和行为上，从而避免产品设计人员草率地代表用户。产品设计人员经常不自觉的把自己当作用户代表，根据自己的需求设计产品，导致无法抓住实际用户的需求。往往对产品做了很多功能的升级，用户却觉得体验变差了。

IT阅读排行榜

2018-12-10

5.1K0

干货：Spark在360商业数据部的应用实践

spark mapreduce hadoop sql 机器学习

随着数据规模的持续增长，数据需求越来越多，原有的以MapReduce为代表的Hadoop平台越来越显示出其局限性。主要体现在以下两点：

IT阅读排行榜

2018-08-16

7480

干货 | 从底层到应用，那些数据人的必备技能

大数据 hadoop hive spark

目前很火，数据源头，各种炫酷新技术，搭建Hadoop、Hive、Spark、Kylin、Druid、Beam~，前提是你要懂Java，很多平台都是用Java开发的。

IT阅读排行榜

2018-08-16

2660

2分钟读懂大数据框架Hadoop和Spark的异同

spark hadoop mapreduce 分布式数据处理

谈到大数据，相信大家对Hadoop和Apache Spark这两个名字并不陌生。但我们往往对它们的理解只是停留在字面上，并没有对它们进行深入的思考，下面不妨跟我一块看下它们究竟有什么异同。

IT阅读排行榜

2018-08-15

3210

Spark知识体系完整解读

spark 大数据分布式

Spark简介 Spark是整个BDAS的核心组件，是一个大数据分布式编程框架，不仅实现了MapReduce的算子map 函数和reduce函数及计算模型，还提供更为丰富的算子，如filter、join、groupByKey等。是一个用来实现快速而同用的集群计算的平台。 Spark将分布式数据抽象为弹性分布式数据集（RDD），实现了应用任务调度、RPC、序列化和压缩，并为运行在其上的上层组件提供API。其底层采用Scala这种函数式语言书写而成，并且所提供的API深度借鉴Scala函数式的编程思想，提供与Scala类似的编程接口 Sparkon Yarn

IT阅读排行榜

2018-08-14

9850

大数据圈盘点：你不知道的15个新技术

hadoop 大数据 spark 数据库 sql

下面一起来看看吸引眼球的十五项大数据公告。虽然罗列了很多，但还不是全部内容，只是最近在加利福尼亚州圣何塞市Strata + Hadoop World大会上亮相的部分技术。

IT阅读排行榜

2018-08-14

6780

获得大数据顶尖职位必备的9项技能,你会多少?

大数据 hadoop spark nosql 机器学习

这是一个大数据时代，从IT到DT时代的变化赋予我们探索未知世界的力量，而数据在这个时代即代表着财富，被比喻为黄金。如何挖掘到黄金，是从事数据分析工作的人的一个技能。以下是近年最为常用的大数据分析工具，请各位看官根据自身要求和兴趣进行了解和学习。

IT阅读排行榜

2018-08-14

2820

2分钟读懂大数据框架Hadoop和Spark的异同

spark hadoop mapreduce 分布式数据处理

谈到大数据，相信大家对 Hadoop 和 Apache Spark 这两个名字并不陌生。但我们往往对它们的理解只是提留在字面上，并没有对它们进行深入的思考，下面不妨一起看下它们究竟有什么异同。

IT阅读排行榜

2018-08-14

8470

SparkR：数据科学家的新利器

spark scala java

摘要：R是数据科学家中最流行的编程语言和环境之一，在Spark中加入对R的支持是社区中较受关注的话题。作为增强Spark对数据科学家群体吸引力的最新举措，最近发布的Spark 1.4版本在现有的Scala/Java/Python API之外增加了R API（SparkR）。SparkR使得熟悉R的用户可以在Spark的分布式计算平台基础上结合R本身强大的统计分析功能和丰富的第三方扩展包，对大规模数据集进行分析和处理。本文将回顾SparkR项目的背景，对其当前的特性作总体的概览，阐述其架构和若干技术关键点，最后进行展望和总结。

IT阅读排行榜

2018-08-14

4.1K0

教你读懂大数据的技术生态圈

sql hive mapreduce spark 数据处理

大数据本身是个很宽泛的概念，Hadoop生态圈（或者泛生态圈）基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所需要的各种工具：锅碗瓢盆，各有各的用处，互相之间又有重合。你可以用汤锅直接当碗吃饭喝汤，你可以用小刀或者刨子去皮。但是每个工具有自己的特性，虽然奇怪的组合也能工作，但是未必是最佳选择。

IT阅读排行榜

2018-08-13

3450

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态