华章科技-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

华章科技

专栏成员

2207

文章

2432470

阅读量

126

订阅数

为什么Spark能成为最火的大数据计算引擎？它是怎样工作的？

spark 大数据 mapreduce 机器学习 sql

十年前我们只有Hadoop，大家首先通过HDFS实现海量数据的共享存储，然后使用MapReduce以批处理的方式处理这些海量数据，这一切看起来似乎十分完美。

IT阅读排行榜

2020-09-14

8540

零基础入门Python：基本命令、函数、数据结构

python mapreduce serverless

导读：本文对Python的基本使用做一个简单的介绍。限于篇幅，本文不可能详细讲解Python的使用，只是针对本书涉及的数据挖掘案例所用到的代码进行基本讲解。如果读者是初步接触Python，并且使用Python的目的就是数据挖掘，那么相信本文的介绍对你来说是比较充足的了。

IT阅读排行榜

2020-04-12

7680

Spark入门必读：核心概念介绍及常用RDD操作

缓存 c 语言 spark hashmap mapreduce

导读：Spark是由加州大学伯克利分校AMP实验室开源的分布式大规模数据处理通用引擎，具有高吞吐、低延时、通用易扩展、高容错等特点。Spark内部提供了丰富的开发库，集成了数据分析引擎Spark SQL、图计算框架GraphX、机器学习库MLlib、流计算引擎Spark Streaming。

IT阅读排行榜

2019-05-10

6500

巧用MapReduce+HDFS，海量数据去重的五大策略

hadoop 数据库 sql mapreduce hbase

重复数据删除往往是指消除冗余子文件。不同于压缩，重复数据删除对于数据本身并没有改变，只是消除了相同的数据占用的存储容量。重复数据删除在减少存储、降低网络带宽方面有着显著的优势，并对扩展性有所帮助。

IT阅读排行榜

2018-08-16

1.4K0

干货：Spark在360商业数据部的应用实践

spark mapreduce hadoop sql 机器学习

随着数据规模的持续增长，数据需求越来越多，原有的以MapReduce为代表的Hadoop平台越来越显示出其局限性。主要体现在以下两点：

IT阅读排行榜

2018-08-16

7880

2分钟读懂大数据框架Hadoop和Spark的异同

spark hadoop mapreduce 分布式数据处理

谈到大数据，相信大家对Hadoop和Apache Spark这两个名字并不陌生。但我们往往对它们的理解只是停留在字面上，并没有对它们进行深入的思考，下面不妨跟我一块看下它们究竟有什么异同。

IT阅读排行榜

2018-08-15

3330

在twitter搞数据科学是怎样一种体验？

机器学习 scala hadoop mapreduce

2015年6月17日是我在Twitter工作两周年的纪念日。回想起来，两年间，数据科学在Twitter的应用方式和范围发生了很大变化：

IT阅读排行榜

2018-08-14

7180

2分钟读懂大数据框架Hadoop和Spark的异同

spark hadoop mapreduce 分布式数据处理

谈到大数据，相信大家对 Hadoop 和 Apache Spark 这两个名字并不陌生。但我们往往对它们的理解只是提留在字面上，并没有对它们进行深入的思考，下面不妨一起看下它们究竟有什么异同。

IT阅读排行榜

2018-08-14

8680

教你读懂大数据的技术生态圈

sql hive mapreduce spark 数据处理

大数据本身是个很宽泛的概念，Hadoop生态圈（或者泛生态圈）基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所需要的各种工具：锅碗瓢盆，各有各的用处，互相之间又有重合。你可以用汤锅直接当碗吃饭喝汤，你可以用小刀或者刨子去皮。但是每个工具有自己的特性，虽然奇怪的组合也能工作，但是未必是最佳选择。

IT阅读排行榜

2018-08-13

3560

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态