首页
学习
活动
专区
工具
TVP
发布

华章科技

专栏成员
2207
文章
2432470
阅读量
126
订阅数
为什么Spark能成为最火的大数据计算引擎?它是怎样工作的?
十年前我们只有Hadoop,大家首先通过HDFS实现海量数据的共享存储,然后使用MapReduce以批处理的方式处理这些海量数据,这一切看起来似乎十分完美。
IT阅读排行榜
2020-09-14
8540
零基础入门Python:基本命令、函数、数据结构
导读:本文对Python的基本使用做一个简单的介绍。限于篇幅,本文不可能详细讲解Python的使用,只是针对本书涉及的数据挖掘案例所用到的代码进行基本讲解。如果读者是初步接触Python,并且使用Python的目的就是数据挖掘,那么相信本文的介绍对你来说是比较充足的了。
IT阅读排行榜
2020-04-12
7680
Spark入门必读:核心概念介绍及常用RDD操作
导读:Spark是由加州大学伯克利分校AMP实验室开源的分布式大规模数据处理通用引擎,具有高吞吐、低延时、通用易扩展、高容错等特点。Spark内部提供了丰富的开发库,集成了数据分析引擎Spark SQL、图计算框架GraphX、机器学习库MLlib、流计算引擎Spark Streaming。
IT阅读排行榜
2019-05-10
6500
巧用MapReduce+HDFS,海量数据去重的五大策略
重复数据删除往往是指消除冗余子文件。不同于压缩,重复数据删除对于数据本身并没有改变,只是消除了相同的数据占用的存储容量。重复数据删除在减少存储、降低网络带宽方面有着显著的优势,并对扩展性有所帮助。
IT阅读排行榜
2018-08-16
1.4K0
干货:Spark在360商业数据部的应用实践
随着数据规模的持续增长,数据需求越来越多,原有的以MapReduce为代表的Hadoop平台越来越显示出其局限性。主要体现在以下两点:
IT阅读排行榜
2018-08-16
7880
2分钟读懂大数据框架Hadoop和Spark的异同
谈到大数据,相信大家对Hadoop和Apache Spark这两个名字并不陌生。但我们往往对它们的理解只是停留在字面上,并没有对它们进行深入的思考,下面不妨跟我一块看下它们究竟有什么异同。
IT阅读排行榜
2018-08-15
3330
在twitter搞数据科学是怎样一种体验?
2015年6月17日是我在Twitter工作两周年的纪念日。回想起来,两年间,数据科学在Twitter的应用方式和范围发生了很大变化:
IT阅读排行榜
2018-08-14
7180
2分钟读懂大数据框架Hadoop和Spark的异同
谈到大数据,相信大家对 Hadoop 和 Apache Spark 这两个名字并不陌生。但我们往往对它们的理解只是提留在字面上,并没有对它们进行深入的思考,下面不妨一起看下它们究竟有什么异同。
IT阅读排行榜
2018-08-14
8680
教你读懂大数据的技术生态圈
大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所需要的各种工具:锅碗瓢盆,各有各的用处,互相之间又有重合。你可以用汤锅直接当碗吃饭喝汤,你可以用小刀或者刨子去皮。但是每个工具有自己的特性,虽然奇怪的组合也能工作,但是未必是最佳选择。
IT阅读排行榜
2018-08-13
3560
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档