首页
学习
活动
专区
工具
TVP
发布

数据森麟

专栏作者
341
文章
405442
阅读量
39
订阅数
数据分析工具篇——HDFS原理解读
前面我们用几篇文章的时间整理了一下小数据集的情况下数据分析的常用工具,主要是为了梳理分析过程中的主线条,但是,随着数据的增加,pandas这样的数据结构只会越来越慢,取而代之的是hadoop和spark这种大数据环境下的分析工具,接下来几篇我们会从大数据的角度,分析pyspark、SQL的常用技巧和优化方法,本文的重点是讲解HDFS的结构和存储逻辑,大数据的存储主要是以文件的形式,HDFS是一个不二选择,所以,这篇文章我们讲解一下HDFS的结构,接下来的文章我们讲解hadoop和spark,最后讲解pyspark和SQL的技巧和优化。
数据森麟
2021-01-25
4990
警告!你的隐私正在被上亿网友围观偷看!
「Everything」这个软件想必很多同学都有听过,是一款非常好用的文件搜索软件,很多同学把它设置为开机必启动项之一。
数据森麟
2019-10-25
4680
Baseline | 2019 DCIC《 文化传承—汉字书法多场景识别》
2019 DCIC已经开赛一个月了,据说华为赛题比较有难度,小编特此搜罗到一位妹子大佬的Baseline,为各位参赛者提供思路~
数据森麟
2019-09-29
1.7K0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档