小数志

75 篇文章
12 人订阅

全部文章

luanhz

总结 | DataFrame、Series、array、tensor的创建及相互转化

最近在入门图像识别,自然也会用到深度学习框架,也接触到了一个新的数据结构——tensor(张量)。除此之外,也有一些很常用的数据结构,比如DataFrame、S...

7830
luanhz

PySpark ML——分布式机器学习库

继续PySpark学习之路,本篇开启机器学习子模块的介绍,不会更多关注机器学习算法原理,仅对ML库的基本框架和理念加以介绍。最后用一个小例子实战对比下sklea...

9720
luanhz

Spark Core——RDD何以替代Hadoop MapReduce?

继续前期依次推文PySpark入门和SQL DataFrame简介的基础上,今日对Spark中最重要的一个概念——RDD进行介绍。虽然在Spark中,基于RDD...

5220
luanhz

数据科学系列:sklearn库主要模块功能简介

作为一名数据分析师,当我初次接触数据分析三剑客(numpy、pandas、matplotlib)时,感觉每个库的功能都很多很杂,所以在差不多理清了各模块功能后便...

4200
luanhz

数据库初学者的福音——SQLite

数据库操作应该算是所有程序员的基本功了,写的一手好SQL对于数据分析师而言更是安身立命之本。前期,个人惯用的是MySQL,近日由于工作需要对Sqlite使用更为...

5820
luanhz

PySpark SQL——SQL和pd.DataFrame的结合体

昨日推文PySpark环境搭建和简介,今天开始介绍PySpark中的第一个重要组件SQL/DataFrame,实际上从名字便可看出这是关系型数据库SQL和pan...

6420
luanhz

PySpark——开启大数据分析师之路

近日由于工作需要,突击学了一下PySpark的简单应用。现分享其安装搭建过程和简单功能介绍。

9530
luanhz

pandas时间序列常用方法简介

pandas是Python数据分析最好用的第三方库,没有之一。——笛卡儿没说过这句话!

7810
luanhz

pyecharts极简入门教程

数据可视化是整个数据分析流程中的关键环节,甚至有着一图定成败的关键性地位。前期,陆续推出了matplotlib和seaborn详细入门教程,对于常规的数据探索和...

8530
luanhz

Pandas中groupby的这些用法你都知道吗?

pandas作为Python数据分析的瑞士军刀,集成了大量实用的功能接口,基本可以实现数据分析一站式处理。前期,笔者完成了一篇pandas系统入门教程,也针对几...

9040
luanhz

python数据科学系列:seaborn入门详细教程

前期,分别对python数据分析三剑客进行了逐一详细入门介绍,今天推出系列第4篇教程:seaborn。这是一个基于matplotlib进行高级封装的可视化库,相...

13451
luanhz

原来用pyecharts画个时间线图这么简单

可视化对于数据分析师的工作重要性不言而喻。在Python众多可视化库中,matplotlib+seaborn+pyecharts是个人常用的组合。今天,就简单分...

7620
luanhz

Python数据分析师该如何选择IDE

python是绝大多数数据分析师的必备工具之一,而一个好的IDE对于提高代码效率来说则至关重要。今天,仅就个人使用IDE的选择和习惯做以分享。

8540
luanhz

3道数据分析师面试题实录

求差集在其他SQL语句中存在关键词Except的用法,而MySQL中没有,所以需要用其他方法折中实现。但实现本身也不难。

10810
luanhz

Python 为什么不用分号作终止符?

单纯看“分隔符”与“终止符”,它们都是必须的,然而是否都要用分号来表示呢?这个问题没有达成一致的标准。

7120
luanhz

从pandas中的这几个函数,我看懂了道家“一生二、二生三、三生万物”

pandas是用python进行数据分析最好用的工具包,没有之一!从数据读写到预处理、从数据分析到可视化,pandas提供了一站式服务。而其中的几个聚合统计函数...

11210
luanhz

临行在即,分享一个自己写的sklearn源码库

考虑接下来一段时间会出差在外,现将自己近1个月来学习ML算法的一点成果做以分享,相关源码纯干货版本已上传至GitHub,有需要者可通过"阅读原文"连接自行clo...

8040
luanhz

一句SQL,我有6种写法

最近在刷LeetCode中数据库题目时,有一道排名题目,用了6种写法分别代表6种SQL思维来实现,想想也算是有趣。

6320
luanhz

python数据科学系列:numpy入门详细教程

python数据科学基础库主要是三剑客:numpy,pandas以及matplotlib,每个库都集成了大量的方法接口,配合使用功能强大。平时虽然一直在用,也看...

11310
luanhz

python数据科学系列:matplotlib入门详细教程

上篇中,介绍了numpy的常用接口及使用,并对部分接口方法进行了详细对比。与之齐名,matplotlib作为数据科学的的另一必备库,算得上是python可视化领...

16821

扫码关注云+社区

领取腾讯云代金券