超哥的杂货铺

LV0
发表了文章

Eat pyspark 2nd day | 1小时看懂Spark的基本原理

不同于MapReduce将中间计算结果放入磁盘中,Spark采用内存存储中间计算结果,减少了迭代运算的磁盘IO,并通过并行计算DAG图的优化,减少了不同任务之间...

超哥的杂货铺
发表了文章

Eat pyspark 1st day | 快速搭建你的Spark开发环境

下载地址:https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-213...

超哥的杂货铺
发表了文章

一个案例入门tableau——NBA球队数据可视化实战解析

前两天在公众号发布了一篇「NBA球队数据可视化」的视频案例,对于本赛季东西部30只球队的得失分,胜负场次,胜率排名等进行了可视化展示,并支持实时交互。可点击下方...

超哥的杂货铺
发表了文章

中国行政单位树形图的可视化实战!

我国幅员辽阔,共有34个省级行政单位,包括23个省、5个自治区、4个直辖市、2个特别行政区。除去中国香港澳门2个特别行政区和台湾省特殊外,大陆地区共有31个省级...

超哥的杂货铺
发表了文章

七步搞定一个综合案例,掌握pandas进阶用法!

本文从一个案例入手,综合运用pandas的各类操作实现对数据的处理,处理步骤如下所示。在公众号后台回复“case”即可获取本文全部数据,代码和文档。

超哥的杂货铺
发表了文章

在shell中使用hiveSQL的注意事项

hive是数据分析人员常用的工具之一。实际工作中,使用hive基本都是在linux shell环境下。运行hiveSQL的方式有以下几种。

超哥的杂货铺
发表了文章

Pandas tricks 之 transform的用法

如下销售数据中展现了三笔订单,每笔订单买了多种商品,求每种商品销售额占该笔订单总金额的比例。例如第一条数据的最终结果为:235.83 / (235.83+232...

超哥的杂货铺
发表了文章

matplotlib 设置绘图时显示中文

matplotlib绘图时,经常会遇到中文字体显示为方块的问题。网上有很多解决方案,比较普遍的是在代码里增加下面两行。

超哥的杂货铺
发表了文章

matplotlib绘制常见统计图形(一)

之前的文章一图入门Matplotlib绘图中我们学习了matplotlib中常见图表元素的绘制方法,所有操作都通过可以调用plt的函数实现。本节继续来学习使用m...

超哥的杂货铺
发表了文章

一图入门Matplotlib绘图

Matplotlib是Python里可视化的基础包,可以很方便地绘制二维,三维的图表,作图风格接近MATLAB,所以称为matplotlib。使用简单的语句就能...

超哥的杂货铺
发表了文章

手把手带你开启机器学习之路——决策树的理解与实践

决策树是一种有监督的机器学习算法,可以实现分类和回归任务,通常对数据有比较好的拟合效果。

超哥的杂货铺
发表了文章

手把手带你开启机器学习之路——房价预测(二)

在前一篇文章手把手带你开启机器学习之路——房价预测(一)中我们以加州住房价格数据集为基础,学习了数据抽样,数据探索性分析和可视化,数据预处理(缺失值填充,增加新...

超哥的杂货铺
发表了文章

手把手带你开启机器学习之路——房价预测(一)

本文我们使用加州住房价格数据集,从零开始,一步一步建立模型,预测每个区域的房价中位数。目的是完整实现一个机器学习的流程。

超哥的杂货铺
发表了文章

SQL中这些与NULL有关的细节,你知道吗?

NULL是SQL常见的关键字之一,表示“空,无”的意思。它在SQL中是一种独特的存在,今天来汇总一下与它相关的知识点,看看这些你都知道吗?

超哥的杂货铺
发表了文章

图解pandas模块21个常用操作

Pandas 是 Python 的核心数据分析支持库,提供了快速、灵活、明确的数据结构,旨在简单、直观地处理关系型、标记型数据。Pandas 的目标是成为 Py...

超哥的杂货铺
数据结构Python数据分析
发表了文章

在一个机器学习项目中,你需要做哪些工作?

机器学习是通过对已有数据进行模型训练,再将训练好的模型应用于未知数据的过程。从这句话中我们可以看到几个关键要素:数据,模型,训练,应用。对于一个通常的机器学习项...

超哥的杂货铺
机器学习神经网络深度学习AI 人工智能特征工程
发表了文章

不再纠结,一文详解pandas中的map、apply、applymap、groupby、agg...

pandas提供了很多方便简洁的方法,用于对单列、多列数据进行批量运算或分组聚合运算,熟悉这些方法后可极大地提升数据分析的效率,也会使得你的代码更加地优雅简洁。...

超哥的杂货铺
数据处理
发表了文章

一场pandas与SQL的巅峰大战(七)

具体来讲,第一篇文章一场pandas与SQL的巅峰大战涉及到数据查看,去重计数,条件选择,合并连接,分组排序等操作。

超哥的杂货铺
SQLAlchemyMySQLPythonHive
发表了文章

RFM模型是什么?我用Tableau告诉你

本文来自于公众号读者投稿。作者Suke,数据爱好者,主攻方向:数据分析,数据产品化。

超哥的杂货铺

个人简介

个人成就

扫码关注云+社区

领取腾讯云代金券