首页
学习
活动
专区
工具
TVP
发布

超哥的杂货铺

专栏作者
41
文章
88917
阅读量
15
订阅数
数据回顾东京奥运会中国体育代表团金牌时刻
2020东京奥运会已经落下帷幕有一段时间了,但这届在疫情期间举办的奥运会注定会写入历史。中国代表团在为期16天的比赛中,共取得了38金32银18铜共88枚奖牌,位列奖牌榜第二。其中38枚金牌追平了境外奥运会金牌数量的最佳战绩(2012伦敦奥运同样38枚金牌),《义勇军进行曲》38次响起在东京赛场,充分展现了中华儿女的精神面貌。
超哥的杂货铺
2021-09-24
3150
Eat pyspark 2nd day | 1小时看懂Spark的基本原理
不同于MapReduce将中间计算结果放入磁盘中,Spark采用内存存储中间计算结果,减少了迭代运算的磁盘IO,并通过并行计算DAG图的优化,减少了不同任务之间的依赖,降低了延迟等待时间。内存计算下,Spark 比 MapReduce 快100倍。
超哥的杂货铺
2021-04-08
5860
Eat pyspark 1st day | 快速搭建你的Spark开发环境
下载地址:https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html
超哥的杂货铺
2021-04-08
2.3K0
一个案例入门tableau——NBA球队数据可视化实战解析
前两天在公众号发布了一篇「NBA球队数据可视化」的视频案例,对于本赛季东西部30只球队的得失分,胜负场次,胜率排名等进行了可视化展示,并支持实时交互。可点击下方视频查看。本文来分享一下视频中可视化的实现过程。
超哥的杂货铺
2021-03-16
7.2K5
中国行政单位树形图的可视化实战!
我国幅员辽阔,共有34个省级行政单位,包括23个省、5个自治区、4个直辖市、2个特别行政区。除去中国香港澳门2个特别行政区和台湾省特殊外,大陆地区共有31个省级区划单位。每个省级单位又可以细分为市级,县级,乡镇和村。
超哥的杂货铺
2021-03-16
1.3K0
七步搞定一个综合案例,掌握pandas进阶用法!
本文从一个案例入手,综合运用pandas的各类操作实现对数据的处理,处理步骤如下所示。在公众号后台回复“case”即可获取本文全部数据,代码和文档。
超哥的杂货铺
2021-01-27
2.4K0
在shell中使用hiveSQL的注意事项
hive是数据分析人员常用的工具之一。实际工作中,使用hive基本都是在linux shell环境下。运行hiveSQL的方式有以下几种。
超哥的杂货铺
2021-01-14
1.3K0
Pandas tricks 之 transform的用法
如下销售数据中展现了三笔订单,每笔订单买了多种商品,求每种商品销售额占该笔订单总金额的比例。例如第一条数据的最终结果为:235.83 / (235.83+232.32+107.97) = 40.93%。
超哥的杂货铺
2020-08-17
2K0
matplotlib 设置绘图时显示中文
matplotlib绘图时,经常会遇到中文字体显示为方块的问题。网上有很多解决方案,比较普遍的是在代码里增加下面两行。
超哥的杂货铺
2020-07-28
9780
matplotlib绘制常见统计图形(一)
之前的文章一图入门Matplotlib绘图中我们学习了matplotlib中常见图表元素的绘制方法,所有操作都通过可以调用plt的函数实现。本节继续来学习使用matplotlib中生成各种常见的统计图表。后台回复“统计图一”可以获取本文全部代码。
超哥的杂货铺
2020-07-27
1.6K0
一图入门Matplotlib绘图
Matplotlib是Python里可视化的基础包,可以很方便地绘制二维,三维的图表,作图风格接近MATLAB,所以称为matplotlib。使用简单的语句就能绘制漂亮的图形。本篇我们来学习matplotlib图表的组成元素。常用的一些绘图组件和概念已经展示在了文章开始的图中。使用简单的API就可以将该图绘制出来。结合图形,我们先解释一些概念和基础API,最后使用完整的代码绘制这幅图。后台回复“绘图”获取本文完整代码。
超哥的杂货铺
2020-07-06
8850
手把手带你开启机器学习之路——决策树的理解与实践
决策树是一种有监督的机器学习算法,可以实现分类和回归任务,通常对数据有比较好的拟合效果。
超哥的杂货铺
2020-06-28
5380
手把手带你开启机器学习之路——房价预测(二)
在前一篇文章手把手带你开启机器学习之路——房价预测(一)中我们以加州住房价格数据集为基础,学习了数据抽样,数据探索性分析和可视化,数据预处理(缺失值填充,增加新特征,特征缩放,分类变量编码)等步骤,接下来继续深入,最终建立预测模型。可以在公众号后台回复“房价”获取两篇文章的数据,代码,PDF文件和思维导图。
超哥的杂货铺
2020-04-01
8980
手把手带你开启机器学习之路——房价预测(一)
本文我们使用加州住房价格数据集,从零开始,一步一步建立模型,预测每个区域的房价中位数。目的是完整实现一个机器学习的流程。
超哥的杂货铺
2020-04-01
2K2
SQL中这些与NULL有关的细节,你知道吗?
NULL是SQL常见的关键字之一,表示“空,无”的意思。它在SQL中是一种独特的存在,今天来汇总一下与它相关的知识点,看看这些你都知道吗?
超哥的杂货铺
2020-03-19
2.3K0
图解pandas模块21个常用操作
Pandas 是 Python 的核心数据分析支持库,提供了快速、灵活、明确的数据结构,旨在简单、直观地处理关系型、标记型数据。Pandas 的目标是成为 Python 数据分析实践与实战的必备高级工具,其长远目标是成为最强大、最灵活、可以支持任何语言的开源数据分析工具。经过多年不懈的努力,Pandas 离这个目标已经越来越近了。
超哥的杂货铺
2020-03-04
8.4K0
在一个机器学习项目中,你需要做哪些工作?
机器学习是通过对已有数据进行模型训练,再将训练好的模型应用于未知数据的过程。从这句话中我们可以看到几个关键要素:数据,模型,训练,应用。对于一个通常的机器学习项目,这些确实是其中最核心的环节。那么,对于其中每一个项目,我们具体要做哪些工作?这些工作之间有什么联系?在这些核心工作之外,还有哪些我们可能忽略的项目。本文我们来探讨这些问题。内容主要参考了
超哥的杂货铺
2020-02-24
5820
不再纠结,一文详解pandas中的map、apply、applymap、groupby、agg...
pandas提供了很多方便简洁的方法,用于对单列、多列数据进行批量运算或分组聚合运算,熟悉这些方法后可极大地提升数据分析的效率,也会使得你的代码更加地优雅简洁。
超哥的杂货铺
2020-02-24
4.9K0
一场pandas与SQL的巅峰大战(七)
具体来讲,第一篇文章一场pandas与SQL的巅峰大战涉及到数据查看,去重计数,条件选择,合并连接,分组排序等操作。
超哥的杂货铺
2020-02-24
1.7K0
RFM模型是什么?我用Tableau告诉你
本文来自于公众号读者投稿。作者Suke,数据爱好者,主攻方向:数据分析,数据产品化。
超哥的杂货铺
2020-02-24
3.1K0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档