首页
学习
活动
专区
工具
TVP
发布

小数志

专栏成员
150
文章
285316
阅读量
28
订阅数
最近大环境有些吃紧,赶紧用数据来分析一下算法岗!
作为一名新时代打工人,最近一段时间的就业大环境可真是没什么好消息可言啊,从国内到国际,从天灾到人祸,各行各业都简直是太难了。有感于此,本文从某招聘网站以“算法工程师”为关键词,爬取了一波岗位招聘数据,并简单分析了一下。
luanhz
2022-09-19
3960
且用且珍惜:Pandas中的这些函数/属性将被deprecated
Pandas对于日常数据分析和处理来说是最常用的工具(没有之一),笔者之前也总结分享了很多相关用法和技巧。与之不同,今天本文来介绍几个已经在函数文档中列入"deprecated"的函数/属性,可能在不久的未来版本中这些用法将正式与我们告别,以此权当留念。
luanhz
2022-09-19
1.5K0
Pandas vs Spark:数据读取篇
按照前文所述,本篇开始Pandas和Spark常用数据处理方法对比系列。数据处理的第一个环节当然是数据读取,所以本文就围绕两个框架常用的数据读取方法做以介绍和对比。
luanhz
2021-09-02
1.8K0
EMPS:个人做数据分析处理的4重境界
自从事数据科学行业以来,便每天在与各种数据处理打交道,当然这里的数据处理是多方面的:既有数据采集和读写,也有数据清洗与变换,当然还有数据分析和挖掘。从主用工具的角度来看,大体上经历了这4重境界:Excel->MySQL->Pandas->Spark,姑且就称之为EMPS吧。
luanhz
2021-09-02
4030
数据岗面试:常用哪些Python第三方库?
当下,数据从业者大多需要掌握Python语言,更准确的说要学会使用Python提供的一些主流第三方库。考虑眼下正值金三银四的找工作最佳时机,现将个人曾经历过的一道面试真题做以分享,具有一定的代表性。
luanhz
2021-09-02
5990
SQL、Pandas和Spark:这个库,实现了三大数据分析工具的大一统
看过近期推文的读者,想必应该知道笔者最近在开一个数据分析常用工具对比的系列,主要是围绕SQL、Pandas和Spark三大个人常用数据分析工具,目前已完成了基本简介、数据读取、选取特定列、常用数据操作以及窗口函数等5篇文章。当然,这里的Spark是基于Scala语言版本,所以这3个工具实际分别代表了SQL、Python和Scala三种编程语言,而在不同语言中自然是不便于数据统一和交互的。
luanhz
2021-04-26
1.7K0
【分享送书】畅快!5000字通俗讲透决策树基本原理
在当今这个人工智能时代,似乎人人都或多或少听过机器学习算法;而在众多机器学习算法中,决策树则无疑是最重要的经典算法之一。这里,称其最重要的经典算法是因为以此为基础,诞生了一大批集成算法,包括Random Forest、Adaboost、GBDT、xgboost,lightgbm,其中xgboost和lightgbm更是当先炙手可热的大赛算法;而又称其为之一,则是出于严谨和低调。实际上,决策树算法也是个人最喜爱的算法之一(另一个是Naive Bayes),不仅出于其算法思想直观易懂(相较于SVM而言,简直好太多),更在于其较好的效果和巧妙的设计。似乎每个算法从业人员都会开一讲决策树专题,那么今天本文也来达成这一目标。
luanhz
2021-04-12
5890
转岗大数据了,先用数据看看行情
作为一名数据从业者,当然干什么事都喜欢用数据说话。2020年上半年,在个人正式入职数据分析师前,专门从数据分析的角度探索了一把数据分析师就业现状,近日,刚好自己开启大数据岗位,所以就再分析下大数据相关岗位就业招聘现状,仅供参考。
luanhz
2021-03-04
3850
数据可视化,我习惯于用这些工具
可视化之于数据分析流程中的重要意义不言而喻,它往往是体现数据分析报告的决定性一环,图表做的好、涨薪少不了。本文针对在完成数据分析过程中,介绍个人习惯运用的那些数据可视化工具。
luanhz
2021-01-05
1.9K0
再见,Excel数据透视表;你好,pd.pivot_table
Excel作为Office常用办公软件之一,其在一名数据分析师的工作日常中也占有一定地位,比如个人就常常倾向于依赖Excel完成简单的数据处理和可视化作图,其中数据处理部分则主要是运用内置函数+数据透视表两大部分。
luanhz
2020-12-17
2.1K0
用Pandas做数据清洗,我一般都这么干……【文末送书】
作为一名数据分析师,每天都在完成各种数据分析需求,其中数据清洗是必不可少的一个步骤。一般而言,当提及数据清洗时,其实是主要包括了缺失值处理、重复值处理和异常值处理三类操作,本文即围绕这这三个方面介绍一下个人的一些习惯操作。
luanhz
2020-12-03
9320
python数据科学系列:seaborn入门详细教程
前期,分别对python数据分析三剑客进行了逐一详细入门介绍,今天推出系列第4篇教程:seaborn。这是一个基于matplotlib进行高级封装的可视化库,相比之下,绘制图表更为集成化、绘图风格具有更高的定制性。
luanhz
2020-06-28
12.9K0
Python数据分析师该如何选择IDE
python是绝大多数数据分析师的必备工具之一,而一个好的IDE对于提高代码效率来说则至关重要。今天,仅就个人使用IDE的选择和习惯做以分享。
luanhz
2020-06-11
7960
3道数据分析师面试题实录
求差集在其他SQL语句中存在关键词Except的用法,而MySQL中没有,所以需要用其他方法折中实现。但实现本身也不难。
luanhz
2020-06-09
8950
听说数据分析师挺火,我们来数据分析一下
经常看见各种数据分析师培训的运营推荐,那么数据分析师的就业行情究竟如何?让我们用数据说话,一探究竟!
luanhz
2020-04-01
5730
瓜子二手车市场分析(Scrapy+Tableau)
本文对瓜子网杭州二手车进行了爬取和简单分析,一方面是为了进一步熟练使用Python的Scrapy爬虫框架,另一方面是为了熟悉Tableau强大的数据可视化功能。
luanhz
2020-03-31
9500
设计了一个简易的Python GUI界面
设计一个支持多个招聘网站的检索,可以通过指定目标城市、检索职业和查询数量,个性化输出检索结果,尔后将结果显示在界面并保存于文档中。
luanhz
2020-03-31
2K0
图说“双一流”大学
“双一流”建设是世界一流大学和一流学科建设,是中国高等教育领域继“211工程”“985工程”之后的又一国家战略。2017年9月21日,教育部、财政部、国家发展改革委联合发布《关于公布世界一流大学和一流学科建设高校及建设学科名单的通知》,正式确认公布世界一流大学和一流学科建设高校及建设学科名单,首批双一流建设高校共计137所,其中世界一流大学建设高校42所(A类36所,B类6所),世界一流学科建设高校95所;双一流建设学科共计465个(其中自定学科44个)。
luanhz
2020-03-31
7900
链家网杭州房产销售分析
杭州,一个集历史厚重积淀与现代发展潜质于一身的城市:回望历史,是当年越王勾践屯兵抗吴的重要军事城堡,也是隋炀帝杨广兴修京杭大运河的目的地,更是宋高宗赵构在靖康之耻后辗转多地重建南宋的国都;放眼当下,作为国内新一线城市翘楚,是阿里巴巴总部所在,更常有国内各大企业分中心,16年G20峰会举办地,也是22年亚运会承办城市,坐拥西湖、湘湖和千岛湖三大风景名胜,与苏州享有“上有天堂,下有苏杭”的美誉。然而,也正是这些标签带来的网红属性,杭州的房价也是一路飙升。所以,今天就以链家网平台上的房产销售数据为样本,简单分析杭州楼市行情,以作参考。
luanhz
2020-03-31
6890
从第6次全国人口普查数据说起
全国人口分布呈现明显的东南多、西北少的特点,这跟地势走势和经济发展程度有绝对关系。人口大省排在靠前序列的依次是广东、山东、河南、四川和江苏五省,其中广东是唯一人口过亿的人口聚集地。在四个直辖市中,重庆以2884万人口位居首位,不仅人口数量多于北京、上海和天津3个直辖市,也超过了吉林、甘肃、内蒙古、新疆、海南、宁夏、青海和西藏等8个省份人口规模。
luanhz
2020-03-31
6350
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档