前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Python map, apply, transform 打标签方法汇总(初阶到高阶)

Python map, apply, transform 打标签方法汇总(初阶到高阶)

作者头像
萝 卜
发布2022-05-12 19:55:29
3420
发布2022-05-12 19:55:29
举报
文章被收录于专栏:Python 商业数据分析案例

前言

根据数据的某列进行打标签这个操作在数据分析领域极度常用,对于一些较为复杂的打标签方法,Python 与 SQL 都能很好的实现,这篇针对 Python,主要用到 map,apply 与 transform 等函数,从初阶到高阶,体会方法的异同优劣。

实现效果

针对北京某地区房价数据进行数据分析过程中的打标签操作,增加可读性的同时也可以根据源数据集来增加一些本来没有的变量,并对并生成可能会对模型精度有提升效果的布尔变量。

源数据(一小部分)

需求:

  • 将地区列 dist 的拼音全部转换成对应的中文
  • 生成一列每个地区各自的房价平均值,并与源数据的房价对比,看该地区的某一房价是在平均值之上还是平均值之下。

map 字典映射法,看图即可理解用法,dist 列的拼音全部变成了对应的中文。

apply 法

刚刚的 map 针对的是 “静态数据”,即为名义变量,“动态数据” 如 roomnum 房间数量列则为数值变量,既然是数值变量,那数目肯定非常多,像 AREA 面积列,分类后的唯一固定值太多了,不像地区那样就那么六个,这时候就可以祭出 apply 了。同样,作为必会且极度出名的 apply,使用方法也无须多言,直接上效果图。

需求:给房间数目 roomnum 分层

  • 1 ~ 2 个:少(0)
  • 3 个或以上:多(1)

重点来了!如果刚才的操作都还算简单,那根据地区划分的平均房价变量呢,即每个地区某一房价与其所在地区的平均房价相比,听起来有点拗口。下面拆解流程

先探索性数据分析查看一下各地区的平均房价分布情况

分组求每个地区的房价平均值,并转化成字典

还有没有更能体现实力的方法呢?—— transform

transform 作用机理

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-07-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据分析与商业实践 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 前言
  • 实现效果
    • 重点来了!如果刚才的操作都还算简单,那根据地区划分的平均房价变量呢,即每个地区某一房价与其所在地区的平均房价相比,听起来有点拗口。下面拆解流程
    领券
    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档