首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >爬完数据只会做词云?练习 Pandas 各种操作不香吗!

爬完数据只会做词云?练习 Pandas 各种操作不香吗!

作者头像
朱小五
发布2021-03-12 17:03:13
7410
发布2021-03-12 17:03:13
举报
文章被收录于专栏:凹凸玩数据凹凸玩数据

做数据分析的朋友应该知道,我们获取到的一手数据,往往是杂乱无章,不规则的。在进行数据建模和数据可视化之前,“数据处理”就显得尤为重要

Pandas作为一个优秀的数据处理库,在进行数据处理的时候,显得极为方便。在我们日常的Pandas学习中,我们针对自己爬虫得到的数据,不仅仅是做一个词云图,还可以利用它来帮我们熟练使用Pandas。

今天,咱们拿到了一份数据,我以这份数据来来着大家讲解一些常用的Pandas操作。

从上图可以看出:这份数据看起来极其乱,我们以此数据为例,利用Pandas清理出一份“好的数据”。

注意:下面我只是为大家做一个演示,文章中涉及到的详细知识,大家自行下去研究。当然,这份数据也会提供给大家。

1. 相关库的导入及数据的读取

df = pd.read_csv(r"G:\8泰迪\python_project\51_job\job_info1.csv",engine="python",header=None)
# 为数据框指定行索引
df.index = range(len(df))
# 为数据框指定列索引
df.columns = ["岗位名","公司名","工作地点","工资","发布日期","经验与学历","公司类型","公司规模","行业","工作描述"]

解释:这里是一份csv数据,我们需要使用pandas中的read_csv()函数读取函数,里面的engine和header参数需要了解一下。同时,这份数据没有列标题,我们还为这列数据设置了列字段。

2. 数据去重

# 去重之前的记录数
print("去重之前的记录数",df.shape)
# 记录去重
df.drop_duplicates(subset=["公司名","岗位名"],inplace=True)
# 去重之后的记录数
print("去重之后的记录数",df.shape)

解释:“去重”需要依据我们的业务需求,什么样的数据才算重复呢?在这里,我们认为:公司的公司名和和发布的岗位名一致,就看作是重复值。因此,使用drop_duplicates()函数,基于“岗位名”和“公司名”做一个重复值的剔除。当然,需要注意对函数中subset和inplace参数的理解。

3. 岗位名字段的处理

① 岗位名字段的探索
df["岗位名"].value_counts()
df["岗位名"] = df["岗位名"].apply(lambda x:x.lower())

解释:首先利用value_counts()函数对每个岗位出现的频次做一个统计。“岗位名字段”太杂乱,不便于我们做统计分析。接着,我们使用aaply()函数配合lower()函数,将岗位名中的大写英文字母统一转换为小写字母,也就是说“AI”和“Ai”属于同一个东西。

② 构造想要分析的目标岗位,做一个数据筛选
job_info.shape
target_job = ['算法', '开发', '分析', '工程师', '数据', '运营', '运维']
index = [df["岗位名"].str.count(i) for i in target_job]
index = np.array(index).sum(axis=0) > 0
job_info = df[index]
job_info.shape

解释:首先我们构造了如上七个目标岗位的关键字眼。然后利用count()函数统计每一条记录中,是否包含这七个关键字眼,如果包含就保留这个字段,不过不包含就删除这个字段。最后查看筛选之后还剩余多少条记录。

③ 目标岗位标准化处理(由于目标岗位太杂乱,我们需要统一一下)
job_list = ['数据分析', "数据统计","数据专员",'数据挖掘', '算法', 
            '大数据','开发工程师', '运营', '软件工程', '前端开发',
            '深度学习', 'ai', '数据库', '数据库', '数据产品',
            '客服', 'java', '.net', 'andrio', '人工智能', 'c++',
            '数据管理',"测试","运维"]
job_list = np.array(job_list)
def rename(x=None,job_list=job_list):
    index = [i in x for i in job_list]
    if sum(index) > 0:
        return job_list[index][0]
    else:
        return x
job_info["岗位名"] = job_info["岗位名"].apply(rename)
job_info["岗位名"].value_counts()
# 数据统计、数据专员、数据分析统一归为数据分析
job_info["岗位名"] = job_info["岗位名"].apply(lambda x:re.sub("数据专员","数据分析",x))
job_info["岗位名"] = job_info["岗位名"].apply(lambda x:re.sub("数据统计","数据分析",x))

解释:首先我们定义了一个想要替换的目标岗位job_list,将其转换为ndarray数组。然后定义一个函数,如果某条记录包含job_list数组中的某个关键词,那么就将该条记录替换为这个关键词,如果某条记录包含job_list数组中的多个关键词,我们只取第一个关键词替换该条记录。接着使用value_counts()函数统计一下替换后的各岗位的频次。最后,我们将“数据专员”、“数据统计”统一归为“数据分析”。

4. 工资水平字段的处理

工资水平字段的数据类似于“20-30万/年”、“2.5-3万/月”和“3.5-4.5千/月”这样的格式。我们需要做一个统一的变化,将数据格式转换为“元/月”,然后取出这两个数字,求一个平均值。

job_info["工资"].str[-1].value_counts()
job_info["工资"].str[-3].value_counts()

index1 = job_info["工资"].str[-1].isin(["年","月"])
index2 = job_info["工资"].str[-3].isin(["万","千"])
job_info = job_info[index1 & index2]

def get_money_max_min(x):
    try:
        if x[-3] == "万":
            z = [float(i)*10000 for i in re.findall("[0-9]+\.?[0-9]*",x)]
        elif x[-3] == "千":
            z = [float(i) * 1000 for i in re.findall("[0-9]+\.?[0-9]*", x)]
        if x[-1] == "年":
            z = [i/12 for i in z]
        return z
    except:
        return x

salary = job_info["工资"].apply(get_money_max_min)
job_info["最低工资"] = salary.str[0]
job_info["最高工资"] = salary.str[1]
job_info["工资水平"] = job_info[["最低工资","最高工资"]].mean(axis=1)

解释:首先我们做了一个数据筛选,针对于每一条记录,如果最后一个字在“年”和“月”中,同时第三个字在“万”和“千”中,那么就保留这条记录,否则就删除。接着定义了一个函数,将格式统一转换为“元/月”。最后将最低工资和最高工资求平均值,得到最终的“工资水平”字段。

5. 工作地点字段的处理

由于整个数据是关于全国的数据,涉及到的城市也是特别多。我们需要自定义一个常用的目标工作地点字段,对数据做一个统一处理。

#job_info["工作地点"].value_counts()
address_list = ['北京', '上海', '广州', '深圳', '杭州', '苏州', '长沙',
                '武汉', '天津', '成都', '西安', '东莞', '合肥', '佛山',
                '宁波', '南京', '重庆', '长春', '郑州', '常州', '福州',
                '沈阳', '济南', '宁波', '厦门', '贵州', '珠海', '青岛',
                '中山', '大连','昆山',"惠州","哈尔滨","昆明","南昌","无锡"]
address_list = np.array(address_list)

def rename(x=None,address_list=address_list):
    index = [i in x for i in address_list]
    if sum(index) > 0:
        return address_list[index][0]
    else:
        return x
job_info["工作地点"] = job_info["工作地点"].apply(rename)

解释:首先我们定义了一个目标工作地点列表,将其转换为ndarray数组。接着定义了一个函数,将原始工作地点记录,替换为目标工作地点中的城市。

6. 公司类型字段的处理

job_info.loc[job_info["公司类型"].apply(lambda x:len(x)<6),"公司类型"] = np.nan
job_info["公司类型"] = job_info["公司类型"].str[2:-2]

7. 行业字段的处理

每个公司的行业字段可能会有多个行业标签,但是我们默认以第一个作为该公司的行业标签。

job_info["行业"] = job_info["行业"].apply(lambda x:re.sub(",","/",x))
job_info.loc[job_info["行业"].apply(lambda x:len(x)<6),"行业"] = np.nan
job_info["行业"] = job_info["行业"].str[2:-2].str.split("/").str[0]

8. 经验与学历字段的处理

这个字段处理的不太好,大家可以自行下去研究一下。

job_info["学历"] = job_info["经验与学历"].apply(lambda x:re.findall("本科|大专|应届生|在校生|硕士",x))
def func(x):
    if len(x) == 0:
        return np.nan
    elif len(x) == 1 or len(x) == 2:
        return x[0]
    else:
        return x[2]
job_info["学历"] = job_info["学历"].apply(func)

9. 公司规模字段的处理

#job_info["公司规模"].value_counts()
def func(x):
    if x == "['少于50人']":
        return "<50"
    elif x == "['50-150人']":
        return "50-150"
    elif x == "['150-500人']":
        return '150-500'
    elif x == "['500-1000人']":
        return '500-1000'
    elif x == "['1000-5000人']":
        return '1000-5000'
    elif x == "['5000-10000人']":
        return '5000-10000'
    elif x == "['10000人以上']":
        return ">10000"
    else:
        return np.nan
job_info["公司规模"] = job_info["公司规模"].apply(func)

整个清洗的过程,涉及到pandas的很多知识,大家可以以此为基础,下去好好整理一下。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-03-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 凹凸数据 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. 相关库的导入及数据的读取
  • 2. 数据去重
  • 3. 岗位名字段的处理
  • 4. 工资水平字段的处理
  • 5. 工作地点字段的处理
  • 6. 公司类型字段的处理
  • 7. 行业字段的处理
  • 8. 经验与学历字段的处理
  • 9. 公司规模字段的处理
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档