首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

码以致用03-用Pandas 分析爬虫抓取的数据

上一篇,我们用Scrapy 从简单心理网站上抓取了心理咨询师的信息。

接下来试着分析一下咨询师的价格。

如何去掉某一列中不需要的字符?

在 列中,数据格式是 。很明显,中文字符会给统计价格带来不便,需要想办法去掉。

取 列:

去掉 字符:

把剩下字符转换成数字:

Pandas 语句可以这样写:

结果:

如何统计价格?

用 Pandas 做基本的数据统计如均值、最大值、最小值等,非常方便,分别用 , ,就可以:

平均价格:570.9元

最高价格:3000元

最低价格:100元

另外,Pandas 还提供了 函数,快速给出概要统计值:

然后单独取出收费最高和最低的咨询师资料:

如何统计咨询师介绍里的词频?

方法 1 :用 jieba 分词,用 Counter 统计

列出前 30 个高频词:

方法 2 :用 wordcloud 直接制作标签云

word cloud 是一个 python 的标签云生成库,可以直接输入文本,得到标签云图片,还可以定制图片形状和颜色,小巧好用。(https://github.com/amueller/word_cloud)

结合 matplotlib,很快就可以画出高频词的标签云:

结果如下:

完整的 Jupyter Notebook,请查看 00 的 Github:

https://github.com/kidult00/scrapy-jdxl/blob/master/jdxl/output/jdxl_experts_analysis.ipynb

Ref

PANDAS 数据合并与重塑(concat篇) - http://blog.csdn.net/weixin_37226516/article/details/64134643

初学pandas(八)条件选取行的便捷 - http://blog.csdn.net/u010770993/article/details/70312506

pandas数据清洗,排序,索引设置,数据选取 - http://blog.csdn.net/zhili8866/article/details/68134481

word_cloud: A little word cloud generator in Python - https://github.com/amueller/word_cloud

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180118G0JMT600?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券