今天在外面忙了一天,又是offer又是过生日吃饭之类的,虽然没时间整理了,但是也要给大家分享点干货。
下面是下载网易考拉全部商品品牌数据的代码,大家试着学习一下,刚入门的小伙伴有什么问题可以在群里问,我有时间都会解答的。
简单说一下思路,首先我们要有数据源,比如这些:
我发现公众号直接贴代码效果并不是很好,所以就截图吧。
然后对每个分类里面的全部品牌进行详细的抓取,不啰嗦了,直接看代码:
这些会把品牌数据都保存下来,后面我们可以对接pipeline写入到数据库。
pipeline可以这样写,还做了去重:
最终数据呢,大概是这个样子滴~
拿下数据我们就可以做简单的分析比如聚类等操作啦。本文代码基于scrapy。源码可以加入星球向星主获取。
领取专属 10元无门槛券
私享最新 技术干货