苏生不惑第
195
篇原创文章,将本公众号设为星标
,第一时间看最新文章。
之前分享过不会 Python 没关系,手把手教你用 web scraper 抓取豆瓣电影 top 250 和 b 站排行榜 ,后来我又玩了下,这个插件还挺有意思的,所以通过抓取知乎和豆瓣再总结分享下。
知乎热榜地址 https://www.zhihu.com/hot (其实知乎还有个单独的热榜页面https://www.zhihu.com/billboard ),这里新增一个type Element attribute
,因为之前抓取豆瓣链接用的 link,它把文字也抓取了,而我们只要里面的href属性。
同样的先创建一个element的容器。
里面加4个选择器:知乎排名 ,知乎标题, 知乎链接 ,知乎热度 。
预览下数据没问题。
开始抓取数据并导出CSV文件。
不过生成的CSV文件排序乱了 。
在排序和筛选里按照排名重新排下就好了(如果需要更复杂的排序可以借助Python的pandas),看最后的结果。
不过有个问题,热榜里的广告没有热度,所以结果为null。
为了方便大家学习抓取,我导出了sitemap,你可以直接导入使用。