前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >不用写代码,Chrome 扩展神器 web scraper 抓取知乎热榜/话题/回答/专栏,豆瓣电影

不用写代码,Chrome 扩展神器 web scraper 抓取知乎热榜/话题/回答/专栏,豆瓣电影

作者头像
苏生不惑
发布2020-11-26 11:34:37
1K0
发布2020-11-26 11:34:37
举报
文章被收录于专栏:苏生不惑苏生不惑

苏生不惑第195 篇原创文章,将本公众号设为星标,第一时间看最新文章。

之前分享过不会 Python 没关系,手把手教你用 web scraper 抓取豆瓣电影 top 250 和 b 站排行榜 ,后来我又玩了下,这个插件还挺有意思的,所以通过抓取知乎和豆瓣再总结分享下。

知乎热榜

知乎热榜地址 https://www.zhihu.com/hot (其实知乎还有个单独的热榜页面https://www.zhihu.com/billboard ),这里新增一个type Element attribute ,因为之前抓取豆瓣链接用的 link,它把文字也抓取了,而我们只要里面的href属性。

同样的先创建一个element的容器。

里面加4个选择器:知乎排名 ,知乎标题, 知乎链接 ,知乎热度 。

预览下数据没问题。

开始抓取数据并导出CSV文件。

不过生成的CSV文件排序乱了 。

在排序和筛选里按照排名重新排下就好了(如果需要更复杂的排序可以借助Python的pandas),看最后的结果。

不过有个问题,热榜里的广告没有热度,所以结果为null。

为了方便大家学习抓取,我导出了sitemap,你可以直接导入使用。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-11-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 苏生不惑 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 知乎热榜
相关产品与服务
容器服务
腾讯云容器服务(Tencent Kubernetes Engine, TKE)基于原生 kubernetes 提供以容器为核心的、高度可扩展的高性能容器管理服务,覆盖 Serverless、边缘计算、分布式云等多种业务部署场景,业内首创单个集群兼容多种计算节点的容器资源管理模式。同时产品作为云原生 Finops 领先布道者,主导开源项目Crane,全面助力客户实现资源优化、成本控制。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档