前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Python新手都可以做的爬虫,抓取网上 OJ 题库信息

Python新手都可以做的爬虫,抓取网上 OJ 题库信息

作者头像
云飞
发布2018-09-26 16:04:29
2.8K0
发布2018-09-26 16:04:29
举报
文章被收录于专栏:云飞学编程云飞学编程

最近有朋友在做OJ题库,顺手做个小爬虫,导出一份题库列表来看看!

目标:浙江大学题库

工具:python3.6,requests库、lxml库、pycharm

思路:先找到网页中题库所在的位置

然后我们点击第一页和后面几页,看看url的变化

发现规律了吗?就是Number后面的页数变了,其他的都没变,这样就很方便构建循环了,在来看看源码中题目的title和Id以及url的位置

是不是很明显,在a标签的属性中有具体的URL,包括ID也在URL中出现,而title在font标签中出现了,这样就很简单了,我们直接用xpath抓取td标签,然后匹配出url和title,并且切割url把id也写出来(这里偷懒就不去上面的td中单独抓取ID了),然后写到字典中吧,这样方便查看,代码如下:

20多行代码全部搞定,运行结果如下:

不到10秒全部抓到本地了,当然这里注意不要重复运行,很可能会被封IP的哦!

将txt文档中的内容复制到在线解析json的网页中,看看结果

完美呈现~!当然了,大家有兴趣可以去题目的url中将题目也抓出来,这个可以做为下一步改进的地方!

非常简单的一个小爬虫,python在做这方面的工作还是很给力的,欢迎大家来和我一起学习python!

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-04-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 云飞学python 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档