非常适合新手的一个Python爬虫项目:打造一个英文词汇量测试脚本

最近朋友在苦学英文,但是又不知道自己学的怎么样了,直到有一天,他找到了扇贝网,里面有个“评估你的单词量”功能非常的好,就推荐给我了!

今天我们就用python做一个小的爬虫,然后自己写一个脚本来实现这个功能吧!

目标:打造一个英文词汇量测试脚本

url:扇贝网

工具:python3.6、pycharm、requests库

思路:

和网页一样,总共分三步:

先来看看网页中数据,用F12开发者工具抓包就可以

为了更好的演示,这里网页缩小了。

点击开始,在来看看出现了什么

这里我们抓到了一个包,这个json数据中包含了所有的类别或者说是级别,一共十大类,我们点击”响应”验证下

可以看到,显示内容在我们抓到的json数据中,但是0和1中的内容有的一样,有的不一样是什么鬼?不要急,我们先选择‘高考’,在抓下包看看

选择高考后,网页直接给出了第二步,50个单词选择,注意,先看下抓到的json数据的真实地址

还记得我们在第一步抓到的包吗?0里面就是这个真实地址最后的category的值,1里面是对应的显示在网页中的内容,好了,第二步的真实url也被我们找到规律了,那下来就是分析单词了,看看有什么规律,我们点开一个看看

有几个值非常重要,也是我们的目标:

Content的值是显示的单词

Definition_choices是需要我们判断的多个词义,中间包含有正确的词义,每个词义中的rank值应该是该词义的标识

rank值是正确的词义,也由此判断上述多个词义中的正确词义

ok,到这里我们就可以开始写代码了,具体过程就不一一说明了,没有反爬,全部是json数据的读取和判断,先放上我的代码和运行效果

请大家忽略我那渣渣的英语水平和排版吧

视频内容

由于这个网站非常简单,仅仅抓包就可以得到所有数据,没有任何反爬,所以,也是我们新手练手的好地方,大家都可以试试,如果有作出更漂亮的脚本,欢迎大家在评论区一起分享!

原文发布于微信公众号 - 云飞学python(P542110741)

原文发表时间:2018-03-31

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏小詹同学

知乎大神爬取高颜值美女(Python爬虫+人脸检测+颜值检测)

这是一篇来自知乎大神的技术文章 ---- 写在前面: 本文作者:邓卓 原文链接:本文转发修改已取得原作者授权 https://zhuanlan.zhihu.c...

92870
来自专栏机器之心

业界 | 谷歌发布机器学习工具库Kubeflow:可提供最佳OSS解决方案

选自GitHub 机器之心编译 Kubeflow 是谷歌发布的一个机器学习工具库,致力于使运行在 Kubernetes 上的机器学习变的更轻松、便捷和可扩展;K...

29540
来自专栏AI研习社

百度开源移动端深度学习框架 MDL,可在苹果安卓系统自由切换

AI研习社消息,日前,百度在 GitHub 上开源了移动端深度学习框架 mobile-deep-learning(MDL)的全部代码以及脚本,这项研究旨在让卷积...

35060
来自专栏PHP实战技术

手把手教你玩转12306验证码的秘密!

12306相信对很多小伙伴都不陌生,假如问你对这个网站的印象的时候,你不是会立即想起那个坑爹的验证码,而正是这个验证码,也一时间成为小伙伴们讨论的话题,今天思梦...

29380
来自专栏FreeBuf

使用Python和Tesseract来识别图形验证码

各位在企业中做Web漏洞扫描或者渗透测试的朋友,可能会经常遇到需要对图形验证码进行程序识别的需求。很多时候验证码明明很简单(对于非互联网企业,或者企业内网中的应...

82050
来自专栏数据小魔方

细分饼图

今天跟大家分享的是一种叫做细分饼图的图表制作技巧! 它所用到的技巧很简单,表达的数据也不很复杂,就是三层数据结构,每一层都是上一层的细分数据。 首先我们还是来看...

36950
来自专栏知晓程序

晓快讯 | 微信公众号可以改错错错错错字了!

2 月 8 日凌晨,微信公众平台发布公告,称「为了给运营者、读者提供更友好的编辑、阅读体验,公众平台新增修改文章错别字功能」,支持运营者对已群发文章进行小范围修...

14430
来自专栏AI研习社

Github 项目推荐 | SpaceX Falcon 9 Box2D 回收降落动作模拟器

这是一款 SpaceX Falcon 9 第一级火箭的垂直火箭着陆模拟器,该模拟器用 Python 3.5 开发并且在 OpenAI Gym 环境中编写。该模拟...

15620
来自专栏Java与Android技术栈

将验证码识别功能集成到现有的爬虫框架

过年期间我曾经写过一篇文章《一次简单的验证码识别以及思考》, 目前已经对该功能做了一些优化,可以支持几种类型的验证码识别。其核心思想仍然是上一篇文章所提到的,使...

12420
来自专栏FreeBuf

大话蜜罐日志分析

*本文原创作者:Leon不会玩QEMU,属Freebuf原创奖励计划,未经许可禁止转载 0×00 前言 在部署蜜罐之后,会产生大量的日志,对于威胁情报而言,我们...

43190

扫码关注云+社区

领取腾讯云代金券