前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Python:黑板课爬虫闯关第五关

Python:黑板课爬虫闯关第五关

作者头像
丹枫无迹
发布2019-01-22 15:59:21
4270
发布2019-01-22 15:59:21
举报
文章被收录于专栏:学无止境

第五关是最后一关了,至此之后黑板课就没有更新过关卡了。

第五关地址:http://www.heibanke.com/lesson/crawler_ex04/

可以看到,是在第三关的基础上加了验证码。

验证码识别我们可以通过 tesserocr 来识别,tesserocr 的使用在我的前面两篇博客中有介绍。

在这里,tesserocr 的识别率不是很高,大概只有10%到15%,通过训练,也没能有啥改善,不知道是不是我弄错了,有尝试过的朋友可以给我留言。

代码如下:

代码语言:javascript
复制
import re
import requests
import time
from PIL import Image
from bs4 import BeautifulSoup
import tesserocr


def main():
    url_login = 'http://www.heibanke.com/accounts/login/'
    url = 'http://www.heibanke.com/lesson/crawler_ex04/'
    session = requests.Session()
    session.get(url_login)
    token = session.cookies['csrftoken']
    session.post(url_login, data={'csrfmiddlewaretoken': token, 'username': 'xx', 'password': 'xx'})
    psd = 0
    while psd < 30:
        print(f'test password {psd}')
        r = session.get(url)
        soup = BeautifulSoup(r.text, 'lxml')
        img_tag = soup.find('img')
        img_url = 'http://www.heibanke.com' + img_tag['src']
        requests.get(url)
        code = get_code(img_url)
        if code is None:
            time.sleep(1)
            continue
        token = session.cookies['csrftoken']
        r = session.post(url, data={'csrfmiddlewaretoken': token, 'username': 'aa', 'password': psd,
                                    'captcha_0': code[0], 'captcha_1': code[1]})
        html = r.text
        if '验证码输入错误' in html:
            time.sleep(1)
        elif '密码错误' not in html:
            m = re.search('(?<=\<h3\>).*?(?=\</h3\>)', html)
            print(m.group())
            return
        else:
            time.sleep(1)
            psd += 1


def get_code(url):
    flag = url.split("/")[-2]
    fn = flag + '.png'
    with open(fn, 'wb+') as sw:
        sw.write(requests.get(url).content)

    img = Image.open(fn)
    img = img.convert('L')
    result = tesserocr.image_to_text(img).strip()
    print(flag, result)
    if re.match('^[A-Za-z0-9]{4}$', result):
        return flag, result


if __name__ == '__main__':
    main()
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2018-11-05 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
验证码
腾讯云新一代行为验证码(Captcha),基于十道安全栅栏, 为网页、App、小程序开发者打造立体、全面的人机验证。最大程度保护注册登录、活动秒杀、点赞发帖、数据保护等各大场景下业务安全的同时,提供更精细化的用户体验。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档