专栏首页小数志推荐一个大佬开发的爬虫库,支持某宝、某乎等数十个主流平台解密登录

推荐一个大佬开发的爬虫库,支持某宝、某乎等数十个主流平台解密登录

导读

跟很多Python爱好者一样,笔者初学Python时也是从爬虫入门,并一度玩的不亦乐乎,源于其简单易上手的低门槛,也源于其所见即所得的即时获得感。与此同时,熟悉Python爬虫的也一定有过大量的反爬与反反爬的斗争经历,轻则ip封禁一段时间,重则也可能是面向JianYu编程。所以,在遭受到不断爬虫的打击以及认识到这个事情本身的严肃性之后,笔者就只是偶尔玩玩而已,不再执泥于其中了。

近日,因特殊需要,在试图再次攻克某宝平台的爬虫时,竟无意间发现一款国内某大佬的Python爬虫库,简单了解之下,发现竟几乎涵盖了所有主流平台的解密登录,对于爬虫新人来说体验非常友好,更重要的是发现作者还提供了详细的中英双语使用文档,真乃我辈楷模!赞叹之余,简要成文加以分享,致敬作者!

话不多说,这个爬虫库叫作DecryptLogin,其中decrypt英文原义即为解密的意思,所以该库名即为解密登录。之所以此如此命名,显然是因为熟悉爬虫的都知道,大平台网站的数据爬取难在模拟登录:如果可以顺利攻克登录环节,后续的网页获取和解析其实都是常规操作。所以,该库就是针对爬虫过程中的这一核心痛点提供了解决方案

作者目前已将该爬虫库开源至github,目前在github上收获1.6Kstar和近500fork,并保持持续更新维护。同时,为了照顾python使用者的习惯,作者也将该库上传到了pypi,所以可直接通过pip install完成一键安装,当然期间会涉及到少量的第三方包依赖。如果在线安装有问题的,也支持离线安装途径,具体可参考说明文档。

pip install DecryptLogin

安装完毕之后,典型的三行代码即可完成登录和获取爬虫session变量。当前,该库考虑了扫码登录、PC端和APP端三种场景,各平台依据实际情况支持不同的登录类型。这里首先以扫码登录某宝为例:

from DecryptLogin import login
lg = login.Login()
infos_return, session = lg.taobao('', '', 'scanqr')

这里登录某宝时并未显式的提供账号名和密码,在执行如上三行命令后会自动下载并弹出登录二维码,利用手机APP扫码即可。而后程序中的session变量即可用于后续爬虫(多说一句:这里的session变量是带有登录后的cookie信息,后续可直接像requests.get一样执行session.get操作),这种体验真的很棒。

除此之外,另一种典型方式是显式提供账密即可,例如从PC端登录某乎:

from DecryptLogin import login
lg = login.Login()
infos_return, session = lg.zhihu(username, password, 'pc')

最后,给出该库支持的所有平台及登录方式一览图:

注:本文无任何推介成分,纯粹是出于向该爬虫库原作者致敬。如果对该库感兴趣,可以库名作为关键词搜索自行了解探索,本文就不提供相关链接了。

本文分享自微信公众号 - 小数志(Datazhi),作者:luanhz

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2021-05-21

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 史上最恐怖爬虫来袭,可爬支付宝、微信、金融放贷信息!

    01爬虫凶猛 “同业爬虫?!” 第一次听到这个词,王浩一脸懵逼。 两个月前,王浩的公司转型现金贷,他在市面上四处寻找风控系统和数据源,此时,摩羯科技的商务人员,...

    BestSDK
  • 这可能是你见过的最全的网络爬虫干货总结!

    昨天的时候我参加了掘金组织的一场 Python 网络爬虫主题的分享活动,主要以直播的形式分享了我从事网络爬虫相关研究以来的一些经验总结,整个直播从昨天下午 1 ...

    崔庆才
  • 浅谈网路爬虫

    爬虫,又称为网页蜘蛛(spider),就是能够在互联网中检索自己需要的信息的程序或脚本。

    bigsai
  • 你的爬虫会送你进监狱吗?

    随着大数据的火热,数据相关行业竞争不仅“蒸蒸日上”,爬虫之间的战争也越发地激烈。一篇《你的爬虫会送老板进监狱吗?》在程序猿圈子里被大量转载,甚至有的程序员因为非...

    咸鱼学Python
  • 「Python爬虫系列讲解」十一、基于登录分析的 Selenium 微博爬虫

    前文回顾: 「Python爬虫系列讲解」一、网络数据爬取概述 「Python爬虫系列讲解」二、Python知识初学 「Python爬虫系列讲解」三、正则表达式...

    荣仔_最靓的仔
  • 重磅干货!你的爬虫会送你进监狱吗?

    小詹说:爬虫是个有意思的事情,但是与之相伴的是许多人好奇的一件事——爬虫是否违法?这里分享好朋友「咸鱼学Python」的一篇分析文章,能够解答这个问题!

    小小詹同学
  • python爬虫-selenium破解封IP+TensorFlow机器人AI技术破解网页加密

    python爬虫-selenium破解封IP+pytesseract破解验证码+AI破解网页加密

    孔雀
  • 优秀的深度学习从业者都有哪些优秀的习惯

    这是一篇总结文,说说优秀的深度学习从业者拥有的一些习惯,从看论文到写代码,从刷论坛到刷比赛。

    石晓文
  • 学习python爬虫的平凡之路

    luanhz
  • 说说最近遇到的反爬

    参数加密指的是在请求中需要加上类似token、uuid 字段,例如在某个请求中query string parameters中有_token和uuid、cust...

    小歪
  • 安全报告 | 从恶意流量看2018十大互联网安全趋势

     导语: 「天下熙熙,皆为利来;天下攘攘,皆为利往。」太史公一语道尽众生之奔忙。在虚拟的世界,同样有着海量的「众生」,它们默默无闻,它们不知疲倦,它们无穷无尽...

    云鼎实验室
  • 成千上万个站点,日数据过亿的大规模爬虫是怎么实现的?

    1.网页文本智能提取;2.分布式爬虫;3.爬虫 DATA/URL 去重;4.爬虫部署;5.分布式爬虫调度;6.自动化渲染技术;7.消息队列在爬虫领域的应用;8....

    青南
  • 就想写个爬虫,我到底要学多少东西啊?

    但要学习好爬虫并没有那么简单。首先知识点和方向实在是太多了,它关系到了计算机网络、编程基础、前端开发、后端开发、App 开发与逆向、网络安全、数据库、运维、机器...

    磐创AI
  • 33款你可能不知道的开源爬虫软件工具

    爬虫,即网络爬虫,是一种自动获取网页内容的程序。是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上就是针对爬虫而做出的优化。

    Python数据科学
  • 【重磅】33款可用来抓数据的开源爬虫软件工具

    要玩大数据,没有数据怎么玩?这里推荐一些33款开源爬虫软件给大家。 爬虫,即网络爬虫,是一种自动获取网页内容的程序。是搜索引擎的重要组成部分,因此搜索引擎优化很...

    小莹莹
  • 【推荐收藏】33款可用来抓数据的开源爬虫软件工具

    要玩大数据,没有数据怎么玩?这里推荐一些33款开源爬虫软件给大家。 爬虫,即网络爬虫,是一种自动获取网页内容的程序。是搜索引擎的重要组成部分,因此搜索引擎优化很...

    钱塘数据
  • Python爬虫学习路线

    1.刚上手的时候肯定是先过一遍Python最基本的知识,比如说:变量、数据结构、语法等,基础过的很快,基本上1~2周时间就能过完了,我当时是在这儿看的基础:Py...

    py3study
  • Linux后台开发必看(给进军bat的你)

    我是程序员小贱
  • Huginn 网友问答汇总

    huginn 中文网

扫码关注云+社区

领取腾讯云代金券