专栏首页数据森麟爬过这些网站才算会爬虫

爬过这些网站才算会爬虫

作者 | 苏克1900 来源 | 高级农民工

摘要:微信、知乎、新浪等主流网站的模拟登陆爬取方法。

网络上有形形色色的网站,不同类型的网站爬虫策略不同,难易程度也不一样。从是否需要登陆这方面来说,一些简单网站不需要登陆就可以爬,比如之前爬过的猫眼电影、东方财富网等。有一些网站需要先登陆才能爬,比如知乎、微信等。这类网站在模拟登陆时需要处理验证码、js 加密参数这些问题,爬取难度会大很多。费很大力气登陆进去后才能爬取想要的内容,很花时间。

是不是一定要自己动手去实现每一个网站的模拟登陆方法呢,从效率上来讲,其实大可不必,已经有前人替我们造好轮子了。

最近发现一个神库,汇总了数十个主流网站的模拟登陆方法:

  • 知乎
  • 微信网页版登录并获取好友列表
  • Bilibili
  • Facebook
  • 无需身份验证即可抓取Twitter前端API
  • 微博网页版
  • QQZone
  • CSDN
  • 淘宝
  • Baidu
  • 果壳
  • JingDong 模拟登录
  • 163mail
  • 拉钩
  • 豆瓣
  • Baidu2
  • 猎聘网
  • Github
  • 爬取图虫相应的图片
  • 网易云音乐
  • 糗事百科

这些网站基本采用的是直接登录或者 selenium+webdriver 方式。每一个网站都有完整的模拟登陆代码,拿来就可以用到自己的爬虫中。

下面我们来测试一下。

先说说很难爬的「知乎」,假如我们想爬取知乎主页的 HTML 内容,就必须要先登陆才能爬,不然看不到这个界面。下面来简单梳理一下流程。

知乎需要手机号才能注册登陆。为了方便测试,可以随便找个手机号,手机号到哪儿去找呢,我上周写的那篇文章就发挥作用了。文章里介绍了一个免费电话号码网站,用上面的手机号可以成功注册。

文章传送门:两个神网站保护你的隐私

顺利登录后就可以进入主页了。

下面,我们用这个库提供的代码来模拟登陆,输出主页 HTML 内容作测试。操作很简单,只需要输入手机号、密码和验证码就可以了。

成功登陆后,接下来就可以做一些有意思的事了。比如曾有人爬取所有知乎账号的信息,分析了知乎用户群体画像。

是不是有点意思。

再来看看微信。用上面的微信代码可以把全部微信好友信息爬取下来,比如:昵称、性别、地域、个性签名。接着可以分析一下你的朋友圈是什么样的,应该会很有趣。

还可以爬 B 站:

还可以爬链家租房信息:

还有很多实用有趣的内容,就不一一罗列了,感兴趣的话可以试试,最后放上大神的 GitHub 库地址:

https://github.com/CriseLYJ/awesome-python-login-model

不要闷头造轮子,多抬抬头会发现你在做/想做的东西,别人早已经弄好了,拿来用或者参考学习都是件好事。

本文完。

本文分享自微信公众号 - 数据森麟(shujusenlin)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-03-26

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 谁是存在感最低的省会城市?

    省会,曾几何时,被认为是地位仅次于首都、直辖市的城中之贵族,手握主政一方之大权,是历史上城市打破头拼抢的头衔。

    数据森麟
  • 市值蒸发300亿,娱乐行业如何渡劫?

    2003年2月18日晚,正月十八,广州天河体育场,近2万人齐聚在罗大佑2003演唱会现场。

    数据森麟
  • 增长黑客AB-Test系统(五)——AB-Test 双样本显著性计算

    如下图所示,样本显著性的计算是在试验结尾部分的重要步骤,决定了试验是否有效:

    数据森麟
  • 爬过这些网站才算会爬虫

    网络上有形形色色的网站,不同类型的网站爬虫策略不同,难易程度也不一样。从是否需要登陆这方面来说,一些简单网站不需要登陆就可以爬,比如之前爬过的猫眼电影、东方财富...

    崔庆才
  • 爬过这些网站才算会爬虫

    网络上有形形色色的网站,不同类型的网站爬虫策略不同,难易程度也不一样。从是否需要登陆这方面来说,一些简单网站不需要登陆就可以爬,比如之前爬过的猫眼电影、东方财富...

    猴哥yuri
  • 没有爬过这些网站别说你会爬虫!

    网络上有形形色色的网站,不同类型的网站爬虫策略不同,难易程度也不一样。从是否需要登陆这方面来说,一些简单网站不需要登陆就可以爬,比如之前爬过的猫眼电影、东方财富...

    叫我龙总
  • 学界 | 这2亿人民币或将奠定中国机器人理论基础

    2018 年 4 月 26-27 日,首届国家自然科学基金重大研究计划「共融机器人基础理论与关键技术研究」学术交流会在中国北方车辆研究所举行,有 200 多名国...

    AI科技评论
  • 芯片设计的职业病

    前些天看到一篇文章,讲低容错率的职业对一个人性格的影响。文中拿常见的路怒症举例,把从事低容错率工作的人形容为经常在拥堵路段中开车的驾驶员,长期下来,容易形成敏感...

    icsoc
  • 网站管理员控制台用途

    全球四大搜索引擎(GOOGLE,BAIDU,BING,YANDEX)提供一款面向网站管理员的免费工具。网站管理员可以通过该工具了解自己网站的收录情况,优化其网站...

    林雍岷
  • 外链建设:牢记七点注意事项

    我们继续学习外链基本背景知识,外链对于SEO来说非常重要,经过多个小企业网站SEO实战,才能充分理解链接精髓。外链帮助网站一遍又一遍地获得搜索引擎流量,我看到一...

    林雍岷

扫码关注云+社区

领取腾讯云代金券