论述:
对于我们学习Python的人来说,想要获取到一些自己想要的信息,并没有什么难度。
比如说:哪位老师、同学的电话号码,同学们的考试结果(分数)等联系方式。我们获取到的这些信息,自己知道就算了,千万不能进行曝光,或者用来盈利。甚至有些Pythoner的做法像黑客一样的行为,让人很不齿,爬取考试答案进行曝光盈利这种类似的。
然而,让那些Python爬虫学习者,可以肆无忌惮的获取信息的根本原因是什么呢?
我认为,有两种原因。
由于网站的后台密码与网站反爬措施非常弱,造就了如下两个原因:
程序员开发技术不过关
程序员有技术却很懒
总之我是觉得问题出在开发人员手里,别总出了信息泄露等问题你就怪作恶的人。你大门敞开,叫别人如何不作恶?
如果你学过其它的编程语言的话,Python爬虫本身就比较容易上手。在这里提醒大家,如果要学Python,首选爬虫。它会给你带来成功的喜悦,而且非常有趣,当你成功时造就了你的自信心,学习起来就非常轻松愉快了!喜欢Python的,请关注小编。
分析,网页构造,密码规则
首先这个规则是针对大二和已经毕业了的
密码规则没有添加验证码(其实添加验证码也没什么用,只是添加了爬取门槛)
规则是用户名==密码
符合条件
这里的用户信息
不要在意这些细节(马赛克)朦胧美一直是我的追求
肯定是登陆了以后才可以访问我们的信息==》模拟登陆
但我们用脚本访问下一个页面,需要一个cookie信息,就好比,当你打开QQ空间,其实是向腾讯那里提交了自己的信息,而我们的信息就存在cookie中
python 中cookie维持会话访问:
模拟登陆
具体网站不分享,避免带来不必要的麻烦
学生学号:
用beautifulsoup库获取学生信息
写入xls(这个是思路)测试用的函数
因为在写的时候因为编码问题,不能写入中文
开始行动:
添加上延迟访问:time.sleep(1)
因为爬虫访问的不和人一样,访问会很快,这样可以避免被封IP还能避免给网站带来不好的影响。
部分截图:有图有真相,避免无知的喷子
学号规则很好找的,这样就能获取半个学校的call和QQ啦,至于能干嘛,自己脑补。
领取 专属20元代金券
Get大咖技术交流圈