前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >某吧爬虫 第一步

某吧爬虫 第一步

作者头像
偶尔敲代码
发布2023-04-28 10:15:42
5710
发布2023-04-28 10:15:42
举报
文章被收录于专栏:偶尔敲代码

爬虫很多,可以试着自己整一个。

三言两语,走出第一步。


首先浏览器打开某吧登录页面

http://www.******.com/member.php?mod=logging&action=login

按下F12,F5刷新页面,抓取到这条链接:“http://www.*******.com/member.php?mod=logging&action=login&loginsubmit=yes&loginhash=*****&inajax=1”,如图

链接中loginhash是变化的,提交的表单formhash是变化的,referer、loginfield是固定的,username、questionid(序号,自己抓取几次就知道)和answer是个人信息,而password为加密的,但一眼看穿是md5加密。

也就是说除了formhash和loginhash会变化外,其余参数要么是固定的,要么是自己的信息,很好理解。

那么formhash和loginhash怎么来的呢?

点击上面抓取到的链接,点击“响应”,按Ctrl+F,分别搜索formhash和loginhash即可,如下图:

找到各个参数来源后,进行正则或截取文本,可以组合出登录的最终url:

代码语言:javascript
复制
http://www.******.com/member.php?mod=logging&action=login&loginsubmit=yes&loginhash=” + loginhash + “&inajax=1

再组合提交信息(body),提交请求即可。通过关键字“欢迎您回来”判断成功与否。

代码语言:javascript
复制
body = “formhash=” + formhash + “&referer=http%3A%2F%2Fwww.*****.com%2Fzuixin.php&loginfield=username&username=” + 用户名 + “&password=” + 校验_取md5_文本 (密码, , , ) + “&questionid=” + 密保问题id + “&answer=” + 密保答案

主要代码如下,过程中把cookies保存下来连同协议头一并提交:

代码语言:javascript
复制
url = “http://www.******.com/member.php?mod=logging&action=login&referer=http%3A%2F%2Fwww.zuanke8.com%2Fzuixin.php”
response = 到文本 (网页_访问 (url, 0, , , c, , , , , , , , ))
loginhash = 文本_取出中间文本 (response, “loginhash=”, #引号 + “>”, , )
formhash = 文本_取出中间文本 (response, #常量1, #引号, , )
url = “http://www.******.com/member.php?mod=logging&action=login&loginsubmit=yes&loginhash=” + loginhash + “&inajax=1”
body = “formhash=” + formhash + “&referer=http%3A%2F%2Fwww.*****.com%2Fzuixin.php&loginfield=username&username=” + 用户名 + “&password=” + 校验_取md5_文本 (密码, , , ) + “&questionid=” + 密保问题id + “&answer=” + 密保答案
response = 到文本 (网页_访问 (url, 1, body, c, cookies, #登陆协议, , , , , , , ))  ' 登陆
.如果 (寻找文本 (response, “欢迎您回来”, , 假) ≠ -1)
     调试输出(“登陆成功” )

注:

请勿频繁对别人服务器发送网络请求,仅供学习,后果自负!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-11-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 偶尔敲代码 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档