首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

AI新闻爬虫:传统爬虫XHR异步加密爬虫的碰撞

36氪和虎嗅网这两个网站新闻爬虫比较具有代表性,36氪是传统的html网页爬虫,虎嗅网是异步api加载加密的爬虫,这里就从简单的36氪讲起。...在控制台通过搜索关键字,我们在xhr异步接口中发现了新闻咨询内容。...如图,新闻数据通过接口请求返回json的方式渲染的,而非36Kr返回的HTML,所以虎嗅网AI新闻咨询爬虫就是一个比较常见的XHR动态加载的爬虫。...正常情况下,是先将一行行js代码读懂,然后转换成python实现,最后返回signature。这就有点浪费时间了...Don't Worry!!...将程序中用户生成signature的参数粘贴到浏览器断点中测试,调用js生成的signature和程序程序中生成的一致,这说明我的程序代码逻辑是没问题的。

30850

JS 逆向百例】XHR 断点调试,Steam 登录逆向

XHR 断点定位 本次案例我们使用 XHR 断点来定位加密的位置,首先了解一下什么是 XHRXHR 全称 XMLHttpRequest,XHR 可以在不重新加载页面的情况下更新网页、在页面已加载后从服务器请求...已成功断下: [03.png] 第二种方法,在 Network 面板,点击 XHR 过滤 XHR 请求,在 Initiator 项里可以看到调用的 JS,鼠标移到 JS 上,可以看到调用栈,点击第一个,...这种方法需要注意的是,XHR 过滤不一定准确,但是只要是 Initiator 项里可以看到 JS,就说明可以跟进去进行调试,如果是通过 Form 表单或者其他方式发送的请求,Initiator 项会显示...[04.png] 参数逆向 前面 XHR 的两种方法,无论使用哪一种,定位到的位置都是一样的,查看右侧 Call Stack,即调用栈,一步一步往上查看调用的函数,在 login.js 里面,可以找到语句...关注 K 哥爬虫,持续分享爬虫相关代码!

1.7K21
您找到你想要的搜索结果了吗?
是的
没有找到

Python 爬虫进阶必备 | 关于某数 4 代 XHR 参数 MmEwMD 的分析

今日网站 现在 web js 逆向分析真的好卷啊 关于某数 4 代的 cookie 分析文章网上已经好多了,很多大佬已经开始转战 app 逆向,所以趁着最后蹭一蹭热度发一下关于 XHR 参数 MmEwMD...的分析文章 aHR0cDovL3d3dy5zaHRkc2MuY29t 抓包分析 因为是 xhr 参数,所以主要关注的界面还是xhr过滤器,打开网站可以过滤出下面这样的请求 我们就拿这个请求为例,分析这个例子...答案当然是不行的,因为某数的 js 是动态生成的,每次的变量名都不一样,所以我们想要每次都能很方便定位还是要继续分析 既然这里定位的位置是动态的,那我们找一个不会变的位置作为标记点不就好了 所以继续向前找堆栈...,你可以看到下面这个代码 这个代码的位置是在jquery_xx.js里面,这个 js 库是不会变得,所以我们把断点下在这个位置 然后关掉上面的 hook 插件,重新刷新页面 断点会断在我们截图的位置

1.4K10

JS逆向 | 分享一个小技巧和XHR断点的小案例

(仅限XHR请求) ? 有点经验的朋友肯定知道这次要用的就是 XHR BreakPoint。 关于XHR BreakPoint在很多文档中都有提及,咸鱼就不啰嗦了,还不是很了解的可以看下面的文档。...今天在交流群划水的时候有几个群友比较纠结于如何判断数据是不是由js生成或异步加载的。...第二种,关闭网页的js加载功能,查看网页我们需要的数据是否能够顺利加载或者查看数据是否完整,步骤也非常简单。 第一步: 点击地址栏前端的图示位置,选择网站设置。 ?...分析请求 用上面的方法我们判断,数据是通过js加载的,并且请求的参数和返回的参数都是经过加密的。 ? ? 到这里就需要 XHR 断点帮助我们定位加密了。 定位加密位置 我们先添加一个XHR断点。 ?...把解密和解密的方法扣出来就是我们需要的js代码了。 ? 本文完。 ?

2.3K20
领券