首页
学习
活动
专区
工具
TVP
发布

未闻Code

专栏成员
586
文章
1129727
阅读量
93
订阅数
一日一技:亲眼所见,也非真实,如何明目张胆架设后门程序
这样的言论显然非常天真,一来,并不会有很多人真的去看源代码;二来,有一些缺陷隐藏得很深,光看源代码看不出来,例如 log4j2;第三,有办法把后门藏在一段非常安全的代码里面,你即使看源代码也看不出哪里有问题。
青南
2021-12-27
6110
一日一技:Puppeteer 不重启如何更换代理 IP
我们知道,在写爬虫的过程中,如果总是使用同一个 IP,很容易就会被网站识别并封禁,所以需要使用代理 IP 并经常更换。
青南
2021-12-21
3.4K0
一日一技:HTTPS 证书和中间人攻击的原理
有同学在知识星球和公众号粉丝群里面提到,希望我讲一讲 HTTPS 证书、为什么使用 Charles、Fiddler、MitmProxy 抓 HTTPS 的请求要安装证书、 requests 发送请求的时候,verify 参数除了 False/True 还能填写什么参数。今天我们就这几个问题来做一个简单的介绍。
青南
2021-11-12
4.5K0
一日一技:谁说 Scrapy 不能爬 HTTP/2?
之前有一位爬虫大佬写了一篇文章,说 HTTP/2协议天然就能防大部分的爬虫。Python 无论是 requests 还是 Scrapy 都不支持 HTTP/2协议。
青南
2021-10-19
1.2K0
未闻Code·知识星球周报总结(七)
1. 看数据量。数据量小,数据放在内存里面;数据量中等,数据放在基于内存的数据库里面;数据量特别大,数据放在硬盘里面。
青南
2021-10-19
8240
未闻Code·知识星球周报总结(六)
之前在知识星球上有人问如下找出连续子序列的最大和,这样算是不是很慢?哪里可以优化呢?
青南
2021-10-19
5440
再见 HTTP 1.1,怎样把网站升级成 HTTP 2?
由于网站并行加载的资源比较多,HTTP 2 相比 HTTP 1.1 来说,所有的连接共享一个 TCP 连接,同时一个域名下还没有最多同时连接数的限制,加载速度会比 1.1 好一些。
青南
2021-06-23
2.9K0
简单方便的 JavaScript 逆向辅助模拟方法
在 JavaScript 逆向过程中,我们可能找到了一些入口,但是深入追踪下去,就发现这个过程过于复杂,调用层级越来越深,最终很难完全把整个过程完整还原出来,不得不放弃。
青南
2021-06-23
2.5K1
一日一技:Scrapy 如何正确 Post 发送 JSON 数据
我们知道,HTTP请求的 POST 方式,提交上去的数据有很多种格式。例如JSON/form-data/x-www-form-urlencoded等等。我们在 Postman 的 POST 请求里面,可以看到这些数据格式,如下图所示:
青南
2021-06-23
3K0
超强反爬虫方案!Requests 什么的通通爬不了(文末抽奖)
上一篇文章再见 HTTP 1.1,怎样把网站升级成 HTTP 2?介绍了如何升级网站到 HTTP/2.0,但是实际上并没有显式地声明禁用 HTTP 1.x 的请求。
青南
2021-06-23
1.6K0
一日一技:如何捅穿Cloud Flare的5秒盾
经常写爬虫的同学,肯定知道 Cloud Flare 的五秒盾。当你没有使用正常的浏览器访问网站的时候,它会返回如下这段文字:
青南
2021-05-14
5.6K0
一日一技:如何正确使用 Scrapy 自带的 FilesPipeline?
Scrapy自带的 FilesPipeline和ImagesPipeline用来下载图片和文件非常方便,根据它的官方文档[1]说明,我们可以很容易地开启这两个 Pipeline。
青南
2021-01-05
2.6K0
在Scrapy中如何使用aiohttp?
当我们从一些代理IP供应商购买代理IP时,他们可能是提供一个网址供我们查询当前可用的代理IP。我们周期性访问这个网址,拿到最新的IP,再分给爬虫使用。
青南
2020-07-16
6.4K0
为什么你会被限制登录网页版微信?
有一个词叫做“三月爬虫”,指的是有些学生临到毕业了,需要收集数据写毕业论文,于是在网上随便找了几篇教程,学了点requests甚至是urllib和正则表达式的皮毛,就开始写爬虫疯狂从网上爬数据。这些爬虫几乎没有做任何隐藏自己的举动,不换IP,不设置headers,不限制速度,极易被有反爬的网站封锁,极易给没反爬的小网站造成流量压力。
青南
2020-05-14
6.3K2
从零开发一个爬虫框架——Tinepeas
Scrapy 是一个非常优秀的爬虫框架,为了向 Scrapy 致敬,也为了让大家更好地理解 Scrapy 的工作原理,我们自己模仿 Scrapy 的数据流,写一个爬虫框架。
青南
2020-05-14
8280
Callback ——从同步思维切换到异步思维
这是一种非常常见的直线性思维,我先请求网站拿到 html,然后我再把 html 传给负责处理的函数。在整个过程中,“我“担任着调度的角色。
青南
2020-04-26
5970
Bug or Feature?藏在 requests_html 中的陷阱
在写爬虫的过程中,我们经常使用 XPath 来从 HTML 中提取数据。例如给出下面这个 HTML:
青南
2020-03-04
6410
一日一技:超级简单搭建更加稳定安全的文件分享服务器
在公众号以前的文章里面,我们提到,如果想简单的分享一下文件,我们可以使用一行 Python 命令:
青南
2020-02-26
1.3K0
一篇文章理解Python异步编程的基本原理
未闻 Code 已经发布过很多篇关于异步爬虫与异步编程的文章,最近有读者希望我能深入介绍一下 asyncio 是如何通过单线程单进程实现并发效果的。以及异步代码是不是能在所有方面都代替同步代码。
青南
2020-02-19
1.1K1
浅度测评:requests、aiohttp、httpx 我应该用哪一个?
在 Python 众多的 HTTP 客户端中,最有名的莫过于requests、aiohttp和httpx。在不借助其他第三方库的情况下,requests只能发送同步请求;aiohttp只能发送异步请求;httpx既能发送同步请求,又能发送异步请求。
青南
2020-02-19
1.7K0
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档