首页
学习
活动
专区
工具
TVP
发布

未闻Code

专栏作者
581
文章
1057051
阅读量
92
订阅数
爬虫出海Step by Step(一)
上周的文章《一日一知:国内爬虫开发人员的未来》发布以后,很多同学私信我表示对爬虫出海很有兴趣,希望我能详细介绍一下。因此,我准备用几篇文章来介绍爬虫出海的具体做法细节和注意事项。
青南
2022-05-23
1.5K1
极其简单,加速Github Release 下载
有一些开源软件,它的新版本是通过Github Release来发布的。你在它的官网点击下载以后,实际上是从一个Github的地址下载文件。
青南
2022-04-07
9.7K0
一日一技:如何提取网页中的日期?
最近我发现Python的一个第三方库,叫做htmldate,经过测试,它提取新闻的发布时间比较准确。我们来看看这个库怎么使用。首先使用pip安装:
青南
2022-04-07
1.3K0
一日两技:关于Instagram和Golang的ORM框架
如果你想访问Instagram,那么你需要访问国外网站。如果你需要保存某个账户下面的图片,那么你需要用电脑网页版一张一张保存
青南
2021-12-08
7250
一日一技:使用装饰器简化大量 if…elif…代码
今天在 Github 阅读EdgeDB[1]的代码,发现它在处理大量if...elif...else判断的时候,使用了一个非常巧妙的装饰器。我们来看看这个方法具体是什么样的。
青南
2021-11-15
4890
一日一技:HTTPS 证书和中间人攻击的原理
有同学在知识星球和公众号粉丝群里面提到,希望我讲一讲 HTTPS 证书、为什么使用 Charles、Fiddler、MitmProxy 抓 HTTPS 的请求要安装证书、 requests 发送请求的时候,verify 参数除了 False/True 还能填写什么参数。今天我们就这几个问题来做一个简单的介绍。
青南
2021-11-12
3.9K0
一日一技:谁说 Scrapy 不能爬 HTTP/2?
之前有一位爬虫大佬写了一篇文章,说 HTTP/2协议天然就能防大部分的爬虫。Python 无论是 requests 还是 Scrapy 都不支持 HTTP/2协议。
青南
2021-10-19
1.1K0
​一日一技:如何替换URL中的query字段?
在我们写爬虫的时候,可能会需要在爬虫里面基于当前url生成一个新的url。例如下面这段伪代码:
青南
2021-09-09
1.6K0
【粉丝投稿】Aiohttp 与 Scrapy 如何绕过 JA3指纹反爬机制
前几天观摩k大破解JA3的文章有感,可惜里面的JA3破解的库还是老掉牙的requests, 现在我看到了肯定是想办法改成基于asyncio的库啊。这样的话,在scrapy里面启用AsyncioReactor也能继续复用这个算法,不至于阻塞事件循环。
青南
2021-09-09
2K0
一日一技:Golang 如何突破 JA3?
在之前的文章里面,我们讲到了网站通过 JA3算法,利用一些指纹信息来识别你的请求,无论你是否使用了代理 IP,网站都能识别到你。
青南
2021-09-09
1.7K0
为什么随机 IP、随机 UA 也逃不掉被反爬虫的命运
有些同学在写爬虫的时候,觉得只要自己每次请求都使用不同的代理 IP,每次请求的 Headers 都写得跟浏览器的一模一样,就不会被网站发现。
青南
2021-09-09
6650
一日一技:如何正确在自己项目里面集成别人的代码?
我们知道,在使用 Python 的时候,如果我想使用别人发布的第三方库,那么我们可以使用pip进行安装。但如果这个第三方库的作者没有把它上传到 pypi 上面,只上传到了 Github 上面,我们应该怎么集成呢?如果项目里面有setup.py文件,那么我们也许可以使用pip直接从 Github 上面安装。但如果对方连这个文件也没有呢?
青南
2021-07-20
7150
再见 HTTP 1.1,怎样把网站升级成 HTTP 2?
由于网站并行加载的资源比较多,HTTP 2 相比 HTTP 1.1 来说,所有的连接共享一个 TCP 连接,同时一个域名下还没有最多同时连接数的限制,加载速度会比 1.1 好一些。
青南
2021-06-23
2.1K0
超强反爬虫方案!Requests 什么的通通爬不了(文末抽奖)
上一篇文章再见 HTTP 1.1,怎样把网站升级成 HTTP 2?介绍了如何升级网站到 HTTP/2.0,但是实际上并没有显式地声明禁用 HTTP 1.x 的请求。
青南
2021-06-23
1.5K0
一日一技:如何捅穿Cloud Flare的5秒盾
经常写爬虫的同学,肯定知道 Cloud Flare 的五秒盾。当你没有使用正常的浏览器访问网站的时候,它会返回如下这段文字:
青南
2021-05-14
4.8K0
一日一技:可视化分析 Redis Key 资源占用情况
Redis 在日常的开发中,会积累大量的 Key,占用不少内存空间。有时候,我们想知道当前 Redis 里面有多少个 Key,是哪个 Key 占用了最大的内存。
青南
2021-03-04
1.6K0
一日一技:如何从 URL 中快速提取域名?
有时候,我们要从一段很长的 URL 里面提取出域名。例如从https://www.kingname.info/2020/10/02/copy-from-ssh/,我需要获取的是kingname.info。
青南
2020-11-03
4.7K0
为什么别人不想回答你提的问题?
这个问题提了一天也没有人给他解答。为什么?因为想回答的人无从下手。既不给具体描述,也不给代码,别人怎么回答?回答你“方法不对”?
青南
2020-10-26
3650
一日一技:FastAPI如何关闭接口文档?
FastApi 自带的接口文档,让我们在开发后端接口的时候省了不少的工作量。它能自动根据你的代码识别接口的参数,还能根据你的注释生成接口的说明,如下图所示:
青南
2020-09-14
5.1K1
一日一技:不用轮询,基于事件监控文件变动
我们经常会遇到监控文件变化的需求。例如日志监控程序监控日志文件,一旦日志文件发生变化,就进行读取。或者是大批量爬虫的规则配置文件监控,爬虫本身持续运行,一旦规则文件发生修改就自动读取新的规则。
青南
2020-08-18
9280
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档