首页
学习
活动
专区
工具
TVP
发布

未闻Code

专栏作者
582
文章
1059880
阅读量
92
订阅数
一日一技:为什么网站知道我的爬虫使用了代理?
实际上,网站要识别你是否使用了代理,并不一定非要什么高深的反爬虫机制,也不需要使用AI识别用户行为。下面这几种情况,要识别代理简直是易如反掌。
青南
2022-04-07
1.1K0
一日一技:带过期时间的缓存、全文搜索、频率限制怎么做?
实际上,这些功能其实都可以使用Redis来实现,而且每个功能只需要1分钟就能做出来。全文搜索功能在搜索英文的时候,甚至可以智能识别拼写错误的问题。
青南
2022-01-05
3970
def函数里面什么时候可以用ensure_future ?
Python的虚拟环境其实就是把一部分内容独立出来,安装依赖包而不影响其它,有效地避免不兼容问题。如果是在虚拟环境下运行某病毒,它把我的某些东东删了,即使退出虚拟环境,删了就是删了,无法还原了。病毒的杀伤力大概率只能删文件,其余不构成影响。我这样理解,没错吧?
青南
2021-12-27
1.1K0
一日一技:Puppeteer 不重启如何更换代理 IP
我们知道,在写爬虫的过程中,如果总是使用同一个 IP,很容易就会被网站识别并封禁,所以需要使用代理 IP 并经常更换。
青南
2021-12-21
3K0
虚拟机中的病毒感染到宿主机的原理
标题问题详解参见“问题解答7”。 一、问题解答 1.南哥,我在用python + selenium爬取药物临床试验登记与信息公示平台(http://www.chinadrugtrials.org.cn/index.html)数据的时候遇见一些问题。一开始,selenium根本打不开网页,隐藏了WebDriver才能打开。就用南哥你之前文章说的方法,通过execute_cdp_cmd函数,单隐藏和通过JS文件隐藏的方法我都试过,可以访问网页,但在翻页的时候就又出问题了,翻到下一页的时候,网页会自动重新加载新页
青南
2021-12-13
1.7K0
为什么随机 IP、随机 UA 也逃不掉被反爬虫的命运
有些同学在写爬虫的时候,觉得只要自己每次请求都使用不同的代理 IP,每次请求的 Headers 都写得跟浏览器的一模一样,就不会被网站发现。
青南
2021-09-09
6670
利用动态 tracing 技术来 trace 内核中的网络请求
这周帮朋友用 eBPF/SystemTap 这样的动态 tracing 工具做了一些很有趣的功能。这篇文章算是一个总结
青南
2021-06-23
1.7K0
一日一技:如何捅穿Cloud Flare的5秒盾
经常写爬虫的同学,肯定知道 Cloud Flare 的五秒盾。当你没有使用正常的浏览器访问网站的时候,它会返回如下这段文字:
青南
2021-05-14
4.8K0
一日一技:如何正确使用 Scrapy 自带的 FilesPipeline?
Scrapy自带的 FilesPipeline和ImagesPipeline用来下载图片和文件非常方便,根据它的官方文档[1]说明,我们可以很容易地开启这两个 Pipeline。
青南
2021-01-05
2.3K0
一日一技:在什么情况下使用@property比较好?
我在2016年的时候,写过一篇文章,介绍@property装饰器。4年过去了,本来以为这个装饰器使用起来应该是很自然的事情,但还是有同学不知道在什么场景下可以使用它。
青南
2020-11-19
4850
为什么别人不想回答你提的问题?
这个问题提了一天也没有人给他解答。为什么?因为想回答的人无从下手。既不给具体描述,也不给代码,别人怎么回答?回答你“方法不对”?
青南
2020-10-26
3670
一日一技:更友好的格式化数据提取方案
在工作中,我们开发的系统会涉及到大量的日志。同时,我们还有另一套系统会对日志的内容进行监控,从而判断系统是否正常运作。
青南
2020-08-13
3980
在Scrapy中如何使用aiohttp?
当我们从一些代理IP供应商购买代理IP时,他们可能是提供一个网址供我们查询当前可用的代理IP。我们周期性访问这个网址,拿到最新的IP,再分给爬虫使用。
青南
2020-07-16
6.3K0
为什么你会被限制登录网页版微信?
有一个词叫做“三月爬虫”,指的是有些学生临到毕业了,需要收集数据写毕业论文,于是在网上随便找了几篇教程,学了点requests甚至是urllib和正则表达式的皮毛,就开始写爬虫疯狂从网上爬数据。这些爬虫几乎没有做任何隐藏自己的举动,不换IP,不设置headers,不限制速度,极易被有反爬的网站封锁,极易给没反爬的小网站造成流量压力。
青南
2020-05-14
6K2
一日一技:超级简单搭建更加稳定安全的文件分享服务器
在公众号以前的文章里面,我们提到,如果想简单的分享一下文件,我们可以使用一行 Python 命令:
青南
2020-02-26
1.3K0
一日一技:如何为 Pyppeteer 设置带有权限验证的代理?
在我们使用 Pyppeteer 的时候,可能会需要设置代理,此时,你需要使用如下方法:
青南
2019-09-17
3.4K0
一行命令​解锁网易云音乐客户端变灰歌曲
逛Github发现一个UnblockNeteaseMusic项目,来看看他的介绍:
青南
2019-08-20
3.3K1
一日一技:IPv4地址和长整数的互相转换
IPv4的格式为xxx.xxx.xxx.xxx其中,3个点分割的4个数字xxx表示0-255中的任意数字,例如:128.199.231.44 IPv4还有一种长整数的表示方法,例如:128.199.231.44转换为长整数,为:2160584492
青南
2019-01-23
1.5K0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档