首页
学习
活动
专区
工具
TVP
发布

未闻Code

专栏作者
582
文章
1060925
阅读量
92
订阅数
一日一技:分布式系统的低成本权限校验机制
经常关注未闻Code的同学都知道,我做了一个叫做GNE[1]的开源项目,它能够自动提取新闻类网页的正文。效果远远好于市面上其他的开源新闻提取工具。
青南
2023-11-23
1660
一日一技:如何安全运行别人上传的Python代码?
写后端的同学,有时候需要在网站上实现一个功能,让用户上传或者编写自己的Python代码。后端再运行这些代码。
青南
2023-10-30
1820
一日一技:HTML里面提取的JSON怎么解析不了?
我们在开发爬虫的过程中,经常发现有一些网站,会直接把数据以JSON的形式,通过<script>标签放到页面源代码中。如下图所示:
青南
2023-10-22
2430
一日一技:Requests被网站识别怎么办?
现在有很多网站,已经能够通过JA3或者其他指纹信息,来识别你的请求是不是Requests发起的。这种情况下,你无论怎么改Headers还是代理,都没有任何意义。
青南
2023-10-22
2810
一日一技:Requests被网站识别怎么办?
现在有很多网站,已经能够通过JA3或者其他指纹信息,来识别你的请求是不是Requests发起的。这种情况下,你无论怎么改Headers还是代理,都没有任何意义。
青南
2023-10-22
5540
一日一技:在Scrapy中如何拼接URL Query参数?
我们知道,在使用Requests发起GET请求时,可以通过params参数来传递URL参数,让Requests在背后帮你把URL拼接完整。例如下面这段代码:
青南
2023-09-11
3540
一日一技:不走常规路线,列表页1秒抓取
抓文档的正文非常简单,使用GNE高级版,只要有URL直接就能抓取下来,如下图所示:
青南
2023-08-21
2060
一日一技:Prompt逆向工程,破解小红书文案生成器
关注我公众号的很多同学都会写爬虫。但如果想把爬虫写得好,那一定要掌握一些逆向技术,对网页的JavaScript和安卓App进行逆向,从而突破签名或者绕过反爬虫限制。
青南
2023-08-21
8270
爬虫出海Step by Step(一)
上周的文章《一日一知:国内爬虫开发人员的未来》发布以后,很多同学私信我表示对爬虫出海很有兴趣,希望我能详细介绍一下。因此,我准备用几篇文章来介绍爬虫出海的具体做法细节和注意事项。
青南
2022-05-23
1.5K1
一日一知:架构到底是什么?
有同学问:总会听到身边的大佬们谈到架构,感觉很高级,架构到底是一个什么样的东西呢?
青南
2022-05-23
6120
一日一知:国内爬虫开发人员的未来
最近两年,我已经没有做过国内任何网站的爬虫了,根据这两年爬海外网站的一些经验,谈谈我的发现和想法。
青南
2022-04-07
1.2K2
一日一技:为什么网站知道我的爬虫使用了代理?
实际上,网站要识别你是否使用了代理,并不一定非要什么高深的反爬虫机制,也不需要使用AI识别用户行为。下面这几种情况,要识别代理简直是易如反掌。
青南
2022-04-07
1.1K0
你以为的万能爬虫方法,其实一行代码就能识别!
在以前的公众号中,我提到Selenium/Puppeteer/Pyppeteer有很多特征可以被网站检测到。于是,有些同学想到了另一个方法,就是自己写一个Chrome插件,在网站打开的时候,注入到页面中,然后通过这个注入的JavaScript代码来操作页面,获取数据。
青南
2022-02-11
1.5K0
一日一技:爬虫模拟浏览器如何避免重复登录?
当我们使用模拟浏览器访问一个网站的时候,可能会遇到网站需要登录的情况。我的爬虫练习网站提供了这样一个登录练习[1]的案例。
青南
2021-12-16
1.3K0
一日一技:怎么>重定向不过去了?
很多人应该都知道,在命令行中,可以使用大于号>把程序打印出来的文本重定向到文件中。例如,有这样一个程序:
青南
2021-12-13
5000
未闻Code·知识星球周报总结(九)
之前发了一篇关于Python的black库格式化代码的文章一日一技:如何用一行命令格式化 Python 代码?,有人问:Pycharm就能格式化代码,为什么还要这个第三方库呢?
青南
2021-11-12
4320
【粉丝投稿】Python调用浏览器时如何用JS去弹窗?
公司项目代码中有对网页进行截图并识别的。但是因为网站都比较特殊,几乎都有弹窗,这样就影响到了算法同学的识别效果。
青南
2021-09-09
1.4K0
为什么随机 IP、随机 UA 也逃不掉被反爬虫的命运
有些同学在写爬虫的时候,觉得只要自己每次请求都使用不同的代理 IP,每次请求的 Headers 都写得跟浏览器的一模一样,就不会被网站发现。
青南
2021-09-09
6680
再见 HTTP 1.1,怎样把网站升级成 HTTP 2?
由于网站并行加载的资源比较多,HTTP 2 相比 HTTP 1.1 来说,所有的连接共享一个 TCP 连接,同时一个域名下还没有最多同时连接数的限制,加载速度会比 1.1 好一些。
青南
2021-06-23
2.1K0
别去送死了。Selenium 与 Puppeteer 能被网站探测的几十个特征
很多人喜欢使用Selenium 或者 Puppeteer(Pyppeteer)通过模拟浏览器来编写爬虫,自以为这样可以不被网站检测到,想爬什么数据就爬什么数据。
青南
2020-12-02
9.5K5
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档