未闻Code-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

未闻Code

专栏成员

586

文章

1129727

阅读量

93

订阅数

一日一技：亲眼所见，也非真实，如何明目张胆架设后门程序

http node.js shell javascript php

这样的言论显然非常天真，一来，并不会有很多人真的去看源代码；二来，有一些缺陷隐藏得很深，光看源代码看不出来，例如 log4j2；第三，有办法把后门藏在一段非常安全的代码里面，你即使看源代码也看不出哪里有问题。

2021-12-27

6110

一日一技：Puppeteer 不重启如何更换代理 IP

tcp/ip 爬虫 http php javascript

我们知道，在写爬虫的过程中，如果总是使用同一个 IP，很容易就会被网站识别并封禁，所以需要使用代理 IP 并经常更换。

2021-12-21

3.4K0

一日一技：HTTPS 证书和中间人攻击的原理

https 网络安全 http

有同学在知识星球和公众号粉丝群里面提到，希望我讲一讲 HTTPS 证书、为什么使用 Charles、Fiddler、MitmProxy 抓 HTTPS 的请求要安装证书、 requests 发送请求的时候，verify 参数除了 False/True 还能填写什么参数。今天我们就这几个问题来做一个简单的介绍。

2021-11-12

4.5K0

一日一技：谁说 Scrapy 不能爬 HTTP/2?

scrapy http 爬虫 https go

之前有一位爬虫大佬写了一篇文章，说 HTTP/2协议天然就能防大部分的爬虫。Python 无论是 requests 还是 Scrapy 都不支持 HTTP/2协议。

2021-10-19

1.2K0

未闻Code·知识星球周报总结（七）

php 爬虫 http scrapy 云数据库 Redis

1. 看数据量。数据量小，数据放在内存里面；数据量中等，数据放在基于内存的数据库里面；数据量特别大，数据放在硬盘里面。

2021-10-19

8240

未闻Code·知识星球周报总结（六）

php scrapy http python 云数据库 Redis

之前在知识星球上有人问如下找出连续子序列的最大和，这样算是不是很慢？哪里可以优化呢？

2021-10-19

5440

再见 HTTP 1.1，怎样把网站升级成 HTTP 2？

http https 网络安全 nginx 网站

由于网站并行加载的资源比较多，HTTP 2 相比 HTTP 1.1 来说，所有的连接共享一个 TCP 连接，同时一个域名下还没有最多同时连接数的限制，加载速度会比 1.1 好一些。

2021-06-23

2.9K0

简单方便的 JavaScript 逆向辅助模拟方法

javascript 编程算法 node.js http

在 JavaScript 逆向过程中，我们可能找到了一些入口，但是深入追踪下去，就发现这个过程过于复杂，调用层级越来越深，最终很难完全把整个过程完整还原出来，不得不放弃。

2021-06-23

2.5K1

一日一技：Scrapy 如何正确 Post 发送 JSON 数据

json 官方文档 scrapy http php

我们知道，HTTP请求的 POST 方式，提交上去的数据有很多种格式。例如JSON/form-data/x-www-form-urlencoded等等。我们在 Postman 的 POST 请求里面，可以看到这些数据格式，如下图所示：

2021-06-23

3K0

超强反爬虫方案！Requests 什么的通通爬不了（文末抽奖）

scrapy 爬虫 http https nginx

上一篇文章再见 HTTP 1.1，怎样把网站升级成 HTTP 2？介绍了如何升级网站到 HTTP/2.0，但是实际上并没有显式地声明禁用 HTTP 1.x 的请求。

2021-06-23

1.6K0

一日一技：如何捅穿Cloud Flare的5秒盾

http 爬虫 tcp/ip https 网络安全

经常写爬虫的同学，肯定知道 Cloud Flare 的五秒盾。当你没有使用正常的浏览器访问网站的时候，它会返回如下这段文字：

2021-05-14

5.6K0

一日一技：如何正确使用 Scrapy 自带的 FilesPipeline？

scrapy python tcp/ip http 爬虫

Scrapy自带的 FilesPipeline和ImagesPipeline用来下载图片和文件非常方便，根据它的官方文档[1]说明，我们可以很容易地开启这两个 Pipeline。

2021-01-05

2.6K0

在Scrapy中如何使用aiohttp？

scrapy 爬虫 tcp/ip http

当我们从一些代理IP供应商购买代理IP时，他们可能是提供一个网址供我们查询当前可用的代理IP。我们周期性访问这个网址，拿到最新的IP，再分给爬虫使用。

2020-07-16

6.4K0

为什么你会被限制登录网页版微信？

微信 html 爬虫 http tcp/ip

有一个词叫做“三月爬虫”，指的是有些学生临到毕业了，需要收集数据写毕业论文，于是在网上随便找了几篇教程，学了点requests甚至是urllib和正则表达式的皮毛，就开始写爬虫疯狂从网上爬数据。这些爬虫几乎没有做任何隐藏自己的举动，不换IP，不设置headers，不限制速度，极易被有反爬的网站封锁，极易给没反爬的小网站造成流量压力。

2020-05-14

6.3K2

从零开发一个爬虫框架——Tinepeas

scrapy 爬虫编程算法 http api

Scrapy 是一个非常优秀的爬虫框架，为了向 Scrapy 致敬，也为了让大家更好地理解 Scrapy 的工作原理，我们自己模仿 Scrapy 的数据流，写一个爬虫框架。

2020-05-14

8280

Callback ——从同步思维切换到异步思维

这是一种非常常见的直线性思维，我先请求网站拿到 html，然后我再把 html 传给负责处理的函数。在整个过程中，“我“担任着调度的角色。

2020-04-26

5970

Bug or Feature？藏在 requests_html 中的陷阱

xslt & xpath xml http html

在写爬虫的过程中，我们经常使用 XPath 来从 HTML 中提取数据。例如给出下面这个 HTML：

2020-03-04

6410

一日一技：超级简单搭建更加稳定安全的文件分享服务器

http tcp/ip php 数据库 sql

在公众号以前的文章里面，我们提到，如果想简单的分享一下文件，我们可以使用一行 Python 命令：

2020-02-26

1.3K0

一篇文章理解Python异步编程的基本原理

编程算法 python scrapy http

未闻 Code 已经发布过很多篇关于异步爬虫与异步编程的文章，最近有读者希望我能深入介绍一下 asyncio 是如何通过单线程单进程实现并发效果的。以及异步代码是不是能在所有方面都代替同步代码。

2020-02-19

1.1K1

浅度测评：requests、aiohttp、httpx 我应该用哪一个？

在 Python 众多的 HTTP 客户端中，最有名的莫过于requests、aiohttp和httpx。在不借助其他第三方库的情况下，requests只能发送同步请求；aiohttp只能发送异步请求；httpx既能发送同步请求，又能发送异步请求。

2020-02-19

1.7K0

点击加载更多

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态