进击的Coder-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

进击的Coder

专栏成员

559

文章

1326687

阅读量

200

订阅数

知识点！你知道什么是幂等请求吗？

网络安全 https 网站 http

最近在做项目的过程中，有一个需求是在客户端 HTTP 请求失败后，增加一个重试机制，然后我就翻了一些有关“重试”的库，找到一个 axios-retry，在了解的过程中，我就发现了里面有一个默认的配置选项：

2023-01-04

5610

一个神器，大幅提升爬虫爬取效率！

缓存 https 网络安全爬虫 http

这是「进击的Coder」的第 575 篇技术分享作者：崔庆才在做爬虫的时候，我们往往可能这些情况：网站比较复杂，会碰到很多重复请求。有时候爬虫意外中断了，但我们没有保存爬取状态，再次运行就需要重新爬取。还有诸如此类的问题。那怎么解决这些重复爬取的问题呢？大家很可能都想到了“缓存”，也就是说，爬取过一遍就直接跳过爬取。那一般怎么做呢？比如我写一个逻辑，把已经爬取过的 URL 保存到文件或者数据库里面，每次爬取之前检查一下是不是在列表或数据库里面就好了。是的，这个思路没问题，但有没有想过这些问

2022-03-04

3450

干货！爬虫框架 Feapder 和 Scrapy 的对比分析

爬虫云数据库 Redis scrapy http 分布式

scrapy 自带的重试中间件只支持请求重试，解析函数内异常或者数据入库异常不会重试，但爬虫在请求数据时，往往会有一些意想不到的页面返回来，若我们解析异常了，这条任务岂不是丢了。

2021-10-08

2.2K0

官宣！GitHub 推出新功能，这个好玩的功能支持上传视频文件啦！

https 编程算法网络安全 ios http

Github 宣布支持了视频上传功能，意味着，大家在提 issue 时可以携带视频了，这极大地提高了开发者和维护者的效率，大赞！

2021-06-24

5340

Chrome 90 正式版发布：倒也没啥变化

图像处理 http php https

最近，谷歌 Chrome 90 浏览器正式版已经逐步向 Windows、MacOS、Linux 和移动设备用户推送。

2021-05-17

8190

牛逼，自动将函数或者命令行工具转换成 Web 服务

c++网站 http github git

今天要给大家介绍一个牛逼的功能 webify，它能够直接将函数或者命令行工具转化为 Web 服务。比如我们将 jq 封装成一个 Web 服务如下：

2020-10-30

9220

Scrapy 和 Pyppeteer 更优雅的对接方案

scrapy http javascript https 网络安全

现在越来越多的网页都已经演变为 SPA 页面，而且越来越多的网站采用了各种 JavaScript 混淆和加密技术，这使得 JavaScript 逆向难度变得很大，Ajax 接口模拟爬取也变得越发困难，因此模拟浏览器爬取不失为一个不错的爬取方案。

2020-07-21

3K1

安卓 App 逆向课程之四 frida 注入 Okhttp 抓包中篇

http https 网络安全 apache html

•请求方法 GET、POST、PUT、DELETE、HEAD 等•URL•使用的协议版本 HTTP/1/1.1/2•多个请求 Header•回车、换行符•请求 Body 数据

2020-07-17

7.2K0

精品连载丨安卓 App 逆向课程之三 frida 注入 Okhttp 抓包上篇

android 安全 apache php http

抓包常常是Android协议分析的第一步，抓不到包困扰着众多爬虫工程师，因此很有必要抽丝剥茧，了解和学习Android的网络通信相关知识，并且打算写一些爬虫er学习安卓网络库的系列文章。

2020-07-10

4.6K0

有了它，我们似乎可以告别 Stack Overflow 了？

编程算法 python php http

先问大家一个问题，如果你撸代码的过程中遇到了一个问题不知道怎么解决，你一般会怎么办？

2020-06-29

2.5K0

别再乱用 try except 了...

http python json

有不少人在写 Python 代码时，喜欢用 try...except Exception，更有甚者一层套一层，不管有没有用，先套了再说：

2020-05-26

1.2K0

从项目实际问题引发的思考

http nginx 网站 https 容器镜像服务

现在有一个 Web 项目，前端是使用 Vue.js 开发的，整个前端需要部署到 K8S 上，后端和前端分开，同样也需要部署到 K8S 上，因此二者需要打包为 Docker 镜像。

2019-12-11

5200

教你实现一个可视化爬虫监控系统

数据库 http mongodb sql 云数据库 MongoDB

本文并不是讲解爬虫的相关技术实现的，而是从实用性的角度，将抓取并存入 MongoDB 的数据用 InfluxDB 进行处理，而后又通过 Grafana 将爬虫抓取数据情况通过酷炫的图形化界面展示出来。

2019-09-04

3.1K1

如何通过测试提升 Python 代码的健壮性

单元测试腾讯云测试服务微信 http

0x00 前言本文的更多的是写给 Python 后端的程序员。来简单分享一下我对写测试的理解。本期就聊聊测试这件小事情。本文目录如下： ▼ 如何通过测试提升 Python 代码的健壮性 : section 0x00 前言 : section ▼ 0x01 测试的分类 : section 后端主要关注哪些测试 : section ▼ 0x02 为什么要写测试 : section 让新手更快的了解代码 : section 让发布代码的时候更加有底气 :

2019-08-23

6450

万字长文：编写 Dockerfiles 最佳实践

缓存 http apt-get 容器镜像服务

Docker通过读取Dockerfile中的指令自动构建镜像，一个文本文件包含构建镜像的所有指令。Dockerfile遵循特定的格式和指令集，您可以在Dockerfile中引用它们。

2019-08-20

2K0

Python 工匠：异常处理的三个好习惯

api python django http

如果你用 Python 编程，那么你就无法避开异常，因为异常在这门语言里无处不在。打个比方，当你在脚本执行时按 ctrl+c 退出，解释器就会产生一个 KeyboardInterrupt 异常。而 KeyError、 ValueError、 TypeError 等更是日常编程里随处可见的老朋友。

2019-07-16

8980

花了两个星期，我终于把 WSGI 整明白了

网站 http openstack web.py

由于我本人不从事专业的 Python Web 开发，所以在写这篇文章的时候，借鉴了许多优秀的网络博客，并花了很多的精力阅读了大量的 OpenStack 代码。

2019-07-04

1.6K0

Python 如何爬取实时变化的 WebSocket 数据

socket编程网站 http https 网络安全爬虫

作为一名爬虫工程师，在工作中常常会遇到爬取实时数据的需求，比如体育赛事实时数据、股市实时数据或币圈实时变化的数据。如下图：

2019-05-06

2K0

Python 实现视频爬取下载及断电续传优化

http 对象存储爬虫

一般情况下我们使用爬虫更多的应该是爬数据或者图片吧,今天在这里和大家分享一下关于使用爬虫技术来进行视频下载的方法,不仅可以方便的下载一些体积小的视频,针对大容量的视频下载同样试用。

2019-05-06

1.8K0

重磅福利！腾讯 AI Lab 开源大规模高质量中文词向量数据，800 万中文词随你用！

开源 NLP 服务深度学习 http html

今日，腾讯 AI Lab 宣布开源大规模、高质量的中文词向量数据。该数据包含 800 多万中文词汇，相比现有的公开数据，在覆盖率、新鲜度及准确性上大幅提高，为对话回复质量预测和医疗实体识别等自然语言处理方向的业务应用带来显著的效能提升。针对业界现有的中文词向量公开数据的稀缺和不足，腾讯 AI Lab 此次开源，可为中文环境下基于深度学习的自然语言处理（NLP）模型训练提供高质量的底层支持，推动学术研究和工业应用环境下中文 NLP 任务效果的提升。

2018-11-08

1.4K0

点击加载更多

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态