首页
学习
活动
专区
工具
TVP
发布

进击的Coder

专栏成员
559
文章
1326687
阅读量
200
订阅数
知识点!你知道什么是幂等请求吗?
最近在做项目的过程中,有一个需求是在客户端 HTTP 请求失败后,增加一个重试机制,然后我就翻了一些有关“重试”的库,找到一个 axios-retry,在了解的过程中,我就发现了里面有一个默认的配置选项:
崔庆才
2023-01-04
5610
一个神器,大幅提升爬虫爬取效率!
这是「进击的Coder」的第 575 篇技术分享作者:崔庆才 在做爬虫的时候,我们往往可能这些情况: 网站比较复杂,会碰到很多重复请求。 有时候爬虫意外中断了,但我们没有保存爬取状态,再次运行就需要重新爬取。 还有诸如此类的问题。 那怎么解决这些重复爬取的问题呢?大家很可能都想到了“缓存”,也就是说,爬取过一遍就直接跳过爬取。 那一般怎么做呢? 比如我写一个逻辑,把已经爬取过的 URL 保存到文件或者数据库里面,每次爬取之前检查一下是不是在列表或数据库里面就好了。 是的,这个思路没问题,但有没有想过这些问
崔庆才
2022-03-04
3450
干货!爬虫框架 Feapder 和 Scrapy 的对比分析
scrapy 自带的重试中间件只支持请求重试,解析函数内异常或者数据入库异常不会重试,但爬虫在请求数据时,往往会有一些意想不到的页面返回来,若我们解析异常了,这条任务岂不是丢了。
崔庆才
2021-10-08
2.2K0
官宣!GitHub 推出新功能,这个好玩的功能支持上传视频文件啦!
Github 宣布支持了视频上传功能,意味着,大家在提 issue 时可以携带视频了,这极大地提高了开发者和维护者的效率,大赞!
崔庆才
2021-06-24
5340
Chrome 90 正式版发布:倒也没啥变化
最近,谷歌 Chrome 90 浏览器正式版已经逐步向 Windows、MacOS、Linux 和移动设备用户推送。
崔庆才
2021-05-17
8190
牛逼,自动将函数或者命令行工具转换成 Web 服务
今天要给大家介绍一个牛逼的功能 webify,它能够直接将函数或者命令行工具转化为 Web 服务。比如我们将 jq 封装成一个 Web 服务如下:
崔庆才
2020-10-30
9220
Scrapy 和 Pyppeteer 更优雅的对接方案
现在越来越多的网页都已经演变为 SPA 页面,而且越来越多的网站采用了各种 JavaScript 混淆和加密技术,这使得 JavaScript 逆向难度变得很大,Ajax 接口模拟爬取也变得越发困难,因此模拟浏览器爬取不失为一个不错的爬取方案。
崔庆才
2020-07-21
3K1
安卓 App 逆向课程之四 frida 注入 Okhttp 抓包中篇
•请求方法 GET、POST、PUT、DELETE、HEAD 等•URL•使用的协议版本 HTTP/1/1.1/2•多个请求 Header•回车、换行符•请求 Body 数据
崔庆才
2020-07-17
7.2K0
精品连载丨安卓 App 逆向课程之三 frida 注入 Okhttp 抓包上篇
抓包常常是Android协议分析的第一步,抓不到包困扰着众多爬虫工程师,因此很有必要抽丝剥茧,了解和学习Android的网络通信相关知识,并且打算写一些爬虫er学习安卓网络库的系列文章。
崔庆才
2020-07-10
4.6K0
有了它,我们似乎可以告别 Stack Overflow 了?
先问大家一个问题,如果你撸代码的过程中遇到了一个问题不知道怎么解决,你一般会怎么办?
崔庆才
2020-06-29
2.5K0
别再乱用 try except 了...
有不少人在写 Python 代码时,喜欢用 try...except Exception,更有甚者一层套一层,不管有没有用,先套了再说:
崔庆才
2020-05-26
1.2K0
从项目实际问题引发的思考
现在有一个 Web 项目,前端是使用 Vue.js 开发的,整个前端需要部署到 K8S 上,后端和前端分开,同样也需要部署到 K8S 上,因此二者需要打包为 Docker 镜像。
崔庆才
2019-12-11
5200
教你实现一个可视化爬虫监控系统
本文并不是讲解爬虫的相关技术实现的,而是从实用性的角度,将抓取并存入 MongoDB 的数据 用 InfluxDB 进行处理,而后又通过 Grafana 将爬虫抓取数据情况通过酷炫的图形化界面展示出来。
崔庆才
2019-09-04
3.1K1
如何通过测试提升 Python 代码的健壮性
0x00 前言 本文的更多的是写给 Python 后端的程序员。 来简单分享一下我对写测试的理解。 本期就聊聊测试这件小事情。 本文目录如下: ▼ 如何通过测试提升 Python 代码的健壮性 : section 0x00 前言 : section ▼ 0x01 测试的分类 : section 后端主要关注哪些测试 : section ▼ 0x02 为什么要写测试 : section 让新手更快的了解代码 : section 让发布代码的时候更加有底气 :
崔庆才
2019-08-23
6450
万字长文:编写 Dockerfiles 最佳实践
Docker通过读取Dockerfile中的指令自动构建镜像,一个文本文件包含构建镜像的所有指令。Dockerfile遵循特定的格式和指令集,您可以在Dockerfile中引用它们。
崔庆才
2019-08-20
2K0
Python 工匠: 异常处理的三个好习惯
如果你用 Python 编程,那么你就无法避开异常,因为异常在这门语言里无处不在。打个比方,当你在脚本执行时按 ctrl+c 退出,解释器就会产生一个 KeyboardInterrupt 异常。而 KeyError、 ValueError、 TypeError 等更是日常编程里随处可见的老朋友。
崔庆才
2019-07-16
8980
花了两个星期,我终于把 WSGI 整明白了
由于我本人不从事专业的 Python Web 开发,所以在写这篇文章的时候,借鉴了许多优秀的网络博客,并花了很多的精力阅读了大量的 OpenStack 代码。
崔庆才
2019-07-04
1.6K0
Python 如何爬取实时变化的 WebSocket 数据
作为一名爬虫工程师,在工作中常常会遇到爬取实时数据的需求,比如体育赛事实时数据、股市实时数据或币圈实时变化的数据。如下图:
崔庆才
2019-05-06
2K0
Python 实现视频爬取下载及断电续传优化
一般情况下我们使用爬虫更多的应该是爬数据或者图片吧,今天在这里和大家分享一下关于使用爬虫技术来进行视频下载的方法,不仅可以方便的下载一些体积小的视频,针对大容量的视频下载同样试用。
崔庆才
2019-05-06
1.8K0
重磅福利!腾讯 AI Lab 开源大规模高质量中文词向量数据,800 万中文词随你用!
今日,腾讯 AI Lab 宣布开源大规模、高质量的中文词向量数据。该数据包含 800 多万中文词汇,相比现有的公开数据,在覆盖率、新鲜度及准确性上大幅提高,为对话回复质量预测和医疗实体识别等自然语言处理方向的业务应用带来显著的效能提升。针对业界现有的中文词向量公开数据的稀缺和不足,腾讯 AI Lab 此次开源,可为中文环境下基于深度学习的自然语言处理(NLP)模型训练提供高质量的底层支持,推动学术研究和工业应用环境下中文 NLP 任务效果的提升。
崔庆才
2018-11-08
1.4K0
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档