仲君Johnny - 个人中心 - 腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

仲君Johnny

LV1

全部文章

Python爬虫之Ajax分析方法与结果提取
这里还以前面的微博为例，我们知道拖动刷新的内容由 Ajax 加载，而且页面的 URL 没有变化，那么应该到哪里去查看这些 Ajax 请求呢？
仲君Johnny 21天前2025-11-12 09:47:15
python、ajax、爬虫、浏览器、数据
Python爬虫之点触验证码的识别
可能你对这个名字比较陌生，但是肯定见过类似的验证码，比如 12306 就是典型的点触验证码。
仲君Johnny 2024-02-262024-02-26 07:44:21
网络安全、验证码、python爬虫、运行代码块活动
Python爬虫之极验滑动验证码的识别
上节我们了解了可以直接利用 tesserocr 来识别简单的图形验证码。近几年出现了一些新型验证码，其中比较有代表性的就是极验验证码，它需要拖动拼合滑块才可以完...
仲君Johnny 2024-02-232024-02-23 18:06:23
网页爬虫、运行代码块活动、验证码、python爬虫、网络爬虫
Python Selenium 爬虫淘宝案例
在前一章中，我们已经成功尝试分析 Ajax 来抓取相关数据，但是并不是所有页面都可以通过分析 Ajax 来完成抓取。比如，淘宝，它的整个页面数据确实也是通过 A...
仲君Johnny 2024-02-202024-02-20 15:30:59
python、爬虫、selenium
Python爬虫之图形验证码的识别
目前，许多网站采取各种各样的措施来反爬虫，其中一个措施便是使用验证码。随着技术的发展，验证码的花样越来越多。验证码最初是几个数字组合的简单的图形验证码，后来加入...
仲君Johnny 2024-02-202024-02-20 11:16:21
验证码、python爬虫、逆向工程
Python爬虫之Splash负载均衡配置
用 Splash 做页面抓取时，如果爬取的量非常大，任务非常多，用一个 Splash 服务来处理的话，未免压力太大了，此时可以考虑搭建一个负载均衡器来把压力分散...
仲君Johnny 2024-02-202024-02-20 09:34:54
python、爬虫、负载均衡、服务、配置
Python爬虫之Splash详解
Splash 是一个 JavaScript 渲染服务，是一个带有 HTTP API 的轻量级浏览器，同时它对接了 Python 中的 Twisted 和 QT ...
仲君Johnny 2024-02-182024-02-18 08:46:49
爬虫、脚本、接口、python、渲染
Python爬虫之自动化测试Selenium#7
在前一章中，我们了解了 Ajax 的分析和抓取方式，这其实也是 JavaScript 动态渲染的页面的一种情形，通过直接分析 Ajax，我们仍然可以借助 req...
仲君Johnny 2024-02-172024-02-17 10:23:49
python、爬虫、自动化测试、selenium、浏览器
Python爬虫之Ajax数据爬取基本原理
有时候我们在用 requests 抓取页面的时候，得到的结果可能和在浏览器中看到的不一样：在浏览器中可以看到正常显示的页面数据，但是使用 requests 得到...
仲君Johnny 2024-02-132024-02-13 08:33:13
python、ajax、渲染、爬虫、数据
Python爬虫之非关系型数据库存储#5
NoSQL，全称 Not Only SQL，意为不仅仅是 SQL，泛指非关系型数据库。NoSQL 是基于键值对的，而且不需要经过 SQL 层的解析，数据之间没有...
仲君Johnny 2024-02-122024-02-12 10:27:21
存储、爬虫、关系型数据库、集合、python
Python爬虫之关系型数据库存储#5
关系型数据库是基于关系模型的数据库，而关系模型是通过二维表来保存的，所以它的存储方式就是行列组成的表，每一列是一个字段，每一行是一条记录。表可以看作某个实体的集...
仲君Johnny 2024-02-122024-02-12 10:26:45
关系型数据库、数据、python、存储、爬虫
Python爬虫之文件存储#5
文件存储形式多种多样，比如可以保存成 TXT 纯文本形式，也可以保存为 JSON 格式、CSV 格式等，本节就来了解一下文本文件的存储方式。
仲君Johnny 2024-02-102024-02-10 09:02:47
对象、数据、python、文件存储、爬虫
Python爬虫 pyquery库详解
在上一节中，我们介绍了 Beautiful Soup 的用法，它是一个非常强大的网页解析库，你是否觉得它的一些方法用起来有点不适应？有没有觉得它的 CSS 选择...
仲君Johnny 2024-02-092024-02-09 08:33:29
html、爬虫、class、字符串、python
Python爬虫 Beautiful Soup库详解
前面介绍了正则表达式的相关用法，但是一旦正则表达式写的有问题，得到的可能就不是我们想要的结果了。而且对于一个网页来说，都有一定的特殊结构和层级关系，而且很多节点...
仲君Johnny 2024-02-082024-02-08 08:25:38
爬虫、class、element、字符串、python
Python爬虫Xpath库详解
前面，我们实现了一个最基本的爬虫，但提取页面信息时使用的是正则表达式，这还是比较烦琐，而且万一有地方写错了，可能导致匹配失败，所以使用正则表达式提取页面信息多多...
仲君Johnny 2024-02-072024-02-07 08:04:50
class、xpath、python、html、爬虫
Python爬虫实战：抓取猫眼电影排行榜top100
本节中，我们利用 requests 库和正则表达式来抓取猫眼电影 TOP100 的相关内容。requests 比 urllib 使用更加方便，而且目前我们还没有...
仲君Johnny 2024-02-052024-02-05 16:40:12
python、http、爬虫、正则表达式、源码
Python爬虫requests库详解
上一节中，我们了解了 urllib 的基本用法，但是其中确实有不方便的地方，比如处理网页验证和 Cookies 时，需要写 Opener 和 Handler 来...
仲君Johnny 2024-02-052024-02-05 16:39:25
代理、对象、python、爬虫、requests
Python爬虫urllib详解
学习爬虫，最初的操作便是模拟浏览器向服务器发出请求，那么我们需要从哪个地方做起呢？请求需要我们自己来构造吗？需要关心请求这个数据结构的实现吗？需要了解 HTTP...
仲君Johnny 2024-02-052024-02-05 16:38:19
异常、python、爬虫、urllib、协议
Python爬虫的基本原理
我们可以把互联网比作一张大网，而爬虫（即网络爬虫）便是在网上爬行的蜘蛛。把网的节点比作一个个网页，爬虫爬到这就相当于访问了该页面，获取了其信息。可以把节点间的连...
仲君Johnny 2024-02-032024-02-03 08:28:11
python、爬虫、登录、服务器、浏览器
Python爬虫http基本原理
在本节中，我们会详细了解 HTTP 的基本原理，了解在浏览器中敲入 URL 到获取网页内容之间发生了什么。了解了这些内容，有助于我们进一步了解爬虫的基本原理。
仲君Johnny 2024-02-022024-02-02 15:21:37
python、http、爬虫、服务器、浏览器

个人简介

NCS | 高级软件工程师
专注于Java、Python技术干货分享，擅长爬虫，Web应用开发领域。
web开发 python爬虫微服务人工智能
湘潭大学 | 计算机科学与技术
暂未填写个人网址
广东省 | 广州市
加入社区时间：2024-01-11

个人成就

获得 54 次赞同
文章被阅读 41.6K 次

关注了：1关注者：23