小白学大数据 - 个人中心 - 腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

小白学大数据

LV0

全部文章

Python爬虫常见陷阱：Ajax动态生成内容的URL去重与数据拼接
在传统静态爬虫中，URL通常是明确且稳定的，基于集合（Set）或布隆过滤器（Bloom Filter）的去重机制工作得非常好。但当面对Ajax时，情况变得复杂。
小白学大数据 12小时前2025-10-14 16:46:19
ajax、python
构建定时监控系统，轻松爬取番茄小说最新章节
在编写代码前，我们必须先理解目标网站的结构。通过浏览器开发者工具（F12），我们可以分析番茄小说的书籍目录页和章节内容页。
小白学大数据 4天前2025-10-10 16:49:21
实时监控、python-3.4
新闻热点一目了然：Python爬虫数据可视化
我们以一个模拟的新闻页面为例。在实际应用中，你需要将其替换为真实的、允许爬取的新闻网站URL，并遵守robots.txt协议。
小白学大数据 15天前2025-09-29 16:42:22
python
Python爬虫技术：招标信息抓取与关键词过滤
本文详细介绍了使用Python爬虫技术实现招标信息抓取与关键词过滤的完整方案。通过合理的技术选型和模块设计，我们构建了一个高效、可扩展的招标信息监控系统。在实际...
小白学大数据 16天前2025-09-28 16:38:22
网络爬虫、python、大数据处理
高并发Java爬虫的瓶颈分析与动态线程优化方案
盲目创建过多线程会导致大量的线程上下文切换（Context Switching）。当线程数量超过CPU核心数时，操作系统需要保存和恢复线程的状态，这个过程会消耗...
小白学大数据 27天前2025-09-17 16:46:34
python爬虫、java-6
处理动态Token：Python爬虫应对AJAX授权请求的策略
动态Token是一种由服务器生成并下发给客户端的凭证，客户端在后续请求（如AJAX分页、数据提交）中必须携带该凭证以供验证。其核心特点是一次一性或有时效性，常见...
小白学大数据 28天前2025-09-16 16:46:26
ajax、token
协程+连接池：高并发Python爬虫的底层优化逻辑
为了解决这两个问题，我们的武器库里有两大法宝：协程解决I/O等待问题，连接池解决TCP连接复用问题。
小白学大数据 29天前2025-09-15 16:45:56
python、高并发
“所见即所爬”：使用Pyppeteer无头浏览器抓取动态壁纸
在数据抓取的领域中，我们常常会遇到一个棘手的难题：许多现代网站大量使用JavaScript在用户浏览器中动态地渲染内容。传统的爬虫库（如Requests搭配Be...
小白学大数据 2025-09-112025-09-11 16:46:16
python、动态代理、浏览器
Java并发爬虫实战：快速批量获取各省份人口详情
我们的目标是高效、稳定、可扩展地获取数据。因此，在技术选型上，我们选择了以下强大的Java库：
小白学大数据 2025-09-102025-09-10 16:53:34
python爬虫、java
构建企业级Selenium爬虫：基于隧道代理的IP管理架构
在当今数据驱动的商业世界中，网络爬虫是企业获取竞争情报、市场数据和公开信息的强大工具。Selenium作为浏览器自动化领域的标杆，因其能完美模拟人类用户行为、处...
小白学大数据 2025-09-092025-09-09 16:50:25
selenium
处理Cookie和Session：让Python爬虫保持连贯的"身份"
在深入代码实现之前，我们需要先理解Cookie和Session的基本概念及其在HTTP协议中的工作原理。
小白学大数据 2025-09-082025-09-08 16:30:41
session、python、cookie
应对反爬：使用Selenium模拟浏览器抓取12306动态旅游产品
在当今数据驱动的时代，网络爬虫已成为获取互联网信息的重要手段。然而，许多网站如12306都实施了严格的反爬虫机制，特别是对于动态加载的内容。本文将详细介绍如何使...
小白学大数据 2025-09-042025-09-04 16:43:49
selenium、python爬虫
Scrapy框架实战：大规模爬取华为应用市场应用详情数据
在移动互联网时代，应用商店（App Store）汇聚了海量的应用数据，这些数据对于市场分析、竞品研究、用户行为洞察乃至投资决策都具有无可估量的价值。华为应用市场...
小白学大数据 2025-09-032025-09-03 16:54:14
scrapy、爬虫图片
分布式爬虫的全局请求间隔协调与IP轮换策略
在当今的大数据时代，单机爬虫的能力已远远无法满足海量数据采集的需求。分布式爬虫通过将爬取任务分发到多台机器（节点）上并行执行，极大地提升了效率和规模。然而，这种...
小白学大数据 2025-09-022025-09-02 16:48:46
分布式、python爬虫
模拟登录与Cookie持久化：爬取中国汽车网用户专属榜单数据
在HTTP这个无状态协议中，Cookie是服务端用来识别用户身份的关键技术。当您成功登录后，服务器会返回一个或多个Cookie（通常是Session ID），浏...
小白学大数据 2025-09-012025-09-01 16:52:35
大数据、cookie
Scrapy 框架实战：构建高效的快看漫画分布式爬虫
Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架，它提供了强大的数据提取能力、灵活的扩展机制以及高效的异步处理性能。其核心架构包括：
小白学大数据 2025-08-282025-08-28 16:49:13
python、scrapy
实战解析：如何精准定位并提取京东商品的 SKU 数据
在电商精细化运营、比价系统、价格监控、库存同步、智能补货、竞品分析等场景中，“SKU（Stock Keeping Unit）” 是最小粒度、最稳定、最不可再拆分...
小白学大数据 2025-08-272025-08-27 16:48:01
python、京东小程序
破解豆瓣Ajax动态加载：Python爬取完整长评论和短评
在互联网数据采集领域，动态加载内容一直是爬虫开发者需要应对的重要挑战。豆瓣作为中国知名的文化内容社区，其评论系统采用了Ajax动态加载技术，传统的简单爬虫难以获...
小白学大数据 2025-08-262025-08-26 16:44:26
ajax、python
用Python的Requests+BeautifulSoup爬取微博热搜榜及话题内容
在当今的互联网时代，社交媒体平台如同一个巨大的脉搏传感器，实时反映着社会的关注焦点和舆论动向。新浪微博，作为中国领先的社交媒体平台之一，其热搜榜更是成为了解当下...
小白学大数据 2025-08-252025-08-25 16:51:51
beautifulsoup、requests
应对频率限制：设计智能延迟的微信读书Python爬虫
在互联网数据采集领域，频率限制（Rate Limiting）是爬虫工程师最常遇到的“拦路虎”之一。微信读书作为一个拥有海量优质图书和用户数据的平台，其反爬虫机制...
小白学大数据 2025-08-222025-08-22 16:34:41
python

12 3 4 5 6 7 8...41 下一页

个人简介

亿牛云 | python爬虫工程师
简单的python学习者
程序人生
暂未填写学校和专业
http://ip.16yun.cn:817/accounts/phone_register/?sale_user=ZM_seven7
四川省 | 成都市
加入社区时间：2019-02-20

个人成就

获得 1.1K 次赞同
文章被阅读 423.4K 次

关注了：6关注者：26