小白学大数据

文章/答案/技术大牛

发布

LV0

发表了文章 1天前2025-11-27 16:45:18

Python爬虫伪装策略：如何模拟浏览器正常访问JSP站点

在编写代码之前，理解我们的“对手”至关重要。JSP站点通常通过以下几种方式识别和拦截爬虫：

小白学大数据 1天前2025-11-27 16:45:18

python、jsp、动态代理

发表了文章 2天前2025-11-26 16:52:28

构建混合爬虫：何时使用Requests，何时切换至Selenium处理请求头？

混合策略的精髓：用Selenium做“钥匙”，用Requests做“收割机”。让Selenium去完成那些需要浏览器环境才能完成的“脏活累活”（如登录、获取C...

小白学大数据 2天前2025-11-26 16:52:28

selenium、requests

发表了文章 4天前2025-11-24 16:50:02

应对12306反爬虫机制：JS加密参数逆向分析

参数加密机制的核心在于：服务器通过验证请求参数的完整性和时效性来区分人类用户与机器程序。当您在网页上点击"查询"时，浏览器会执行复杂的JS代码，生成一个或多个经...

小白学大数据 4天前2025-11-24 16:50:02

python、json、动态代理

发表了文章 8天前2025-11-20 16:54:41

构建稳定爬虫：为番茄小说爬虫添加IP代理与请求头伪装

一、引言：为何我们的爬虫会被“封杀”？当我们兴致勃勃地编写好一个爬虫脚本，初期运行顺畅，但很快便会遭遇 403 Forbidden、429 Too Many ...

小白学大数据 8天前2025-11-20 16:54:41

python、动态代理

发表了文章 9天前2025-11-19 16:48:56

异步与并发：利用Java多线程技术提升淘宝商品爬取效率

通过异步与并发编程，我们可以将原本线性增长的总耗时，降低几个数量级，实现近乎与线程数成正比的抓取速度。

小白学大数据 9天前2025-11-19 16:48:56

多线程、java-6

发表了文章 10天前2025-11-18 16:50:24

定时抓取与更新：用Python爬虫构建自己的新闻简报系统

整个系统的工作流可以概括为：定时器在预设时间（如每天上午9点）启动爬虫 -> 爬虫抓取新闻并去重后存入数据库 -> 从数据库中提取当日新增新闻 -> 生成HTM...

小白学大数据 10天前2025-11-18 16:50:24

python

发表了文章 11天前2025-11-17 16:58:07

Scrapy框架在小米应用市场爬虫项目中的实战应用

Scrapy，作为Python生态下最著名的专业爬虫框架，以其高内聚、低耦合的“五大件”架构（Spider、Item、Pipeline、Downloader、S...

小白学大数据 11天前2025-11-17 16:58:07

scrapy、python

发表了文章 14天前2025-11-14 16:19:02

爬虫监控与报警：Python实现前程无忧爬虫运行状态监控

我们的监控系统将围绕这些维度，通过日志分析、心跳检测和指标上报等方式，并在异常发生时通过多种渠道（如邮件、钉钉、微信）发出警报。

小白学大数据 14天前2025-11-14 16:19:02

python

发表了文章 15天前2025-11-13 16:50:13

突破反爬：使用代理IP和User-Agent轮询爬取音乐数据

通过代理IP轮询和User-Agent管理的结合使用，我们可以有效应对大多数基础和中级的反爬措施。本文提供的代码框架具有良好的扩展性，可以根据具体需求添加以下高...

小白学大数据 15天前2025-11-13 16:50:13

user-agent、动态代理

发表了文章 16天前2025-11-12 16:53:48

在Scrapy中如何处理API分页及增量爬取

一、理解挑战：为何要处理分页与增量爬取？1. API分页 API分页是一种将大量数据分割成多个较小、可管理块（即页面）的技术。常见的分页模式包括：页码分页：最直...

小白学大数据 16天前2025-11-12 16:53:48

scrapy、python-3.4

发表了文章 17天前2025-11-11 16:47:30

从Bing图片搜索JSON API直接获取数据

识别 API 请求：你会观察到一些包含 "search" 或 "api" 的请求，其响应类型为 JSON。经过分析，Bing 的主要图片搜索 API 端点通常模...

小白学大数据 17天前2025-11-11 16:47:30

bing-maps、JSON Web Token

发表了文章 18天前2025-11-10 16:40:50

时序数据分析：Python爬取新浪财经频道新闻并绘制趋势图

引言：数据背后的商业脉搏在信息爆炸的时代，财经新闻不仅是市场动态的反映，其本身也是一种极具价值的时间序列数据。通过对海量财经新闻进行爬取、分析和可视化，我们可以...

小白学大数据 18天前2025-11-10 16:40:50

python、数据分析

发表了文章 23天前2025-11-05 16:48:27

完整工具链：从爬取、解析到可视化12306城市数据的全流程实现

在数据驱动的时代，获取并理解公共数据已成为技术决策和商业分析的关键环节。12306作为中国铁路客运服务的核心系统，其背后庞大的城市站点数据不仅对旅行规划至关重要...

小白学大数据 23天前2025-11-05 16:48:26

python、数据可视化

发表了文章 24天前2025-11-04 16:51:04

构建1688店铺商品数据集：Python爬虫数据采集与格式化实践

我们的目标是：输入一个1688店铺主页URL，输出一个包含该店铺所有商品结构化信息的数据库或文件（如CSV、JSON）。

小白学大数据 24天前2025-11-04 16:51:04

python、数据采集

发表了文章 25天前2025-11-03 16:53:16

集成Scrapy与异步库：Scrapy+Playwright自动化爬取动态内容

一、为什么选择Scrapy + Playwright？在技术选型时，我们有必要理解这套组合拳的优势所在：强强联合的异步架构：Scrapy基于Twisted，是...

小白学大数据 25天前2025-11-03 16:53:16

scrapy、playwright、python

发表了文章 29天前2025-10-30 16:40:48

利用Selenium和PhantomJS提升网页内容抓取与分析的效率

Selenium本身是一个自动化测试工具，用于模拟真实用户操作。直接使用它来爬虫可能会很慢。提升效率的关键在于，将其从“模拟视觉化用户”转变为“高性能的无头数据...

小白学大数据 29天前2025-10-30 16:40:48

selenium、phantomjs

发表了文章 30天前2025-10-29 16:47:25

数据获取与分析全流程：Python爬取并可视化贝壳成交趋势

在动手之前，我们必须明确目标和路径。我们的核心流程是：获取数据 -> 清洗存储 -> 分析可视化。

小白学大数据 30天前2025-10-29 16:47:25

python、数据可视化

发表了文章 2025-10-282025-10-28 16:44:46

Python爬虫定时任务：自动化抓取豆瓣每日最新短评

在开始编码前，我们需要规划完整的解决方案架构。一个健壮的定时爬虫系统应包含以下核心模块：

小白学大数据 2025-10-282025-10-28 16:44:46

python、大数据

发表了文章 2025-10-272025-10-27 16:45:35

从快手评论数据中挖掘舆情：Python爬虫与文本分析实战

一、项目概述与技术栈我们的目标是分析某个特定快手视频（或一系列视频）的评论舆情。整个流程分为两大核心模块：数据获取模块：通过模拟请求，抓取目标视频下的所有评论数...

小白学大数据 2025-10-272025-10-27 16:45:35

python

发表了文章 2025-10-232025-10-23 16:44:25

Java爬虫性能优化：以喜马拉雅音频元数据抓取为例

我们的目标是抓取喜马拉雅某个特定分类或播主下的音频列表及其元数据。一个最基础的爬虫通常会使用同步阻塞的方式，逐个请求页面或接口，这在效率上是无法接受的。

小白学大数据 2025-10-232025-10-23 16:44:25

java-6、python爬虫

12 3 4 5 6 7 8...42 下一页

个人简介

亿牛云 | python爬虫工程师
简单的python学习者
程序人生
暂未填写学校和专业
http://ip.16yun.cn:817/accounts/phone_register/?sale_user=ZM_seven7
四川省 | 成都市
加入社区时间：2019-02-20

个人成就

获得 1.1K 次赞同
文章被阅读 486.4K 次

关注了：6关注者：26