腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
python进阶学习
专栏成员
举报
291
文章
101165
阅读量
18
订阅数
订阅专栏
申请加入专栏
全部文章(291)
python(184)
爬虫(89)
数据(62)
代理(60)
动态代理(51)
网络爬虫(51)
网站(47)
python爬虫(34)
大数据(33)
框架(25)
tcp/ip(19)
http(16)
selenium(15)
代理服务器(15)
多线程(15)
ip(14)
程序(14)
浏览器(14)
数据库(11)
实践(11)
网络(10)
技巧(9)
java(7)
scrapy(7)
数据分析(7)
数据可视化(7)
验证码(7)
服务器(7)
开发(7)
网络安全(6)
高并发(6)
接口(6)
异步(6)
数据挖掘(5)
html(5)
json(5)
电商(5)
数据处理(5)
产品(5)
登录(5)
对象(5)
解决方案(5)
音频(5)
javascript(4)
自动化(4)
kotlin(4)
haskell(4)
函数(4)
视频(4)
网页爬虫(4)
中间件(4)
scala(3)
存储(3)
分布式(3)
正则表达式(3)
app(3)
cookie(3)
curl(3)
jsoup(3)
pandas(3)
proxy(3)
session(3)
并发(3)
工具(3)
管理(3)
客户端(3)
数据采集(3)
系统(3)
优化(3)
c#(2)
lua(2)
ajax(2)
typescript(2)
symfony(2)
api(2)
搜索引擎(2)
云直播(2)
大数据解决方案(2)
编程算法(2)
https(2)
amazon(2)
beautifulsoup(2)
chrome(2)
h5页面(2)
phantomjs(2)
puppeteer(2)
request(2)
requests(2)
timeout(2)
xpath(2)
测试(2)
反向代理(2)
教程(2)
连接(2)
配置(2)
手机(2)
图表(2)
图片资源(2)
协议(2)
异常处理(2)
网络延迟(2)
数据去重(2)
ios(1)
swift(1)
c 语言(1)
php(1)
go(1)
vue.js(1)
node.js(1)
xml(1)
css(1)
android(1)
硬件开发(1)
云数据库 SQL Server(1)
nosql(1)
django(1)
linux(1)
深度学习(1)
访问管理(1)
云数据库 MongoDB(1)
大数据处理套件 TBDS(1)
大数据可视交互系统(1)
金融(1)
数据安全(1)
hadoop(1)
numpy(1)
自动化测试(1)
迁移学习(1)
微信(1)
实时数据集成(1)
商标注册(1)
生活互联(1)
汽车(1)
agent(1)
aiohttp(1)
asihttprequest(1)
axios(1)
charles(1)
cheerio(1)
com(1)
firefox(1)
graphql(1)
httpclient(1)
http-status-code-301(1)
import(1)
libcurl(1)
matplotlib(1)
nltk(1)
nodejs爬虫(1)
nutch(1)
pymysql(1)
pyspider(1)
python3(1)
sleep(1)
spyder(1)
time(1)
tls(1)
token(1)
url(1)
urllib(1)
user-agent(1)
web(1)
webdriver(1)
百度(1)
报表工具(1)
编程(1)
表单(1)
表格(1)
布局(1)
程序员(1)
定时任务(1)
高德地图(1)
工作(1)
后端(1)
基础(1)
计算机(1)
开发经验(1)
开发者(1)
量化(1)
模型(1)
逆向工程(1)
前端(1)
日志分析(1)
入门(1)
数据存储(1)
搜索(1)
网络编程(1)
微信公众号(1)
线程池(1)
效率(1)
性能(1)
异步编程(1)
异常(1)
音视频(1)
原理(1)
字符串(1)
最佳实践(1)
数据清洗(1)
数据库API(1)
数据缓存(1)
数据流(1)
搜索文章
搜索
搜索
关闭
Pandas与Matplotlib:Python中的动态数据可视化
matplotlib
pandas
数据
python
数据可视化
在数据科学领域,动态数据可视化是一种强大的工具,它可以帮助我们实时监控和分析数据变化。在本文中,我们将探讨如何使用Python中的Pandas和Matplotlib库来实现动态数据可视化,并以访问京东数据为案例进行详细说明。
小白学大数据
2024-09-13
76
0
Java IO异常处理:在Web爬虫开发中的实践
实践
异常处理
java
爬虫
开发
在当今的互联网时代,Web爬虫技术已经成为数据采集的重要手段之一。它们能够自动地从网页中提取信息,为数据分析、搜索引擎优化、内容聚合等提供了强大的支持。然而,Web爬虫在执行过程中可能会遇到各种输入/输出(IO)异常,如网络错误、文件读写问题等。因此,有效地处理这些异常对于确保爬虫的稳定性和可靠性至关重要。本文将探讨Java中IO异常处理的机制,并展示如何在Web爬虫开发中实践这些机制。
小白学大数据
2024-09-05
86
0
Haskell爬虫:连接管理与HTTP请求性能
管理
连接
性能
爬虫
haskell
爬虫技术作为数据抓取的重要手段,其效率和性能直接影响到数据获取的质量与速度。Haskell,作为一种纯函数式编程语言,以其强大的类型系统和并发处理能力,在构建高效爬虫方面展现出独特的优势。本文将探讨在Haskell中如何通过连接管理和HTTP请求优化来提升爬虫的性能。
小白学大数据
2024-09-05
78
0
Haskell网络编程:深入理解代理和TLS配置
配置
网络编程
haskell
tls
代理
在开始深入讨论之前,我们需要对网络编程的基础有所了解。网络编程通常涉及到客户端和服务器之间的通信,这包括但不限于HTTP请求、TCP连接、UDP数据报等。Haskell提供了丰富的库来支持这些操作,例如Network库用于底层的网络通信,而HTTP库则提供了更高层次的HTTP协议支持。
小白学大数据
2024-09-02
68
0
C# 爬虫技术:京东视频内容抓取的实战案例分析
c#
爬虫
开发
视频
数据
随着互联网技术的飞速发展,数据的获取和分析变得愈发重要。爬虫技术作为数据获取的重要手段之一,广泛应用于各个领域。本文将重点探讨C#语言在京东视频抓取中的实现过程,分析其技术细节,并提供相应的代码实现。
小白学大数据
2024-09-02
151
0
Java爬虫中的数据清洗:去除无效信息的技巧
数据清洗
java
爬虫
技巧
数据
在互联网信息爆炸的时代,数据的获取变得异常容易,但随之而来的是数据质量的问题。对于Java爬虫开发者来说,如何从海量的网页数据中清洗出有价值的信息,是一个既基础又关键的步骤。本文将介绍Java爬虫中数据清洗的重要性,常见的无效信息类型,以及几种去除无效信息的技巧和实现代码。
小白学大数据
2024-08-15
91
0
Kotlin 中的网络请求代理设置最佳实践
最佳实践
kotlin
代理
代理服务器
网络
代理服务器充当客户端和目标服务器之间的中介。它接收客户端的请求,然后转发到目标服务器,并将服务器的响应返回给客户端。代理服务器可以是透明的,也可以是匿名的。在某些情况下,代理服务器可能需要认证信息才能允许客户端通过。
小白学大数据
2024-08-09
154
0
爬虫进阶:Selenium与Ajax的无缝集成
代理
数据
ajax
爬虫
selenium
Ajax(Asynchronous JavaScript and XML)允许网页在不重新加载整个页面的情况下与服务器交换数据并更新部分内容。这为用户带来了更好的体验,但同时也使得爬虫在抓取数据时面临以下挑战:
小白学大数据
2024-07-09
174
0
使用Colly库进行高效的网络爬虫开发
异步
爬虫
开发
网络爬虫
协议
随着互联网技术的飞速发展,网络数据已成为信息获取的重要来源。网络爬虫作为自动获取网页内容的工具,在数据分析、市场研究、信息聚合等领域发挥着重要作用。本文将介绍如何使用Go语言中的Colly库来开发高效的网络爬虫。
小白学大数据
2024-06-29
96
0
Swift网络爬虫与数据可视化的结合
swift
爬虫
数据可视化
数据
网络爬虫
网络爬虫,又称为网页蜘蛛或网络机器人,是一种自动获取网页内容的程序。它按照一定的算法顺序访问网页,获取所需信息,并存储于本地或数据库中。网络爬虫在搜索引擎、数据挖掘、市场分析等领域有着广泛的应用。
小白学大数据
2024-06-28
121
0
Puppeteer实战指南:自动化抓取网页中的图片资源
puppeteer
代理
浏览器
图片资源
自动化
Puppeteer是Google Chrome团队开发的一个Node库,它提供了一个高级API来控制Chrome或Chromium浏览器。Puppeteer可以进行网页自动化操作,包括导航、屏幕截图、生成PDF、捕获网络活动等。
小白学大数据
2024-06-28
178
0
从爬取到分析:Faraday爬取Amazon音频后的数据处理
数据处理
amazon
数据
音频
爬虫
Faraday是一个简单、灵活的高级爬虫框架,支持多种编程语言。它提供了一套丰富的API,允许开发者快速构建复杂的爬虫应用。Faraday的主要特点包括:
小白学大数据
2024-06-28
84
0
深入Node.js:实现网易云音乐数据自动化抓取
爬虫
模型
数据
数据库
自动化
Node.js是一个基于Chrome V8引擎的JavaScript运行环境,它允许开发者在服务器端运行JavaScript代码。Node.js的非阻塞I/O模型使其在处理大量并发连接时表现出色,非常适合构建高性能的网络应用。
小白学大数据
2024-06-19
91
0
Web数据提取:Python中BeautifulSoup与htmltab的结合使用
数据
python
beautifulsoup
web
表格
Web数据提取,通常被称为Web Scraping或Web Crawling,是指从网页中自动提取信息的过程。这项技术在市场研究、数据分析、信息聚合等多个领域都有广泛的应用。Python社区提供了丰富的工具和库来支持这一技术,其中BeautifulSoup和htmltab是两个非常有用的库。
小白学大数据
2024-06-18
120
0
Kotlin Fuel库:图像下载过程中的异常处理
kotlin
代理
网络
异常
异常处理
Fuel是一个纯Kotlin编写的HTTP客户端库,它提供了一种简洁的API来发送HTTP请求。Fuel支持同步和异步请求,并且可以轻松地处理JSON、XML和二进制数据。Fuel的设计理念是简单性,它通过链式调用和扩展函数简化了HTTP请求的构建过程。
小白学大数据
2024-06-15
73
0
使用TypeScript创建高效HTTP代理请求
代理服务器
函数
typescript
http
代理
首先,让我们来了解一下什么是HTTP代理请求。在网络通信中,代理是一种充当中间人的服务器,它可以接收客户端的请求并将其转发给目标服务器,然后将目标服务器的响应返回给客户端。而HTTP代理则是一种特殊的代理服务器,它使用HTTP协议来与客户端和服务器进行通信。
小白学大数据
2024-06-13
116
0
爬取京东商品图片的Python实现方法
爬虫
程序
代理
网络爬虫
python
在数据驱动的商业环境中,网络爬虫技术已成为获取信息的重要手段。京东作为中国领先的电商平台,拥有海量的商品信息和图片资源。本文将详细介绍如何使用Python编写爬虫程序,爬取京东商品的图片,并提供完整的代码实现过程。
小白学大数据
2024-06-12
147
0
数据采集-Scrapy框架使用代理IP要点
scrapy
ip
代理
框架
数据采集
scrapy框架通过模块化的设计实现了数据采集的通用功能接口,并提供自定义拓展,它将程序员从繁冗的流程式重复劳动中解放出来,给编程人员提供了灵活简便的基础构建,对于普通的网页数据采集,编程人员只需要将主要精力投入在网站数据分析和网站反爬策略分析上,结合代理IP的使用,可以实现项目的高效快速启动。 主要特性包括: 1)参数化设置请求并发数,自动异步执行 2)支持xpath,简洁高效 3)支持自定义中间件middleware 4)支持采集源列表 5)支持独立调试,方便 shell 方式 6)支持数据管道接口定义,用户可以选择文本、数据库等多种方式 在Scrapy框架中使用代理的方式有如下几种: 1.scrapy中间件 在项目中新建middlewares.py文件(./项目名/middlewares.py),内容如下: #! -- encoding:utf-8 -- import base64 import sys import random PY3 = sys.version_info[0] >= 3 def base64ify(bytes_or_str): if PY3 and isinstance(bytes_or_str, str): input_bytes = bytes_or_str.encode(‘utf8’) else: input_bytes = bytes_or_str output_bytes = base64.urlsafe_b64encode(input_bytes) if PY3: return output_bytes.decode(‘ascii’) else: return output_bytes class ProxyMiddleware(object): def process_request(self, request, spider): # 代理服务器(产品官网 www.16yun.cn) proxyHost = “t.16yun.cn” proxyPort = “31111” # 代理验证信息 proxyUser = “username” proxyPass = “password” request.meta[‘proxy’] = “http://{0}:{1}”.format(proxyHost,proxyPort) # 添加验证头 encoded_user_pass = base64ify(proxyUser + “:” + proxyPass) request.headers[‘Proxy-Authorization’] = 'Basic ’ + encoded_user_pass # 设置IP切换头(根据需求) tunnel = random.randint(1,10000) request.headers[‘Proxy-Tunnel’] = str(tunnel) 修改项目配置文件 (./项目名/settings.py) DOWNLOADER_MIDDLEWARES = { ‘项目名.middlewares.ProxyMiddleware’: 100, } 2.scrapy环境变量 通过设置环境变量,来使用爬虫代理(Windows) C:>set http_proxy=http://username:password@ip:port
小白学大数据
2024-06-08
721
0
如何判断代理IP使用成功
爬虫
ip
程序
代理
网站
当爬虫程序或采集软件配置代理之后,如何判断代理IP使用成功了呢?可以使用查询IP地址这类网站进行协助,例如使用代理IP去搜索百度IP或者访问https://www.ip138.com,这类网站会将HTTP请求的来源IP获取并通过HTTP内容返回,因此如果代理IP转发成功,目标网站返回的内容就应该是代理IP地址。一般会有下面几种情况: 1、代理直接转发 只要将返回的IP地址复制进入百度IP或者https://www.ip138.com进行检查,如果是爬虫服务器的IP地址表示代理IP转发失败,否则就表示代理IP转发成功。 2、代理多次转发 查询IP地址网站返回的内容,既不是爬虫服务器的IP地址,也不是爬虫程序或采集软件直接使用的代理IP地址,而是经过代理IP多次转发后,最后请求IP地址网站的代理IP地址。 3、代理自动转发 部分代理IP产品,会根据爬虫程序或采集软件的每个HTTP请求,自动分配不同的代理IP进行转发,出现每一次查询获取的IP地址都不一样,这样就能在数据采集的过程中,突破目标网站的IP限制行为。要注意这其中又会出现更复杂的情况是,部分IP查询网站会按照cookie等信息直接缓存返回内容,即使代理IP每次请求都会转发不同IP,这类IP查询网站也会返回重复的IP地址,造成代理IP自动转发失败的假象,下面提供demo 示例如下:
小白学大数据
2024-06-08
87
0
python3和scrapy使用隧道代理问题以及代码
python3
测试
代理
浏览器
scrapy
最近有个项目需要爬取药监局数据,对方有ip屏蔽机制。所以我需要在scrapy中实现ip自动切换,才能够完成爬取任务。在此之前,我先使用过第三方库scrapy-proxys加上代理api接口,可能是代码没有完善好,导致测试没有成功。 所以这次选择使用隧道的方式来测试看下,使用的是python3和scrapy库一起测试看下效果。
小白学大数据
2024-06-08
98
0
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
立即查看
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档