首页
学习
活动
专区
工具
TVP
发布

数据云团

专栏成员
320
文章
249119
阅读量
44
订阅数
Python-并发下载-回顾
构建网址——>访问网页并获取源代码——>解析源代码——>转成 JSON 格式——>存储到本地文件
小团子
2019-07-18
1.3K0
Python-并发下载-协程实现-上
协程是在一个线程内部执行, 一旦遇到了网络 I/O 阻塞,它就会立刻切换到另一个协程中运行,通行不断的轮询,降低了爬取网页的时间。
小团子
2019-07-18
7220
Python-并发下载-queue模块
由于外部网络不稳定,在使用单线程爬取网页数据时,如果有一个网页响应速度慢或者卡住,整个程序都要等待下去。因此,可以使用多线程、多进程、协程技术实现并发下载网页。
小团子
2019-07-18
1.4K0
Python-数据挖掘-贴吧案例-上
Python-数据挖掘-请求与响应 https://tieba.baidu.com/f?kw=爬虫&ie=utf-8&pn=200 https://tieba.baidu.com/f? 是基础部分,
小团子
2019-07-18
9620
Python-数据挖掘-搜索引擎
② 取出待爬取的 URL,解析 DNS 得到主机的 IP,并将 URL 对应的网页下载下来,存储至已下载的网页库中,并将这些 URL 放进已爬取的 URL 队列。
小团子
2019-07-18
6250
Python-数据挖掘-初识
网络爬虫、网络机器人,是一种按照一定的规则、自动请求万维网网站并提取网络数据的程序或脚本。
小团子
2019-07-18
2960
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档