首页
学习
活动
专区
工具
TVP
发布

python学习路

专栏作者
46
文章
81148
阅读量
26
订阅数
八、多线程爬虫(先占个位置,等整理好线程,进程,协程,异步IO在来写)
计算机的核心是CPU,CPU承担了所有的计算任务。 一个CPU核心,一次只能执行一个任务; 多个CPU核心同时可以执行多个任务。 一个CPU一次只能执行一个进程,其他进程处于非运行状态。 进程里包含的执行单元叫线程; 一个进程可以包含多个线程。 一个进程的内存空间是共享的,每个进程里的线程都可以使用这个内存空间;一个进程在使用这个共享时,其他线程必须等它结束。  python里的lock Queue(队列对象) Queue是python中的标准库,可以直接import Queue引用;队列是线程间最常用的交
酱紫安
2018-04-16
6880
一、scrapy的下载安装---Windows(安装软件太让我伤心了) 总的来说:
写博客就和笔记一样真的很有用,你可以随时的翻阅。爬虫的爬虫原理与数据抓取、非结构化与结构化数据提取、动态HTML处理和简单的图像识别已经学完,就差整理博客了 开始学习scrapy了,所以重新建了个分类。 scrapy的下载到安装,再到能够成功运行就耗费了我三个小时的时间,为了防止以后忘记,记录一下。 我用的是Python3.6.        Windows    需要四步 1、pip3 install wheel 2、安装Twisted a. http://www.lfd.uci.edu/~gohlke
酱紫安
2018-04-16
7990
二、Item Pipeline和Spider-----基于scrapy取校花网的信息 编写item pipeline
Item Pipeline 当Item在Spider中被收集之后,它将会被传递到Item Pipeline,这些Item Pipeline组件按定义的顺序处理Item。 每个Item Pipeline都是实现了简单方法的Python类,比如决定此Item是丢弃而存储。以下是item pipeline的一些典型应用: 验证爬取的数据(检查item包含某些字段,比如说name字段) 查重(并丢弃) 将爬取结果保存到文件或者数据库中 编写item pipeline 编写item pipeline很简单,item
酱紫安
2018-04-16
1.2K0
一、爬虫的基本体系和urllib的基本使用 先进行一个简单的实例:利用有道翻译(post请求)另外一个简单的小实例是:豆瓣网剧情片排名前20的电影(Ajax请求)
爬虫   网络是一爬虫种自动获取网页内容的程序,是搜索引擎的重要组成部分。网络爬虫为搜索引擎从万维网下载网页。一般分为传统爬虫和聚焦爬虫。 爬虫的分类   传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。通俗的讲,也就是通过源码解析来获得想要的内容。   聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略
酱紫安
2018-04-16
1K0
没有更多了
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档