文章/答案/技术大牛

发布

首页视频091_尚硅谷_爬虫_scrapy_基本使用

091_尚硅谷_爬虫_scrapy_基本使用

2022-12-022022-12-02 16:02:06播放42

点赞0 收藏 0

尚硅谷Python学科爬虫视频/视频/091_尚硅谷_爬虫_scrapy_基本使用.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
OK，同学们，那么上节课啊，我们把这个SC已经安装完了，包括呢，你在安装过程中你遇到的一些问题，我们也知道怎么去解决了，那既然呢，我们万事俱备是吧？诶接下来我们要干啥呀，我们就开始来使用script这个框架，然后呢来写项目，那在这里边呢，大家注意啊，他写项目的时候呢，先给大家提个醒。开始的时候，但各位同学会稍微的有点不太适应，你不太适应在哪呢？你发现呢，你只写几个单词，然后呢，他就给你提供了很多很多的文件啊，大家看着可能会有点懵，但是不要过于担心，原因是啥呢？你写几个之后，你发现他们是有一个规律的，也就是说它的工作原理上，我们再给大家去讲解就OK了啊，所以在最开始的时候，同学们不要过于去担心，好那么接下来啊，我们就要用SCP来创建一个项目，对吧？来爬取一下这个百度，哎，我们用老的项目，老的网站来讲解新的知识点，这样的话大家好接受一些啊好，同学们，那接下来我们要干啥呢？我们要创建项目了，那开P怎么创建项目呢？同学们注意啊，它创建项目呢，并不是像以前我们一样。在这我。
01:26
拗一个这个什么什么文件不是的，而是啥呢？而是要在我们的终端中，也就CMD，诶在终端中去使用这个指令来创建与之对应的项目啊，创建与之对应项目，那这个项目我们应该创在放在哪个文件夹下呢？同学们，我还想放在哪啊，当然你无所谓啊，你放哪都行，我还想放在这个文件夹下行不行呢？可以吧各位，因为这样的话，到时候给各位同学传递课件的时候，我们就方便一点。
02:00
那我怎么切换到这个文件呢？怎么在这个文件夹下去创建项目呢？首先在这儿我们打一下CD，然后啊，教各位同学一个非常简单的操作，我把它拖过来，哎，拖过来之后，此时就是它的路径了，我进到这里边，你看神奇吧各位，哎，好，当我们把这进入到这个目录之后，我们就可以干啥了呢？使用script的指令来创建script的项目，但是啊，各位同学，一会儿我会给他写笔记，你在创建项目的时候有很多需要注意的地方。首先这个项目的名称啊，不能以数字开头，为什么呢？你看啊，这里边是不是之前都是以书字开头的，诶我们看是不是都以书字开头的，在这儿同学们我们就不能把书字开头的，这是script的一个规定啊，还有一个就是汉字也不行啊，汉字在创建爬虫文件的时候不行啊，在创建项目的时可以这个呢，稍后我们再来说，那现在接下来我们先创建一个项目来创建项目指令是P。
03:09
啊，Start pro起个名啊，这个名起啥呢？假如说起一个叫做下划线啊，叫啥呢？叫百度下划线，给他一个什么同学们，我给他一个数值091对吧？哎，为了和这个数字能对应上，大家也知道是怎么去找的走。好，同学们，同学们看可能说看快了，同学说老师你这个是不是报错了呀，对吧，我告诉各位啊，这是没有错的，你看人家说了，说你可以开始一下。你可以开始一下你的第一个爬虫项目，对吧，然后下边是有个向导，那么同学们这创建完之后在这里边有吗？同学看有没有各位，但是创建完之后你发现很夸张啊，同学们，它很夸张啊，咋的了，他是不是就三个单词直接就给你这么多的东西啊，是吧？诶很夸张。
04:12
那么现在我们先在这里边啊，写个小笔记啊，我创建一个啥呢？创建一个test的文件在这里边，哎，我们先写上啊，第一步叫啥呀，叫创建爬虫的项目，怎么创建呢？叫SCP加上start project加上项目的名字，那有一个需要注意的点哈，注意啊，项目的名字不允许。和谁呢？不允许使用啊，使用数字开头，这不可以啊，也不能。包含中文啊，因为啥呢？因为这个后边的爬虫文件那块它会报错，所以说不允许包含中文，这是我们创建爬虫项目，那创建爬虫项目之后同学们。
05:12
我们接下来要干啥，说在这里边啊，它提示你了，你要到哪呢，到CD，然后CD到哪SCP，然后百度091，也就是他。对吧，在这里啊，他让你进去到这个文件夹下，但对不起，我们不进去它，我们进到哪呢？我们进到spid斯文件里边，诶，我们进入到这里边儿之后，然后在这里边儿来创建爬虫文件。其实我们的代码基本上都是在这个爬虫文件中去写的，一会我们来创建它啊，那这里边都有啥呢？它暂时只有一个init的一个PY文件，我们先不用去管它，第二步同学们要注意了，第二步我们要做的是叫做创建。
06:07
爬虫文件，那么创建爬虫文件我们应该怎么创建呢？首先要在哪spiders文件夹中去创建爬虫文件，这是必须的，那你是不是得跳到那里边啊，怎么进去啊，是不是CD，然后加上啥呢？加上这个项目的名字啊，SCP_百度下线091啊，然后他下边的谁呀，是不是还是他呀。对吧，然后再下边的什么spiders是吧，各位，哎，你可要看好这个层次关系好，那么紧接着大家注意啊，其实它是这个样子的，CD叫项目的名字反斜杠，再来一个项目的名字。
07:06
然后再反斜杠，然后叫啥呀，Spiders，哎，是这样的啊好这玩意儿之后呢，我如何去创建spiderers，也就爬虫文件是这么创件叫做scray j spider，那j spider然后加上啥呢？加上爬虫文件的名字，然后加上啥呢？要爬取的网页，哎，要爬取的网页，那同学现在有点懵了，那老师你说的是啥呀，大家对不对呀，我们项目部创建完了吗？那接下来看我们要在这个spiders里边去创建啥呢？去创建爬虫文件，所以说我先进来咋进来CD啊SC，然后百度01SC。
08:00
哎，百度零幺，然后加上啥呀，Spiders对吧，你进到这里边，你去创建爬虫文件，怎么创建来着，在这了写上scy j spider啊j spider爬出文件的名字，我们起个名吧，叫啥呀，叫百度，那你要爬取的这个域名，要爬取的网页是啥呢？在这里边说实话啊，同学们，一般情况下我们不会写HTTP啊，我们会直接写3W点百度点。com，那为啥呢？同学们，我马一会儿来告诉你，马上就知道了，走好，同学们。在这呢，提示了啊，说创建了爬虫文件，百度百度，那我们来看一下呗，说这里边有吗？走它，诶看到了吗？同学们是不是有啊，在这我再写一个啥呢？它的一个应用案例是吧，这样的话大家有一个对比，Script spider加啥百度，然后加上啥呢？域名要排序，网页HTTP冒斜线3W，不需要加引号啊百度点com，那我说过一般情况下啊，一般情况下不需要添加啥呀，HTTP协议啊，为啥呢？你看这里啊走同学们，这个就是你刚才写的域名之所以不让你添加。
09:28
是是因为啥呀，是因为它这个起始URL前边它就自动给你拼接一个它，而这个路径就不成立了。啊，一会儿我再来准确的说明一下，那么这个文件都有啥特点呢？来有几个，我先给大家写一个注释在这里边，这个叫爬虫文件，爬虫的名字叫爬虫的名字一般用于啥呢？用于运行，运行爬虫的时候使用的值。
10:07
啊，一会儿我再告诉大家，那这个叫啥呢？它叫允许访问的域名，啥叫语音访问，我现在爬百度，那我突然间我在中间插一杠子，我爬淘宝爬京东行吗。是不是不行各位，所以这个是我们允许访问的域名，你除了这个域名之外，或者它下边的子集域名之外，那么不允许有其他的域名去访问，明白各位，哎，只允许访问的域名，那这个叫啥呀？这个叫起始的。起始的URL地址啥叫起始的UR地址呢？指的是。指的是第一次要访问的域名啊，那有同学老师啥时候第二次啊，大家你要注意啊，我们后期会爬啥呢？会爬出，假如说第一页访问域名之后，我通过第一页点进去，进到第二页，那么第二页的数据也是我们想要的时候，我们就知道了，对吧？哎，这是第一次要访问的啊，第一次要访问的，所以说这里边儿为什么啊，注意啊，这个start URL是啥呢？是这个是在。
11:35
Louds的前面添加一个啥，你看到了吧，是不是添加了htt冒斜线呢，添加了它，然后在allows这个值的。写上后边同学们注意啊，在它的后边又添加了一个啥呀，一个斜线，哎，那么之所以我去这么写，大家注意啊，为啥我不让你在这儿去加HTTP的原因是因为因为来了吧，因为来了吧start的值是根据谁loudins它的值改变的，修改的。所以如果。
12:36
添加了HTTP的话，那么谁起始的ul就是start ul的值就需要我们手动去修改了，同学们听懂了吗？各位，哎，你要干啥呀？你要把它干掉，明白了吧？这就是啥呀？这就是我们刚才为啥不让你去写HTP的原因了，当然你写上我们再把它删掉，我们也不认为你是错的，听懂了吗？各位哎，千万要注意啊，这里边现在有三个啊，一个就是name，这是爬虫要运行爬虫的时候要用的，一个叫允许访问的域名啊，啥允访问名，你下边你起始UR，你自己定义了，你写个京东，那他能访问吗？
13:24
不能反问为啥呀，因为他不允许呀，它只允许谁呀，他是不是只允许百度啊，所以在这里边啊，这是不一样的地方啊，千万注意，这是不一样的地方。好，同学们，那这个是一个啥呢。大家注意啊，这个是运行，是执行了起始URL之后啊，之后执行的方法，那么方法中的response就是什么啊，就是给返回的，返回的那个对象就是我们的相当于啊写上。
14:10
相当于U这个response这个response一样啊，等于U方点request。点什么URL open，哎，这个一样还相当于啥呢。Respond等于什么requests.get哎，都一样，就是它，它已经有了，你不需要再去干啥了，去执行这堆操作了，不需要了啊，而在这里边我们先别着急去使用response，我先打印，一句话，打印啥打啥呢，叫苍茫的。天涯是我的爱，明白各位爱是我的爱，那这里边之后我咋运行，你看呢，同学们，这个是不是都是人家给你生成的，你啥也没干，你唯一写的一句话就它。
15:04
是吧，很神奇的样子啊，对吧，你唯一写的一句话就是他啊，啥也不用去管啊，啥也不去管好，OK同学们，那接下来啊，我们要干啥呢？你这玩意儿写完之后它咋运行啊是不是，所以我们还剩一步就是啥呢运行。啊，运行爬虫代码咋运行呢？大家注意啊，是这么运行的，叫SCCRA啊SCCRA加上啥爬虫的名字，这个爬虫的名字是谁？是不是各位不就他吗？对吧，哎，就是这里边写个EG啊，就是SCCRA加上啥叫百度明白不对，哎，是这样的啊，那同学们接下来我们就来运行一下，看我们运行结果会不会啥，咱不说你会执行这个啥这个方法了吗？那这句话会不会打印呢？来看一下来执行啊叫sc crave好加上啥叫百度走你。
16:14
好，这里边我们得看看有没有这句话，走走走走走，我们发现呢，他好像没给我们这句话，那为啥没国际化呢？他应该做了一些许的反扒，这个反扒是啥意思啊？就是人家限制你了呗，第一个谁限制了，看这里边要注意啊，第一个我们要改的东西叫robots协议，啥叫robot协议？同学们，它是一个君子约定，君子约定就是你不能爬我百度。啊，不能爬我百度啥意思，给大家找一找啊找一找，呃，那假如说我们在这看一下啊，看可不可以看到百度的，他在后边再加一个啥，加一个叫robots。
17:03
点TST走，大家你看你当你在域名下边加了一个tit的话，他说了啊，你百度的spider你能不能去爬是吧，云云，你看这不DC吗，能爬吗，都不能爬，然后这个什么谷歌的是吧，然后这个MSNBOO的，然后这个什么叫百度spider image，什么有道的呀，搜狗的呀，什么什么之类是不是很多很多呀，这个叫啥呀，同学们，这个叫君子协议。啊，给大家看一下，啥叫君子协议，就是各大厂商啊，各大厂商咋的互相有个约定啊，你也别怕我，我也别怕你，咱是这样的，但是而我们爬虫文件，我们需要遵守吗？啊，不能，那有句话说的好哈，防君子，但对不起他，不防我们那同学老师，那你这咋改呀？告诉各位看啊，这里边有个塞艇斯啊，我们接来很多的代码呢，都是在这里边写的，那么这个settings里边有一个东西叫啥robots啥等于处，哎，让你干啥呀，去遵守热包协议，那我们咋整？对不起了，我们不需要遵守你了，是吧？哎，默认情况下是遵守的，而我们不需要遵守的，那我们来看一下，走你。
18:23
我们再看有没有给我打印啊，同学们，你看有没有OK吧，各位，这不就是苍茫的天涯，是我的爱吗？哎，所以说大家注意啊，你由于去使用了SC，那它是人家光明正大的一个爬虫软件，那你去爬它的时候，在这个理论上来讲啊，同学们注意啊，理论上来讲咋的，我必须得遵守，但是那但是我要干啥，我可以把它注释掉啊，如果写着。注释掉之后，那么就不可以咋了访问了，听懂了吧，注释掉之后，它就不是不可以访问了，就不遵守啥这个robots协议了，它是一个。
19:13
君子协议啊，君子协议一般情况下啊，我们不用遵守啊，不用遵守OK吧，各位好，这就是啥呀，同学们，我们刚才带各位同学体验了一下爬虫的一些基本操作啊的爬虫基本操作在这里边呢，我们还有很多很多东西啊，一会儿呢，我们会再会去讲啥呀，它的这个response里边，这个里边啊response里边都有啥呢？我们一点点来啊一点来好同学们，那这就是的一个基本使用项目的创建，然后爬出文件的定义以及运行，OK，那我把视频暂停一下。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷Python学科爬虫视频

（88/100）

2分1秒

001_尚硅谷_爬虫_课程简介

2471

16分53秒

002_尚硅谷_爬虫_python环境的安装

1851

16分27秒

003_尚硅谷_爬虫_pip指令使用

1570

15分53秒

004_尚硅谷_爬虫_终端和文件运行python代码

1130

17分31秒

005_尚硅谷_爬虫_pycharm的安装以及基本使用

1150

10分12秒

006_尚硅谷_爬虫_pycharm结构介绍以及基本配置

1120

9分29秒

007_尚硅谷_爬虫_注释

920

10分54秒

008_尚硅谷_爬虫_变量的定义

920

24分59秒

009_尚硅谷_爬虫_变量类型_number_boolean_string

1070

10分8秒

010_尚硅谷_爬虫_变量类型_列表_元组_字典

770

10分41秒

011_尚硅谷_爬虫_查看变量的数据类型

680

17分58秒

012_尚硅谷_爬虫_变量的命名规范

790

13分13秒

013_尚硅谷_爬虫_类型转换_转换为整型

790

6分35秒

014_尚硅谷_爬虫_类型转换_转换为浮点数

700

9分15秒

015_尚硅谷_爬虫_类型转换_转换为字符串

620

25分18秒

016_尚硅谷_爬虫_类型转换_转换为布尔类型

720

15分21秒

017_尚硅谷_爬虫_算数运算符

710

4分52秒

018_尚硅谷_爬虫_赋值运算符

540

16分6秒

019_尚硅谷_爬虫_复合赋值运算符

530

9分13秒

020_尚硅谷_爬虫_比较运算符

610

13分18秒

021_尚硅谷_爬虫_逻辑运算符

590

10分3秒

022_尚硅谷_爬虫_逻辑运算符性能提升

570

7分46秒

023_尚硅谷_爬虫_输出

510

6分52秒

024_尚硅谷_爬虫_输入

510

9分32秒

025_尚硅谷_爬虫_流程控制语句_if关键字

530

6分45秒

026_尚硅谷_爬虫_流程控制语句_if案例练习

540

4分48秒

027_尚硅谷_爬虫_流程控制语句_ifelse关键字

550

4分38秒

028_尚硅谷_爬虫_流程控制语句_ifelse案例练习

590

12分16秒

029_尚硅谷_爬虫_流程控制语句_elif

500

20分7秒

030_尚硅谷_爬虫_流程控制语句_for循环

770

16分15秒

031_尚硅谷_爬虫_字符串高级

690

11分27秒

032_尚硅谷_爬虫_列表高级_添加

690

3分4秒

033_尚硅谷_爬虫_列表高级_修改

640

7分52秒

034_尚硅谷_爬虫_列表高级_查询

610

8分40秒

035_尚硅谷_爬虫_列表高级_删除

640

7分39秒

036_尚硅谷_爬虫_元组高级

540

9分12秒

037_尚硅谷_爬虫_切片

560

7分54秒

038_尚硅谷_爬虫_字典的高级_查询

680

3分29秒

039_尚硅谷_爬虫_字典的高级_修改

520

4分0秒

040_尚硅谷_爬虫_字典的高级_添加

560

6分34秒

041_尚硅谷_爬虫_字典的高级_删除

620

9分39秒

042_尚硅谷_爬虫_字典的高级_遍历

580

7分57秒

043_尚硅谷_爬虫_函数_函数的定义和调用

650

10分17秒

044_尚硅谷_爬虫_函数_函数的参数

590

8分44秒

045_尚硅谷_爬虫_函数_函数的返回值

660

6分17秒

046_尚硅谷_爬虫_函数_函数的局部变量和全局变量

540

13分16秒

047_尚硅谷_爬虫_文件_文件的打开和关闭

580

9分45秒

048_尚硅谷_爬虫_文件_文件的读写

590

21分24秒

049_尚硅谷_爬虫_文件_文件的序列化和反序列化

720

4分43秒

050_尚硅谷_爬虫_异常

660

14分2秒

051_尚硅谷_爬虫_页面结构的介绍

690

22分40秒

052_尚硅谷_爬虫_爬虫相关概念介绍

900

15分3秒

053_尚硅谷_爬虫_urllib_基本使用

740

10分56秒

054_尚硅谷_爬虫_urllib_1个类型和6个方法

650

9分44秒

055_尚硅谷_爬虫_urllib_下载

680

16分28秒

056_尚硅谷_爬虫_urllib_请求对象的定制

700

16分29秒

057_尚硅谷_爬虫_urllib_get请求的quote方法

710

12分1秒

058_尚硅谷_爬虫_urllib_get请求的urlencode方法

630

13分4秒

061_尚硅谷_爬虫_urllib_ajax的get请求豆瓣电影第一页

810

27分30秒

062_尚硅谷_爬虫_urllib_ajax的get请求豆瓣电影前10页

690

14分1秒

063_尚硅谷_爬虫_urllib_ajax的post请求肯德基官网

440

8分11秒

064_尚硅谷_爬虫_urllib_异常

490

15分21秒

065_尚硅谷_爬虫_urllib_微博的cookie登陆

490

8分12秒

066_尚硅谷_爬虫_urllib_handler处理器的基本使用

420

13分18秒

067_尚硅谷_爬虫_urllib_代理

400

6分11秒

068_尚硅谷_爬虫_urllib_代理池

400

8分46秒

069_尚硅谷_爬虫_解析_xpath插件的安装

540

31分54秒

070_尚硅谷_爬虫_解析_xpath的基本使用

500

29分30秒

072_尚硅谷_爬虫_解析_站长素材

490

20分36秒

073_尚硅谷_爬虫_解析_jsonpath

430

10分51秒

074_尚硅谷_爬虫_解析_jsonpath解析淘票票

420

40分32秒

075_尚硅谷_爬虫_解析_bs4的基本使用

390

12分18秒

076_尚硅谷_爬虫_解析_bs4爬取星巴克数据

370

6分29秒

077_尚硅谷_爬虫_selenium_为什么要学习selenium

470

10分0秒

078_尚硅谷_爬虫_selenium_基本使用

430

11分59秒

079_尚硅谷_爬虫_selenium_元素定位

420

6分10秒

080_尚硅谷_爬虫_selenium_元素信息

320

12分24秒

081_尚硅谷_爬虫_selenium_交互

410

7分18秒

082_尚硅谷_爬虫_selenium_phantomjs的基本使用

400

7分27秒

083_尚硅谷_爬虫_selenium_handless

430

11分20秒

084_尚硅谷_爬虫_requests_基本使用

470

12分29秒

085_尚硅谷_爬虫_requests_get请求

350

7分56秒

086_尚硅谷_爬虫_requests_post请求

440

6分3秒

087_尚硅谷_爬虫_requests_代理

350

40分44秒

088_尚硅谷_爬虫_requests_cookie登陆古诗文网

420

7分32秒

089_尚硅谷_爬虫_requests_超级鹰打码平台的使用

410

18分8秒

090_尚硅谷_爬虫_scrapy_安装

460

19分59秒

091_尚硅谷_爬虫_scrapy_基本使用

420

17分43秒

092_尚硅谷_爬虫_scrapy_58同城项目结构和基本方法

370

20分45秒

093_尚硅谷_爬虫_scrapy_汽车之家scrapy工作原理

450

11分55秒

094_尚硅谷_爬虫_scrapy_scrapyshell

420

24分10秒

095_尚硅谷_爬虫_scrapy_当当网爬取数据

400

15分34秒

096_尚硅谷_爬虫_scrapy_当当网管道封装

420

6分5秒

097_尚硅谷_爬虫_scrapy_当当网开启多条管道下载

320

11分25秒

098_尚硅谷_爬虫_scrapy_当当网多页下载

380

24分0秒

099_尚硅谷_爬虫_scrapy_电影天堂多页数据下载

470

11分16秒

100_尚硅谷_爬虫_scrapy_链接提取器的使用

470

18分56秒

101_尚硅谷_爬虫_scrapy_crawlspider读书网

360

21分33秒

102_尚硅谷_爬虫_scrapy_读书网数据入库和链接跟进

470

100

5分59秒

103_尚硅谷_爬虫_scrapy_日志信息以及日志级别

420

091_尚硅谷_爬虫_scrapy_基本使用

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐