python系列之爬虫简介

爬虫全过程

什么是爬虫?

网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

爬虫怎么爬?

简单来说就是程序去获取web页面上自己想要的数据,全自动的去获取网页上我们所需要的信息。

爬虫能爬什么?

运用爬虫你可以爬小说,你可以爬图片,你也可以爬视频等等

你给你的程序一个url,然后它会给你返回网页上的内容给你,然后帮你把你想要的内容挑选出来,保存起来。

简单来说就是这样。

import urllib.request #引入urllib库 response=urllib.request.urlopen("https://www.baidu.com")  

#发出请求并且接收返回文本对象

html = response.read()

#调用read()进行读取

print(html)  #打印

这是一个简单的爬虫例子,获取百度的页面的html代码,并打印出来

本文分享自微信公众号 - 孤独的S(sjw_980305)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-06-19

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

扫码关注云+社区

领取腾讯云代金券