前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >python系列之爬虫简介

python系列之爬虫简介

作者头像
sjw1998
发布2019-09-29 14:53:37
3380
发布2019-09-29 14:53:37
举报
文章被收录于专栏:孤独的S孤独的S

爬虫全过程

什么是爬虫?

网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

爬虫怎么爬?

简单来说就是程序去获取web页面上自己想要的数据,全自动的去获取网页上我们所需要的信息。

爬虫能爬什么?

运用爬虫你可以爬小说,你可以爬图片,你也可以爬视频等等

你给你的程序一个url,然后它会给你返回网页上的内容给你,然后帮你把你想要的内容挑选出来,保存起来。

简单来说就是这样。

import urllib.request #引入urllib库 response=urllib.request.urlopen("https://www.baidu.com")  

#发出请求并且接收返回文本对象

html = response.read()

#调用read()进行读取

print(html)  #打印

这是一个简单的爬虫例子,获取百度的页面的html代码,并打印出来

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-06-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 孤独的S 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档