之前一直觉得爬虫很神秘,这两天用空余时间去看了一下,才发现其实爬虫的原理很简单。通过两天晚上的学习做了一点点小实验,把所有开设“测绘工程”专业的高校给爬了下来(程序运行花了点时间)。现在把整个实现的过程分享一下。
Step 1 工具准备
编程语言:Python 3,7
IDE:PyCharm
Python模块: requests、BeautifulSoup
Step 2 爬虫原理——先看一个小例子
在亚运会LOL表演赛结束后,夺得参冠军的赛队员人气爆棚。一位gay兮兮中单玩家小虎打算关注一下他们的微博。小虎从好朋友——爱喝奶茶的Karsa那里拿到了下面这份表格。如果小虎想要关注亚运冠军的微博,那表格的第三列对他而言就是有用的信息。。
第二天,小天才发明家Able的小朋友找到了对他最好的小虎,希望小虎把表格给他看一下,但是小虎却给了Able下面这张List,而不是表格。如果Able想要关注亚运冠军的微博,这张List里面所有以“微博ID:”开头的行就是有用的信息,也就是说只要摘取“微博ID:”开头的行就行了,更进一步可以说,。
姓名:简自豪
比赛ID:Uzi
微博ID:UziQAQ
姓名:严君泽
比赛ID:Letme
微博ID:RNGLetme
姓名:史森明
比赛ID:ming
微博ID:rngming
姓名:刘世宇
比赛ID:Mlxg
微博ID:mlxgzzz
姓名:田野
比赛ID:Meiko
微博ID:Meiko田野
姓名:苏汉伟
比赛ID:Xiye
微博ID:WExiye
所以不难发现,日常生活中要获取有用的数据,那么这个数据一般会有一定的格式。在网页爬虫中,这个格式就是HTML——一种文本标记语言。下面是一小段HTML,
通过这一小段语句可以发现每一个我们能看到的文字都是以这样的格式出现:
通过这一特性就可以把需要爬的目标给截取下来。(有点像正则表达式)。所以爬虫的基本原理就是格式匹配(我认为)。至于爬取所有开设“测绘工程”专业的高校,下一篇再说吧。
领取专属 10元无门槛券
私享最新 技术干货