首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Python爬虫学习分享(一)

之前一直觉得爬虫很神秘,这两天用空余时间去看了一下,才发现其实爬虫的原理很简单。通过两天晚上的学习做了一点点小实验,把所有开设“测绘工程”专业的高校给爬了下来(程序运行花了点时间)。现在把整个实现的过程分享一下。

Step 1 工具准备

编程语言:Python 3,7

IDE:PyCharm

Python模块: requests、BeautifulSoup

Step 2 爬虫原理——先看一个小例子

在亚运会LOL表演赛结束后,夺得参冠军的赛队员人气爆棚。一位gay兮兮中单玩家小虎打算关注一下他们的微博。小虎从好朋友——爱喝奶茶的Karsa那里拿到了下面这份表格。如果小虎想要关注亚运冠军的微博,那表格的第三列对他而言就是有用的信息。。

第二天,小天才发明家Able的小朋友找到了对他最好的小虎,希望小虎把表格给他看一下,但是小虎却给了Able下面这张List,而不是表格。如果Able想要关注亚运冠军的微博,这张List里面所有以“微博ID:”开头的行就是有用的信息,也就是说只要摘取“微博ID:”开头的行就行了,更进一步可以说,。

姓名:简自豪

比赛ID:Uzi

微博ID:UziQAQ

姓名:严君泽

比赛ID:Letme

微博ID:RNGLetme

姓名:史森明

比赛ID:ming

微博ID:rngming

姓名:刘世宇

比赛ID:Mlxg

微博ID:mlxgzzz

姓名:田野

比赛ID:Meiko

微博ID:Meiko田野

姓名:苏汉伟

比赛ID:Xiye

微博ID:WExiye

所以不难发现,日常生活中要获取有用的数据,那么这个数据一般会有一定的格式。在网页爬虫中,这个格式就是HTML——一种文本标记语言。下面是一小段HTML,

通过这一小段语句可以发现每一个我们能看到的文字都是以这样的格式出现:

通过这一特性就可以把需要爬的目标给截取下来。(有点像正则表达式)。所以爬虫的基本原理就是格式匹配(我认为)。至于爬取所有开设“测绘工程”专业的高校,下一篇再说吧。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180904G0HC2Y00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券