首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

网络爬虫

需求展示

* 实现一个简单的GUI(图形界面)

* 实现简单爬虫(这里将会爬取网页中的超链接和超链显示的文字)

展示部分网页

下面有豆瓣和百度的网页

上面就是豆瓣的官网了

将鼠标移到最上端的是“读书”字样的时候,就会发现鼠标变成了可以点击的样子。那就说明,“读书”在这其实是一个超链接,即点击之后就可以就可以进入到新的网页了。

我们可以下看下这个网页的源代码。

可以看到,这个超链接,就是“豆瓣图书”,然后超链接地址就是“https://book.douban.com”(也就是说,点击这个图书字样,就可以进入到这样的一个链接的网页下)

同样的,可以看下百度

同样的,在百度的最上方,那里有显示,“新闻”,还有“hao123”等字样,这些同样也是超链接。

至于地址,也是在一个标签中。

做了一个可执行的文件

用python的tkinter做了一个图形界面(封装了这个爬虫)

这次爬虫就是,上述描述 ,做了一个爬取网页中超链接的链接,和对应显示的文字。

之后,我用了pyinstaller 将这个转成了一个可以执行的exe文件。此后,只需要在输入框中输入对应网站的链接,就可以进行爬取。

文件使用方法

描述这个小软件的用法

(1)点击这个软件

(2)在出现的如下框口中的第一行输入网址(不用管是http还是https协议,我这里实现了容错的,不用担心,随便输入就好了)

比如:

输入完之后,就直接点击“查询”按钮

现在你可以回过头来看上面我介绍豆瓣的官网的信息,会发现,超链接的链接地址和对应的名字在这都有

,如果你输入的链接长度太小,就会认为是错误信息不会管的,然后,随便乱输入的一个长度比较大的链接的时候,就默认爬取的是百度的官网(hihi)

所有,容错上做的还是可以的。但是我这里是没有做正则表达式,所以可能容错上,导致了过度容错,使得,有可能对的链接都被理解为错的了(但是这个概率还是比较低的

视频演示

用户下载

介绍下如何下载

任何用户(只要你的电脑系统不是特别特别旧的那种),就是可以直接下载,我的那个软件,直接开始使用 ,没有任何的要求。(这点做的是不是特别溜?(偷笑ing))

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20171211G0CPG300?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券