前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >「工具神器」推荐一个扒网页的神器

「工具神器」推荐一个扒网页的神器

原创
作者头像
叉叉敌
发布2019-03-15 22:47:06
2.6K0
发布2019-03-15 22:47:06
举报
文章被收录于专栏:ChasaysChasaysChasays

前言

前不久写了一篇关于爬虫把网站的帖子,主要是介绍了一些。工具方面的东西,一个是八爪鱼,还有一个是webcopy。还有其他的一些常见的工具,像国外的IDM,IDM也是非常流行的操作建议是非常方便的,不过这几年在爬虫方面,大部分崛起,让导致IDM的软件使用需求变少。也新增了像八爪鱼和Webcopy这样的软件。

使用方法

有网友推荐我做一下Webcopy这样软件的使用方式。他主要的方式主要是分为几个点,一个是可以深度去爬虫爬取一些网页,第二个是可以浏览网页。

在这里插入图片描述
在这里插入图片描述

第一个功能是扫描网页,有哪些结构是可以扫出来,是可以直接一目了然地通过八爪鱼的一个图形显示出来。

点击扫描SCAN这个按钮可以等一段时间就可以看到网站全部内容。通过弹出框的左上角可以发现。如果没有加密的网页是80端口,加密的网址是显示的是443。

在这里插入图片描述
在这里插入图片描述

一个非常出名的网址,不说多了,直接上图。在扫描设置的时候可以设置网易最大深度和网页最大数。。左边绿色的是结构图,右边的是深度,右下是选择是否下载js、css、图片、视频等静态文件。

在这里插入图片描述
在这里插入图片描述
  • 正在爬虫的内容
    在这里插入图片描述
    在这里插入图片描述
    点击Copy之后,弹出一个对话框。选择是就可以了。新建一个目录。
    在这里插入图片描述
    在这里插入图片描述
  • 接下来就开始慢慢的抓取
    在这里插入图片描述
    在这里插入图片描述
    抓取的时间,取决于你的要抓取的网站大小和网速等有关。基本上教程到这里就完了。 还要说的就是最后一步,抓取完了之后保存的页面打开html或htm的文件即可。

小结

可以学习下网站的结构图,以及css、js的运用和学习。工具只是一种辅助,最重要的还是自己掌握自己需要的东西。

最后安利下,在微信公众号「Chasays」里面回复「webcopy」即可获得英文和中文2个版本。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 前言
  • 使用方法
  • 小结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档