爬虫其实很简单!——网络爬虫快速实现(一)

今天我来带领大家一起学习编写一个网络爬虫!其实爬虫很简单,没有想象中那么难,也许所有学问都是这样,恐惧源自于无知。废话不多说,现在开始我们的爬虫之旅吧。

爬虫是什么?

我们时常听说编程大牛嘴边一直念叨着“网络爬虫“,那网络爬虫究竟是何方神圣呢? 网络爬虫能够模仿用户浏览网页,并将所想要的页面中的信息保存下来。有些同学不禁要问:“我自己浏览网页,可以手动将数据保存下来啊,为何要写个程序去爬取数据呢?“道理其实很简单,程序能够在短时间内访问成千上万的页面,并且在短时间内将海量数据保存下来,这速度可远远超越了人工手动浏览网页的速度。

爬虫的原理

爬取网页的过程大致分成两个步骤:

  1. 爬取网页html文件 爬虫的第一步就是要模拟用户浏览网页,获取需要访问的页面。 模拟用户浏览网页的方法很简单,使用Java类库中的URLConnection类即可,这个类可以发送HTTP请求,并返回请求页的二进制数据,我们只需将返回的二进制数据转换成String类型,这些数据就是请求页的HTML文本!
//设置需要爬取页面的URL
URL url = new URL("http://www.baidu.com");  
//建立连接,获取URLConnection对象
        URLConnection connection = url.openConnection();
//将URLConnection对象转换成HttpURLConnection对象
        HttpURLConnection httpConnection = (HttpURLConnection) connection;
        httpConnection.setDoOutput(true);
//获取输出流
        OutputStreamWriter out = new OutputStreamWriter(httpConnection.getOutputStream(), "8859_1");  
//刷新输出流,然后关闭流
        out.flush();  
        out.close();  
        //一旦发送成功,用以下方法就可以得到服务器的回应:  
        String sCurrentLine = "";  
        String sTotalString = "";  
//ResponseCode==200表示请求发送成功!      if(httpConnection.getResponseCode()==200){
//获取服务器返回的输入流
            InputStream l_urlStream = httpConnection.getInputStream();  
            BufferedReader l_reader = new BufferedReader(new InputStreamReader(l_urlStream));  
            while ((sCurrentLine = l_reader.readLine()) != null) {  
                sTotalString += sCurrentLine + "\r\n";  
            }  
            System.out.println(sTotalString);
            return true;
        }
  1. 分析html文件,抽取其中需要的数据 当我们获取到请求页的HTML文本之后就需要在一堆HTML标签中将我们所需要的数据抽取出来。这里给大家提供一个很好用的抽取HTML数据的第三方Jar包:Jsoup! Jsoup提供了getElementById()、getElementById()等方法,我们能够很方便地将指定标签中的数据抽取出来。除此之外,为了方便实现网络爬虫,Jsoup中已经集成了发送HTTP请求的函数,而且将整个发送请求的过程极度地简化,只需两步就能完成,无需再使用HttpConnection类库在发送HTTP请求前进行一系列复杂的设置,并且Jsoup中返回的就是HTML文本,无需再进行二进制转换成HTML文本的操作。代码如下:
//通过Jsoup获取HTML文本
Document doc = Jsoup.connect("http://10.20.100.5:8080/").get();
//获取HTML中所有的tbody标签
        Elements tbodys = doc.getElementsByTag("tbody");
//获取tbody标签中所有的td标签
        Elements tds = tbodys.get(1).getElementsByTag("td");
//获取td中的文本
        tds.get(0).html();

看完这些相信大家对于网络爬虫已经入门了,能够实现一个最简单的爬虫程序,接下来我会带领大家一步步深入,实现一个更加智能、功能更加强大的爬虫! 如果各位还有什么问题,可以留言,我会尽力解答的。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏云计算教程系列

为公益伸出援手,自建 NTP 服务器池

在本教程中,讲述如何设置了自己的时间服务器,并使其成为NTP池项目的成员,为社区服务,现在国内NTP服务器数量还是不够乐观,还是那句话,如果你有位于国内的、长期...

3.5K12
来自专栏玄魂工作室

[实战]如何在Kali Linux中进行WIFI钓鱼?

文中提及的部分技术可能带有一定攻击性,仅供安全学习和教学用途,禁止非法使用! ? 0x00 实验环境 操作系统:Kali 1.0 (VM) FackAP: ea...

3946
来自专栏iOS122-移动混合开发研究院

【Graphql实践】使用 Apollo(iOS) 访问 Github 的 Graphql API

最近在协助调研 Apollo 生成的代码是否有可能跨 Query 共享模型的问题,虽然初步结论是不能,并不是预期的结果,但是在调研过程中积累的一些经验,有必要记...

830
来自专栏黑白安全

使用Tor创建.onion域名网站(创建暗网服务和暗网的网站)

Tor不仅可以提供客户端的匿名访问,Tor还可以提供服务器的匿名。通过使用Tor网络,用户可以维护位置不可知的服务器。当然如果要访问这个隐蔽的服务,客户端也得安...

8191
来自专栏开源项目

2017 JavaScript 开发者的学习图谱 | 码云周刊第 25 期

码云项目推荐 1前端框架类 1. 基于 Vue.js 的 UI 组件库 iView ? 项目简介:iView 是一套基于 Vue.js 的 UI 组件库,主要服...

3217
来自专栏carven

前端小积累

一周周实习,很少时间写博客了,但本周的实习中,遇到了一些问题,可以说是争长了阅历,所以一定要好好记下来。 遇到的问题主要是关于跨域和css3的;

790
来自专栏七夜安全博客

一款多平台网络穿透工具EW

该工具能够以“正向”、“反向”、“多级级联”等方式打通一条网络隧道,直达网络深处,用蚯蚓独有的手段突破网络限制,给防火墙松土。

932
来自专栏macOS 开发学习

cocos2d-objc 3.0+ 游戏开发学习手册(一): 简介与安装

目前网络中关于cocos2d-iphone 方面的资料,大部分都是基于c++ 语言跨平台的cocos2d-x,偶尔搜到一些cocos2d方面的也由于版本比较早(...

893
来自专栏HTML5学堂

AJAX原理与步骤

HTML5学堂:而今,AJAX技术已经成为JavaScript的重要组成部分,提到AJAX,最核心的两个词语是“局部刷新”和“异步加载”。在本文当中,主要介绍A...

3566
来自专栏黒之染开发日记

mac os10.10 配置Apache2.4问题解决方案

因为最近要经常一个人加班,干脆拿自己的笔记本去工作,晚上可以直接回家里码代码好了,然后就想给mac装好环境。发现mac自带Apache,自带php,还自带svn...

642

扫码关注云+社区