Java爬虫之爬取中国高校排名前100名并存入MongoDB中

介绍

  在博客:Python爬虫——爬取中国高校排名前100名并写入MySQL中,我们利用Python来写爬虫,将http://gaokao.xdf.cn/201702/10612921.html 中的大学排名表格爬取出来,并存入到MySQL中。

  本次分享将用Java的Jsoup API来实现相同的功能,并将爬取到的数据存入到MongoDB数据库中。

准备

  我们将在Eclipse中写程序,因此,需要下载以下jar包:

bson-3.6.3.jar

jsoup-1.10.3.jar

mongodb-driver-3.6.3.jar

mongodb-driver-core-3.6.3.jar

新建webScraper项目和jsoupScraper包,并将以上jar包加入到项目路径中,如下图:

webScraper项目程序

  在jsoupScraper包下新建JsoupScaper.java文件,其完整代码如下:

运行

  运行上述程序,结果如下:

程序运行结果

  前往MongoDB数据库中查看,如下图:

MongoDB数据库结束语

  该爬虫其实并不复杂,实现的原理也很简单,我们已经用能Java和Python来实现了。希望以后能写一些关于Java爬虫的文章,欢迎大家交流~~

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180625G0CY8000?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券