首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

学习分享Java爬虫伪代码

之前一直有个同事想让我教教他怎么把csdn上的数据爬下来的,我在这里就简单的说一下~~话说做爬虫我也不是专业的~~业余的~~有什么问题帮我指正就好~~

为什么是伪代码呢?就是给大家把原理讲讲~~真实代码我就不在这里写了~~大家自己琢磨去吧~~

需要如下几个工具

1、缓存:我采用的是redis~~经常做后台习惯用了~

3、网络链接工具

话说后面两个我直接就用jsoup了

我个人的话是先做了一个缓存url方法

类的样子大概是这样的

//这也可以作为一个入口 save (url){ if(redis.get(url) 存在){ return }else{ redis.put(url); savedate(url); } }

又做了一个下载数据的

savedate(url){ dom = 读取(url); dom.存储你想存的数据(); List = dom.读取(); for(String url:list){ //递归调用 save(url); } }

这是个最简单的小栗子

但是呢~~你如果真用这个去写个爬虫的话~~

额~~为什么呢~~如果这么递归下去~~肯定栈溢出了~~

所以还有好多工作要做~

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20171214A07NWT00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券