首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

数据爬虫篇

本次汇报是《寒蝉效应》篇的前番,主要集中在论文中数据的来源和获取方式,包括在使用爬虫过程中所面临的问题,以及可能的解决方法。

问题归纳下来主要有:1.目标网站防爬使得爬虫进行的异常艰难;2.目标网站架构遍历困难,主要是二叉树的遍历,在爬虫程序设计过程中会面临很多意想不到的问题;3.爬虫程序设计,错误或者不当的流程会增加爬虫的难度,耗时耗力,还容易卡死;

解决办法:1.针对第一条,可使用云采集,这样的方式可以突破一部分网站,但是对于一些专为数据经营的网站却起不到很好的效果,目前没有找到合适的方法,除非购买数据库;2.第二条,手工遍历第二层树,但对程序而言非常耗时,同样也很耗作者精力;3.第三条,多学多练,熟能生巧,依次突破不必要的错误。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20171214G0CN3V00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券