开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

数据爬虫篇

文章来源：企鹅号 - 金小开写作的地方

本次汇报是《寒蝉效应》篇的前番，主要集中在论文中数据的来源和获取方式，包括在使用爬虫过程中所面临的问题，以及可能的解决方法。

问题归纳下来主要有：1.目标网站防爬使得爬虫进行的异常艰难；2.目标网站架构遍历困难，主要是二叉树的遍历，在爬虫程序设计过程中会面临很多意想不到的问题；3.爬虫程序设计，错误或者不当的流程会增加爬虫的难度，耗时耗力，还容易卡死；

解决办法：1.针对第一条，可使用云采集，这样的方式可以突破一部分网站，但是对于一些专为数据经营的网站却起不到很好的效果，目前没有找到合适的方法，除非购买数据库；2.第二条，手工遍历第二层树，但对程序而言非常耗时，同样也很耗作者精力；3.第三条，多学多练，熟能生巧，依次突破不必要的错误。

发表于: 2017-12-142017-12-14 12:55:50
原文链接：http://kuaibao.qq.com/s/20171214G0CN3V00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群