首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

终于被数据获取难到了,难题攻克ing

做小程序有个问题一直萦绕着我,数据怎么来?

有了思路,但没有数据,真是寸步难行。

考虑过用外部API来获取数据,但是外部API都有一个问题:允许的调用频率实在是太低了。

最近我把Pytho3系统的学了一遍,跑起爬虫,感触最深的是,现在网站的反爬能力实在是越来越强了。最坑的是,很多网站故意在HTML Dom上给你留一些坑。解析HTML的时候最常用的手段就是用HTML文档里的关键字来定位DOM,这个DOM的关键字必须要具备标志性,如果不具备标志性,那么解析起来是相当困难的。比如,我们依靠“职位”这个关键字来确定职位的标志节点,但很多网站会动态的更改这些标志节点,把“职位”变成诸如:

"职位:",“职 位”,“职位:”

虽然不会导致程序崩溃,但极有可能导致大量数据缺失,你以为爬虫任务完成了,其实只爬到部分数据。。。

有时候一个节点就会折磨半天,感觉又要再撸一遍正则表达式了。。。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180118G10T0H00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券