终于被数据获取难到了,难题攻克ing

做小程序有个问题一直萦绕着我,数据怎么来?

有了思路,但没有数据,真是寸步难行。

考虑过用外部API来获取数据,但是外部API都有一个问题:允许的调用频率实在是太低了。

最近我把Pytho3系统的学了一遍,跑起爬虫,感触最深的是,现在网站的反爬能力实在是越来越强了。最坑的是,很多网站故意在HTML Dom上给你留一些坑。解析HTML的时候最常用的手段就是用HTML文档里的关键字来定位DOM,这个DOM的关键字必须要具备标志性,如果不具备标志性,那么解析起来是相当困难的。比如,我们依靠“职位”这个关键字来确定职位的标志节点,但很多网站会动态的更改这些标志节点,把“职位”变成诸如:

"职位:",“职 位”,“职位:”

虽然不会导致程序崩溃,但极有可能导致大量数据缺失,你以为爬虫任务完成了,其实只爬到部分数据。。。

有时候一个节点就会折磨半天,感觉又要再撸一遍正则表达式了。。。

  • 发表于:
  • 原文链接:http://kuaibao.qq.com/s/20180118G10T0H00?refer=cp_1026

扫码关注云+社区