做小程序有个问题一直萦绕着我,数据怎么来?
有了思路,但没有数据,真是寸步难行。
考虑过用外部API来获取数据,但是外部API都有一个问题:允许的调用频率实在是太低了。
最近我把Pytho3系统的学了一遍,跑起爬虫,感触最深的是,现在网站的反爬能力实在是越来越强了。最坑的是,很多网站故意在HTML Dom上给你留一些坑。解析HTML的时候最常用的手段就是用HTML文档里的关键字来定位DOM,这个DOM的关键字必须要具备标志性,如果不具备标志性,那么解析起来是相当困难的。比如,我们依靠“职位”这个关键字来确定职位的标志节点,但很多网站会动态的更改这些标志节点,把“职位”变成诸如:
"职位:",“职 位”,“职位:”
虽然不会导致程序崩溃,但极有可能导致大量数据缺失,你以为爬虫任务完成了,其实只爬到部分数据。。。
有时候一个节点就会折磨半天,感觉又要再撸一遍正则表达式了。。。
领取专属 10元无门槛券
私享最新 技术干货