编写/调试'抓取规则
为了让调试爬虫的粒度尽量的小,我将编写和调试模块糅合在一起进行....在爬虫中,我将实现以下几个功能点:
1.爬出一页新闻栏目下的所有新闻链接
2.通过爬到的一页新闻链接进入到新闻详情爬取所需要数据(主要是新闻内容)
3.通过循环爬取到所有的新闻....话不多说,现在开干.
3.1爬出一页新闻栏目下的所有新闻链接
通过对新闻栏目的源代码分析,我们发现所抓数据的结构为
那么我们只需要将爬虫的选择器定位到(li:newsinfo_box_cf),再进行for...3.2通过爬到的一页新闻链接进入到新闻详情爬取所需要数据(主要是新闻内容)
现在我获得了一组URL,现在我需要进入到每一个URL中抓取我所需要的标题,时间和内容,代码实现也挺简单,只需要在原有代码抓到一个...编写代码
整合进原有代码后,有:
测试,通过!
这时我们加一个循环:
加入到原本代码:
测试:
抓到的数量为191,但是我们看官网发现有193条新闻,少了两条.
为啥呢?