,只有了解到该页面如何组成才能够如何根据页面结构编写代码
我需要爬取的网站是: https://wallpapershome.com/?...page=1
通过url链接可以看出参数 page是页数.那么爬取下一页的内容只需要page往上加就行....通过上图的操作找到可以定位到第一个内容的元素标签及标签的属性
从上图中可以看到你选择的这个元素是用标签包起来的,下有标签,标签的属性href值就是当前内容的详细信息链接,但是它的值开头是...select函数返回的是一个数组,如果有多个id为pics-list就需要循环 pics_list变量来获取带有详情页的链接,那么id在HTML是唯一的,所以只取下标0即可.
children = pics_list.select...("a[href]")
这段代码是指找到id为pics-list的子元素中带有href属性的a标签元素,也就是这种元素,上面就说了select函数返回的是一个数组,