我正在做一个项目,它需要我从网站上抓取独特的链接,并将它们保存到CSV文件中。该程序被认为是从给定的域(见下面的代码)和域外的任何网络链接刮网络链接。cleaned_links:
print ("URI's written to .CSV File") 该代码适用于baseURL内部的所有web链接,因此存在于该网站中,但不会捕获站点外部的任何点。
如何绕过缺失的环节,继续抓取好的数据?我正在抓取一个有多个链接到相关数据的网页。一些相关的链接丢失了,所以我需要一种方法来绕过丢失的链接并继续抓取。Web page 1 part description 2 w/o associated linkmore part descriptions with and