我有一个urls列表。该列表中有100个urls,所有这些urls都包含文本。我想从这些urls中提取文本,并将这些文本保存为text1、text2、text3等格式。我只能做到这一点。urllib.request.urlopen('abc.com') line = line.decode('utf-8')上面的代码只适用于一个url
我希望能够让Scrapy读取一个包含大约100 k URL的种子列表的文本文件,让Scrapy访问每个URL,并提取每个种子URL上的所有外部URL(其他站点的URL),并将结果导出到一个单独的文本文件中Scrapy只应该访问文本文件中的URL,而不是爬行并跟踪任何其他URL。
我希望能够让Scrapy尽快工作,我有一个非常强大