我在PythonScrapy上写了一个网络爬行器,当我发送一个POST请求时,我得到了json响应。如何在请求后获取页面的HTML。问题是,当我在网站中选择一个类别时,它会发送一个POST请求,而不需要重新加载页面,在发送POST请求后,我需要数据。我的蜘蛛: import urllibfrom scrapy.http import Request
from scrapy.utils.response import op
我对Scrapy和Python很陌生,因此我是个初学者。我希望能够让Scrapy读取一个包含大约100 k URL的种子列表的文本文件,让Scrapy访问每个URL,并提取每个种子URL上的所有外部URL(其他站点的URL),并将结果导出到一个单独的文本文件中Scrapy只应该访问文本文件中的URL,而不是爬行并跟踪任何其他URL。
我希望能够让