scrapy js 解析处理_scrapy 处理js翻页_Scrapy多处理 - 腾讯云开发者社区

、、、

我使用的是Scrapy 1.5.1版。我创建了解析器，它从主页解析urls，然后从已经解析的urls中解析urls，等等。Scrapy异步工作，并进行并行连接。问题是，我有一些逻辑，urls应该首先解析，创建我已经访问过的urls集，要访问的最大urls数等。一开始，我配置了CONCURRENT_REQUESTS_PER_DOMAIN=1和CONCURRENT_REQUESTS=1，但它没有帮助，因为我认为有调度程序缓存url，它将处理下一步，然后以不

浏览 4提问于2018-10-28得票数 0

1回答

将命令从批处理文件解析并运行到交互式shell中

、、、

我正在尝试从批处理文件中运行scrapy shell，到目前为止工作的是启动批处理文件和交互式shell。然后，我希望能够将命令解析到scrapy控制台(在shelp()之后的命令行)。我的代码：scrapy shell <url> < printing log statsSelectSel

浏览 4提问于2020-02-28得票数 0

2回答

使用Scrapy下载所有JS文件？

、

我试图爬行一个网站，搜索所有的JS文件来下载它们。我刚接触Scrapy，我发现我可以使用CrawlSpider，但我似乎对LinkExtractors有一个问题，因为我的解析器没有执行。import scrapyfrom scrapy.linkextractors import LinkExtractor'example.com'] start_urls = ['

浏览 25提问于2021-02-17得票数 0

回答已采纳

1回答

将Scrapy指向本地缓存，而不是执行正常的爬行过程

、、

我使用管道将Scrapy爬行中的文档缓存到数据库中，这样，如果我更改了项目解析逻辑，就可以重新解析它们，而不必再次访问服务器。让Scrapy从缓存中处理而不是尝试执行常规抓取的最好方法是什么？我喜欢scrapy对CSS和XPath选择器的支持，否则我会用lxml解析器单独访问数据库。有一段时间，我根本没有缓存文档并以正常的方式使用Scrapy -即时解析项目-但我发现更改项目逻辑需要耗费大量的时间和资源。相反，我现在将文档正文与项<

浏览 1提问于2015-09-05得票数 3

2回答

如何获取刮伤壳中的刮伤响应

、、、、

我对Scrapy项目很陌生，我读过很多教程。它们似乎都假设您知道如何立即解析响应对象，并且可以立即调用响应回调(例如scrapy.Request(url=url, callback=self.parse))。如何取回Scrapy响应对象，以便能够交互地操作它？

浏览 4提问于2017-04-09得票数 2

回答已采纳

1回答

为什么Scrapy中的数据没有完全加载视图(响应)？

、

我正试着用Scrapy从Youtube上收集一些评论。但是，当我进入scrapy shell模式并使用view(response)打开它时，除了加载旋转器之外，我找不到任何注释。scrapy shell https://www.youtube.com/watch?v=kkl7-NzqxWo在注释部分显示无限旋转器。

浏览 1提问于2018-12-01得票数 0

回答已采纳

1回答

在scrapy.Request中添加dont_filter=True参数是如何使我的解析方法工作的？

、、

这是一个简单的抓取蜘蛛 name = "dmoz" start_urls = ('https://www.dmoz.org/') yield scrapy.Requestyield scrapy

浏览 1提问于2016-08-15得票数 8

回答已采纳

1回答

刮除: FormRequest不自动填充ASP.net隐藏字段

、、、、

我用Scrapy来刮一些在认证屏幕后面的金子。该网站使用ASP.net和ASP的一些愚蠢的隐藏字段随处可见(如__VIEWSTATE，__EVENTTARGET)。

浏览 2提问于2014-05-10得票数 6

回答已采纳

1回答

产品信息分析及产品评论

、、

我从这里开始：name = "shein_spider" "https://www.shein.com/tab02navbar02menu01dir06~~2_1_6~~real_1978~~~~0~~0" for item in response.css('.js-good'): yiel

浏览 0提问于2020-03-11得票数 1

回答已采纳

1回答

解析回调没有定义--简单的Webscraper (Scrapy)仍然没有运行

、、

这在没有规则的情况下工作得很好，只需要生成正常的解析函数。制定规则似乎是可行的。因此，我实际上希望它能够运行，而不是在解析函数中处理输出。import scrapy

浏览 2提问于2019-11-18得票数 2

回答已采纳

1回答

按DFS顺序不爬行

、、、

Scrapy似乎在按BFS顺序爬行页面，尽管文档说默认情况下订单应该是DFS。这是我的蜘蛛from scrapy.http import FormRequest, Request “解析的URL：.”“解析DATA_AGAIN的URL：.” “解析DATA_AG

浏览 4提问于2015-09-11得票数 2

回答已采纳

2回答

刮伤xpath不起作用(可能是parbase的东西？)

、、

这就是我试过的。我试图弄到这篇文章的正文内容：“电视上的共同观看.”。我试过以下表达式：[Out 1]:[] [Out 2]: [u'\n', u'\n\n'

浏览 3提问于2017-09-20得票数 1

回答已采纳

2回答

在web服务器上使用java内容的抓取

、、

我看到Scrapy无法加载动态内容，我阅读selenium可以处理它，但我计划使用web服务器。有什么方法可以解析这个站点或获取动态请求并使用scrapy解析它吗？

浏览 3提问于2016-01-28得票数 1

回答已采纳

1回答

python抓取与蜘蛛的双向爬行

、

我正在读Dimitrios Kouzis-Loukas的learning scrapy。

浏览 0提问于2019-01-05得票数 1

1回答

使用scrapy从facebook中抓取数据

、、、

因此，在抓取这个url之前，我通过scrapy登录，然后通过这个结果页面登录。但是，即使这个页面的http响应是200，它也不会丢弃任何数据。守则如下：from scrapy.spider import BaseSpiderfrom scrapy.selectorimport HtmlXPathSelector from scrapy.contrib.spiders import CrawlSpider, R

浏览 3提问于2013-05-31得票数 5

1回答

将Scrapy与Javascript和iFrames及替代方案一起使用

、、

我正在尝试使用Scrapy来抓取美国政府法规网站(www.regulations.gov)。它有大量的信息，但这是一个糟糕的网站，充满了javascript和iframe。我试着运行一些简单的Scrapy爬虫，但我无法解析出任何东西，因为所有东西都是通过Javascript和iframe加载的。例如，在上，这段代码实际加载结果表： <script type="text/javascript" src="Regs/Regs.nocache.js?Scrapy</

浏览 0提问于2011-05-17得票数 4

回答已采纳

2回答

如何在div中获取文本

、

看看这个网页： details = response.xpath('.//div[@class="detail"]/text()').extract()

浏览 1提问于2019-07-25得票数 1

9回答

BeautifulSoup和Scrapy* crawler有什么区别？*

、、、

我对BeautifulSoup比较熟悉，但对Scrapy crawler不太熟悉。

浏览 323提问于2013-10-30得票数 146

回答已采纳

2回答

Scrapy爬行器不会因使用CloseSpider扩展而终止

、、、

我设置了一个Scrapy爬行器来解析xml提要，处理大约20,000条记录。}2017-06-15 12:14:11 [s

浏览 0提问于2017-06-15得票数 4

1回答

如何创建线程池

、、、

以下是代码： print("inside function") print("in herre") self.product_url = response.xpath('//div[@class = "collection-grid js-filter-grid

浏览 1提问于2019-08-17得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何在完成第一页后强制scrapy解析第二页

将命令从批处理文件解析并运行到交互式shell中

使用Scrapy下载所有JS文件？

将Scrapy指向本地缓存，而不是执行正常的爬行过程

如何获取刮伤壳中的刮伤响应

为什么Scrapy中的数据没有完全加载视图(响应)？

在scrapy.Request中添加dont_filter=True参数是如何使我的解析方法工作的？

刮除: FormRequest不自动填充ASP.net隐藏字段

产品信息分析及产品评论

解析回调没有定义--简单的Webscraper (Scrapy)仍然没有运行

按DFS顺序不爬行

刮伤xpath不起作用(可能是parbase的东西？)

在web服务器上使用java内容的抓取

python抓取与蜘蛛的双向爬行

使用scrapy从facebook中抓取数据

将Scrapy与Javascript和iFrames及替代方案一起使用

如何在div中获取文本

BeautifulSoup和Scrapy* crawler有什么区别？*

Scrapy爬行器不会因使用CloseSpider扩展而终止

如何创建线程池

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐