scrapy中的下一步按钮

、、、、

我正在抓取图像的网站列表，使用selenium webdriver+scrapy，但每个网站的下一步按钮都有不同的类/div名称，如何自动查找不同网站中的下一页进行抓取？

浏览 11提问于2020-06-20得票数 0

1回答

如何使用Scrapy从网站中抓取JavaScript呈现的数据？

、、

使用Scrapy，我试图刮掉标记<script type="application/ld+json">....的数据 yield response.follow(next_page, self.parse) 但是，在编写完终端中的scrapy runspider test_spider.

浏览 2提问于2022-01-09得票数 0

回答已采纳

1回答

、、、

我需要在if语句中使用if语句，我已经必须确定我的抓取程序何时单击next按钮，这样一旦发生，我就可以做一些事情。当前的if语句只是确定页面上是否有下一步按钮。但我不知道如何确定何时实际单击了next按钮。

浏览 21提问于2019-06-14得票数 0

回答已采纳

1回答

使用剪贴画的WebScraping用户评论不转到“下一页”

、、、

我现在的问题是，与“所有评论家”的评论加载更多的评论不同，在“所有观众”中，你点击“下一步”，而不是点击“下一页”，这会添加到URL page=2中。现在我不能这样做了，我需要弄清楚如何点击“下一步”并获得新的链接。我想知道我是否需要使用selenium并制作一个web驱动程序来完成这个任务。我刚开始使用开发人员工具，很难找到正确的名称来引用“下一步”按钮。下面是我的代码，成功地

浏览 17提问于2021-02-03得票数 0

1回答

Splash爬行Javascript网站

、、

我能够使用以下代码爬行Javascript呈现的页面：from scrapy_splash import SplashRequest name = 'quotejscrawler' yield SplashRequest('td[@data-th="Cause of Death&qu

浏览 0提问于2018-02-16得票数 0

回答已采纳

1回答

我是个新手，使用scrapy和python2.7来实现web自动化。我想在打开登录表单的网站上点击一个html按钮。我的问题是，我只想点击一个按钮，并将控制转移到新页面。下面是按钮的超文本标记语言代码，我想访问http://example.com/login，那里有登录页面。而是如何访问该链接并执行下一步过程。下面是我的代码。import scrapy class QuotesSpid

浏览 20提问于2018-07-05得票数 0

3回答

python/scrapy问题:如何避免无尽的循环

、、、

我正在使用web抓取框架scrapy来对一些站点进行数据挖掘。我正在尝试使用CrawlSpider，页面上有一个“上一步”和“下一步”按钮。URL的格式为其中，###是每次按下next按钮时递增的数字。如何格式化规则，使其不会出现无限循环。这是我的规则： Rule(SgmlLinkExtractor(allow='http://not-a-real-sit

浏览 2提问于2011-07-14得票数 2

2回答

当它像这个href="#“一样使用时，"#”的含义

、、、、

我一直在关注这个来学习如何使用Scrapy。我正在使用作为我的示例站点来测试web抓取。其中一个函数: SgmlLinkExtractor接受一个参数，该参数是“下一步”页面按钮的href。问题是，对于greenbook，如果您通过firefox检查元素，那么"next“页面按钮的href是一个"#”1)这样使用"#“是什么意思: href="#” 2)如何解决这个问题

浏览 0提问于2013-07-04得票数 3

回答已采纳

1回答

Scrapy:如何在不重新下载html的情况下重现结果？

、、、

在使用Scrapy将HTML下载到我的硬盘后(例如，使用带有字段HTML的内置项目导出器，或者将所有HTML文件存储到一个文件夹中)，我如何使用Scrapy再次从硬盘读取数据并执行管道中的下一步？有没有类似于项目导入器的东西？

浏览 10提问于2017-06-20得票数 0

2回答

刮除链接提取器不允许限制文本

、

from scrapy.linkextractors import LinkExtractor TypeError: __init__() got an unexpected keyword argument 'restrict_text' 我试图从谷歌搜索得到“下一步”网址，我想限制提取的链接仅为“下一步”文

浏览 0提问于2019-08-09得票数 0

回答已采纳

1回答

Scrapy Splash单击带有javascript href的链接

、

我正在使用Scrapy Splash抓取一个包含如下元素的页面：第1页，共349页 1|2|3|4|5|6|7|8|9| 10 |下一步> 我想‘点击’锚与文本‘下一步’，并让javascript这是我的刮刀的样子： script = """ splash:init_cookies(splash.args.cookies)'scrapy_splas

浏览 29提问于2019-02-16得票数 1

回答已采纳

1回答

我是否正确地使用scrapy-redis来抓取大量URL？

我对分布式scrapy爬虫是个新手，但是我发现了scrapy-redis并且一直在使用它。我在一个覆盆子pi上使用它来抓取大量我推送到redis的URL。我所做的就是在Pi中创建多个SSH会话，然后运行scrapy crawl myspider让爬行器“等待”。然后我启动另一个SSH并执行redis-cli lpush "my links“。然后爬虫运行，尽管我不确定它们实际运行的并发程度。我希望这是清楚的，如果没有，请让我知道，我可以澄清

浏览 0提问于2020-07-31得票数 0

1回答

抓取跟随javascript输入按钮

、、、

type="submit">类GetData显示一些可点击的图标我已经尝试了下面的代码，只是看看是否有scrapy跟随输入，但没有成功。links = sel.xpath("//input[@class='GetData']"

浏览 1提问于2016-01-21得票数 3

回答已采纳

1回答

scrapy爬虫没有跟随下一个链接

、、、

我正在使用scrapy从意大利国家警察那里收集新闻。我的问题是，即使我有一个规则集来找到“下一步”或意大利语中的"Successiva“按钮并遵循该链接，但刮取器没有遵循”下一步“链接。这是我的代码。from scrapy.spiders import Rule, CrawlSpiderfrom scr

浏览 0提问于2015-11-10得票数 2

3回答

如何在抓取网页时单击“下一步”按钮

、、、

我正在用scrapy抓取一个有多页信息的网页，我需要程序点击下一步按钮，然后抓取下一页，然后继续这样做，直到所有的页面都被抓取。但我想不出该怎么做，我只能把第一页刮掉。from scrapy_splash import SplashRequest class MySpider(Spider):

浏览 18提问于2019-05-22得票数 1

回答已采纳

2回答

循环中的刮擦调用请求

、、、

我想要取消一个网页，其中包含的组合框过滤选项。基本url是相同的，但是请求有效负载取决于所选的组合框值。我有一个可用选项列表，并创建了一个循环，该循环遍历combobox值并执行请求。for product_line in product_lines: scrapy.Request

浏览 3提问于2015-11-28得票数 1

回答已采纳

1回答

如何在完成第一页后强制scrapy解析第二页

、、、

我使用的是Scrapy 1.5.1版。我创建了解析器，它从主页解析urls，然后从已经解析的urls中解析urls，等等。Scrapy异步工作，并进行并行连接。问题是，我有一些逻辑，urls应该首先解析，创建我已经访问过的urls集，要访问的最大urls数等。一开始，我配置了CONCURRENT_REQUESTS_PER_DOMAIN=1和CONCURRENT_REQUESTS=1，但它没有帮助，因为我认为有调度程序缓存url，它将处理下一步，然后以不

浏览 4提问于2018-10-28得票数 0

1回答

TimeoutException Selenium

、、、

启动抓取器后，奇怪的事情发生了:它要么正常工作，在访问第二个页面并单击下一步按钮后结束，要么以某种方式结束在属性页上，当我使用当前注释掉的代码行时。当前代码： class PropertyFoxSpider(scrapy.Spider): start_urls = [ url = self.driver.current_url

浏览 26提问于2021-01-26得票数 0

回答已采纳

2回答

scrapy -L不返回任何内容

、、

我正在尝试部署我的scrapy项目，但我被卡住了deploy@susychoosy:~/susy_scraper$ scrapy当我做scrapy list时，它会显示所有蜘蛛的列表。我修改了我的scrapy.cfg文件，使它看起来像这样：default = clothes_spider.settings

浏览 2提问于2013-03-09得票数 0

回答已采纳

1回答

Scrapy绕过数据使用协议墙

、、、

class YfinNewsSpider(scrapy.Spider): custom_settings = {'DOWNLOAD_DELAY，它给我的结果如下。我在浏览器中打开这个同意墙https://consent.yahoo.com/v2/collectConsent?当我点击accept时，它会将我带到我想要抓取的正确站点。抓取结果也与此同意屏幕中的</

浏览 33提问于2020-11-29得票数 2

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

(无需手动选择next按钮)

如何使用Scrapy从网站中抓取JavaScript呈现的数据？