Splash的Scrapy不会等待网站加载

文章/答案/技术大牛

发布

1回答

python、scrapy、scrapy-splash、splash-js-render

我试图通过Python脚本调用Splash来呈现和抓取一个交互式网站，基本上遵循这个from scrapy_splash import SplashRequest start_urls = ["http://example.com"] def start_requests(self):with open(filename, 'wb

浏览 5提问于2018-08-12得票数 3

1回答

使用scrapy抓取动态网页中的数据

javascript、dynamic、scrapy

它成功地抓取了活动摘要、活动详细信息和为什么它的绿色部分，但是，当我爬行LEED仪表板部分时，响应是空的。具体地说，我希望得到6个分数，EA、MR、IEQ、SS、WE和ID，但是当我使用这个xpath时，这些值都是空的。response.xpath("//*[@id='overview

浏览 3提问于2021-05-06得票数 0

2回答

Python Scrapy Splash不渲染网站，停留在加载屏幕

scrapy、scrapy-splash、splash-js-render

我想用Scrapy Splash呈现以下网站。https://m.mobilebet.com/en/sports/football/england-premier-league/ 不幸的是，Splash总是停留在加载屏幕： ? 我已经尝试使用较长的等待时间(最多60秒)，但没有结果。我的Splash版本是3.3.1，并且已经将obey rob

浏览 65提问于2019-05-04得票数 1

1回答

使用Scrapy和Splash将动态页面重新呈现为HTML

python、scrapy、scrapy-splash

爬行器会爬行(状态代码200)，但是Splash不会在JavaScript呈现后将页面呈现回本地主机地址。蜘蛛的密码：from scrapy_splash import SplashRequest name= 'scrapy_splash.SplashAwareDupeFilter' HTTPCACHE_ST

浏览 19提问于2021-12-27得票数 0

1回答

使用Scrapy 1.6.0 got调试:爬行(200)

python、scrapy

我刚开始刮擦，试着在不同的页面上爬行。 name = "chrome" chromeOptions = webdriver.C

浏览 1提问于2019-11-15得票数 0

回答已采纳

1回答

自动在Splash和Scrapy中向下滚动页面

scrapy、scrapy-splash

我正在爬行一个网站，它使用延迟加载产品图像。我也尝试过等待参数29.0秒，但我的爬虫仍然很难得到10个条目(根据计算它应该会带来280个条目)。我有一个项目pipleline，它检查该项目中的

浏览 1提问于2017-07-22得票数 2

1回答

Scrapy Spash不爬行

python、scrapy、scrapy-splash

我正在尝试对搜索一家公司的年报返回的链接进行非常基本的打印，链接如下：https://www.mergentarchives.com/searchResults.php?&compNumber=37958&aracompNumber=0 我需要使用Splash来渲染链接，因为这个网站是用javascript编写的，搜索结果是动态加载的。这是我非常简单的代码： import scra

浏览 17提问于2021-06-28得票数 0

1回答

我想从a元素中获取位于href属性中的链接。url为：https://www.drivy.com/location-voiture/antwerpen/bmw-serie-1-477429?end_time=18%3A30&latitude=51.2162&longitude=4.4209&start_date=2019-05-20&start_time=06%3A00 我正在搜索这个元素的href

浏览 23提问于2019-05-10得票数 0

回答已采纳

2回答

多个Selenium实例的Scrapy* (并行)*

python、selenium、scrapy

我需要用Selenium和Scrapy抓取很多网址。为了加快整个过程，我正在尝试创建一组共享的Selenium实例。我的想法是，如果需要，让一组并行Selenium实例可用于任何Request，如果需要，则提供released。我试图创建一个Middleware，但问题是Middleware是顺序的(我看到所有的驱动程序(我称之为浏览器)都在加载urls，而且似乎是顺序的)。我希望所有的驱动程序并行工作。browser.current_url, body=body

浏览 84提问于2019-01-23得票数 0

1回答

Scrapy在网页上显示加载

web-scraping、scrapy、scrapy-splash

我正在尝试抓取，但是页面在加载时被卡住了。我甚至把等待时间改成了7秒。但问题依然存在。有什么解决方案吗？ 

浏览 2提问于2018-02-20得票数 0

1回答

抓取-动态等待页面加载- selenium + Scrapy

python、selenium、web-scraping、scrapy

该页面使用ajax调用加载数据，并且我首先等待一个固定的time_out来加载该页面。有一段时间起作用了。之后，我发现selenium有一个内置函数WebDriverWait，它可以使用wait.until()等待一个特定的元素加载。这让我的网刮刀跑得更快了。我试图对此进行并行化，但时间并没有变得更好，因为如果驱动程序实例(使用Chrome或PhantomJS)<

浏览 5提问于2017-09-18得票数 3

回答已采纳

1回答

如果搜索产生的结果多于显示的结果，则清除隐藏页面

python、web-scraping、beautifulsoup

在下输入的一些搜索查询会产生超过1,000个结果(动态显示在搜索页面上)。但是，结果最多只能显示100个页面，每个页面有10个结果，所以我试图在给定一个产生超过1,000个结果的查询的情况下收集剩余的数据。抓取前100页的ID的代码是(需要大约2分钟浏览全部100页)：import requests # as the max number of(page)，这不会产生额外的结果。我如何才能

浏览 1提问于2020-01-03得票数 0

1回答

即使xpath在chrome.Why中是正确的，Scrapy* shell也会给出一个空列表的输出？*

scrapy、scrapy-shell

在Scrapy shell上执行fetch(url)fetch(r) response.xpathclass='c2prKC']/div/div/div/div[@class='c16H9d&

浏览 1提问于2020-07-24得票数 1

2回答

Scrapy不加载页面

web-scraping、scrapy

我使用的是scrapy，start_url的结构如下：Scrapy不加载页面： scrapy shell https://www.yoox.com/us/men/sho

浏览 0提问于2019-06-20得票数 1

1回答

Scrapy HTTP状态代码未处理或不允许

python、scrapy、scrapy-splash、scrapyd

我正在使用scrapy-splash来抓取一个使用javascript加载结果的汽车经销商网站，但我一直收到错误504 Gateway Time-out。我有docker和Win10，我不认为问题出在docker配置上，因为我可以用相同的代码抓取另一个站点。import scrapyfrom scrapy.loader import I

浏览 24提问于2021-02-10得票数 0

1回答

刮擦-Splash不呈现此页面

python、html、web-scraping、scrapy、scrapy-splash

谁能帮我理解一下为什么Splash不会呈现这个页面，这样我就可以刮掉它了。中拥有的与Splash相关的设置： 'scrapy_splash.SplashCookiesMiddleware= 'scrapy_splash.Spla

浏览 0提问于2018-07-20得票数 1

1回答

刮擦-等待页面加载的飞溅

python、lua、scrapy、scrapy-splash

不过，有一点要注意的是，我主要是从内部工具和应用程序中抓取数据，所以有些工具和应用程序需要身份验证，而且所有这些都需要至少几秒钟的加载时间才能完全加载页面。基本上，SplashRequest和scrapy.Request似乎都会运行并产生结果。然后，我了解了LUA脚本作为这些请求的参数，并尝试了使用不同形式的wait()形式的LUA脚本，但看起来这些请求实际上从未运行过LUA脚本。它马上就完成了，我的HTMl选择器找不到我要找

浏览 0提问于2019-08-30得票数 0

回答已采纳

1回答

使用scrapy* splash对抓取速度有显著影响吗？*

python、selenium、web-scraping、scrapy、scrapy-splash

到目前为止，我一直在使用scrapy和编写自定义类来处理使用ajax的网站。但是，如果我使用scrapy-splash，据我所知，它会在javascript之后抓取呈现的html，爬虫的速度会受到严重影响吗？使用scrapy抓取一个普通的html页面所需的时间与使用scrapy-splash抓取javascript渲染的html所需的时间进行了怎

浏览 3提问于2018-04-18得票数 12

回答已采纳

2回答

Google App Engine:为Scrapy* + Splash加载另一个Docker图像*

docker、google-app-engine、scrapy、scrapy-splash、splash-js-render

我想在Google App Engine中使用Scrapy + Splash刮掉一个javascript网站。Splash插件是一个Docker镜像。App Engine本身使用Docker镜像，但我不确定如何加载和访问次要镜像( Splash是如何使用的)。

浏览 3提问于2019-11-13得票数 5

1回答

如何使用BeautifulSoup抓取javascript生成的数据？

javascript、python、json、web-scraping、beautifulsoup

我正在尝试通过python和BeautifulSoup使用网络抓取来迁移博客中的一些评论。我要查找的内容不在HTML本身中，似乎是在脚本标记中生成的(我找不到它)。我已经看到了一些关于这个问题的答案，但大多数都是针对某个问题的，我似乎不知道如何将其应用到我的网站上。我只是试着从像这样的页面中收集评论：如果我把行话搞

浏览 26提问于2018-01-23得票数 0

点击加载更多