Python - Scrapy splash无法呈现此页面 - 腾讯云开发者社区

、、、

这就是我想要抓取的页面。当我使用SplashRequest打开它时，我得到了一个具有相同源代码的不同页面。以下是我对splas的设置：SPLASH_URL = 'http://192.168.99.100:8050''scrapy_splash.SplashCookiesMiddleware': 723, 'scrapy</em

浏览 2提问于2018-08-18得票数 0

1回答

使用scrapy* splash对抓取速度有显著影响吗？*

、、、、

到目前为止，我一直在使用scrapy和编写自定义类来处理使用ajax的网站。但是，如果我使用scrapy-splash，据我所知，它会在javascript之后抓取呈现的html，爬虫的速度会受到严重影响吗？使用scrapy抓取一个普通的html页面所需的时间与使用scrapy-splash抓取javascript渲染的html所需的时间进行了怎样的比较？最后，scrapy splash和Selenium的比较如何？

浏览 3提问于2018-04-18得票数 12

回答已采纳

1回答

如何在google的网络商店搜索结果上抓取动态生成的数据

、、、、

这是我尝试使用Scrapy和Scrapy-Splash呈现所需的页面，但仍然得到相同的响应。我甚至访问了网页http://localhost:8050并手动输入了我的网址，但它无法呈现数据，尽管消息显示成功。这是我为爬虫写的代码。它实际上什么也不做，它唯一的工作就是获取所需页面的HTML内容。import scr

浏览 12提问于2019-07-07得票数 0

2回答

Scrapy:提取数据(css-selector)

、、

scrapy shell https://www.indiegogo.com/projects/functional-footwear-run-pain-free#/ response.css('.t-h3

浏览 1提问于2020-08-03得票数 0

1回答

如何将javascript呈现模块集成到scrapy中？

、、、

我知道scrapy不是为进行这种类型的抓取而构建的，但我一直试图使用或来完成我所需要的工作。编辑:我的平台是ubuntu，我使用python。对于scrapyjs，我只是将源代码放在scrapy项目的最上面的目录中，并且我还没有找到任何关于如何使用splash</em

浏览 0提问于2014-02-04得票数 4

回答已采纳

1回答

抓取不能抓取链接-- vnexpress网站评论

、

我是Scrapy & Python的新手。我尝试从以下URL获取注释，但结果始终为null：from scrapy.spiders import Spider from scrapy.selector import Selector

浏览 4提问于2016-05-12得票数 0

回答已采纳

2回答

飞溅问题(d总线，QSslSocket，libpng)

、、、、

我正在尝试通过scrapinghub/splash Docker映像使用Splash，并在第一个请求(即/robots.txt端点)之后发出一些警告，因为我正在为scrapy库使用scrapy-splash插件(使用Python3.6)。还需要提到的是，有时它会呈现这个页面，如果JS可用的话，它包含重定向。更新当使用scrapinghub/splash:3.0时，这些消息仍然存在，但

浏览 0提问于2018-01-18得票数 2

回答已采纳

1回答

抓取外壳看起来不同于用户界面，网站的一部分是不可抓取的

、、、、

如果我使用chrome devmode，我无法在xpath或选择器中复制正确的位置。

浏览 24提问于2019-04-24得票数 0

回答已采纳

1回答

Python-使用Scrapy爬行网页并满足Javascript

、、、

我试图通过使用Scrapy在下面的链接下抓取页面。当我试图爬行下一页时，nc.mofcom.gov.cn/channel/qytc2017/list.shtml?response.url + "&page=%d" % pageNum因为只有子页面p_index=210000&page=6共享相同的content.Indeed，我还注意到有些页

浏览 1提问于2017-08-17得票数 0

1回答

刮擦-等待页面加载的飞溅

、、、

我对刮擦和飞溅很陌生，我需要从单个页面和常规的web应用程序中抓取数据。不过，有一点要注意的是，我主要是从内部工具和应用程序中抓取数据，所以有些工具和应用程序需要身份验证，而且所有这些都需要至少几秒钟的加载时间才能完全加载页面。我天真地尝试了Python time.sleep(秒)，但它没有工作。基本上，SplashRequest和scrapy.Request似乎都会运行并产生结果。spider.pyimport scrapy from scrap

浏览 0提问于2019-08-30得票数 0

回答已采纳

1回答

使用Scrapy和Splash将动态页面重新呈现为HTML

、、

在下面的代码中，我试图使用JavaScript将一个Scrapy_Splash页面呈现为html，但在运行爬行器时得到以下错误(TCP连接超时10060)：HTTPC

浏览 19提问于2021-12-27得票数 0

2回答

请求和aiohttp之间不同的网页内容

、、、、

所以，我有两个问题如何用aiohttp修复代码以获得适当的内容？

浏览 5提问于2020-01-08得票数 1

回答已采纳

1回答

Scrapy请求可以工作，但不能使用SplashRequest

、

我正在用splash做一个非常简单的GET请求。启动调试页面和使用scrapy.Request都可以正常工作。当我尝试使用scrapy_splash.SplashRequest时，我得到一个带有空标记的未呈现页面。): yield scrapy_splash.SplashRequest(=

浏览 1提问于2019-11-25得票数 0

1回答

无法选择区段标记

、

我无法选择任何section标签和所有标签在一个。我的目标是刮除包含在section标记中的信息。将返回[] 这是链接：

浏览 0提问于2019-06-17得票数 0

回答已采纳

1回答

无法获取scrapy* javascript完整响应*

、、、、

我似乎不能从这个链接呈现一个完整的html响应： http://gabgoh.github.io/COVID 我之所以使用splash扩展，是因为我用常见的scrapy实践尝试的方法都不起作用，但这也不起作用这是我的python代码(我正在用docker run -p 8050:8050 scrapinghub/splash运行splash docker ) import scrapy from scrapy.u

浏览 10提问于2020-04-01得票数 0

回答已采纳

1回答

用Scrapy* / Splash抓取Google图像-被重定向*

、、、

但是，当我试图通过Scrapy刮掉它时，请求会被重定向3次，如图所示；生成的网页如下所示而不是结果页面。这是我的Scrapy settings.py DOWNLOADER_MIDDLEWARES = { DUPEFIL

浏览 0提问于2017-05-17得票数 3

1回答

按Scrapy-Splash返回图片内容

、、、

我正在使用Scrapy-Splash请求来获取页面的渲染屏幕截图，但我还需要该页面上的图像。我使用管道下载这些图像，但我在想-这不是对同一图像发出了两个请求吗？一次是在Splash呈现页面时，另一次是在我发送下载请求时。有没有办法获取Scrapy-Splash请求返回的图像？

浏览 7提问于2017-07-19得票数 2

回答已采纳

1回答

Python Scrapy Spider未遵循正确的链接

、

我注意到，如果使用"page=0“，它会将所有评论加载到一个页面上，这真的很好。但是，无论如何，我的scrapy脚本只会从第一页抓取注释。即使我将链接改为"page=2“，它仍然只会刮掉第一页的评论。import scrapy name= "IdeaSpider" def start_requ

浏览 15提问于2021-06-26得票数 0

回答已采纳

2回答

刮擦+飞溅+ ScrapyJS

、、、

我使用的是Splash 2.0.2 + Scrapy 1.0.5 + Scrapyjs 0.1.1和im，但仍然不能通过单击来呈现javascript。下面是一个示例url class OlxSpider(scrapy.Spider): rotate_user_agent)

浏览 7提问于2016-03-03得票数 5

回答已采纳

2回答

执行javascript代码以接受条款并打开下一页

、、、、

我正在使用Scrapy和Splash，并尝试使用这两个splash端点'render.html‘和' execute’来执行javascript代码。在这两种情况下，输出都是起始页。url/index.aspx =我要呈现的页面。.click();") yield scrapy.Request('url', self.parse, meta={ &

浏览 0提问于2015-05-12得票数 2

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云