Scrapy + Splash (Docker)问题

文章/答案/技术大牛

发布

1回答

如何使用docker工具箱运行splash

、、、

是否有一种方法可以使用Docker工具箱而不是停靠桌面，以便与splash一起工作？码头工具箱说，它是一个替代的系统不能运行对接-桌面。

浏览 0提问于2019-04-15得票数 0

2回答

连接被另一方拒绝: 10061:由于目标机器主动拒绝连接，无法建立连接。

、、、、

-t scrapy PS D:\Programs\image_addons> docker run -p 8050:8050 -p 5023:5023 scrapy/splash Unable to find image'scrapy</

浏览 14提问于2021-09-15得票数 6

1回答

、

我在AWS Ubuntu服务器上设置了scrapy和scrapy-splash。g.throw(self.type, self.value, self.tb) packages/scrapy我会发现docker中的启动进程要么已经终止，要么没有响应。我一直在运行启动进程； sudo docker run -p

浏览 2提问于2017-08-02得票数 1

2回答

多个Selenium实例的Scrapy* (并行)*

、、

我需要用Selenium和Scrapy抓取很多网址。为了加快整个过程，我正在尝试创建一组共享的Selenium实例。我试图创建一个Middleware，但问题是Middleware是顺序的(我看到所有的驱动程序(我称之为浏览器)都在加载urls，而且似乎是顺序的)。我希望所有的驱动程序并行工作。

浏览 84提问于2019-01-23得票数 0

1回答

Scrapy连接被拒绝

、、

嗨，我使用Scrapy & Scrapyd已经有一段时间了，最近我遇到了一个非常奇怪的问题。我所有的蜘蛛都会工作一段未知的时间(天)，然后它就停止工作了。

浏览 3提问于2017-05-18得票数 0

1回答

从Docker运行Scrapy和Splash

、

新手问题:我让splash在docker容器中运行，在我本地的开发机器上运行scrapy。我现在需要通过docker容器将其推广到AWS环境，但我不知道如何连接scrapy和splash容器？我假设我需要创建一个docker堆栈，但这就是我所能得到的:o(

浏览 0提问于2018-09-21得票数 0

1回答

刮擦-等待页面加载的飞溅

、、、

基本上，SplashRequest和scrapy.Request似乎都会运行并产生结果。我在这里遵循的指导，并让它们的docker实例在localhost上运行:8050并创建了一个settings.py。谢谢!spider.pyimport scrapyfromscrapy_splash import

浏览 0提问于2019-08-30得票数 0

回答已采纳

1回答

Scrapy HTTP状态代码未处理或不允许

、、、

我正在使用scrapy-splash来抓取一个使用javascript加载结果的汽车经销商网站，但我一直收到错误504 Gateway Time-out。我有docker和Win10，我不认为问题出在docker配置上，因为我可以用相同的代码抓取另一个站点。import scrapyfrom scrapy.loader import ItemLoader

浏览 24提问于2021-02-10得票数 0

2回答

Scrapy:提取数据(css-selector)

、、

scrapy shell https://www.indiegogo.com/projects/functional-footwear-run-pain-free#/ response.css('.t-h3

浏览 1提问于2020-08-03得票数 0

1回答

在同一个Ec2实例上运行Splash服务器和Scrapy蜘蛛

、、、

我正在部署一个由蜘蛛组成的web抓取应用程序，它可以从网站中抓取内容，也可以使用 javascript呈现服务来截图网页。我希望将整个应用程序部署到一个Ec2实例中。但是，为了使应用程序工作，我必须在运行蜘蛛的同时，从码头映像运行一个启动服务器。如何在Ec2实例上运行多个进程？如能就最佳做法提出任何建议，将不胜感激。

浏览 0提问于2018-04-26得票数 1

回答已采纳

2回答

刮溅活动内容选择器在shell中工作，但不与蜘蛛一起工作。

、、、、

我刚刚开始使用scrapy从opentable.com检索预订的数量。以下内容在shell中工作得很好： yield {'bookings': response.css('div.booking::text').extract()}$ scrapy: Scraped from <200

浏览 0提问于2018-06-16得票数 2

回答已采纳

2回答

使用码头，刮起的飞溅在赫洛库

、、、

我有一个刮擦蜘蛛，它使用splash，它运行在Docker上:8050在抓取之前呈现javascript。

浏览 3提问于2017-09-05得票数 7

1回答

Scrapy Spash不爬行

、、

这是我非常简单的代码： import scrapy 'mergent_scraper.middlewares.MergentScraperDownloaderMiddleware': 543, 'scrapy_splash.SplashCoo

浏览 17提问于2021-06-28得票数 0

1回答

我似乎不能从这个链接呈现一个完整的html响应： http://gabgoh.github.io/COVID 我之所以使用splash扩展，是因为我用常见的scrapy实践尝试的方法都不起作用，但这也不起作用这是我的python代码(我正在用docker run -p 8050:8050 scrapinghub/splash运行splash docker ) import scrapy from scrapy.u

浏览 10提问于2020-04-01得票数 0

回答已采纳

1回答

scrapy呈现js页面的问题

、、、、

我遇到了一个带有动态加载内容的网页的抓取问题。我使用以下命令启动了splash docker镜像：我的scrapy-splash爬行器使用了一个LUA脚本，它应该滚动并返回整个页面的HTML：from scrapy_splash import S

浏览 0提问于2017-12-16得票数 0

1回答

将与HTTP代理合并时出现的"500内部服务器错误“

、、、

我试图在Docker容器中爬行一个Scrapy蜘蛛，使用Splash (渲染JavaScript)和通过Privoxy (提供匿名)的Tor。有人能看到这里出了什么问题吗？/splash/proxy-profiles:/etc/splash/proxy-profiles.├── docker-com

浏览 1提问于2017-07-11得票数 1

回答已采纳

3回答

如何到达一个非常深嵌套的A HREF为我的蜘蛛找到下一个按钮？

、、、、

但是由于一些奇怪的原因，当我尝试使用scrapy访问它时，我得到了以下结果：[]你知道我做错了什么吗？

浏览 1提问于2018-04-05得票数 1

回答已采纳

1回答

Scrapy - CSS选择器问题

、

有谁对这个问题有线索吗？

浏览 23提问于2019-05-10得票数 0

回答已采纳

1回答

如果搜索产生的结果多于显示的结果，则清除隐藏页面

、、

在下输入的一些搜索查询会产生超过1,000个结果(动态显示在搜索页面上)。但是，结果最多只能显示100个页面，每个页面有10个结果，所以我试图在给定一个产生超过1,000个结果的查询的情况下收集剩余的数据。抓取前100页的ID的代码是(需要大约2分钟浏览全部100页)：import requests number_of_pages = 100 car_dict = {} # parse ev

浏览 1提问于2020-01-03得票数 0

1回答

如何在船坞构形中使用飞溅和Tor混合飞溅的刮痕

、、、、

.└── example ├── scrapy.cfgversion: '3' scraper:COPY ./scraperCMD ["scrapy

浏览 7提问于2017-07-11得票数 6

回答已采纳

点击加载更多

如何使用docker工具箱运行splash

连接被另一方拒绝: 10061:由于目标机器主动拒绝连接，无法建立连接。