Dockerfile在文件夹中运行scrapy crawl命令

Dockerfile是用于构建Docker镜像的文本文件，它包含了一系列的指令和配置，用于定义镜像的构建过程。而scrapy是一个Python的开源网络爬虫框架，用于快速、高效地抓取网页数据。

在文件夹中运行scrapy crawl命令，可以通过编写Dockerfile来实现。以下是一个示例的Dockerfile内容：

# 使用基础镜像
FROM python:3.9

# 设置工作目录
WORKDIR /app

# 复制项目文件到工作目录
COPY . /app

# 安装依赖
RUN pip install -r requirements.txt

# 运行scrapy crawl命令
CMD scrapy crawl <spider_name>

上述Dockerfile的解释如下：

使用基础镜像：使用了Python 3.9作为基础镜像，可以根据实际需求选择其他版本。
设置工作目录：将工作目录设置为/app，可以根据实际情况进行修改。
复制项目文件到工作目录：将当前文件夹中的所有文件复制到容器的/app目录下。
安装依赖：通过运行pip install -r requirements.txt命令安装项目所需的依赖包。可以根据实际情况修改依赖文件的名称。
运行scrapy crawl命令：使用CMD指令来定义容器启动后要执行的命令，这里是运行scrapy crawl <spider_name>命令，其中<spider_name>需要替换为实际的爬虫名称。

通过以上的Dockerfile，可以构建一个包含了scrapy爬虫的Docker镜像。在构建镜像之后，可以使用docker run命令来运行该镜像，从而执行scrapy爬虫。

关于Docker和scrapy的更多信息，可以参考以下链接：

Docker官方网站：https://www.docker.com/
Docker入门教程：https://docs.docker.com/get-started/
scrapy官方网站：https://scrapy.org/
scrapy文档：https://docs.scrapy.org/

Dockerfile在文件夹中运行scrapy crawl命令

、、、

我得到了一个抓取蜘蛛，它可以在终端上运行与教程文件夹中的scrapy crawl estate。FROM ubuntu:18.04RUN apt-get update &&apt-get

浏览 4提问于2018-08-02得票数 3

3回答

未知命令:爬网错误

、、

我在64位操作系统上运行python 2.7.3版本32位。(我尝试了64位，但不起作用)。C:\Python27\Scripts>scrapy Scr

浏览 3提问于2012-04-12得票数 33

2回答

安装码头数量导致“刮除-无活动项目”。

、、

/appdocker run -it ufc-stats-scraper scrapy crawl ufc_future_fights -o future.csv] INFO: Spider closed (finished)但是，在

浏览 9提问于2022-04-20得票数 0

2回答

如何正确运行cron中的刮刮爬行

在运行命令所需的特定文件夹中，如何在scrapy crawl empt.com作业中运行像cron这样的命令，例如：我当前的crontab条目如下：0 */2 * * * * root /down

浏览 0提问于2010-10-23得票数 1

回答已采纳

1回答

在码头集装箱内运行FastAPI

、、、、

我使用了Scrapy，并且使用FastAPI公开了一个API调用，它将执行爬行器命令。我使用Ubuntu作为基础创建了一个docker容器，并安装了所有必需的依赖项。然后我使用'exec container_name bash‘作为入口点来运行FastAPI服务器命令。但是如何将服务器作为后台作业运行呢？

浏览 3提问于2020-12-10得票数 0

回答已采纳

5回答

嗨，我在scrapy上工作，我用scrapy startproject example创建了一个scrapy文件夹，并编写了爬行器来抓取url中的所有数据，我已经使用scrapy crawl spider_name命令运行了爬行器，它工作得很好，能够提取数据。但是我有一个要求，我需要用创建的单个爬虫文件运行scrapy，我的意思是单个py文件，类似于 python -u /

浏览 1提问于2012-09-29得票数 8

回答已采纳

2回答

如何使用crawl命令运行scrapy项目

、

我的scrapy安装在如下路径中： C:\Program Files\python2.7\scripts.我通过scrapy crawl项目源构建了一个名为元的项目，但当我尝试通过scrapy crawl元运行该项目时，出现了一个错误：“未知命令爬网”。我尝试在“C:\Program Files\python2.7\scipts\yuan\scrapy crawl yuan,”项目中执行它，

浏览 5提问于2015-03-24得票数 1

1回答

我的项目目录中的"scrapy* list“命令启动了一个爬行器*

、、、

我在命令行中创建了一个scrapy项目，并添加了两个爬行器myspider1和myspider2。每当我运行"scrapy crawl myspider1“或""scrapy crawl myspider2”“时，它都会启动"myspider1”。当我运行"scrapy list“时，它也会启动myspider1 我在python的

浏览 2提问于2016-02-09得票数 1

1回答

ImportError:使用在mac上没有名为蜘蛛的模块

、、

全, 我试着运行这个命令，但不知道我是否正确地更新了，我准确地复制和粘贴了以下内容：echo "export PATH=/usr/local/bin:/usr/local/sbin:$P

浏览 0提问于2016-07-11得票数 0

1回答

弹性豆杆不运行的克隆约伯

、、、、

我在一个弹力豆茎应用程序上有一个抓取器，我可以像这样运行SSH：我想帮我安排一个任务来处理这个问题。/bi

浏览 0提问于2015-04-13得票数 0

1回答

Dockerfile scrapy未知命令:爬网

、、、、

你好，我正在尝试用Dockerfile运行我的抓取蜘蛛的CMD。我已经设置了指向包含scrapy scrapy.cfg文件夹和CMD scrapy crawl资产的文件夹的路径来启动爬行器Scrapy 1.5.0- no active projectweb_1 | Unknown command: craw

浏览 2提问于2018-08-03得票数 1

1回答

Python抓取如何查找更多命令

、

我试图使用scrapy访问“爬行”命令，但它会引发“未知命令:爬行”错误。所以我想我必须去刮刮的地方然后从那里跑。不过，当我试着做这个的时候：Scrapy 1.4.0 - no active projectUnknown command: crawl编辑：当我运行</

浏览 1提问于2017-09-08得票数 1

回答已采纳

3回答

如何在Scrapy中的同一进程中运行多个爬行器

、、

我是Python & Scrapy的初学者。我刚刚创建了一个带有多个爬虫的Scrapy项目，在运行"scrapy crawl ..“它只运行第一个爬虫。提前谢谢。

浏览 0提问于2014-04-11得票数 2

1回答

编写一个批处理(.bat)文件，该文件可以逐个执行，也可以同时执行多个命令

、、、

如下所示，我有需要首先执行的命令当上述操作完成后，我需要一次运行下面三个命令。因为这三个命令取决于第一个命令的输出start cmd.exe /c scrapy，我需要运行<

浏览 15提问于2018-08-10得票数 0

回答已采纳

1回答

尝试将Scrapy放入项目中以运行Crawl命令

、、

我是Python和Scrapy的新手，我正在浏览Scrapy教程。我已经能够通过使用DOS界面并键入以下命令来创建我的项目：本教程稍后将参考Crawl命令：但每次我尝试运行它时，我都会收到一条消息，指出这不是一个合法的命令。我尝试将目录更改为我在startproject中创建的&quo

浏览 2提问于2011-02-14得票数 9

回答已采纳

8回答

如何从Python脚本中运行Scrapy

、、、

我是Scrapy的新手，我正在寻找一种从Python脚本运行它的方法。我找到了两个来源来解释这一点： # This snippet can be used to run scrapy spiders independent of scrapyd or the scrapy command, signals.item_passed) self

浏览 0提问于2012-11-18得票数 82

4回答

从命令列表中调用shell命令，直到所有命令都完成为止

、、

我有要调用的shell命令列表。最多可有四个进程同时运行。有什么方法可以用shell脚本来完成这个任务吗？我想这会涉及到某种无穷无尽的循环，中断条件以及检查活动进程的方法。nohup scrapy crawl urlMonitor -

浏览 8提问于2014-12-15得票数 3

回答已采纳

8回答

Python Scrapy错误。不再支持对多个爬行器运行'scrapy* crawl‘*

、

我用Scrapy Python写了一个脚本，几个月来一直运行得很好(没有变化)。最近，当我在Windows Powershell中执行脚本时，它引发了下一个错误：..。Running 'scrapy crawl' with more than one spider is no longer supp

浏览 11提问于2017-02-21得票数 4

1回答

如何在Heroku上调度python脚本

、、

我正在Heroku上部署一个脚本(一个Scrapy python脚本)，我希望它在早上启动4次。我绝对可以通过连接到我的Heroku帐户(我有一个免费的计划)并在windows命令行上输入以下命令来运行它：但是当我尝试通过HerokuScheduler运行它时，我遇到了一些问题。我以前从来没有用过rake，是在run之前还是在run之后使用？我应该先使用关键字herok

浏览 6提问于2017-01-20得票数 5

回答已采纳

1回答

抓取:错误:没有这样的选项：-o

、

当我运行本教程中提到的命令scrapy crawl openings -o items.json -t json时，我得到：=====我只是简单地遵循scrapy教程，当我运行没有输出选项的命令时，它工作得很好。scrapy crawl ope

浏览 1提问于2011-11-01得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Dockerfile在文件夹中运行scrapy crawl命令

相关·内容

Dockerfile在文件夹中运行scrapy crawl命令

未知命令:爬网错误

安装码头数量导致“刮除-无活动项目”。

如何正确运行cron中的刮刮爬行

在码头集装箱内运行FastAPI

如何使用py文件运行scrapy

如何使用crawl命令运行scrapy项目

我的项目目录中的"scrapy* list“命令启动了一个爬行器*

ImportError:使用在mac上没有名为蜘蛛的模块

弹性豆杆不运行的克隆约伯

Dockerfile scrapy未知命令:爬网

Python抓取如何查找更多命令

如何在Scrapy中的同一进程中运行多个爬行器

编写一个批处理(.bat)文件，该文件可以逐个执行，也可以同时执行多个命令

尝试将Scrapy放入项目中以运行Crawl命令

如何从Python脚本中运行Scrapy

从命令列表中调用shell命令，直到所有命令都完成为止

Python Scrapy错误。不再支持对多个爬行器运行'scrapy* crawl‘*

如何在Heroku上调度python脚本

抓取:错误:没有这样的选项：-o

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐