开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Heroku上的Scrapy

Heroku是一个支持多种编程语言的平台即服务（PaaS），它允许开发者部署和管理应用程序。Scrapy是一个用于网络爬虫的Python框架，它可以用来抓取网站的数据。在Heroku上部署Scrapy项目可以让你的爬虫工作在云端，从而节省本地资源并提供更好的可扩展性。

基础概念

Heroku: 是一个云平台，它提供了应用程序的部署、托管和管理服务。它支持多种编程语言，包括Python。

Scrapy: 是一个快速的高级Web爬取和网页解析框架，用于抓取网站并从中提取数据。

相关优势

可扩展性: 在Heroku上部署Scrapy可以利用云服务的弹性伸缩特性，根据需求调整资源。
易于部署: Heroku提供了简单的部署流程，可以通过Git推送代码到Heroku平台。
成本效益: 只需为实际使用的资源付费，无需投资昂贵的硬件。
维护简便: Heroku负责服务器的维护和更新，开发者可以专注于应用程序的开发。

类型

在Heroku上部署Scrapy项目通常涉及以下几种类型的服务：

Web Dynos: 处理HTTP请求。
Worker Dynos: 执行后台任务，如爬虫运行。

应用场景

数据抓取: 从网站抓取数据用于分析或存储。
监控服务: 定期检查网站状态或内容变化。
自动化报告: 收集数据并生成定期报告。

遇到的问题及解决方法

问题: 在Heroku上部署Scrapy时遇到内存限制问题。

原因: Heroku的免费Dyno有一定的内存限制，如果Scrapy爬虫消耗过多内存，可能会导致进程被终止。

解决方法:

优化代码: 减少内存使用，例如通过分批处理数据而不是一次性加载所有数据。
使用缓存: 利用Scrapy的缓存机制减少重复请求。
增加Dyno内存: 如果预算允许，可以升级到具有更多内存的Dyno。
监控资源使用: 使用Heroku提供的监控工具来跟踪内存使用情况，并根据需要调整代码。

示例代码

以下是一个简单的Scrapy项目和Heroku部署的基本步骤：

创建Scrapy项目:

scrapy startproject myproject
cd myproject

编写爬虫: 在myproject/spiders目录下创建一个新的爬虫文件，例如example_spider.py。
配置Heroku: 在项目根目录下创建Procfile和requirements.txt文件。

Procfile内容示例:

web: gunicorn myproject.wsgi --log-file -
worker: scrapy crawl example_spider

requirements.txt内容示例:

scrapy
gunicorn

部署到Heroku:

heroku create
git push heroku master
heroku ps:scale web=1 worker=1

通过以上步骤，你可以将Scrapy项目部署到Heroku，并开始在云端运行你的爬虫。记得根据实际情况调整配置和资源分配。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

通过Mono 在 Heroku 上运行 .NET 应用

英文原文：Running .NET on Heroku 中文原文：在 Heroku 上运行 .NET 应用自从加入了Heroku之后,我就想在这个平台上运行.NET程序。...我的目标是能够在Windows上使用Visual Studio创建一个ASP.NET MVC解决方案去创建一个Heroku的应用程序。...它能够使用git命令push Heroku,构建Heroku,应用部署在Mono和XSP网络服务器。 result主要是基于原先我工作的同事Brandur。.../heroku-buildpack-mono/ $ git push heroku master 我已经编写了几个可以运行的例子。...然后限制为1线程： heroku scale worker=1。另一个例子来自一个 AppHarbor 例子，演示了 Heroku PostgreSQL 数据库的的简单使用。

3.2K6 0

Ubuntu下node.js项目发布到heroku上

使用ExpresJS+ReactJS做了一个小项目，git推送发布到heroku上，做开发测试挺方便的，以下是在ubuntu上的发布过程。...Heroku是最早的云平台之一，自2007年6月开始开发，当时它只支持Ruby编程语言，但现在支持Java，Node.js，Scala，Clojure，Python，PHP和Go。...myfirstexpress && cd myfirstexpress 如有必要，修改package.json的dependencies。...create myfirstexpress 发布 $ git push heroku master 运行服务（可不需要，我的项目推送后直接运行了）： $ heroku ps:scale web=1 检查服务运行状态...： $ heroku ps 如果出现错误，看看日志： $ heroku logs 打开看看： $ heroku open

2.5K4 0

Heroku上一键部署Cloudreve网盘程序

，配置文件与数据库均可保留（使用sqlite方式时不保留任何信息）一键部署在Heroku上： image.png DEMO : cloudre.herokuapp.com 查看Heroku Redis...with Heroku Redis + Heroku Postgres(需要已验证的Heroku账户) 当前版本使用Heroku Postgres可能无法成功部署。...#960 Cloudreve的Docker版本，内置Heroku Redis与Heroku Postgres，可自定义插件配置（可能包含付费内容）一键部署在Heroku上： image.png 关于...Jawsdb Mysql(需要已验证的Heroku账户) Cloudreve with redis的Docker版本,内置Heroku Redis与Jawsdb Mysql 默认数据库空间为5MB 一键部署在...Heroku上： image.png 关于使用alpine:latest镜像制作，默认开启Redis缓存服务应用程序升级或变更时，配置文件与数据库均可保留容器中的Cloudreve版本为 cloudreve

3.5K1 0

Install Scrapy on OSX|mac OSX 上安装Scrapy

顺利的话，一句命令搞定： sudo pip install Scrapy OSX还是需要额外一些包或升级的，包括： cssselect, queuelib, six, w3lib, lxml, Twisted..., characteristic, pyasn1, pyasn1-modules, service-identity 幸运的是pip或者easy_install 可以自动为你安装，但是其中的问题： Found...我只能这么认为：这都是pip的错。好吧，那就easy_install试试吧。...看来libxml2 需要额外安装的 xcode-select --install 以下就顺利完成安装 sudo pip install Scrapy OR sudo pip easy_install...Scrapy

7921 0

ubuntu上安装scrapy框架

简介: Scrapy的安装有多种方式，它支持Python2.7版本及以上或Python3.3版本及以上， scrapy的依赖库比较多,而且各个平台的都不一样,这里我只介绍在debian/ubuntu下如何安装...scrapy,以及我遇到的一些问题,windows用户自行百度了,哈哈(懒) 环境: Ubuntu->18.04, python->3.4.3, pip->18.0,安装：首先安装需要用到的依赖依赖...pip3 install Scrapy 如果速度比较慢，可以更换pip的源 vim ~/pip/pip.conf [global] index-url = http://mirrors.aliyun.com...) 大致意思是我没有安装PyHamcrest吧，还规定了版本，因为我怕直接pip安装版本会不对，就直接下载对应版本的包，本地安装了。...在这里下载PyHamcrest->1.9.0版本的包到本地，然后进入目录 pip3 install .

2.2K2 0

Python 爬虫之Scrapy《上》

2 工作流程是怎么样的下图是从网络上找的一张Scrapy的工作流程图，并且标注了相应的中文说明信息： 3 Scrapy框架的六大组件它们分别是：调度器(Scheduler) 下载器(Downloader...由Spider返回的Item将被存到数据库(由某些Item Pipeline处理)或使用Feed exports存入到文件中。备注：实体（Item) 实际上就是指我们要获取的数据 Step6....开始创建一个Scrapy 项目，我这里以爬取lab为示例 scrapy startproject lab #创建新的Scrapy项目，注意一下，如果此命令没有你就需要配置一下Scrapy 的环境变量 cd...:close_spider") self.file.close() 这里是自定义的一个pipeline,所以还需要在setting.py 文件里面把它配置上，如下： ITEM_PIPELINES...= { 'lab.pipelines.FilePipeline': 300, } 最终提取到文件的结果如下图所示：总结：今天的分享主要是从整体上讲了一下Scrapy 的工作流程，算是一个入门的学习

3582 0

Salesforce Heroku（四）Salesforce中的应用(ConnectedApp)

image.png 前边我们开发好Heroku程序，在Salesforce中要如何使用呢，下边一种方法是做成一个ConnectedApp，然后在Lightning中做迁移跳转。...image.png image.png image.png image.png 登录用户的Profile中需要设置有效化 image.png 效果展示：↓↓↓ image.png image.png

8593 0

Salesforce的PaaS平台Heroku简介

Heroku是可支持多种编程语言的PAAS平台。现归属于Salesforce。...2011年9月15日，Heroku和Facebook（脸谱）介绍Heroku上运营的脸谱网。...此前 Heroku 已经把 PostgreSQL 作为一种服务工具提供给开发人员，且已有几年的历史，不过现在开发团队的希望是，无论自己的应用在哪里托管都能使用Heroku的数据库服务。...附2 Heroku架构简介 Heroku是一种提供Ruby语言服务的云计算应用平台，为客户进行网络编程提供全新体验。 Heroku构建在Amazion AWS之上的云计算应用平台。...客户可以直接从浏览器中访问和编辑自己的代码，也可以添加相关语言的插件。Heroku平台在程序开发上可让你得到与本地计算机相同，甚至更好的体验。 Heroku是Rails应用最简单的部署平台。

7.3K2 0

Mac 上安装 Scrapy 报错，Operation not permitted

前几天在 Mac 上安装 Scrapy，按照官方文档的步骤使用 pip 安装 scrapy 后报一个权限错误 OSError: [Errno 1] Operation not permitted: '/...，但问题是即使使用 sudo 命令也还是报相同的错误，搜索之后发现是因为 pip 在更新本机 six 模块的时候，没有权限卸载本机旧版本的 six 模块。...网上给出的解决办法是加个 ignore 参数，完整命令如下： pip install scrapy --ignore-installed six，忽略本机已安装的 six，这样就可以避免没有权限删除的问题了...使用此命令可以正常安装 Scrapy，安装完成之后运行 Scrapy，发现又报一个引用错误 ImportError: cannot import name xmlrpc_client，搜索之后发现解决办法是要手动删除机子上的...root 用户也无法删除/修改某些系统核心文件，这样即使在系统完全被黑的情况下也能够保证系统的完整性，这也算是整个电脑的最后一重安全保障。

5852 0

Heroku上一键部署Cloudreve网盘程序并开启Redis

Cloudreve 支持多家云存储驱动的公有云文件系统,能助您以最低的成本快速搭建公私兼备的网盘系统。实验性的附加Mysql数据库方式在最下方。...查看更新的内容：Cloudreve-Heroku 在Heroku一键部署Cloudreve+Redis 一键部署在Heroku上： image.png 镜像内容项目地址：Cloudreve-Heroku...DevcenterDyno sleeping 意味着在Free and Hobby节点部署的应用程序会在无网络访问30分钟后自动休眠，由于此镜像中的Cloudreve集成Sqlite储存数据，在应用程序休眠重启之后会丢失所有之前保存的数据以及配置文件...这里可以使用Uptimebot的自动监控功能来保持Free and Hobby节点应用程序的网络活跃以避免应用程序休眠：点击注册Uptimebot 请注意Heroku订阅中的应用程序允许运行的时长，普通用户为...[Info] 2020-07-18 18:36:54 当前运行模式：Master 使用Mysql作为数据存储方式使用Heroku自带的Add-on插件Cleardb Mysql，默认的数据库空间仅有

1.3K1 0

mac求生指南：在linux上安装scrapy

在linux装scrapy。总是会有些莫名其妙的问题。 pip install scrapy 其实可以看最后。如果不想跟坑的话 =。...可以直接使用cmd： scp[本地文件的路径] [服务器用户名]@[服务器地址]:[服务器上存放文件的路径] scp /Users/mac/Desktop/test.txt root@192.168.1.1...然后安装scrapy pip3 install scrapy 对了，说一下pip和pip3的区别安装了python3之后，库里面既会有pip3也会有pip 使用pip install XXX 新安装的库会放在这个目录下面...，那么就不能import python2.7/site-packages中的库安装完成后， scrapy 如果报错： No module named twisted.persisted.styles...pip3 install scrapy 安装完成后，再在python3导入scrapy就不报错了

1.6K3 0

windows下安装scrapy安装不上的解决方法

问题产生的场景今天在学习scrapy，通过pip install scrapy -i http://pypi.douban.com/simple 进行安装时，安装到最后报了一串错误，无法安装，提示无...解决方法经过一番查找找到这个文件的下载路径和安装方法，下载地址： https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted 1 打开网址后我们找到 twisted...2 上述列表中我们可以发现它是按照，版本+python 环境+windows版本命名的一个方式，我们选择我们自己电脑对应的环境进行下载 3下载完成后，我们通过pip命令进行安装 pip install...D:\软件\应用软件\python\Twisted-19.2.1-cp36-cp36m-win_amd64.whl 后面的这个D：\这个是我电脑存放这个文件的路径，大家安装的时时候换成自己存放的路径即可...4 这个安装完成后，就可以再用 pip install scrapy -i http://pypi.douban.com/simple 安装scrapy了，这次顺利安装完成！

1K2 0

【scrapy】debian下scrapy的安装

把Scrapy签名的GPG密钥添加到APT的钥匙环中: sudo apt-key adv --keyserver hkp://keyserver.ubuntu.com:80 --recv 627220E7...执行如下命令，创建 /etc/apt/sources.list.d/scrapy.list 文件: echo 'deb http://archive.scrapy.org/ubuntu scrapy...main' | sudo tee /etc/apt/sources.list.d/scrapy.list 更新包列表并安装 scrapy-0.24: sudo apt-get update && sudo...apt-get install scrapy-0.24 8.

5892 0

Scrapy进阶之Scrapy的架构

Scrapy是一个python的爬虫架构，但是这个架构的工作原理是怎么的呢？也就是说，Scrapy的框架是怎么样的。...爬虫，说白了就是去互联网上下载东西，然后提取下载下来的页面中有用的字段。这件事怎么说也是一个工程吧，作为一个工程师，好吧，就是一个码农，你的模块化思想应该体现出来了。...加工数据流就像是数据流通过管道一样，所以，我们把这个对数据做后期存储、验证的模块叫做Pipline。我们的框架建立好了，爬虫开始出发了！ ...我们的Dealer模块是可以提取“下一页”这样的链接的，但是他并没有安排给爬虫去进行下一次爬取的任务。...铛铛铛铛，这是scrapy官方的框架图，如果把我们自己意淫出来的模块中的Dealer改成Spider，两个框架就一样了！ Scrapy和我们之前想的一样哦！

50810 0

【scrapy】windows下scrapy的安装

2.安装pyOPENSSL（pyOpenSSL-0.12-py2.7-win32）安装地址：https://launchpad.net/pyopenssl 注意，如果以上你使用exe安装程序安装的，...id=44266 5.Twisted-15.2.1-cp27-none-win32（注意：版本最好安装15.2.1，新版本会报错，老版本缺东西） 6.pip install Scrapy 最后附一张：

6931 0

Salesforce Heroku（五）Salesforce中的应用(CanvasApp)

image.png image.png 2.CanvasApp做成 image.png image.png image.png image.png image.png image.png 3.装载CanvasApp的Aura...access="global" > heroku_canvasapp..." width="100%"/> 4.自定义Tab用的Aura做成 warmSpireForHerokuTabAura 5.Tab做成 image.png image.png image.png 6.把做成的Tab

7082 0

推荐 10 个 Heroku 的替代品

很多人都喜欢尝试新的框架和工具，然后用它创建一个小项目，发布到 GitHub 上，并提供一个可用于演示的链接，这样大家就不需要下载你的项目、初始化、安装依赖，然后运行等一系列复杂的步骤。...过去，你可以把项目上传到 Heroku，因为它可以免费托管项目，由于这些项目只是一些演示，所以配置低的免费机器就可以。...但是现在，Heroku 宣布他们将关闭所有免费的 dynos、postgress 和 Redis 存储，所以要么升级到付费，要么寻找替代品。...为一些 Demo 付费是不值得的，所以，这里推荐几个免费的，可以作为 Heroku 的替代品。...8、Fleek.co Fleek.co[8] 它就像在 Netlify 上部署一样简单，但支持 Web3，因此您的页面可以永久存储在 IPFS 上（即使您的域名过期），而无需处理 web3 开发的复杂性

5.3K2 1

Scrapy框架的使用之Scrapy入门

接下来介绍一个简单的项目，完成一遍Scrapy抓取流程。通过这个过程，我们可以对Scrapy的基本用法和原理有大体了解。一、准备工作本节要完成的任务如下。创建一个Scrapy项目。...这个命令将会创建一个名为tutorial的文件夹，文件夹结构如下所示： scrapy.cfg # Scrapy部署时的配置文件 tutorial # 项目的模块，需要从这里引入...不过这个Class必须继承Scrapy提供的Spider类scrapy.Spider，还要定义Spider的名称和起始请求，以及怎样处理爬取后的结果的方法。也可以使用命令行创建一个Spider。...对text来说，观察到它的class为text，所以可以用.text选择器来选取，这个结果实际上是整个带有标签的节点，要获取它的正文内容，可以加::text来获取。...最后，Scrapy输出了整个抓取过程的统计信息，如请求的字节数、请求次数、响应次数、完成原因等。整个Scrapy程序成功运行。

1.3K3 0

关于Scrapy爬虫框架中meta参数的使用示例演示（上）

/前言/ 我们常常知道，人类的眼睛在捕捉信息的时候，对图像的反映速度比对具体的文字更加敏感，所以小伙伴们在浏览网页的时候首先映入眼帘的是图片，在这篇文章中将结合图片的抓取，主要介绍Scrapy爬虫框架中...之前的文章可以前往：在Scrapy中如何利用CSS选择器从网页中采集目标数据——详细教程（上篇）、在Scrapy中如何利用CSS选择器从网页中采集目标数据——详细教程（下篇）、在Scrapy中如何利用Xpath...选择器从网页中采集目标数据——详细教程（上篇）、在Scrapy中如何利用Xpath选择器从网页中采集目标数据——详细教程（下篇）。...为了更好的与Scrapy框架切合，我们希望获取到封面图的URL，并且将该链接放到Request函数中去，然后通过Request把这个封面图的URL传递到parse_detail函数中的response中去.../小结/ 本文主要介绍了Scrapy爬虫框架中meta参数的使用示例，介绍了理论部分。这篇文章属于热身篇，下篇文章，结合代码让大家有个完整的认识，希望对大家的学习有帮助。

6282 0

Scrapy框架的使用之Scrapy对接Selenium

Scrapy抓取页面的方式和requests库类似，都是直接模拟HTTP请求，而Scrapy也不能抓取JavaScript动态渲染的页面。在前文中抓取JavaScript渲染的页面有两种方式。...一种是分析Ajax请求，找到其对应的接口抓取，Scrapy同样可以用此种方式抓取。...那么，如果Scrapy可以对接Selenium，那Scrapy就可以处理任何网站的抓取了。一、本节目标本节我们来看看Scrapy框架如何对接Selenium，以PhantomJS进行演示。...构造这个对象的时候需要传入多个参数，如url、body等，这些参数实际上就是它的基础属性。...下一节我们再来看看Scrapy对接Splash的方式。

2.4K5 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭