云服务器上运行爬虫_云服务器上运行爬虫程序_云服务器上爬虫 - 腾讯云开发者社区

云服务器

我在云主机上运行了一个scrapy爬虫，这个爬虫可以一直运行，假如我没有停止爬虫就和主机断开了连接，是不是除了关机就没有办法停止爬虫了？

浏览 346提问于2018-01-27

1回答

如何将scrapyd部署到网络

python、windows、scrapy、scrapyd

我目前有一个scrapyd实例，并在我的机器上本地运行。此scrapyd实例需要在我的雇主网络上的其他PC上可用。我读过关于刮刮云()和其他基于云的服务的文章。然而，我更愿意在我们的网络上托管scrapyd，因为我构建的爬虫从我们服务器上存储的csv文件中提取数据。我搜索了scrapyd文档()，了解了如何安装和运行scrapyd。我也喜欢将scrapy项目上传到scrapyd并运行特定的爬行器。

浏览 13提问于2017-02-03得票数 0

回答已采纳

1回答

定期运行python程序作为防火墙中的后台服务。

python、reactjs、firebase

我已经有了负责解析数据的python爬虫，但是我不知道如何(在后台)在firebase中执行服务器的这个python爬虫(或者根本不可能)？下面是我的系统的示例用法用户可以从数据库中看到网站变更的摘要。我想到的一个选择是在本地机器上运行爬虫，并使用REST将解析的数据更新到firebase数据库。然而，这似乎是一种非常低效/天真的方法，因为它有点失

浏览 0提问于2018-01-25得票数 3

1回答

为什么我的两个云服务器在dht crawler上的行为不同？

java、linux、cloud、bittorrent、dht

我在Bittorrent Protocol的基础上用java写了一个分布式哈希表torrents爬虫。它在1c2g1m的云服务器A上工作得很好，我从那里得到了一些torrents。然后我买了另一个云服务器B，叫做Lighthouse。B为1c2g5m，限制为1000g。但是我的爬虫在B上不起作用，我无法获得任何响应，例如find_node响应。我还使用这两台服务器互相发送和接收udp数据包。也没问题。另一件奇怪的事情是，我在B上收到了

浏览 42提问于2021-03-22得票数 1

0回答

远程服务器无法访问本机redis？

云服务器、python、云数据库 Redis、爬虫

将爬虫部署到腾讯云服务器后，云服务器一直无法访问本机的redis。本机的redis已经开启远程访问。 360截图-8277578.jpg

浏览 283提问于2019-05-22

1回答

403在Heroku上使用python请求抓取网站时出现禁止错误

python、heroku、python-requests、web-crawler、http-status-code-403

我编写了一个爬虫脚本，将post请求发送到"sci-hub.do“，并将其设置为在Heroku上运行。但当它尝试发送post或get请求时，我得到的大多是403禁止消息。奇怪的是，只有当这个脚本在Heroku云上运行时才会发生这种情况，当我在我的PC上运行它时，一切都很好，我得到了200状态代码。我尝试过使用会话，但它不起作用。为什么只有在Heroku上运行脚本时才会发生这种情况。我非常确定and<em

浏览 13提问于2021-01-28得票数 0

2回答

Import.io某些爬网程序没有本地爬网按钮

import.io

我使用import.io创建了一些爬虫，但是对于其中一些爬虫来说，本地运行的选项似乎没有显示出来。有谁知道为什么他们没有从本地运行按钮，或者我怎么才能把爬虫放进去？

浏览 2提问于2015-11-29得票数 0

1回答

如何以编程方式更改Azure Cloud服务或VM的IP地址？

azure、proxy、ip-address、vpn

他们不控制自己的服务器，所以他们希望我经常改变我的爬虫的IP地址(例如每分钟)。爬虫目前正在以Azure服务的形式运行。我可以用VPN连接..。但我不确定是否可以通过编程方式从云服务/VM中拨号VPN？我使用的是C#/.NET。终于来了。我试图做一个VIP交换，这实际上给了我一个新的IP在几

浏览 0提问于2013-08-18得票数 2

回答已采纳

1回答

托管爬虫的最佳解决方案？

performance、webserver、hosting、web-crawler

我有一个爬虫，爬行几个不同的领域为新的帖子/内容。总内容数为十万页，每天都有很多新的内容添加。因此，为了能够通过所有这些内容，我需要我的爬虫爬行24/7。目前，我将爬虫脚本托管在与爬虫添加内容的站点相同的服务器上，而且我只能在夜间运行cron作业来运行脚本，因为当我这样做时，网站基本上停止工作，因为脚本的加载。换句话说，一个非常糟糕的解决方案。所以基本上，我想知道对于这种解决方案，我的最佳选择是什

浏览 3提问于2014-03-06得票数 10

回答已采纳

1回答

CPU优化服务器还是内存优化服务器？

vps、hardware

我有一个用Go写的爬虫，我想从我的电脑移到云服务器上。因此，我正在寻找一个云服务，我看到大多数液滴，实例等.有内存和cpu优化的解决方案。

浏览 0提问于2022-09-04得票数 0

1回答

403发出get请求时的响应

python、django、amazon-web-services

在aws EC2服务器中使用python3向此网站()发出get请求时，我收到了403响应。但我在本地系统中使用相同的代码获得了成功响应。import requests<Response [403]> 在我的本地系统中

浏览 3提问于2019-08-30得票数 0

2回答

关于腾讯云服务器乱码的问题？

云服务器、java

腾讯云Centos7.1 64位系统。我在本地win8环境下用java写了个小爬虫程序，没什么问题，但将程序部到服务器上就发生了乱码，我的编码设置就是网页源代码的编码。求帮助。。

浏览 791提问于2016-03-17

1回答

建议:在线运行Scraping、SQL和web应用程序。

python、sql、scrapy、cloud

我需要MySQL云吗？我需要像"python“这样的东西来在线运行脚本并告诉scrapyd运行吗？

浏览 2提问于2019-11-16得票数 0

1回答

如何在Heroku云上部署Scrapy spider

python、python-2.7、heroku、scrapy

我在scrapy中开发了几个爬虫&我想在Heroku云上测试它们。有没有人知道如何在Heroku云上部署Scrapy spider？

浏览 1提问于2012-10-08得票数 11

回答已采纳

1回答

在服务器之间共享列表的适当方式

web-crawler、distributed-computing

我有许多网络爬虫运行在不同的服务器上。我可以通过让每个爬虫检查SQL服务器中的finderprint来做到这一点。但是--有没有更合适的方法呢？我在ubuntu上运行。

浏览 2提问于2014-06-03得票数 0

1回答

是什么阻碍了我的PHP脚本？

php、performance、apache、web-crawler

我们有一个PHP爬虫运行在我们的web服务器上。crawler运行时，没有cpu、内存或网络带宽峰值。一切都很正常。但是我们的网站(也是PHP)，托管在同一台服务器上，停止响应。基本上，爬虫会阻止任何其他php脚本运行。** fsockopen用于将文件下载到crawler！**

浏览 3提问于2010-05-11得票数 0

1回答

你如何确保它确实与谷歌云酒吧/潜艇一起工作？

google-cloud-platform、google-cloud-pubsub、google-cloud-run

首先，让我们解释爬虫是如何工作的，以及需要解决的问题。要做到这一点，它会自动发现爬行目标，并将几条消息发布到pub/sub。其信息是：当发出相应的消息时，将触发云运行函数，并爬行与给定的json对应的数据。此外，对于分布式爬虫的稳定实现，我是否可以参考pub&#x

浏览 3提问于2022-03-23得票数 0

1回答

各位用腾讯云上海站的是不是在百度站长里出这个错误了：？

云服务器

服务器错误：爬虫发起抓取，httpcode返回码是5XX ====我的好几个站都这样了，以前百度能正常抓取的，但是最近突然不行了，是什么问题啊？大家的腾讯云服务器有这个问题吗？

浏览 176提问于2016-04-26

1回答

从单独的python脚本运行爬行器

python、scrapy

我想知道从另一个python脚本运行爬虫的最好方法是什么。我的scrapy项目由4个不同的爬虫组成，它们都创建了帮助其他蜘蛛工作的文件，其中一些必须读取一些文件才能工作。这部分已经完成了，但是是单独的(独立于控制台运行爬行器)。例如，我如何才能做这样的事情？productToSearchIsBlue): #Make another spider crawl 我的最终计划是将完整的程序上传到云上，并让它自动<

浏览 8提问于2019-02-05得票数 0

回答已采纳

1回答

如何编写java程序以在远程计算机中启动程序？

java、sockets、networking、cmd

我正在同一网络上的3台Windows机器上运行三个web爬虫(Java程序)实例。我想编写一个主java程序来监视所有的3个web爬虫程序，如果有任何程序被终止，就会重新启动那个特定的程序。。我能够将客户端机器上的java程序绑定到套接字上，并从服务器监视套接字，但如果程序终止，我不知道如何重新启动程序。我一点也不知道，我应该如何做到这一点。如有任何指导，将不胜感激。

浏览 2提问于2015-05-28得票数 1

回答已采纳

点击加载更多