python爬虫运行_爬虫 python_python 爬虫 - 腾讯云开发者社区

python、cron、web-crawler

我用python编写了一个爬虫，它可以访问60多个网站，解析HTML，并将数据保存到数据库。现在，我正在使用cron作业，每15分钟运行一次爬虫。问题是，我无法知道爬虫要花多少时间才能完成(有时可能需要超过15分钟)，如果已经在运行，我不想再运行另一个爬虫。我一直在想，我是否最好使用一个无限循环，并使爬虫成为一个永久运行的进程(但是如何确保爬虫不会失败并退出呢？以及如何在每次退出时重新启动？)。哪一个更有效率？无限循环还是cron作业？

浏览 7提问于2021-05-14得票数 0

1回答

在ubuntu的后台运行时，爬虫停止。

python、web-crawler

我使用具有无限循环的python制作了一个简单的爬虫，所以它不能停止。随机延迟17 ~ 30，这个爬虫爬行相同的一个页面，并找到'href‘链接，定期更新，并存储到Mysql。我使用了Ubuntu服务器。因为我使用了Linux命令 $ nohup python crawer.py & 这个爬虫是在Ubuntu服务器背景下运行的。我想它已经运行了大约4个小时。但爬虫突然停止了。第二天我再试一次。而且效果很好！有什么问题吗？这是关于网页的块吗？或者nohup命令有限制时间？非常感谢。

浏览 1提问于2014-05-20得票数 0

回答已采纳

2回答

如何将新的URL传递给Scrapy Crawler

python、django、multithreading、celery、scrapy

我想让一个抓取爬虫在芹菜任务工人内部不断运行，可能使用。或者，正如所建议的，这个想法是使用爬虫程序来查询返回XML响应的外部API。我希望将我想要查询的URL (或查询参数并让crawler构建URL)传递给crawler，crawler将进行URL调用，并将提取的项返回给我。一旦爬虫程序开始运行，我如何将我想要获取的这个新URL传递给爬虫程序。我不想在每次想要给爬虫一个新的URL时都重新启动爬虫，而是希望爬虫无所事事地等待URL爬行。我发现的在另一个python进程中运行scrapy的两个方法使用一个新进程来运行爬虫程序。我不希望每次我想要抓取一个URL时，都必须派生和拆卸一个新的进程，因

浏览 0提问于2013-05-23得票数 2

3回答

如何在Scrapy中的同一进程中运行多个爬行器

python、python-2.7、scrapy

我是Python & Scrapy的初学者。我刚刚创建了一个带有多个爬虫的Scrapy项目，在运行"scrapy crawl ..“它只运行第一个爬虫。如何在同一进程中运行所有爬行器？提前谢谢。

浏览 0提问于2014-04-11得票数 2

3回答

将数据从PHP脚本传递到Python Web Crawler

php、python、stdout、stdin、web-crawler

我有一个python爬虫，每隔几分钟就抓取几个网页。我现在正在尝试实现一个可以通过web访问的用户界面，并显示爬虫获得的数据。我将使用php/html作为接口。无论如何，用户界面需要某种类型的按钮来触发爬虫程序立即抓取特定的网站(而不是等待下一次抓取迭代)。现在，有没有一种方法可以将数据从php脚本发送到正在运行的python脚本？我在考虑标准输入/输出，但找不到一种方法可以做到这一点(从一个进程写入另一个进程stdin)。然后我在考虑使用一个共享文件，php在其中写入数据，python从中读取数据。但是，我需要一些方法来让python脚本知道，新数据已经写入文件，以及让php脚本知道爬虫何

浏览 1提问于2011-03-31得票数 1

1回答

如何有效地运行python web爬虫

python、python-3.x、beautifulsoup、web-crawler

我有一个python爬虫，它获取信息并将其放入SQL中。现在我也有了php页面，它从SQL读取这个信息，并表示它。问题是:为了让爬虫程序工作，我的电脑必须全天候工作。我有一台简单的家用电脑--所以这是个问题。是否有一种不同的方式运行网络爬虫？还是我必须在我的电脑上运行？

浏览 1提问于2015-12-08得票数 0

回答已采纳

1回答

在某个时间运行Python程序

python、scheduled-tasks

我已经建立了一个爬虫使用Scrapy爬行到一个网站并提取链接。我想让爬虫在每天的某个时间运行。我找到了python的来执行调度，但是我找不到从哪里开始。任何帮助都是非常有用的。

浏览 0提问于2014-04-08得票数 0

1回答

如何轻松地在远程github分支和本地分支/文件夹之间切换？

python、git、github、scrapy

会发生什么事？我用Python2.7编写了大量的Scrapy爬行器。我需要将它们全部转换为支持Python 3，这种转换必须在1 go内完成。我只能在Python 3爬虫做好部署准备之后才能开始使用。我不能一次部署一个爬虫。我做了什么/我有什么？我目前有一个远程分支，它是主分支。让我们称之为遥控器-A。这就是容纳所有爬行器的分支，它们每天都会被执行。这个分支必须继续运作。对于远程分支，我有本地文件夹/分支，修复错误并创建新的。让我们把它叫做Local.，从主人那里，我推拉。现在，由于“所有操作都必须保持活动状态”，我需要一个单独的Python 3爬虫的远程分支。这个分支可以称为Rem

浏览 3提问于2019-09-10得票数 0

回答已采纳

1回答

Python-Selenium爬虫冻结，特别是在无头模式下(不可复制的bug)

python、selenium、web-scraping、web-crawler、headless

我构建了一个爬虫，它获取用户输入的产品列表的产品信息。有时，爬虫会结冰，特别是如果产品列表很长，如果爬虫在无头模式下运行的话。这个bug似乎是随机的，也是不可复制的，这让我认为它是由被爬行的网站的资源利用引起的。因为这是一个不可复制的错误，我不认为我能修复它，但有没有办法检测爬虫已经冻结，然后再试一次？下面是关于爬虫和bug的一些信息：爬虫是使用Selenium和Python构建的。这个错误发生在不同的网站和产品上。该错误发生在“正常”模式，但更多发生在无头模式。谢谢! 费利佩

浏览 2提问于2019-05-21得票数 1

2回答

运行抓取爬虫的最简单方法，这样它就不会阻止脚本

python、scrapy

给出了从代码中运行scrapy爬虫的许多方法： import scrapy from scrapy.crawler import CrawlerProcess class MySpider(scrapy.Spider): # Your spider definition ... process = CrawlerProcess({ 'USER_AGENT': 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)' }) process.crawl(MySpider) process.

浏览 3提问于2016-02-26得票数 3

回答已采纳

1回答

自动将抓取的数据提交到Github？

heroku、github、scrapy

我有一个Python Scrapy爬虫，我想在Heroku或类似的平台上定期运行它。

浏览 2提问于2014-08-07得票数 0

1回答

linux上的shell脚本

linux、shell、cron

这是我的shell脚本 #!/bin/bash crawlers(){ nohup scrapy crawl a & nohup scrapy crawl b & wait $! nohup scrapy crawl f & nohup scrapy crawl g & wait $! nohup scrapy crawl h & nohup scrapy crawl i & wait $! nohup scrapy crawl i & nohup

浏览 2提问于2012-11-03得票数 2

回答已采纳

1回答

如何解决“没有模块名为proxy”的错误？

python、google-crawlers

我正在学习爬虫，在一些基本的爬虫之后，我尝试从github下载谷歌学者爬虫大师，看看它是如何运行的，在几个我可以修复的错误之后，我遇到了一个ModuleNotFoundError: No module named 'proxy'错误(middleware.py文件，from proxy import PROXIES行是问题)。这段代码有一些问题，其中包含python 3.x版本中不再支持/建议的解决方案，包括后来被重命名/移动的模块，但我无法确定这是否也是这种情况，希望能得到帮助。

浏览 3提问于2018-03-07得票数 0

3回答

网络爬虫与Django前端的接口

python、django、web-crawler

我试着做三件事。第一:抓取和存档，至少每天，一组预定义的站点。第二:对此数据运行通宵批处理python脚本(文本分类)。第三:向用户公开一个基于Django的前端，让他们搜索抓取的数据。我一直在使用Apache Nutch/Lucene，但当我可以使用另一个爬虫引擎时，让它与Django很好地配合似乎太难了。 about 建议我可以只用Django本身编写爬虫，但我不确定该怎么做。基本上--对于用Django或现有的python爬虫编写我可以适应的爬虫有什么建议吗？或者我是否应该在第二步中加入“变成Django友好的东西”，并编写一些胶水代码？或者，最后，我应该完全放弃Django吗

浏览 0提问于2009-06-09得票数 2

1回答

如何在一个mesos从节点上运行多个码头容器？

docker、mesos、marathon

我有3个mesos主节点和87个mesos从节点。节点的所有操作系统都是Ubuntu14.04。在每个mesos从节点上，我已经安装了对接器。我有两种不同的爬虫器，每一种都被构建成一个码头容器。现在我通过马拉松发射。在mesos从节点上，我没有发现在同一个节点上运行的两个爬虫容器。每个节点只运行一个爬虫。但是我希望每个节点同时运行两个爬虫容器。我该怎么做呢？(请原谅我糟糕的英语语法)。下面的代码是马拉松启动json。 { "container": { "type": "DOCKER", "docker&#

浏览 3提问于2015-04-09得票数 1

回答已采纳

1回答

在Linux服务器上使用Selenium运行Scrapy Web Crawler

python、linux、selenium、scrapy、web-crawler

我用scrapy和selenium(python)开发了一个网络爬虫。它可以在我的本地成功运行。我很好奇，我可以把我的整个爬虫项目上传到我的linux服务器上，然后像在本地一样运行吗？只有一个问题是在我的本地，当程序运行时，它会打开浏览器，模仿人类的动作，但在linux服务器上，就像你知道的，我们没有浏览器可以打开。所以我们可以这样做吗？

浏览 1提问于2016-02-26得票数 0

1回答

无法使用bash - cron将目录更改为脚本。

python、linux、bash、cron、scrapy

我有一个运行多个Python爬虫实例的脚本，Crawler是int /root/crawler/batchscript.py 在/root/crawler/，我有一个刮擦的爬虫。爬虫工作得很好。 batchscript.py看起来像这样，(只发布相关代码) from scrapy.settings import Settings from scrapy.utils.project import get_project_settings from amazon_crawler.spiders.amazon_scraper import MySpider process = CrawlerPr

浏览 3提问于2016-11-17得票数 0

回答已采纳

2回答

GtkWarning:无法打开显示

python、ubuntu、gtk、scrapy、vps

我试图在一个vps上运行一个爬虫(使用scrapyjs，它使用python-gtk2)。在运行爬行器时，我得到了错误 /root/myporj/venv/local/lib/python2.7/dist-packages/gtk-2.0/gtk/__init__.py:57: GtkWarning: could not open display 如何在无头设置中运行此程序？

浏览 3提问于2014-12-25得票数 2

回答已采纳

1回答

定期运行python程序作为防火墙中的后台服务。

python、reactjs、firebase

只要开始使用firebase + react就可以建立一个网站。我的网站的一个设计特点是爬行和显示从另一个网站分析的数据(例如，股票价格的变化)。我已经有了负责解析数据的python爬虫，但是我不知道如何(在后台)在firebase中执行服务器的这个python爬虫(或者根本不可能)？下面是我的系统的示例用法用户登录和订阅网站/数据他们很感兴趣我的爬虫将每1小时解析该网站并将数据更新到数据库。用户可以从数据库中看到网站变更的摘要。我想到的一个选择是在本地机器上运行爬虫，并使用REST将解析的数据更新到firebase数据库。然而，这似乎是一种非常低效/天真的方法，

浏览 0提问于2018-01-25得票数 3

1回答

使用多个EC2实例爬行

amazon-ec2、web-crawler

我用python编写了一个爬行过程，它运行在亚马逊上的一个ec2实例上。我已经编写了这个爬虫，这样它就可以用它的结果向一个单独的"hub“实例报告。集线器处理爬虫的结果，爬虫可以自由地继续爬行。我在这个爬行实例中想到的是，克隆爬虫的几个实例很容易，每个实例都要向中心报告以便处理。因此，在这一点上，我有一个集线器和8个单独的爬行器(都在它们自己的实例上)不断地爬行和报告等等。我在想用小的，分开的爬行器：有冗余，所以如果一个爬虫被挂断，其余的爬虫可以继续工作。 (这是一个假设)如果每个爬虫都有自己独立的ip，我就有更好的网络利用率。我可以旋转几个爬虫或缩小规模取决于我目

浏览 2提问于2015-01-08得票数 0

回答已采纳

5回答

简单唯一非优先级排队系统

python、queue

我正在用python编写一个简单的网络爬虫，我不想创建一个简单的queue类，但我不太确定最好的开始方法。我想要的东西，只持有唯一的项目来处理，这样爬虫将只抓取每一页每次脚本运行一次(只是为了避免无限循环)。有没有人能给我一个简单的队列示例？

浏览 0提问于2009-02-14得票数 1

回答已采纳

1回答

从脚本中运行Scrapy :模块未找到错误- projectname.items不是一个包

python-3.x、scrapy

我试着运行多个爬虫，就像中说的那样。脚本是通过调用scrapy crawl crawler运行的。现在，通过python crawler.py调用它，我得到了以下错误：从crawler.items导入LinkItem ModuleNotFoundError:没有名为“爬行器”的模块；“爬虫”不是一个包 import scrapy from scrapy.spiders import CrawlSpider, Rule from scrapy.linkextractors import LinkExtractor from scrapy.crawler import CrawlerP

浏览 3提问于2017-09-28得票数 1

回答已采纳

2回答

从带有刮擦参数的脚本中运行Scrapy蜘蛛

python、scrapy

我用scrapy编写了一个蜘蛛&我可以通过python脚本成功地运行它。问题是，当我们通过scrapy提示符运行蜘蛛时，我们提供了诸如“-o ScrapedData.json -t json”这样的工具，我想通过python脚本运行"scrapy爬虫-o ScrapedData.json -t json“。任何帮助都是非常感谢的。提前感谢！

浏览 2提问于2014-02-18得票数 0

1回答

docker:在完全初始化依赖MySQL容器之前依赖容器运行

mysql、docker、docker-compose

我有一个码头-撰写文件如下所示，它有2个容器。一个是Python，另一个是MySQL爬虫应用程序，它可以读取/写入数据库。当我做docker-compose up时，我看到：数据库容器构建，然后构建应用程序容器，然后运行app容器上的CMD (例如启动爬虫)，然后根据停靠-组合文件中的环境变量在DB容器中初始化数据库。<code>g 210</code> 我的问题是，为什么在DB容器中创建数据库之前，我的爬虫脚本还在运行？如何确保在运行爬虫脚本之前已经创建了数据库？ version: '3.7' services: db:

浏览 5提问于2020-02-05得票数 1

1回答

在什么情况下，Scrapy抛出“连接完全关闭”错误？

python、scrapy

在站点上运行爬虫时，我会多次收到以下错误消息： <twisted.python.failure.Failure twisted.internet.error.ConnectionDone: Connection was closed cleanly.> 在不同的站点上运行爬虫时，我不会发现这个错误，而且它试图访问的页面我可以通过浏览器或curl访问。因此，我想知道什么情况会导致这个错误？要澄清的是，完全错误的意思是： 2016-11-17 20:59:38 [scrapy] ERROR: Error downloading <GET http://www.peets.com

浏览 2提问于2016-11-17得票数 9

1回答

如果我为我的python脚本做了一个简单的gui，它会影响它的效率吗？

python、user-interface、tkinter

嗨，我想做一个网页爬虫，检查URL的数据，如果我做一个简单的Gui，使脚本更容易查找变量的数据，添加代码的gui会使我的网络爬虫效率降低吗？我需要爬虫尽可能高效，能够尽可能快地处理数据。为这个Python脚本制作一个gui，会不会妨碍web爬虫的性能？

浏览 3提问于2015-01-27得票数 0

回答已采纳

1回答

我怎么能强制停止我的爬虫得到一个特定的网址抓取最后一次？

python、beautifulsoup、scrapy、web-crawler、html-parsing

我正在制作一个爬虫来找出最近添加的youtube视频，当我的爬虫到达旧视频(在前一个转弯中爬行)时，我想停止爬虫。我使用的不是scrapy和漂亮的汤，我使用的是python库。请给我推荐任何选项

浏览 9提问于2017-06-27得票数 0

3回答

用于调试phantomjs脚本的GUI

phantomjs

我正在使用phantomjs来构建一个网络爬虫。我目前使用的爬虫是一个使用selenium的Python脚本，它需要一个正在运行的Firefox浏览器。虽然Selenium非常适合于调试脚本(因为我可以使用firebug来检查网页)，但是如果没有GUI，它就不能部署到linux服务器上。因此，我正在尝试将我的Python脚本转换为phantomjs。为了调试phantomjs脚本，我将页面源代码html保存到磁盘并呈现png屏幕截图，然后在Firefox中打开它以检查源页面。我想知道是否有更好的方法来做到这一点，例如phantomjs的插件，等等。

浏览 1提问于2013-07-31得票数 6

1回答

从单独的python脚本运行爬行器

python、scrapy

我想知道从另一个python脚本运行爬虫的最好方法是什么。我的scrapy项目由4个不同的爬虫组成，它们都创建了帮助其他蜘蛛工作的文件，其中一些必须读取一些文件才能工作。这部分已经完成了，但是是单独的(独立于控制台运行爬行器)。例如，我如何才能做这样的事情？ if (productToSearchIsBlue): #Make one spider crawl else: #Make another spider crawl 我的最终计划是将完整的程序上传到云上，并让它自动运行，这能做到吗？我找到了这个问题的一些答案，但它们太老了，可能是另一个版本的scrapy。

浏览 8提问于2019-02-05得票数 0

回答已采纳

1回答

如何提取我的爬虫目前所站的网址？

python、scrapy、web-crawler

我正在使用python中的scrapy框架制作一个web爬虫。其主要思想是，爬虫从页面中提取一些数据，如果数据符合某些条件，爬虫应该提取其当前所处的URL。是否有一些方法/函数可以获得当前的URL？谢谢。

浏览 5提问于2016-11-27得票数 0

回答已采纳

2回答

使用sklearn和Python进行大型应用程序分类/抓取练习

python、scrapy、classification、scikit-learn

我正在研究一个相对较大的基于文本的web分类问题，我计划在python中的sklearn中使用多项式朴素贝叶斯分类器，并使用scrapy框架进行爬行。然而，我有点担心sklearn/python对于一个可能涉及数百万网站分类的问题来说可能太慢了。我已经在DMOZ的数千个网站上训练了分类器。研究框架如下： 1)爬虫登陆一个域名，抓取网站上20个链接的文本(深度不超过1个)。(对于爬虫的示例运行，这里的标记化单词数量似乎在几千到150K之间变化) 2)运行具有大约50,000个特征的sklearn多项NB分类器，并根据结果记录域名我的问题是，对于如此大规模的应用程序，基于Python的分类器是否

浏览 0提问于2013-04-13得票数 5

1回答

从烧瓶应用程序中运行刮擦

python、nginx、flask、scrapy、scrapy-spider

我有一个爬虫，我想运行每次一个人去链接。因为所有其他模块都在水瓶中，所以我也被告知要在烧瓶中构建这个模块。我已经在虚拟环境中安装了scrapy和selenium，并在带有root的机器上安装了全局。当我在终点站运行爬行器时，一切正常。当我启动Flask应用程序并在浏览器中访问xx.xx.xx.xx:8080/whats时，它也可以正常工作，运行我的爬虫并为我获取文件。但是，一旦我活了下来，只要一个人去链接，它就会给我浏览器中的内部错误。为了运行爬虫，我们必须在终端输入“刮刮爬行”。我使用Python的os模块完成了这个任务。这是我的酒瓶代码： import sys from flask

浏览 4提问于2015-08-17得票数 3

回答已采纳

1回答

分布在不同地理位置的爬虫

python、web-crawler、nutch

我在不同的地理位置有几台台式机。我需要创建一个爬虫与客户端在每个台式机和一个中央服务器，其中的数据是索引。有没有可能在Nutch中创建这样的爬虫？还有没有别的选择。基于Python的爬虫会更好。

浏览 2提问于2011-07-04得票数 0

回答已采纳

1回答

什么是最好的服务器语言来编程一个网络爬虫？

perl、coldfusion、asp、web-crawler

我想问一下哪种语言： ASP.NET / Ruby / CGI / Perl / Python /ColdFusion. 将是编写bes爬虫程序所需的be。以及处理包含的信息？ (它应该用于数据挖掘) 在运行时最快？最容易写？最容易maintain?<< 谢谢

浏览 0提问于2012-01-01得票数 -2

回答已采纳

1回答

Web Crawler的常用输出格式

web-crawler

需要将现有应用程序连接到社交媒体监控。爬虫的常见输出格式是什么？它会是XML，JSON吗？或者它会根据爬虫的不同而不同，例如: Python，Java？

浏览 0提问于2012-08-20得票数 0

回答已采纳

1回答

同时运行相同的爬虫

python、python-2.7、scrapy

我使用的是scrapy 0.20和python 2.7 我想问，在同一时间内运行同一个爬虫两次有什么利弊？请注意，我使用的是管道，以便将结果写入json文件。谢谢

浏览 1提问于2014-02-25得票数 1

1回答

无法在WinPython中运行Scrapy

python、scrapy

我正在尝试从安装在USB棒上的WinPython上运行一个抓取网络爬虫，这样爬虫就可以在任何windows计算机上使用，而不需要在桌面上安装python。我已经安装了WinPython (32位，2.7.6.4)，并使用pip安装了除pyOpenSSL之外的所有依赖包--为此我下载了二进制文件。在那之后，我安装了scrapy。但是，每当我在命令提示符中键入scrapy时，都会出现一条错误消息： 'scrapy' is not recognized as an internal or external command, operable program or batch fil

浏览 1提问于2014-07-20得票数 2

2回答

网络爬虫-忽略Robots.txt文件？

python、web-crawler、mechanize、robots.txt

一些服务器具有robots.txt文件，以阻止web爬虫在其网站中爬行。有没有办法让网络爬虫忽略robots.txt文件？我正在为python使用Mechanize。

浏览 1提问于2011-12-05得票数 14

回答已采纳

7回答

对于我的应用程序，多少个线程会是最优的？

python、multithreading

我有一个简单的Python网络爬虫。它使用SQLite来存储它的输出，也用来保存一个队列。我想让爬虫是多线程的，这样它就可以一次抓取几个页面。我想我应该创建一个线程，一次只运行类的几个实例，这样它们都可以同时运行。但问题是，我应该一次运行多少次？我是不是应该坚持到两个？我能再高一点吗？线程数量的合理限制是多少？请记住，每个线程转到一个网页，下载html，运行几次正则表达式搜索，将找到的信息存储在SQLite数据库中，然后从队列中弹出下一个url。

浏览 2提问于2009-03-08得票数 3

回答已采纳

1回答

在Python 3.6中运行scrapyd

python-3.x、scrapy、scrapyd、scrapyd-deploy

我环顾四周，似乎找不到如何在Python3及更高版本中运行scrapyd的答案。当我运行它时，它仍然默认使用python2.7，尽管我记得在文档或其他地方读到过scrapyd支持python3：https://scrapyd.readthedocs.io/en/stable/news.html#id1 在AWS Ubuntu 18.04服务器上运行。我做错了什么？如何切换到Python 3.4及以上版本？我遇到了问题，因为我在爬虫中使用了抽象继承，而python2.7不支持抽象继承。编辑:我可以在Python3中使用虚拟环境运行Scrapyd，但是如果没有虚拟环境，你怎么做？

浏览 11提问于2020-06-27得票数 0

1回答

将我的Python电子邮件爬行器转换为Web应用程序的框架

python

在Python方面经历了几年之后，我才知道它在web开发中的应用。我在Python中制作了一个电子邮件爬虫程序(基本上是一个使用其他几个功能的函数)，它帮助我在generate实习的公司。我的老板问我是否可以让我的python电子邮件爬虫进入一个网络应用程序，这样其他员工就可以通过我来抓取电子邮件，这样我就可以在更重要的事情上工作。是否有一些web应用程序框架可以用来将我的python电子邮件爬虫程序转换成一个简单的公司专用web应用程序？制作网络应用程序所需的时间范围是什么？我非常开放和渴望学习web应用程序开发，因此，任何帮助或建议将不胜感激。谢谢。

浏览 5提问于2015-07-08得票数 0

回答已采纳

3回答

如何停止云主机上的爬虫？

云服务器

我在云主机上运行了一个scrapy爬虫，这个爬虫可以一直运行，假如我没有停止爬虫就和主机断开了连接，是不是除了关机就没有办法停止爬虫了？

浏览 366提问于2018-01-27

1回答

如何从PHP中的Python脚本(带有参数)执行函数？

php、python、external-script

我最近一直在用PHP开发一个网络爬虫，作为一个新的PHP程序员，我不是最先进的。我对Python也有相当的了解，我可以用Python做一些事情，但在PHP中却不能。有什么方法可以让我在PHP脚本中运行带有参数的Python函数吗？请在你的答案具体，因为我不是令人惊讶的PHP。

浏览 4提问于2014-11-01得票数 0

1回答

使用Qt作为纯终端应用的Web爬虫

c++、qt、web-crawler

我在GUI环境中使用Qt创建了一个用于特定任务的简单web爬虫。现在，我想将它自动化(使用cron)，并使用纯非GUI环境所必需的。我试图将代码移植到一个非GUI应用程序，但没有成功。我有一些问题：在纯非GUI环境中使用QWebPage是可能的吗？( Linux终端)。我读过一些类似的问题，我认为这是不可能的，但我仍然有一些疑问。如果不可能，如何使用Qt为非GUI应用程序编写web爬虫程序？我熟悉Qt (当然不是专家)，如果可能的话，我想使用它如果仍然不可能，您建议获得和解析HTML页面的库是什么？(多平台和C++，也是Python，但这意味着我还要做很多工作) 编

浏览 0提问于2012-09-20得票数 1

2回答

最适合用于图像爬行的开源、可扩展爬虫

language-agnostic、web-crawler

我们正处于一个项目的开始阶段，我们目前想知道哪个爬虫是我们最好的选择。我们的项目：基本上，我们要建立Hadoop和抓取网络上的图像。然后，我们将根据Hadoop中的Map/Reduce工具，在HDFS中存储的图像上运行我们自己的索引软件。除了我们自己的索引之外，我们不会使用其他索引。一些特殊问题：哪种爬虫最适合抓取图像？哪种爬虫最适合分布式爬行系统，在这种系统中我们使用多台服务器一起进行爬行？现在这些看起来是最好的三种选择- Nutch:众所周知的规模。看起来并不是最好的选择，因为它似乎与他们的文本搜索紧密联系在一起，software.Heritrix:也可以伸缩。目前看来，最好的o

浏览 5提问于2009-07-28得票数 3

5回答

Python中的多线程爬虫真的可以提高速度吗？

python、multithreading、gil

我想用python写一个小的网络爬虫。我开始研究将其编写为多线程脚本，一个线程下载池和一个池处理结果。由于有了GIL，它真的可以同时下载吗？GIL对网络爬虫有什么影响？会不会每个线程从套接字中提取一些数据，然后转到下一个线程，让它从套接字中提取一些数据，等等？基本上我想问的是，用python做一个多线程爬虫真的比单线程能给我带来更多的性能吗？谢谢!

浏览 4提问于2010-05-14得票数 10

回答已采纳

1回答

我可以在不同的进程(并行)中运行不同设置的scrapy spider吗？

scrapy

我定义了一个名为‘myspider’的爬行器，它的行为会根据setting.And的不同而不同。我想在不同的进程中运行具有不同实例的爬行器，这是可能的吗？我检查了源代码，似乎SpiderLoader只是遍历了爬虫模块，我只需要运行一次同名的爬虫。运行的代码看起来像： for item in items: settings = get_project_settings() settings.set('item', item) settings.set('DEFAULT_REQUEST_HEADERS', item.get('re

浏览 6提问于2016-10-11得票数 0

1回答

ScrapyDeprecationWarning:模块`scrapy.conf`已弃用，请改用`crawler.settings`属性

python、python-3.x、web-scraping、scrapy

我正在使用scrapy 1.5，并试图通过python脚本以编程方式运行scrapy爬虫进程。作为其中的一部分，我需要导入爬虫设置并覆盖它的一些参数。我发现这个import语句做了我需要的事情： from scrapy.conf import settings 问题是，这是可行的，但也会产生以下弃用警告： ScrapyDeprecationWarning: Module `scrapy.conf` is deprecated, use `crawler.settings` attribute instead 所以我猜这是针对某个老版本的。按照警告，我试图访问scrapy.crawler.s

浏览 346提问于2019-02-16得票数 0

回答已采纳

2回答

适用于GAE的Python Headless浏览器

python、google-app-engine、headless-browser

我正在尝试在Google Appengine上使用带有webapp2的Angular.js客户端。为了解决SEO问题，我们的想法是使用无头浏览器来运行javascript服务器端，并将生成的html提供给爬虫程序。有没有运行在谷歌应用引擎上的python无头浏览器？

浏览 1提问于2013-01-18得票数 7

回答已采纳

1回答

在cronjob上优化爬虫脚本

javascript、php、python、phantomjs、phpcrawl

我在一个MySQL表中有大约6600万个域，我需要在所有域上运行爬虫，并在爬虫完成时更新行计数=1。爬虫脚本在php中，使用php爬虫库，这里是脚本。 set_time_limit(10000); try{ $strWebURL = $_POST['url']; $crawler = new MyCrawler(); $crawler->setURL($strWebURL); $crawler->addContentTy

浏览 2提问于2015-03-01得票数 1