网络爬虫运行错误_网络爬虫_网络爬虫建模 - 腾讯云开发者社区

、、

如果我运行的爬虫与持久支持启用，我暂时松散的互联网连接。爬虫是否会重试那些在临时网络丢失期间获得无主机错误路由的URL？

浏览 2提问于2014-01-21得票数 1

回答已采纳

1回答

在angular universal中检测网站页面中的网络爬虫

、、、

我想要检测服务器端呈现的对我的页面的当前请求- ssr来自网络爬虫或普通用户。我想在网络爬虫中做一些事情，而不是当它是用户的时候。我想在网络爬虫访问页面以获取完整数据时运行ng-in-viewport。而不是在用户使用我的页面时运行。如何检测这个东西？

浏览 4提问于2019-10-22得票数 1

2回答

在MYSQL中删除非常非常相似的行

、

在PHPMYAdmin中，我正在运行一个网络爬虫。网络爬虫偶尔会拾取相同的urls。在网络爬虫中，它已经索引了数千个链接，我不想要重复的链接。有没有办法在SQL中删除相似的行(唯一的区别是id字段)

浏览 1提问于2012-08-17得票数 0

2回答

基于PHP的Web爬虫或基于JAVA的Web爬虫

、、

我对基于PHP的网络爬虫有些怀疑，它能像基于java线程的爬虫一样运行吗？我之所以问这个问题，是因为在java中，线程可以一次又一次地执行，我不认为PHP有类似线程的功能，你们能说一下，哪个网络爬虫更能充分利用吗?基于PHP的爬虫还是基于Java的爬虫

浏览 1提问于2010-07-27得票数 0

回答已采纳

1回答

我需要一个开源的web爬虫在java开发的增量爬行支持。 Web爬虫应该易于定制，并与solr或elasticsearch集成。它应该是一个积极的，正在进一步发展，更多的特点。孔径是一个很好的爬虫，它有我提到的所有功能，但它不是一个活动的爬虫，由于许可(如果我使用它的商业目的)，他们的依赖性，我忽略了。 Nutch -一个网络爬虫，有更多的hadoop支持功能。但是我浏览了很多网站和教程，没有合适的文档，api可以在windows中通过编程方式定制它。我可以在eclipse中编辑代码，但它在运行map时会导致许多错误，减少作业。nutch没有java来实现类似孔径的功能

浏览 4提问于2014-09-22得票数 1

回答已采纳

3回答

如何处理中多个线程的内存不足错误

、

我对编程相当陌生，并且正在为我在网络爬虫上的论文而工作。我已经提供了一个网络爬虫，但我发现它太慢，因为它是单线程。花了30分钟才爬上1000个网页。我试图创建多个线程来执行，同时使用20个线程运行1000个网页只需2分钟。但现在我遇到了“内存堆出”的错误。我确信我所做的是错误的，即为20个线程创建了一个 for 循环。在不给出错误的情况下多线程java爬行器的正确方法是什么？说到这一点，多线程是否解决了我的问题？

浏览 10提问于2009-07-18得票数 2

回答已采纳

1回答

JAVA中的Web Crawler。java.out.lang.outofmemory无法创建本机线程

、、

我目前正在构建这个网络爬虫来获取起始url的所有链接，并从这些链接中爬取所有链接，等等。我使用线程，所以每次完成这个过程时，都会调用一个新的线程，我加载了大约1000个线程，我使用了thread.interrupt函数，但它仍然没有删除和创建线程。我尝试每次只使用一个线程，或者最多使用两个线程。我还注意到，一旦我运行我的爬虫，我的互联网开始崩溃，这意味着网站不会加载，直到我打开我的网络爬虫。我想我发送了太多的http请求。如果有人知道如何限制线程或修复以下错误： java.lang.outOfMemory :无法创建本机线程

浏览 1提问于2012-05-02得票数 0

回答已采纳

1回答

Web Crawler -找不到对象

、、、

我正在用asp.net开发一个网络爬虫。我的网络爬虫有一个主页，它从HREF标签打开其他HTML页面，下载HTML页面并获取数据。现在的问题是，有时我会得到一个对象引用找不到的异常，有时代码运行得很好。

浏览 1提问于2014-01-06得票数 0

2回答

木偶人爬行器大规模爬行

、、

我们正在使用Puppeteer编写一个网络爬虫。我们写的木偶爬虫执行和爬行网站的网址没有问题的网页，如约1,500 - 5,000，但是，当我们执行的网站超过5,000，如果它在中间由于一些错误或崩溃而中断，那么它需要重新开始。如果出现任何错误，如何使基于Puppeteer的网络爬虫从爬行的最后状态恢复？在Puppeteer中有没有内置的函数？如何让这个木偶手无头的chrome web爬行通过一个队列系统？

浏览 14提问于2020-12-05得票数 2

1回答

如何有效地运行python web爬虫

、、、

我有一个python爬虫，它获取信息并将其放入SQL中。现在我也有了php页面，它从SQL读取这个信息，并表示它。问题是:为了让爬虫程序工作，我的电脑必须全天候工作。我有一台简单的家用电脑--所以这是个问题。是否有一种不同的方式运行网络爬虫？还是我必须在我的电脑上运行？

浏览 1提问于2015-12-08得票数 0

回答已采纳

1回答

在服务器之间共享列表的适当方式

、

我有许多网络爬虫运行在不同的服务器上。我希望这些爬虫共享他们已经爬行的每个网址的指纹。我可以通过让每个爬虫检查SQL服务器中的finderprint来做到这一点。但是--有没有更合适的方法呢？我只是在寻找一个集合中的包含项。SQL server似乎有点过头了。我在ubuntu上运行。

浏览 2提问于2014-06-03得票数 0

1回答

GCP (Google ) VM停止工作。我该怎么补救？

、、、

我有一个，我正在运行一个网络爬虫。不幸的是，爬虫在一段时间后不会向数据库添加任何条目。如果我想连接到VM以了解问题所在，我就无法连接(通过Putty和Google自己的界面)。但是在GCP接口上，它说服务器仍然在运行。如果我停止VM并再次启动它，就好像什么都没有发生一样，但是过了一段时间，同样的错误再次出现。有人有解决办法吗？

浏览 0提问于2020-01-15得票数 1

1回答

在命令行中运行ActiveX控件？

、

我正在写一个网络爬虫。不幸的是，要爬行的站点非常旧，并且它使用了一些ActiveX控件。我希望我的爬虫在命令行中运行，或者至少不加载整个Internet Explorer。有没有可能在命令行中运行ActiveX控件？

浏览 1提问于2014-12-25得票数 0

2回答

在网站和独立应用程序中使用Django框架

、

我计划为它写一个网络爬虫和一个基于网络的前端(或者至少是它找到的信息)。我想知道是否可以使用Django框架让网络爬虫使用与网站相同的MySQL后端(而不是让网络爬虫本身成为“网站”)。

浏览 1提问于2009-06-04得票数 1

回答已采纳

1回答

加载settings.py之前先运行代码

、、、

我有一个利用代理的网络爬虫。我有一个脚本，它生成一个包含100个有效代理的列表，然后在settings.py中将该列表设置为代理源。我的问题是，目前我手动运行一个生成该文件的脚本，然后运行爬虫。如果我想让代码在settings.py被“处理”之前运行，有人知道我会把它放在哪里吗？我不想在运行爬虫之前手动运行这个脚本，因为我希望它是独立包含的。ROTATING_PROXY_LIST_PATH = 'C:\\Users\\cmdan\\Desktop\\Spiders\\Michael Mitarotonda\\proxies.txt' 提前感谢！

浏览 3提问于2021-03-23得票数 0

回答已采纳

3回答

如何在Django中处理网络爬虫？

、

由于网络爬虫在没有任何请求数据的情况下访问了我的网站的某些部分，我收到了很多发送到我的电子邮件中的错误，我想知道在Django中处理网络爬虫的最好方法是什么？当我遇到一个空的QueryDict时，我应该发出一个重定向吗？

浏览 0提问于2010-12-19得票数 2

回答已采纳

1回答

使用多个EC2实例爬行

、

我用python编写了一个爬行过程，它运行在亚马逊上的一个ec2实例上。我已经编写了这个爬虫，这样它就可以用它的结果向一个单独的"hub“实例报告。集线器处理爬虫的结果，爬虫可以自由地继续爬行。我在这个爬行实例中想到的是，克隆爬虫的几个实例很容易，每个实例都要向中心报告以便处理。因此，在这一点上，我有一个集线器和8个单独的爬行器(都在它们自己的实例上)不断地爬行和报告等等。我在想用小的，分开的爬行器：有冗余，所以如果一个爬虫被挂断，其余的爬虫可以继续工作。 (这是一个假设)如果每个爬虫都有自己独立的ip，我就有更好的网络利用率。我可以旋转几个爬虫或缩小规模取决于我目

浏览 2提问于2015-01-08得票数 0

回答已采纳

1回答

AWS Boto启动实例，部署Docker映像，运行和终止

、、、

我有一个网络爬虫，是一个码头形象。我想使用boto创建一个EC2实例，部署我的爬虫，运行这个爬虫，然后在它完成后终止这个实例。我现在的想法是：使用包含Docker的AWS启动新的EC2实例。 SSH在实例中使用类似Fabric的内容并安装Docker。使用相同的SSH连接来运行我的命令来启动爬虫使Web在完成时删除自己的实例。以下是一些细节：我真的需要使用像Fabric这样的工具来对我的实例进行SSH并运行命令吗？如何选择当前运行脚本的实例？如果您愿意，可以使用self实例。有更好的方法吗？

浏览 0提问于2018-03-19得票数 2

4回答

如何在Python中每隔十分钟执行一个程序一整天

、、

我正在工作的网络爬虫应用程序下载股票价格每十分钟。我能够提取引用，但我不确定如何安排它在一整天每十分钟运行一次。请给我建议要么是时间循环的东西，要么是网络爬虫应用程序本身的解决方案。我需要一个在Windows上工作的解决方案。

浏览 1提问于2015-03-05得票数 2

5回答

有哪些好的基于Ruby的网络爬虫？

、

我正在考虑写我自己的，但我想知道是否有好的网络爬虫在那里是用Ruby编写的。除了一个成熟的网络爬虫，任何可能有助于构建网络爬虫的gem都将是有用的。我知道这个问题的这一部分在几个地方被涉及到了，但是一个适用于构建网络爬虫的宝石列表也是一个很好的资源。

浏览 2提问于2011-02-13得票数 21

回答已采纳

3回答

Python-Requests (>= 1..*)：如何关闭keep-alive？

、、、

我正在尝试使用Requests模块编写一个简单的web爬虫程序，我想知道如何禁用它的-default- keep-alive特性。我尝试使用： s = requests.session() s.config['keep_alive'] = False 然而，我得到了一个错误，说明会话对象没有属性'config'，我认为它是在新版本中更改的，但我似乎无法在官方文档中找到如何做到这一点。事实是，当我在一个特定的网站上运行爬虫时，它最多只能得到五个页面，然后无限循环，所以我认为这与keep-alive功能有关！ PS:对于网络爬虫来说，Requests是一个好的模

浏览 0提问于2014-01-09得票数 16

回答已采纳

2回答

是否自动解决Java SSL错误-无法找到指向所请求目标的有效认证路径

、、

我正在尝试使用jsoup库来构建一个简单的网络爬虫。然而，当我在一些网站上调用"Jsoup.connect(url).get()“时，我得到了下面的错误。 javax.net.ssl.SSLHandshakeException: sun.security.validator.ValidatorException: PKIX path building failed: sun.security.provider.certpath.SunCertPathBuilderException: unable to find valid certification path to requeste

浏览 1提问于2017-06-11得票数 0

1回答

商业上最好的网络爬虫？

、

我正在开发一个爬行数以千万计的网页的系统，它将继续运行。我宁愿不从头开始开发爬虫。哪些开源网络爬虫符合以下标准： customizedhighly 可以是可伸缩的可以轻松抓取ajax网站爬行intelligentlyobeys礼貌如果我错过了任何一个，请评估其他你认为重要的标准。我有以下开源爬虫的列表。他们是否具备上述特征？ ScrapyMechanizeNutchHeritrixflaxhttrackSpidherSearcharoo

浏览 1提问于2012-06-21得票数 1

1回答

Web Crawler的功能

、、

网络爬虫是否只从网页中返回提取的文本？例如，如果web服务器中也存储了一些pdf/doc文件。网络爬虫可以爬行它们并返回它们的内容吗？不管怎样，对于一个好的开源Java网络爬虫有什么建议呢？谢谢!

浏览 2提问于2011-06-26得票数 0

回答已采纳

1回答

是什么阻碍了我的PHP脚本？

、、、

我们有一个PHP爬虫运行在我们的web服务器上。crawler运行时，没有cpu、内存或网络带宽峰值。一切都很正常。但是我们的网站(也是PHP)，托管在同一台服务器上，停止响应。基本上，爬虫会阻止任何其他php脚本运行。编辑： ** fsockopen用于将文件下载到crawler！**

浏览 3提问于2010-05-11得票数 0

3回答

C++网络爬虫

、、、

我正在尝试并尝试制作一个最小的网络爬虫。我在很高的层次上理解了整个过程。那么进入下一层细节，程序如何“连接”到不同的网站来提取HTML？我是否在使用套接字连接到服务器并发送http请求？我是否向终端发出了运行telnet或ssh的命令？另外，对于网络爬虫来说，C++是一个很好的选择吗？谢谢!

浏览 1提问于2012-07-01得票数 0

回答已采纳

5回答

Googlebot是用哪种编程语言编写的(或任何其他高效的网络爬虫)？

、

有人知道谷歌机器人是用哪种编程语言编写的吗？或者，更普遍的是，高效的网络爬虫是用哪种语言编写的？我见过很多Java语言，但在我看来，它不是最适合开发网络爬虫的语言，因为它产生了太多的开销(尝试使用Heritrix网络爬虫，它非常重)。

浏览 0提问于2009-10-29得票数 1

回答已采纳

1回答

php脚本超时

、

我已经修改了一个基本的网络爬虫来收集一个网站的链接列表，这很可能会遇到我遇到的thousands.The问题，一旦我尝试通过浏览器运行它，脚本就会超时。在前面的一个问题中，我问过，运行到多个进程的脚本可能也有问题，同时杀死了我运行它的服务器。我应该如何解决这些问题，或者我应该使用开源爬虫，如果是这样，我应该使用哪个爬虫，因为我找不到足够具体的东西，因为phpDig站点关闭了:/

浏览 0提问于2011-04-13得票数 0

回答已采纳

4回答

Web爬虫程序和Google App Engine托管的应用程序

、、

考虑到我正在运行免费的启动版本，在GAE上运行网络爬虫和我的应用程序是不可能的吗？

浏览 0提问于2009-03-24得票数 4

回答已采纳

2回答

ASP.NET内核中的异步任务

、、、

我需要运行我的爬虫从我的网络管理。我有两个想法要做：将爬行器作为外部进程运行。很简单，但我不想要。爬虫将是我的网站的一部分，我会在后台运行它。我觉得这是个更好的解决办法。我在找像这样的东西。里面有什么办法吗？应用程序用C#编写，在Linux上使用.NET内核。

浏览 3提问于2016-06-11得票数 0

2回答

如何打开需要node.js的web应用程序

、、、

我必须运行微爬虫，这是一个爬虫网络应用程序，与node.js运行。我不知道如何打开这个应用程序，我下载了node.js，当我在node.js命令行中编写install npm和install bower时，什么也没有发生。我也不知道如何在安装后启动web应用程序。请帮帮我

浏览 2提问于2014-09-28得票数 1

1回答

如何在Heroku上连续运行和托管Node.js脚本？

、

我目前想部署一个网站排名API，为此，我需要一个网络爬虫。事情是，我想让网络爬虫运行24/7，以便它可以不断更新网站。但是，对于Heroku这样的服务，一个小时后服务器就停止了。所以我所有的爬行过程都消失了，我不得不重新审视。我如何宿主一个总是在Heroku上活动的Node.js脚本。如果不可能，我还能做些什么呢？

浏览 0提问于2021-01-21得票数 1

回答已采纳

2回答

网络爬虫的最佳数据库设计

、、、

许多数据库系统适合与网络爬虫一起工作，但是有没有专门为网络爬虫开发的数据库系统(在.net中)。我的经验告诉我，网络爬虫有许多部分和服务，每个部分都需要一些特定的功能。例如，要缓存网页，我们需要一些东西，比如sql server的。或者检查db中是否已经存在URL，最好的选择是。事实上，我有两个问题 1)与网络爬虫一起工作的最好的数据库系统是什么？ 2)是否有涵盖所有功能的数据库系统！

浏览 2提问于2011-07-05得票数 1

3回答

如何在ABOT C#网络爬虫中获取html输出页面？

、

我正在尝试用ABOT在c#.i中制作网络爬虫，我搜索了很多例子，并添加了ABOT网络爬虫。从那我只能得到日志输出而不是超文本标记语言页面输出。我想得到超文本标记语言页面输出only.because，超文本标记语言输出是超文本标记语言敏捷工具的输入。帮助我从ABOT网络爬虫在C#中获得超文本标记语言输出。谢谢。

浏览 4提问于2013-09-12得票数 5

2回答

crawler实例

、

我正在构建一个大规模的网络爬虫，多少个实例是最佳的爬行时，在专用的网络服务器上运行时，位于互联网服务器场。

浏览 0提问于2009-06-21得票数 0

回答已采纳

1回答

托管爬虫的最佳解决方案？

、、、

我有一个爬虫，爬行几个不同的领域为新的帖子/内容。总内容数为十万页，每天都有很多新的内容添加。因此，为了能够通过所有这些内容，我需要我的爬虫爬行24/7。目前，我将爬虫脚本托管在与爬虫添加内容的站点相同的服务器上，而且我只能在夜间运行cron作业来运行脚本，因为当我这样做时，网站基本上停止工作，因为脚本的加载。换句话说，一个非常糟糕的解决方案。所以基本上，我想知道对于这种解决方案，我的最佳选择是什么？是否有可能继续从同一主机运行爬虫，但在某种程度上平衡负载，以便脚本不会扼杀网站？我会找什么样的主机/服务器来托管爬虫？除了普通的网络主机，我还需要其他的规范吗？爬虫保存它爬行

浏览 3提问于2014-03-06得票数 10

回答已采纳

1回答

如何阻止Web爬虫下载文件

、、

是否有可能阻止web爬虫在我的服务器上下载文件(如zip文件)？我应该创建一个PHP脚本，使用cookie跟踪访问者，特别是在下载3个文件后登录/注册的web爬虫。但我发现网络爬虫可以绕过cookie。有可能阻止网络爬虫吗？或者，在下载最多3个文件后，是否还有其他选项可以将文件隐藏在web爬虫上？我可以很容易地创建一个PHP脚本，使用cookie强制访问者登录/注册，但是web爬虫呢？顺便说一下，我用的是nginx和drupal CMS。如果这能帮上忙的话就给我这个信息。

浏览 0提问于2013-07-27得票数 1

2回答

如何使用asp.net mvc3和c#构建网络爬虫？

、、、、

我需要建立一个小的搜索引擎，如谷歌使用ASP.NET MVC3。对于这一个，我还需要建立网络爬虫，其中填充搜索引擎的数据。总而言之，我需要以下内容：如何使用Asp.net MVC3和C#构建网络爬虫。我开始建立一些基本的，但我需要一些指南，资源和书籍。使用这个网络爬虫，我轮询搜索引擎的数据，并使用Lucene.Net对数据应用索引。我需要建立小型搜索引擎，搜索由网络爬虫填充的数据。请任何人有任何想法或资源或书籍。请与我们分享。

浏览 8提问于2012-11-14得票数 2

1回答

如何使用网络抓取从谷歌地图获取链接？

、、

我用java创建了网络爬虫程序，它运行得很好，问题是我如何才能得到这些图片中的链接？

浏览 9提问于2016-09-11得票数 0

回答已采纳

2回答

Lucene爬虫(它需要建立lucene索引)

、、

我正在寻找Apache Lucene网络爬虫写在java，如果可能的话，或在任何其他语言。爬虫必须使用lucene并创建有效的lucene索引和文档文件，因此这就是nutch被排除的原因。有没有人知道这样的网络爬虫是否存在，如果答案是肯定的，我可以找到它。Tnx..。

浏览 0提问于2009-10-16得票数 1

回答已采纳

1回答

除了后端和API之外，还能用于其他进程吗？

、、

谷歌应用引擎可以用来运行网络爬虫吗？我有一个爬虫进程，从amazon网站产品的特定id (或ASIN编号)开始。然后，该过程使用amazon产品广告API获得类似的产品。在获取类似产品之后，使用它们的ASIN号来调用其他类似产品的API。这个过程应该得到大约25,000种产品的信息，大约需要3-6个小时。现在，我的客户端希望使用不同的初始ASIN号运行这个进程的多个实例。我给了他一个关于如何使用google计算引擎制作整个系统的建议，但是他渴望使用google应用引擎。他认为应用引擎会自动生成爬虫实例。由于google应用引擎用于后端和app，我担心在应用程序引擎上部署这样的爬虫系统会有

浏览 0提问于2018-04-05得票数 0

回答已采纳

1回答

Scrapy response.xpath无效语法

、

我正在尝试从一个网站上拉价格信息(学习如何建立一个实践网络爬虫)。我正在使用scrapy来构建我的爬虫，并且在我的价格蜘蛛中，我尝试使用以下代码行来拉取价格的html字段的xpath： text = response.xpath(‘/html/body/div[8]/div[2]/div[1]/div[2]/div[4]/div[7]/div[1]/div/meta[2]’).extract() 当我运行这个程序时，我得到了“语法错误:无效语法”，在response.xpath()的第一个单引号下有一个胡萝卜。我试着改成双引号，但什么也没改变。有什么想法吗？

浏览 23提问于2017-07-19得票数 1

回答已采纳

1回答

Crawler将参数从url添加到链接

、、、、

我尝试了两种不同的网络爬虫(Sistrix和)。这两个爬虫都会报告有关/和/?katID=12等URL的重复内容的错误。事实证明，如果爬虫调用url /projekte/index.php?katID=12，它会找到<a href="/">Home</a>并将其作为链接添加到/?katID=12。看起来url ?katID=12中的参数被添加到页面上没有参数的每个链接中。如果我使用浏览器或wget，我会看到想要的到/的简单html链接。我做错什么了吗？服务器配置？这是爬虫中的bug还是一个特性？

浏览 5提问于2013-04-02得票数 2

回答已采纳

1回答

在Rails中link_to一个页面，但控制器来自另一个页面

、、、、

我在堆栈上看到过一些类似的问题，但我不认为这是重复的，因为我得到的每个答案都特定于一个潜在的问题。我会让它保持简单。我想知道如何点击一个链接，让它把用户带到一个页面，但执行另一个页面的定义。这是一个网络爬虫的rails应用程序，我认为这是非常简单的事情，但它对我来说很糟糕。目前我有： <td><%= link_to 'Crawl!', crawl_path :controller => :crawl, :action => :crawl %> 这会在爬虫运行完成后将用户带到爬虫的索引页。我想要做的是将它们重定向到不同的页面。即jobs

浏览 0提问于2011-07-04得票数 0

回答已采纳

1回答

如何在crawler中同步获取和保存

、

这是在上运行的网络爬虫的快捷方式代码，运行良好。问题是爬虫在半秒内返回20个字符串，并且它们在MySQL中的存储速度比新的字符串要慢得多。如何正确地同步这两个进程。 function crawler(done) { for (i=0, ...) { crawler.queue([{ "uri": link, "callback": function (error, result, $) { var arr = $('.someclass'); done(arr);

浏览 0提问于2013-06-25得票数 1

回答已采纳

1回答

在Linux服务器上使用Selenium运行Scrapy Web Crawler

、、、、

我用scrapy和selenium(python)开发了一个网络爬虫。它可以在我的本地成功运行。我很好奇，我可以把我的整个爬虫项目上传到我的linux服务器上，然后像在本地一样运行吗？只有一个问题是在我的本地，当程序运行时，它会打开浏览器，模仿人类的动作，但在linux服务器上，就像你知道的，我们没有浏览器可以打开。所以我们可以这样做吗？

浏览 1提问于2016-02-26得票数 0

9回答

在创建网络爬虫时，需要考虑哪些关键问题？

我今天刚开始考虑创建/定制一个网络爬虫，对网络爬虫/机器人礼仪知之甚少。我发现大部分关于礼仪的文章都显得过时和笨拙，所以我想从web开发人员社区获得一些最新的(和实用的)见解。我想使用爬虫通过“网络”的一个超级简单的目的-“标记的网站XYZ满足条件ABC?” 这给我带来了很多问题，但我认为我首先需要回答的两个主要问题是：从一开始就感觉有点“不确定”--这类事情可以接受吗？爬虫应该采取什么具体的考虑来不让人心烦？

浏览 17提问于2008-08-28得票数 11

回答已采纳

1回答

运行网站爬虫

、

我正在用java编写一个网站爬虫，我想知道运行它最明智的方式是什么？换句话说，我是走标准的web应用程序路线，放入web服务器并使用某种类型的消息队列，还是忘记容器而将其作为独立的java应用程序运行？这不是一个真正的网络爬虫，因为它只关心x个网站，但我想不断循环通过这些网站(24小时)，以确保我有最新的内容。

浏览 0提问于2012-01-10得票数 0

回答已采纳

1回答

哪个更有效-点击我的数据库或做额外的网络爬行和击中一个数组？

、、

我有一个网络爬虫，寻找我想要的具体信息，并返回它。这是每天运行的。问题是我的爬虫必须做两件事。得到了它必须爬行的链接。Crawl说链接并将内容推送到db. #1的问题是，总共有700+链接。这些链接不经常改变-也许一个月一次？因此，一种选择是对“链接列表”进行一个单独的抓取，每月一次，然后将链接转储到db中。然后，让爬虫每天为这700个链接中的每一个做一个db点击。或者，我可以在我的爬虫中有一个嵌套的爬行器--每次爬虫运行(每天)，它都会更新这个包含700个URL的列表，并将其存储在一个数组中，并从这个数组中提取它来进行每个链接的爬行。哪个更有效率，对Heroku的负担更少?还是哪

浏览 1提问于2012-06-19得票数 0

回答已采纳

7回答