网站服务器如何防爬虫_如何防爬虫被封_代理服务器防爬虫 - 腾讯云开发者社区

、、、

谷歌网站管理员指南解释说，web服务器应该处理包含_escaped_fragment_的url请求(爬虫将www.example.com/ajax.html#!mystate修改为url 我的网站位于亚马逊S3上，我没有web服务器来处理此类请求。我如何才能确保爬虫获得提要，我的网站获得索引？

浏览 0提问于2012-10-09得票数 6

1回答

托管爬虫的最佳解决方案？

、、、

我有一个爬虫，爬行几个不同的领域为新的帖子/内容。总内容数为十万页，每天都有很多新的内容添加。因此，为了能够通过所有这些内容，我需要我的爬虫爬行24/7。目前，我将爬虫脚本托管在与爬虫添加内容的站点相同的服务器上，而且我只能在夜间运行cron作业来运行脚本，因为当我这样做时，网站基本上停止工作，因为脚本的加载。换句话说，一个非常糟糕的解决方案。所以基本上，我想知道对于这种解决方案，我的最佳选择是什么？是否有可能继续从同一主机运行爬虫，但在某种程度上平衡负载，以便脚本不会扼杀网站？我会找什么样的主机/服务器来托管爬虫？除了普通的网络主机，我还需要其他的规范吗？爬虫保存它爬行

浏览 3提问于2014-03-06得票数 10

回答已采纳

1回答

定期运行python程序作为防火墙中的后台服务。

、、

只要开始使用firebase + react就可以建立一个网站。我的网站的一个设计特点是爬行和显示从另一个网站分析的数据(例如，股票价格的变化)。我已经有了负责解析数据的python爬虫，但是我不知道如何(在后台)在firebase中执行服务器的这个python爬虫(或者根本不可能)？下面是我的系统的示例用法用户登录和订阅网站/数据他们很感兴趣我的爬虫将每1小时解析该网站并将数据更新到数据库。用户可以从数据库中看到网站变更的摘要。我想到的一个选择是在本地机器上运行爬虫，并使用REST将解析的数据更新到firebase数据库。然而，这似乎是一种非常低效/天真的方法，

浏览 0提问于2018-01-25得票数 3

5回答

使用腾讯云cdn能防御ddos攻击吗？

、、、、

网站速度慢或者带宽觉得费用高，个人开发者，一般都会想到使用cdn，一方面可以隐藏IP地址，保护了源服务器不会因为攻击，而出现问题，一方面可以提高网站访问速度。有人想到用cdn防御ddos攻击

浏览 881提问于2021-09-27

1回答

编写可与任何服务器保持登录状态的crawler

、、、、

我正在写一个爬虫。一旦爬虫登录到一个网站，我想使爬虫“停留-始终登录”。我该怎么做呢？客户端(如浏览器、爬虫等)使服务器遵守此规则吗？当服务器在一天内允许有限的登录时，可能会出现这种情况。

浏览 0提问于2009-11-26得票数 0

回答已采纳

1回答

用于非标准分页系统的import.io爬虫

我正在尝试建立一个这个网站的import.io爬虫，但当我点击“下一步”到下一页训练，它把我带回第一页，因为正在使用的分页系统。非常感谢任何关于如何让import.io爬虫爬行通过这些页面的建议。根据import.io网站上的建议，我试图在与服务器交换的数据包中找到分页系统，但没有成功。如果你能帮上忙，谢谢。JRH

浏览 1提问于2015-08-31得票数 1

1回答

那些特别难以抓取和刮的网站？

、、

我对面向公共的站点(登录/身份验证后没有任何内容)感兴趣，这些站点的内容如下：大量使用内部301和302重定向防刮措施(但不禁止通过robots.txt爬行) 非语义的，或无效的标记通过AJAX以单击或无限滚动的形式加载的内容在urls中使用的许多参数典型问题卷积内链结构任何其他的东西，通常会使爬行网站成为一个头痛！我已经建立了一个爬虫/蜘蛛，执行一系列的分析在网站上，我在寻找网站，将使它的斗争。

浏览 1提问于2013-09-12得票数 11

1回答

如何在Heroku上连续运行和托管Node.js脚本？

、

我目前想部署一个网站排名API，为此，我需要一个网络爬虫。事情是，我想让网络爬虫运行24/7，以便它可以不断更新网站。但是，对于Heroku这样的服务，一个小时后服务器就停止了。所以我所有的爬行过程都消失了，我不得不重新审视。我如何宿主一个总是在Heroku上活动的Node.js脚本。如果不可能，我还能做些什么呢？

浏览 0提问于2021-01-21得票数 1

回答已采纳

2回答

网络爬虫-忽略Robots.txt文件？

、、、

一些服务器具有robots.txt文件，以阻止web爬虫在其网站中爬行。有没有办法让网络爬虫忽略robots.txt文件？我正在为python使用Mechanize。

浏览 1提问于2011-12-05得票数 14

回答已采纳

1回答

CDN能否提升网站扛D能力？

之前看到一种说法，使用CDN的话攻击者DDOS的IP是CDN网络的，能避免网站服务器被攻击。求解

浏览 305提问于2016-04-06

2回答

将AWS服务器转换为代理服务器，用于爬行Scrapy

、、、

我只是想知道是否有人知道我如何将Amazon服务服务器配置为由Scrapy爬虫作为代理服务器使用？我不想被我爬行的网站列入黑名单，所以我需要使用代理服务器。我只是不知道如何将AWS服务器转换为代理服务器。谢谢你！！

浏览 0提问于2015-11-10得票数 0

回答已采纳

2回答

基于AWS的粘性负载平衡

、、、

我刚刚为几个例子设置了一个AWS负载均衡器，因为搜索引擎爬虫正在摧毁这个站点(它有数百万页)。网站的部分内容允许您登录，因此我选择：启用应用程序生成的Cookie粘性一切都很好。我现在想知道这将如何影响我的搜索引擎优化和爬虫。当我选择粘性负载平衡时，这是否意味着一个爬虫将被卡在一个服务器上，从而击败负载均衡器中的点？如有任何建议，将不胜感激。

浏览 0提问于2012-07-01得票数 2

回答已采纳

1回答

了解web服务器支持的最大命中率。

、、

我想爬一个公开可用的网站(和一个合法的爬行)的个人项目。通过对爬虫的简单试用，我发现我的程序在一秒钟内就有8次使用新的HTTPRequest来访问服务器。按照这个速度，根据我的估计，要获得完整的数据，我需要大约60天的爬行。虽然该网站是合法的爬行，我知道它仍然是不道德的爬行速度，造成不便的正常流量在网站上。我想在这里理解的是我是否可以这样做4倍(运行4个实例的我的爬虫并行)，使总工作量下降到只有15天，而不是60天？您如何找到网络服务器支持的最大命中率？爬行率的理论(和道德)上限是什么，以避免对服务器的常规通信产生不利影响？

浏览 0提问于2014-08-19得票数 0

1回答

php脚本超时

、

我已经修改了一个基本的网络爬虫来收集一个网站的链接列表，这很可能会遇到我遇到的thousands.The问题，一旦我尝试通过浏览器运行它，脚本就会超时。在前面的一个问题中，我问过，运行到多个进程的脚本可能也有问题，同时杀死了我运行它的服务器。我应该如何解决这些问题，或者我应该使用开源爬虫，如果是这样，我应该使用哪个爬虫，因为我找不到足够具体的东西，因为phpDig站点关闭了:/

浏览 0提问于2011-04-13得票数 0

回答已采纳

4回答

自动网络爬虫

、

我正在编写一个爬虫，需要从许多网站获取数据。问题是每个网站都有不同的结构。我如何才能轻松地编写一个从(许多)不同网站下载(正确)数据的爬虫？如果网站的结构发生变化，我是否需要重写爬虫，或者是否有其他方法？什么逻辑和实现的工具可以用来提高自动网络爬虫挖掘的数据的质量(许多网站涉及不同的结构)？谢谢!

浏览 0提问于2012-07-20得票数 1

3回答

C++网络爬虫

、、、

我正在尝试并尝试制作一个最小的网络爬虫。我在很高的层次上理解了整个过程。那么进入下一层细节，程序如何“连接”到不同的网站来提取HTML？我是否在使用套接字连接到服务器并发送http请求？我是否向终端发出了运行telnet或ssh的命令？另外，对于网络爬虫来说，C++是一个很好的选择吗？谢谢!

浏览 1提问于2012-07-01得票数 0

回答已采纳

1回答

分布式系统中的任务分配

、

我想抓取网站和写入输出到Solr与我的应用程序。我的爬虫使用卡夫卡把爬行的网站对象的一个主题和水槽将重定向输出到Solr。有多个爬虫产生数据卡夫卡。我的问题是:当一个爬虫想要爬一个网站，其他爬虫不应该尝试爬行它。如何在分布式环境中与它们通信？

浏览 0提问于2017-06-01得票数 2

1回答

如何从网站的数据库中抓取链接？

、、

我是搜索引擎新手，我发现googlenews非常有趣。我想写一个简单的爬虫只解析三个不同新闻网站的文章链接。将链接保存在数据库(mysql)中，并使用链接在网站上公布的时间戳(而不是爬虫检测到链接的时间)。如您所知，新闻网站每天都会生成链接(我想基本上解析它们的所有链接(不仅仅是今天打印的链接，还包括生成before...and的所有链接--所有这些链接都保存在新闻网站数据库中)。我不知道我想爬的新闻网站使用的是哪个数据库，我也没有访问它的权限。那么googlenews如何能够解析所有新闻网站的所有文章链接，包括很久以前生成的链接呢？googlenews可以访问

浏览 4提问于2014-06-06得票数 3

回答已采纳

1回答

我能把robots.txt放在“对不起”服务器上吗？

、、、、

我正在考虑是否应该为我的“对不起服务器”设置以下robots.txt，该服务器向我们的客户返回一些我们正在维护的对不起消息。 User-agent: * Disallow: / 以下是我的关注和问题：它不会告诉爬虫不要永远索引我们的网站，尽管我们的服务器已经准备好后，维护完成？如果我把robots.txt放在我的对不起服务器上，我是否应该为我们的常规服务器设置另一个robots.txt，告诉爬虫“请索引我们的站点”？编辑说到极端，它会不会删除我们的网站从谷歌？

浏览 0提问于2015-10-21得票数 0

回答已采纳

1回答

配置Web.Config (ASP.NET)以将web爬网程序重定向到另一页

、、、、

我有一个使用AngularJS的网站在IIS服务器上运行。由于网站的所有信息都是通过AJAX请求的，社交媒体爬虫无法解析这些数据。因此，为了防止社交媒体显示空表情，例如：{{helloWorld}}，我尝试将一些社交媒体爬虫重定向到我的web应用程序中的特定部分，该部分可以为社交媒体爬虫预先呈现页面。我已经使用一个Apache .htaccess文件成功地做到了这一点： RewriteCond %{HTTP_USER_AGENT} (facebookexternalhit|Facebot|Twitterbot) RewriteRule ^(.*)$ http://myapp.com/prer

浏览 0提问于2017-12-09得票数 0

1回答

云服务器攻击？

、、

服务器倍DOSS攻击了。现在远程连接不上已经重启。别人也没攻击了。但是我连接不上去。

浏览 324提问于2019-05-26

2回答

编写脚本下载服务器上的所有内容

、、、

我想下载本网站上可公开访问的所有文件： https://www.duo.uio.no/ 这是奥斯陆大学的网站，在这里我们可以找到从大学档案中公开的每一篇论文/论文。我试过爬虫，但网站设置了一些机制来阻止爬虫访问他们的文档。还有其他方法吗？在最初的问题中没有提到这一点，但我想要的是服务器上的所有pdf文件。我试过SiteSucker，但这似乎只是下载网站本身。

浏览 6提问于2014-10-01得票数 0

回答已采纳

1回答

运行网站爬虫

、

我正在用java编写一个网站爬虫，我想知道运行它最明智的方式是什么？换句话说，我是走标准的web应用程序路线，放入web服务器并使用某种类型的消息队列，还是忘记容器而将其作为独立的java应用程序运行？这不是一个真正的网络爬虫，因为它只关心x个网站，但我想不断循环通过这些网站(24小时)，以确保我有最新的内容。

浏览 0提问于2012-01-10得票数 0

回答已采纳

1回答

是什么阻碍了我的PHP脚本？

、、、

我们有一个PHP爬虫运行在我们的web服务器上。crawler运行时，没有cpu、内存或网络带宽峰值。一切都很正常。但是我们的网站(也是PHP)，托管在同一台服务器上，停止响应。基本上，爬虫会阻止任何其他php脚本运行。编辑： ** fsockopen用于将文件下载到crawler！**

浏览 3提问于2010-05-11得票数 0

2回答

AWS:动态分配和关联新的IP地址到EC2实例？

、、、

我在一个AWS托管服务器上运行一些web爬行作业。爬虫从eCommerce网站抓取数据，但最近爬虫从网站中获得“超时错误”。根据我的IP地址，该网站可能限制了我的访问频率。分配一个新的弹性IP地址可以解决这个问题，但不会持续很长时间。我的问题是:我是否可以使用任何服务来自动和动态地分配和关联新的IP到我的实例？谢谢!

浏览 4提问于2014-04-08得票数 9

回答已采纳

2回答

我需要为特定的用户代理编写一个网络爬虫

、

我需要编写一个网络爬虫，并希望能够爬行使用一个已知的用户代理。例如，我希望我的爬虫程序充当iphone来抓取网站的移动站点，然后使用Mozilla PC代理再次抓取，等等。这样，我将能够抓取每一个“类型”的网站(移动和个人电脑)。然而，我也希望能够设置我的爬虫的用户代理，这样网站管理员也可以在他们的统计数据中看到访问整个网站的是一个爬虫，而不是真正的用户。所以我的问题是，你们知道如何在PHP中同时设置一个移动代理和一个爬虫代理吗？这有可能吗？

浏览 1提问于2011-05-14得票数 3

回答已采纳

1回答

如何制作一个使用Javascript路由器的可索引网站？

、、、、

我一直在开发一个使用Backbone.js路由器的项目，所有数据都是通过restful请求由javascript加载的。我知道无法检测服务器端是否启用了Javascript，但是下面是我想让这个网站可索引的场景：我可以为sitemap.xml上的每个链接追加一个查询字符串，并可以放置一个<script>标记来检测是否启用了Javascript。服务器使用可索引数据呈现此页面，当用户访问此页面时，我可以手动初始化Backbone.js路由器。然而，问题是，我需要执行一个sql查询来在服务器端呈现可索引的数据，如果访问者不是机器人，它将导致额外的负载。当用户在某个地方共享该网站的

浏览 1提问于2013-01-06得票数 2

回答已采纳

1回答

重定向时的道德/法律考虑

、

一个网络爬虫买了我们的网站两次。它忽略了我们的robots.txt，我们没有得到客户服务的回复，也没有使用电子邮件和twitter的支持。我已经创建了基于他们的用户代理字符串的url重定向，我已经将他们的所有请求重定向回他们自己的公共网站。这样做对吗？编辑如何返回40？基于用户代理字符串的错误代码使用tomcat/tuckey？(如果这很重要，我们的站点是托管在Windows服务器上的。)我不能使用IP地址，因为机器人使用了很多(显然是基于网格的)。这在一定程度上是因为我们的网站是一个古老而破旧的遗留系统，但谷歌的爬虫和必应的爬虫并没有打倒我们，我们的正常业务流量也很好。对一个机器人进行

浏览 0提问于2012-06-15得票数 2

回答已采纳

1回答

风暴爬行器爬行和分度

、、、

我曾与Nutch1x合作爬行网站，并使用Elasticsearch索引数据。我最近遇到了风暴爬虫，并且喜欢它，特别是它的流性质。我必须插入并创建风暴爬虫发送数据到的ES服务器的映射吗？有了Nutch，只要我启动和运行ES索引，映射就会自行处理.除了一些微调。风暴爬虫也是一样的吗？或者我必须插入索引和之前的映射吗？

浏览 3提问于2017-05-31得票数 2

回答已采纳

2回答

OpenGraph / 'Like‘的离线测试

、、、

当我的网站不能公开访问时，我如何测试“喜欢”按钮的功能和嵌入到我的页面中的OpenGraph数据？我有一个内部测试环境，我的网站正在构建和测试。通过IP将环境锁定到特定的一组机器。我希望能够验证端到端的场景，即执行“点赞”并在用户的时间轴上查看解析的OpenGraph数据，而不必向公众开放我的网站。我知道Facebook爬虫有一个用户代理，但允许用户代理是有风险的，因为任何人都可以发送任何用户代理字符串。理想情况下，我希望将其锁定在Facebook爬虫的IP范围内，而不必解析日志来查找其中的一个或两个IP(我假设有相当多的机器在网络上爬行数据)。我今天的问题是，我可以点击“喜欢”，让它以

浏览 2提问于2012-01-16得票数 1

1回答

服务端渲染如何帮助爬虫？服务器端渲染和客户端渲染哪个更好？

、、、

我正在阅读angular的服务器端渲染文档，因为它们提到服务器端渲染是帮助爬虫。我知道在服务器端渲染爬虫可以获得整个dom，但爬虫也可以与组件交互，那么它如何帮助爬虫呢？从安全的角度来看，服务器端渲染和客户端渲染哪个更好？我也为react读到了同样的东西。

浏览 18提问于2019-09-15得票数 0

1回答

爬行url \如何在node.js中获取动态链接

、

我正在使用js爬虫来抓取网站，现在我遇到了CNN，的那一部分(基于某种原因动态生成的urls)。事情是爬虫，不要真正接触脚本-我应该如何解决它？除了我的node.js爬虫之外，我还应该编写自己的代码吗？是否有先进的爬虫知道如何处理这种动态行为？

浏览 1提问于2016-07-23得票数 2

回答已采纳

3回答

如何在java中使用HTTP代理

、、

我正在写一个代码，连接到网站，并检查一些代码，如爬虫。但我需要通过代理连接并更改IP地址(这样它就不会在服务器日志中显示客户端的IP )。如何通过java做到这一点呢？

浏览 0提问于2011-01-05得票数 22

2回答

防止自定义Web爬虫被阻塞

、、

我正在创建一个新的网络爬虫使用C#来抓取一些特定的网站。一切都很顺利。但问题是，，一些网站是阻塞我的爬虫IP地址，后，一些请求。我试着在爬行请求之间使用时间戳。但没有起作用。有没有办法阻止网站阻塞我的爬虫？有些类似的解决方案会有所帮助(但我需要知道如何应用它们)：模拟Google或yahoo slurp 使用多个IP地址(事件假IP地址)作为爬虫客户端IP 任何解决办法都会有帮助。

浏览 7提问于2011-10-04得票数 3

回答已采纳

1回答

'PageJacking‘的解决方案是什么？

、、

'PageJacking‘正在创建一个'WebCrawlers’看起来不错的网站，而对于普通用户来说，我将显示广告/促销内容。简单地说，一个网站假装“网络爬虫”是“好孩子”，而对用户来说却不是。维基：爬虫如何避免伪造网站(PageJacking)？

浏览 2提问于2013-07-05得票数 0

1回答

通过Django视图运行Scrapy

、、、、

因此，我正在做以下项目：我正在使用Django开发一个网站，将作为一个网络爬虫的远程管理工作。更具体地说，我用Scrapy创建了一个蜘蛛，可以从另一个网站下载一些PDF文件。我的目标是找到一种通过POST (我猜)请求调用爬行器的方法，并让爬虫在我的Django视图中运行。下载的文件将存储到运行网站的服务器上，而不是存储到运行爬行器的任何人的个人计算机上。因此，当我登录到我的网站并按下Crawl按钮时，新文件被下载到服务器的文件库中。我是Django和Scrapy的新手，所以我不知道如何让它们协同工作来实现我正在寻找的目标，有人能为我指引方向吗？我已经看到了一些关于通过其他Scrap

浏览 0提问于2017-08-16得票数 2

1回答

如何为动态页面启用抓取功能？

、

我希望从我的网站创建公共信息。我的网站是安全的身份验证，但有关用户的部分信息可以共享在比方网址。为10k+用户生成页面并使用robot.txt听起来非常繁重。有没有办法可以让动态内容被抓取？作为参考，facebook和linkedin等网站也在做同样的事情。但空间可能是这里真正的问题！特别是，我正在寻找的web服务器配置，将有助于爬虫获取页面。我已经阅读了相同主题的其他答案，在这种情况下，我自己的网站，我希望允许爬虫索引特定的公共部分

浏览 2提问于2016-12-11得票数 0

1回答

从data服务器拉取数据

、、

我已经制作了抓取器来从网站(如电影)中提取数据，但是我如何连接到网站服务器来直接从那里的数据库中提取数据，而不是创建一个爬虫来从可视化站点中提取数据？如果你可以给我的库名，工具集或指南，你会很酷。 extra:请求库会在get a post函数中做这件事吗？

浏览 2提问于2013-03-30得票数 0

回答已采纳

1回答

Google WebMaster工具报告了500个响应代码错误的显著增加

、、

谷歌的网站管理员工具显示了很多爬虫错误。它们被报告为500响应代码。我如何去诊断这个问题呢？该网站是使用Magento平台的eCommerce业务。这是来自谷歌的通知。谷歌发现我们无法访问的URL数量显著增加。很可能您的服务器出现了内部错误，或者在尝试处理这些请求时很忙。建议采取的行动检查网站管理员工具中的“爬行错误”页面。检查您的脚本和脚本权限。检查服务器上的日志文件，以查找可能崩溃的脚本或页面。考虑解决服务器上的负载问题。请看支票截图。 📷

浏览 0提问于2014-06-27得票数 1

1回答

将网站移动到新服务器-更新的DNS - web爬虫仍然通过IP访问旧站点。

、、

大约十天前，我把一个站点--主要是一个Joomla讨论板--搬到了另一个IP地址的新服务器上。在短暂的预定停机期间，我照常复制了内容，并完成了DNS切换(通过Cloudflare)，并且大多数流量都遵循它--所有实际用户都能够访问该站点的一个新位置，并且似乎是大多数web爬虫请求。然而，我仍然有网络爬虫试图访问我的网站在旧的IP。我的意思是，特别是IP地址--尽管他们试图抓取现在存在于新服务器上的有效路径。这主要是GoogleBot，不过我也看到了一个零星的BingBot或Yahoo条目。Apache日志显示旧服务器上每分钟有1-2次访问。然而，所有这三个机器人都在新服务器上爬行。我已经

浏览 0提问于2015-11-18得票数 0

2回答

如何在WCF中运行程序？

、、、、

我是世界自然基金会的新手，我正在设计一个项目，在其中我想运行一个爬虫程序(在c#中编码)，它爬行一些网站，它将抓取的数据存储在表的数据库(sql服务器数据库)。我希望爬虫在30分钟后重复运行，并更新数据库。然后我想在我的托管平台上使用该服务，这样我就可以使用web形式的表格中的数据(即.aspx页面) 是否可以使用WCF来实现此目的？请建议我如何继续前进？谢谢

浏览 0提问于2012-01-14得票数 0

回答已采纳

1回答

我怎么能在robots.txt中只允许一个代理？

、、、、

我目前在我的robots.txt中使用以下代码来禁止任何爬虫访问我的网站。但我只想有一个例外，那就是Google AdSense的爬虫。下面是我的代码： User-agent: * Disallow: / 谷歌的AdSense爬虫名为“Mediapartners Google”。我如何才能将其添加为异常，并继续阻止所有其他爬虫？谢谢，各位！

浏览 18提问于2021-05-18得票数 1

1回答

PHP网络爬虫

、

我正在寻找一个PHP的网络爬虫收集一个大型网站的所有链接，并告诉我，如果链接被打破。到目前为止，我已经尝试在这里修改了一个例子。我也试过抓取phpDig，但是网站宕机了。任何关于我应该如何进行的建议都是很棒的。编辑问题不是抓取链接，而是规模问题我不确定我修改的脚本是否足以抓取可能有数千个URL，因为我尝试将搜索链接的深度设置为4，但爬虫在浏览器中超时。其他人提到了一些关于杀死进程的事情，以避免服务器过载，有人可以详细说明一下这个问题吗？

浏览 0提问于2011-04-12得票数 0

2回答

防止恶意爬虫/刮板和DDoS攻击的方法

、、

从过去的几周开始，我在我的网站上经历了机器人攻击。基本上，爬虫在网站上运行的频率很高，导致负载增加。这会导致带宽消耗，从而给其他人带来糟糕的用户体验。我想知道像谷歌、亚马逊和电子海湾这样的网站是如何防止这些事情的：它们如何区分有用的爬虫(google/yahoo/msn)和不遵循robots.txt和其他规则的恶意爬虫？如何通过检查apache访问日志来识别可能导致实时有害的机器人的模式？不能设置诸如连接或数据包/时间/ip之类的阈值，因为这将导致站点上的适当客户的用户体验较差。

浏览 0提问于2011-10-14得票数 0

4回答

在EC2上缩放EC2，还是应该切换到DynamoDB？

、、、

我目前使用MongoDB在一台服务器上运行我的网站。在我的服务器上，我有两个组件(1)一个每小时运行并将数据附加到我的MongoDB实例的爬虫(2)一个网站，它从爬虫索引中读取数据，并写入用户个性化数据库。我搬到亚马逊EC2进行自动缩放，这样网络服务器就可以自动缩放，这样我就可以随着网络流量的增加而增加服务器的数量。我不需要自动缩放我的爬虫。这对我如何使用MongoDB提出了挑战。我想知道我最好的选择是对我的代码的最小更改(代码用perl编写) 能够无缝地添加/删除web服务器，而不必担心数据库中的数据丢失。低成本在短期内，DB肯定能够在内存中跨越所有的machies

浏览 6提问于2012-02-19得票数 8

2回答

木偶人爬行器大规模爬行

、、

我们正在使用Puppeteer编写一个网络爬虫。我们写的木偶爬虫执行和爬行网站的网址没有问题的网页，如约1,500 - 5,000，但是，当我们执行的网站超过5,000，如果它在中间由于一些错误或崩溃而中断，那么它需要重新开始。如果出现任何错误，如何使基于Puppeteer的网络爬虫从爬行的最后状态恢复？在Puppeteer中有没有内置的函数？如何让这个木偶手无头的chrome web爬行通过一个队列系统？

浏览 14提问于2020-12-05得票数 2

1回答

阿贾克斯-不！在#之后-爬虫会读到这个吗？

、

我做了一个网站-所有的请求都通过AJAX发送到服务器，但没有！在#之后，所以它不会被?_escaped_fragment_上的爬虫改变。每次你点击我的网站上的链接，你所做的一切都是在#之后更改名称。然后向服务器发送请求- php在mysql中查询数据，然后json返回这些数据-它被识别出来，内容(DOM和文本)发生变化。简而言之，所有的链接都只是从mysql请求数据。没有html或任何东西。你可以添加这个链接，它就起作用了。你可以向前和向后看，它是有效的。问题是：爬虫会索引我的链接和来自它的json数据吗？

浏览 0提问于2012-12-17得票数 0

4回答

是否存在任何开放的、简单的可扩展的网络爬虫？

、、

我寻找一个网络爬虫解决方案，可以是足够成熟的，可以简单地扩展。我对以下特性感兴趣..。或扩展爬行器以迎接它们的可能性：部分是为了阅读几个站点的提要浏览这些网站的内容如果这个站点有一个归档文件，我也想爬行和索引它。爬虫应该能够为我探索Web的一部分，并且它应该能够决定哪些站点符合给定的标准如果发现符合我兴趣的东西，应该能通知我爬虫不应该通过过多的请求攻击服务器，它应该是聪明的爬行。爬虫应该对异常站点和服务器具有很强的鲁棒性。上面的这些事情可以一个一个地完成，而无需付出很大的努力，但我对提供可定制的、可扩展的爬虫的任何解决方案都感兴趣。我听说过A

浏览 1提问于2010-01-18得票数 7

回答已采纳

1回答

如何阻止facebook爬虫导致CPU使用率过高

、、、

嗨，我最近在Apache使用率、Apache内存使用率和MySQL内存使用率方面都得到了很高的峰值。事实证明，爬虫以极高的速度访问我的网站，特别是Facebook。我试图将facebook爬虫的爬行延迟添加到robot.txt文件中，如下所示： User-agent: Facebot Disallow: Crawl-delay: 5 但我还是看到了高使用率的尖峰。这是由于错误的代码，还是有更好的方法来完全停止爬虫使用我的服务器的资源这么多？任何帮助都是非常感谢的。

浏览 0提问于2018-05-02得票数 1

回答已采纳

1回答

Sharepoint 2013 Web爬虫程序

、、、、

我的团队一直在使用Sharepoint 2010抓取大量外部网站。 Sharepoint web爬虫没有提供足够的可配置性，因此我们一直使用快速web爬虫来运行爬虫。但是，在Sharepoint 2013中，FAST web crawler似乎已被弃用/与Sharepoint web crawler合并。我找不到关于如何配置2013 Web Crawler组件的重要文档。它比2010年的Sharepoint爬虫更强大吗？

浏览 2提问于2013-01-17得票数 1