限制爬虫_Nginx限制爬虫频率_WebSocket爬虫 - 腾讯云开发者社区

redirect、asp.net-mvc-4、web-crawler

Request.Browser.Version) < 9) return Redirect("/h"); return View(); 问题:如果我限制一些浏览器访问我的主视图，它也会限制对网络爬虫的访问吗？

浏览 0提问于2013-02-21得票数 0

回答已采纳

1回答

使用实体框架C#限制到数据库的连接

c#、asp.net-mvc、entity-framework、connection-string、azure-sql-database

我的问题是，我有几个爬虫填充这个数据库，以供我们的网站使用实体框架。还有其他方法来实现这一点吗？

浏览 2提问于2016-08-03得票数 5

回答已采纳

2回答

使用Storm爬行器为每个域设置不同的域特定爬行(例如速度)

java、web-crawler、apache-storm、stormcrawler

我最近才发现了Storm爬虫，从过去的经验和研究中，我发现这个基于Apache的项目非常健壮，适合于许多用例和场景。我想做小的和大的递归爬行在许多web域与特定的速度设置和限制取回urls的数量。是否可以将限制设置为爬虫获取的最大页数？是否可以单独监视特定域的爬行过程？

浏览 5提问于2017-05-22得票数 1

回答已采纳

1回答

如何防止恶意爬虫抓取部署在Heroku上的rails应用程序？

ruby-on-rails、heroku、robots.txt

我想限制爬虫对我在Heroku上运行的rails应用程序的访问。如果我使用的是Apache或nginX，这将是一项简单的任务。由于该应用程序部署在Heroku上，因此我不确定如何在HTTP服务器级别限制访问。1) rails层中用于限制访问的before_filter。我想知道是否有更好的方法来处理这个问题。

浏览 0提问于2011-04-21得票数 4

回答已采纳

2回答

在heroku上使用网络爬虫的经验

ruby-on-rails、heroku

是否有人有使用海葵等宝石编写网页爬虫的经验，并将它们部署到heroku供您自己使用？这样一个持续运行的程序会违反heroku的TOA/TOS吗？

浏览 2提问于2013-05-09得票数 4

1回答

如何限制非谷歌搜索引擎机器人的爬行速度，使它们不会使我超过外部API请求限制？

php

亚马逊有每秒1次的请求限制。我需要关于如何去对待其他搜索引擎爬虫机器人的建议。有什么好方法可以尽可能地避免由于机器人爬行而超过亚马逊的API速率限制？

浏览 17提问于2016-09-16得票数 1

1回答

爬虫的Jetty - capping会话/匿名

session、jetty、web-crawler、ddos

我正在寻找一种方法来限制在我的webapp (在Jetty上运行)上为爬虫和/或匿名用户创建的会话数量。我想减少应用程序上的会话数量。有多个为爬网程序创建的会话，因为它们中的许多不尊重cookies。tomcat (‘爬虫会话阀’)已经有一个解决方案了，但我需要Jetty的解决方案。谢谢，JB

浏览 0提问于2013-07-23得票数 0

回答已采纳

1回答

在ubuntu的后台运行时，爬虫停止。

python、web-crawler

我使用具有无限循环的python制作了一个简单的爬虫，所以它不能停止。随机延迟17 ~ 30，这个爬虫爬行相同的一个页面，并找到'href‘链接，定期更新，并存储到Mysql。因为我使用了Linux命令这个爬虫是在Ubuntu服务器背景下运行的。我想它已经运行了大约4个小时。但爬虫突然停止了。第二天我再试一次。或者nohup命令有限制时间？非常感谢。

浏览 1提问于2014-05-20得票数 0

回答已采纳

1回答

根据模式禁用刮伤和筛选链接中的子域

python、scrapy

在scrapy中，有一个将爬行限制到特定域的选项，即将它们放入allowed_domains变量中。我如何不允许爬虫遵循某些模式的链接，例如包含"?

浏览 0提问于2015-07-12得票数 1

3回答

根据IP地址将请求数量限制在一组特定的URL上

apache-2.2、rate-limiting

我们希望阻止人们抓取所有这些文档，因此希望在一定的时间限制我们服务器包含URL模式的请求的数量。我们很高兴其他网站被爬行，所以不想限制这一点。我们在robots.txt中添加了一个排除，以阻止爬虫获取文件。我们更担心恶意或行为不端的爬虫。有什么最佳实践方法吗？我们使用Centos和apache2.2 有许多类似的问题，但其中大多数似乎集中在带宽限制，这不是我想要的。

浏览 0提问于2011-03-25得票数 3

2回答

如何限制cURL使用的并发连接

php、web-crawler、libcurl

我用PHP (和cURL)做了一个简单的网络爬虫。它粗略地解析了60000个html页面，并检索出产品信息(它是intranet上的一个工具)。这个是可能的吗？

浏览 2提问于2010-02-10得票数 7

回答已采纳

1回答

JAVA中的Web Crawler。java.out.lang.outofmemory无法创建本机线程

java、multithreading、web-crawler

我目前正在构建这个网络爬虫来获取起始url的所有链接，并从这些链接中爬取所有链接，等等。我还注意到，一旦我运行我的爬虫，我的互联网开始崩溃，这意味着网站不会加载，直到我打开我的网络爬虫。我想我发送了太多的http请求。如果有人知道如何限制线程或修复以下错误： java.lang.outOfMemory :无法创建本机线程

浏览 1提问于2012-05-02得票数 0

回答已采纳

1回答

如何设置支持一系列动态URL的AdSense爬虫登录？

google-adsense、web-crawlers、dynamic

我读过关于AdSense爬虫登录的文章，并试图实现它。但是，我发现没有提到通配符或URL的正则表达式。据我所知，AdSense爬虫登录只支持静态URL。是否有任何方法来设置支持一系列动态URL的AdSense爬虫登录？

浏览 0提问于2015-02-03得票数 3

4回答

我有爬虫脚本，运行从每个网站抓取产品。由于每个网站是不同的，每个爬虫脚本必须定制，以抓取特定的零售商网站。所以基本上每个零售商我有一个爬虫。在这个时候，我有21个爬虫不断运行，以收集和更新这些网站的产品。，然而，因为它是“无法叉”，它从来没有重新启动和最初的实例的爬虫结束，它通常这样做。这似乎是一个限制，因为我只是最近才开始看到这种情况发生，因为我添加了我的第21次爬虫。是否有一个过程限制，我应该调查或类似的性质？提前感谢您的帮助！

浏览 7提问于2013-12-18得票数 13

回答已采纳

1回答