腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
浏览器
限制
会影响网页
爬虫
吗?
redirect
、
asp.net-mvc-4
、
web-crawler
Request.Browser.Version) < 9) return Redirect("/h"); return View(); 问题:如果我
限制
一些浏览器访问我的主视图,它也会
限制
对网络
爬虫
的访问吗?
浏览 0
提问于2013-02-21
得票数 0
回答已采纳
1
回答
使用实体框架C#
限制
到数据库的连接
c#
、
asp.net-mvc
、
entity-framework
、
connection-string
、
azure-sql-database
我的问题是,我有几个
爬虫
填充这个数据库,以供我们的网站使用实体框架。还有其他方法来实现这一点吗?
浏览 2
提问于2016-08-03
得票数 5
回答已采纳
2
回答
使用Storm爬行器为每个域设置不同的域特定爬行(例如速度)
java
、
web-crawler
、
apache-storm
、
stormcrawler
我最近才发现了Storm
爬虫
,从过去的经验和研究中,我发现这个基于Apache的项目非常健壮,适合于许多用例和场景。我想做小的和大的递归爬行在许多web域与特定的速度设置和
限制
取回urls的数量。是否可以将
限制
设置为
爬虫
获取的最大页数? 是否可以单独监视特定域的爬行过程?
浏览 5
提问于2017-05-22
得票数 1
回答已采纳
1
回答
如何防止恶意
爬虫
抓取部署在Heroku上的rails应用程序?
ruby-on-rails
、
heroku
、
robots.txt
我想
限制
爬虫
对我在Heroku上运行的rails应用程序的访问。如果我使用的是Apache或nginX,这将是一项简单的任务。由于该应用程序部署在Heroku上,因此我不确定如何在HTTP服务器级别
限制
访问。1) rails层中用于
限制
访问的before_filter。我想知道是否有更好的方法来处理这个问题。
浏览 0
提问于2011-04-21
得票数 4
回答已采纳
2
回答
在heroku上使用网络
爬虫
的经验
ruby-on-rails
、
heroku
是否有人有使用海葵等宝石编写网页
爬虫
的经验,并将它们部署到heroku供您自己使用?这样一个持续运行的程序会违反heroku的TOA/TOS吗?
浏览 2
提问于2013-05-09
得票数 4
1
回答
如何
限制
非谷歌搜索引擎机器人的爬行速度,使它们不会使我超过外部API请求
限制
?
php
亚马逊有每秒1次的请求
限制
。我需要关于如何去对待其他搜索引擎
爬虫
机器人的建议。有什么好方法可以尽可能地避免由于机器人爬行而超过亚马逊的API速率
限制
?
浏览 17
提问于2016-09-16
得票数 1
1
回答
爬虫
的Jetty - capping会话/匿名
session
、
jetty
、
web-crawler
、
ddos
我正在寻找一种方法来
限制
在我的webapp (在Jetty上运行)上为
爬虫
和/或匿名用户创建的会话数量。我想减少应用程序上的会话数量。有多个为爬网程序创建的会话,因为它们中的许多不尊重cookies。tomcat (‘
爬虫
会话阀’)已经有一个解决方案了,但我需要Jetty的解决方案。谢谢,JB
浏览 0
提问于2013-07-23
得票数 0
回答已采纳
1
回答
在ubuntu的后台运行时,
爬虫
停止。
python
、
web-crawler
我使用具有无限循环的python制作了一个简单的
爬虫
,所以它不能停止。随机延迟17 ~ 30,这个
爬虫
爬行相同的一个页面,并找到'href‘链接,定期更新,并存储到Mysql。因为我使用了Linux命令这个
爬虫
是在Ubuntu服务器背景下运行的。我想它已经运行了大约4个小时。但
爬虫
突然停止了。第二天我再试一次。或者nohup命令有
限制
时间?非常感谢。
浏览 1
提问于2014-05-20
得票数 0
回答已采纳
1
回答
根据模式禁用刮伤和筛选链接中的子域
python
、
scrapy
在scrapy中,有一个将爬行
限制
到特定域的选项,即将它们放入allowed_domains变量中。 我如何不允许
爬虫
遵循某些模式的链接,例如包含"?
浏览 0
提问于2015-07-12
得票数 1
3
回答
根据IP地址将请求数量
限制
在一组特定的URL上
apache-2.2
、
rate-limiting
我们希望阻止人们抓取所有这些文档,因此希望在一定的时间
限制
我们服务器包含URL模式的请求的数量。我们很高兴其他网站被爬行,所以不想
限制
这一点。我们在robots.txt中添加了一个排除,以阻止
爬虫
获取文件。我们更担心恶意或行为不端的
爬虫
。有什么最佳实践方法吗?我们使用Centos和apache2.2 有许多类似的问题,但其中大多数似乎集中在带宽
限制
,这不是我想要的。
浏览 0
提问于2011-03-25
得票数 3
2
回答
如何
限制
cURL使用的并发连接
php
、
web-crawler
、
libcurl
我用PHP (和cURL)做了一个简单的网络
爬虫
。它粗略地解析了60000个html页面,并检索出产品信息(它是intranet上的一个工具)。这个是可能的吗?
浏览 2
提问于2010-02-10
得票数 7
回答已采纳
1
回答
JAVA中的Web Crawler。java.out.lang.outofmemory无法创建本机线程
java
、
multithreading
、
web-crawler
我目前正在构建这个网络
爬虫
来获取起始url的所有链接,并从这些链接中爬取所有链接,等等。我还注意到,一旦我运行我的
爬虫
,我的互联网开始崩溃,这意味着网站不会加载,直到我打开我的网络
爬虫
。我想我发送了太多的http请求。如果有人知道如何
限制
线程或修复以下错误: java.lang.outOfMemory :无法创建本机线程
浏览 1
提问于2012-05-02
得票数 0
回答已采纳
1
回答
如何设置支持一系列动态URL的AdSense
爬虫
登录?
google-adsense
、
web-crawlers
、
dynamic
我读过关于AdSense
爬虫
登录的文章,并试图实现它。但是,我发现没有提到通配符或URL的正则表达式。据我所知,AdSense
爬虫
登录只支持静态URL。是否有任何方法来设置支持一系列动态URL的AdSense
爬虫
登录?
浏览 0
提问于2015-02-03
得票数 3
4
回答
PHP警告: exec()无法分叉
php
、
centos
我有
爬虫
脚本,运行从每个网站抓取产品。由于每个网站是不同的,每个
爬虫
脚本必须定制,以抓取特定的零售商网站。所以基本上每个零售商我有一个
爬虫
。在这个时候,我有21个
爬虫
不断运行,以收集和更新这些网站的产品。,然而,因为它是“无法叉”,它从来没有重新启动和最初的实例的
爬虫
结束,它通常这样做。这似乎是一个
限制
,因为我只是最近才开始看到这种情况发生,因为我添加了我的第21次
爬虫
。是否有一个过程
限制
,我应该调查或类似的性质?提前感谢您的帮助!
浏览 7
提问于2013-12-18
得票数 13
回答已采纳
1
回答
什么是速率
限制
(而不是API
限制
)?
http
、
github
、
github-api
Github请求的
限制
是什么? 我制作了一个
爬虫
来抓取来自Github的数据,但是有时它会返回错误代码429,这是“太多的请求”,所以我想知道每分钟还是每小时的Github请求
限制
是多少?
浏览 2
提问于2022-03-10
得票数 0
1
回答
从python Django的角度来看,bot与
爬虫
程序不同吗?
python
、
django
、
web-crawler
、
scrapy
、
bots
实际上,我对这个术语感到困惑。我正在研究scrapy,我认为它是为了抓取网站和提取一些数据。例如,去www.myblah.com,然后在某个类别中获得最便宜的产品,如果低于我的预设数量,则发送电子邮件给我。我可以用scrapy来做这件事吗,或者我们有其他的库来做这类任务。
浏览 3
提问于2012-11-13
得票数 3
回答已采纳
2
回答
使用wget抓取网站并
限制
抓取的链接总数
bash
、
scripting
、
web-crawler
、
wget
我想通过使用wget工具来学习更多关于
爬虫
的知识。我有兴趣爬行我的部门的网站,并找到该网站上的前100个链接。到目前为止,下面的命令就是我所拥有的。如何
限制
爬虫
在100个链接后停止?
浏览 0
提问于2011-02-12
得票数 3
回答已采纳
1
回答
如何停止在另一个站点中镜像我的站点内容
php
、
linux
、
wordpress
、
apache
、
.htaccess
我有一个与wordpress相关的视频站点,有人在他的域中镜像我的整个站点,如下所示: (这是1个员额的例子) if(isset($_SERVER["HTTP_REFERER"]) && strpos($_SERVER["HTTP_REFERER"], "www.mysite.com") =
浏览 0
提问于2015-11-26
得票数 2
2
回答
建立一个自定义的网页
爬虫
的最佳方法,以便在URL中找到带有任意文本的站点?
algorithm
、
web-crawler
但是,没有使用任何搜索引擎,这意味着,编写一个纯网络
爬虫
。--很明显,它永远不会停下来运行.它甚至在碰到我想要的东西之前会遇到很多“垃圾”站点。我不想使用搜索引擎,因为它们
限制
了结果的数量。
浏览 8
提问于2010-09-26
得票数 0
回答已采纳
1
回答
多层网络蜘蛛与正则表达式匹配?
regex
、
web-scraping
、
web-crawler
也许我可以配置一些现有的应用程序/代码来创建这个
爬虫
。
浏览 4
提问于2011-10-13
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何防止网络爬虫被限制?
微博话题爬虫更新:突破 50 页限制
如何使用海外爬虫HTTP代理避免被限制?
爬虫受限如何解决?解决爬虫被限制的三种方法
爬虫行动被限制?一招从容应对
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券