腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
可能的反爬行者
nlp
、
web-crawler
我想我会写一个
爬虫
,从www.wordreference.com获取单词。我在机械化
爬虫
框架中使用Python。这个网站有没有可能有
防
爬虫
机制?
浏览 5
提问于2011-04-07
得票数 1
回答已采纳
1
回答
如何在检测响应状态中的代码500时自动增加scrapy的DOWNLOAD_DELAY
web-scraping
、
scrapy
、
web-crawler
、
delay
我将编写数百个
爬虫
来抓取不同的静态网页,所以我选择Scrapy来帮助我完成我的工作。 在工作过程中,我发现大多数网站都很简单,不会
防
蜘蛛。我想知道哪些型号的
爬虫
加载和使用DOWNLOAD_DELAY参数,以及如何编写程序在检测服务错误时自动增加DOWNLOAD_DELAY (
爬虫
请求太频繁)。
浏览 2
提问于2019-01-17
得票数 1
1
回答
将Crawler重定向到内部服务
facebook
、
nginx
、
service
、
web-crawler
我想要设置
nginx
,让某些
爬虫
从运行在端口9998上的内部服务获取数据。因此,例如,当浏览器请求www.mywebsite.com/ resource /1时,它将查看根文件夹,但当
爬虫
(例如FB
爬虫
)请求相同的资源时,它将得到服务返回的页面,为127.0.0.1:9998这是我想出的
配置
,但不像预期的那样工作。正确标识了用户代理,但无法从服务中获取数据。
浏览 3
提问于2015-03-12
得票数 0
回答已采纳
1
回答
Scrapy访问被拒绝爬取网站的头部
python
、
web-scraping
、
scrapy
、
web-crawler
网站有没有
防
爬虫
的方法?如何抓取这个网站?
浏览 27
提问于2020-07-14
得票数 1
回答已采纳
2
回答
nginx
防
报废
nginx
、
ddos
、
web-crawler
、
flooding
、
scraping
今天早上,我们有一个
爬虫
在我们的服务器上疯狂访问我们的网站近100次每秒。我想我必须使用HttpLimitReqModule,但我不想阻止允许谷歌/必应/.我该怎么做?
浏览 0
提问于2013-09-22
得票数 1
2
回答
HTTP 444 (无响应)而不是404,403错误页面?
http
、
nginx
、
http-status-code-404
、
httpresponse
我总是在
nginx
配置
中使用"return 444“来阻止
爬虫
直接通过IP或错误的主机名访问我的服务器。它只会关闭连接。太完美了。现在我想使用这个响应,而不是
nginx
抛出的标准404.html页面,但
配置
失败。
浏览 3
提问于2017-01-02
得票数 16
回答已采纳
1
回答
如何正确地在定位块中使用重写条件?
nginx
、
nginx-config
、
nginx-location
我希望以这种方式处理
nginx
中的请求,所以当
爬虫
获得请求的页面时,我需要通过请求的URL发送单个页面应用程序的静态版本,否则就会动态生成index.html。我的
配置
: listen 443 ssl http2; set $+) /pages/$1/$2/$3.html break; } location &
浏览 4
提问于2022-10-13
得票数 1
回答已采纳
2
回答
在hashbang之前使用
nginx
、angular.js和prerender.io
angularjs
、
nginx
、
prerender
我正在尝试与
nginx
和angular.js一起使用prerender.io,在我的例子中,主要是为Facebook工作,以防止当有人分享显示的页面时出现典型的尖括号。/page1 #setting prerender as a variable forces DNS resolution since
nginx
http:/&
浏览 0
提问于2015-07-18
得票数 1
1
回答
无模式的URLS和行为不当的crwalers
nginx
我面临的问题是,很少有
爬虫
将它们作为相对urls来处理。我正在使用
Nginx
服务器,但我对
Nginx
相当陌生。 有可能重写吗?
浏览 3
提问于2014-04-08
得票数 0
回答已采纳
1
回答
如何在
nginx
中阻止hotlining但允许google?
nginx
、
amazon-s3
、
reverse-proxy
、
googlebot
、
hotlinking
如果referrer不是example.com,我不想允许访问图像如何
配置
nginx
?
浏览 5
提问于2014-08-20
得票数 2
1
回答
云服务器攻击?
云服务器
、
网络安全
、
安全
服务器倍DOSS攻击了。现在远程连接不上 已经重启。 别人也没攻击了。 但是我连接不上去。
浏览 311
提问于2019-05-26
1
回答
如何阻止Web
爬虫
下载文件
security
、
spam-filter
、
web-crawler
是否有可能阻止web
爬虫
在我的服务器上下载文件(如zip文件)?有可能阻止网络
爬虫
吗?或者,在下载最多3个文件后,是否还有其他选项可以将文件隐藏在web
爬虫
上?我可以很容易地创建一个PHP脚本,使用cookie强制访问者登录/注册,但是web
爬虫
呢? 顺便说一下,我用的是
nginx
和drupal CMS。如果这
浏览 0
提问于2013-07-27
得票数 1
1
回答
那些特别难以抓取和刮的网站?
web-scraping
、
screen-scraping
、
web-crawler
我对面向公共的站点(登录/身份验证后没有任何内容)感兴趣,这些站点的内容如下: 非语义的,或无效的标记我已经建立了一个
爬虫
/蜘蛛,执行一系列的分析在网站上,我在寻找网站,将使它的斗争。
浏览 1
提问于2013-09-12
得票数 11
1
回答
角SPA静态内容的
nginx
escape_fragment重写
angularjs
、
nginx
、
seo
我有一个角度SPA,并已生成静态html页面,以便网络
爬虫
能够找到和抓取网站。我在
nginx
站点
配置
中添加了以下代码片段。有什么想法吗?正确的重写语句会是什么样子?或者我到底在哪里漏掉了什么?谢谢。
浏览 1
提问于2014-06-14
得票数 1
回答已采纳
1
回答
仅带prerender.io客户端的Prerender 7 SPA
angular
、
seo
、
angular6
、
angular7
、
prerender
我有一个Angular 7应用程序,我正在尝试预先渲染页面以支持网络
爬虫
/ SEO。我决定使用prerender.io来帮助这些
爬虫
预先渲染、缓存和提供静态超文本标记语言,但是我很难在我的Angular 7应用程序中安装它们的中间件。根据their docs的说法,我可以安装一个中间件,当网络
爬虫
发出页面请求时,它会检测到,并将请求重定向到预渲染服务器。然而,我发现的所有示例都涉及到修改一些后端节点服务器。
浏览 19
提问于2019-02-26
得票数 1
回答已采纳
2
回答
Nginx
:使用sitemap.xml压缩,压缩一次,但当从后端更改时无效
nginx
如何为从
nginx
压缩的sitemap.xml提供服务,使其只被压缩一次,然后再服务?可能也使用缓存(如果可能的话) 此外,我还定期更新sitemap.xml。
浏览 0
提问于2011-10-02
得票数 1
回答已采纳
2
回答
网页
爬虫
超载网站
nginx
、
fail2ban
我已经将fail2ban
配置
为阻止源I,但是它们永远都在改变,所以不太理想。我也尝试过使用robots.txt,但这并没有什么不同。目前,我们正在使用Nagios监视站点,当站点变得没有响应能力时,
nginx
就会重新启动
nginx
,但这似乎远远不够理想。运行
nginx
的Ubuntu服务器User-agent: *张贴在这里,以防有任何东西,我可以让我们的开发人员尝试。 谢谢
浏览 5
提问于2017-07-04
得票数 1
1
回答
防
错web
配置
.net
、
configuration
、
web-config
、
uri
、
asp.net-web-api2
经过一个漫长而令人精疲力竭的故障排除例程后,我们发现API
配置
的URI中缺少尾随'/‘是导致该错误的原因。用http://ab.com/xyz代替http://ab.com/xyz/有哪些明智的方法-自动或不自动-来错误证明这一点?
浏览 1
提问于2015-01-22
得票数 0
1
回答
如何在apache nutch爬行时更改其
配置
apache
、
configuration
、
web-crawler
、
nutch
我的
爬虫
(ApacheNotch2.2.1)处于爬行状态。我必须更改nutch-site.xml中
爬虫
的一些
配置
。我已经知道,当
爬虫
处于运行状态时,请避免更改
配置
。 或者如果我们不能改变
爬虫
的
配置
,那么如果
配置
被改变了,它的缺点是什么?
浏览 0
提问于2014-11-26
得票数 1
回答已采纳
2
回答
创建301重定向,不包括facebook
facebook
、
.htaccess
、
http
、
redirect
、
https
Facebook的
爬虫
永远不会到达http站点。以下是Facebook对此的看法: 有人知道怎么做吗?
浏览 1
提问于2015-11-02
得票数 2
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Nginx Location 配置
Nginx配置详解
Nginx日志配置
nginx配置下载目录
Nginx负载均衡配置
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券