腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
无模式的URLS和行为不当的crwalers
我面临的问题是,很少有
爬虫
将它们作为相对urls来处理。我正在使用
Nginx
服务器,但我对
Nginx
相当陌生。 有可能重写吗?
浏览 3
提问于2014-04-08
得票数 0
回答已采纳
1
回答
如何阻止Web
爬虫
下载文件
、
、
是否有可能阻止web
爬虫
在我的服务器上下载文件(如zip文件)?有可能阻止网络
爬虫
吗?或者,在下载最多3个文件后,是否还有其他选项可以将文件隐藏在web
爬虫
上?我可以很容易地创建一个PHP脚本,使用cookie强制访问者登录/注册,但是web
爬虫
呢? 顺便说一下,我用的是
nginx
和drupal CMS。如果这
浏览 0
提问于2013-07-27
得票数 1
1
回答
仅带prerender.io客户端的Prerender 7 SPA
、
、
、
、
我有一个Angular 7应用程序,我正在尝试预先渲染页面以支持网络
爬虫
/ SEO。我决定使用prerender.io来帮助这些
爬虫
预先渲染、缓存和提供静态超文本标记语言,但是我很难在我的Angular 7应用程序中安装它们的中间件。根据their docs的说法,我可以安装一个中间件,当网络
爬虫
发出页面请求时,它会检测到,并将请求重定向到预渲染服务器。然而,我发现的所有示例都涉及到修改一些后端节点服务器。
浏览 19
提问于2019-02-26
得票数 1
回答已采纳
1
回答
将Crawler重定向到内部服务
、
、
、
我想要设置
nginx
,让某些
爬虫
从运行在端口9998上的内部服务获取数据。因此,例如,当浏览器请求www.mywebsite.com/ resource /1时,它将查看根文件夹,但当
爬虫
(例如FB
爬虫
)请求相同的资源时,它将得到服务返回的页面,为127.0.0.1:9998
浏览 3
提问于2015-03-12
得票数 0
回答已采纳
2
回答
创建301重定向,不包括facebook
、
、
、
、
Facebook的
爬虫
永远不会到达http站点。以下是Facebook对此的看法: 有人知道怎么做吗?
浏览 1
提问于2015-11-02
得票数 2
回答已采纳
1
回答
向
nginx
.conf添加robots.txt文件
、
我使用
nginx
作为代理,并假定我必须将其添加到
nginx
.conf文件中。我到底应该把它添加到哪里呢?下面是我现在的robots.txt。我想补充一下。
浏览 2
提问于2015-09-25
得票数 0
1
回答
(prerender.io
nginx
)
、
我看到的是以下行为: 有
浏览 0
提问于2018-05-13
得票数 0
2
回答
如何在Ubuntu上安装特定版本的
Nginx
?
、
我有一个Ubuntu14.04 and服务器,我想在它上安装一个特定的主要版本的
Nginx
。这意味着如果我安装
Nginx
1.8,我不希望Ubuntu在任何时候升级到1.9。我已经找到了PPA
nginx
/stable,但是不是有人在维护存储库时可以选择要安装的实际版本吗?这将类似于Ubuntu的官方软件包,但只是一个较新的主要版本。
浏览 0
提问于2015-10-14
得票数 2
1
回答
如何正确地在定位块中使用重写条件?
、
、
我希望以这种方式处理
nginx
中的请求,所以当
爬虫
获得请求的页面时,我需要通过请求的URL发送单个页面应用程序的静态版本,否则就会动态生成index.html。} try_files $uri /index.html;} 有了上面的配置,当我去我的网站我得到404错误,即使是通过一个正常的用户代理(不是
爬虫
的
爬虫
请求url:https://www.example.com/en/products/dai
浏览 4
提问于2022-10-13
得票数 1
回答已采纳
1
回答
如何防止恶意
爬虫
抓取部署在Heroku上的rails应用程序?
、
、
我想限制
爬虫
对我在Heroku上运行的rails应用程序的访问。如果我使用的是Apache或
nginX
,这将是一项简单的任务。我曾尝试使用robots.txt文件,但有问题的
爬虫
程序不支持robot.txt。1) rails层中用于限制访问的before_filter。
浏览 0
提问于2011-04-21
得票数 4
回答已采纳
1
回答
nginx
仅对facebook
爬虫
禁用gzip
、
、
我可以禁用gzip的
nginx
仅用于Facebook
爬虫
吗?
浏览 5
提问于2016-06-21
得票数 0
回答已采纳
1
回答
构建个人博客渲染系统、SSR或预存器或其他任何东西的首选方法是什么?
、
、
、
、
我正在建立一个个人博客系统。该系统更像是一个平台,意味着不仅管理员,而且所有注册用户都可以张贴他们的博客。因为它是一个博客系统,搜索引擎优化是我们必须考虑的事情,我知道谷歌可以运行一些Javascript代码时,他们的蜘蛛工作。然而,一些其他搜索引擎,我必须工作,没有这样的能力。因此不能执行完全的客户端呈现策略(对于博客页面,它可能被识别为/blogs/:some-id)。 正如我前面提到的,前端具有标记渲染能力(代码)。我们不想在
浏览 0
提问于2019-10-23
得票数 3
2
回答
防止自定义Web
爬虫
被阻塞
、
、
我正在创建一个新的网络
爬虫
使用C#来抓取一些特定的网站。一切都很顺利。但问题是,,一些网站是阻塞我的
爬虫
IP地址,后,一些请求。我试着在爬行请求之间使用时间戳。但没有起作用。有没有办法阻止网站阻塞我的
爬虫
?有些类似的解决方案会有所帮助(但我需要知道如何应用它们): 任何解决办法都会有帮助。
浏览 7
提问于2011-10-04
得票数 3
回答已采纳
2
回答
HTTP 444 (无响应)而不是404,403错误页面?
、
、
、
我总是在
nginx
配置中使用"return 444“来阻止
爬虫
直接通过IP或错误的主机名访问我的服务器。它只会关闭连接。太完美了。现在我想使用这个响应,而不是
nginx
抛出的标准404.html页面,但配置失败。
浏览 3
提问于2017-01-02
得票数 16
回答已采纳
1
回答
在
NGINX
中使用动态列表通过IP阻止客户端
、
、
、
我有一个使用
nginx
作为前端服务器的服务。一些机器人不断地强制执行/login页面,这足以降低我的服务器工作效率。(这是为了避免禁止“好”
爬虫
,这将能够阅读其他网页的网站,甚至是“禁止”登录页面)。 如何从动态IP列表中执行
nginx
禁令?
浏览 0
提问于2017-04-14
得票数 0
回答已采纳
2
回答
在hashbang之前使用
nginx
、angular.js和prerender.io
、
、
我正在尝试与
nginx
和angular.js一起使用prerender.io,在我的例子中,主要是为Facebook工作,以防止当有人分享显示的页面时出现典型的尖括号。/page1 #setting prerender as a variable forces DNS resolution since
nginx
http://$pre
浏览 0
提问于2015-07-18
得票数 1
2
回答
只针对某些请求分离
Nginx
访问日志文件
、
、
、
、
据我所知,默认情况下,
Nginx
支持2个日志文件:error_log (跟踪与
Nginx
服务器本身相关的问题)和access_log (跟踪由
Nginx
处理的请求)。这个问题背后的原因是,我有一条规则,拒绝对不想要的
爬虫
使用200 (因为403会提示它们被阻塞),而将这些请求从access_log中过滤变得更加困难。
浏览 0
提问于2012-06-01
得票数 8
回答已采纳
2
回答
转发IP地址-
NGINX
和IIS
、
、
、
我们有一个正常工作的
NGINX
将外部用户重定向到IIS服务器。问题是IIS看到的IP是
NGINX
机器,而不是来自外部用户的IP。我们的日志中满是"10.0.0.2“的IP,这是不正确的。
浏览 6
提问于2022-03-11
得票数 0
回答已采纳
1
回答
使用
nginx
重写生成_escaped_fragment_查询字符串
、
、
我想手动为不单独实现_escaped_fragment_支持的搜索机器人\
爬虫
生成_escaped_fragment_查询参数。 使用
nginx
,我试图做最明显的,但它没有工作。
浏览 0
提问于2014-02-18
得票数 0
回答已采纳
1
回答
有没有可能让网站始终在线?
、
、
一种方法是:可以在登录时使用
nginx
proxy_pass缓存整个网站吗?如何缓存?实际上,我的意思是,如果后端关闭或不工作,我们仍然可以使用缓存供人们访问我的网站。 另一种方法:
爬虫
?
浏览 2
提问于2018-11-15
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
服务器使用Nginx搭建HTTP爬虫代理
Nginx安装lua-nginx-module模块
nginx初探
Nginx配置文件nginx.conf详解
玩转 Nginx 之:使用 Lua 扩展 Nginx 功能
热门
标签
更多标签
云服务器
ICP备案
对象存储
云直播
腾讯会议
活动推荐
运营活动
广告
关闭
领券