php怎么防止爬虫 - 腾讯云开发者社区

、、

the request/var/www/html/my-website/vendor/yiisoft/yii2/base/Module.php文件夹7adcf7ba已经不存在了，所以我认为爬虫以某种方式使用了缓存数据。如何防止crawler尝试访问此过期资源文件并使用当前资源文件？我不想要的解决方案，因为它不是唯一的网络爬虫，当然

浏览 0提问于2017-12-04得票数 0

1回答

网络机器人能放大下载数量吗？

、、

我有一个PHP程序连接到一个网站上的MYSQL数据库。单击下载文件的链接后，程序从数据库中读取一个整数字段，将其递增，然后将该数字放回原处，以计数下载次数。那个程序很管用。以下是PHP代码：{ if(isset($_REQUEST["file_id

浏览 5提问于2017-08-08得票数 2

回答已采纳

1回答

防止页面缓存并避免重定向

、

我的站点是用PHP编写的，我使用重定向来防止页面缓存。也就是说，当用户打开page.php?page=info时，他被重定向(302)到page.php?但这有时会变得缓慢，而且我担心像谷歌或雅虎这样的网络爬虫不喜欢这样。SSL有点太贵了，而元标记似乎根本不起作用。还能做些什么来防止缓存？谢谢!

浏览 2提问于2015-10-30得票数 0

回答已采纳

1回答

当网络爬行时，我如何找到低质量urls的模式，并较少地爬行这些类型的urls？

、

像exmpl.com/search.php?q=hey这样的urls有各种各样的GET参数，我想对这些链接进行分类，以防止我的爬虫抓取这样的“低优先级”Urls。

浏览 0提问于2017-01-25得票数 0

4回答

使用apache和php 5.2.17运行Centos。我有一个网站，列出了许多不同零售商网站的产品。我有爬虫脚本，运行从每个网站抓取产品。每个爬虫都是一个php文件，一旦完成了php脚本，它就会检查，以确保它是唯一运行的实例，并且在脚本的最末端，它使用exec再次启动自己，而原始实例关闭。这有助于防止内存泄漏，因为每个爬行器在关闭之前重新启动。不过，最近我将检查爬虫脚本，并注意到其中一个脚本不再运行，在错误日志中我发现了以下内容。PHP Warnin

浏览 7提问于2013-12-18得票数 13

回答已采纳

5回答

防止机器人处理网站上的图像

我有一个用PHP技术创建的网站，我想阻止机器人从website.What中获取图像，这是防止机器人从网站上处理图像的最佳方法吗？请确保它不会伤害SEO。请确保这不影响间谍和爬虫索引网站.

浏览 8提问于2010-12-14得票数 0

回答已采纳

1回答

我需要饲料聚合器，建立在小规模的高性能编程语言web框架(需要建议)

、、、

我有不同的内容坐在不同的子领域，每一个在不同的框架和不同的数据库。目前，我使用sqlite3实现了这一点，但我正在寻找其他(更高性能、更低占用空间)编程语言，希望它们能够更好地完成这项任务。

浏览 2提问于2011-03-21得票数 0

3回答

如何防止昂贵的API被爬虫和爬虫吃掉？

我注意到，来自蜘蛛和爬虫的访问产生了对该API的数千次调用，而我正在为这些调用收费。有没有办法阻止显示由API生成的内容的网页部分，即只有实际的访问者才能看到它，并且在抓取网页时不会生成API调用？

浏览 1提问于2016-10-23得票数 2

3回答

如何让应用程序使用私有.php网页？

、、、、

我希望我的桌面应用程序访问我网站上的.php页面。.php页面将执行服务器端任务，并将返回一个指示成功/失败等的HTTP响应。我应该在URL中有一个随机短语吗？例如： http://www.website.com/s3g8k0d1q6/myphpfile.php

浏览 6提问于2012-10-20得票数 0

1回答

/和index.php.如何消除这个重复的页面问题？

、

在我的网站根目录中，我有一个index.php，当然还有其他的页面。问题是，当我用爬虫或站点地图爬虫等爬行我的网站时，它会报告两个重复的链接。www.domain.com/ 如何强制告诉我的爬虫没有相同页面的两个实例？我是否使用301合并它们？一个规范？.htaccess重定向？等等，我该怎么解决这个问题？

浏览 0提问于2014-09-12得票数 0

回答已采纳

5回答

如何阻止爬虫(如spyder/Nutch-2 )访问特定的页面？

、、、、

我有一个Windows客户端应用程序，它使用托管在共享商业php服务器中的php页面。我应该使用.htaccess文件来配置它吗？

浏览 7提问于2014-04-15得票数 1

2回答

Scraper返回空数组

、、、、

php error_reporting(-1);libxml_use_internal_errorskoersen&subcat=1&instrumentcode=955000020");//url here//ref http://www.php<

浏览 0提问于2014-07-13得票数 1

2回答

如何阻止我的爬虫在Google Analytics中显示

、

几周后，这个爬虫的行为就会出现在访问过的网站的Google Analytics账户中。我想要防止这种情况，因为它弄乱了我用户的GA报告。爬虫不执行任何javascript，并具有以下用户代理: Mozilla/5.0 (兼容；Appname Crawler；+)如何防止这种情况发生？

浏览 2提问于2019-05-04得票数 2

1回答

如何防止google web爬虫将单个页面读取为两个不同的页面

、、

我有一个网页，比如example.com/blog/news.php，我使用了以下代码：RewriteCond %{REQUEST_FILENAME} !-dRewriteRule ^(.*)$ $1.php [NC,L] 在.htaccess文件中隐藏文件扩展名。但是google爬虫将example.com/blog/news.php和examp

浏览 1提问于2021-01-08得票数 3

回答已采纳

1回答

配置Web.Config (ASP.NET)以将web爬网程序重定向到另一页

、、、、

由于网站的所有信息都是通过AJAX请求的，社交媒体爬虫无法解析这些数据。因此，为了防止社交媒体显示空表情，例如：{{helloWorld}}，我尝试将一些社交媒体爬虫重定向到我的web应用程序中的特定部分，该部分可以为社交媒体爬虫预先呈现页面。重要的是，在上面的脚本中，我使用P标志来通知Apache在爬虫不知道重定向已经发生的情况下访问prerender页面。我该怎么做，有什么建议吗？

浏览 0提问于2017-12-09得票数 0

1回答

防止搜索引擎对HTML页面进行索引

、

在我的网站，我有一个网页，我只放了一些“文本数据”，我使用它作为一个简单的数据库。更清楚的是，这是一个带有作者姓名的引号(即： <h1>Author NAME</h1></div> 等等，在我的主页中，每天都会加载一个脚本，并将其显示在主页中。当用我的网站名直接测试和搜索google时，它在结果中加载到这个数据页面的直接链接，我的问题很明显是如何使这个页面对搜索引擎来说是不可见的，并且仍然能够在

浏览 1提问于2022-01-03得票数 0

回答已采纳

3回答

黑客爬行器将iframe插入文件

、、

不知何故，“黑客爬虫”不断地将有害的iframe元素插入到我的一个文件中：你知道爬虫是怎么做的，我怎么能阻止它？我知道这个缺陷是因为我使用的是PHP的旧版本，但不幸的是，我做了太多的修改，无法切换到最新的版本。

浏览 0提问于2011-05-26得票数 2

回答已采纳

1回答

实体框架-防止上下文中的缓存

、、

但我的问题就在这里；我有一个独立工作的爬虫和更改数据库。因此，我的web应用程序上下文不知道爬虫更改了什么。因为当我尝试访问数据时，它会显示上下文中的数据。那么，我如何防止上下文中的缓存，我怎么能说为每个请求从mssql读取数据呢？

浏览 9提问于2017-02-15得票数 1

1回答

Rails会为网络爬虫和机器人创建会话吗？

我想知道会话是否是由网络爬虫和机器人请求的页面创建的。我使用MySQL作为会话存储，并希望防止网络爬虫和机器人的请求创建不必要的会话条目。

浏览 0提问于2011-04-03得票数 3

1回答

似乎阻止了/我美丽的-sef-url-123

、

我的robots.txt看起来是这样的：Disallow: /system/Disallow: /index.php 显而易见的目标是防止所有丑陋的URL被索引，因为它们都以"/index.php“开头。但出于某种原因，所有的URL，如/my-漂亮-sef-URL-123都列在Google网站管理员工具的爬虫错误中，并带有“robots.txt限制的URL”。

浏览 0提问于2010-06-07得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何处理爬虫和过时的资产？

网络机器人能放大下载数量吗？

防止页面缓存并避免重定向

当网络爬行时，我如何找到低质量urls的模式，并较少地爬行这些类型的urls？

PHP警告: exec()无法分叉

防止机器人处理网站上的图像

我需要饲料聚合器，建立在小规模的高性能编程语言web框架(需要建议)

如何防止昂贵的API被爬虫和爬虫吃掉？

如何让应用程序使用私有.php网页？

/和index.php.如何消除这个重复的页面问题？

如何阻止爬虫(如spyder/Nutch-2 )访问特定的页面？

Scraper返回空数组

如何阻止我的爬虫在Google Analytics中显示

如何防止google web爬虫将单个页面读取为两个不同的页面

配置Web.Config (ASP.NET)以将web爬网程序重定向到另一页

防止搜索引擎对HTML页面进行索引

黑客爬行器将iframe插入文件

实体框架-防止上下文中的缓存

Rails会为网络爬虫和机器人创建会话吗？

似乎阻止了/我美丽的-sef-url-123

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐