腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何处理
爬虫
和过时的资产?
、
、
the request/var/www/html/my-website/vendor/yiisoft/yii2/base/Module.
php
文件夹7adcf7ba已经不存在了,所以我认为
爬虫
以某种方式使用了缓存数据。 如何
防止
crawler尝试访问此过期资源文件并使用当前资源文件?我不想要的解决方案,因为它不是唯一的网络
爬虫
,当然
浏览 0
提问于2017-12-04
得票数 0
1
回答
网络机器人能放大下载数量吗?
、
、
我有一个
PHP
程序连接到一个网站上的MYSQL数据库。单击下载文件的链接后,程序从数据库中读取一个整数字段,将其递增,然后将该数字放回原处,以计数下载次数。那个程序很管用。以下是
PHP
代码:{ if(isset($_REQUEST["file_id
浏览 5
提问于2017-08-08
得票数 2
回答已采纳
1
回答
防止
页面缓存并避免重定向
、
我的站点是用
PHP
编写的,我使用重定向来
防止
页面缓存。也就是说,当用户打开page.
php
?page=info时,他被重定向(302)到page.
php
?但这有时会变得缓慢,而且我担心像谷歌或雅虎这样的网络
爬虫
不喜欢这样。SSL有点太贵了,而元标记似乎根本不起作用。还能做些什么来
防止
缓存?谢谢!
浏览 2
提问于2015-10-30
得票数 0
回答已采纳
1
回答
当网络爬行时,我如何找到低质量urls的模式,并较少地爬行这些类型的urls?
、
像exmpl.com/search.
php
?q=hey这样的urls有各种各样的GET参数,我想对这些链接进行分类,以
防止
我的
爬虫
抓取这样的“低优先级”Urls。
浏览 0
提问于2017-01-25
得票数 0
4
回答
PHP
警告: exec()无法分叉
、
使用apache和
php
5.2.17运行Centos。我有一个网站,列出了许多不同零售商网站的产品。我有
爬虫
脚本,运行从每个网站抓取产品。每个
爬虫
都是一个
php
文件,一旦完成了
php
脚本,它就会检查,以确保它是唯一运行的实例,并且在脚本的最末端,它使用exec再次启动自己,而原始实例关闭。这有助于
防止
内存泄漏,因为每个爬行器在关闭之前重新启动。不过,最近我将检查
爬虫
脚本,并注意到其中一个脚本不再运行,在错误日志中我发现了以下内容。
PHP
Warnin
浏览 7
提问于2013-12-18
得票数 13
回答已采纳
5
回答
防止
机器人处理网站上的图像
我有一个用
PHP
技术创建的网站,我想阻止机器人从website.What中获取图像,这是
防止
机器人从网站上处理图像的最佳方法吗? 请确保它不会伤害SEO。请确保这不影响间谍和
爬虫
索引网站.
浏览 8
提问于2010-12-14
得票数 0
回答已采纳
1
回答
我需要饲料聚合器,建立在小规模的高性能编程语言web框架(需要建议)
、
、
、
我有不同的内容坐在不同的子领域,每一个在不同的框架和不同的数据库。 目前,我使用sqlite3实现了这一点,但我正在寻找其他(更高性能、更低占用空间)编程语言,希望它们能够更好地完成这项任务。
浏览 2
提问于2011-03-21
得票数 0
3
回答
如何
防止
昂贵的API被
爬虫
和
爬虫
吃掉?
我注意到,来自蜘蛛和
爬虫
的访问产生了对该API的数千次调用,而我正在为这些调用收费。有没有办法阻止显示由API生成的内容的网页部分,即只有实际的访问者才能看到它,并且在抓取网页时不会生成API调用?
浏览 1
提问于2016-10-23
得票数 2
3
回答
如何让应用程序使用私有.
php
网页?
、
、
、
、
我希望我的桌面应用程序访问我网站上的.
php
页面。.
php
页面将执行服务器端任务,并将返回一个指示成功/失败等的HTTP响应。我应该在URL中有一个随机短语吗?例如: http://www.website.com/s3g8k0d1q6/myphpfile.
php
浏览 6
提问于2012-10-20
得票数 0
1
回答
/和index.
php
.如何消除这个重复的页面问题?
、
在我的网站根目录中,我有一个index.
php
,当然还有其他的页面。问题是,当我用
爬虫
或站点地图
爬虫
等爬行我的网站时,它会报告两个重复的链接。www.domain.com/ 如何强制告诉我的
爬虫
没有相同页面的两个实例?我是否使用301合并它们?一个规范?.htaccess重定向?等等,我该
怎么
解决这个问题?
浏览 0
提问于2014-09-12
得票数 0
回答已采纳
5
回答
如何阻止
爬虫
(如spyder/Nutch-2 )访问特定的页面?
、
、
、
、
我有一个Windows客户端应用程序,它使用托管在共享商业
php
服务器中的
php
页面。我应该使用.htaccess文件来配置它吗?
浏览 7
提问于2014-04-15
得票数 1
2
回答
Scraper返回空数组
、
、
、
、
php
error_reporting(-1);libxml_use_internal_errorskoersen&subcat=1&instrumentcode=955000020");//url here//ref http://www.
php<
浏览 0
提问于2014-07-13
得票数 1
2
回答
如何阻止我的
爬虫
在Google Analytics中显示
、
几周后,这个
爬虫
的行为就会出现在访问过的网站的Google Analytics账户中。我想要
防止
这种情况,因为它弄乱了我用户的GA报告。
爬虫
不执行任何javascript,并具有以下用户代理: Mozilla/5.0 (兼容;Appname Crawler;+)如何
防止
这种情况发生?
浏览 2
提问于2019-05-04
得票数 2
1
回答
如何
防止
google web
爬虫
将单个页面读取为两个不同的页面
、
、
我有一个网页,比如example.com/blog/news.
php
,我使用了以下代码:RewriteCond %{REQUEST_FILENAME} !-dRewriteRule ^(.*)$ $1.
php
[NC,L] 在.htaccess文件中隐藏文件扩展名。但是google
爬虫
将example.com/blog/news.
php
和examp
浏览 1
提问于2021-01-08
得票数 3
回答已采纳
1
回答
配置Web.Config (ASP.NET)以将web爬网程序重定向到另一页
、
、
、
、
由于网站的所有信息都是通过AJAX请求的,社交媒体
爬虫
无法解析这些数据。因此,为了
防止
社交媒体显示空表情,例如:{{helloWorld}},我尝试将一些社交媒体
爬虫
重定向到我的web应用程序中的特定部分,该部分可以为社交媒体
爬虫
预先呈现页面。重要的是,在上面的脚本中,我使用P标志来通知Apache在
爬虫
不知道重定向已经发生的情况下访问prerender页面。 我该
怎么
做,有什么建议吗?
浏览 0
提问于2017-12-09
得票数 0
1
回答
防止
搜索引擎对HTML页面进行索引
、
在我的网站,我有一个网页,我只放了一些“文本数据”,我使用它作为一个简单的数据库。更清楚的是,这是一个带有作者姓名的引号(即: <h1>Author NAME</h1></div> 等等,在我的主页中,每天都会加载一个脚本,并将其显示在主页中。当用我的网站名直接测试和搜索google时,它在结果中加载到这个数据页面的直接链接,我的问题很明显是如何使这个页面对搜索引擎来说是不可见的,并且仍然能够在
浏览 1
提问于2022-01-03
得票数 0
回答已采纳
3
回答
黑客爬行器将iframe插入文件
、
、
不知何故,“黑客
爬虫
”不断地将有害的iframe元素插入到我的一个文件中:你知道
爬虫
是
怎么
做的,我
怎么
能阻止它?我知道这个缺陷是因为我使用的是
PHP
的旧版本,但不幸的是,我做了太多的修改,无法切换到最新的版本。
浏览 0
提问于2011-05-26
得票数 2
回答已采纳
1
回答
实体框架-
防止
上下文中的缓存
、
、
但我的问题就在这里; 我有一个独立工作的
爬虫
和更改数据库。因此,我的web应用程序上下文不知道
爬虫
更改了什么。因为当我尝试访问数据时,它会显示上下文中的数据。那么,我如何
防止
上下文中的缓存,我
怎么
能说为每个请求从mssql读取数据呢?
浏览 9
提问于2017-02-15
得票数 1
1
回答
Rails会为网络
爬虫
和机器人创建会话吗?
我想知道会话是否是由网络
爬虫
和机器人请求的页面创建的。我使用MySQL作为会话存储,并希望
防止
网络
爬虫
和机器人的请求创建不必要的会话条目。
浏览 0
提问于2011-04-03
得票数 3
1
回答
似乎阻止了/我美丽的-sef-url-123
、
我的robots.txt看起来是这样的:Disallow: /system/Disallow: /index.
php
显而易见的目标是
防止
所有丑陋的URL被索引,因为它们都以"/index.
php
“开头。但出于某种原因,所有的URL,如/my-漂亮-sef-URL-123都列在Google网站管理员工具的
爬虫
错误中,并带有“robots.txt限制的URL”。
浏览 0
提问于2010-06-07
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
PHP爬虫
php爬虫
php 网站爬虫入门
如何防止网络爬虫被限制?
如何防止PHP进程异常退出?
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券