腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
4
回答
php
文件被alexa crawler执行并导致问题!
php
、
web-crawler
、
alexa
我已经编写了一个脚本,它将用于在特
定时
间自动发布新页面。它只会显示一个倒计时计时器,然后当它达到0时,它会将一个特定的文件重命名为index.
php
,并将当前的索引重命名为index.
php
-Modified.
php
然后,我分析了访问日志
浏览 1
提问于2010-02-26
得票数 4
回答已采纳
2
回答
基于
PHP
的Web
爬虫
或基于JAVA的Web
爬虫
java
、
php
、
web-crawler
我对基于
PHP
的网络
爬虫
有些怀疑,它能像基于java线程的
爬虫
一样运行吗?我之所以问这个问题,是因为在java中,线程可以一次又一次地执行,我不认为
PHP
有类似线程的功能,你们能说一下,哪个网络
爬虫
更能充分利用吗?基于
PHP
的
爬虫
还是基于Java的
爬虫
浏览 1
提问于2010-07-27
得票数 0
回答已采纳
1
回答
使用
php
爬虫
将数据索引到ElasticSearch
php
、
web-crawler
、
elasticsearch
我想索引爬行网站到ElasticSearch,但我不知道,我可以索引爬行信息到ElasticSearch与
php
爬虫
。我知道Apache可以将爬行网站索引到ElasticSearch,但是我对
php
爬虫
一无所知!我可以在
php
web应用程序中使用Apache吗?
浏览 4
提问于2013-05-12
得票数 3
1
回答
如何阻止Web
爬虫
下载文件
security
、
spam-filter
、
web-crawler
是否有可能阻止web
爬虫
在我的服务器上下载文件(如zip文件)?有可能阻止网络
爬虫
吗?或者,在下载最多3个文件后,是否还有其他选项可以将文件隐藏在web
爬虫
上?我可以很容易地创建一个
PHP
脚本,使用cookie强制访问者登录/注册,但是web
爬虫
呢? 顺便说一下,我用的是nginx和drupa
浏览 0
提问于2013-07-27
得票数 1
2
回答
如何安全地计算会话数: Global.Asax中的Session_Start/End是否足够安全?
c#
、
session
我想知道在给
定时
间内并发会话的数量。但对于
爬虫
和负载均衡器,以及可能不知道的影响,在全局asax中执行此操作有多安全:{ counter+
浏览 1
提问于2009-04-20
得票数 2
0
回答
python打包成exe后,input时间之后报错?
python
、
打包
、
爬虫
把py打包成了exe,里面有一个input是用来确定一个
爬虫
运行的时间。py运行没问题,但是exe只要输入这个时间就会报错,在换成固
定时
间触发后就正常了,不知道到底是什么原因?该如何解决?
浏览 619
提问于2020-01-09
1
回答
有没有免费的
php
爬虫
?
php
、
phpcrawl
过去我用过自己的
爬虫
,但现在我需要更健壮的
爬虫
,我想知道有没有什么好的免费的
php
爬虫
?
浏览 0
提问于2010-11-21
得票数 3
4
回答
PHP
警告: exec()无法分叉
php
、
centos
使用apache和
php
5.2.17运行Centos。我有一个网站,列出了许多不同零售商网站的产品。我有
爬虫
脚本,运行从每个网站抓取产品。由于每个网站是不同的,每个
爬虫
脚本必须定制,以抓取特定的零售商网站。所以基本上每个零售商我有一个
爬虫
。在这个时候,我有21个
爬虫
不断运行,以收集和更新这些网站的产品。每个
爬虫
都是一个
php
文件,一旦完成了
php
脚本,它就会检查,以确保它是唯一运行的实例,并且在脚本的最末端,它使用exec再次启动自己,而原始实例关闭
浏览 7
提问于2013-12-18
得票数 13
回答已采纳
3
回答
重定向爬行器
php
、
html
、
redirect
我想添加一个脚本来检查代理信息,如果它匹配其中一个
爬虫
的一部分,我想轻轻地将其重定向到另一个页面。在页面级别重定向,而不是在.htaccess文件中重定向的最好方法是什么?
浏览 1
提问于2011-06-25
得票数 0
2
回答
如何修复facebook的循环重定向?
php
、
facebook
、
facebook-opengraph
我在一个网站上做了4个登陆页面,和一个
php
脚本随机化了不同的登陆页面。 但我的问题是修复facebook的开放图形。他返回:无法跟随重定向路径-使用来自的数据,因为在重定向路径之后有一个错误。
浏览 4
提问于2015-06-03
得票数 3
回答已采纳
3
回答
将数据从
PHP
脚本传递到Python Web Crawler
php
、
python
、
stdout
、
stdin
、
web-crawler
我有一个python
爬虫
,每隔几分钟就抓取几个网页。我现在正在尝试实现一个可以通过web访问的用户界面,并显示
爬虫
获得的数据。我将使用
php
/html作为接口。无论如何,用户界面需要某种类型的按钮来触发
爬虫
程序立即抓取特定的网站(而不是等待下一次抓取迭代)。 现在,有没有一种方法可以将数据从
php
脚本发送到正在运行的python脚本?然后我在考虑使用一个共享文件,
php
在其中写入数据,python从中读取数据。但是,我需要一些方法来让python脚本知道,新数据已经写入文件,以
浏览 1
提问于2011-03-31
得票数 1
1
回答
如何使用
php
获取HTML页面的标题?
php
、
html
、
title
如何使用
php
获取HTML页面的标题?我已经做了一个
php
网络
爬虫
,我想在我的
爬虫
中实现这一功能,这样它就会有页面的名称和url。提前谢谢。可能使用preg_match。
浏览 0
提问于2011-02-07
得票数 3
回答已采纳
3
回答
如何防止昂贵的API被
爬虫
和
爬虫
吃掉?
php
我注意到,来自蜘蛛和
爬虫
的访问产生了对该API的数千次调用,而我正在为这些调用收费。有没有办法阻止显示由API生成的内容的网页部分,即只有实际的访问者才能看到它,并且在抓取网页时不会生成API调用?
浏览 1
提问于2016-10-23
得票数 2
1
回答
Robots.txt文件,允许除一个以外的所有根
php
文件,并且不允许所有子文件夹内容。
robots.txt
我希望所有根文件夹*.
php
文件都被索引,除了一个(exception.
php
),并且希望根文件夹的所有子目录中的所有内容都不被索引。我已经尝试过以下方法,但是它允许访问子目录中的
php
文件,即使子目录一般没有索引吗?……User-agent: *disallow: /*…… 有人能帮忙吗?
浏览 5
提问于2019-10-03
得票数 1
回答已采纳
5
回答
如何阻止
爬虫
(如spyder/Nutch-2 )访问特定的页面?
php
、
apache
、
.htaccess
、
web-crawler
、
nutch
我有一个Windows客户端应用程序,它使用托管在共享商业
php
服务器中的
php
页面。我应该使用.htaccess文件来配置它吗?
浏览 7
提问于2014-04-15
得票数 1
3
回答
网络
爬虫
反馈?
java
、
optimization
、
web-crawler
、
feedback
无论如何,作为对我上一个问题的跟进,我写了一个小的网络
爬虫
,可以访问网站。 - Main.java - HTMLUtils.java
浏览 12
提问于2010-05-29
得票数 2
回答已采纳
2
回答
php
爬虫
检测
php
、
web-crawler
我正在尝试编写一个sitemap.
php
,它根据查看对象的不同而执行不同的操作。我想将
爬虫
重定向到我的sitemap.xml,因为这将是最新的页面,并将包含他们需要的所有信息,但我希望我的老读者在
php
页面上显示一个html站点地图。这一切都是在
php
头中控制的,我在网上发现了,从外观上看,它应该可以工作,但事实并非如此。有人能帮我破解这个吗?
浏览 0
提问于2009-07-24
得票数 2
回答已采纳
1
回答
PHP
网络
爬虫
php
、
web-crawler
我正在寻找一个
PHP
的网络
爬虫
收集一个大型网站的所有链接,并告诉我,如果链接被打破。问题不是抓取链接,而是规模问题我不确定我修改的脚本是否足以抓取可能有数千个URL,因为我尝试将搜索链接的深度设置为4,但
爬虫
在浏览器中超时。
浏览 0
提问于2011-04-12
得票数 0
1
回答
/和index.
php
.如何消除这个重复的页面问题?
seo
、
duplicate-content
在我的网站根目录中,我有一个index.
php
,当然还有其他的页面。问题是,当我用
爬虫
或站点地图
爬虫
等爬行我的网站时,它会报告两个重复的链接。www.domain.com/ 如何强制告诉我的
爬虫
没有相同页面的两个实例?我是否使用301合并它们?一个规范?.htaccess重定向?
浏览 0
提问于2014-09-12
得票数 0
回答已采纳
1
回答
爬虫
脚本
php
php
、
web-crawler
php
{ if/' . ltrim($href, '/'); crawl_page($href, $depth - 1); echo "URL:",$url,
PHP
_EOL
浏览 0
提问于2011-04-11
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
PHP爬虫
php爬虫
PHP实现执行定时任务
PHP 实现秒级定时任务
php 网站爬虫入门
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券