php 爬虫定时 - 腾讯云开发者社区

、、

我已经编写了一个脚本，它将用于在特定时间自动发布新页面。它只会显示一个倒计时计时器，然后当它达到0时，它会将一个特定的文件重命名为index.php，并将当前的索引重命名为index.php -Modified.php然后，我分析了访问日志

浏览 1提问于2010-02-26得票数 4

回答已采纳

2回答

基于PHP的Web爬虫或基于JAVA的Web爬虫

、、

我对基于PHP的网络爬虫有些怀疑，它能像基于java线程的爬虫一样运行吗？我之所以问这个问题，是因为在java中，线程可以一次又一次地执行，我不认为PHP有类似线程的功能，你们能说一下，哪个网络爬虫更能充分利用吗?基于PHP的爬虫还是基于Java的爬虫

浏览 1提问于2010-07-27得票数 0

回答已采纳

1回答

使用php爬虫将数据索引到ElasticSearch

、、

我想索引爬行网站到ElasticSearch，但我不知道，我可以索引爬行信息到ElasticSearch与php爬虫。我知道Apache可以将爬行网站索引到ElasticSearch，但是我对php爬虫一无所知！我可以在php web应用程序中使用Apache吗？

浏览 4提问于2013-05-12得票数 3

1回答

如何阻止Web爬虫下载文件

、、

是否有可能阻止web爬虫在我的服务器上下载文件(如zip文件)？有可能阻止网络爬虫吗？或者，在下载最多3个文件后，是否还有其他选项可以将文件隐藏在web爬虫上？我可以很容易地创建一个PHP脚本，使用cookie强制访问者登录/注册，但是web爬虫呢？顺便说一下，我用的是nginx和drupa

浏览 0提问于2013-07-27得票数 1

2回答

如何安全地计算会话数: Global.Asax中的Session_Start/End是否足够安全？

、

我想知道在给定时间内并发会话的数量。但对于爬虫和负载均衡器，以及可能不知道的影响，在全局asax中执行此操作有多安全：{ counter+

浏览 1提问于2009-04-20得票数 2

0回答

python打包成exe后，input时间之后报错？

、、

把py打包成了exe，里面有一个input是用来确定一个爬虫运行的时间。py运行没问题，但是exe只要输入这个时间就会报错，在换成固定时间触发后就正常了，不知道到底是什么原因？该如何解决？

浏览 660提问于2020-01-09

1回答

有没有免费的php爬虫？

、

过去我用过自己的爬虫，但现在我需要更健壮的爬虫，我想知道有没有什么好的免费的php爬虫？

浏览 0提问于2010-11-21得票数 3

4回答

使用apache和php 5.2.17运行Centos。我有一个网站，列出了许多不同零售商网站的产品。我有爬虫脚本，运行从每个网站抓取产品。由于每个网站是不同的，每个爬虫脚本必须定制，以抓取特定的零售商网站。所以基本上每个零售商我有一个爬虫。在这个时候，我有21个爬虫不断运行，以收集和更新这些网站的产品。每个爬虫都是一个php文件，一旦完成了php脚本，它就会检查，以确保它是唯一运行的实例，并且在脚本的最末端，它使用exec再次启动自己，而原始实例关闭

浏览 7提问于2013-12-18得票数 13

回答已采纳

3回答

重定向爬行器

、、

我想添加一个脚本来检查代理信息，如果它匹配其中一个爬虫的一部分，我想轻轻地将其重定向到另一个页面。在页面级别重定向，而不是在.htaccess文件中重定向的最好方法是什么？

浏览 1提问于2011-06-25得票数 0

2回答

如何修复facebook的循环重定向？

、、

我在一个网站上做了4个登陆页面，和一个php脚本随机化了不同的登陆页面。但我的问题是修复facebook的开放图形。他返回:无法跟随重定向路径-使用来自的数据，因为在重定向路径之后有一个错误。

浏览 4提问于2015-06-03得票数 3

回答已采纳

3回答

将数据从PHP脚本传递到Python Web Crawler

、、、、

我有一个python爬虫，每隔几分钟就抓取几个网页。我现在正在尝试实现一个可以通过web访问的用户界面，并显示爬虫获得的数据。我将使用php/html作为接口。无论如何，用户界面需要某种类型的按钮来触发爬虫程序立即抓取特定的网站(而不是等待下一次抓取迭代)。现在，有没有一种方法可以将数据从php脚本发送到正在运行的python脚本？然后我在考虑使用一个共享文件，php在其中写入数据，python从中读取数据。但是，我需要一些方法来让python脚本知道，新数据已经写入文件，以

浏览 1提问于2011-03-31得票数 1

1回答

如何使用php获取HTML页面的标题？

、、

如何使用php获取HTML页面的标题？我已经做了一个php网络爬虫，我想在我的爬虫中实现这一功能，这样它就会有页面的名称和url。提前谢谢。可能使用preg_match。

浏览 0提问于2011-02-07得票数 3

回答已采纳

3回答

如何防止昂贵的API被爬虫和爬虫吃掉？

我注意到，来自蜘蛛和爬虫的访问产生了对该API的数千次调用，而我正在为这些调用收费。有没有办法阻止显示由API生成的内容的网页部分，即只有实际的访问者才能看到它，并且在抓取网页时不会生成API调用？

浏览 1提问于2016-10-23得票数 2

1回答

Robots.txt文件，允许除一个以外的所有根php文件，并且不允许所有子文件夹内容。

我希望所有根文件夹*.php文件都被索引，除了一个(exception.php)，并且希望根文件夹的所有子目录中的所有内容都不被索引。我已经尝试过以下方法，但是它允许访问子目录中的php文件，即使子目录一般没有索引吗？……User-agent: *disallow: /*…… 有人能帮忙吗？

浏览 5提问于2019-10-03得票数 1

回答已采纳

5回答

如何阻止爬虫(如spyder/Nutch-2 )访问特定的页面？

、、、、

我有一个Windows客户端应用程序，它使用托管在共享商业php服务器中的php页面。我应该使用.htaccess文件来配置它吗？

浏览 7提问于2014-04-15得票数 1

3回答

网络爬虫反馈？

、、、

无论如何，作为对我上一个问题的跟进，我写了一个小的网络爬虫，可以访问网站。 - Main.java - HTMLUtils.java

浏览 12提问于2010-05-29得票数 2

回答已采纳

2回答

php爬虫检测

、

我正在尝试编写一个sitemap.php，它根据查看对象的不同而执行不同的操作。我想将爬虫重定向到我的sitemap.xml，因为这将是最新的页面，并将包含他们需要的所有信息，但我希望我的老读者在php页面上显示一个html站点地图。这一切都是在php头中控制的，我在网上发现了，从外观上看，它应该可以工作，但事实并非如此。有人能帮我破解这个吗？

浏览 0提问于2009-07-24得票数 2

回答已采纳

1回答