php实现网络爬虫 - 腾讯云开发者社区

我正在尝试用Perl做一个简单的网络爬虫，但是很多网站都有动态内容加载，例如，使用javascript函数： $("#blabla").load('blublu/bla.php');因此，我正在尝试调整我已经拥有的网络爬虫(获取HTML内容)，以“等待”这些脚本加载，然后才获取整个(和完整)网站内容(HTML)。到目前为止，我发现有人说这可以通过WWW::Mechanize，

浏览 2提问于2013-01-15得票数 2

回答已采纳

1回答

如何阻止Web爬虫下载文件

、、

是否有可能阻止web爬虫在我的服务器上下载文件(如zip文件)？有可能阻止网络爬虫吗？或者，在下载最多3个文件后，是否还有其他选项可以将文件隐藏在web爬虫上？我可以很容易地创建一个PHP脚本，使用cookie强制访问者登录/注册，但是web爬虫呢？顺便说

浏览 0提问于2013-07-27得票数 1

1回答

PHP cURL网络爬虫

、

当我以如下方式运行文件时，此代码在终端中运行正常然而，我很好奇我需要做些什么才能让它在控制台中指定的URL上运行。$php webcrawler.php http://samplesite.comclass Ga_track function get_ga_implemented

浏览 2提问于2015-05-05得票数 1

6回答

我有一个基于PHP的网络爬虫。它可以在这里访问：现在，我的问题是我的爬虫需要在SOCKS端口9050上抓取页面。问题是，我必须通过Tor隧道它的连接，这样它才能解析.onion域，这就是我要索引的。我使用php crawl.php从命令行调用此脚本，并添加适当的参数来抓取页面。我的想法是:有没有办法强迫它使用Tor？或者我可以强制我的整个机器通过Tor进行隧道操作，以及如何实现？(比如强制所有流量通过127.0.0.1:9050)也许如果我设置了全局代理设置，p

浏览 7提问于2012-02-11得票数 10

1回答

如何使用网络爬虫从flv文件中提取内容？

、、、

请建议我如何使用任何网络爬虫来实现这一点。如果这是不可能与网络爬虫，请建议我任何其他工具。谢谢你

浏览 0提问于2013-05-14得票数 0

回答已采纳

2回答

建立一个自定义的网页爬虫的最佳方法，以便在URL中找到带有任意文本的站点？

、

但是，没有使用任何搜索引擎，这意味着，编写一个纯网络爬虫。--很明显，它永远不会停下来运行.它甚至在碰到我想要的东西之前会遇到很多“垃圾”站点。

浏览 8提问于2010-09-26得票数 0

回答已采纳

1回答

使用php检查AngularJS网页上是否存在某个字符串。

、、

是否仍然可以使用php curl或其他语言进行搜索。

浏览 17提问于2017-02-24得票数 1

1回答

试图实现PHP爬虫？

、、

我正在尝试在我的网站上实现PHP爬虫。我的主要动机是从其他网站获得产品的价格。为此，我尝试使用dom解析器，但我的脚本不起作用。我解析类为prc的div的代码是：-include('simplehtmldom/simple_html_dom.php');$html-

浏览 0提问于2013-08-19得票数 0

回答已采纳

1回答

是什么阻碍了我的PHP脚本？

、、、

我们有一个PHP爬虫运行在我们的web服务器上。crawler运行时，没有cpu、内存或网络带宽峰值。一切都很正常。但是我们的网站(也是PHP)，托管在同一台服务器上，停止响应。基本上，爬虫会阻止任何其他php脚本运行。** fsockopen用于将文件下载到crawler！**

浏览 3提问于2010-05-11得票数 0

5回答

如何将动态站点转换为可从CD演示的静态站点？

、、

有没有人对爬虫有什么好的建议，可以处理像链接清理，flash，一些ajax，css等等？我知道机会很小，但我认为在我开始编写自己的工具之前，我应该在这里抛出这个问题。

浏览 3提问于2008-09-22得票数 9

回答已采纳

3回答

非常简单的C++网络爬虫/蜘蛛？

、

我试图在C++中做一个非常简单的网页爬虫/蜘蛛应用程序。我一直在使用谷歌搜索一个简单的，以了解这个概念。我发现了这个：然而，这是复杂的理解对我来说，因为我开始学习C++大约一个月前。

浏览 15提问于2010-11-25得票数 22

回答已采纳

3回答

(网络爬虫)如何从新闻网站获取新闻文章的文本

、、、、

readnews.php?id=16727 汤汁？还是其他网络爬虫？谢谢

浏览 3提问于2016-06-24得票数 0

2回答

蜘蛛会使用哪个链接来搜索列表，静态链接还是RewriteRule url？

、、、、

我是Apache重定向的新手，但我已经学会了如何处理由PHP在我的网站上生成的干净urls，它们工作得很好。RewriteRule ^([^/]+)&#

浏览 0提问于2013-03-15得票数 1

回答已采纳

1回答

如何有效地运行python web爬虫

、、、

我有一个python爬虫，它获取信息并将其放入SQL中。现在我也有了php页面，它从SQL读取这个信息，并表示它。问题是:为了让爬虫程序工作，我的电脑必须全天候工作。是否有一种不同的方式运行网络爬虫？还是我必须在我的电脑上运行？

浏览 1提问于2015-12-08得票数 0

回答已采纳

7回答

哪些语言适合编写网络爬虫？

、、、

我有丰富的PHP经验，尽管我意识到PHP可能不是大型网络爬虫的最佳语言，因为进程不能无限运行。人们推荐的语言是什么？

浏览 1提问于2010-09-08得票数 3

回答已采纳

3回答

具有线程支持的python web爬虫

、

这些天我做了一些网络爬虫脚本，但其中一个问题是我的互联网非常慢。所以我在想，是否可以通过使用mechanize或urllib之类的方法来实现多线程的网络爬虫。如果任何人有经验，分享信息非常感谢。

浏览 3提问于2009-12-05得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何使用php获取HTML页面的标题？

基于PHP的Web爬虫或基于JAVA的Web爬虫

PHP网络爬虫

如何为多个页面创建一个变量Meta property og:image？

带有简单动态内容"listener“的Perl webcrawler

如何阻止Web爬虫下载文件

PHP cURL网络爬虫

Tor网络爬虫

如何使用网络爬虫从flv文件中提取内容？

建立一个自定义的网页爬虫的最佳方法，以便在URL中找到带有任意文本的站点？

使用php检查AngularJS网页上是否存在某个字符串。

试图实现PHP爬虫？

是什么阻碍了我的PHP脚本？

如何将动态站点转换为可从CD演示的静态站点？

非常简单的C++网络爬虫/蜘蛛？

(网络爬虫)如何从新闻网站获取新闻文章的文本

蜘蛛会使用哪个链接来搜索列表，静态链接还是RewriteRule url？

如何有效地运行python web爬虫

哪些语言适合编写网络爬虫？

具有线程支持的python web爬虫

扫码

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐