首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >一种有效的网页刮除方法

一种有效的网页刮除方法
EN

Stack Overflow用户
提问于 2012-10-22 16:44:51
回答 3查看 698关注 0票数 0

可能重复: 如何用PHP解析和处理HTML?

我想检索网页的页眉和页脚(所有者知道这一点),并将其显示在一个新的页面上,以便我可以添加不同的内容。页面的结构非常好,div中的内容具有一个id的内容,所以我想我可以这样做:

使用CURL检索html,将内容的两边的html Echo输出到一个新页面上

我的问题是我不太精通PHP,所以我不知道如何处理html的两个块。我以前在Java中使用过子字符串,但是PHP中的substr似乎有点不同。有人能提出一个替代方案吗?

谢谢

EN

回答 3

Stack Overflow用户

回答已采纳

发布于 2012-10-22 16:47:40

子字符串和RegEx不是处理HTML的足够工具。最好(也更容易)使用DOM解析器。

看一看班级。它支持加载HTML,并允许您轻松地遍历文档。

票数 2
EN

Stack Overflow用户

发布于 2012-10-22 16:49:38

为了抓取网页,我使用了HTML DOM解析器。这对你来说是最简单的方法。您可以在本文中找到更多工具:如何用PHP解析和处理HTML?

票数 1
EN

Stack Overflow用户

发布于 2012-10-22 17:02:29

前几天我也做过类似的事。我选择使用jQuery、Ajax和PHP来收集页面并分解它们。我已经包含了我的代码的稀释版本。

对于PHP,我使用CURL (get-url.php):

代码语言:javascript
复制
$requestURL = $_GET['url'];
$curl_handle=curl_init();
curl_setopt($curl_handle, CURLOPT_URL, $requestURL);
curl_setopt($curl_handle, CURLOPT_CONNECTTIMEOUT, 10);
curl_setopt($curl_handle, CURLOPT_RETURNTRANSFER, TRUE);
curl_setopt($curl_handle, CURLOPT_AUTOREFERER, TRUE);
curl_setopt($curl_handle, CURLOPT_FRESH_CONNECT, TRUE);
curl_setopt($curl_handle, CURLOPT_FOLLOWLOCATION, TRUE);
curl_setopt($curl_handle, CURLOPT_MAXREDIRS, 10);
curl_setopt($curl_handle, CURLOPT_DNS_USE_GLOBAL_CACHE, FALSE);
curl_setopt($curl_handle, CURLOPT_FORBID_REUSE, TRUE);
$content = curl_exec($curl_handle);
curl_close($curl_handle);
echo $content;

然后,对于Ajax,我使用了:

代码语言:javascript
复制
var url = /* URL you want to retrieve */;
$.ajax({
        url: "get-url.php?url=" + url,
        type: "GET",
        dataType: "html",
        cache: false,
        success: function(data, textStatus, jqXHR){
            var header = data.find('#header').html();
            var footer = data.find('#footer').html();
            $(header_DOM).html(header);
            $(footer_DOM).html(footer);
        }
    });

这只是个向导。改变这个想法,以适应你的需要。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/13015931

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档