我正在尝试做一个有趣的小项目,我基本上是从一个新闻网站上获取ex的标题,然后使用php将其抓取/镜像到另一个网站上,然后让显示在新网站上的数据实际上是到原始网站的可点击链接。如果这有点令人困惑,让我来展示一个例子。
就在这里,我正在使用http://www.wilsonschlamme.com/test.php从< span=class >中包含的antrimreview (密歇根本地新闻网站)中抓取所有数据。我选择span class,因为那是他们的标题所在的位置。我只是为了测试而使用antrim,我和他们没有任何关系。
*我想知道的是,我不知道怎么做,实际上是使这些标题重新显示在我的测试网站上,作为可点击的链接。换句话说,保留这些标题的,其中包含指向全文的可点击链接。换句话说,在antrim网站上,这些标题是可以点击的全页链接。当镜像到我目前的测试网站上时,显然没有链接,因为没有任何东西可以抓取数据。
有谁知道这是怎么做到的吗?有什么想法吗?真的会很感激,这是一个有趣的项目,只是缺乏如何完成它的知识。
哦,我知道下面的精灵宝可梦的参考资料是lolsy。这是因为我使用的是某处教程中的代码:
<?php
$html = file_get_contents('http://www.antrimreview.net/'); //get the html
returned from the following url
$pokemon_doc = new DOMDocument();
libxml_use_internal_errors(TRUE); //disable libxml errors
if(!empty($html)){ //if any html is actually returned
$pokemon_doc->loadHTML($html);
libxml_clear_errors(); //remove errors for yucky html
$pokemon_xpath = new DOMXPath($pokemon_doc);
//get all the h2's with an id
$pokemon_row = $pokemon_xpath->query('//span[@class]');
if($pokemon_row->length > 0){
foreach($pokemon_row as $row){
echo $row->nodeValue . "<br/>";
}
}
}
?>
发布于 2017-05-12 23:34:05
实际上,我发现使用CNN feed for ex,使用surfing-wave来生成代码很简单。无论如何,谢谢你的建议。
https://stackoverflow.com/questions/43946262
复制相似问题