前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >PHP采集原理

PHP采集原理

作者头像
苦咖啡
发布2018-05-07 17:28:01
1.4K0
发布2018-05-07 17:28:01
举报
文章被收录于专栏:我的博客我的博客

很多时间我们的信息都是来自其他网站,这样我们复制,粘贴,发布很麻烦,当然你不可以把他们的信息批量复制过来,这个时候就需要采集了~~

采集就是使用file_get_contents函数和正则的使用

先贴上一段代码

代码语言:javascript
复制
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
 <html xmlns="http://www.w3.org/1999/xhtml">
 <head>
 <meta http-equiv="Content-Type" content="text/html; charset=gb2312" />
 <title>无标题文档</title>
 </head>
<body>
 <?php
 $file=file_get_contents("http://nitnews.nyist.net/list_59.html");
 $preg1="#<LI><A title=(.*) href=\"(.*)\" target=_blank>(.*)</A><SPAN>&nbsp;&nbsp;(.*)</SPAN> </LI>#iUs";
 preg_match_all($preg1,$file,$arr);
 //print_r($arr);exit();
 foreach($arr[1] as $id=>$val)
 {
 //echo "<a href=\"http://nitnews.nyist.net/".$arr[2][$id]."\">".$val."</a><br />";
 echo "<a href=\"content.php?url="."http://nitnews.nyist.net/".$arr[2][$id]."\">".$val."</a><br />";
 }
?>
 </body>
 </html>
[/php]
 [php]
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
 <html xmlns="http://www.w3.org/1999/xhtml">
 <head>
 <meta http-equiv="Content-Type" content="text/html; charset=gb2312" />
 <title>无标题文档</title>
 </head>
<body>
<?php
 function GetInfo($preg,$con,$num=1)
 {
 preg_match($preg,$con,$arr);
 $arr[$num]=str_replace("src=\"/upFile/","src=\"http://nitnews.nyist.net/upFile/",$arr[$num]);
 return $arr[$num];
 }
 $url=$_GET[‘url’];
 $content=file_get_contents($url);
 $pr="@<H1>(.*)</H1>@iUs";
 echo "文章标题是:".GetInfo($pr,$content);
 $con="#<!–正文内容开始–>(.*)<!–正文内容结束–>#iUs";
 echo "文章内容是:".GetInfo($con,$content);
 ?>
 </body>
 </html>

这个是我读取我们学校新闻网的一个采集程序,其中原理很简单,如果需要存入数据库~~~那个就简单了,只用在显示的地方写存入数据库代码即可~

要点:空格和标点都不能少!如果没有采集到那么请检查你的匹配规则

附:采集很简单,要理解它的原理就可以了~~以后再批量发布信息就不怕了~

文件:caiji

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2012年6月30日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档