逗比的博客已经被q了很久了,但是发现博客的免费账号一直能用,不过每隔三天会更换密码,考虑到很多人需要,我也会手动搬运下,但也是经常忘记。所以就打算用php去抓取了。不会py。
simple_html_dom.php是一个非常简单好用的php类库,可以抓取页面,并且解析页面html内容,喜欢的可以去了解下。本打算直接用自带的方法 file_get_contents,但是不支持https,后来尝试了curl,但因为文档结构问题,用正则不太灵活。
include('simple_html_dom.php');//引入类库文件
date_default_timezone_set('prc');
$html = file_get_html('https://doub.io/sszhfx/');//获取html文件
echo '
逗比账号在线实时获取';
echo '更新时间:'.date('y-m-d h:i:s',time()).'';
foreach($html->find('table') as $e) {
echo '
';
}
foreach($html->find('.linenums') as $e) {
echo '
'.$e->innertext. '
';
}
$html->clear();
预览地址: http://d.18bi9.com/doub/index.php
领取专属 10元无门槛券
私享最新 技术干货