我已经开始学习网络爬虫,在一篇文章的帮助下,我构建了下面这个简单的爬虫。
它建议使用多线程来改进和提高网络爬虫的速度。
我想知道是否有人可以帮助我学习更多关于多线程的知识,甚至可以将其应用到下面的爬虫中。
此外,如果您有任何其他建议或改进,请随时分享这个爬虫。
代码如下:
error_reporting( E_ERROR );
define( "CRAWL_LIMIT_PER_DOMAIN", 50 );
$domains = array();
$urls = array();
function crawl( $url )
{
global $domains, $urls;
$parse = parse_url( $url );
$domains[ $parse['host'] ]++;
$urls[] = $url;
$content = file_get_contents( $url );
if ( $content === FALSE )
return;
else {
// do something with content.
}
$content = stristr( $content, "body" );
preg_match_all( '/http:\/\/[^ "\']+/', $content, $matches );
foreach( $matches[0] as $crawled_url ) {
$parse = parse_url( $crawled_url );
if ( count( $domains[ $parse['host'] ] ) < CRAWL_LIMIT_PER_DOMAIN && !in_array( $crawled_url, $urls ) ) {
sleep( 1 );
crawl( $crawled_url );
}
}
}
提前谢谢你--我将非常感谢所有人和任何帮助。
发布于 2013-03-10 10:15:36
不管幸运与否,PHP都不支持多线程。你可以做的是实现异步模式,但这意味着你必须忘记像file_get_contents
这样的很好的,一行的函数,并切换到最底层的页面读取(使用fsockopen
,然后在非阻塞模式下手动完成所有的写入和读取,让其他人在特定操作需要等待的时候做他们的工作),参见示例代码here。
https://stackoverflow.com/questions/15317606
复制相似问题