问使用多线程改进网络爬虫/爬虫
EN

Stack Overflow用户

提问于 2013-03-10 08:38:16

回答 1查看 1.1K关注 0票数 0

我已经开始学习网络爬虫，在一篇文章的帮助下，我构建了下面这个简单的爬虫。

它建议使用多线程来改进和提高网络爬虫的速度。

我想知道是否有人可以帮助我学习更多关于多线程的知识，甚至可以将其应用到下面的爬虫中。

此外，如果您有任何其他建议或改进，请随时分享这个爬虫。

代码如下：

error_reporting( E_ERROR );

define( "CRAWL_LIMIT_PER_DOMAIN", 50 );

$domains = array();

$urls = array();

function crawl( $url )
{
    global $domains, $urls;
    $parse = parse_url( $url );
    $domains[ $parse['host'] ]++;
    $urls[] = $url;

    $content = file_get_contents( $url );
    if ( $content === FALSE )
        return;
    else {
        // do something with content.
    }

    $content = stristr( $content, "body" );
    preg_match_all( '/http:\/\/[^ "\']+/', $content, $matches );

    foreach( $matches[0] as $crawled_url ) {
        $parse = parse_url( $crawled_url );
        if ( count( $domains[ $parse['host'] ] ) < CRAWL_LIMIT_PER_DOMAIN && !in_array( $crawled_url, $urls ) ) {
            sleep( 1 );
            crawl( $crawled_url );
        }
    }
}

提前谢谢你--我将非常感谢所有人和任何帮助。

php

web-crawler

回答 1

Stack Overflow用户

回答已采纳

发布于 2013-03-10 10:15:36

不管幸运与否，PHP都不支持多线程。你可以做的是实现异步模式，但这意味着你必须忘记像file_get_contents这样的很好的，一行的函数，并切换到最底层的页面读取(使用fsockopen，然后在非阻塞模式下手动完成所有的写入和读取，让其他人在特定操作需要等待的时候做他们的工作)，参见示例代码here。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/15317606

复制

相似问题

问使用多线程改进网络爬虫/爬虫
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用多线程改进网络爬虫/爬虫EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用多线程改进网络爬虫/爬虫
EN