生信菜鸟团博客2周年精选文章集(5)seq-answer和bio-star论坛爬虫

生信常用论坛seq-answer里面所有帖子爬取

生信常用论坛bio-star里面所有帖子爬取

这个是爬虫专题第一集,主要讲如何分析bio-star这个网站并爬去所有的帖子列表,及标签列表等等,前提是读者必须掌握perl,然后学习perl的LWP模块,可以考虑打印那本书读读,挺有用的!

http://seqanswers.com/ 这个是首页

http://seqanswers.com/forums/forumdisplay.php?f=18 这个共570个页面需要爬取

http://seqanswers.com/forums/forumdisplay.php?f=18&order=desc&page=1

http://seqanswers.com/forums/forumdisplay.php?f=18&order=desc&page=570

<tbody id=”threadbits_forum_18″>这个里面包围这很多<tr>对,

前五个<tr>对可以跳过,里面的内容不需要

这样就可以捕获到所有的目录啦!

首先我们看看如何爬去该论坛主页的板块构成,然后才进去各个板块里面继续爬去帖子。

接下来看进入各个板块里面爬帖子的代码,可以直接复制张贴使用的!

[perl]

use LWP::Simple;

use HTML::TreeBuilder;

use Encode;

use LWP::UserAgent;

use HTTP::Cookies;

my $tmp_ua = LWP::UserAgent->new; #UserAgent用来发送网页访问请求

$tmp_ua->timeout(15); ##连接超时时间设为15秒

$tmp_ua->protocols_allowed( [ ‘http’, ‘https’ ] ); ##只允许http和https协议

$tmp_ua->agent(

"Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 2.0.50727;.NET CLR 3.0.04506.30; .NET CLR 3.0.4506.2152; .NET CLR 3.5.30729)"

) ;

$base=’https://www.biostars.org';

open FH_IN,"index.txt";

while (<FH_IN>) {

chomp;

@F=split;

open FH_OUT,">index-$F[1].txt";

$total_pages=int($F[2]/40)+1;

foreach (1..$total_pages){

my $url = URI->new("$F[0]/?");

my($sort,$page) = ("update",$_);#

$url->query_form(

‘page’ => $page,

‘sort’ => $sort,

);

&get_each_index($url,’FH_OUT’);

print $url."\n";

}

}

sub get_each_index{

my ($url,$handle)=@_;

$response = $tmp_ua->get($url);

$html=$response->content;

my $tree = HTML::TreeBuilder->new; # empty tree

$tree->parse($html) or print "error : parse html ";

my @list_title=$tree->find_by_attribute(‘class’,"post-title");

foreach (@list_title) {

my $title = $_->as_text();

my $ref = $_->find_by_tag_name(‘a’)->attr(‘href’);

print $handle "$base$href,$title\n";

}

}

[/perl]

这样就可以爬去帖子列表了

https://www.biostars.org/t/rna-seq rna 1573

https://www.biostars.org/t/R R 1309

https://www.biostars.org/t/snp snp 1268

等等“““““““““““““““““““““““““““““`

帖子文件如下,在我的群里面共享了所有的代码及帖子内容,欢迎加群201161227,生信菜鸟团!

生信常用论坛seq-answer里面所有帖子爬取

这个是爬虫专题第二集,主要讲如何分析seq-answer这个网站并爬去所有的帖子列表,及标签列表等等,前提是读者必须掌握perl,然后学习perl的LWP模块,可以考虑打印那本书读读,挺有用的!

其实爬虫是个人兴趣啦,跟这个网站没多少关系,本来一个个下载,傻瓜式的重复也能达到目的。我只是觉得这样很有技术范,哈哈,如何大家不想做傻瓜式的操作可以自己学习学习,如果不懂也可以问问我!

http://seqanswers.com/这个是主页

http://seqanswers.com/forums/forumdisplay.php?f=18 这个共570个页面需要爬取

其中f=18 代表我们要爬去的bioinformatics板块里面的内容

http://seqanswers.com/forums/forumdisplay.php?f=18&order=desc&page=1

http://seqanswers.com/forums/forumdisplay.php?f=18&order=desc&page=570

<tbody id=”threadbits_forum_18″>这个里面包围这很多<tr>对,

前五个<tr>对可以跳过,里面的内容不需要

这样就可以捕获到所有的目录啦!

我这个直接把所有代码贴出了啦

[perl]

use LWP::Simple;

use HTML::TreeBuilder;

use Encode;

use LWP::UserAgent;

use HTTP::Cookies;

my $tmp_ua = LWP::UserAgent->new; #UserAgent用来发送网页访问请求

$tmp_ua->timeout(15); ##连接超时时间设为15秒

$tmp_ua->protocols_allowed( [ ‘http’, ‘https’ ] ); ##只允许http和https协议

$tmp_ua->agent(

"Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 2.0.50727;.NET CLR 3.0.04506.30; .NET CLR 3.0.4506.2152; .NET CLR 3.5.30729)"

) ;

open FH_OUT ,">bioinformatics.csv";

$total_pages=571;

foreach (1..$total_pages){

my $url = URI->new("http://seqanswers.com/forums/forumdisplay.php?");

my($f,$page) = (18,$_);#

$url->query_form(

‘f’ => $f,

‘order’=> ‘desc’,

‘page’ => $page,

);

&get_each_index($url,’FH_OUT’);

print $url."\n";

}

sub get_each_index{

my ($url,$handle)=@_;

$response = $tmp_ua->get($url);

$html=$response->content;

my $tree = HTML::TreeBuilder->new; # empty tree

$tree->parse($html) or print "error : parse html ";

$tmp=$tree->find_by_attribute("id","threadbits_forum_18");

next unless $tmp;

my @list_tr=$tmp->find_by_tag_name(‘tr’);

shift @list_tr;shift @list_tr;shift @list_tr;shift @list_tr;shift @list_tr;

foreach (@list_tr) {

my @list_td=$_->find_by_tag_name(‘td’);

#print $_->as_text;

next unless @list_td>4;

my $brief=$list_td[2]->attr(‘title’);

my $title=$list_td[2]->find_by_tag_name(‘a’)->as_text();

my $href=$list_td[2]->find_by_tag_name(‘a’)->attr(‘href’);

my $author=$list_td[3]->as_text();

#print $handle "$base$href\t$title\t$author\t$brief\n";

print $handle "$base$href\t$title\t$author\n";

}

}

[/perl]

帖子列表如下:

共17109个帖子。

原文发布于微信公众号 - 生信技能树(biotrainee)

原文发表时间:2017-01-05

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏葡萄城控件技术团队

AngularJS应用页面切换优化方案

葡萄城的一款尚在研发中的产品,对外名称暂定为X项目。其中使用了已经上市的Wijmo中SpreadJS产品,另外,在研发过程中整理了一些研发总结分享给大家。如本篇...

20710
来自专栏跟着阿笨一起玩NET

.NET轻量级DBHelpers数据访问组件

503
来自专栏腾讯Bugly的专栏

【特斯拉组件】iOS高性能PageController

1.组件介绍 Page是企鹅FM研发的分页组件,包括支持分页非交互切换(通过方法调用导航切换)和交互切换(屏幕的手势滑动),多个分页Controller和Vie...

3964
来自专栏BeJavaGod

Spring v4.1+ JSONP使用,以及jQuery跨域调用jsonp

(补充:我擦,微信不支持代码复制,我的发!还是截图吧~) 如今的巨石应用已经越来越不行了,很多互联网在后期都会在用分布式的架构 那么在页面上不同的服务调用不同域...

30310
来自专栏水击三千

浅谈JavaScript的事件(事件流)

   事件流描述的是从页面中接收事件的顺序。IE的事件流失事件冒泡,而Netspace的事件流失事件捕获。 事件冒泡   IE的事件流叫事件冒泡,即事件开始时,...

2858
来自专栏领域驱动设计DDD实战进阶

DDD实战进阶第一波(七):开发一般业务的大健康行业直销系统(实现产品上下文接口与测试)

934
来自专栏浅探ARKit

基于ARkit和SceneKit检测相机位置和设置2个物体碰撞的事件

######和以往iOS的代理事件不同 它还要多设置categoryBitMask、contactTestBitMask属性的id 用于标志2个物体是否会发生...

42111
来自专栏小怪聊职场

爬虫课堂(十六)|Scrapy框架结构及工作原理

2535
来自专栏梦里茶室

【Chromium中文文档】插件架构

背景 在阅读这个文档前,你应当熟悉Chromium的多进程架构。 概述 插件是浏览器不稳定的主要来源。插件也会在渲染器没有实际运行时,让进程沙箱化。因为进程是第...

1806
来自专栏编程

从源码的角度再看 React JS 中的 setState

在上一篇手记「深入理解 React JS 中的 setState」中,我们简单地理解了 React 中 setState “诡异”表现的原因。 在这一篇文章中,...

18710

扫码关注云+社区