前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >批量下载GISAID的新冠基因数据

批量下载GISAID的新冠基因数据

作者头像
DrugScience
发布2021-02-04 15:02:23
3.2K0
发布2021-02-04 15:02:23
举报
文章被收录于专栏:DrugScience
要加油啊

起因是一个师弟想下载GISAID的基因数据,本来以为挺好下载的,毕竟网站上面放个链接,或者给个api就可以,然后,我发现,没有。。。诺大一个网站竟然没有发现一个整库下载的链接。 那对我们这些科研人员也太不友好了吧,燕赵之地多任侠,外加我心情不太好,额,这个是主要原因,盘它。


直接代码一波,后面加点解说结束
代码语言:javascript
复制
import time
from selenium import webdriver

driver = webdriver.Chrome('path/to/chromedriver')  # Optional argument, if not specified will search path.
driver.get('https://platform.gisaid.org/epi3/frontend#2b8eee');
driver.refresh() #刷新页面
#driver.maximize_window()
#填充用户名 密码 验证码
driver.find_element_by_id("elogin").send_keys('usename')
driver.find_element_by_id("epassword").send_keys('passwd')
driver.find_element_by_class_name("form_button_submit").click()
time.sleep(5)
driver.find_element_by_partial_link_text("EpiCoV™").click()
time.sleep(5)
driver.find_elements_by_class_name("sys-actionbar-action")[1].click()

page_num=67

for i in range(67):
    a=time.time()
    sim_num=len(driver.find_elements_by_class_name('yui-dt-rec'))
    for x in range(sim_num):
        print(x)
        driver.find_elements_by_class_name('yui-dt-rec')[x].click()
        #time.sleep括号内是等待时间,有些网络不好,就多加几秒,有些好就减少几秒
        time.sleep(3)
        driver.switch_to.frame(0)
        time.sleep(5)
        #meta下载
        driver.find_elements_by_class_name("sys-form-button-icon")[1].click()
        time.sleep(5)
        #fasta下载
        driver.find_elements_by_class_name("sys-form-button-icon")[2].click()
        time.sleep(10)
        driver.find_elements_by_class_name("sys-form-button-icon")[0].click()
        time.sleep(5)
    driver.find_element_by_class_name('yui-pg-next').click()
    time.sleep(5)
    b=time.time()
    print(b-a)

行,代码基本就放在这里了,我在github上传一份,如果你们有什么更快整库下载的方法告诉我就好。

github地址:https://github.com/luskyqi1995/pubchem

然后,怎么说呢,重点在selenium这个库上,这个也算是爬虫的一种,只不过,这个的目的是为了方便科研。希望GISAID的界面做的好一点吧。

下面是一个视频,如果你们看不到的话,那说明我不会把视频上传上去。

好吧,在审核中,那我过了12点再放一波。

就这样


本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-03-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 FindKey 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 要加油啊
  • 直接代码一波,后面加点解说结束
相关产品与服务
验证码
腾讯云新一代行为验证码(Captcha),基于十道安全栅栏, 为网页、App、小程序开发者打造立体、全面的人机验证。最大程度保护注册登录、活动秒杀、点赞发帖、数据保护等各大场景下业务安全的同时,提供更精细化的用户体验。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档