测序数据可以上传 到CNCB(China National Center for Bioinformation,国家生物信息中心) ,是中国自己的数据库,直接替换NCBI。由于其相比于NCBI,很多功能并未被许多学者所熟知,因此,这里我们带大家了解一下这一数据的使用!
一、官方网址
https://www.https://ngdc.cncb.ac.cn/gsub/https://ngdc.cncb.ac.cn/gsub/
二、注册用户
点击Login,进入注册界面,如果你找不到,那么直接进入这个网址:https://ngdc.cncb.ac.cn/account/register?service=https://ngdc.cncb.ac.cn/gsub/login
如实填写即可(注:全部是英文填写,以及邮箱必须可以收到邮件,下一步需要验证)。提交注册后,24h内在邮箱上确认一下就可以了。
三、登陆
注册完成后,返回主页面登录账号,登录后界面如下:
四、上传数据
点击Genome Sequence Archive,进入数据上传界面
4.1 创建BioProject
首先点击“BioProject提交入口”,创建BioProject文件;
点击新建BioPrject,在这里可以修改相关信息,系统默认是你注册时的信息,修改后点击保存 并进入下一步;
五步内容填写完毕后点击提交,提交以后的状态如下图所示。
更多具体操作,请看教程:你可以查看BioProject教程
4.2 创建BioSample (多个生物学样本)
点击创建新建BioSample(https://ngdc.cncb.ac.cn/gsub/submit/biosample/list),进入BioSample创建界面;
根据提示依次填写信息,但值得注意的是,在批量样本提交(Batch BioSamples)模式(推荐)下需要我们上传样本的汇总新表;
不会填写的话,先下载案例,案例非常清晰,基本不会出现问题;
填写完成后,点击提交即可。
4.3 提交GSA数据(原始RNA-seq)
完成BioProject和BioSample申请后,可开始上传GSA数据库。准备好原始数据,一般以.gz或者.bz2为后缀。首先返回BIG Sub, 再次选择Genome Sequence Archive,进入原始数据上传界面。三步操作法归纳如下:
新建GSA:
根据提示,依次填写内容。在第三步需要上传元数据文件信息。我们现将填写模版和案例下载下来。
Exprement中的信息填写:
第一列 ID 必须是以E字母开头的,例如E1、E2、E3......;BioProject accession 是与BioProject建立联系,填写第一步申请通过的PRJCAxxxxx号;Biosample name 必须与申请Biosample的sample_name一致;其他 根据测序平台或提示信息对应填写。
Run中测序文件和MD5码信息录入:
Illumina平台测序数据格式一般都为fastq文件(支持gzip和bzip2压缩格式)。MD5校验一般测序后公司会给MD5软件,自己将测序原始数据导入,自动生成一下就可以。
数据准备后即可上传,上传后点击校验,查看数据上传是否成功:
如果哪一列所填信息不正确,系统会识别出来,并给出错误提示,我们按照这个提示将表格信息补充全即可。
下一步,选择上传方式,这里我们选择FTP方式上传数据:
① 勾选FTP选项,并记录FTP上传提示(图3)。
②建立连接。打开软件,填写主机信息为“submit.big.ac.cn”,用户名和密码与GSA数据库的登录账号邮箱和密码一致。点击“快速连接”,状态栏显示登录成功。
③进入上传目录。登录成功后,“本地站点”选择需要上传数据对应的本地路径,“远程站点”中,点击GSA文件夹,进入GSA目录(不要把文件上传到根目录下,这样后台处理程序将扫描不到上传的文件)。
查看上传速度,远程站点的目录中出现相应的数据,表明数据传输成功。
上传数据至GSA目录中,推荐每批数据建一个子目录存放数据。
上传成功后,点击进行下一步
上传完成后可对信息再次检查,确认无误后提交,耐心等待审核吧!是不是很简单呢,欢迎大家留言哈!