上传高通量测序原始文件

在我们发表高通量测序文章之前通常要上传测序数据到GEO数据库,现总结流程如下。

注册账户、填写MetaSheet

  • 在NCBI GEO官网注册一个账号,然后登陆。
  • 点击Submission Guidelines . 从中查找GEOarchive spreadsheet format,并下载Metadata spreadsheet, 通常是Download metadata spreadsheet (template and examples) UPDATED!,官方推荐下载最新版,这儿就提供链接了。
  • 下载完之后填写表格。表格中有2个样例表,可以参考着填写。
    • 表格里面需要的MD5值在Linux下可以使用命令md5sum filename来获取; Windows下可以在网上搜索一个MD5值计算工具,比如http://www.winmd5.com/。
  • 数据上传,原始测序的fastq一般采用gzip压缩后上传。
    • 在Linux系统,使用的是lftp上传; Windows可以使用FileZilla.

Linux下lftp上传

为了方便lftp上传,我写了一个bash脚本, 命名为GEO_upload.sh,只需提供FTP服务器的地址、用户名、密码、上传文件所在目录和上传到FTP服务器的目录即可。

GEO_upload.sh -f ftp-private.ncbi.nlm.nih.gov -u geo -p password -t fasp/detination_dir/ -s localdir/

为了简单方便,localdir里面只包含需要上传的文件,包括原始测序文件, 处理后文件和Metadata spreadsheet。

#!/bin/bash

#set -x
set -e
set -u

usage()
{
cat <<EOF >&2
${txtcyn}
Usage:

$0 options${txtrst}

${bldblu}Function${txtrst}:

This script is used to upload files to an FTP server using lftp.

${txtbld}OPTIONS${txtrst}:
    -f    FTP address ${bldred}[NECESSARY]${txtrst}
    -u    User name ${bldred}[NECESSARY]${txtrst}
    -p    Password ${bldred}[NECESSARY]${txtrst}
    -t    Target dir ${bldred}[NECESSARY]${txtrst}
    -s    Source dir ${bldred}[NECESSARY]${txtrst}    
EOF
}

ftp=
user=
passwd=
target=
source_dir=

while getopts "hf:u:p:t:s:" OPTION
do
    case $OPTION in
        h)
            usage
            exit 1
            ;;
        f)
            ftp=$OPTARG
            ;;
        u)
            user=$OPTARG
            ;;
        p)
            passwd=$OPTARG
            ;;
        t)
            target=$OPTARG
            ;;
        s)
            source_dir=$OPTARG
            ;;
        ?)
            usage
            exit 1
            ;;
    esac
done

if [ -z $ftp ]; then
    usage
    exit 1
fi

cat <<END >lftp.script
open -u ${user},${passwd} ${ftp}
mkdir -p ${target}
cd ${target}
cache size 33554432
set cmd:parallel 10
mput -c ${source_dir}/*
END

lftp -f lftp.script

Filezilla上传

  • 如图所示,填写好登录所需的信息,然后双击进入fasp目录。
  • 在右侧窗口,点击右键,选择创建目录并进入
  • 将左侧窗口要上传的文件拖动到右侧窗口,开始上传。
  • 在菜单栏的传输对已存在文件的默认操作—选择上传-继续文件传输即可实现断点续传。
  • 设置重连次数: 编辑-设置-最大重试次数 99; 登陆重试延时 200; 超时秒数 20

上传完成后,需要给GEO的管理人员写一封邮件,大体内容如下:

Receiver: geo@ncbi.nlm.nih.gov

Subject: ftp upload

Context:

Dear Sir/Madam, 

Thanks for you kindly host such great public data resource.

I have successfully transferred my data to NCBI-GEO ftp sever. 

Here is the information you may be needed for further processing

1. GEO account username: 我的GEO用户名
2. Names of the directory and files deposited: 文件上传的路径, 对应上
面的fasp/detination_dir/
3. Public release date: 2018-12-31 文件释放时间,一般可以设置的比较远

If there is any format or content problem,  please do not hesitate to
contact me.

Best, 

Name

获取GEO号

待GEO的工作人员审核处理后,你可以在GEO的账户下查看已上次的数据的GEO 号和供Reviewer访问的私人链接用于文章审阅。

Linux下智能上传

另外还可以借助airflow,使得上传更加自动化,具体程序见 GEO_upload.py。

原文发布于微信公众号 - 生信宝典(Bio_data)

原文发表时间:2017-05-13

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏服务端技术杂谈

服务化配置的另一种可能

项目背景 项目是给内部团队用的,也算是业务场景较为复杂的系统,这种系统较于互联网C端产品,用户量不大,QPS峰值不会太高,但业务会比较复杂,业务变动比较频繁。 ...

2633
来自专栏java架构学习交流

通过Struts了解MVC框架,兼说如何在面试中利用Struts证明自己

    虽然目前Struts MVC框架不怎么用了,但它确是个能帮助大家很好地入门Web MVC框架,而且,一些历史项目可能还用Struts,反正技多不压身,大...

1927
来自专栏依乐祝

.NET Core实战项目之CMS 第四章 入门篇-Git的快速入门及实战演练

上篇文章我带着大家通过分析了一遍ASP.NET Core的源码了解了它的启动过程,然后又带着大家熟悉了一遍配置文件的加载方式,最后引出了依赖注入以及控制反转的概...

771
来自专栏JAVA高级架构

JVM内存管理--计算机内存和Java内存组件

JVM一向很好的帮我们管理内存,它就是一个贤内助:“向政府(内存空间)能要到地盘,还能有效的对自己的一亩三分地进行管理。”但是有时候呢,我们不懂怜香惜玉的一而再...

38014
来自专栏大前端开发

从编程小白到全栈开发:服务端的一些概念

幕后英雄总是容易被大家所忽略。在这看脸的世界,大家都以为脸就是全部了,你总是相信你所看到的就是事物的全部,可是你往往看到的只是冰山的一角而已。

1122
来自专栏Vamei实验室

被解放的姜戈01 初试天涯

Django是Python下的一款网络服务器框架。Python下有许多款不同的框架。Django是重量级选手中最有代表性的一位。许多成功的网站和APP都基于Dj...

1.8K6
来自专栏Java架构师学习

如何在ELK中解析各类日志文件

作为一个日志中心,它会收集各种各样的日志,可以用于问题排查,数据监控,统计分析等等。那么对于繁多的日志,它们都有各自的存储格式,我们如何来区分它们,对于不同的日...

1.8K4
来自专栏后端技术探索

后端线上服务监控与报警方案

一个功能上线后,其实研发心里根本没底儿,不知道这个功能上线以后是不是真的没问题;有经验一些老同学还知道直接登录线上机器去tail -f php.error.lo...

2582
来自专栏IT笔记

SpringBoot开发案例之整合mail队列篇

? 科帮网邮件队列.png 前言 前段时间搞了个SpringBoot开发案例之整合mail发送服务,也是基于目前各项目平台的邮件发送功能做一个抽离和整合。 问...

6247
来自专栏FreeBuf

滥用Edge浏览器的“恶意站点警告”特性,实现地址栏欺骗

前言 在过去的几个月里,我们看到使用这种以技术支撑的骗术日益增多,用户的浏览器会被辣眼睛的红屏以及类似”你的电脑可能存在风险”的提示消息”锁定”。当然,这种情形...

2349

扫码关注云+社区

领取腾讯云代金券