前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >上传数据到GEO数据库获得GEO号

上传数据到GEO数据库获得GEO号

作者头像
生信技能树
发布2022-01-10 08:39:39
1.8K0
发布2022-01-10 08:39:39
举报
文章被收录于专栏:生信技能树生信技能树

下面是粉丝 随机投稿

20210106 14:24 (因为教程具有时效性,必须指明写作时间哦!)

我自己的笔记主要是参考官方文档:Submitting high-throughput sequence data to GEOHow to upload files to GEO以及我师兄给我写的教程

大致的流程从网站上截取下来的

第一步是申请一个GEO账号用来传输数据
第二步是准备提交的数据

准备的数据有三个 There are three required components for the spreadsheet-based submission method:

  • a metadata spreadsheet metadata 可以从GEO https://www.ncbi.nlm.nih.gov/geo/info/examples/seq_template.xlsx 这个网址下载下来,可以参考他们给的例子进行填写,这个一步比较费劲。
  • processed data files raw counts of sequencing reads for the features of interest, and/or normalized abundance measurements, e.g., output from Cufflinks, Cuffdiff, DESeq, edgeR, etc. GEO上是这么说的,我就是把处理得到的表达谱作为processed data files
  • raw data files 原始的测序数据就是fastq文件,这边需要提供这些文件的md5sum 以便于检查文件的完整性 MD5 Checksums: We recommend that submitters provide MD5 checksums for their raw data files. The checksums are used to verify file integrity.

数据准备完之后就是需要上传这些数据到GEO ftp 上,这个过程比较麻烦,GEO 的服务器真的是不太好用,速度很慢。

第三步就是传输准备好的数据到GEO ftp 上。

有几个方案可以选择:

第一个就是用FileZilla 来传数据

这个方法缺点在于文件会中断,你每次中断之后需要续传真的很麻烦,而且有时候会出现 读取目录失败 连接被服务器关闭等问题 第一次登陆时也出现这个问题真的是百度了很久没有解决 后来到官网一看 原来人家早已经想到这个问题了真的是血的教训要好好看官网教程 但是后来还是会时常连接中断 感觉是geo ftp 不太稳定

大致是会出现这个问题 之后按他们说的方法就可以解决问题了 我用FileZilla传完数据,但是不知道是不是因为续传的原因只有一个数据是完整的 其他数据geo 工作者说是corrupted 然后我看了geo 服务器上的数据和本地服务器上的数据是一样的 并不知道为什么他们说不一样 难过

第二个方法使用命令行的方式,参考Example Linux/Unix sessions 部分

1.Using 'lftp'

代码语言:javascript
复制
lftp ftp://geoftp:rebUzyi1@ftp-private.ncbi.nlm.nih.gov
cd uploads/your_personal_space
mirror -R Folder_with_submission_files

2.Using 'sftp' (expect slower transfer speeds since this method encrypts on-the-fly)

代码语言:javascript
复制
sftp geoftp@sftp-private.ncbi.nlm.nih.gov
password: rebUzyi1
cd uploads/.../
mkdir new_geo_submission
cd new_geo_submission
put file_name

3.Using 'ncftpput' (transfers from the command-line without entering an interactive shell) 这个方法是可以挂在后台跑的就是挂在自己服务器上跑 让它自己慢慢传就是速度真的很慢啊 最后一个还是比较方便一点

代码语言:javascript
复制
ncftpput -F -R -z -u geoftp -p "rebUzyi1" ftp-private.ncbi.nlm.nih.gov ./uploads/.../ ./local_dir_path
local_dir_path: path to the local submission directory you are transferring to your personalized upload space

-F to use passive (PASV) data connection
-z is for resuming upload if a file upload gets interrupted
-R to recursively upload an entire directory/tree

# 具体的例子
ncftpput -F -R -z -u geoftp -p "rebUzyi1" ftp-private.ncbi.nlm.nih.gov ./uploads/.../geo_submission_January6/  /home/.../geo_submission_december16/* 
本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-12-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信技能树 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 第一步是申请一个GEO账号用来传输数据
  • 第二步是准备提交的数据
  • 第三步就是传输准备好的数据到GEO ftp 上。
    • 第一个就是用FileZilla 来传数据
      • 第二个方法使用命令行的方式,参考Example Linux/Unix sessions 部分
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档