pc-System-Product-Name:/data/fudan_TNBC$ ls -l |grep "^-"|wc -l 727 把/data/fudan_TNBC/下的sra文件转成fastq文件,并存放在/project/raw_fq.../下 cd /project/raw_fq/ for id in `seq 8223 8454`; do nohup sudo fastq-dump --gzip --split-3 /data...;done & raw_fq共5.3T,分批进行处理。 实际是,因为机房停电,很多文件没有转换完整。然后最后直接分两批转完了,共占用5.8T空间。
GFW屏蔽了google, 而stack overflow上用了一个js脚本,此脚本在谷歌服务器上。解决思路,就是让浏览器在本地加载此js脚本。访问速度直接从1.4min变到2s.
/添加,修改 @Test public void test1() throws IOException, SolrServerException { //和solr服务器创建连接...,参数为solr服务器地址 SolrServer solrServer = new HttpSolrServer("http://192.168.25.128:8080/solr");...solrParams.setQuery("测试新增内容"); // df-指定一个搜索Field solrParams.set("df","item_title"); //fq... - (filter query)过虑查询,作用:在q查询符合结果中同时是fq查询符合的 //item_price 在 1-1000000 之间,用 * 表示无限 //item_price...100 //也可写成 solrParams.setFilterQueries("item_price:[1 TO 1000000]"); solrParams.set("fq
当有多个fq文件要进行数据质量检测时,我们可通过建立一个脚本执行文件,执行该脚本,可同时批量对fq文件进行检测。...Started analysis of output_forward_paired.fq.gz Approx 5% complete for output_forward_paired.fq.gz Approx...10% complete for output_forward_paired.fq.gz Approx 15% complete for output_forward_paired.fq.gz Approx...complete for output_forward_paired.fq.gz output_forward_unpaired.fq.gz Started analysis of output_forward_unpaired.fq.gz...for output_reverse_paired.fq.gz output_reverse_unpaired.fq.gz Started analysis of output_reverse_unpaired.fq.gz
选择如下: 可以得到样本的ID编号,保存到ID.txt文件中: ERR3304809 ERR3304807 ERR3304810 ERR3304808 fq的ftp下载链接如下,多看几个链接得到链接的规律
4.1.1 设计初衷 4.1.2 性能对比:bbr vs. cubic CUBIC + fq_codel: BBR + FQ (for EDT): 效果非常明显。...BBR + FQ 机制上是能协同工作的;但是, 内核在 skb 离开 pod netns 时,将 skb 的时间戳清掉了,导致包进入 host netns 之后没有时间戳,FQ 无法工作....使用的时钟类型) 如果不重置,将包从 RX 转发到 TX 会导致包在 FQ 中被丢弃,因为 超过 FQ 的 drop horizon。...FQ horizon 默认是 10s。...残留 FQ 的一 个副作用就是大流量容器的偶发网络延迟,因为 FQ 要保证 flow 级别的公平(而实际上很多场景下并不需要这个公平,总带宽不超就行了)。
论文地址:https://arxiv.org/pdf/2111.13824.pdf 项目代码:https://github.com/megvii-research/FQ-ViT 计算机视觉研究院专栏 Column
论文地址:https://arxiv.org/pdf/2111.13824.pdf 项目代码:https://github.com/megvii-research/FQ-ViT 计算机视觉研究院专栏
dna.toplevel.fa.gz https://ftp.ensembl.org/pub/release-114/gtf/homo_sapiens/Homo_sapiens.GRCh38.114.gtf.gz ##这里就以服务器已有参考基因组...f1.fq.gz;D5-1_L001_r2.fq.gz,D5-1_L002_r2.fq.gz D5-1_oligo_f1.fq.gz;D5-1_oligo_r2.fq.gz D5-2 D5...human/homo_ensembl_112_dnbc4_index --threads 10 批量生成运行脚本 后台提交运行 所有样本的运行脚本都生成后,我们可以在后台批量提交,这时候需要考虑样本数量和服务器的资源使用情况...关于提交后台以及服务器资源查看,详见 玩转服务器—从前台到后台,让你的任务无忧运行 玩转服务器—服务器资源查看 screen -R BGI ##这个分批运行代码要自己视情况修改 ls .....同样的环境,同样的参考基因组、同样的数据,不同线程运行情况对比: 不同线程运行对比 怀疑过软件环境问题、参考基因组问题、原始数据问题、服务器IO问题,就是没怀疑过跟线程设置会有关系,最后死马当活马医才发现这个大坑
如果脚本在下载过程中卡死,但最终只成功下载了3个文件,可能是由于几个原因造成的,例如网络问题、服务器限制、本地磁盘写入问题或者axel命令的稳定性等。...限制并发数:如果服务器对并发连接数有限制,可能需要减少-n参数指定的线程数。 磁盘空间检查:确保有足够的磁盘空间来存储下载的文件。...检查服务器限制:检查下载服务器是否有任何速率限制或IP封锁策略。 使用其他下载工具:如果axel不稳定,可以尝试使用其他下载工具,比如wget或curl。...增加延时:在循环中增加延时,避免同时对服务器发起过多请求。 检查磁盘写入权限:确保脚本运行的用户有足够的权限在目标目录写入文件。..._f1.fq.gz 下载成功:CRR727436_f1.fq.gz 开始下载文件:CRR727437_f1.fq.gz SSL error: (null) 下载成功:CRR727437_f1.fq.gz
加上之前我还没太搞懂iMac的休眠机制,将几十G的数据传到服务器上着实是一件难事。经过一番折腾,终于传上去了,但是传了这么久,不得不让人思考,这个数据还是你想要的数据吗?...对格式不准确的校验和行进行警告 --help 显示此帮助信息并退出 --version 显示版本信息并退出 实战 同一个数据通过SFTP先从服务器...1下到电脑上,再从电脑传到服务器2中,可以看到md5是完全相同的。...# 服务器 1 (base) zwang@ken_bioinfo:~/workplace/_SNP/sample$ md5sum ZM895_FRAS220033950-2r_1.clean.fq.gz...5c8c1450e5d80d41ee360e64aab871a0 ZM895_FRAS220033950-2r_1.clean.fq.gz # 服务器 2 [zwang@login01 data]
/bin/bash cat $1 |while read id do arr=(${id}) fq1=${arr[0]} fq2=${arr[1]} trim_galore -q 25 --phred33...\ --length 36 --stringency 3 --paired \ -o ./ $fq1 $fq2 done 提交至后台 最后再提交至后台 nohup bash qc.sh config...& 最后的最后,要学会通过top查看命令是否成功提交了,如果提交成功,服务器会一个一个地处理数据,这样我们就可以忙别的事情了,等到数据处理得差不多再看处理结果。...\ -o ./ $fq1 $fq2 fi ## end for number1 i=$((i+1)) done 提交至后台 最后再提交至后台 for i in {0....$i.txt 2>&1 & ) done 最后的最后,要学会通过top查看命令是否成功提交了,如果提交成功,服务器会批量处理数据,向这里的例子,每次就同时处理3个数据了,当然前提是服务器的资源足够。
因为一旦样本过多,我就要考虑到服务器占用率的问题。...日常使用的96线程服务器 对于我使用的96线程服务器,即使我可以独自使用(往往不可能),我仍需要进行计算:68个文件如果按照以上方法写脚本,那每一个命令所用的线程数至多为1(2×68>96)。...如果运行过程中服务器出现了故障或崩溃,所有文件将全部完蛋。这该如何是好? 神器submit.sh 因此,我向曾老师请教了这个问题,拿到了一个完美的解决办法。...-2 /home/xiaowang/proj1115/3_trim/TR_5445_001_1*_2.fq.gz -S ....-2 /home/xiaowang/proj1115/3_trim/TR_5445_001_2*_2.fq.gz -S .
多进程可以有效利用服务器多核CPU的计算资源,加速运行效率,在python中,通过内置模块multiprocessing来进行多进程编程。...Approx 5% complete for test.fq Approx 10% complete for test.fq Approx 15% complete for test.fq Approx...') 再次运行,可以看到如下输出 Started analysis of test.fq Approx 5% complete for test.fq Approx 10% complete for test.fq...', 'control2.fq', 'control3.fq', 'case1.fq', 'case2.fq', 'case3.fq'] with Pool(3) as p: samples...= ['control1.fq', 'control2.fq', 'control3.fq', 'case1.fq', 'case2.fq', 'case3.fq'] p.map(fastqc
bazam Java 并行 + 内存映射 比 samtools 快 1.5–2×↑;线程越多优势越大 无 GPU,但服务器 CPU 核数多(>16 核)、内存充足 sambamba C++ 并行 I/...✅ 推荐策略 普通服务器 / 无 GPU 直接 samtools fastq -1 R1.fq.gz -2 R2.fq.gz即可;别加线程,把 CPU 留给下游比对。...超多核服务器(≥32 核)且急于交付 尝试 bazam或 sambamba,--threads 16以上能再快 1–2 倍;注意内存占用(约 2–4 GB)。...巨大,而 _1.fq、_2.fq很小甚至为空。...只想快速、免排序、带压缩→ 用 jts/bam2fastq(新分支) 服务器只有旧版 rpm/deb或 脚本已按旧版写死→ 继续用 v1.1.0,但记住: 必须 samtools sort -n先排序;
昨天提到了最近接了一个单细胞转录组项目,有80个10X样品,每个样品的单细胞测序数据都是100G左右的fq.gz文件,在跑完了cellranger流程后整理结果的同时,重新捡起来了七八年前的Linux知识...虽然我每个10x样品里面的代码都是调用了4个线程,但是样本很多,这个时候把多个样本同时提交,也就是并行,理论上也可以加快这个项目进度,当然了,前提是这个服务器有足够的计算资源,都可以给这个项目调配。...然后我们的服务器就崩溃了,唉,如下所示: ? 因为找不到真正的cellranger把服务器搞奔溃的截图,所以只好是放了一个全面实习生的“血的教学”。...我们的服务器目前并没有组建集群,我拿出来了其中一个96线程372G内存的单机给这个80多个10x样本数据处理项目,其实稍微计算一下就明白,应该是每次提交20个样品的run-cellranger.sh 脚本...IU --gcBias -i $index -1 $fq1 -2 $fq2 -p 4 -o quants/${sample}_quant fi i=$((i+1)) done 我实在是不明白
最近服务器又停电,发现几个星期前提交的项目失败了几个样本: P5_DCIS P2_Norm P4_DCIS P2_DCIS P9_DCIS P10_Norm P9_Norm 所以我就去检查 clean...数据 gunzip -t P10_Norm_Exome_1_val_1.fq.gz gunzip -t P10_Norm_Exome_2_val_2.fq.gz gunzip -t P2_DCIS_Exome..._1_val_1.fq.gz gunzip -t P2_DCIS_Exome_2_val_2.fq.gz gunzip -t P2_Norm_Exome_1_val_1.fq.gz gunzip -t...P2_Norm_Exome_2_val_2.fq.gz gunzip -t P4_DCIS_Exome_1_val_1.fq.gz gunzip -t P4_DCIS_Exome_2_val_2.fq.gz...1_val_1.fq.gz gunzip -t P9_DCIS_Exome_2_val_2.fq.gz gunzip -t P9_Norm_Exome_1_val_1.fq.gz gunzip -t P9
去接头(并行处理) 命令为 dir=/home/kelly/wesproject/4_clean/ cat config |while read id do arr=${id} fq1...=${arr[0]} fq2=${arr[1]} nohup trim_galore -q 25 --phred33 --length 36 -e 0.1 --stringency...3 --paired -o $dir $fq1 $fq2 & done config是需要进行处理的文件列表 trim_galore命令这里用的也比较简单,总结下处理时遇到的问题 1 关于一次可以并行处理多少的问题...但最佳是不要超过240个样本,这好像是我的服务器能处理的最大量。...,并且除report外都很大 ├── [1.8G] SRR8518176_1_trimmed.fq.gz ├── [1.0G] SRR8518176_1_val_1.fq.gz ├── [4.7K]
fq.gz;/data/cDNA2_R2.fq.gz /data/oligo2_R1.fq.gz;/data/oligo2_R2.fq.gz $sample3 /data/cDNA3_R1.fq.gz..._L002_f1.fq.gz;D15_L001_r2.fq.gz,D15_L002_r2.fq.gz D15_oligo_f1.fq.gz;D15_oligo_r2.fq.gz D5-2 D5-2..._L001_f1.fq.gz,D5-2_L002_f1.fq.gz;D5-2_L001_r2.fq.gz,D5-2_L002_r2.fq.gz D5-2_oligo_f1.fq.gz;D5-2_...f1.fq.gz;D5-1_L001_r2.fq.gz,D5-1_L002_r2.fq.gz D5-1_oligo_f1.fq.gz;D5-1_oligo_r2.fq.gz D2-2 D2...详见: DNBC4tools—华大DNBelab系列单细胞分析pipeline 玩转服务器—从前台到后台,让你的任务无忧运行