首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

脚本分享——对fasta文件中的序列进行排序和重命名

小伙伴们大家下午好,我是小编豆豆,时光飞逝,不知不觉来南京工作已经一年了,从2018年参加工作至今,今年是我工作最快乐的一年,遇到一群志同道合的小伙伴,使我感觉太美好了。...今天是2022年的最后一天,小编在这里给大家分享一个好用的脚本,也希望各位小伙伴明年工作顺利,多发pepper。‍...pip install biopython pip install pandas 查看脚本参数 python Fasta_sort_renames.py -h 实战演练 # 只对fasta文件中的序列进行命令...python Fasta_sort_renames.py -a NC_001357.1.fna -p scoffold -s F -a rename_fasta.fna # 对fasta文件中序列根据序列长短进行排序...,并对排序后的文件进行重命名 python Fasta_sort_renames.py -a NC_001357.1.fna -p scoffold -s T -a rename_fasta.fna

5.8K30

mysql中将where条件中过滤掉的group by分组后查询无数据的行进行补0

背景 mysql经常会用到group By来进行分组查询,但也经常会遇到一个问题,就是当有where条件时,被where条件过滤的数据不显示了。...例如我有一组数据: 我想查询创建时间大于某一范围的spu的分组下的sku的数量 正常的sql查出的话,假如不存在相关记录 SELECT product_id , count( *) count FROM...create_time >= #{param} AND product_id in (1,2,3,4,5) GROUP BY product_id 结果查不到任何记录 即使没有数据,也想让count显示出0而不是空的效果...因此,我们想实现,即使没有数据,也想让count显示出0而不是空的效果; 解决方案:构建一个包含所有productId的结果集;然后和我们本来的sql进行左外连接,在最外层利用ifnull函数 sql...product_id in (1,2,3,4,5) GROUP BY product_id ) AS b ON a.product_id = b.product_id 本篇文章如有帮助到您,请给「翎野君」点个赞,感谢您的支持

22910
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    R语言数据处理:飞机航行距离与到达延误时间有什么关系??

    数据分析有一半以上的时间会花在对原始数据的整理及变换上,包括选取特定的分析变量、汇总并筛选满足条件的数据、排序、加工处理原始变量并生成新的变量、以及分组汇总数据等等。...而本文介绍的dplyr包简直就是Hadley Wickham (ggplot2包的作者,被称作“一个改变R的人”)大神为我们提供的“数据再加工”神器啊。...包,该软件包中的飞机航班数据将用于本文中dplyr包相关函数的演示。...2.3 删除缺失数据 我们采用dplyr包中的filter()函数,进行缺失数据的删除。脚本输入代码: myFlights <- filter(myFlights,!...3.2 应用函数及组合结果 我们使用dplyr包中的summarize()函数,进行数据统计指标的获取及组合。计算出不同目的地的平行航行距离以及平均延误时间。

    3.1K40

    NRI的基本概念和基于R语言计算NRI——比较两个模型的预测能力

    而在诊断试验中,通常根据检验指标的判断结果和金标准诊断结果,整理成一个2×2的表格,如下表所示,并以此来计算诊断试验中两个比较重要的指标,即灵敏度和特异度。...净重新分类指数NRI 相对于ROC曲线及其AUC,NRI更关注在某个设定的切点处,两个模型把研究对象进行正确分类的数量上的变化,常用来比较两个模型预测能力的准确性。...那么,便会出现原本在旧模型中被错分,但在新模型中得到了纠正,分入了正确的分组,同样也有一部分研究对象,原本在旧模型中分类正确,但在新模型中却被错分的情况,这个时候,我们利用这种重新分类的现象,来计算净重新分类指数...NRI计算 如下两个表所示,表一为一般情况,表二为特定情况,(一共595个样本,其中180个位患者组,415个位非患者组),我们将研究对象按照真实的患病情况分为两组,即患者组和非患者组,然后分别在这两个分组下...Ok,今天的推文就到这,我们主要分享了NRI的基本概念和基于R语言计算NRI,希望能对大家有所帮助,最后,欢迎大家留言,有不正确的地方,也请大家留言指正。

    13.7K20

    csvtk:高效命令行版极简dplyr

    csvtk 本身支持多线程以及若干子命令,用起来会发现通常其速度和效率比在 python 和 R 中输入很多行代码都要高。...文本信息类 headers 打印首行(列名) dim 查看文件的行列数 ,和 R 中的 dim 类似 + summary 对所选列进行简单的描述性统计,如果是统计内容是数字,则类似于 R 中的 summary...collapse 按照所选字段的 key 合并其它字段 + 文本编辑类 如果你熟悉 R 中的 dplyr,这类型的子命令中有不少都会让你感觉熟悉。...+ mutate 对某一列进行正则表达处理增加新的一列 mutate2 对多列进行 awk 类似的字符和数学表达式处理,增加新列 + gather 类似于 dplyr 中的 gather() 函数,数据...csvtk 中的 filter2 支持使用复杂条件筛选数据,类似于 awk。

    3.7K60

    懒癌必备-dplyr和data.table让你的数据分析事半功倍

    接下来,我就为大家分享几个我在工作当中最常用来做数据分析用到的包,dplyr和data.table,我保证你get到这两个包后,就再也不想用R里面自带的基础包函数进行数据分析了!!...) 去重 distinct(df,V1,V2) 根据V1和V2两个条件来进行去重 在基础包里面也有一个去重函数unique() ※注意distinct()可以针对某些列进行去重,而unique()只能对整个数据框进行去重...①第一个参数都是数据集df ②查询条件都是关于如何操作数据集的,在列上面进行操作 ③返回的都是新的数据集,不会改变原始数据集 在介绍下一个包之前,我们先来引入一个dplyr包的综合运用: grouped...以上这段代码我们使用group_by和summarise的结合实现了对数据集分组分析,并进行统计量计算的一个功能。...使用i DT[3:5] #选取3到5行的数据 class(DT) [1] "data.table" "data.frame" DT[v1=="A"] #基于条件的选择 DT[v1 %in% c("A",

    2.5K70

    R&Python Data Science 系列:数据处理(3)

    注意:Python排列顺序使用参数ascending控制;R语言中使用desc函数; 1.2 rename函数 重命名函数,Python和R语言中使用方法相同,new_name = old_name...3.2 偏移函数 两个偏移函数lead()和lag(): lead(column,n):按照某种分组排序规则之后,向下取某列数据的第n行记录 lag(column,n):按照某种分组排序规则之后...4 聚合函数 聚合函数是对某一列数据,使用分组函数和排序函数进行处理之后(可以省略),使用聚合函数,返回一个值。...注意:Python中n()函数需要传入参数,R中不需要传入参数;Python中输出列按照字段名称升序排列,R中输出的列按照书写顺序输出。...5 总结 数据处理1-3,主要介绍了Python中dfply和R中dplyr包中的数据处理函数,几乎满足数据预处理中筛选变量、衍生变量以及计算一些统计量的需求。

    1.3K20

    Day6-梦琪

    Day6-2023.12.02学习R包-dplyr是R中用来进行数据操作的一个包,提供了一些功能强大,易于使用的函数,这些函数对于数据探索分析和数据操作而言非常实用,dplyr主要用于数据清理,包括重命名...")或者 BiocManager::install(“包”)安装包library(dplyr) 加载包 library函数是加载和使用R语言中的函数库和扩展包二、dplyr的五个基础函数mutate(...group_by(test, Species) 按照Species分组summarise(group_by(test, Species),mean(Sepal.Length), sd(Sepal.Length...))计算每组Sepal.Length的平均值和标准差三、dpylr的两个实用技能管道操作符:管道符 %>% ,符号左侧表示数据的输入,右侧表示下游数据处理环节count统计某列的unique值四、dplyr...x')6.简单合并bind_rows()函数需要两个表格列数相同,而bind_cols()函数则需要两个数据框有相同的行数感觉今天的学习内容是要背下来的那种,生日快乐小焦加油努力向前冲!

    16700

    UseGalaxy.cn生信云|零代码使用Tiverse优雅地处理数据集

    Dplyr Distinct keep unique rows distinct 函数用于去除数据框中的重复观测,仅保留唯一的观测。它可以基于指定的列对数据框进行去重操作,确保每个观测都是唯一的。...Dplyr Join two tables join 函数用于根据指定的键将两个数据框连接起来,可以根据共同的变量将数据框进行合并,支持多种连接操作,如内连接、左连接、右连接和外连接等。...Dplyr Rename columns rename 函数用于重命名数据框中的变量名,能够快速修改变量的名称,使得数据的列名更符合用户的需求和习惯。...Dplyr Select keep or drop columns select 函数用于选择数据框中的特定列,可以保留感兴趣的变量,并且能够根据列名、位置或条件表达式进行灵活的变量选择操作。...Dplyr Filter keep rows that match a condition filter 函数用于根据条件筛选数据行,能够仅保留满足条件的观测,支持根据指定的条件表达式对数据框进行灵活的行筛选操作

    17220

    R︱高效数据操作——data.table包(实战心得、dplyr对比、key灵活用法、数据合并)

    (参考来源:R高效数据处理包dplyr和data.table,你选哪个?) ?...2、按条件行筛选 从前用subset的方式进行筛选比较多, new=14,select=a:f) (1)单变量 现在data.table与dplyr from_dplyr =...用filter,content满足某种条件的进行筛选,而data.table的筛选方式很传统,比较简单。...DT数据集按照x分组,然后计算v变量的和、最小值、最大值。 (2)dplyr函数利用%>%(链式操作)来改进: 链式操作是啥意思呢?...%>%的功能是用于实现将一个函数的输出传递给下一个函数的第一个参数。注意这里的,传递给下一个函数的第一个参数,然后就不用写第一个参数了。在dplyr分组求和的过程中,还是挺有用的。

    9.3K43

    使用R或者Python编程语言完成Excel的基础操作

    条件格式:学习如何使用条件格式来突出显示满足特定条件的单元格。 图表:学习如何根据数据创建图表,如柱状图、折线图、饼图等。 数据排序和筛选:掌握如何对数据进行排序和筛选,以查找和组织信息。...打印预览:查看打印效果并进行调整。 模板 使用模板:快速创建具有预定义格式和功能的表格。 高级筛选 自定义筛选条件:设置复杂的筛选条件,如“大于”、“小于”、“包含”等。...掌握这些技能可以显著提升使用Excel的能力。 在R编程语言中 处理表格数据通常依赖于dplyr和tidyr这样的包,它们提供了强大的数据操作功能。...通过dplyr和tidyr包,我们可以轻松地对数据进行复杂的操作。 在R语言中,即使不使用dplyr和tidyr这样的现代包,也可以使用基础包中的函数来完成数据操作。...,并且不如dplyr和tidyr这样的专用包那样直观和方便。

    23810

    ggstatsplot:R统计绘图的颜值天花板

    ggstatsplot采用典型的探索性数据分析工作流,将数据可视化和统计建模作为两个不同的阶段;可视化为建模提供依据,模型反过来又可以提出不同的可视化方法。...ggstatsplot的思路就是将这两个阶段统一在带有统计细节的图形中,提高数据探索的速度和效率。 ggstatsplot提供了多种类别的统计绘图。...用户可以在图形上添加统计建模(假设检验和回归分析)的结果,可以进行复杂的图形拼接,并且可以在多种背景和调色板中进行选择,使图形更美观。...ggstatsplot和它的后台组件还可以和其他基于ggplot2的R包结合起来使用。...仅仅遵循默认值本身就可以生成可以发布的相关矩阵。 如果所选变量中存在NA,图例将显示用于相关性测试的最小、中位数和最大对数。

    2.4K20

    生信代码:数据处理( tidyverse包)

    tidyverse 包是 Hadley Wickham 及团队的集大成之作,是专为数据科学而开发的一系列包的合集, 基于整洁数据,提供了一致的底层设计、语法、数据结构,包括数据导入,数据规整,数据处理,...)——汇总数据 而这些函数都可以与group_by结合,分组对原数据框进行处理。...df %>% select(start_with("n")) 3 filter() filter()是对数据行方向的选择和筛选,选出符合我们条件的某些行: df %>% filter( type==...,如果后续要使用到,需要保存下来 5 arrange() R base包中涉及到排序的包括 sort(),rank(),order(),而在dplyr包中与排序相关的是arrange()包,默认是从高到低进行排序...,再对score进行排序 6 group_by() group_by可以对原数据框进行分组计算,例如对于我们本文中的数据框,我们如果对个人或者科目感兴趣的话,可以使用group_by(name或者type

    2.1K10

    快速掌握R语言中类SQL数据库操作技巧

    在数据分析中,往往会遇到各种复杂的数据处理操作:分组、排序、过滤、转置、填充、移动、合并、分裂、去重、找重、填充等操作。这时候R语言就是一个很好的选择:R可以高效地、优雅地解决数据处理操作。...15)赋值给对象x > x <- c(11:15) > y <- c(1:5) #将向量x和y合并存储到数据框中,并重命名为xf和yf > data.frame(xf = x, yf = y)...参考→《R语言 数据(集)合并与连接/匹配 | 专题2》 4.过滤/筛选 过滤,是对数据集按照某种规则进行筛选,去掉不符合条件的数据,保留符合条件的数据。...可参考↓↓ R语言 | 第一部分:数据预处理 7.数据筛选和8.抽样 R语言数据管理与dplyr、tidyr | 第4讲 5 dplyr中5.1筛选filter和5.3选择select R...此处仅讲述aggregate数据分组计算内容,更多分组计算内容 参考→《R语言 分组计算,不止group_by》 dplyr包中的group_by联合summarize group_by和summarise

    5.7K20

    R数据科学-1(dplyr)

    R数据科学(dplyr) 如今数据分析如火如荼,R与Python大行其道。你还在用Excel整理数据么,你还在用spss整理数据么。...忘记保存,白费时间 效率低,时间长 现在,我们将学习对处理数据有用的两个软件包: dplyr是用于简化表格数据操作的软件包。 tidyr使您可以在不同的数据格式之间快速转换。...两个软件包中的命令都可以与管道函数(%>%)很好地配合使用,这可以使代码更具可读性。详细内容可参考Cheatsheet手册。...image.png image.png 1.数据框格式(DataFrame) 一般,我们的excel包括行(col)与列(row),在R语言中,经常对excel操作的对象称之为Dataframe,那么在进行数据查看时候...# … with 22 more rows 3.数据-变量条件筛选 dplyr::filter()函数对上述新产生的变量的数据df,进行筛选。

    1.6K20

    Day6 呦呦鹿鸣—学习R包

    )以dplyr包为例 官方包的文档dplyr示例数据test R自带的iris数据第1,2,51,52,101,103行?...按列名筛选select(test, Petal.Length, Petal.Width)iris %>% select(Species, Sepal.Length)3.filter()筛选行/返回具有匹配条件的行可以按照某分类变量的值进行数据筛选...的平均值和标准差dplyr两个实用技能1:管道操作 %>% (cmd/ctr + shift + M)向右传递test %>% group_by(Species) %>% summarise(mean...(Sepal.Length), sd(Sepal.Length))R中的管道操作符2:count统计某列的unique值count(test,Species)分类变量每个变量值的频数dplyr处理关系数据将...2个表进行连接1.內连inner_join,取交集inner_join(test1, test2, by = "x")满足两个条件:有相同变量名,相同变量名的列里有相同元素;2.左连left_join列表书写顺序决定了最终合成列表中列的顺序

    17110

    R语言︱数据集分组、筛选(plit – apply – combine模式、dplyr、data.table)

    R语言︱数据集分组 大型数据集通常是高度结构化的,结构使得我们可以按不同的方式分组,有时候我们需要关注单个组的数据片断,有时需要聚合不同组内的信息,并相互比较。...介绍一种按照日期范围——例如按照周、月、季度或者年——对其进行分组的超简便处理方式:R语言的cut()函数。...2.aggregate函数不能对分组后的数据进行多种汇总计算,因此要用两句代码分别实现sum和max算法,最后再用cbind拼合。显然,上述代码在性能和易用性上存在不足。...")],function(x) sum(x)) 4、subset()函数 利用subset()函数进行访问和选取数据框的数据更为灵活,subset函数将满足条件的向量、矩阵和数据框按子集的方式返回。...(参考来源:R高效数据处理包dplyr和data.table,你选哪个?) ?

    20.9K32

    【R语言】dplyr对数据分组取各组前几行

    所以在画图的时候,也需要区分这三类。下面这张表就是GO富集分析得到的结果,我们可以根据ONTOLOGY这一列来分组,就可以得到BP,CC和MF三个组。...然后取每一个组的前10个条目或者前5个条目来绘制柱形图或者气泡图。 那么问题来了,如何分组取前几行。今天小编就跟大家分享一个专业处理数据框的函数dplyr。...然后基于这个R包,我们用6种不同的方法来实现。...% head(n = 5) 虽然,我们使用了group_by进行了分组,但是head并没有应用到三个分组上面,而是直接应用到了整个数据框上,事与愿违。...filter(row_number() <= 5) r6 通过filter来控制行数<=5 最后我们来看看这六种方法得到的结果究竟是不是一样的,dplyr这个包里面有函数叫all_equal专门用来判断两个数据框是不是一样的

    1.9K21

    R语言第二章数据处理④数据框排序和重命名目录

    目录 R语言第二章数据处理①选择列 R语言第二章数据处理②选择行 R语言第二章数据处理③删除重复数据 R语言第二章数据处理④数据框排序和重命名 =============================...=================== 这一篇主要介绍如何通过一个或多个列(即变量)的值对数据中的行进行重新排序。...您将学习如何轻松地: 使用R函数arrange()[dplyr包]按升序(从低到高)进行排序 使用arrange()结合函数desc()[dplyr package]以降序(从高到低)对行进行排序 library...dplyr函数arrange()可用于通过一个或多个变量对行重新排序(或排序)。...:: rename()重命名列 将列Sepal.Length重命名为sepal_length,将Sepal.Width重命名为sepal_width: my_data %>% rename

    1.5K50
    领券