首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    python-对大量文件夹名中含特定字符的批量修改

    文章目录 问题 解决 对文件夹列表排序 对文件夹进行重命名 问题 需求: 一个文件夹下含有众多的子文件夹,其中一些子文件夹的名字含有特定字符,需要用其他字符替换 分析: 问题在于一旦修改了其中一个子文件夹...,那么子文件夹的子文件夹路径也会发生改变,就会导致更多地可能,导致递归灾难 因此应该遍历所有的文件夹名,然后按照地址长度逆序排列,修改最长的文件夹名字,不干扰上一级的文件夹路径 而且有另一个规律,...,修改才有意义,相同不必多说,无用 如果最后文件夹名字相同,前面的需要修改,那自然等到前面进行到了再进行修改,而不是得陇望蜀 正向非常麻烦,而且需要给修改过的设置特征变量,逆向思维更加简单,但是需要额外的规律作为陪衬才能继续进行...print(i) update_folder(i) 对文件夹进行重命名 def update_folder(folder_my): print("开始处理文件夹",folder_my)...#有一个规律,只有最后一个期望得到不同路径才是正确的,可修改的,否则就是之前修改过的,因此应该是逆序倒着修改 charc_list=[] temp_folder=folder_my

    1.4K30

    GEO数据挖掘

    ,把多指标转化为少数几个综合指标(即主成分)根据这些主成分对样本进行聚类,代表样本的点(中心点除外)在坐标轴上的距离越远,说明样本差异越大1.5.2 PCA的用途用于“预实验”,简单查看组间是否有差别同一分组是否聚成一簇...2.6.4 富集分析的可视化气泡图、柱状图/条形图Y叔Clusterprofiler 默认使用p.adjust可以按照CC、MF、BP对图片进行分面也可以上、下调基因分开富集,合并画图3 代码分析流程3.1...3)让exp列名与pd的行名顺序完全一致 临床信息中的分组信息与表达矩对应p = identical(rownames(pd),colnames(exp));pif(!...:2个脚本之间的衔接:清空环境变量+load Rdata3.3.1 获取分组信息的三种方法:有现成的可以用来分组的列自己生成使用字符串处理的函数获取分组# Group(实验分组)和ids(探针注释)rm....txt", #read.table()的小分支 check.names = F, #不要把列名里的特殊字符转化为.

    18200

    生信技能树 Day8 9 GEO数据挖掘 基因芯片数据

    生信技能树 图表介绍 热图 散点图 箱线图 火山图 理解logFC 主成分分析 PCA样本聚类图 基因芯片差异分析的起点是一个取过log的表达矩阵,得到数据后先看下有没有取log GEO背景知识 数据库介绍...关于表达矩阵里的负值 (2)提取临床信息 pd 分组信息 (3)让exp列名与pd的行名顺序完全一致 p = identical(rownames(pd),colnames...如果三种办法都不适用,可以继续往后写else if if(F){ # 第一种方法,有现成的可以用来分组的列 Group = pd$ #列名 }else if(F){ # 第二种方法,眼睛数,...}else if(T){ # 第三种方法,使用字符串处理的函数获取分组 k = str_detect(pd$title,"Normal");table(k) Group = ifelse(k...singleDoc# 《一个有点难的探针注释》 包含在ENTREZ_GENE_ID中 library(tinyarray) find_anno("GPL30971") get_gpl_txt("GPL30971

    35721

    GEO

    boxplot(exp)二、提取临床信息 pd 列名与pd的行名顺序完全一致分组信息的每一列与表达矩阵的每一行是对应关系p = identical(rownames...比较万能,只要两个分组中可以有一个明确的字符串来检测就可以 Group=ifelse(str_detect(pd$title,"control"),#str_detece是检查是否有这个字符串的意思...(pca_plot,file = "pca_plot.Rdata")八、热图比较的应该是每行固定基因在不同样本中的表达量差异。...用标准差大的基因进行画图,聚类和分组的差别可能会大一些,但若选择表达差异大的基因,聚类和分组会更一致。...,热图的顺序就是分组的顺序)#这样得到的热图是表达矩阵里的所有数据都进行作图按行标准化pheatmap(n, show_colnames =F, show_rownames

    1.5K51

    Day09 生信马拉松-GEO数据挖掘 (中)

    使用字符串处理的函数获取分组--适用范围最广,优先选择★★ k = str_detect(pd$title,"Normal");table(k) Group = ifelse(k,"Normal...::idmap() 报错,对type进行标注—查看帮助文案 ids 的 } ##如果捷径的方法可行则无需运行以下四种方法.../112-pca-principal-component-analysis-essentials #PCA的不同呈现方式可在上面链接中查找,先用示例数据确保能运行,再根据实际需要进行调参 # PCA...show_rownames = F, #不显示列名 annotation_col=annotation_col #根据分组映射颜色 ) # 按行标准化 pheatmap(n,...,对于我们一般习惯基因名为行,样本名为列的数据框,就需要t()转置 cor()函数求相关系数的时候也是按列计算,如果计算行之间的相关系数也需要对矩阵进行t()转置 参考资料:scale函数对矩阵归一化是按行归一化

    32210

    Learn R GEO

    主要学思维和方法,后面重点学习转录组的具体分析代码 图表介绍 1.图表介绍 1.热图 ·输入数据是数值型矩阵/数据框; ·颜色变化表示数值大小 ; ·热图上面横横竖竖是聚类树,为了展示数值的变化方向;...p) exp = exp[,match(rownames(pd),colnames(exp))] #分组信息来自临床信息,分组信息需要与表达矩阵列名一一对应 #临床信息需要与表达矩阵一一对应 (4)提取芯片平台编号...),pd(临床信息),exp(表达矩阵),gpl_number(芯片编号) 图片 Group(实验分组)和ids(探针注释) # 从临床样本中获得实验分组(在表格中慢慢找,代码如何实现看下) rm(list...图片 仿制实例数据 列—两个部分(前四列是用于求PCA的值-探针/基因;最后一列为分组信息) 行—样本名称 需要对原始数据进行转换(如图a) 图片 图片 PCA代码 #仿制的前四列 dat=as.data.frame...,所以需对基因进行去重 ####方法1:随机去重 ####方法2:保留行和/行平均值最大的探针 ####方法3:取多个探针的平均值 #其他去重方式在 “zz.去重方式.R”这个文件里 deg <-

    1.1K01

    Pandas高级数据处理:交互式数据探索

    常见问题:重复行未被检测到:有时数据中的某些列是唯一的,但其他列存在重复。可以通过指定 subset 参数来选择特定列进行去重。去重后索引混乱:删除重复行后,索引可能会变得混乱。...例如,日期列可能是字符串类型,数值列可能是对象类型。为了确保数据的一致性和准确性,应该对这些列进行适当的数据类型转换。...可以通过传递多个列名给 groupby() 方法实现多级分组。此外,还可以使用 agg() 方法对不同列应用不同的聚合函数。...代码案例:# 按 'category' 和 'sub_category' 列分组,并对不同列应用不同的聚合函数result = df.groupby(['category', 'sub_category...,相信大家对 Pandas 在高级数据处理中的常见问题和解决方案有了更深入的了解。

    11210

    基于基因集的样品队列分组之PCA

    那么,对于大样品队列的转录组,很多时候是没有已知的合理的分组, 这个时候会人为的去分组后看队列异质性,比如根据免疫高低进行分组。...那么这个根据免疫高低进行分组就有多种实现方式,我们这里简单的演示一下PCA和热图的层次聚类以及gsea或者gsva这样的打分的分组,看看是否有区别。...$ind$coord 如下所示: 可以看到,每个样品在这个主成分分析图表上面都是有坐标的: > head(dat.pca$ind$coord[,1:2]) Dim.1...) pca_gl = group_list # 其中 hclust_gl 来自于前面的教程哦 table(pca_gl,hclust_gl) 可以看到前面的层次聚类的样品分组跟现在的PCA的PC1的分组...median,同时对dat这个矩阵按行操作,取每一行的中位数,将结果给到median这一列的每一行 ids=ids[order(ids$symbol,ids$median,decreasing = T)

    1.2K40

    生信技能树GEO数据挖掘直播配套笔记

    进行分组 Q:如何进行分组?...rep("control",times=9)) Group = rep(c("RA","control"),times = c(13,9)) }else if(T){ # 第三种方法,使用字符串出理的函数获取分组...A:(1)PCA:加载FactoMineR和factoextra包,使用PCA()和 fviz_pca_ind()函数;数据:需要对exp矩阵进行t转换,将行名设置为样本名,列名设置为基因名,并转换成数据框的形式...:zz.scale.R 按行标准化 关于scale的进一步学习 上面的因为行名是基因,所以对行进行标准化,是为了让基因在不同的样本中进行标准化。...找到特定的基因 差异基因热图 将火山图和热图拼起来 感兴趣基因的相关性 进一步拼图 6.富集分析(可看RNA_Seq和多个芯片分析,那里画的图好看) #富集分析所有图表默认都是用p.adjust

    2K33

    PCA图显示分组无差异,怎么办?

    '2'是按列取)取每一行的方差,从小到大排序,取最大的1000个 library(pheatmap) n=t(scale(t(dat[cg,]))) # 'scale'可以对log-ratio数值进行归一化...”对log-ratio数值进行归一化,现在的dat是行名为探针,列名为样本名,由于scale这个函数应用在不同组数据间存在差异时,需要行名为样本,因此需要用t(dat[cg,])来转换,最后再转换回来...cg,])))#通过“scale”对log-ratio数值进行归一化,现在的dat是行名为探针,列名为样本名,由于scale这个函数应用在不同组数据间存在差异时,需要行名为样本,因此需要用t(dat[cg...ac即分组信息 } 去除批次效应后的PCA图如下: ?...校正前后top200_DEG2热图比较,也发现弱化了组内差别,凸显出组间 这样,就可用新的矩阵和差异基因进行下一步分析了 总结 挖掘数据集前,务必做好PCA图与热图的检查,观察组间是否有差异,以此确定分组是否正确

    8.3K53

    GEO数据库挖掘

    衡量每个通路中的基因在差异基因中是否足够多symbol是常说的基因名;entrezid 富集分析指定用,两者并非一一对应,损失/增加部分基因属于正常。...p) exp = exp[,match(rownames(pd),colnames(exp))]###分组信息来自临床信息,分组信息需要与表达矩阵列名一一对应,###临床信息需要和表达矩阵列一一对应#(...运行一个就行}else if(T){ # 第三种方法,使用字符串处理的函数获取分组 Group=ifelse(str_detect(pd$source_name_ch1,"control"),...关于scale的进一步学习上面的因为行名是基因,所以对行进行标准化,是为了让基因在不同的样本中进行标准化。...已经是一个基因为行名的表达矩阵,直接差异分析,不再需要inner_join 3.2.4 差异分析只需要表达矩阵和分组信息在这个部分才进行id转换,不过也可以提到热图之前,不过在求差异基因后,再进行ID转换

    74121

    聚类算法之PCA与tSNE

    前 · 言 第二单元第六讲:聚类算法之PCA与tSNE 还是之前文章附件的图片,其中b图是选取两个主成分做的PCA图,c图是tSNE图: ?...: 计算距离介绍过dist()函数,它是按行为操作对象,而聚类是要对样本聚类,因此要先将我们平时见到的表达矩阵(行为基因,列为样本)转置;同样PCA也是对行/样本进行操作,也是需要先转置;另外归一化的scale...()函数虽然是对列进行操作,但它的对象是基因,因此也需要转置 关于PCA的学习,之前写过: StatQuest-PCA学习:https://www.jianshu.com/p/b83ac8f7f5a7...StatQuest--在R中拆解PCA:https://www.jianshu.com/p/8a74508c3737 先构建一个非常随机的测试数据 # 设置随机种子,可以重复别人使用的随机数 set.seed...", # 只显示点,不显示文字 col.ind = dat$plate, # 按分组上色 #palette = c("#00AFBB", "#E7B800

    3.6K30

    GEO数据挖掘3

    数据挖掘3 sunqi 2020/7/11 概述 对下载好的基因初步分析,进行PCA分析和热图绘制 PCA 绘制 rm(list = ls()) options(stringsAsFactors = F...#画PCA图时要求是行名时样本名,列名时探针名,因此此时需要转换 dat=t(dat) #将matrix转换为data.frame dat=as.data.frame(dat) #cbind添加分组信息...10.89980 10.93190 10.91850 10.71250 ## ZYG11B 10.48080 10.32370 10.51680 10.74500 #apply按行取每一行的方差...# 对数据进行归一化 # 因为是按照基因归一化,所以先进行转置,然后再转置回去 n=t(scale(t(dat[cg,]))) # 对绝对值大于2的数取绝对值2 # 使得最后的数据范围控制在2以内 n[...# 可以看出两个分组之间存在不少的差异表达 结束语 此部分的分析较为基础,为GEO分析的初步探索 love&peace

    1K31
    领券