首页
学习
活动
专区
工具
TVP
发布

TCGA数据库miRNA数据提取

跑程序的间隙写下这篇推送,仍旧是Python的代码,用iPad看效果更佳,Python安装方式百度一下就可以了,今年最后一推。年后想做很多事,一点一点慢慢来吧。

frompandasimportread_csv

importglob

globalfolder_path

folder_path ='miRNA/'# 给定的文件目录名; 注意: 该目录名与运行的代码目录处于同一级

subfolder_names = glob.glob(folder_path +'/*')# 提取folder_path目录所有下一级目录0r文件名

# 两层遍历,对folder_path目录下的下一级目录里面的所有文件进行处理

forsubfolder_nameinsubfolder_names:

file_names = glob.glob(subfolder_name +'/*.txt')# 提取folder_path目录的下一级subfolder_name目录下的所有.txt文件名

if(len(file_names)==1):# 只对没有annotation文件对应的文件进行处理

forfile_nameinfile_names:

colum = file_name.split('\\')[2].split('.')[]# 在路径中提取下面需要更换的列名的值

data = read_csv(file_name,sep="\s+",engine='python')# 读取对应文件

data = data.rename(columns={'reads_per_million_miRNA_mapped': colum})# 将列名更换

dataset = data.loc[:,['miRNA_ID',colum]]# 取出对应的列

dataset.to_csv('D:\\research\\GuozhongGong\\TCGA_LIHC\\miRNAnew\\'+ file_name.split('\\')[2],sep=" ",header=True,index=False)# 将数据写回到指定目录

print("正在处理文件:",file_name.split('\\')[2])

print("Well Done!")

Python代码来自kaluschan,提取出来的文件在R中用for循环读出来就好了。

fun1

read.table(x,header = T)

}

filename

miRNA

这一期果然还是偷懒。其实这些语言分工合作学会是最好不过了,一个文件处理的语言,一个数据可视化的语言。下一期一定还是偷懒没有视频,搬砖去了,想想能做自己想出来的东西还是蛮激动的,就怕竹篮打水一场空,敢应承下所有事大概因为不管在哪里都是小师妹可以找师兄师姐和同伴帮忙吧,这条路越走就越感激几位对我抱以最大耐心的师兄师姐和老师。

不会搞科研的医生不是好厨子,欢迎大家来厨房找我玩,虽然你们肯定找不到我hahahahaha~~~~~~

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180210G0ZAFK00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券