我有一个基因组测序文件,格式如下:
染色体名称(字符串)=位置(int)
所有染色体的数据都存储在一个文件中,我希望
我怎么能和潘达斯一起这么做?
import pandas as pd
df = pd.read_csv('sample.txt', delimiter='\t', header=None)
数据如下所示
0 chr1 3000573 0
1 chr1 3000574 3
2 chr2 3000725 1
3 chr2 3000726 4
4 chr3 3000900 1
5 chr3 3000901 0
我还可以通过染色体标签chr1,chr2,.
发布于 2015-08-28 23:26:17
将每个染色体的数据写入一个单独的文件可以很容易地完成,一旦数据被拼接成碎片。不太清楚你所说的“把染色体名转换成整数”是什么意思,但是如果你指的是给定的"chrx“,你想要x作为一个int,这很容易。假设通过"chrn“拥有染色体"chr1”,其中n是整数:
import pandas
df = pandas.read_csv("sample.txt", delimiter="\t", header=None)
df.columns = ["index", "chrid", "location", "readings"]
chrs = []
for chrid in range(1,n):
chr = df.loc[df["chrid"] == "chr"+str(chrid)]
chr["chrid"] = map(lambda x: return int(x[3]), chr["chrid"])
chrs.append(chr)
# chrs is now a list of dataframes, each for individual chromosome data
https://stackoverflow.com/questions/32277350
复制相似问题