我有两个数据集。一个是显示每个基因的核苷酸位置的基因列表。
例如:
Gene Name Low Position Upper Position
Gene 1 1000 2000
Gene 2 5000 6000
另一个数据集是多态及其核苷酸位置的列表
例如:
Position Gene Location
SNP 1 3000 NA
SNP 2 5500 NA
我已经使用了R中的ifelse函数将我的多态数据集排序到它们各自的基因中
这就是问题所在。该数据库描述了物体(不同物种的基因)之间的对称和可转移关系。如果物种1的X基因与物种2的Y基因相关,而物种2的Y基因与物种3的Z基因相关,则物种1的X基因与物种3的Z基因相关。
下面是一个示例表:
species1 gene1 species2 gene2
2 Y 1 X
2 Y 3 Z
现在,这是我想要做的。给定物种1和3(都在species2栏中),在gene2列中找到gene2中的所有基因,其中gene1列中有一个共同的值。
基本上,这就是我想要的输出:
X Z
..。对于满足这个条件的每一对。
请
我有一个描述基因相互作用的三维数据集,可以用图表表示。数据集示例如下:
a + b
b + c
c - f
b - d
a + c
f + g
g + h
f + h
'+‘表示左边的基因正向调节右边的基因。在这个数据中,我想计算一个子图,其中一个基因(比如x)正向调节另一个基因(比如y),y反过来又正向调节另一个基因(比如z)。此外,z还受到x的正调节。在上图中有两种这样的情况。我想执行这个搜索,最好使用awk,但是任何脚本语言都可以。我很抱歉我的问题太具体了,并提前感谢你的帮助。
我正在处理多个数据集,并尝试将它们组合到一个矩阵中,其中每一列是一个基因名称,表值是基因表达数据。 问题是,一些数据集缺少一些基因或具有不同的基因,因此我没有完整的“参考”基因集。 Dataset 1 Dataset 2
Gene expression Gene expression
a 0.3 a 0.1
b 0.1 c -0.3
e 0.2 d 0.
我有两个数据序列,一个有100个基因的列,另一个有一个由700行组成的列,每一行都有几个用逗号分隔的基因,现在我不知道如何能够根据dataframe 1中的基因列来选择每一行dataframe 2中的基因。换句话说,我希望在dataframe 1的基因列中每一行都有基因。
dataframe1:
column gene:
a
b
c
d
e
f
dataframe2:
column gene:
row1"a,b,c,d,r,t,y"
row2"c,g,h,k,l,a,b,c,p"
我只想在dataframe2的每一行中分离逗号分离的基因,这些基因位于data
我正在分析一个数据集,需要在两个版本的数据之间找到匹配的样本。它们(应该)包含相同的表达式数据,但它们具有不同的示例标识符。让我们假设第一个dataframe如下所示:
gene sample expression
1 a a 1
2 a b 2
3 a c 3
4 a d 4
5 a e 5
6 a f 6
7 a g 7
8 a