字典和函数基因映射输出未返回预期频率 - 腾讯云开发者社区

、、、

我有一个集合‘项目’，包含唯一的int32号码。我想把它和数组频率合并起来。他们俩的尺寸是一样的。 table = {'items': items, 'values': frequency} C1 = pd.DataFrame(data=table) 按预期输出如下(包含set的第一列和包含频率的第二列： {A，B} - 25 {E、F、G} - 17 {D} \5 但是我得到了一个错误：TypeError: Set类型是无序的

浏览 2提问于2021-02-19得票数 1

1回答

熊猫:基于字典的文件分割与编辑

、、、

我刚接触过熊猫，在解决以下问题时遇到了一些小麻烦。我有两个文件需要用来创建输出。第一个文件包含关于功能和相关基因的列表。文件的一个示例(显然完全由数据组成) File 1: Function Genes Emotions HAPPY,SAD,GOOFY,SILLY Walking LEG,MUSCLE,TENDON,BLOOD Singing VOCAL,NECK,BLOOD,HAPPY 我正在读字典，用： from collections import * FunctionsWithGenes = defaultdict(list) def read_funct

浏览 3提问于2014-09-23得票数 1

回答已采纳

1回答

将频率数据转换为样本数(整数)的最佳方法是什么？

、、、

我有一个基因不同等位基因的频率数据和总样本数(1242890)。为了进行统计检验(卡方检验、费雪检验等)，我需要知道等位基因出现的次数。转换频率数据的最好方法是什么?每个等位基因(整数)的计数最准确。在R中有什么函数吗？在excel中，我尝试过舍入、舍入和舍入： *Allele* *Frequency* Allele1 0.228 Allele2 0.195 Allele3 0.099 Allele4 0.04 Allele5 0.00167 Allele6 0.00127 Allele7 0.027 Allele8 0.1

浏览 0提问于2016-03-19得票数 0

2回答

如何访问由Python传递的前端JavaScript中的数组(JSON)？

、、、、

我是一个真正的noobie，使用的是Flask框架(以及一般的客户机-服务器)，所以请原谅我。我有一个基本的HTML模板文件，带有一些Flask (使用{% . %}符号)从python文件中传入一个JSON对象。现在，作为一个简单的检查，它将motifs (数组的一个数组)的内容作为一个无序列表(<ul>)中的单独行(<li>)输出。相反，我想要做的是使用JavaScript脚本中的数组的JavaScript数组作为数据进行可视化。我尝试将Flask脚本混合到一个JavaScript <script>标记中，该标记迭代出一个JavaScript数组，但得

浏览 3提问于2013-09-16得票数 2

回答已采纳

1回答

循环只打印唯一的字典项。

、、、

我已经将从文件中读取的字符串定义为 str = """foo\t1039|1736|t3958\n frombric\t1039\n bonn\t\n""" 我想要这样输出： 1039\tfoo 1736\tfoo 3958\tfoo 注意，重复基因(1039)只输出一次，与第一次发生的描述相关联。还请注意，可能没有与描述符相关的数字(基因)(本例中为波恩)。我的方法是将这些基因作为字符串列表冗余地添加到字典中，同时维护一组基因，我最终使用这些基因来提取for循环中每个键的基因。在我看来，下面的代码必须只输出唯一的基因，因为最终的for循环会在

浏览 2提问于2014-10-07得票数 0

回答已采纳

1回答

R?标准卡方检验

、

我在一个拷贝区域中有4种基因型的观察计数样本。我想做的是，计算这些基因型的等位基因频率，然后用卡方检验这些频率与预期值25%:25%:25%:25%的显著偏离。到目前为止，我得到了： > a <- c(do.call(rbind, strsplit(as.character(gdr18[1,9]), ",")), as.character(gdr18[1,8])) > a [1] "27" "30" "19" "52" 接下来，我得到总计数： > sum <- as.numeric(

浏览 2提问于2014-07-06得票数 0

1回答

在Python3.x中写入文件

、、、

from arrayheap import ArrayHeap def generateTable(self, node, table): def codeTable(node, codeString): if node.isLeaf: table[node._char] = codeString return if node.getleft() is not None: table(node.getLeft(), codeSt

浏览 13提问于2014-04-20得票数 0

回答已采纳

1回答

嵌套数据结构中的字符串映射

、、、

映射由列表和字典组成的两个数据结构。来自data的映射应该递归地应用到payload结构中。这些是我的输入 data = { 'a': 'Apple', 'b': 'Ball', 'c': 'Cat', 'd': 'Dog', 'e': 'Egg', 'f': 'Fish', 'g': 'Goat',

浏览 2提问于2017-05-17得票数 0

回答已采纳

2回答

理解这个C#代码，我指的只是代码，而不是熵理论。

我终于找到了一个代码，可能在计算香农熵，但由于我根本不完全理解C#，谁能帮我完全掌握它吗？我的意思是纯粹理解代码，而不是它在做什么。如果你问的话，我很理解德尔菲。 public static double ShannonEntropy(string s) { var map = new Dictionary<char, int>(); foreach (char c in s) { if (!map.ContainsKey(c)) map.Add(c, 1); else map[

浏览 5提问于2016-05-01得票数 0

回答已采纳

3回答

如何将具有多个值的键提取到长度大于1的值列表中？

、、

我有本字典- dict = { a : { 'b' , 'c' , 'd' } } 我想从这本字典中提取值。预期产出- list = [ 'b' , 'c' , 'd' ] 其中len(列表)应该是3。如果使用其他方法，则输出如下： list= [ { 'b' , 'c' , 'd' } ]

浏览 2提问于2018-03-31得票数 0

回答已采纳

1回答

是否有一种方法可以并行地执行一个函数，而不是apply或foreach？

、、、、

所以，在我的第一篇文章中，我提出了一个相当令人难堪的问题。我用R写了这个代码，基本上是对X个基因数的循环分析，得到4个不同文件中的输出。问题是，这条路走得太长了。这里的想法是尝试使用我正在研究的集群的全部计算能力，并将循环扩展到不同的核上。主要功能的结构如下：在不同的数据中打开输入数据，形成和创建变量，如样本和基因的数量(稍后在输出文件创建和主for循环中使用)，设置一个种子，创建所有的输出文件，其中的结果将在中写入，主循环将对每次进行计算和写入结果的所有基因进行迭代。<code>H 29</code><code>f 210</code> 为

浏览 1提问于2020-06-29得票数 0

2回答

DNA序列中的丛集发现

、

我正在努力理解一个用于解决DNA序列中的丛集发现的简短代码。问题是给定整数L和t，如果有长度为L的基因组间隔，则字符串模式在(较大)字符串基因组中形成(L，t)-clump，其中模式至少出现t次。例如，TGCA在以下基因组中形成(25,3)-clump：gatcagcataagggtcccTGCAaTGCAtgacaagccTGCAgttgttttac。丛集发现问题查找在字符串中形成丛集的模式。给定:一个字符串基因组，和整数k，L，和t。返回:基因组中所有不同的k-mers形成(L，t)-clumps . 守则如下： from collections import defa

浏览 4提问于2016-01-28得票数 0

回答已采纳

4回答

计算大文本文件的字频

、、、、

我有一个巨大的文本文件(大于可用的RAM内存)。我需要计数所有单词的频率，并将单词和频率计数输出到一个新文件中。结果应按频率计数的降序排序。我的方法：对给定的文件进行排序-外部排序依次计数每个单词的频率，将计数存储在另一个文件中(与单词一起) 根据频率计数-外部排序对输出文件进行排序。我想知道是否有更好的方法来做到这一点。我听说过基于磁盘的哈希表吗？或者B+树，但从来没有试过。注意:我也见过类似的问题，但他们中没有人需要用内存以外的数据来解决这个问题。编辑:根据评论，同意词典在实践中应该适合今天的计算机记忆。但让我们拿一本假想的辞典，这是足够大，不适合在记忆中。

浏览 9提问于2013-02-07得票数 5

回答已采纳

3回答

密文字母频率替换:通过值比较两个字典的字典密钥并更改文本

、、、、

我看过类似的话题，但我找不到与我试图实现的目标完全相提并论的解决方案。我有一个密文，需要根据每个字母在文本中出现的频率进行简单的字母替换。我已经有了一个标准化文本的函数(小写，没有非字母字符，没有，统计字母出现的次数，然后获得每个字母的相对频率。字母是字典中的关键字，频率是值。我在一个单独的字典(k=letter，v=frequency)中也有A-Z的预期字母频率，但我有点困惑于下一步该怎么做。我认为我需要做的是获得规范化的密文，预期的字母freq dict d1和密码字母freq dict d2，并按如下方式迭代它们(部分伪代码)： for word in text: for

浏览 2提问于2010-12-13得票数 2

回答已采纳

1回答

通过python中的一个公共列合并两个选项卡分隔的文本文件

、

@我想合并两个标签分隔的文本文件，它们共享一个公共列。我有一个“标识符文件”，看起来如下( 1050行为2列)：模块1基因1 模块1基因2 。。模x基因y 我还有一个由制表符分隔的“目标”文本文件，它看起来如下(36列乘12000行)：基因1样本1样本2等基因2样本1样本2等。。基因z样本1样本2等我想根据基因标识合并这两个文件，并具有来自标识符和目标文件的匹配表达式值和模块关联。本质上，要从标识符文件中提取基因，在目标文件中找到它们，并在一个文件中创建一个包含模块#、基因#和表达式值的新文件。欢迎你提出建议。谢谢!

浏览 3提问于2014-02-02得票数 0

3回答

有没有可能使用字典来指定键的一部分，并允许其余部分成为数据类型允许的任何内容？

、

我有一份名单，每个人都有两套基因。基因是由前几个字母组成的字符串来指定的。大写字母表示它是显性等位基因，小写字母表示隐性。每组的第一个字符指定眼睛的颜色，不同等位基因的组合允许不同的眼睛颜色。是否可以查找等位基因的组合，即Ab、Ac或cA，并返回A的存在的值。到目前为止我的代码是： Dictionary<string, string> EyeColours = new Dictionary<string, string> { {"A","Blue"}, { "aa", "DarkBlue" }, {

浏览 0提问于2018-03-27得票数 1

1回答

我如何比较熊猫的时频？

、、

我有一个固定的时间序列频率'MS'，我希望将其与熊猫DataFrame中的数据频率进行比较。例如，给我一个包含date列的DataFrame，我可以使用pd.infer_freq(df['date'])推断它的时间频率，它返回例如'H'。太好了!我现在可以说'H‘(每小时)比'MS’(月份开始)更频繁。但是考虑到我不知道DataFrame将始终具有什么频率(我只是提供了'H‘作为示例)，我如何将其与我的固定时间频率('MS')进行比较？我尝试的是将按频率顺序放在列表/元组中，然后将列表中'MS‘

浏览 60提问于2018-06-15得票数 2

回答已采纳

1回答

SQL -如何在一个日期期间内获得在另一个日期期间内的行？

、、、

我在DDBB中有下表：另一方面，我有一个带有起始和结束过滤器参数的接口。因此，我想了解如何查询该表，以便只从表中获取数据，其中一个句点位于用户引入的值中。接下来，我将介绍三种可能的场景。如果我需要为每个场景创建一个查询，则可以：场景1:如果用户只定义开始= 03/01/2021，那么预期的输出应该是id 3、5和6的行。场景2:如果用户只定义end = 03/01/2021，那么预期的输出应该是id 1和2.的行。场景3:如果用户定义start =03/01/2021和end=05/01/2021，那么预期的输出应该是id 3和5.的行。希望这是合理的。谢谢

浏览 1提问于2022-05-16得票数 1

1回答

条件跳转或移动取决于在for循环中使用strcat的未初始化值。

、、、

我有一个包含3个染色体字符串的文件，我想把它连接到一个基因组中。然后，我必须跨多个线程访问这个连接字符串(我使用pthread_t)。为此，我必须在提取数据时使用pthread_mutex_lock，然后使用strcat连接使用const *函数fai_fetch提取的数据，然后将数据保存为char* (参见下文)。 // genome_size the size of all the chromosomes together // chr_total the number of chromosomes I wish to concatenate char* genome = (char*)

浏览 1提问于2021-10-01得票数 0

回答已采纳

2回答

计数-min草图比典型的稀疏向量格式占用的空间少吗？

、、、

计数-最小草图是一种概率数据结构，用于在多个集合中对计数进行有损存储。它接收更新(i, c)，其中i是集合的元素，c是该元素的非负数量，然后使用哈希函数执行巧妙的操作。它在SO和其他地方都得到了广泛的讨论；这是原始论文()和。基于这个应用程序，我正在考虑用它来存储来自单细胞基因组学实验的计数数据--假设i和c都是整数。这对i,c意味着在一个特定的生物细胞中，基因i被检测到c次数。我的问题是，与这种类型的数据通常使用的稀疏矩阵格式相比，count草图占用多少内存。对于另一种方法的简单示例，请考虑一个哈希表--比方说，一个Python字典--用相应的i值之和存储每个不同的i值。如果在给定的细胞中

浏览 2提问于2020-10-15得票数 4

回答已采纳

10回答

基于谓词从列表中删除元素

、

我想从list中删除一个元素，以便该元素包含'X'或'N'。我必须申请一个大的基因组。下面是一个示例：输入： codon=['AAT','XAC','ANT','TTA'] 预期输出： codon=['AAT','TTA']

浏览 15提问于2009-12-08得票数 7

2回答

如果RDD变得更大，Spark将如何反应？

我们有运行在Apache Spark中的代码。对代码进行详细检查后，我确定我们的映射器之一正在修改RDD中的对象，而不是为输出创建该对象的副本。也就是说，我们有一个字典的RDD，而map函数将向字典中添加内容，而不是返回新的字典。 RDDs应该是不可变的。我们的基因正在发生变异。我们也有内存错误。问:如果RDD的大小突然增加，Spark会不会感到困惑？

浏览 14提问于2019-03-11得票数 2

3回答

如何将一列中的值除以R中的特定行？

这是我的大数据的一个子集： gene feature reads A anot 2 A 3ss_A 3 A 3ss_B 5 B 5ss_A 1 B anot 4 C 3ss_A 2 C 3ss_B 8 C anot 3 C 5ss_A 6 我想将每个基因中对应于3ss和5ss特征的读数划分为该基因的"anot“特征。我对每个基因都有多个特征(这里没有显示)，但每个基因只有一个"anot“特征。预期输出为： gene

浏览 0提问于2016-04-16得票数 2

1回答

SortedDictionary不排序吗？

、

所以，我有一个排序的字典： private Dictionary<int, Gene> genes; 我用下面的函数添加对： public void createGene(int geneId) { genes.Add(geneId, new Gene(geneId)); } 在连接两个基因从而删除一个基因并将新序列插入两个基因中的一个的功能中。我像这样从字典中删除一个基因，继续用它的新序列更新另一个基因： species[specieId].getGenes().Remove(geneTwoId); species[specieId].getGe

浏览 3提问于2016-04-17得票数 1

1回答

如何使用FreeType确定字体中没有字形的所有代码点？

、、

这个问题与以下内容密切相关但是，我正在寻找一种不使用Windows API的解决方案。特别是Freetype看起来很有前途，我想知道是否有熟悉它的人可以提供一些建议。基本上，我希望在给定字体的情况下，计算从字符映射到该字符映射的没有字形的码点序列的映射。

浏览 1提问于2009-04-01得票数 2

1回答

查看合并数据帧之间的相似序列

我是R的新手，希望得到一些关于以下问题的帮助。我目前有两个病人，每个病人有两种治疗方法。我想看看只有一个治疗组的独特基因序列是什么，然后比较相同的治疗，看看两个患者是否有相同的基因。我能够为每个患者分离出存在于一个治疗组中的基因，然而，我在第二部分遇到了麻烦，我想看看两个患者是否有相同的序列。下面是我的代码： a=!is.na(merged11$AS1_ITD_cloneCount) b=is.na(merged11$AS1_WT_cloneCount) merged2<-merge(merged1,AS3_WT,by.x="clonalSequence",by.y=&#

浏览 0提问于2018-06-25得票数 0

3回答

在python中从字典中获取随机键:值对

、、、

我正在尝试从由csv文件生成的字典中随机提取一组键值对。字典包含有关基因的信息，基因名称是字典的关键字，以及一个数字列表(与基因表达等相关)。就是价值。 # python 2.7.5 import csv import random genes_csv = csv.reader(open('genes.csv', 'rb')) genes_dict = {} for row in genes_csv: genes_dict[row[0]] = row[1:] length = raw_input('How many genes do you

浏览 1提问于2013-09-23得票数 6

回答已采纳

1回答

泡菜串序之谜

、、、、

更新6/8/17 虽然3年过去了，但通过执行输出命令，我的仍然是临时解决方案。流-框架可能会重新考虑其使用内容作为通知密钥的设计。GitHub 引用了这一点。问题见以下样本： import pickle x = {'order_number': 'X', 'deal_url': 'J'} pickle.dumps(x) pickle.dumps(pickle.loads(pickle.dumps(x))) pickle.dumps(pickle.loads(pickle.dumps(pickle.loads(pickle.d

浏览 0提问于2014-04-14得票数 1

回答已采纳

1回答

If语句，用于检查在计数器中是否找到元素(Python)

、、

我正在编写一个程序，其中有一个名为vocabulary的计数器(collections.counter)，它是一个名为wordFrequency的计数器中出现频率最高的10,000个计数器，它是通过对从文本文件中读取的单词实例进行计数得到的。我一直在尝试使用if语句来检查是否在该计数器中找到了某个元素。我所拥有的是： vocabulary = wordFrequency.most_common(10000) [...] for line in trainReader2: if len(line) == 10 and line[5] != "_": i

浏览 6提问于2020-03-01得票数 1

4回答

使用列表作为值的Python字典，查找具有相同值的其他键

、、

假设我有下面的字典。 >> sample_dict = {"1": ['a','b','c'], "2": ['d','e','f'], "3": ['g','h','a']} 我希望找到一种方法来查看每个键的值，并返回值列表中是否包含一个重复变量。例如，它将输出： >> [["1","3"] , ['a']] 我看过这里的几篇文章

浏览 0提问于2018-10-06得票数 2

回答已采纳

2回答

修改类的一个实例中的字典会对所有其他实例进行相同的更改

我在python中发现了这个奇怪的小故障。我在玩进化模拟，所以我创造了大量的生物，每个生物都有自己的基因。正如你可以想象的那样，能够改变基因并创造出新的生物是很重要的。我将每个生物的基因保存在字典中，每个基因都是字典中的一个列表(字典中可能有更多的列表)。当试图对基因进行突变时，问题就出现了。如果我不复制基因字典，字典的任何变化都会导致所有其他生物也发生类似的变化。(这并不是什么大问题，但我很想知道其中的原因。字典和类不能很好地结合在一起吗？) 那么问题出在哪里呢？复制基因就行了，对吧？嗯，我发现这个问题也适用于字典中的列表。如果我不希望更改在所有实例之间转换，则必须复制列表(copyLis

浏览 1提问于2017-11-27得票数 0

1回答

hibernate标准多表数据检索中的问题

、

在这里，我遇到了hibernate标准使用方面的问题，我已经为多个表创建了标准，并添加了限制，但输出结果与预期不符我的代码： final Criteria crit = session2.createCriteria(Item.class, "item"); crit.createCriteria("itemvalues", "values"); crit.createCriteria("categoryitemses", "catItems");

浏览 0提问于2012-08-08得票数 2

回答已采纳

2回答

当地人的字典是什么时候编的？

、、

模块保存一个字典来跟踪它的上下文，例如在执行过程的某个点定义的名称。如果导入了 (或module.__dict__)，或者调用模块本身中的内置函数，则可以通过module访问该字典：更新并返回表示当前本地符号表的字典。但当我尝试从函数中访问本地词典时，我发现自己有点困惑。只包含以下内容的脚本的输出是一个空字典： def list_locals(): print(locals()) list_locals() 但另一方面，如果脚本只包含以下内容，则输出是预期的字典，包含__name__、__doc__和其他模块级变量： print(locals()) 那么，什么时候设置本地

浏览 3提问于2017-09-07得票数 9

回答已采纳

3回答

C++：均值、中位数和模式

、、、

我最近创建了一个C++程序，用于查找一组值的平均值、中位数和模式。我意识到在一个类中做这件事要好得多。然而，我用来生成平均值的函数并没有输出正确的数字，尽管我非常确定逻辑是正确的。此外，我还修改了我在网上找到的代码片段，创建了一个函数来生成我能够实现的模式，或者至少是它能找到的出现次数最多的值。然而，我并不是百分之百确定如何理解函数中实际发生的事情。如果能更好地理解mode函数中发生了什么，以及我的均值函数中到底出了什么问题，我们将非常感激。这是我到目前为止的代码： #include <iostream> using namespace std; void mode(in

浏览 0提问于2013-12-17得票数 2

回答已采纳

3回答

单值多键字典- Swift

、

我试图创建一个应用程序，根据预先确定的映射，将英文字母映射到各种RNA密码子( A、C、U或G的3组序列)。为了从英语转换为RNA，字典如下所示： var englishTomRNA: [Character: [String]] = ["A": ["UUU", "UAC"], "Q": ["UUA"], "S": ["

浏览 0提问于2016-04-26得票数 3

回答已采纳

1回答

在标签云中保留大写字母

、

我想做一个标记云来可视化基因频率。 library(wordcloud) genes_snv <- read.csv("genes.txt", sep="", header=FALSE) wordcloud(genes_snv$V1, min.freq=15, scale=c(5,0.5), max.words=100, random.order=FALSE, rot.per=0.3, colors=brewer.pal(8,

浏览 3提问于2016-06-13得票数 3

回答已采纳

1回答

Python函数在循环内不起作用

、、、

我正在尝试创建一个代码来比较基因文件和基因面板。基因面板文件为csv格式，包含染色体、基因、起始位置和结束位置。病人档案中有染色体、突变和位置。所以我做了一个循环，将基因面板信息传递给一个函数，在这个函数中进行比较，返回给我一个相似项目的列表。当我使用手动数据调用该函数时，它工作得很好。但是不会在循环中进行比较。 import vcf import os, sys records = open('exampleGenePanel.csv') read = vcf.Reader(open('examplePatientFile.vcf','r'

浏览 28提问于2019-06-09得票数 1

回答已采纳

2回答

将CSV转换为分层JSON输出

、、、、

我正在尝试将CSV文件转换为分层的JSON file.CSV文件输入，如下所示，它包含两列基因和疾病。 gene,disease A1BG,Adenocarcinoma A1BG,apnea A1BG,Athritis A2M,Asthma A2M,Astrocytoma A2M,Diabetes NAT1,polyps NAT1,lymphoma NAT1,neoplasms 预期的输出格式应为以下格式 { "name": "A1BG", "children": [ {"name": "

浏览 13提问于2020-09-15得票数 0

回答已采纳

1回答

儿童基因型

挑战每个人都喜欢遗传学，对吧？在这个挑战中，你将被给予两个父母的基因型。你必须找到每一个可能的基因型，一个孩子生产的父母。你必须考虑显性和隐性等位基因以及不完全显性和共显性。为父母提供的一个例子可以是： R'RxRr 父母一方(左侧)有一个不完全显性的R等位基因和一个显性的R等位基因。父母二人(右边)有一个显性R等位基因和一个隐性等位基因。每个父级由x分隔，输入将不包含x等位基因。一个不完全占优势的等位基因后面跟着一个撇号(')。共显性等位基因只是指多种不同类型的等位基因组合在一起(例如A和W)。规则最短代码获胜(以字节为单位)。每种可能的基因型都必须用逗号从其

浏览 0提问于2016-03-31得票数 7

2回答

将两个文件通过一组公共标识符与python合并

、

我想合并两个标签分隔的文本文件，它们共享一个公共列。我有一个“标识符文件”，看起来如下( 1050行为2列)： module 1 gene 1 module 1 gene 2 .. module x gene y 我还有一个由制表符分隔的“目标”文本文件，它看起来如下(36列乘12000行)： gene 1 sample 1 sample 2 etc gene 2 sample 1 sample 2 etc .. gene z sample 1 sample 2 etc 我想根据基因标识合并这两个文件，并具有来自标识符和目标文件的匹配表达式值和模块关联。本质上，要从标识符文件中提取基因，在目标

浏览 2提问于2014-02-03得票数 0

回答已采纳

4回答

Python，理解Huffman代码

、

我试图理解用python编写的“Rosetta代码”中的Huffman代码。下面是代码的一小部分。 def encode(symb2freq): heap = [[wt, [sym, ""]] for sym, wt in symb2freq.items()] #What does this do? 我假设变量heap是一个列表。但是wt和sym是什么？

浏览 4提问于2015-12-16得票数 1

回答已采纳

1回答

如何使用biomaRt将安捷伦探针I列表转换为基因符号并具有na值？

、

我正在尝试使用biomaRt将超过90k的探针ID列表转换为基因符号，但遇到了问题。使用getBM函数，我可以看到其中只有22k具有相应的基因符号，但输出是一个长度为22k的向量，并且我看不到与初始探针ID列表的对应关系。使用getBMlist，我可以得到为那些不匹配的探测器指定的NA值的输出，但是该函数会给出一条警告消息，指出getBMlist不适用于大型列表。如何获得90k基因符号和na值的输出？

浏览 1提问于2013-03-15得票数 1

1回答

循环，直到通过更改输入数据来满足条件。

、、

我有一个Rna-seq数据集(rows=samples，columns=genes)，它具有聚类功能.这些基因被分类为n个簇，其中属于0簇的基因是非聚类基因。这些聚类又回到聚类中，我们又得到了n个标记数的簇，其中0又是非聚类基因。这一过程一直进行到没有进一步的基因被分类为第0组。我需要循环进入这个过程，以便在每次迭代时返回最终的聚类结果以及属于群集0的基因的合并。我知道这可以用时间或重复来完成。我试过使用重复，但没有工作，问题是，我没有真正清楚如何正确设置这一点。 #define my dataset dat<-my_dataset repeat{ #run the cluster

浏览 4提问于2020-05-06得票数 0

2回答

在ArrayList中查找最常见的随机赋值字符串

、

我正在开发一个模拟器，在模拟器中，Person对象(存储在ArrayList中)“复制”并生产婴儿，他们继承“基因”，表示为4个字母的字符串。在程序开始时，第一批人的基因库是随机生成的。在计时器的每一个滴答中，我想计算出在所有的人对象中最常见的“基因”是什么。这四封信是： G、Z、N、F A，T，C，G B、F、Q、N A、C、T、E 在这种情况下，有256种可能的组合，而且必须有比256条if-else语句更有效的检查。 Person类(减去get/set方法) public class Person { static Random rand = new

浏览 0提问于2019-08-30得票数 0

回答已采纳

2回答

裁剪FASTA基因序列的字典文件定义区域

、、、

非常新的Python和编码在一般情况下，所以请随意笑。我想使用以下格式的txt文件(dict)，第一列中有基因和序列的区域(起始位置、结束位置) ORFB 21563 25384 ORF3a 25393 26220 ORF2a 26245 26472 ORF10 29558 29674 S 21563 25384 E 26245 26472 从Genbank (GENE.fasta.txt)读取一个FASTA文件，以便输出的是基因名，然后是每个基因的起始和终止之间的序列。以下是FASTA文件的开头严重急性呼吸综合征冠状病毒2株武汉-Hu-1，全基因组所以对于OR

浏览 10提问于2022-09-30得票数 0

1回答

关于使用Python自动化数据挖掘的建议

、

我是一个有一点Python编程经验的生物学家。我的研究方法之一是使用这个数据库分析大型基因列表：有人能告诉我是否可以对输出进行关键字搜索并返回与关键字相关的基因名称？这是“表”的输出，看起来是这样的：还有后端和api选项。非常感谢所有的见解和建议。

浏览 0提问于2017-01-19得票数 3

1回答

视觉块中的文本对齐

、、、

浏览 0提问于2014-12-16得票数 1

1回答

仅映射器输出问题

、

我正在尝试从Mapreduce作业中获取输出，这很容易从配置单元查询中获得。我有一个数据集： ID、颜色、速率 1，蓝色，200 2，绿色，170 3，黄色，400 4，黄色，230 5，绿色，140 6，红色，542 7，绿色，43 8，蓝色，228 9，红色，190 现在，我只想要输出中的那些速率超过200的行。因此，在Hive中的查询将非常直接：从rate >200的table_name中选择id、颜色、rate；现在，我尝试使用MapReduce代码，我认为只有映射器才足以获得所需的输出。但是不能计算出Mapper输出.. HiveMapper public class Hi

浏览 1提问于2015-12-21得票数 0

1回答

访问自定义Haskell数据类型的函数

、

我搜索并搜索了以下内容，特别是堆栈溢出，以及一般的Google。我很抱歉，如果它已经涵盖，或如此琐碎，以致于没有提及任何地方。我为对象定义了自定义数据类型，这些对象有时是离散的，有时是连续的，如下所示： data Gene = Discrete String Int | Continuous String Double deriving (Eq, Show, Read, Ord) 在这里，字符串表示基因的名称(例如，vWF或类似的名称)，数值参数是它的状态，无论是离散的还是连续的，如下所示： bober = Discrete "vWF"

浏览 0提问于2014-06-15得票数 3

回答已采纳

1回答

如何使用awk将基因型转换为T/F -1/0/1格式？

、

我有一个非常大的数据集，我想将其从基因型转换为编码格式。基因型应表示如下： A A -> -1 A B -> 0 B B -> 1 我曾使用awk考虑过这一点，但我似乎找不到一种可行的解决方案，可以读取两列并输出单个代码来代替基因型。输入文件如下所示： AnimalID Locus Allele1 Allele2 1 1 A B 1 2 A A 1 3 B B 2 1 B A 2 2

浏览 0提问于2014-04-07得票数 1