如何从R中的序列翻译得到完整的氨基酸名称？_对于一个完整的数据集，如何从R中的纬度和经度获取位置名称？_如何从R中的fpr序列中获取特定的tpr？ - 腾讯云开发者社区

、、、、

我必须编写一个脚本来翻译这个序列： dict = {"TTT":"F|Phe","TTC":"F|Phe","TTA":"L|Leu","TTG":"L|Leu","TCT":"S|Ser","TCC":"S|Ser", "TCA":"S|Ser","TCG":"S|Ser", "TAT":"

浏览 4提问于2012-01-02得票数 1

回答已采纳

2回答

更改列表中的索引

、、、

我的数据中有一个字符串，在我的输出中看起来像这样： string_sequence = 'MLSPDLPDSAWNTRLLCRVMLCLLGAGSVAAGVIQSPRHLIKEKRETATLKCYPIPRHDTVYWYQQGPGQDPQFLISFYEKMQSDKGSIPDRFSAQQFSDYHSELNMSSLELGDSALYFCASSL' 在下一步，我必须用typsin酶消化这个氨基酸序列，它将序列从字符串K和R中分离出来，但如果有P，它就不会。输出是我需要的肽，保存在列表的数据类型中，如下所示： list_sequence = ['MLSPDLPDSAWNTR

浏览 0提问于2019-10-30得票数 0

1回答

Biopython翻译输出错误

、、、、

我正在构建一个bash脚本，它结合grep和小型Python脚本，最终能够搜索遗传序列文件(fasta格式)，在两个序列搜索字符串之间搜索给定长度的序列字符串，并将这些序列转换成肽序列。我的bash脚本使用两个grep函数，后面跟着一个Biopython脚本，它打印与所需区域对应的前几行。 grep -E -o "ATGAGTCTT(.*)TCAGTACG" search_script_testdata.fasta > ./output1.txt grep -E -o "(.*)TCAGTACG" output1.txt > ./output2.tx

浏览 5提问于2014-01-21得票数 0

1回答

如何在R中将协商一致序列绘制为二进制热图

、、

我有很多氨基酸序列，比如fasta格式，我做了多个序列比对。我试着把二进制代码画成热图。例如，如果它有变化，它将是红色的，如果不改变，它将是黄色的。我从msaplot包来到了ggtree。为此，我还检查了ggmsa包。但到目前为止，我没有得到我想要的。所以基本上我想：将多序列对齐改为二进制矩阵(如果氨基酸与参考序列不同，则绘制x、如果不是y)图为热映射。对于那些不知道的人来说，多序列对齐就像这样。我知道我应该提供某种类型的数据示例，但我不知道如何创建一个多序列对齐的示例。如果安装ggmsa，则可以使用以下方法获得r中的数据和绘图示例： protein_sequences <

浏览 1提问于2020-05-28得票数 1

回答已采纳

1回答

使用BioPython的translate()方法识别ORF和氨基酸--翻译错误？

、、、

我正在努力自学生物信息学，通过计算机科学和高性能计算的方式来参加派对。(从本质上讲，我正在努力学习生物学。)我最近发现了BioPython，到目前为止我认为它很棒，但我很好奇是否有人能帮我找出为什么BioPython中用来将序列数据转换为开放源码候选序列和氨基酸蛋白链的translate()方法的行为与预期的不同。以下是今年的DNA60挑战赛，它是在一个序列中找到所有的ORF并对它们进行排序，将它们转换为氨基链，然后从最长的前15个链中提取第25个氨基酸来拼写出一个短语。这就是挑战：因此，在做了一些研究之后，我决定直接使用教程中的代码来查找和识别ORF，使用translate方法，可以在

浏览 1提问于2013-04-29得票数 0

1回答

氨基酸使用与氨基酸同一性

、

我对“氨基酸使用”和“氨基酸同一性”这两个术语有一点混淆。如何计算氨基酸的使用量？我听说过"CodonW“。我们还有其他选择吗？其次，我们是否可以像在氨基酸同一性中所做的那样，使用氨基酸用途来建立系统发育关系？谢谢

浏览 1提问于2018-08-10得票数 0

1回答

基于登录号的Biopython搜索

、

目前，我正在使用生物工程循环列表与登录号，以检索一些有关蛋白质的信息。我想检查一下等电点，氨基酸组成，理论pI，氨基酸数量和分子量。有些是我能找到的，但有些我不知道如何得到。希望有人能帮我。请在下面找到我的代码摘要： from bio import ExPASy, SwissProt accession='P04264' handle = ExPASy.get_sprot_raw(accession) record = SwissProt.read(handle) Sequence_length=record.sequence_length Weight= record.

浏览 2提问于2019-08-26得票数 0

回答已采纳

3回答

生物信息学.氨基酸通用基序

、、、

我正在尝试产生一个核苷酸基序，它将编码所选择的氨基酸。例如，组氨酸由CAT，CAC编码。精氨酸是CGT、CGC、CGA、CGG、AGA和AGG。其模式是：在密码子C或A中的位置在密码子A或G中的位置位置- A、T、C或G 根据这个规则，你可以定义选择的氨基酸(H和R)，也可以定义我不想要的氨基酸(例如AAA是赖氨酸，AAT是天冬酰胺.)。因此，我需要定义与我选择的AAs匹配的模式，如果上面可能是: CT，该模式只定义组氨酸和精氨酸，而不定义其他氨基酸。我正在尝试用我选择的任何氨基酸(两个以上)来做这件事，如果这个模式不存在，它应该找到减少氨基酸的可能性(例如，如果5个

浏览 1提问于2014-12-22得票数 0

回答已采纳

2回答

创建给定变量集的所有可能排列

、、、、

我有一个与反向翻译有关的问题。问题本身可以描述为:给定20个唯一字母的字符集(对应20个氨基酸)，每个字母表由A、T、G、C中的任意3个字符组成的代码生成，生成所有编码给定氨基酸序列/字符串的可能的核苷酸序列。有64种可能的nucleotideATGC组合用于20种氨基酸。例如:赖氨酸，用字母K表示，由两个三胞胎(=密码子)编码，AAA和GAA。正向翻译是很好的，因为我可以把三重奏映射到氨基酸码，但问题是反向翻译，在这种情况下，三胞胎的各种组合是可能的，因为大部分的氨基酸可以由多个密码子编码。这是我的程序的基本框架： //Map all Amino Acids with their

浏览 6提问于2015-02-06得票数 0

回答已采纳

4回答

Python计数具有多个键的值的所有实例。

、、

跳到编辑处以获得更好的解释！我已经试着解决这个问题好几个小时了，我的头很痛(尤其是因为我之前已经解决了这个问题，但是我不记得是怎么解决的，我使用解决方案的脚本存储在学校的一个计算机上)。好的，这是我的问题。在给定的A，T，G和C序列(是的，这是DNA)中，我必须找到所有的氨基酸，并计算它们中的多少。从外行的角度来看，这就是问题所在。我必须搜索这个序列的某些模式(也称为密码子)，这是A和/或T和/或G和/或C的三个字母长序列，每个氨基酸至少有一个密码子。我的工作是计算每种氨基酸的发生量。在第二个中，你会看到左边的氨基酸和右边的相关密码子。我有一本这样的字典： aaDic = {

浏览 0提问于2012-02-23得票数 1

回答已采纳

1回答

将核苷酸序列转换为氨基酸序列

、、

我有一个脚本，它使用一个基因的位置和链信息(补体，向前)来提取核苷酸序列。一旦提取，脚本使用翻译表和密码子起始位置将核苷酸序列转换为氨基酸序列，并将其与原始氨基酸序列进行比较。理论上，他们应该匹配，但我还没有得到匹配。例如，我将使用这个E.coliGenBank文件：从第396行开始/靠近第396行，如下所示： CDS complement(25341..26294) /gene="repFIB" /note="Replication protein RepFIB (P307 replicon); similar to PIR accession nu

浏览 1提问于2015-12-22得票数 0

回答已采纳

2回答

如果I from list = dict打印值，则将list与dict键进行比较

、、、

给出一个二分法(generate_translation_dict)，以三重态作为键，氨基酸作为值，我想把三重奏的列表和字典中现有的键进行比较。如果它们相等，则应该打印值。例如： generate_translation_dict = {'ATA': 'I', 'ATC': 'I', 'ATT': 'I', 'ATG': 'M', } comparison_list = [ 'ATG', 'TTT',

浏览 5提问于2021-12-10得票数 0

回答已采纳

2回答

Python:如何将函数结果输出到dataframe

、

我有一个含有风味肽和它们的氨基酸序列的dataFrame，我正在尝试计数每种氨基酸的数量，并将其存储在一个新的dataFrame中。首先，我只是使用一个只有5行的非常小的dataFrame。对于实际的dataFrame，序列可以大于1个字符，如果字符串是：'RPFFLR'，那么我希望它计数: 2*F，1*L，1*P和2*R。这是最初的dataFrame： ID Name Sequence 0 1 bitter amino acid R 3 4 bitter amino acid P 6

浏览 2提问于2020-06-16得票数 0

2回答

当DNA序列中有某种模式时，检索编码的氨基酸。

、、、、

当DNA序列中有某种模式时，我想检索编码的氨基酸。例如，模式可以是: ATAGTA。因此，当有：输入文件： >sequence1 ATGGCGCATAGTAATGC >sequence2 ATGATAGTAATGCGCGC 理想的输出将是一个表，每一个氨基酸的次数是由模式编码的。在sequence1中，模式码只代表一个氨基酸，而在sequence2中，它只编码两个氨基酸.我希望这个工具能够扩展到数千个序列。我一直在考虑如何做到这一点，但我只想:替换所有与模式不同的核苷酸，翻译剩下的，得到编码氨基酸的摘要。请让我知道这个任务是否可以由一个已经可用的工具来执行。谢谢你的帮助。一切

浏览 3提问于2013-11-11得票数 1

1回答

BioHaskell:读取FASTA文件

、、、

使用，我如何读取包含氨基酸序列的FASTA文件？我希望能够：获取String序列的列表从FASTA注释(假定是唯一的)到序列字符串获得一个Map String String (来自 ) 在BioHaskell实现的算法中使用序列。注意:这个问题故意没有表现出研究的努力，因为它立即以问答式的方式得到了回答。

浏览 5提问于2014-02-15得票数 3

回答已采纳

1回答

KeyError:当在相关代码中找不到'mtD‘时为'mtD’

、、

我正在使用一个简单的函数将DNA序列转换为氨基酸序列。在较高的级别上，代码看起来很好，但每当我运行程序时，我都会得到错误KeyError: 'mtD'，这个错误的来源显然在第26行(if table[seq[i:i+3]] == "_" :)。唯一的另一次是在我的程序中提到'mtD‘的时候，我只是简单地将我的数据集打印到控制台上，这使得这个问题更加令人困惑。我的代码如下所示。 #Creating the protein sequence column for the data Protein_Sequence = [] #dna to protein

浏览 6提问于2020-08-13得票数 0

1回答

为每个字母分配编号，这样r就可以计算单词中字母的和。

我试图在R中创建一个工具，它将计算一个肽链的原子组成(即碳、氢、氮和氧原子的数目)，它是以一个字母的氨基酸编码输入的。例如，肽KGHLY由氨基酸赖氨酸(K)、甘氨酸(G)、组氨酸(H)、亮氨酸(L)和酪氨酸(Y)组成。赖氨酸由6碳、13氢、1氮和2氧组成。甘氨酸由2碳、5氢、1氮和2氧组成。等等，我希望r代码要么从数据帧中读取肽串(KGHLY)，要么使用readline()从键盘上获取输入，我对R和编程都是新手。我能够为每个氨基酸制造物体，例如G <- c(2，5，1，2)，或者建立一个包含所有20个氨基酸及其各自原子组成的数据框架。我正在挣扎的地方是，我不知道如何使R从一个数据帧索引，

浏览 1提问于2016-04-11得票数 2

回答已采纳

1回答

克尼梅氨基酸筛选文库的构建

、、

我有一个任务是建立四肽筛选文库氨基酸使用Knime。我以前从来没用过克尼莫。我需要创建一个包含所有20个氨基酸的工作流，将其与另外20个氨基酸相乘，然后将结果与另一个20个相乘，然后重复得到四肽的最终结果。有人能建议我如何输入氨基酸吗？非常感谢!

浏览 10提问于2022-06-06得票数 0

1回答

确定跨数组的最大化分数

、、

我有一个569个氨基酸残基的序列，每个氨基酸残基都有一个分数。我想确定一个连续的10个这样的氨基酸序列，使分数最大化。有没有一种优雅的方式可以做到这一点？ amino_acids <- structure( list( Position=c(1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20), Residue=c("M", "S", "A", "S", "K", "E&#

浏览 28提问于2019-12-09得票数 0

回答已采纳

4回答

利用JavaScript将核苷酸转化为氨基酸

、、

我正在创建一个Chrome扩展，它将一串长度为nlen的核苷酸转换成相应的氨基酸。我以前在Python中做过类似的事情，但是由于我对JavaScript还很陌生，所以我很难将相同的逻辑从Python转换到JavaScript。到目前为止，我掌握的代码如下： function translateInput(n_seq) { // code to translate goes here // length of input nucleotide sequence var nlen = n_seq.length // declare initially empty amino

浏览 5提问于2017-05-01得票数 4

回答已采纳

1回答

连接多个字符串和字典值

、、、

我在输入文件中有这个字典和一个序列列表。字典键表示一个氨基酸，值表示这个氨基酸的向量。我试着得到这样的输出： MNTFSQVWVFSDTPSRLPELMNGAQALANQ:000000000010000000000000000000010000000000000000000000001000000010000000000000000000000000000001000000000000000001000000000000000000000001000000000000000000001000000000000000000100000010000000000000000000000000000

浏览 1提问于2022-10-27得票数 0

回答已采纳

2回答

如何在Python上使用字典更改文件中的值

我正在攻读生物学学位，感觉就像我被python扔进了深渊，因为我以前从来没有编码过，而且“教学”几乎不存在。不管怎样，他们给出了这个基因序列文件，它看起来很像： En123, ATGCCGAATA En124, ATGCCAGTAT 但是有了更多的基因就会变得更长。他们想把它转换成蛋白质序列。到目前为止，我得到了..。 with open('DNA_sequences.csv', 'r') as f: for line in f: columns = line.rstrip("\n").split(",") #remo

浏览 0提问于2016-11-25得票数 0

1回答

如何将字符串列表写入文本(FASTA)文件？

、、

我目前正在编写一个程序，它接受许多不同的氨基酸序列(字符串)，用酶将它们切割，然后返回结果肽(许多更小的字符串)。我已经编写了程序，它可以工作，尽管我在将输出写入文本文件时遇到了问题。例如，输入应该是这样的： ‘’ 输出应该是这样的：肽1 ‘'ABCDE’ 肽2 ‘'FGHIJKLMNOP’ 肽3 ‘'QRSTUVWXYZ’ 我如何将其写入到文本(fasta)文件中，因为转换为字符串只是将它们捆绑在一起，而不是在新行上用肽编号和序列分隔它们？ string_peptides = str(all_peptides) p

浏览 30提问于2020-11-28得票数 0

回答已采纳

2回答

反复编辑python脚本文件

、、

嗨，我想检查氨基酸序列的分数值，我为它写了以下代码，它工作得非常好。但问题是每次我都要编辑文件。我能从命令界面给出氨基酸序列吗。 AA_seq='AVTLSPQRS' # this is the input variable sum=0 value={"V": 3.1,"Y":3.5,"W":4.7,"T" :5.3,"S":5.1,"P":3.7, "F":4.7,"M":1.5,"K":8.9,"L":6,"

浏览 4提问于2022-03-29得票数 2

回答已采纳

2回答

蛋白质互信息

、、

我试图找到多序列对齐(MSA)之间的相互信息(MI)。它背后的数学对我来说是可以的。不过，我不知道如何在Python中实现它，至少以快速的方式实现。我应该如何计算总的频率P(i;x)；P(j;y)；P(ij;xy)。Px和Py频率很容易计算，哈希可以处理它，但是P(ij;xy)呢？所以我真正的问题是，我应该如何计算给定的i和j列中Pxy的概率？请注意，可以将MI定义为： MI(i,j) = Sum(x->n)Sum(y->m) P(ij,xy) * log(P(ij,xy)/P(i,x)*P(j,y)) 其中i和j是在柱中的氨基酸位置，x和y是在给定的I或j列中发现的不同的

浏览 10提问于2017-03-13得票数 2

回答已采纳

2回答

循环遍历字典以创建多个列表/字符串

、、

我有一本像这样的字典： a = { (1, 'M'): 0.106997, (2, 'R'): 0.167087, (3, 'H'): 0.25406, (4, 'I'): 0.332115, (5, 'I'): 0.324872, (6, 'C'): 0.328603, ... } 键表示蛋白质序列中的位置以及该位置的氨基酸。这个值是介于0到1之间的某个数字。我试图编写一些代码，如果值大于或等于0.4，就可以将连续的氨基酸串在一起。当它到达一

浏览 4提问于2021-02-11得票数 0

3回答

根据另一列的数据创建新的变量列

我对R和一般的编程都很陌生，我想知道循环一列的最佳方法，这样我就可以在数据框架中添加一列，进一步描述我所遍历的观察结果。我现在有一份氨基酸清单，它们在蛋白质上的位置如下所示： Residue Position H 1 R 2 K 3 D 4 E 5 H 6 R 7 K 8 D 9 E 10 我想要这样的东西(其中H，R，K是基本氨基酸，D和E是酸性氨基酸)： Residue Position Properties H 1 Basic R 2 Basic K 3 Basic D 4 Acidic E 5 Ac

浏览 2提问于2014-10-14得票数 1

回答已采纳

1回答

如何使用python中的机械化将字符串输入到表单的某个部分？

、、、、

我试图使用python将大量的氨基酸(以字符串形式存储)一次提交给由ExPasy.org托管的蛋白质预测ExPasy.org。我想把每种蛋白质的结果作为一个列表来存储。到目前为止，这就是我所拥有的； In[]: br = mechanize.Browser() br.open("http://www.expasy.org/proteomics") response1 = br.follow_link(text_regex=r"TMPred", nr=1) for i in br.forms(): print i 从这里我可以看到表格。 Out[]: &

浏览 4提问于2014-10-21得票数 2

回答已采纳

1回答

使用python脚本进行dna翻译

我现在正在尝试创建一个工具，它可以翻译DNA序列，然后将它们相互比较，以删除重复！我使用以下脚本读取我的fastq文件： def sequence_cleaner(fastq_file, min_length=0, por_n=100): # Create our hash table to add the sequences sequences={} # Using the Biopython fastq parse we can read our fastq input for seq_record in SeqIO.parse(fastq_file, "

浏览 0提问于2016-05-18得票数 0

3回答

对任何类型的序列使用nwalign()

我需要一个用于Matlab的近似字符串匹配函数。我通过调用nwalign()发现了生物信息学工具箱中的。唯一的问题是它只对氨基酸序列起作用。因此，当我尝试将字符串与数字和其他符号进行比较时，我得到一个错误消息：“两个序列都必须是氨基酸。” 有没有办法让nwalign()函数接受任何类型的序列，或者有没有另一个matlab函数可以执行近似的字符串匹配，而不限于生物信息学？

浏览 1提问于2011-10-01得票数 1

5回答

我怎样才能做到以下的比较，而不必写20个if-陈述或列出20个列表/字典？

、、

这个问题与生物学有关，所以对于那些知道什么是氨基酸和密码子的人来说，这是很好的！对于那些没有这样做的人，我已经尽了我最大的努力去表达它，这样你就可以理解我在说什么。所以我有一个密码子列表，也可以称为三字母字符串，由以下四个字母组成: A，G，C，T，即AAT，GAT，GCT等。每个密码子对应一个特定的氨基酸，但是有多个密码子可以对应相同的氨基酸。为了说明这一点，请看一下这个链接：。这应该说明清楚了。对于我名单上的每一个密码子，我想最终找出它对应的氨基酸。因此，我必须先将这个密码子与我发布链接的密码子列表(64个可能的密码子)进行比较，然后我必须要求程序查看该密码子对应的氨基酸。然而，我想不

浏览 5提问于2013-11-06得票数 4

回答已采纳

2回答

基因DNA序列优化的算法选择？(与TSP有关，动态规划)

、、

以下问题专门适用于生物技术应用，但也可能说明其他领域中类似问题的一般原则。这是一个NP难问题，可以与旅行推销员问题相关，我很好奇可以使用什么算法来获得解。简介生物背景：蛋白质由20个氨基酸组成。DNA由4个碱基组成- A，C，G，T。蛋白质的DNA序列决定了氨基酸的序列，每个连续的3个DNA碱基(该单位称为密码子)编码一个氨基酸。一个氨基酸可以由多个密码子编码，例如Valine有4种编码方式。并非所有密码子都是平等的--有些密码子的处理速度比其他密码子快。而且，并非所有密码子对都是相等的--有些密码子对比另一些密码子对慢。这意味着，对于含有100个氨基酸(300个DNA碱基)的特定基因，

浏览 2提问于2012-10-13得票数 1

4回答

从列表中创建字典

、、

我一直想不出这一点，我认为问题可能在于我列出清单的方式。有人能帮忙吗？谢谢! 我想要的结果是 codondict = {'A'：'GCT'，'GCC'，'GCA'，'GCG'，'C'：'TGT'，'TGC'，&c 但我得到的是： {'A'：'A'，'C'：'C'，&c。这是我的终点站： A=“GCT”，“GCC”，“GCA”，“GCG” C=“TGT”，“TGC” D=“GAT”，“G

浏览 1提问于2012-07-20得票数 0

回答已采纳

2回答

为什么LINQ中不支持查询运算符'ElementAt‘？

、、

在LINQ中，我得到了“不支持查询运算符'ElementAt‘”的异常。尝试对从LINQ查询返回的ElementAt扩展方法时。下面是堆栈跟踪： at System.Data.Linq.SqlClient.QueryConverter.VisitSequenceOperatorCall(MethodCallExpression mc) at System.Data.Linq.SqlClient.QueryConverter.VisitMethodCall(MethodCallExpression mc) at System.Data.Linq.SqlClient.Quer

浏览 5提问于2011-02-28得票数 12

回答已采纳

1回答

按柱计数氨基酸序列

、、

我正在设计一个Perl脚本，以便在比较不同的序列时找到同一列中的最高氨基酸计数。每个序列已经在自己的行或字符串中找到。格式示例:序列1、2和3。 KPKFYALDMFPYPSGAGLHVGHPEGYTATDIVARYKRMTGHN-----------VLHPMGW---DAFGLPAEQYA------IETGTHPSQTTVKN------------------VGRFREQLQSLGFSY-D-WDREVATCDA KPKCYILDMFPYPSGAGLHVGHPLGYTATDILSRFKRMKGFN-----------VLHPMGW---DAFGLPAEQYA------IETG

浏览 3提问于2014-02-25得票数 0

5回答

文件中的Python字符数

、、

我得到了一个文本文件，它给出了某种细菌中各种蛋白质的编码序列。该信息以简短描述的形式出现，以及由大写字母表示的各种氨基酸编码序列。我被要求以下面的形式给出各种单字母氨基酸代码的计数： A: 1567 C: 8776 D: 6643 E: 3345 etc.. 到目前为止，我所拥有的：我知道这涉及到使用Dicts和forloop，所以我写道： #!/usr/bin/python ecoli = open("/file_pathway.txt").read() counts = dict() for line in ecoli: words = line.split()

浏览 0提问于2014-11-18得票数 0

1回答

使用生物字符串编写R程序将核苷酸序列转换为蛋白质序列

、

我有一个包含许多不同序列的.fasta文件。我的目标是使用生物字符串包将每个单独的序列转换为它的氨基酸序列。.fasta文件如下所示： >Sequence 1 AAATTTGGGCCC >Sequence 2 TTTGGGCCCAAA 任何帮助都将不胜感激。谢谢。

浏览 86提问于2021-08-10得票数 1

回答已采纳

1回答

用于从dataframe生成所述组合的相对丰度的所有可能组合。

、、、、

我试图在R中创建一个循环，计算所有20个氨基酸的所有可能组合，而不重复字符串，长度可达20个字符： S <- c('G','A','L','M','F','W','K','Q','E','S','P','V','I','C','Y','H','R','N','D','T')

浏览 1提问于2018-05-11得票数 0

回答已采纳

3回答

如何比较不相同的列表并从Python中的字典中派生值？

、、、、

这里有一个字典键，用于存储每个密码子的氨基酸(单字母)的值(三重碱基，如ATG、GCT等)。 aminoacid = {'TTT' : 'F','TTC' : 'F','TTA' : 'L','TTG' : 'L','CTT' : 'L','CTC' : 'L','CTA' : 'L','CTG' : 'L','ATT' :

浏览 4提问于2016-10-30得票数 2

回答已采纳

1回答

在fasta文件中选择超过300 aa和"C“的序列至少发生4次

、、、、

我有一个包含蛋白质序列的fasta文件。我想选择超过300个氨基酸和半胱氨酸(C)氨基酸出现4次以上的序列。我使用这个命令来选择具有超过300个aa的序列： cat 72hDOWN-fasta.fasta | bioawk -c fastx 'length($seq) > 300{ print ">"$name; print $seq }' 一些序列示例： >jgi|Triasp1|216614|CE216613_3477 MPSLYLTSALGLLSLLPAAQAGWNPNSKDNIVVYWGQDAGSIGQNRLSYYCENAP

浏览 2提问于2018-05-07得票数 3

回答已采纳

1回答

使用Biopython的翻译功能后，如何跟踪起始密码子(ATG)在核苷酸序列中的位置？

、、、

我有一个FASTA文件，其中有一串序列，格式如下：使用生物工程实现的代码允许我找到最长的氨基酸序列，从蛋氨酸开始，并以停止密码子结尾，在FASTA文件中的每一个序列。该函数为find_largest_polypeptide_in_DNA。基本上，它使用三个不同的正读框将DNA序列翻译成一个氨基酸序列，在可变的allPossibilities中，它保存了以M(一个特定的氨基酸)开始的片段，并以一个终止密码子结束。然后比较各种可能性的长度，选择最长的可能性，返回该片段的蛋白质序列。 def find_largest_polypeptide_in_DNA(seq, translatio

浏览 0提问于2018-04-03得票数 2

回答已采纳

1回答

使用正则表达式对混合数字字符串的散列中包含的数字字符串字符进行乘法和求和

没有太多的生物学知识，蛋白质是由氨基酸组成的。组成蛋白质的20种氨基酸中的每一种都由序列中的字符表示。每个氨基酸字符都有不同的化学式，我将其表示为字符串。例如，"M"的公式为"C5H11NO2S" 给定20个不同的公式(以及蛋白质序列中每个氨基酸字符的不同频率)，我想将所有20个不同的公式汇编成一个公式，该公式将产生蛋白质的总公式。因此，首先:将每个公式乘以其字符在序列中的频率第二:将所有相乘的公式求和为一个公式。为了做到这一点，我首先尝试将序列中的每个氨基酸字符频率乘以化学式中的数字。我使用.tally做到了这一点 sequence ="MGAA

浏览 0提问于2020-03-03得票数 0

1回答

匹配另一个字符串(2)中的字符串(1)，并根据字符串(2)提取位置信息

、、、

我想将字符串(1)与另一个字符串(2)进行匹配，并基于字符串(1)中包含的序列信息，提取基于字符串(2)的位置信息。我有一个包含肽(氨基酸)序列的数据帧，其中包含额外的化学修饰信息。这些发生在M或C位置。我希望能够将这些字符串与原始文件进行匹配，该文件包含使用光谱匹配算法匹配的所有蛋白质序列，并输出该蛋白质的氨基酸和位置。我使用seqinr包读入了一个包含20320个条目的.fasta文件，这些条目如下所示： $`sp|Q9Y478|AAKB1_HUMAN` [1]"MGNTSSERAALERHGGHKTPRRDSSGGTKDGDRPKILMDSPEDADLFHSEEIKAPEKEE

浏览 14提问于2018-09-08得票数 0

4回答

使用python解析结果

、

我是python的初学者(我是生物学家)，我有一个包含特定软件结果的文件，我想使用Python解析结果。从下面的输出中，我只想得到分数，并想将序列分成单独的氨基酸。不是的。得分序列 1 0.273778 FFHH-YYFLHRRRKKCCNNN-CCCK---HQQ---HHKKHV-FGGGE-EDDEDEEEEEEEE-EE-- 2 0.394647 IIVVIVVVVIVVVVVVVVVV-CCCVA-IVVI--LIIIIIIIIYYYA-AVVVVVVVAAAAV-AST- 3 0.456667 FIVVIVVVVIXXXXIGGGGT-CCC

浏览 0提问于2011-12-12得票数 1

回答已采纳

1回答

如何获得c#中肽的全部编码

、

嗨，我的头已经沸腾了三天了！我想得到一个肽的所有DNA编码:一个肽是一个氨基酸序列，即氨基酸M和氨基酸Q可以形成肽MQ或QM。 DNA编码意味着每个氨基酸都有一个DNA代码(称为密码子)(有些氨基酸有多个代码，即氨基酸T有4个不同的代码/密码子)。下面代码中的最后一个函数不起作用，所以我希望有人能让它为我工作，请不要查询集成语言(我忘记了它的首字母缩写！) private string[] CODONS ={ "TTT", "TTC", "TTA", "TTG", "TCT", "TC

浏览 2提问于2014-11-12得票数 5

回答已采纳

2回答

如何从R中的序列翻译得到完整的氨基酸名称？

、、

我想翻译一个序列的前15个碱基，然后从中找到最后一个氨基酸的名称。我有我的fasta文件fasta文件用于人类基因组的MTHFR序列。 library("Biostrings") myseq <- readDNAStringSet("sequence (1).fasta", format = "fasta") head(myseq) 其输出如下所示： DNAStringSet object of length 1: width seq names

浏览 22提问于2020-11-09得票数 0

2回答

我如何衡量我的算法的预测能力？

、

我的算法为给定的氨基酸序列预测了几个可测量的特性。现在，给出一个包含实际测量值和我的值的表，我如何计算我的算法执行得有多好？示例： Sequence Property1 Prediction1 seq1 3l.4 35.0 |Prediction matches well seq2 23.4 79.9 |Prediction was off seq3 20.0 20.3 |Prediction as super ==>算法执行得很好。有没有办法量化这一点？

浏览 1提问于2012-04-24得票数 2

回答已采纳

1回答

在Python中将氨基酸转换为整数

、、、、

我正在尝试使用Python将氨基酸转换为整数。我想使用MATLAB在这里提供的表格https://www.mathworks.com/help/bioinfo/ref/aa2int.html。我如何进行这个转换，将每个氨基酸转换成一个整数，0-25？

浏览 13提问于2020-07-17得票数 1

1回答

如果替代核苷酸导致错义突变

、、

我试图比较大的序列数据与和没有SNPs和标记snps为非同义或同义。我有来自PLNIK的.fasta序列和.bim文件，带有保守的(参考)和替代核苷酸。 head(test) pos ALT REF 1 2 G T 2 8 G T 3 65 C G 4 68 C G 5 77 T C 6 78 G C 我可以用替代核苷酸代替参考核苷酸： ref[test$pos]=as.vector(test$ALT) 我需要说的是，替换会不会导致氨基酸的改变。我想使用seqinr包，也许我走错路了？因此，我有两个字符串，它们是序列( al

浏览 1提问于2016-04-13得票数 0

回答已采纳