我有一个这样的清单:
Tomato4439,>gi|224089052|ref|XP_002308615.1|预测三果杨蛋白
我想用python去掉不想要的字符,这样列表看起来就像:番茄、三果杨。
对于第一个问题,我可以做以下几点:
name = ">Tomato4439"
name = name.strip(">1234567890")
print name
Tomato
不过,我不知道如何处理第二个问题。如有任何建议,将不胜感激。
发布于 2012-09-13 18:06:55
>>> import re
>>> line = "Tomato4439, >gi|224089052|ref|XP_002308615.1| predicted protein [Populus trichocarpa]"
>>> match = re.match("^([a-zA-Z]+).*\[([a-zA-Z ]+)\].*",line)
>>> match.groups()
('Tomato', 'Populus trichocarpa')
编辑不包括第二部分的[]
.这应该适用于任何与查询模式相匹配的事物(例如以名称开头,以[]结尾)--例如,它也将与"Tomato4439, >gi|224089052|ref|XP_002308615.1| predicted protein [Populus trichocarpa apples]"
匹配
发布于 2012-09-13 18:07:11
import re
a = "Tomato4439, >gi|224089052|ref|XP_002308615.1| predicted protein [Populus trichocarpa]"
re.sub(r"^([A-Za-z]+).+\[([^]]+)\]$", r"\1 \2", a)
这给了我们
'Tomato Populus trichocarpa'
发布于 2012-09-13 18:07:16
如果您要解析的字符串在语义上是一致的,那么最好的选择可能是对您拥有的不同“类型”字符串进行分类,然后创建正则表达式来使用python的re
模块解析它们。
https://stackoverflow.com/questions/12412116
复制相似问题