生物信息Python从入门到精通

编者注:本文来自生信编程直播课程讲师投稿,点击阅读原文可以跳转到大神的博客,欢迎点击! 以下为文章全文:

Python开发的方向太多了,有机器学习,数据挖掘,网络开发,爬虫等等。其实在生信领域,Python还显现不出绝对的优势,生信的大部分软件流程都是用shell或Perl写的,而且已经足够好用了。我选Python是因为我想顺便学点数据挖掘和机器学习的东西,而且Python这些年越来越火,发展势头远超其他脚本语言,所以学它肯定是没错的。

一、入门标准

入门比较难定义,什么程度才算入门呢?

  1. 掌握基本的语法,熟练使用python的内置类型、内置函数和数据结构。
  2. 了解一些基本的模块的使用,能够实现一些简单的需求。

后面有一个实例,如果你能简单的做完,那我敢肯定你已经入门了。

二、基本知识点

1.基本语法

缩进:Python是通过代码缩进来决定代码层次逻辑的,一般约定使用4个空格

版本问题:主要包括2.x系列的和3.x系列的,两者语法不同且不兼容,有的模块只能在指定版本下安装。建议使用3.x Python,碰到特殊问题再去使用指定版本

文件编码声明:python会去环境变量里寻找python解释器。如果代码里有中文,则要以utf-8编码

#!/usr/bin/env python#-*- coding: utf-8 –*-

变量定义:使用前要先定义

dir():列出一个数据类型或对象的所有方法,非常好用,同help()

文件操作:f = open(),f.close();with open() as f: ,os.path.exists(),os.path.isfile(),os.path.abspath()

目录操作:os.mkdir(),os.rmdir(),os.listdir(),os.chdir()

开发环境选择

  • Sublime Text 对Python支持挺好,轻量级生化武器(推荐)
  • Eclipse+Pydev比较厚重,大型开发比较适合
  • Vim/Atom
  • PyCharm
  • IPython
  • WingIDE

2.处理数据

2.1 基本数据类型:布尔;整型;浮点型;字符串

# 字符串的内置函数,都比较有用'capitalize', 'casefold', 'center', 'count', 'encode', 'endswith', 'expandtabs', 'find', 'format', 'format_map', 'index', 'isalnum', 'isalpha', 'isdecimal', 'isdigit', 'isidentifier', 'islower', 'isnumeric', 'isprintable', 'isspace', 'istitle', 'isupper', 'join', 'ljust', 'lower', 'lstrip', 'maketrans', 'partition', 'replace', 'rfind', 'rindex', 'rjust', 'rpartition', 'rsplit', 'rstrip', 'split', 'splitlines', 'startswith', 'strip', 'swapcase', 'title', 'translate', 'upper', 'zfill'

2.2 基本数据结构:列表、元组、字典、集合。

数据结构就是一种容器,用于在内存中存放我们的数据。

列表:任意元素组成的顺序序列,以位置为索引。

# 列表的内置函数'append', 'clear', 'copy', 'count', 'extend', 'index', 'insert', 'pop', 'remove', 'reverse', 'sort'

元组:相当于不可变的列表,防止错误修改,节省内存开销。元组解包

# 元组的内置函数'count', 'index'

字典:键值对,没有顺序,键必须是常量。

# 字典内置函数'clear', 'copy', 'fromkeys', 'get', 'items', 'keys', 'pop', 'popitem', 'setdefault', 'update', 'values'

集合:没有顺序,元素之间没有重复,相当于舍弃了值的字典。集合操作(&,|,-,^,<,<=,>,>=)

# 集合内置函数'add', 'clear', 'copy', 'discard', 'pop', 'remove', 'update''isdisjoint','issuperset','issubset','symmetric_difference','difference','union', 'intersection', 'symmetric_difference_update','intersection_update','difference_update',

2.3 控制语句

条件:if…else…

循环:for,while,break,continue

2.4 模块使用

Python有着非常友好的模块安装方法,一个pip install命令几乎可以安装绝大多数的模块。建议使用模块前多看相关API文档。

最常用的模块有:sys,os,re,csv,gzip,fileinput,random,collections,time;百度上有很多很好的模块使用入门教程。

  • 正则表达式 re
  • 有序字典 collections.OrderedDict()
  • 调用系统命令 subprocess.call()

三、入门实例

题目:从大量FASTA文件中提取指定序列,并对提取到的序列做某些处理(如求反向互补序列)

描述:假设你有很多测序数据,分别存储在不同文件夹的不同文件里,现在给你一些序列名,要求你从众多数据中提取出特定的序列。

PS:这里本来应该有大量实例,而且大神还亲自录制了好些视频,可以在我们论坛(http://www.biotrainee.com/forum-90-1.html)找到每个实例的详细描述以及代码和解题思路

思路:遍历每一个文件夹;遍历每一个文件;读取文件,判断序列,输出序列(处理),关闭文件;处理数据,添加一个函数即可。

四、精通标准

当然这只是个噱头,精通的道路是无止境的,下面只是罗列了一些常见的高级特性。

  • 切片,推导式,生成器,异常处理
  • 高级模块:threading(多线程),ctypes(调用C程序优化性能),logging(日志)
  • 专业模块:pysam - 处理基因组数据(fasta/fastq/bam/vcf)的Python模块
  • Biopython:Python的计算分子生物学和生物信息学工具包
  • 编写自己的package:解决某个特定需求,上传到 PyPI,然后你就成为大神了
  • 编程规范:写出规范化的代码 Google Python coding style
  • 函数式编程:即使代码量暴增也不会影响代码的可读性,调试和Debug也会变得非常简单。
  • 面向对象编程:最高级的编程方法,对函数进行分类和封装,让开发“更快更好更强...”

五、最后

Python只是一门编程语言,一种实现工具,我们可以用很多种语言来替换它,我们之所以选择Python,是因为我们喜欢它给我们带来的便捷。如果你想深入某个领域,其实真正重要的是技术背后的算法。

六、推荐资源

  • Python教程 - 廖雪峰的官方网站 http://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000
  • python初级教程:入门详解 http://www.crifan.com/files/doc/docbook/python_beginner_tutorial/release/html/python_beginner_tutorial.html
  • Python 面向对象(初级篇) http://m.blog.csdn.net/article/details?id=50760467
  • Python | Codecademy https://www.codecademy.com/zh/learn/python
  • Google Python编码风格 http://www.yeolar.com/note/2013/01/10/python-style-guide/
  • Python正则表达式指南 http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html
  • 《Python学习手册》
  • 《Python编程金典》
  • 《Bioinformatics Programming Using Python》
编辑:思考问题的熊

原文发布于微信公众号 - 生信技能树(biotrainee)

原文发表时间:2017-02-15

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏C语言及其他语言

C语言中的宏陷阱 #define SQU(x) x*x

有同学写过或者想写这样的宏定义吗? 求两个或几个数的乘积: #define SQU(x) x*x 我们正常使用没有问题: ? 但如果这样写呢? ? 哎呀,...

3345
来自专栏积累沉淀

Java设计模式(七)----装饰模式

装饰模式 一、概述 二、装饰模式的结构 三、具体案列 四、装饰模式与类继承的区别...

1937
来自专栏机器之心

这些Python代码技巧,你肯定还不知道

人们还经常把 Python 笑称为「可执行伪码(executable pseudocode)」。但是,当你可以编写这样的代码时,很难去反驳这种言论:

853
来自专栏芋道源码1024

【Netty 专栏】深入浅出 Netty 内存管理 PoolChunkList

前面两篇分别分析了PoolChunk和PoolSubpage的实现,本文主要分析管理PoolChunk生命周期的PoolChunkList。 1、深入浅出Net...

701
来自专栏Linyb极客之路

简洁又快速地处理集合——Java8 Stream(上)

本篇文章主要是让大家能够理解 Stream,理解它的基本原理,理解我们为什么需要使用 Stream 以及它的好处,而具体的实战环节我会在下篇文章中讲解。

1244
来自专栏java学习

每日一练(2017/5/14)

Java基础 | 数据库 | Android | 学习视频 | 学习资料下载 课前导读 ●回复“每日一练”获取以前的题目! ●答案公布时间:为每期发布题目的第二...

2375
来自专栏有趣的django

1.python简介

简介 1、python语言介绍 python的创始人:Guido Van Rossum 2、python是一门什么样的语言 编程语言主要从以下几个角度进行分类:...

3135
来自专栏每周一脱topic

Effictive python学习总结连载(1)

python从读研开始就在用了,拿来做过web后台、安全分析、爬虫、测试框架等等,挺强大的。最近借放假和看书和整理的机会,系统的总结下。主要是2方面:一个是书或...

1582
来自专栏python学习路

一、代码风格 1、假定你的代码需要维护2、保持一致性3、考虑对象在程序中存在的方式,尤其是那些带有数据的对象4、不要做重复工作5、让注释讲故事6、奥卡姆剃刀原则1、简洁的规则2、文档字符串3、空行4、

刚开始学的时候就要注意编码规范了,所以整理了一下,以便养成一个编码好习惯。不然以后真的不好改。 代码被读的次数远大于被写的次数。 作为一名程序员(使用任何语言)...

2265
来自专栏软件开发 -- 分享 互助 成长

模板方法模式

一、简介 1、模板方法模式定义一个操作中的算法骨架,而将一些步骤延迟到子类中。模板方法使得子类可以不改变一个算法的结构即可重定义该算法的某些特定步骤。 2、说白...

1807

扫码关注云+社区