生信修炼手册

LV1
发表了文章

使用scikit-learn填充缺失值

在真实世界中的数据,难免会有缺失值的情况出现,可能是收集资料时没有收集到对应的信息,也可能是整理的时候误删除导致。对于包含缺失值的数据,有两大类处理思路

生信修炼手册
发表了文章

使用scikit-learn对数据进行预处理

数据的质量决定了模型的上限,在真实的数据分析中,输入的数据会存在缺失值,不同特征的取值范围差异过大等问题,所以首先需要对数据进行预处理。

生信修炼手册
发表了文章

线性回归与最小二乘法

x轴表示自变量x的值,y轴表示因变量y的值,图中的蓝色线条就代表它们之间的回归模型,在该模型中,因为只有1个自变量x,所以称之为一元线性回归,公式如下

生信修炼手册
发表了文章

基于正则化的回归:岭回归和套索回归

在多元线性回归中,多个变量之间可能存在多重共线性,所谓多重,就是一个变量与多个变量之间都存在线性相关。首先来看下多重共线性对回归模型的影响,假设一下回归模型

生信修炼手册
发表了文章

使用局部加权线性回归解决非线性数据的拟合问题

对于回归而言,有线性模型和非线性模型两大模型,从名字中的线性和非线性也可以直观的看出其对应的使用场景,但是在实际分析中,线性模型作为最简单直观的模型,是我们分析...

生信修炼手册
发表了文章

逻辑回归:建立在回归基础上的一种分类模型

机器学习有3大类算法,回归,分类和聚类,其中回归和分类属于监督学习,而聚类则属于非监督学习。线性回归和逻辑回归是机器学习中最为基础,最广为人知的模型。

生信修炼手册
发表了文章

KNN:最容易理解的分类算法

KNN是一种分类算法,其全称为k-nearest neighbors, 所以也叫作K近邻算法。该算法是一种监督学习的算法,具体可以分为以下几个步骤

生信修炼手册
发表了文章

使用scikit-learn构建数据集

数据是机器学习的必备条件,输入数据的质量高低,是影响机器学习模型效果的决定性因素条件之一。对于机器学习的学习者而言,拥有一个数据集来练手是第一步。在scikit...

生信修炼手册
发表了文章

机器学习简介

随着大数据的爆发,以及计算机算力的加强,以机器学习为代表的人工智能领域逐渐火热起来。机器学习有以下几个构成要素

生信修炼手册
发表了文章

使用biopython解析kegg数据库

KEGG数据库称之为基因组百科全书,是一个包含gene, pathway等多个子数据库的综合性数据库。为了更好的查询kegg数据,官方提供了对应的API。

生信修炼手册
发表了文章

使用biopython可视化染色体和基因元件

基因组结构元件的可视化有多种方式,比如IGV等基因组浏览器中以track为单位的展示形式,亦或以circos为代表的圈图形式,比如在细胞器基因组组装中,基因元件...

生信修炼手册
发表了文章

进化树在biopython中的可视化

进化树以树状结构形象的展示各个节点的进化关系,在物种进化,亲缘关系研究领域广泛应用。在biopython中,通过Bio.Phylo子模块,可以方便的访问和展示树...

生信修炼手册
发表了文章

使用biopython查询NCBI数据库

NCBI网站是最常用的生物信息数据库之一,集成了pubmed,genebank等子数据库。最简便的用法当然是直接在网站上检索,为了方便检索,NCBI提供了自己的...

生信修炼手册
发表了文章

序列比对在biopython中的处理

序列比对是生物信息学分析中的常见任务,包含局部比对和全局比对两大算法,局部比对最经典的代表是blast, 全局比对则用于多序列比对。在biopython中,支持...

生信修炼手册
发表了文章

使用biopython处理序列数据

通过biopython, 我们可以方便的读取这些格式的文件,并提取其中的信息。具体地,通过以下3个子模块来处理序列数据

生信修炼手册
发表了文章

biopython简介

biopython和bioperl, biojava项目类似,都是Open Bioinformatics Foundation组织的项目之一,旨在提供一个编程接...

生信修炼手册
发表了文章

pybedtools:对bedtools的封装和扩展

bedtools是区间操作最常用的软件,pybedtools对其进行了封装,可以在python编程环境中灵活使用bedtools,而且进一步拓展出了很多有用的功...

生信修炼手册
发表了文章

使用pyBigWig模块查看bigwig文件中的内容

bam, bedgraph, bigwig是3种常见的存储测序深度信息的文件,都可以方便的导入IGV浏览器进行查看,其中bigwig最为常用。在chip_seq...

生信修炼手册
发表了文章

使用pysam操作BAM文件

pysam模块对samtools和tabix进行了封装,可以在python程序内部来操作和访问相关的文件,具体地,支持以下4种文件

生信修炼手册
发表了文章

conda之packages管理

conda的核心功能包括environments和packages的管理,在之前的文章中介绍了environments的管理技巧,本文来看下packages的管...

生信修炼手册

个人简介

个人成就

扫码关注云+社区

领取腾讯云代金券