本文介绍一下3种OTU聚类算法,这些算法使用不同的规则来确定新序列是添加到现有cluster(OTU)中,还是形成一个新的cluster:
complete linkage, 具体如furthest neighbor
average linkage, 具体如average neighbor 或 UPGMA(非加权组平均法)
single linkage, 具体如nearest neighbor
当使用3% cut-off作为cluster的划分依据时:
complete linkage要求新序列和一个cluster中的其他所有序列不相似度都低于3%,这个新序列才能进入这个cluster。
average linkage要求新序列和一个cluster中的其他所有序列不相似度的平均值低于3%,这个新序列能进入这个cluster。
single linkage要求新序列和一个cluster中的其他所有序列不相似度中存在一个低于3%,这个新序列就能进入这个cluster。
显然的,complete linkage标准最严,因此得到的OTU数量一般最多。
以上概念参考:2010年的EM
Link:
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2909393/
作者发现complete linkage会使得OTU数量虚高。因此先采用了 2% single-linkage的聚类方法,之后再使用average-linkage聚类,得到的OTU数量更准确。可以减少环境样本中30-60%的OTU,与此同时可以保留稀有物种。