基于多基因DNA数据的启发式全局物种搜索聚类及参数优化
基于基因序列相似性的分子序列聚类可以提供物种数量和多样性的信息。该方法被广泛用于评估很多类群物种水平的多样性的研究中。目前,尽管多基因数据迅速增长,现有物种界定的文献资料中仍以单基因分析为主导,很少讨论将多位点的数据集整合到物种聚类工作中。
Douglas Chesters博士今年完成了在中国科学院动物研究所朱朝东研究组(zhucd@ioz.ac.cn)为期两年的博士后研究工作,并顺利成为该组助理研究员。他与多个研究机构研究人员合作,研究出了一种新的基于多基因序列数据进行物种聚类的启发式搜索方法。该方法首先完成单个基因的物种聚类,然后用一种新颖的方法进行整合,并在搜索过程中寻找并优化最佳参数。该研究工作测试了许多已有数据集,并对一个蜜蜂样本的三基因的新测数据集进行分析。这些蜜蜂样本采集自北京昌平南口一个苹果种植园及周边山沟。以图1为例,本研究基于3个基因片段信息,聚类了250个蜜蜂样本,界定了70个物种,并在对部分样品实现自动分类标记,实现物种鉴定。作者论证了该方法对中型到大型多基因数据集估算物种多样性研究中的实用性。同时该工作也发现在物种聚类过程中,某些保守基因如28S基因与其它基因或形态学数据分析结果存在较大的分歧。
注:Douglas Chesters博士(dchesters@ioz.ac.cn)提供了该文章的英文简介,刘秀薇博士提供了中文简介。