邹征廷团队提出EVaDe框架解析单细胞表达谱适应性演化
1975年,King和Wilson以人和黑猩猩蛋白序列的高度相似性为依据,首次提出在演化历史中,基因表达调控的变化对物种间形态功能分化和环境适应具有重要贡献。近年来,单细胞RNA测序技术在非模式生物研究中得到普及,所得到的单细胞表达谱数据能够反映生物体功能器官/组织中的细胞类型组成,以及不同细胞类型的表达信息,为针对不同生物类群环境适应及功能演化的比较分析提供了细胞水平的高效手段和数据基础。在探究基因表达的演化模式,尤其是比较不同物种时,单细胞表达谱能够避免传统批量RNA测序结果中细胞类型组成具有物种差异的混淆因素,直接获取每个物种特异的细胞类型注释信息,从而一方面能发现所关注物种中存在的新细胞类型,另一方面可以把多个物种的同源细胞类型表达谱进行直接比较。但目前,大多数研究对同源细胞类型的比较仍局限于基因差异表达检验等经验性的统计描述,难以得出针对演化模式(中性演化或适应性演化)的确切结论,领域内缺乏基于演化理论的正式分析框架。
2025年5月8日,中国科学院动物研究所邹征廷研究员团队在Journal of Genetics and Genomics在线发表题为“Unveiling cell-type-specific mode of evolution in comparative single-cell expression data”的研究论文。该研究提出了跨物种单细胞表达谱数据的统计分析框架EVaDe,可用于探究特定物种或类群中发生表达水平适应性演化的基因和细胞类型。
基于已有的表型演化理论,在中性演化的情境下,受到强烈演化约束的重要性状应该有着更低的物种间分化程度;反之,演化约束强但在物种间高度分化的性状则可能经历了适应性演化,在物种适应其特定环境的过程中起到重要作用。本研究提出了EVaDe框架,基于表达谱方差分解提取每个基因在各个细胞类型中的物种间表达分化Dsp和每个细胞类型内的表达变异V;其中后者体现基因表达在细胞群体中所受到的约束或该表达性状的重要性,因此根据上述理论,“高分化-低变异”的模式可能是表达性状发生适应性演化的反映。
EVaDe框架包含了基于分化-变异负相关性(NC)和基于高分化-变异比值(DVR)两种策略,来寻找适应性演化的候选基因和对应的细胞类型。在人与非人灵长类的前额叶皮层(PFC)单细胞表达谱分析中发现了与神经发育相关的候选基因,大多数候选基因在兴奋性神经元中表现出“高分化-低变异”的模式。在裸鼹形鼠与小鼠的骨髓单细胞表达谱比较中,EVaDe框架发现前者的适应性演化候选基因主要富集于髓系细胞功能,与已有研究对裸鼹形鼠的免疫功能特点相符。除此之外,本研究还发现,绝大多数基因表达呈现“分化-变异正相关”的基于稳定选择的中性演化模式,而EVaDe发现的适应性演化候选基因富集于快速进化的基因组序列元件附近。
综上所述,本研究提出的EVaDe框架能够对跨物种的单细胞表达谱数据集进行分析,可用于探究特定物种或类群中发生表达水平适应性演化的基因和细胞类型。
中国科学院动物研究所博士研究生秦天为该论文第一作者,邹征廷研究员为通讯作者;微软公司张宏久博士参与研究。相关工作得到国家自然科学基金委等项目资助。邹征廷研究组目前以计算分子演化分析和相关人工智能应用为主要研究方向,有研究生及博士后等机会,欢迎咨询。
文章链接:https://doi.org/10.1016/j.jgg.2025.04.022
图1 EVaDe框架总结
A. 单细胞表达谱方差分解。B. 基于分化-变异负相关性发现适应性演化候选基因。C. 基于高分化-变异比值发现适应性演化候选基因。SS为表达方差,DF为对应自由度。
图2 EVaDe 在人和恒河猴 PFC 中识别出细胞类型特异性适应的候选基因
A.使用 NC 和 DVR 策略识别到的适应性候选基因数量。B、F. NC(B)和DVR(F)策略识别出的适应性候选基因GO富集分析显著结果。蓝色:人;橙色:恒河猴。C-E. NC 策略识别出的适应性候选基因 ACAA1 (C) 、 INTS1 (D) 和 CEP63 (E) 在不同细胞类型中的表达差异。G. DVR 策略识别出的适应性候选基因 ROBO1 在不同细胞类型中的表达差异。散点图(左侧)展示了基因在多个细胞类型中之间的负相关关系。箱线图(右侧)展示了基因在兴奋性神经元(蓝色)、抑制性神经元(绿色)和非神经元细胞(红色)中的表达水平分布。
图3 分化-变异表达模式揭示人类PFC细胞类型全基因组的中性演化模式
A-B. 在所有25种细胞类型中保守表达的12,639个基因,在每个细胞类型中的平均值与
平均值的散点图(A)以及
平均值与
平均值的散点图(B)。C. 非零表达基因物种间分化-物种内变异表达差异的相关系数分布。D. 非零表达基因样本间分化-物种内变异表达差异的相关系数分布。蓝色:显著负相关;橙色:显著正相关;灰色:不显著。
图4 兴奋性神经元在人类PFC中表现出适应性表达进化的强烈信号
A. 每个细胞类型关联的DVR策略识别的适应性候选基因数量和比例。细胞类型按相关适应性候选基因数量从大到小的顺序排列。右上插图展示了每个细胞类型类别中跨细胞类型的相关适应性候选基因基因的联合数。ExN:兴奋性神经元;InN:抑制性神经元;NonN:非神经元细胞。B. 25种细胞类型中平均表达量大于0.01的基因的种间差异与种内差异的比值分布。图中绿色三角形表示平均值。C. 左侧散点图以INTS1为例展示人类PFC不同细胞类型的和
值。中间热图和右侧热图分别展示细胞类型按
和
值的排序。每行对应一个适应性候选基因,不同行通过 UPGMA 算法进行聚类。B-C. 每种细胞类型在其有表达的每个基因中
(B)和
值 (C) 的相对排名分布。
图5 EVaDe分析找到裸鼹形鼠谱系特异性免疫适应相关的基因和细胞类型
A-B. (A) 1810065E05Rik和(B) Trappc4基因的和
值在髓系细胞(蓝色)、淋巴细胞(绿色)和红细胞(红色)三个细胞类型中呈负相关。C.以裸鼹形鼠为目标物种使用DVR策略识别到的适应性候选基因的GO富集分析显著结果。D. 每种细胞类型所关联的DVR策略识别的适应性候选基因数量。右上插图展示了每个细胞类型谱系中跨细胞类型的相关适应性候选基因数量。
2025年5月22日国际生物多样性日,《中国生物物种名录2025版》(http://www.sp2000.org.cn)正式发布,供全球用户自由下载使用。
在相同的环境压力下,不同的物种既可表现出趋同特征,也可能呈现独特的适应策略。物种响应相同环境压力的适应路径与物种的进化历史及其环境建群时间高度相关。青藏高原平均海拔4500米,低氧严寒,堪称研究适应性...