翟巍巍/马亮团队提出空间细胞类型组分解析新算法——SONAR
2023年8月7日,中国科学院动物研究所的翟巍巍/马亮团队在Nature Communications 发表了题为“SONAR enables cell type deconvolution with spatially weighted Poisson-Gamma model for spatial transcriptomics”的研究论文,提出了一项新颖的基于空间转录组数据解析空间细胞类型组分的算法模型,命名为SONAR。
生物体由各种类型的细胞组成,生物系统的结构功能和动态变化很大程度取决于细胞的空间分布,揭示和利用其规律对理解生命现象和探究疾病进化机制具有重要意义。当前,空间转录组测序(spatial transcriptomics)提供了强有力的手段,可以在保留空间信息的同时测量组织中的基因表达,从而为解析细胞的空间分布和功能提供了可能。由于受到空间分辨率的限制,此类技术的每个空间位点(spot)上的基因表达通常来自于多个细胞的混合。因此,需要通过有效的解卷积算法(deconvolution) 才能有效获得细胞类型空间组成。目前已发表的对空间转录组数据解卷积的算法,或未能充分考虑转录组的高度稀疏、高噪声等特性,或未能在解卷积过程中充分利用空间近邻的相似性信息,在实际的应用中常常出现推断错误或不稳健等问题。
作者提出的SONAR算法是基于空间加权回归框架的概率模型,采用Poisson-Gamma 分布对空间转录组数据的原始计数进行建模,且可以根据空间转录组数据的特点对位置特异性偏移(location shift)和表达计数的过度离散(overdispersion)进行综合可虑(图1)。为了防止在高异质性的组织区域中过度使用空间信息(如,在跨结构边界或肿瘤中,其细胞的空间构成可能发生剧烈变化),SONAR同时引入三个模块(空间核函数、预聚类、弹性加权)对空间信息加以筛选并进行有效利用。
作者在大量具有不同局部特征(如主导类型细胞丰度/类型数量等)和不同全局特征(如空间分布/区域转变模式等)的模拟集上,以及基于真实的单细胞精度空间转录组数据集(小鼠大脑/人类心脏数据集)上验证了SONAR相较于其他算法在细胞组分解析准确性上的优势。特别的,在诸多方法中,仅SONAR能够解析心脏流出道区域上心神经嵴细胞(cNCC)和雪旺祖细胞(SPC)的细微分布 (图2)
作者将SONAR应用于具有高异质性的人类胰腺导管癌(PDAC)和人类肝细胞癌(HCC)数据中,刻画了具有区域特异性细胞类型的空间分布。特别在HCC数据中,SONAR精细地揭示了在肿瘤/正常组织的过渡区域上,肿瘤微环境中的免疫细胞和成纤维细胞的共定位变化趋势(图3)。
综上所述,作者开发了精准利用空间信息的解析空间细胞类型组分的新算法SONAR,设计并应用在具有不同空间模式的模拟集上,并在各类真实数据集上进行了解析和探索。随着空间转录组技术的普及和细胞图谱数据的不断累积,SONAR将为解析生命过程和疾病进展、精确探索大规模空间转录组数据提供助力。
中国科学院动物研究所研究生刘志远为该论文第一作者,马亮副研究员与翟巍巍研究员是论文的共同通讯作者。该研究得到了国家科技部重点研发项目和国家自然科学基金委面上项目等项目的资助。
原文链接: https://doi.org/10.1038/s41467-023-40458-9
图1. SONAR算法工作流程图
图2. SONAR显著提升了对大脑皮层的结构解析以及稳定识别出心脏的细微结构
图3. SONAR肝脏肿瘤与正常组织过渡区域上免疫细胞和成纤维细胞的共定位趋势
人类活动和气候变化加速生物多样性的减少,导致物种范围的转移、收缩和扩张。在全球范围内,人类活动和气候变化已对生物多样性构成了严重威胁,目前已导致全球522种灵长类动物中约68%的物种面临灭绝风险。
植物病毒素有“植物顽疾”之称,每年引起全球作物经济损失高达4000亿元。水稻作为人类重要的粮食作物之一,供给全世界一半以上的人口,主要种植于亚洲、非洲和南美洲等地区。