论文解读│王忠/葛芹玉/杨蕊教授团队:前列腺组织scRNA-seq细胞分型标志基因性能评价

时间:2024-09-26 16:01:43   热度:37.1℃   作者:网络

单细胞RNA测序(scRNA-seq)能够同时分析数千到数百万个单个细胞的基因表达,以提供细胞异质性的高分辨率表征,重建细胞发育轨迹,构建细胞间通信网络。这是提高对人类疾病机制深层理解的关键,也是在器官或生物系统的单细胞图谱的发展中表征健康组织的关键。在许多scRNA-seq研究中,了解存在哪些细胞类型及其比例是至关重要的。随着scRNA-seq分析技术的快速发展,一些细胞标记数据库(如CellMarker和PCMDB)和自动化细胞分型工具(SingleR、CAMML、scMatch等)被提出,但它们并不适用于所有的器官组织或物种。

对于前列腺组织而言,其细胞分型目前仍然主要依靠研究者的知识和经验。在已报道的文献中,不同的研究者常使用不同的基因来标注相同类型的细胞。例如,一些研究用KLK2KLK3ACPPNKX3-1标记Luminal细胞,而另一些研究则用KRT8KRT18标记Luminal细胞。因此,随之产生了系列疑问:这些研究是否标记了相同类型的细胞?在已报道的细胞分型标记基因中,哪些基因具有细胞特异性?这种特异性是否会受到疾病(如癌症)、细胞比例、采样位置(前列腺外周带(PZ)和移行带区(TZ))等因素的影响?目前,几乎没有可靠的客观证据来回答这些问题。因此,在单细胞数据中,建立健全的前列腺细胞分型认识论基础是十分重要且迫切的。

来自上海市浦东新区公利医院泌尿外科、男科学部的王忠教授,联合东南大学生物医学工程学院的葛芹玉教授、无锡市妇幼保健院优生优育遗传医学研究所杨蕊副研究员团队,在本刊发表题为“Performance analysis of markers for prostate cell typing in single-cell data”的文章。通过采用无监督聚类、局部离群因子(LOF)评分等方法,在单细胞数据中鉴定出一组稳定且特异的人前列腺细胞分型标记基因。

首先,作者对已报道的人前列腺scRNA-seq研究进行了全面的文献回顾,从而确定了前列腺细胞的主要类型和亚型以及相应的已报道的标记基因集。并根据样本类型的不同,整合了8个人前列腺组织scRNA-seq数据集。采用该数据集对已报道的前列腺细胞分型标记基因进行评价。

鉴于前列腺主要细胞的准确分型对随后的亚细胞分型至关重要,作者首先评估了人前列腺主要细胞分型标记基因的性能。作者绘制了UMAP以可视化相同细胞类型标记基因间的相似性和不同细胞类型标记基因间的异质性。作者认为每种细胞类型的理想标记基因应该在所有样本类型的数据集的UMAP中均表现出相对独立的聚类。结果显示,一些上皮标记基因(AR、TEAD1、IER3、EGR1、DST、S100A6、ID1、SERPINB1、PLA2G2A、CHGB、RARRES1、EZH2SIAH2)和基质标记物基因(C1SFBLN1)间存在明显的离散分布,表明它们对细胞精确分型的能力有限。

通过差异表达基因分析(DEGA)获得的avg_log2FC、pct. 1、diff_pct和p_value_adj四个值被认为是确定某个基因是否能作为特征标记将细胞分配给特定类型集群的关键指标。在以往的研究中,研究人员往往主观地对其设置阈值来筛选特征基因,导致研究之间的细胞分型存在差异。作者运用熵值评价法(entropy evaluation method, EEM)综合计算每个标记基因的avg_log2FC、pct. 1、diff_pct和p_value_adj的信息熵,可有效地解决这一问题。采用这一方法,作者共筛选了8个上皮细胞特征基因(KRT8、KRT18、KRT15、KRT17、KRT19、KRT7、AGR2CLDN4)和26个基质特征基因(CLDN5、SELE、VWF、ENG、IGFBP7、IFI27、EMCN、CD200、C7、VIM、PTGDS、GJA4、RGS5、MT1A、COL1A2、MYH11、ACTG2、BGN、THY1、PDGFRB、NRP1、ANGPT2、COL3A1、COL4A1、COL4A2COL18A1)。Pearson相关分析显示,正常前列腺组织间以及良性前列腺增生(BPH)与前列腺癌组织间的信息熵高度相似(图1A)。这些结果提示,这34个标记基因注释细胞类型的能力主要受疾病状态的影响,而受采样位置和细胞比例的影响小。此外,作者还计算了总体信息熵与秩和,提出KRT18、KRT8CLDN4是人前列腺组织中上皮细胞分型的TOP3稳健标记基因;IGFBP7、VIMIF27是前列腺基质细胞分型的TOP3稳健标记基因(图1B)。

接着,作者采用K-Means聚类和F1评分对上述34个细胞分型标记基因进一步验证。结果显示,基于8种上皮标记基因平均表达水平,非上皮Seurat簇在几乎所有类型的数据集中均表现出与上皮Seurat簇不同的聚类模式(图1C)。同样地,基于26个基质标记基因平均表达水平,基质Seurat簇与在所有类型的数据集中与非基质Seurat簇明显分离(图1D)。且34个细胞分型标记基因的F1得分均超过0.8。这些结果均提示,这34个细胞标记基因对前列腺上皮与基质细胞的分型能力是稳健且特异的。

图片

图1. 人前列腺细胞标记基因的性能分析。

最后,作者对人前列腺亚细胞分型标记基因进行评价。结果显示,同一细胞类型的标记基因在8个数据集中的分散程度存在明显差异,表明不同前列腺样本类型的亚细胞分型的稳定性相对较差。鉴于亚细胞标记基因常呈现共表达,作者计算了LOF评分,以严格定量地识别UMAPs中异常离散分布的基因。如图1E所示,Luminal细胞标记基因ARDPP4,Basal细胞标记基因MMP7、TEAD1KRT13,Club细胞标记基因SCGB3A1,Hillock细胞标记基因KRT13,内皮细胞标记基因IGFBP7CD200平滑肌细胞标记基因RGS5,周细胞标记基因RGS5NRP1的LOF评分在所有数据集中均大于1。这些结果提示,它们的亚细胞分型能力均不稳定。因此,将这些基因剔除后,作者重新建立了一个相对稳定的前列腺亚细胞分型标记基因集。为了进一步验证该基因集中的各亚细胞分型基因,作者在超过60%的数据集中计算了Luminal、内皮细胞、Basal和成纤维细胞标记基因的F1评分,Luminal标记基因KLK2、KLK3、KLK4、NKX3 -1STEAP2,Basal细胞标记基因KRT15、KRT17KRT19,成纤维细胞标记基因APOD、FBLN1、FGF2、PDGFRAFBLN2,内皮细胞标记基因CLDN5、SELE、VWF、ENG、IFI27、EMCNCDH5ZA在大部分数据集(80%)中的F1评分均大于0.6,表明它们对前列腺亚细胞分型具有较高的特异性和稳定性。仅在一个数据集中计算了平滑肌细胞标记基因的F1评分,MYH11ACTG2对平滑肌细胞分型具有较高的特异性,F1评分大于0.6。由于Club、hillock、神经内分泌、肌纤维和周细胞的标记基因的稳定性和特异性较差,因此未对其进行进一步验证。尽管如此,作者仍为这些类型的亚细胞的分型标记基因提供了一个客观的初步评估(图1E),以帮助研究人员在进行该类型亚细胞分型过程中做出适当决策。

总之,上述研究结果将为在单细胞数据中选择适当标记基因来精确注释人类前列腺细胞类型提供可靠的客观证据。

文章来源

免费全文下载链接:

https://www.sciencedirect.com/science/article/pii/S2352304223004403

引用这篇文章:

Shen Y, Fei X, Xu J, Yang R, Ge Q, Wang Z. Performance analysis of markers for prostate cell typing in single-cell data. Genes Dis. 2024;11(6):101157. 

上一篇: 全麻气管插管,肌松药是必须的吗?

下一篇: 【衡道丨干货】术中冰冻快速诊断技术——术...


 本站广告