一、EcoTyper框架:
1、计算机纯化:此步骤能够从大块组织转录组中预测细胞类型特异性基因表达谱。
Inpute:预测、插补,由已知基因型预测未知基因型并对缺失的数据进行补缺。
实现imputation的常用软件:
1. IMPUTE
2. Mach 1.0, Markov Chain Haplotyping
它由以下部分组成:计算机纯化概述、特征基质设计、细胞类型分数估计和表达纯化。
EcoTyper的第一步是从体组织转录组中预测细胞类型特异性基因表达谱,默认情况下,EcoTyper使用CIBERSORTx。
一旦生成并验证了signature matrix,则将CIBERSORTx应用于均匀处理的批量组织转录组数据集( a dataset of uniformly processed bulk tissue transcriptomes),以枚举signature matrix中每种细胞类型的频率。然后,这些估计值用于估算每个输入样本的细胞类型特异性基因表达谱。只有具有足够信 的基因才能归因每种细胞类型,从而最大限度地减少虚假表达估计对下游结果的影响。
以下公式和目标总结了EcoTyper使用的关键CIBERSORTx步骤:
(1)标志矩阵(signature matrix)设计:
为了对人类癌症中的 12 种主要细胞类型进行反卷积,于是采用分层策略连续应用了两个标志矩阵,每个特征矩阵都曾在实体瘤中验证过。
首先,使用 TR4 对上皮肿瘤中的主要细胞区室进行去卷积,TR4 是一种由上皮 (EPCAM)、内皮 (CD31)、成纤维细胞 (CD10) 和体免疫细胞 (CD45) 群体组成的特征矩阵,这些细胞是从 NSCLC 患者新鲜切除的手术肿瘤样本中分选出来的。
为了解析白细胞表型,他们采用了LM22,这是一种经过广泛验证的特征矩阵,由22个功能定义的人类造血细胞亚群组成。根据映射方案将LM22亚群聚合为B细胞,浆细胞,CD8 T细胞,CD4 T细胞,自然杀伤(NK)细胞,单核细胞/巨噬细胞,树突状细胞,肥大细胞和中性粒细胞。
由于嗜酸性粒细胞在很大程度上检测不到,因此将其排除在进一步分析之外。
(2)细胞类型分数估算(Cell type fraction estimation)
CIBERSORTx独立应用于TCGA发现队列中的每种肿瘤类型(外部数据集),使用LM22的B模式批量校正,TR4无批次校正,无分位数归一化,以及其他默认参数。为了统一标志矩阵,将LM22的白细胞组分重新缩放为每个样品中的总和为1,然后乘以TR4估算的总免疫含量,得到矩阵F (等式1)。
(3)表达纯化Expression purification
为例预测细胞类型特异性基因表达谱,我们为CIBERSORTx的高分辨率模块提供了两个输入:发现队列中所有12种细胞类型的预测部分和包含所有肿瘤和相邻正常样本的批量表达矩阵(外部数据集),我们将分析限制在蛋白质编码基因上,使用默认参数运行高分辨率表达纯化。得到矩阵G(g*n*c)(等式2)
2、细胞状态发现:此步骤能够鉴定和定量细胞类型特异性转录状态。
它由以下部分组成:细胞状态发现、排名选择和细胞状态质量控制。
(1)细胞状态发现
EcoTyper 利用非负矩阵分解 (NMF) 的变体以及专用的启发式方法来识别、恢复和验证细胞状态。
总的来说,这些方法:
(i)从矩阵G中从头识别细胞状态同时最大限度地提高状态发现的阳性预测价值 (PPV);
(ii)估计每个样品中每个已鉴定细胞状态的相对丰度;
(iii)能够跨平台恢复外部表达数据集中的细胞状态。
NMF非负矩阵分解为W(g*k)、H(k*n)
g:genes n:samples k:matrix rank
3、生态型发现:此步骤可以将细胞状态共同分配到多细胞群落(生态型)中。
4、细胞状态和生态型恢复:此步骤支持恢复外部表达数据集中的细胞状态和生态型。
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!