摘要
经过广泛的研究和开发,我们很高兴推出SAPDA; 一个用于推断定义等位基因的共同祖先种群的程序。
我们开发了SAPDA来解决公开可用程序中的一些限制和弱点,例如ADMIXTURE,STRUCTURE和PCA(包括用于外加推理时基于PCA的nMonte)。SAPDA还为客户提供了与他们与不同人群共享的衍生等位基因或突变相关的重要附加信息。这些信息通过信息丰富的图形和图表来促进,使用户能够可视化有关其祖先的重要信息。
SAPDA包含数百行代码,与其他仅输出1个掺杂百分比表或图表的程序不同,SAPDA输出11个图形和图表,以详细说明用户民族起源的各个方面。此处显示的结果描绘了2个案例的SAPDA输出图;一个英国个体和一个来自苏丹的E非洲个体。SAPDA输出以下内容:
- 根据用户与各种计算器源群体共享的突变的三个混合百分比饼图,基于这些突变的年龄,如图1和图2所示;
- 用户对各种源种群的单一种群共享或GSI(见下面的定义),如图3和图4所示;
- 条形图精确地显示了用户与各种源群体共享的哪个定义等位基因(衍生突变)的群体,用于图5-13所示的3类突变;
- 定义使用者与各种源群体共享的等位基因群体的等位基因频率如图5-13所示;
- 定义使用者和各种源群体之间共享等位基因的那些群体的基因型如图5-13所示;
与基于PCA的程序和程序ADMIXTURE相比,SAPDA具有几个优点。与ADMIXTURE相反,基因流的方向可以用SAPDA推断出来。
PCAs和ADMIXTURE对于种群聚类目的很有用,但对于来自地理上或遗传上更远的种群的混合量没有信息。例如,如果目标是确定W亚洲受试者中E亚洲混合物的数量,那么E亚洲混合物被来自地理上和遗传上更接近的W亚洲人群的混合物所掩盖。因此,如果一个W亚洲人被建模为70%W亚洲人+ 20%S亚洲人+ 9%欧洲人+ 1%E亚洲人,那么W亚洲主题中E亚洲混合的实际量被W亚洲+ S亚洲+欧洲百分比掩盖。下文将进一步讨论这一点。
图1 – 英国用户掺杂百分比基于群体定义不同时间尺度突变与不同群体的突变共享。
图2 – 苏丹用户没有显示与欧洲人和东亚人共享的突变,除了一些较旧的突变
图3 – 英国用户群体定义不同时间尺度突变与不同人群的突变共享
图4 – 苏丹用户的GSI为100%,非洲人,因此表明没有共享人口在最近的时间范围内定义
定义
方法论
用于推断等位基因频率和群体定义等位基因的数据集是映射到Hg37人类参考的1000个基因组3期数据集。该数据集包含8000万个位置的基因型和定义为AFR,EUR,EAS,SAS和AMR的人群的等位基因频率信息。上文的”定义”部分详细介绍了这些种群所包含的亚种群。
图5 – 英国用户在”更深的祖先”水平上与E亚洲人共享189个定义等位基因中的18个,并且在chr16上2个E亚洲衍生等位基因位置的”C”和”T”等位基因是hetrozygous的。
图6 – 英国用户在”更深的祖先”时间尺度上与非洲人共享70个非洲衍生等位基因中的7个。下条形图表明这些等位基因也以较低的频率存在,因此可能与旧石器时代晚期或新石器时代早期从非洲迁出有关。
图7 – 英国用户在”更深层次的祖先”水平上与欧洲人共享24个定义等位基因中的21个
图8 – 苏丹用户在”更深层次的祖先”水平上与E亚洲人共享100个E亚洲人中6个定义等位基因。虽然在东亚人中出现的频率高于非洲人和欧洲人,但它们可能反映了非洲人的偶然突变。
图9 – 苏丹用户在”更深层次的祖先”水平上与非洲人共享35个非洲定义等位基因中的28个
图10 – 苏丹用户在chr2-rs1567803与欧洲人在”更深的祖先”水平上共享”T”欧洲衍生等位基因。这种等位基因在南亚人中的频率相对较高,约为23%,并且可能是青铜器时代前的突变,通过欧亚草原种群传播到南亚,并通过向非洲的回迁事件传播到非洲人。
SAPDA 相对于其他外加剂软件的优势
- ADMIXTURE程序对基因流的方向没有信息。因此,如果一个欧洲用户用ADMIX测试显示2%是非洲人,我们不知道这是由于非洲祖先,还是由于历史上的”回到非洲”迁移事件将欧亚DNA从近东人口传播到非洲人口。另一方面,使用SAPDA,可以通过等位基因频率/等位基因共享条图确定基因流的方向,如图5至图22所示。例如,图4显示了苏丹个体与欧洲人在更深的时间尺度上衍生的等位基因的4.2%。。看一眼图10,可以确认苏丹人与欧洲人共享1个”T”欧洲衍生等位基因的1份,地址为chr2-rs1567803。图4中的底部图显示,该等位基因在南亚人中的频率相对较高,约为23%,并且可能是青铜器时代前的突变,通过欧亚草原种群传播到南亚,并通过向非洲的回迁事件传播到非洲人;
- 在欧洲人中有许多位置是多态的,但在非洲人和东亚人中主要是纯合子祖先。因此,非洲人和东亚人在这些位置都有很高频率的祖先等位基因。例如,如果在ADMIXTURE等计划中将这些职位分配为”非洲人”,那么由于这些职位,E亚洲人将错误地获得增加的”非洲”百分比,反之亦然。SAPDA识别并过滤掉这些位置。
- PCAs和ADMIXTURE对于种群聚类目的很有用,但对于来自地理上或遗传上更远的种群的混合总量没有信息。例如,如果目标是确定W亚洲受试者中E亚洲混合物的数量,则该E亚洲混合物被地理上和遗传上更接近的W亚洲,S亚洲和欧洲人群的混合物所掩盖。因此,如果一个W亚洲人被建模为70%W亚洲人+ 20%S亚洲人+ 9%欧洲人+ 1%E亚洲人,那么W亚洲主题中E亚洲混合的实际量被W亚洲+ S亚洲+欧洲百分比掩盖。这部分是因为E亚洲衍生的等位基因包含在W亚洲,S亚洲和欧洲人群的遗传亚结构中,部分原因是部分的性质,如下一节所述。
图12 – 英国用户在相对接近的”祖先”时间尺度上与E亚洲人不共享任何定义等位基因
图13 – 英国用户在”祖先”水平上不与非洲人共享任何定义等位基因
图14 – 苏丹用户在”祖先”水平上与非洲人共享4个非洲人定义的G突变中的4个
图15 – 苏丹用户在”祖先”水平上与欧洲人没有欧洲人共享欧洲定义突变
图16 – 苏丹用户在”祖先”水平上与E亚洲人没有E亚洲人定义突变
外加剂百分比和GSI之间的差异
重要的是要了解,混合百分比不能准确地量化测试对象和各种计算器源群体之间的基因流或混合量。例如,测试来自世界不同地区的2个人。个人A显示5%E亚洲人,个人B显示10%E亚洲人。基于此,大多数人会认为B比A具有更大的E亚洲基因流或混合物,然而,事实是,我们并不仅仅基于这些混合百分比就知道。原因如下。假设 A 和 B 与计算器源群体共享以下数量的等位基因:
测试对象 |
种族 |
匹配等位基因的数量 |
||
E 亚洲人 |
非洲 |
欧洲 |
||
一个 |
亚洲S |
30 |
5 |
15 |
B |
W 亚洲 |
40 |
10 |
50 |
表1 – 2个用户和计算器源群体之间的匹配等位基因数量
为简单起见,假设计算器中使用的定义等位基因的群体总数对于每个群体都是相同的。因此,W亚洲用户与E Asians共享40个等位基因,而S Asian用户与E Asian用户共享30个等位基因,如上述表所示。因此,我们可以推断,W亚洲个体比S亚洲个体具有更多的E亚洲混合体。
要计算计算器E亚洲外加百分比,我们所做的就是:E 亚洲人 = [30 / (30+5+15)] x 100。我们对所有其他类别执行相同的操作,以获得以下内容:
测试对象 |
种族 |
外加百分比 |
||
E 亚洲 |
非洲的 |
欧洲人 |
||
一个 |
亚洲S |
60% |
10% |
30% |
B |
W 亚洲 |
40% |
10% |
50% |
表2 – 根据表1的结果计算的掺合百分比
请注意,尽管W亚洲个体的E亚洲混合比S亚洲个体更大,如表1所示,但表2显示S亚洲个体具有更高的E亚洲混合百分比。这就是为什么我们不能使用掺杂百分比来客观地量化来自种群的总基因流或掺杂的原因。因此,GSI是对测试个体和计算器源群体之间匹配等位基因数量的一对一比较,应该用于推断来自源群体的基因流或混合物。如图3和图4所示的GSI是SAPDA中输出的指标之一。
图17 – 英国用户在”深祖先”水平上不与非洲人共享任何定义的等位基因
图18 – 英国用户在”深祖先”时间尺度上与E亚洲人共享6个定义等位基因中的2个;chr2-rs12477830 处的 “G” 等位基因的 1 份拷贝,chr2-rs12476238 处的 “C” 等位基因的 1 份拷贝。下条形图表明,这些等位基因在AMR中也以相对较高的频率存在,约为38%,因此表明这些是相对较老的突变,可能可以追溯到旧石器时代晚期,并且早于美洲原住民和东亚人之间的分裂。
图19 – 英国用户在”深祖先”水平上与欧洲人共享2个定义等位基因中的2个
图20 – 苏丹用户在”深祖先”水平上与非洲人共享4个定义等位基因中的4个
图 21 – 苏丹用户与东亚人在“深祖”层面没有共享东亚定义突变
图22 – 苏丹用户在”深祖先”层面上与欧洲人没有欧洲人的定义突变
图23–尒朱川上空的鹰SAPDA结果
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!