如果仅用某位点中的一个等位基因分析其群体遗传结构,不能充分利用其遗传变 异信息,结论是片面的,故须对每个基因分别进行分析。但是,利用不同基因所 作的分析其结论往往不同,难以统一。传统的解决方法之一是对基因频率矩阵进 行主坐标分析,将各群体的主坐标作为新的综合指标,再以散点图的形式映射到 二维或三维空间中,从而帮助研究者从整体上分析人类群体遗传结构的基本规律。
因而,在群体遗传学研究中被广泛应用但是,尽管主坐标分析能在二维或三维空 间中显示各群体的遗传结构,却不能揭示各群体之间的内在关系。本研究认为, 将图论方法与主坐标分析有机结合,利用图论方法构建各群体的最小 生成树(minimalspanning中心化基因频率矩阵中的元素为数值变量资料,tree, MST),并把最小生成树整合到主坐标散点图可选择欧氏(Euclidean)距离、马氏 (Manhattan)距上,即可进一步揭示主坐标散点图中各群体之间离、曼哈顿(Block 区组)距离、Bray-Curtis距离或的内在遗传结构关系,称之为图论主坐标分析 Kulczynski距离等不相似性测度构建群体(dK)间 (graphtheoryprinc;palcoordinatesanaiysis)dcRibli的nn阶不相似性矩阵;③将不相似 性测度进行0.5dK转化,该转换可保证在计算过程中保持原有的不相似性;
④对 转换后的矩阵进行谱分解获得特征根L及其对应的特征向量U,并进一步计算各 主坐标的贡献率及其累计贡献率;
⑤根据Y=-u计算主坐标值,取前1、主坐标绘 制二维主坐标散点图。
1.2.2按图论原理求过m维空间n个点的最小生成树 ⑴图论与最小生成树的基本概念图论是近年来较活跃的数学分支之 一,其研究对象为图。图[7]是指某类具体事物的顶点(vertex,或节点note)以及 它们间的联系(图1)。节点与节点之间用线段联系,称为边(edge,或支路branch);
某边的端点称为与该边的关联(incident),与同一边关联的两个端点称为邻接(adjacant);起点与终点重合的通路为回路(circuit)。若图中两端点间由一条通路 连接,则两端点是联通的(connected),该图称为联通图;
不含有回路的连通图 称为“对”,树中的边称为树枝。可以证明树中任两顶点间必有一条且仅有一条通 路。如果T图是G图的一个生成子图,且它又是‘树”,则T是G的生成树 (spanningtree)。设一个生成树的边的长度之和为权,则具有最小权的生成树称 为最优树(optionaltree)或最小生成树。有n个顶点的树,可能会有n-2个生成树, 但仅有一个最小生成树。构造最小生成树的方法常用避圈法或‘破圈法”。避圈法” 中又分为以权重为主的Kruskal法和以点为主的Prim法,‘破圈法”则以逐步删除 边”为基本思路。
⑵最小生成树的生成步骤①以基因频率矩阵X为基础,利用欧氏距离 构造权矩阵;
②以权矩阵为基础,利用Kruskal法构造最小生成树。首先选择并 连接权重或相似性最大(或距离最短)的两点,再在剩余的点中选择与这两点之 一相似性最大的点与之连接;
再以相似性大小,逐次把剩余的点与巳连成的点连 接起来,直至把所有点连接完为止,即可形成一个最小生成树。
1.2.3分割最小生成树用图论中求‘颈”的方法[w]分割最小生成树 (MST),对群体进行分类。具体步骤为:①求‘生干,:n个点由(n-1)个边互相 连接,其中有两个端点仅有一条边连接,其余点至少有两条边连接,因而构成了 一条无回路的链,被称为干”。其中,边数最多的干称为MST的‘主干”或直径② 求子主干”以MST主干上的 的一条干,称该干为该点的子主干,子主干的边数为该点的‘深度”找 ‘颈”规定一个大于1的整数a,在主干上找出深度a点的子主干,诸子主干公共部 分中深度为零的各点间的边长为颈”在图中删除颈,使MST分割成若干部分,从 而实现群体分类。
1.2.4将最小生成树整合到二维主成分散点图中构建图论主成分分类 图根据最小生成树上n个点间的链接关系将二维主成分散点图中的n个点(群体) 连接起来,并把上述确定的群体分类用虚线将各类围起,得出‘图论主成分分类 图”。
采用GraphMagics-1.0.1(byDumitruCiu-batii.http:
//www.downlinx.com/proghtmlhttp://www.downlinx.com/proghtml/617/61756.htm) 和PAST-1.30(byHammer[11].http://folk.uio.no/ohammer/past/download.html)两个 软件完成上述所有运算。2实例分析--中国26个汉族人群HLA- A位点群体遗传空间结构的图论主坐标分析 2.1群体遗传学资料根据不同地理环境,收集中国26个汉族群体的 HLA-A基因多态性群体遗传学调查数据,以各基因的基因频率为指标进行统计, 标准为:①样本含量大于100;②设一个人群的基因频率为一套,对每套数据先进 行c2检验,剔除不符合Hardy-Weinberg定律者;
③用加权法合并不同研究者对同 一地区同一民族所报道的基因频率数据。以上资料组成中国汉族HLA-A位点的基 因频率矩阵。该位点中的等位基因包括A1,A2(A203),A3,A5,A9(A23,A24, A2403),A10(A25,A26,A34,A66),A11(A11.1,A11.2),A19(A29,A30, A32,A33,A34,A74),A28(A68,A69),A36(表1)。
2.2中国26个汉族人群HLA-A位点的图论主坐标分析对表1数据所构 成的HLA-A基因频率矩阵作中心化变换后进行主坐标分析。通过选取多种不相似 测度构建不相似矩阵,发现用欧氏距离时的前1、主坐标的累计贡献率较大,达 到77.35%,因此本研究选用欧氏距离不相似测度对中国26个汉族人群HLA-A位 点的群体遗传结构进行图论主坐标分析,图1是其图论主坐标分类 解释了HLA-A位点遗传结构变异性的54.63%的信息;
第2主坐标的贡 献率为22.7%,解释了HLA-A位点遗传结构变异性的22.72%的信息,二者累积贡 献率为77.35%,解释了HLA-A位点遗传结构变异性近80%的信息,说明降维效果 较好。
⑵图中以上海汉族群体为界,将中国汉族群体区分为南方、北方两大 汉族群体,沿横轴自左至右基本形成了自南向北的遗传地理梯度。该结果符合中 华民族源与流的客观规律。
⑶用求‘颈”法分割最小生成树,又可把南、北方汉族两大群体分为若 干亚群体,亚群体内各群体间HLA-A位点遗传结构相似。
⑷在散点图中位置相邻的群体,并非同属一 s^chLSnnTopua^fdfmA-Alocusin类群体,需根据最小生成树的链接关系而定。例 如,甘肃与河南两群体的空间位置虽很近,但它们在最小生成树中不相连,二者分属于不同的群体类型:甘肃群体与陕西群体相连,同属西北汉族群体;
而河南 群体与江苏群体相连,江苏群体又与安徽、河北两群体相连,四个群体同位于一 个地理区域。
3讨论 3.1图论主坐标轴分析中的不相似距离测度的选择在图论主坐标轴分 析中,可以用多种距离测度构建不相似距离矩阵。实际工作中选择何种距离测度, 需根据以下两方法决定:①根据前1、主坐标的累计贡献率选择:例如,本研究 通过选取多种不相似测度构建不相似矩阵,发现用欧氏距离时的前1、主坐标的 累计贡献率最大(77.35%),所以,选用欧氏距离测度对中国26个汉族人群HLA-A 基因座的群体遗传结构进行图论主坐标分析;
②根据距离测度的群体遗传学意义 选择距离测度:在主坐标散点图中,虽然各种遗传距离测度都代表群体之间的遗 传距离,但它们的群体遗传学意义却有所不同。遗传距离(geneticdistance)是衡量 群体间遗传分化程度和遗传差异大小的重要参数。通常,遗传距离是根据一定的 基因突变理论模型而设计的。这些理论模型包括无限基因突变模型、逐步突变模 型和核苷酸序列突变模型等。然而,本质上遗传差异的任何数值测度,只要是在 基因频率水平上,由不同群体间的数据计算而来,皆可定义为遗传距离。因此, 遗传距离的计算方法有多种,分别适用于不同资料类型。本研究所用的欧氏距离 (euclideandistance)是一种几何距离。几何距离作为遗传距离的测度,虽然简单 直观,但没有一个理论突变模型作为基础,仅是根据解析几何的数学方法进行计 算。尽管如此,Takezaki和Nei(1996)[16]在用不同距离测度重构种群分化的拓扑 (topology)结构的模拟研究中,发现几何距离在重构种群分枝的拓扑结构时更加 准确。因而,几何距离仍然是测量群体遗传结构变异性的有效测度。除欧氏距离 外,还有马氏距离(euclideandistance)、弦距离(chorddistance)等几何遗传距离,在 图论主坐标分析中,根据其累计贡献率可以选择应用。的主坐标分析能在二维或 三维空间中显示各群体的遗传结构,却不能揭示各群体之间的内在关系。图论主 坐标分类图既可显示各群体的遗传结构特性,又可利用最小生成树的连接关系揭 示各群体间的内在联系;
图论主坐标分析比单纯的主坐标分析和单纯的图论聚类 分析效果更好,是分析人类群体遗传结构的一种理想方法
扩展阅读文章
推荐阅读文章
推荐内容
钻爱网 www.zuanai.cn
Copyright © 2002-2018 . 钻爱网 版权所有 湘ICP备12008529号-1