单基因座探针VNrIR—DNA纹印等位基因频率的计算方法。
鉴于单基因座DNA纹印等位基因数是一个连续的随机变量,基因频率分布也是一个变量,为了将连续变量基因频率处理成不连续基因频率分布,目前应用较为广泛的是“装箱” ( binning)合并的方法。即将一系列等位基因片段按从大到小的顺序分成若干组,以不连续的分组方式将连续值处理成不连续的数据群。其原则是将相邻的多态片段合并为一组,当作一个等位基因看待,计算合并后的组的频率。目前装箱分组大致有固定箱( fixed - bin)和滑动箱(floating bins)两种分析法。经装箱处理的等位基因频率又称“箱频率”(bin frequency)。
1.固定箱( fixed - bin)分析法。
固定箱分析是一种合并处理办法,根据分子量标准物将连续片段分布人为地转化成一系列不连续数据。DNA图谱上,从大片段到小片段整个范围人为地分成若干个“箱“。箱的界限值确定靠一套标准的片段长度标记(分子量标准molecular size marker)。Lifecodes公司提供的一套标记系统是由限制酶消化后的Lambad、PhiX和T7病毒基因组DNA片段组成,共有30个片段,长度分别为(单位bp):12830,11369,10094,8453,7242,6369,5686,5220, 4822, 4324, 3980, 3675, 3330, 3034, 2863, .2693, 2523, 2352, 2089, 1925, 1789, 1638, 1508,1353,1197,1078,964,872,773,640。30个片段分出31个箱,每个箱的大小范围也就精确地固定下来。GIBCO BRL - 4401AS标记的30个片段长度分别为(单位bp): 22621, 15005, 11920, 9417, 8272, 7422, 6443, 5862, 5416, 4717, 4334, 3813, 3398, 3102, 2877, 2651, 2434, 2214, 2016, 1862, 1673, 1569, 1432, 1288, 1177, 994, 911, 785, 654,527。
箱值范围确定后,凡片段长度落在同一箱内的基因,均合并为一个等位基因。由于箱足够大,能容下5.6%~16.2%的片段长度误差,远远大于1. 5%的测量误差,所以一个箱内可以不止有一个片段,同一箱内等位基因数则可合并计算该箱出现的频率。如果检测条件恒定,群体样本的资料则不会出现因测量误差而引起的频率偏斜。用固定箱法确定的基因频率实际上是箱的频率。因此。无论何人种群体,等位基因数都统一为31个。固定箱分析法将连续等位基因分布简化为一张频率分布表格,它既照顾到测量误差,又得到一套不连续分布的基因频率,同时也能大致反映出基因座多态性某些特征。装箱基因座的有效频率箱多的比少的多态性要高。
装箱合并所提供的是保守的箱频率数据,但是在群体调查数据中,可能在某个箱中没有片段或仅有一条片段,致使箱频率值出现极端的低数量值,例如上述D14S13基因座的1、2、28、30和31箱未见有片段,29箱仅一条片段,这5个箱的频率范围大约在10-8。10-14之间。如此极低频率在实际应用中应尽量避免使用。另外按照统计学X2检验要求数据运算最低为5条片段,因此可将低频率的箱再合并。这样处理之后,无论从统计学原则或实际应用原则均可以接受了。
Copyright 2017 All right reserved.北京科鉴基因中心 版权所有
地址:北京市海淀区中关村南大街32号中关村科技发展大厦B座108
电话:010-57281726 全国热线:400-809-1985 邮编:100080
备案号:京ICP备12051704号-6