法医测序实用集合篇|如何利用千人基因组筛选SNP panel 位点→

group
date
Feb 24, 2025
slug
forensic_tool_1
status
Published
tags
forensic
summary
人类遗传变异的高通量解析为精准法医学与群体遗传学研究提供了全新视角。单核苷酸多态性(SNP)因其高密度分布与稳定遗传特性,成为构建个体识别、族群推断等关键技术的理想标记。然而,如何从海量变异中筛选出兼具高多态性、低群体偏倚及技术兼容性的SNP组合,仍是实际应用的核心挑战。本文通过多维度指标优化与算法策略,构建高效SNP panel,满足法医学、医学研究等场景的精准需求。
type
Post

千人基因组计划

  • 千人基因组计划(英语:1000 Genomes Project, 1KGP)启动于2008年1月,是一项国际研究工作,目标是迄今建立最详尽的人类遗传变异目录。
  • 该项目的主要目标是创建一个完整而详细的人类遗传变异目录,可用于将遗传变异与疾病联系起来的关联研究。该联盟旨在发现>95% 的变异(例如 SNP、CNV、插入/缺失),其中次要等位基因频率在整个基因组中低至 1%,在基因区域中低至 0.1-0.5%,以及估计变异等位基因的种群频率、单倍型背景和连锁不平衡模式。
  • 数据下载地址
如果你需要根据自己的研究课题进行相应的SNP连锁位点的筛选,你可以从以下几个方面进行考量

1. 长度筛选

筛选意义

  • 法医学需求
    • 法医样本(如陈旧血迹、骨骼、毛发)常因环境降解导致DNA断裂,片段长度普遍较短。
      选择短片段可确保:
    • PCR扩增成功率提高:短片段更易从降解DNA中扩增,降低实验失败风险。
    • 兼容常规检测技术:适配毛细管电泳(CE)或二代测序(NGS)的片段分析范围。
  • 质量控制
    • 避免因片段过长导致数据丢失或覆盖不均,确保分型结果稳定可靠。

2. 无重组热点

筛选意义

  • 提升个体识别能力
    • 多个SNP连锁构成单倍型时,其组合多样性呈指数级增长(假定每个位置为2等位基因,如5个SNP可产生 2^ 5=32 种单倍型),显著提高个体区分度。
  • 遗传稳定性保障
    • 排除重组热点区域可避免单倍型因重组事件被破坏,确保:
    • 单倍型稳定遗传:亲子鉴定中单倍型传递符合孟德尔定律,无因重组导致的矛盾结果。
    • 群体频率计算准确:单倍型频率在群体中保持稳定,减少法医统计学误差。

3. MAF 过滤

筛选意义

  • 平衡多态性与实用性
    • 最小等位基因频率(MAF)>0.1确保:
    • 高多态性:SNP在东亚人群中常见,避免罕见等位基因导致单倍型频率过低。
    • 降低随机匹配概率:高MAF的SNP组合可生成更多单倍型类型,减少无关个体偶然匹配的可能性。
  • 适应目标人群
    • 例如:针对东亚群体优化标记选择,避免因人群特异性(如欧洲人群高频SNP在东亚罕见)导致的鉴别力下降。

4. Ae(有效等位基因个数)

筛选意义

  • 量化鉴别能力
有效等位基因数 𝐴𝑒,(𝑝𝑖为等位基因频率)反映标记的个体区分效能。
notion image
𝐴𝑒越大意味着:
  • 高信息含量:单倍型在群体中分布广泛,可覆盖更多遗传差异。
  • 匹配概率极低:满足法医高鉴别力要求。
  • 标准化阈值
    • 国际法医遗传学会(ISFG)建议使用高鉴别力标记,确保结论的法庭科学有效性。

5. FST 计算

在法医遗传学中,FST值(群体间遗传分化指数)用于衡量不同群体间遗传差异的程度。若您希望进一步优化筛选标准,特别是增强SNP panel的群体区分能力(如族群推断),可引入FST值作为补充筛选条件。以下是FST值的科学意义及其在筛选中的具体应用:

FST值的定义与意义

  • 计算公式:
notion image
其中,𝜎𝑝^2为等位基因频率的群体间方差,ˉp 为等位基因的全局平均频率。
FST范围:0(群体无分化)~1(群体完全分化)。
  • 法医学意义
      1. 族群推断:高FST值SNP在不同群体间频率差异显著,可辅助判断样本的族群来源。
      1. 混合样本解析:群体特异性SNP有助于识别混合样本中不同族群的贡献比例。
      1. 减少群体偏倚:避免选择群体间差异过大的SNP,防止因群体分层导致匹配概率估计偏差。

6. 物理距离

筛选意义

  • 独立性保障
    • 物理距离>10Mb 可近似认为不同单倍型间无连锁(人类基因组平均重组率约1cM/Mb),确保:
    • 独立遗传:单倍型的频率计算符合乘积定律,避免连锁导致的频率高估。
    • 统计模型简化:直接相乘各单倍型频率计算累积匹配概率,无需校正连锁效应。
  • 资源优化
    • 避免选择邻近单倍型造成的冗余信息,最大化有限标记数量的鉴别效能
 
以上为个人经验交流,如有疑问或不同观点建议留言或后台私信

参考:

 

© Willow 2022 - 2025