法医遗传学中的三代测序及其应用→

group
date
Dec 26, 2024
slug
forensic-tgs
status
Published
tags
forensic
bioinformatics
summary
尽管二代测序已经在当前多个法医领域展露头脚,其在多重位点检测、低浓度样本分析和降解样本研究中展现了强大的潜力,但其固有的短读长限制可能导致对复杂基因组结构、重复区域和大片段变异的解析存在一定局限。正因如此,而Oxford Nanopore Technologies(ONT)和PacBio为代表的第三代测序技术(TGS)的出现和发展,为法医遗传学和物证学研究带来了新的可能。
type
Post

第三代测序技术的核心特点包括

  1. 实时测序能力:ONT的纳米孔测序技术可直接对样本进行分析,实现数据的实时输出。这在需要快速获取信息的法医案件处理中尤为重要,如灾难事故中的身份鉴定或时间敏感的犯罪现场分析。
  1. 单分子分辨率:第三代测序技术无需PCR扩增,能够直接对单个DNA或RNA分子进行测序,从而避免扩增过程中可能引入的偏差。这使得其在低起始量或降解样本(如古代DNA或环境DNA)处理中表现出色。
  1. 长读长测序(LRS):相比二代测序的短读长(通常在150-300 bp范围内),TGS可以生成数千至数百万碱基的长读长数据。这种能力对解析复杂的重复序列、结构变异和单倍型分型具有独特优势,为法医中的个体识别和复杂案件分析提供了新的视角。

主流的三代测序技术和平台

  • pacbio: Pacific Biosciences (PacBio)采用一种称为单分子实时 (SMRT) 测序的策略。PacBio 测序的显著特点之一是它能够生成超长的读长,平均读长超过 10 kb 且可达 100 kb。这种能力有助于克服重复基因组区域、结构变异和复杂基因组相关的测序挑战。PacBio 测序仪,包括 Sequel II、Sequel IIe 和下一代 Revio 系统,利用 SMRT(单分子实时)技术提供高度准确的长读长测序。
  • ont: 纳米孔测序的概念自20世纪90年代中期提出,但直到2014年,第一款商用纳米孔测序仪——Oxford Nanopore Technology(ONT)的MinION才正式面世。MinION体积仅为10 × 3.2 × 2厘米,重量90克,通过USB供电,是市场上最小的测序仪。其核心技术依赖于嵌入测序流动池膜中的纳米孔,每个孔由专用集成电路(ASIC)控制。当单链DNA(ssDNA)通过纳米孔时,离子电流的变化会被记录下来,不同的核苷酸序列会产生特定的电流模式,这些模式可通过“碱基识别”过程转化为核苷酸序列。

长读长测序的数据分析

  1. ONT碱基识别
    1. 与 PacBio 测序的 BAM 文件为输出不同,ONT 测序的第一步是碱基识别(basecalling),在这一过程中,纳米孔测序仪检测到的电信号被转换为碱基序列用于后续的相关分析。目前ONT提供了多种碱基识别算法,包括 Albacore、Guppy 和 Bonito 等。
  1. 质量控制
    1. 长读长数据的质量控制与短读长数据类似,但在方法原理上存在一些差异。常用程序如 FastQC 可以用于评估基本指标,但也有一部分专门用于长读长测序质控的软件。例如,针对 ONT 测序,常用的质控工具包括 NanoPack2、pycoQC 和 MinIONQC。这些工具可以分析读长分布、质量评分等指标,为下游分析提供数据支持。在PacBio测序数据分析中,质控和子读段过滤是确保数据准确性的关键步骤。初始质控阶段通常使用工具如 pbvalidate 来检查BAM文件的完整性,而 SMRT Link 可提供读长、质量评分等测序指标的概览。
  1. 基因组组装和比对
    1. LRS 产生的数据需要对应的复合特点的比对方法,例如,Minimap2 和 GraphMap 就是专为长读长设计的高效比对工具。同时,在长读长数据组装方面,Miniasm 是一种比较高效方法,可生成与原始序列误差率接近的 unitigs,而不进行组装一致性序列的构建。Canu 专为处理来自 PacBio 和 Oxford Nanopore 等技术的高噪声序列设计,而 Flye 则基于重复图(repeat graph),提供从原始序列到打磨 contigs 输出的完整组装流程。
  1. 纠错和一致性序列
    1. 尽管长读长测序技术取得了显著进步,错误校正方法仍是降低错误率的关键。针对校正和一致性序列生成的工具包括 MARVEL、PECAT、Racon、Nanopolish(用于MinION数据)、medaka(专用于ONT)以及 MarginPolish-HELEN 管道(也专用于ONT)。这些工具各具特点,可提升纳米孔测序结果的准确性和可靠性。
  1. 变异检测
    1. 在第三代测序数据中,变异检测通常使用深度学习工具。DeepVariant 是一个常用来检测变异的深度学习框架,当其与 PEPPER 和 Margin 结合时,形成了一个强大的且有高灵敏度单倍型检测管道,其可适用于 SNP 和 InDel 的检测。Clair3 是另一种基于深度学习的方法,已集成至 ONT 的 EPI2ME 工作流程中,提供了基于堆叠(pileup)和全对齐算法两种主要设计。那么对于结构变异(SV)的检测,新发布的 Sniffles2 具备更高的精确度、速度,并能有效应对长读长的群体规模结构变异检测。除此之外,Picky、NanoSV 和 NanoVar 也是进行 SV 检测的不错的方法。而对于单倍型定相, WhatsHap(也可用于短读长)和专用工具如 longphase 都是不错的选择。
  1. 核苷酸修饰检测
    1. 在 ONT 测序中,尽管无需进一步实验即可检测碱基修饰,但数据分析需要使用不同的工具和策略。当前,通过 ONT 工具的分析流程通常从使用预训练模型进行碱基识别开始,以检测特定的修饰。这可以通过 Guppy、Dorado 或 Bonito 实现。

基于三代测序的法医应用方向

LRS 方法除了快速、单分子和实时测序外,还具有长读长和相对较低的实施成本(至少对于 ONT 而言)。不是将 LRS 作为优于 SRS 的技术,而是展示其特性如何使更好地应用于不同的法医测序领域。这两种技术在基因组学中都有其地位,LRS 不会在长期内取代 SRS;事实上,两者可以在研究实验室中共存,用于互补彼此的结果并开发新技术,以更好地推进法医研究。
到目前为止,ONT 在法医学中的使用比 PacBio 更多:在 Pubmed 上快速搜索术语 Oxford Nanopore + forensics 和 PacBio + forensics,前者会返回更多的检索结果。当然PacBio 比 ONT 更昂贵,通常需要专用设施,这阻碍了它在法医环境中的实施。尽管如此,PacBio 仍然是一种高度准确的技术,其环状共有测序 (CCS) 读长能够对线粒体 DNA、转录组学和宏基因组学进行强大的分析,这些都可用于法医测序。
notion image
💡
Figure 3 - Main benefits provided by long-read sequencing to forensic genetics.
 
利用长读长测序进行法医遗传学研究的一些优势
  1. STR分析:传统的STR检测是使用金标准毛细管电泳(CE)进行的,但是在传统的 CE 分析中,无法区分相同长度但序列存在差异的STR,但这些微小的差异在法医环境中可能非常相关,因为它们可以提高信息量。SRS 技术则可以通过提供有关 STR 核心序列和侧翼区域的信息来增加识别的分辨率。那么LRS 技术除了可以检测到相关的序列信息以外,因其长读长的特点,可以对更长的 STR 甚至 VNTR(可变数串联重复)进行整个分析进一步提高辨别能力。
  1. 法医DNA表型分析:在 2000 年代后期,出现了一个名为法医 DNA 表型 (FDP) 的新研究领域。它旨在通过仅分析 DNA 中的目标 SNP(有时是 InDel)来预测个体的外部可见特征 (EVC)。Long reads 可以更好地表征参与给定表型的复杂结构变异检测,同时对于长程单倍型的识别也提供了潜在的检测可能性。
  1. 调查遗传谱系学:调查遗传谱系学(IGG),也称为法医遗传谱系学,是一种新的方法,它将全基因组SNP数据分析与系谱研究相结合,以推断远亲关系并产生调查线索。长距离单倍型数据可以增强分析,从而有可能检测到更加罕见的共享片段。通过从长读长测序数据生成的较长的需定相序列片段,也可能将新型多态性(例如大单倍型)用于 IGG。
  1. 线粒体DNA:对于法医应用,线粒体 (mtDNA) 比核 DNA 具有一些优势。它的体积小(约 16.6kb)、细胞内拷贝数多以及环状基因组使其在降解样本中保存得更完好,与核 DNA 相比,测序成本相对较低。长读长可以对完整的全长线粒体基因组进行测序,有助于检测 mtDNA 序列中发生的替换、插入、缺失和复杂/大重排,这些都对法医学中的线粒体研究有益。
  1. 宏基因组:a) 人类身份识别,因为一些研究表明个体的微生物组环境可能是独一无二的; b) 尸检间隔时间估计,因为微生物组在身体分解的每个阶段都会发生变化; c)地理推断,因为微生物组可以在一个国家或城市的不同地区发生变化,例如,在物体上发现的微生物组可能有助于确定其起源。PacBio 和 ONT 都是宏基因组学分析的合适选择。虽然 PacBio 更准确,但 ONT 更便宜。
  1. 甲基化检测:标准 DNA 分析无法检测到甲基化,因此无论选择哪种方法,都需要事先进行亚硫酸氢盐处理步骤。该步骤需要大量的起始 DNA 并可能导致 DNA 损伤,这对于法医来说并不严谨,因为低数量/质量的样本在该领域很常见。长读长测序有潜力通过检测亚硫酸氢盐转化过程中可能受损区域的甲基化、探测芯片中未靶向的区域以及提供包括变异位点和表观遗传修饰的长片段序列来增强法医中的甲基化相关分析。
LRS 可能能够分析较长的标记物(例如,大单倍型、较长的 STR 甚至 VNTR),开发新的研究遗传谱系策略,或分析用于识别体液和组织的全长转录本。结合甲基化分析,无需进一步处理亚硫酸氢盐即可直接确定甲基化,有助于区分同卵双胞胎,增强体液和组织识别,并通过即将推出的基于长程表观遗传单倍型的模型帮助预测年龄。总体而言PacBio 实现了更高水平的准确性和可重复性,但与 ONT 相比,它需要昂贵的设备并且缺乏方案灵活性。虽然 ONT 可以使用便携式设备直接在现场进行测序和基因分型分析(例如,在为大规模灾难受害者识别而建立的临时环境中),但其错误率是一个主要弱点,可以通过针对更高覆盖深度的分析来缓解。尽管如此,这两个平台在成本和准确性方面都在不断发展,选择哪个平台的决定将取决于研究目标和资源。

参考文献

  1. Ferreira MR, Carratto TMT, Frontanilla TS, Bonadio RS, Jain M, de Oliveira SF, Castelli EC, Mendes-Junior CT. Advances in forensic genetics: Exploring the potential of long read sequencing. Forensic Sci Int Genet. 2025 Jan;74:103156. doi: 10.1016/j.fsigen.2024.103156. Epub 2024 Oct 10. PMID: 39427416.

部分名词缩写

SRS:short-read sequencing 短读长测序
LRS:long-read sequencing 长读长测序
CE:capillary electrophoresis 毛细管电泳
VNTRs:Variable Number Tandem Repeats 可变串联重复
STR:Short Tandem Repeat 短串联重复
SNP:Single Nucleotide Polymorphism 单核苷酸多态性
IGG:Investigative Genetic Genealogy 调查遗传谱系学

© Willow 2022 - 2025