前沿精读 →

group

article

date

Jan 18, 2025

slug

forensic_article_1

status

Published

Abstract

近几十年来，法医 DNA 分析领域取得了飞速发展。大规模并行测序（MPS）的整合研究显著扩展了法医研究工具，除了身份鉴定，也扩展到表型预测和生物地理祖先的推断。这种转变在常规 DNA 分析无法识别单个嫌疑人的情况下尤为重要。虽然基于生物年龄的推断可能对于法医补充分析很有价值，但是其涉及复杂且耗时的 DNA 甲基化分析。本研究探索并验证了 Oxford Nanopore Technologies （ONT）在实时和直接测序上进行法医分析的性能。文章使用了普遍的法医标记物，即 STR、SNP、INDel、线粒体 DNA （mtDNA）和基于甲基化的年龄推断，并将法医遗传学和表观遗传学分析结合在一个工作流程中。

在我们的研究中，使用 ONT 标准适应性直接测序方法对来自六个匿名个体的 DNA 进行了测序，每个样本的靶向reads数的平均百分比为 6.6% 至 7.7%。将 ONT 数据与标准 MPS 数据以及 Illumina EPIC DNA 甲基化数据进行比较。Basecalling 采用 ONT 推荐的软件包。TREAT 用于 ONT 数据的常染色体以及 Y 染色体的 STR 分析，在符合等位基因读取深度阈值下实现了 90-92% 的正确检出率。由于序列深度不足其中两个低质量样品的 InDel 分析存在难度，而其余四个样品检出率以及正确率为60.9% 和 97.8% 。SNP 分析实现了 98% 的检出率，其中只有两个错配和两个错误等位基因。对于 Horvath 分析 ONT 生成的 DNA 甲基化数据与 EPIC 数据的皮尔逊相关系数为 0.67 至 0.97。在序列数 <30 和 <20 时，其他年龄相关标记的皮尔逊相关系数在0.14 (ELOVL2)和0.96 (FHL2)之间。尽管从我们的靶向测序方法中排除了mtDNA，但序列片段覆盖了整个mtDNA，平均reads深度为21-72，且表现出了与参考基因组数100%的一致性。

我们使用ONT适应性测序对传统法医中和年龄相关的DNA甲基化标记的探索性研究显示，大量标记的测序准确度很高。未来的研究必须解决三个关键方面:明确的数量和质量控制以及准确的检测阈值，优化法医个案工作中的预期DNA投入量，以及解决与表型和祖先分析相关的伦理问题以防止种族偏见。

Introduction

在20世纪80年代末，分子分析技术的应用彻底革新了法医学领域，引入了DNA指纹分析技术，随后又发展出聚合酶链式反应（PCR）技术。这些技术进步为犯罪现场调查中的身份匹配以及亲子鉴定提供了强有力的支持。进入21世纪，大规模平行测序（MPS）的整合进一步提升了法医学工具的能力，不再局限于身份鉴定，还引入了表型特征分析和生物地理来源推断等新功能。

理想情况下，一套全面的法医遗传工具应能够在单一检测中整合基因身份识别、外貌预测、生物地理来源（BGA）以及生物年龄预测。为此，已经产生了若干商业化和非商业化的法医DNA表型预测（FDP）工具，这些工具结合了外貌和BGA标记。这些分析通常采用相似的工作流程，包括扩增和大规模平行测序（MPS）。然而，年龄预测是一个显著的例外。在上述所有基于MPS的年龄估算工具中，DNA甲基化的检测需要一个重亚硫酸盐处理步骤，从而需要单独的样本处理和分析流程。因此，要在单一检测中结合遗传和表观遗传分析，需要采用一种替代的测序方法。

DNA研究的最新进展展示了牛津纳米孔技术(ONT)引入的直接长读长测序技术。ONT装置使用一种带有蛋白质纳米孔的膜，每一个通过小孔的核苷酸都会引起离子电流的明显中断，利用基于机器学习的碱基识别算法将其转化为核苷酸序列。有趣的是，ONT算法也能够检测修饰的碱基，从而能够在一次检测中结合遗传和表观遗传分析。ONT测序可应用于基因组DNA测序，无需复杂的处理、扩增或亚硫酸氢盐转化。此外，ONT最近推出的适应性采样策略能够将测序的DNA分子与预先选择的基因组目标区域进行实时比较。只有“目标”分子被完全测序，而“非目标”分子从纳米孔中排出，这使得靶分子可以被高效地选择并测序。

在本 proof-of-concept 研究中，我们旨在全面探索和评估ONT（Oxford Nanopore Technologies）测序在单一、直接长读长测序检测中的能力，以解决法医学中常用的 DNA 鉴定和（表观）遗传学法医 DNA 表型预测（FDP）标记综合分析的需求。

Methods

样本选择和 DNA 提取： 样本包含 6 名 19-53 岁男性的血液样本中提取的 DNA。DNA从全血（EDTA抗凝）样本中提取，采用FlexSTAR工作流程（AutoGen），并严格遵循制造商的操作规程。DNA浓度使用Qubit dsDNA BR试剂盒（Invitrogen）通过Qubit荧光计按照制造商说明测定。分子量分布采用Femto Pulse系统（Agilent）评估，分析过程同样遵循制造商提供的操作指南。

靶标选择： 靶标选择：28 个常染色体 STR、Amelogenin、24 个 Y-STR 和 7 个 X-STR。HIrisPlex-S 系统的 40 个 SNP 和 1 个 InDel;Pereira 等人描述的 46 个祖先预测 InDels。Wozniak 等人先前报道的 8 个 DNA 甲基化标志物。以及 S. Horvath 先前报道的 353 个甲基化标志物;完整的 mtDNA 线粒体基因组。

ONT 测序和数据分析程序： 除线粒体DNA（mtDNA）外，所有目标区域均通过适应性采样在.bed文件中被定义。每个标记的基因组位置向上游和下游各延伸约12.5 kb，以创建适应性采样区域，总覆盖范围为15.7 Mb，占人类基因组的0.49%。MinION 原始信号通过 Guppy（v.6.1.5）软件进行碱基识别，采用针对修饰碱基的超高精度算法模型（dna_r10.4.1_e8.2_400bps_modbases_5mc_cg_sup）。所得的fastq文件和修饰二进制比对文件（modBAM），包含标准和修饰碱基的检测结果。

使用 TREAT 进行 STR 分析： 我们评估了ONT测序技术在法医常用STR（短串联重复序列）基因分型中的应用潜力。在分析之前，测序数据通过minimap2与GRCh38参考基因组比对（默认参数选项 map-ont）。STR的基因分型使用经过修改的TREAT工具，该工具专为长读长测序数据的串联重复序列基因分型鉴定而设计。

使用 FDSTools 进行 mtDNA 分析： 我们使用FDSTools（v1.2.0）对完整线粒体基因组（mitogenome）进行了分析。为此，构建了两个FDSTools文库，分别将完整线粒体基因组按每25个核苷酸的间隔划分区间：文库A从位置1开始，文库B从位置11开始。对于每个区间，设定了10–50个核苷酸的最小和最大长度，以过滤掉大多数非线粒体DNA的序列。变异检测的最低深度要求为5。最后，结合文库A和文库B的结果一致性来确定最终的线粒体基因型（mitotype）。

使用 FDSTools 进行 InDel 分析： 我们使用FDSTools（v1.2.0）对46个祖源性InDel（插入/缺失变异）标记进行了分析。每个InDel的范围定义为覆盖变异本身（长度为2–23个核苷酸）并包含两侧多个核苷酸的区间，并将其纳入FDSTools文库。对于每个InDel，设定了10–50个核苷酸的最小和最大长度，以过滤掉大多数非特异性读段。通过FDSTools的samplestats功能进行了自动化等位基因判定，使用20%的最大读数阈值（-m）作为最小比例，并根据以下三种不同的筛选设置组合优化判定参数。

使用 Clair3 进行 SNP 分析： 在适应性采样中完全测序的序列通过seqtk（v1.4-r122）提取，并使用minimap2（v.2.17-r941）按 ONT 预设参数比对到 GRCh37 参考基因组。比对的结果作为输入数据，通过Clair3（v1.0.4）结合 ONT 提供的模型（r1041_e82_400bps_sup_v420），对单核苷酸变异（SNVs）进行检测。

DNA 甲基化分析： 在CpG位点的修饰碱基计数（5mC）通过 ONT 的 modbam2bed 工具从Guppy 生成的 modBAM 文件汇总为 bedMethyl 文件。从该 bedMethyl 文件中提取目标区域的调用结果用于进一步分析。以下数据被过滤：ONT 无法生成修饰或标准碱基的序列；未通过质控的读序列；含有其他核苷酸修饰的碱基序列。ONT甲基化比例（后文称为ONT beta值）通过以下公式计算：对于每个CpG位点，将甲基化胞嘧啶的总数除以甲基化和未甲基化胞嘧啶的总数（即该位点的读取深度）。对于Horvath CpG位点的比较分析，采用线性回归和Pearson相关分析，将ONT beta值与Illumina EPIC beta值进行对比。对于VISAGE CpG位点，采用类似分析方法，但由于缺乏EPIC验证数据，将利用ONT数据与样本的实际年龄进行比较。

Results

1. Efficient enrichment ofgenomic target regions using Nanopore adaptive sampling

六名受试者的一般特征、Illumina EPIC验证的总体表现及ONT适应性测序的结果相关信息列于表1中。所有样本均通过了EPIC质量控制分析。根据EPIC的年龄估算结果，生物年龄与实际年龄的差异在1.3至7.6岁之间。

2. Evaluation ofNanopore performance on forensic autosomal STRs, YSTRs, X-STRs and Amelogenin

我们评估了ONT技术在不同等位基因覆盖阈值下法医STR的基因分型可靠性表现。在对数据进行基于等位基因覆盖度和数据库匹配的质量控制后，最终保留了51个目标区域，并且所有样本将用于后续分析（见图1）。结果显示：

当等位基因覆盖度 ≥3时，验证数据的准确率为90.3%（6个样本中共187/207个观测值）。当等位基因覆盖度≥4时，准确率为90.7%（6个样本中共157/173个观测值）。当等位基因覆盖度≥5时，准确率为90.4%（5个样本中共132/146个观测值）。当等位基因覆盖度≥6时，准确率达到92%（5个样本中共103/112个观测值）。

在所有样本中共观察到20个基因型错配。绝大多数（90%，N = 18）的不一致基因型是由于分析出的等位基因与参考等位基因相比丢失了重复单元。例如，估算基因型为TTTC[13]，而验证等位基因为TTTC[16] 。此外，有1例错配（PH15 D3S1358）是由于分析等位基因比参考数据多了一个重复单元，另1例错配（PH7 D13S317）是由于等位基因脱落导致杂合基因型被误判定为纯合基因型。总体而言，研究发现，较短的STR长度和较高的等位基因覆盖度与查考等位基因的一致性显著相关（分别为p = 3.65×10⁻³⁷和p = 4.88×10⁻⁵），而GC含量对结果的一致性没有显著影响（p = 0.41）。

3. Non-targeted analysis ofthe mitochondrial control region

通过对线粒体 DNA（mtDNA）的分析，能够获取关于个人身份的信息，尤其是母系血统方面的信息。由于 mtDNA 在所有人体细胞中的拷贝数相对较高，为避免其在我们的数据集中过度呈现，我们在适应性富集策略中未将 mtDNA 作为目标。尽管没有进行任何富集操作，但与常染色体、性染色体或 DNA 甲基化的检测结果相比，我们在所有样本中都观察到了更高的 mtDNA 测序深度。我们得到的平均测序深度在 21（样本 PH7）至 72（样本 PH11）之间，这使得所有个体的 mtDNA（1 - 16,569 bp）均能被完全覆盖（图 2）。

4. Accurate detection ofancestry informative InDels

除了 Y 染色体和线粒体 DNA 标记外，利用常染色体插入/缺失（InDels）可以获取与个体祖先相关的预测信息。之前由Pereira等人所描述的总计 46 个常染色体插入/缺失，被纳入我们的适应性富集策略程序中，并使用大规模平行测序（MPS）获取的数据进行验证。其中所研究的插入/缺失的碱基数量有所不同，范围在 2 到 23 个碱基之间。尽管我们在所有样本中观察到相对较低的平均读长，但我们注意到数据集中的插入 / 缺失并没有系统性缺失（图 3）。对于质量较低的样本 PH3 和 PH7，我们观察到大量数据缺失。相比之下，PH1 和 PH15 与验证数据具有高度一致性。虽然 PH6 包含最多的插入 / 缺失，但与验证数据相比，该样本出现了两个等位基因缺失。最后，对于 PH11，我们总共观察到三个等位基因缺失。

5. Efficient and robust detection ofSNPs predictive ofhair, eye, and skin color

我们对包含在 HIrisPlex-S 分析中的所有遗传变异区域进行了适应性采样，该分析包括 40 个单核苷酸多态性（SNPs）和 1 个可用于预测头发、眼睛和皮肤颜色的插入 / 缺失（InDel）。我们富集方法产生的读长深度范围为 4 到 40 （图 4）。由于我们的单核苷酸多态性（SNP）分析中没有相位分析，我们仅能够确定杂合 SNP 的等位基因覆盖比率（ACR）。总体而言，98.4% 的目标法医 SNP 与验证数据相一致（六个样本中共有 240/244 次观察结果相符）。值得注意的是，对于 PH3 样本，七个目标位点（rs683、rs1126809、rs1800414、rs12441727、rs1129038、rs3212355 和 rs6119471）与验证结果匹配，为纯合参考变异，但未达到我们设定的≥8 条读长的阈值（图 4）。

6. Evaluation ofnanopore performance on forensic age-predictive methylation markers

接下来，我们解决了与生物年龄相关的 DNA 甲基化检测问题。Horvath's clock 中存在的总共 353 个年龄信息相关的 CpG 靶标已成功整合到我们的 ONT 适应性工作流程中。其中存在于 Illumina EPIC 芯片中的334 个基因座也被纳入 ONT 和验证数据的比较分析中。总共 39 个 CpG （<12 %）未产生 ONT 测序数据或数据未通过质量控制（图 5）。此外，相对于每个样品中研究的 CpG 总数，我们观察到所有样品中表达 β 值为 0 或 1 的 CpG 数量范围在 46 % 到 74 % 之间（图 5）。值得注意的是，表达 0 或 1 甲基化值的 CpG 总数与读取深度呈负相关（表 S5）。

与短串联重复序列（STR）、插入 / 缺失（InDel）和单核苷酸多态性（SNP）变体不同，DNA 甲基化被报告为一个连续变量。因此，我们使用相关性分析将牛津纳米孔技术（ONT）的甲基化水平与从经典的 Illumina EPIC 阵列获得的甲基化水平进行比较（图 6）。相关性是根据三个总读长阈值来呈现的：（i）<10 次读长，（ii）10-19 次读长，以及（iii）20-29 次读长。所有样本在牛津纳米孔技术和 EPIC 生成的数据之间都显示出正相关性，一般而言，深度越高，相关性越强，但样本 PH1 是一个例外。PH7 在读长数 < 10 时达到最低的皮尔逊相关系数 0.672，总共涵盖 78 个 CpG 位点（图 6 和表 S6）。相比之下，在 PH6 中观察到最高的皮尔逊相关系数（0.976），其读长在 19 至 29 次之间，总共涵盖 25 个 CpG 位点（图 6 和表 S6）。

除了Horvath's clock外，我们还使用了先前由法医 VISAGE 增强型年龄预测工具所报告的 CpG 位点。我们分析了通过牛津纳米孔技术（ONT）获得的六个血液特异性年龄预测 CpG 位点（包含 MIR29B2CHG、FHL2、TRIM59、ELOVL2、PDE4C 和 KLF14 基因）的 β 值。大多数 VISAGE 靶标未包含在 Illumina EPIC 阵列中，这阻碍了牛津纳米孔技术和验证数据集之间的直接比较。因此，我们将牛津纳米孔技术的 β 值与实际年龄进行相关性分析（图 7）。由于所有样本中 KLF14 的牛津纳米孔技术 β 值都为 0，所以该位点被排除。MIR29B2CHG 显示出与年龄的预期呈负相关性（R = 0.92）。FHL2 和 TRIM59 与实际年龄分别呈现正相关性，R 值分别为 0.96 和 0.75。这三个标记的每个 CpG 位点都包含低和中等的读长。对于 ELOVL2，我们观察到 β 值有很大的变化，并且虽然每个目标 CpG 位点的读长处于中等至较高深度，但牛津纳米孔技术产生的 β 值与实际年龄之间没有相关性（R = 0.14）。最后，PDE4C 与实际年龄的相关性为 R = 0.86，其每个 CpG 位点的低读长和中等读长呈均匀分布。

Discussion

在这项研究中，我们探讨了直接和适应性 ONT 测序在法医使用中的性能。我们评估了常用的标记物，包括 STR 、 SNP 、 InDel 、 mtDNA 和两个基于 DNA 甲基化的时钟分类器，用于身份匹配和法医 DNA 表型（FDP）分析。我们观察到样品的性能各不相同，这很可能是由于细胞孔稳定性欠佳所致。ONT 数据与验证数据集的比较表明，所有标记类型总体上具有良好的准确性，尽管在更严格的质量参数下存在大量缺失数据，尤其是对于 STR、InDel 和 CpGs。由于读取深度低，DNA 甲基化的连续性特别具有挑战性。然而，经过广泛的质量控制，我们的 ONT 数据集与基于经典阵列的 DNA 甲基化数据或实际年龄达到了高度相关性。本研究促进了 ONT 直接测序在未来的法医应用，进一步的研究应侧重于提高靶向读取深度，创新新方法以减少起始 DNA 量投入，甚至使用降解的 DNA，以及扩展分子分型方法，特别对于表型表征。

Conclusion

我们的研究在国外法医标记物的适应性富集策略的背景下探索了直接 ONT 测序，我们将用于身份匹配、表型特征、血统和生物年龄的遗传和表观遗传分类器集成到一个工作流程中，突出了 ONT 作为快速高效的法医测序工具的潜力。然而，ONT 在法医领域得到有效实施和接受之前，还需要进一步优化。这些挑战包括解决技术挑战，例如确保足够的读长深度，尤其是与低 DNA 起始量相结合时。此外，改进变异检出算法的性能对于提高 STR、SNP、InDel、mtDNA 和 DNA 甲基化检出的准确性至关重要。尽管存在这些挑战，但我们的研究为未来将 ONT 适应性采样用于多重以及综合法医测序的分析提供了概念验证。

原文连接：https://www.sciencedirect.com/science/article/pii/S1872497324001509