前沿精读→

group
article
date
Jan 27, 2025
slug
forensic_article_2
status
Published
tags
forensic
nanopore sequencing
bioinformatics
summary
前沿精读 | FSIG:使用纳米孔适应性采样分析年龄和体液 DNA 甲基化标志物
type
Post
notion image
Profiling age and body fluid DNA methylation markers using nanopore adaptive sampling

Abstract

DNA甲基化在调节生理过程中的重要作用,涵盖了从组织和器官发育到基因表达和衰老过程,已成为体液鉴定和年龄预测的广泛应用生物标志物。目前,甲基化标记物通常通过多重检测靶向特定的CpG位点,而非通过统一的检测方法。甲基化检测依赖于多种方法,包括酶切、亲和富集、亚硫酸盐处理以及各种高通量技术,如微阵列和测序。本研究旨在测试通过单一技术——纳米孔自适应采样,来同时识别与年龄相关、体液特异性的甲基化标记物。这一创新方法能够在单一样本中分析多个CpG位点,而无需特殊的DNA准备或额外的生化处理。研究结果表明,自适应采样在目标区域内提供了足够的覆盖度,能够准确确定甲基化状态,并与全基因组亚硫酸盐测序数据高度一致,验证了已知的年龄和体液相关CpG标记物。我们的研究还发现了一些与年龄密切相关的新位点,可能成为新的年龄甲基化标记物。本研究为纳米孔技术在年龄预测和体液鉴定中的进一步发展奠定了基础,展示了其可行性和潜力,同时也表明未来研究需要进一步验证和扩展。

Introduction

DNA甲基化是基因组中的一种重要表观遗传修饰,涉及将甲基基团添加到特定的核苷酸上。在人类中,DNA甲基化的主要形式是5-甲基胞嘧啶(5mC),主要存位于CpG二核苷酸中,这些二核苷酸通常集中在被称为CpG岛(CGIs)的区域。DNA甲基化受环境因素的影响,并在不同的组织、细胞类型和疾病状态之间存在差异。例如,DNA甲基化模式的不规律性,如基因的过度甲基化或低甲基化,可能导致基因的不当的沉默或激活,从而促进癌症等疾病的发生和发展。由于DNA甲基化在不同的细胞类型和组织之间,以及在整个生物体的生命周期中存在差异,它已被确认为法医学应用中用于年龄预测和体液鉴定的最有前途的生物标志物之一。事实上,DNA甲基化检测可以作为法医DNA表型分析(FDP)的一个部分,通过推断个人的年龄为调查提供线索 。基于DNA甲基化的多个年龄预测模型(APM)已被开发,用于推断个体的生物学年龄,作为时间年龄的替代。一些最新的模型基于使用基因组范围微阵列的数百个CpG位点。最近的一项进展引入了一种通用的泛哺乳动物时钟(pan-mammalian clock ),利用甲基化阵列涵盖了185种哺乳动物的59种组织类型,并且与年龄呈现高度相关性(r > 0.96)。然而,微阵列通常需要比从生物证据中提取的更多的DNA,这限制了它们在法医领域的实际应用。
此外,还建立了多种技术用于识别体液,包括分析特定细胞类型的RNA表达、检测组织特异性的microRNA谱、检测特定组织的DNA甲基化、蛋白质分析以及识别组织内的微生物组。当前用于年龄预测和体液识别的检测方法的一个共同特征是依赖于重亚硫酸盐转化来分析5mC。然而,这个过程的缺点包括DNA大量降解、不完全转化、序列变异性降低,以及需要配合冗长的操作流程。此外,聚合酶链式反应(PCR)所需的重亚硫酸盐转化DNA量,以及SNaPshot检测中毛细管电泳(CE)分析所用的系统误差,都会影响DNA甲基化的定量分析。
为了解决这些问题,本研究采用了纳米孔测序技术。该技术可以直接对携带碱基修饰(尤其是5mC)的原生DNA分子进行测序,无需除标准文库制备外的额外样品处理。我们使用纳米孔自适应采样来验证现有的法医学年龄相关标记,并通过研究目标基因中的所有CpG位点来识别潜在的新标记。该研究展示了这种方法的适用性及简化样品处理在检测和分析年龄甲基化标记中的应用,为纳米孔自适应采样在法医学案件和年龄相关研究中的广泛应用奠定了基础。

Methods

DNA samples

在自适应采样实验中使用了三种不同类型的基因组DNA(gDNA)样本。首先,使用了基因组参考DNA样本HG002(Genome in a Bottle,GIAB)来评估我们定制的靶向 panel 的性能。其次,进行了两次自适应采样实验,使用了来自EpigenDX的甲基化 control 样本(https://www.epigendx.com/d/products/methylation-controls)。最后,我们在经澳大利亚国立大学(ANU)伦理委员会批准的情况下,测试了自适应采样在人类血液样本上的应用(伦理协议编号:ETH.1.16.01/ETH.01.15.015)。血液样本是从10名年龄在25至76岁之间的参与者收集的,采样地点为个性化免疫学中心(ANU)。

Quality control

样品通过26号和/或29号针头剪切5到15次,并在Agilent Femto Pulse系统上进行确认。随后,使用BluePippin系统(Sage Science, USA)和0.75%琼脂糖胶盒及标记S1进行电泳片段大小选择,富集长度至少为20 kb的片段。样品随后回收,并使用AMPure XP磁珠进一步进行尺寸选择,并使用Qubit和dsDNA宽范围试剂进行定量,以评估其是否适合后续文库制备。富集和纯化后的样品片段大小在20到50 kb之间,并通过Femto Pulse确认。

Shearing and size selection

样品通过26号和/或29号针头进行5–15次针剪处理,随后使用 Agilent Femto Pulse 系统确认片段分布情况。随后,样品利用 BluePippin 系统(Sage Science,美国)进行电泳片段大小选择,使用0.75%的琼脂糖凝胶盒和S1标记物,富集长度至少为20 kb的片段。样品回收后,进一步使用 AMPure XP 磁珠进行长度选择,并通过 Qubit dsDNA Broad Range 试剂定量分析,以评估其是否适合后续文库制备。最终,富集和纯化后的样品片段大小(20–50 kb)通过 Femto Pulse 系统确认。

Library preparation and sequencing with adaptive sampling

标准纳米孔测序文库由购买自 EpigenDx 的基因组 DNA 甲基化对照样品制备,使用 SQK-LSK110 gDNA by ligation sequencing kit(ONT)按照制造商的说明进行操作。输入 DNA 的用量、文库制备后获得的最终 DNA 量及浓度等详细信息列于附表 1 中。制备完成的文库被加载到 MinION 流动池(FLO-MIN106D,R9.4.1 孔型)中,并在 MinION 测序仪上进行测序。测序仪通过 Type-A USB 3.0 接口连接至配备 NVIDIA GeForce RTX 3070 GPU 的计算机工作站。实验中使用了 MinKNOW v20.10.3Guppy v4.2.2 软件进行数据处理和分析。
使用 MinKNOW 软件,进行自适应采样运行(设置为富集),并将测序参数设置为使用 Guppy 的“快速”碱基识别模型。

Data processing and methylation analysis

将纳米孔测序的 FAST5 格式数据使用 Bonito (v0.7.2)Remora (v2.1.3) 模型(dna_r9.4.1_e8_sup_5mC)进行修饰碱基识别及比对。比对的参考基因组是经过修改的 GRCh38/hg38 人类基因组装版本,其中包含额外添加的三份 rDNA 规范单元串联拷贝(KY962518.1)。通过 Bonito 生成的带有 MMML 标签的 ModBAM 文件,使用 Modkit (v0.1.13) 的 pileup 工具(传统预设,https://github.com/nanoporetech/modkit)转换为 bedMethyl 文件。bedMethyl 文件聚合了两条链的数据,提供了 CpG 位点修饰分类调用的计数和修饰比例信息。为了减小文件大小并为后续 R (v4.3.1) 分析做准备,从生成的 bedMethyl 文件中提取了以下列:染色体、起始位置、终止位置、覆盖度和甲基化比例。这些数据随后从10名血液供体样本中聚合而成,用于后续分析。对从测序数据中常见识别的所有CpG位点(n = 2,500,538)组合数据集进行了简单线性回归分析。该分析考察了每个CpG位点的甲基化水平与时间年龄之间的关系,得出了每个CpG位点的相关系数(r)、相应的p值以及均方根误差(RMSE)。简单线性回归结果,包括CpG位点的染色体位置、r值、p值、RMSE,以及十个血液样本的平均覆盖度和覆盖度标准差,可以在补充数据2中找到。从中,表1显示了来自八个基因的32个CpG位点,这些基因通常被纳入法医血液基于的APMs中。为了提高分析的精确性,我们对全部测试的CpG位点进行 Meta 分析。首先,排除了位于性染色体上的CpG位点,以消除由于性别相关的基因甲基化差异可能导致的混杂效应 。
Meta 分析流程
  1. Z分数的计算
      • 将通过简单线性回归分析获得的p值使用R中的 qnorm() 函数转换为Z分数,具体公式为:
      notion image
  1. 标准化Z值
      • 计算所有Z score的均值 m 和标准差 sd。
      • 使用以下公式计算新的标准化Z score(即Meta Z score):
      notion image
  1. 计算Meta p值
      • 将Meta Z score 转换回p值,使用R中的 pnorm() 函数,公式为:
      notion image
      显著性阈值
      • 通过设定严格的meta p值阈值为 0.00001,我们鉴定出与年龄高度显著相关的CpG位点。
      • 此外,将meta p值的阈值放宽至更常规的 <0.05,以识别更多可能与年龄相关的潜在标记。

Results

Adaptive sampling efficiently enriches genomic regions of interest

  1. 该研究通过针对若干与衰老及法医应用相关的基因区域,评估了自适应采样(adaptive sampling)的有效性。这些目标区域包括以下内容:
    1. 10个常用于法医年龄预测模型的基因;
    2. 307个与人类衰老相关的基因 ;
    3. 393个在哺乳动物中表现出保守的时间依赖行为的基因 ;
    4. 31个与体液鉴定相关的基因 ;
    5. 核糖体DNA(rDNA)重复单元的串联重复序列其甲基化水平与血液样本中的衰老也有相关性 。
针对这些基因区域的自适应采样不仅覆盖了每个基因的整个基因,还包括了上下游各20 kb的侧翼序列。总体来看,该研究设计的基因组捕获 panel 覆盖了约113 Mb的基因组区域,相当于人类参考基因组(hg38)的约3.65%
  1. 为了评估目标区域富集的性能,研究将自适应采样技术结合设计的目标捕获 panel,应用于GIAB(Genome In A Bottle)参考样本HG002。实验结果显示:
    1. 读取分布特征
        • 被接受(Accepted)的读取显示出一个清晰的分布形式,对应目标区域的理想大小——大约40 kb(图1a)。
        • 被排除(Rejected)的读取呈现近乎500碱基的尖锐而狭窄的峰值分布。这是因为当检测到这些分子并非来自目标区域时,系统会终止长读取,并将其从纳米孔中弹出。
        • 此外,还存在长度在100至约2500碱基之间的读取。
    2. 数据后处理
        • 在实验结束后,采用Guppy的高精度(HAC)模型对纳米孔测序数据进行重新处理,并将其比对到人类参考基因组(hg38)。
        • 被捕获的目标区域(on-target)读取的N5028.6 kb,显著高于非目标区域(off-target)读取的N50(500 bp)(图1b)。
    3. 覆盖富集结果
        • 在目标区域内,自适应采样实现了6倍的中位覆盖度富集,相比非目标区域有明显提高(图1c)。
notion image

Adaptive sampling accurately recovers methylation status from control samples

为了评估纳米孔自适应采样技术对甲基化检测的效果,研究对两个甲基化对照样本进行了测序,其中一个样本具有高甲基化水平(>85%),作为阳性对照,另一个样本具有低甲基化水平(<5%),作为阴性对照。这些甲基化对照样本允许研究者评估从纳米孔读取数据中检测修饰碱基的准确性。实际观察到的总体甲基化水平与每个对照样本的预期甲基化水平一致(图2a)。高甲基化和低甲基化对照样本的平均甲基化水平分别为93%和4%,其中阳性对照样本中大约86%的CpG位点完全甲基化,而阴性对照样本中大约94%的CpG位点完全未甲基化(图2a)。
此外,仅使用单次读取覆盖的甲基化位点也能够获得一致的甲基化水平估计,显示样本的甲基化水平几乎没有显著变化(图2b)。这些结果与之前的研究一致,表明即使只有单次读取,纳米孔技术也可以可靠地检测甲基化。然而,我们也认识到,对于诸如年龄估算等需要进行定量甲基化分析的情况,可能需要更高的读取深度。
随后,我们评估了数据中检测到的CpG位点的序列上下文。在两个样本中,CpG位点四周的碱基均匀分布,这表明使用纳米孔测序进行甲基化预测时不存在序列偏差(图2c和2d)。此外,我们还将纳米孔甲基化数据与已发表的HG002样本的全基因组亚硫酸氢盐测序(WGBS)数据进行了比较。纳米孔数据与WGBS数据表现出显著的一致性,其Pearson相关系数(r)达到0.86(图2e)。
为了确定这种相关性是否与覆盖深度有关,我们对覆盖深度从1到20的每一水平随机抽取1686个观测数据,并计算其r和r^2值。在WGBS与纳米孔估计值之间的相关性随覆盖深度略微增加(图2f)。例如,当覆盖深度从≥1次读取提升到≥2次读取时,r值从0.86增加到0.89。考虑到WGBS的CpG位点平均覆盖深度为6.9倍,而纳米孔为3.3倍,我们可以得出结论:相比其他多重平行测序(MPS)方法,纳米孔技术在读取数量更少的情况下仍具有评估甲基化的优势,同时能够及时并准确地分析所有感兴趣的标记。
尽管单次读取或低覆盖深度的CpG位点可能对定量甲基化分析(如年龄预测所需)提出挑战,但多位点的联合分析仍可能贡献出有价值的信息。
notion image

Nanopore achieves methylation-based body fluid identification

研究结果进一步强调了足够的读取覆盖深度对于准确测定甲基化水平的重要性。以样本3的精液1标记为例,未能达到足够的覆盖深度可能导致结果的不确定性。然而,我们也观察到,即便在高覆盖深度的情况下,某些位点的检测到的甲基化水平仍然异常低(参见样本6的血液2标记)。这暗示了在单个样本中测试多个标记位点的能力可以增强基于甲基化的分类可靠性,并可能减少对单一标记的过度依赖。
notion image
通过分析各样本中这9个位点的甲基化百分比,我们观察到血液的两个目标位点具有显著的高甲基化水平(图3),表明通过纳米孔自适应采样测得的甲基化水平能够有效地将这10个样本鉴定为血液。此外,尽管本研究仅限于血液样本,但其结果为使用纳米孔测序技术在特定标记位点进行体液甲基化特征分析奠定了重要基础,同时提供了对甲基化变异性分析的见解。
为了评估甲基化标记在体液鉴定中的应用,研究对10个人类血液样本进行了测序。为此,我们使用了一个最近开发的9个CpG标记的面板,该面板可用于区分精液、血液、阴道液、唾液和经血。具体的体液鉴定是通过SNaPshot多重检测方法实现的,该方法依赖于在所有样本案例中检测到两个CpG位点的阳性甲基化信号(唾液除外)。由于目前仅发现一个特异性的唾液CpG甲基化标记,因此唾液的检测仅依赖于这个单个位点。纳入我们自适应采样目标面板的这9个特异性体液CpG位点列于补充表2中。

Assessment of age-associated methylation markers used in forensics

总共考虑了8个基因中与年龄相关的32个位点的CpG甲基化位点(表1)。这些位点被包含在我们的自适应采样面板中,用于评估我们十个样本中的纳米孔甲基化,样本年龄范围从25岁到76岁(见补充表1)。为了评估样本捐赠者的年龄与这些CpG位点甲基化水平之间的关系,我们创建了一个线性回归模型,这在其他法医甲基化研究中也常用。观察到不同程度的相关性,大多数CpG位点与年龄呈正相关,且r值大于0.5,表明这些位点的甲基化水平通常随年龄增加而增加。与年龄正相关性最高的位点位于基因ELOVL2中(在GRCh38的chr6:11044644位置),其r值为0.948(见表1)。虽然其他几个位点也显示出强正相关(r ≥ 0.8),但也有少数位点显示出较弱的相关性,具有不同的均方根误差(见表1)。
notion image

Exploring other age-related genes

纳米孔自适应取样技术使得在检测面板中轻松包含额外的靶标区域成为可能,无需像传统方法那样额外进行复杂的多重化步骤。通过我们的靶向设计,我们得以探讨来自Aging Gene Database的307个人类衰老相关基因,以及先前研究显示具有年龄依赖性表达的393个哺乳动物同源基因(补充表2)。本研究是首个利用纳米孔自适应取样技术,通过单一检测,同时识别不同法医用途的DNA甲基化标志物的研究之一。在来自十份血液样本的聚合数据中,我们共检测到了2,500,538个CpG位点。随后,我们采用了一种全面分析方法评估这些位点的甲基化水平。首先,按照此前的法医年龄标记策略 [18,7,9,31,12,25],在所有识别到的CpG位点的整体数据集上进行简单回归分析,从而计算每个位点的相关系数和对应的p值(补充数据2)。随后,通过元分析汇总所有统计证据,为每个CpG位点生成一个元Z分值(meta Z-score)和meta p值(meta p-value)(方法详见补充数据2)。
通过这一方法,我们识别出许多年龄显著相关的CpG位点。在聚合数据中,所有共有的2,500,538个CpG位点中,有0.1%(2504个位点)与年龄显著相关(meta p-value < 0.00001,图4a,深红色突出显示)。其中,46.7%(1169个位点)位于基因间区(intergenic regions),这些位点不属于典型CpG岛(CGI)区域。尤其值得注意的是,三个显著年龄相关的CpG位点位于CpG岛附近、接近长链非编码RNA(LINC02766)的基因间区域上(图4b),具体为chr1:12532037(meta p-value = 3.5×10⁸)、chr1:12540133(meta p-value = 3.2×10⁹)和chr1:12549675(meta p-value = 3.0×10⁶)。
此外,51.5%(1290个位点)的显著相关位点分布在基因内部。例如,PLEKHG5基因中有五个CpG位点与年龄高度相关(图4c,深红色突出显示),其meta p值范围为1.2×10⁶至3.7×10⁸。其中,仅有一个位点(chr1:6485097)位于CGI内。此外,在PLEKHG5基因中,还有若干其他年龄相关性CpG位点,其meta p-value < 0.05(图4c,绿色突出显示)。PLEKHG5是一个编码蛋白的基因,参与神经细胞分化的调控,但此前尚未有任何研究表明其与年龄相关的变化或疾病存在已知关联。
利用纳米孔测序技术,我们能够通过测序整个基因获得更多的CpG位点。由于CGI通常位于基因转录起始位点附近,且往往与基因的调控功能及启动子区域密切相关,我们的研究重点超越了传统的年龄标记范围,扩展至CGI及其周边区域的潜在候选CpG位点以探索与年龄的相关性。例如,ELOVL2基因是血液中一个广为人知的年龄预测标志物,这一基因的九个位点已被多种年龄预测模型(APMs)纳入(表1)。在这九个位点中,我们的样本数据中一个位点(chr6:11044644)与年龄的关联最强(meta p-value = 1.6×10⁸,meta Z分值 = 1.9),而关联最弱的位点为chr6:11044661(meta p-value = 0.052,meta Z分值 = 2.01)(图4d,蓝色突出显示)。此外,研究还发现ELOVL2基因中另外六个位点可能与年龄相关,其meta p-value < 0.05。我们随后检查了数据集中其他基因的CpG岛(CGI),以识别具有潜在相似预测价值的新位点。例如,在ADCY5基因的CGI内,我们发现了十一个在预测年龄方面具有潜在应用价值的位点(图4e中以深红色和绿色标出)。
notion image

Discussion

本研究利用纳米孔自适应采样技术,展示了在单次检测中同时检测多种法医甲基化标记(用于体液和年龄预测),而无需对DNA样本进行生化处理。我们使用血液样本验证了现有的体液和年龄标记。通过在自适应采样测序运行中添加多个目标区域,我们能够测试已知标记周围的基因组区域以及新的潜在感兴趣区域,包括基因区域及其上下游各20,000个核苷酸。这种方法不仅能够检测到额外的潜在年龄甲基化标记,还提供了使用更少读取数评估甲基化的机会。尽管这些低覆盖率位点可能单独无法准确预测年龄,但多个位点的汇总甲基化状态,即使在低覆盖率下,仍然可以集体提供有价值的信息。
在我们的分析中,我们观察到已知位点的性能存在差异,这可能归因于样本数量的有限。为了巩固我们研究中观察到的这些位点及其他位点的DNA甲基化与年龄的相关性,进一步使用更大规模的独立样本集进行测试将是必不可少的。更多样本的进一步测试可以证实我们的结果,表明不仅仅是来自年龄相关基因的单个CpG位点,而是多个接近的位点(位于CGIs内)都可能对年龄预测具有信息价值。在这方面,替代位点可以用于补充年龄预测信息,或者在某个位点由于缺乏读取而无法使用时作为替代。虽然我们的研究证实了这种方法在高质量DNA样本中的有效性,但其在法医用途中的潜在适用性,特别是在低质量或降解DNA样本的背景下,还需要进一步调查。
最后,由于纳米孔技术允许对天然甲基化DNA进行测序,这消除了在测序前进行转换步骤的需求。通过纳米孔自适应采样,靶向测序显著地从湿实验室操作转向干实验室计算策略,使得多种法医标记的全面测试更加高效和便携。最近使用纳米孔测序开发的首个牛的表观遗传时钟证明了该技术在检测甲基化和开发年龄预测模型(APM)方面的可行性。这一进展表明,尽管纳米孔测序在兽医学中已被有效利用,但其在构建类似人类模型方面的潜力仍未被充分探索。这有可能通过使现场便携式纳米孔测序仪成为一体化的法医DNA分析设备,彻底改变法医DNA分析领域,实现对生物地理祖先、亲缘关系、表型、体液识别和DNA供体年龄估计的同时分析。

Conclusion

本研究通过采用纳米孔自适应采样技术,同时识别与年龄相关和体液特异的甲基化标记,显著推进了法医DNA甲基化分析领域。这一创新方法能够从单个样本中全面分析整个基因区域内的多个CpG标记位点,消除了对专门DNA制备或额外生化处理的需求。结果不仅表明自适应采样能够实现足够的覆盖率并与全基因组甲基化测序(WGBS)数据具有高度一致性,还证实了已知的年龄和一种体液(血液)的CpG标记。此外,发现与年龄强相关的新位点为发现新的年龄甲基化标记提供了可能性。我们的工作为系统开发基于纳米孔的技术方法铺平了道路,预示着法医表观遗传谱分析领域的新纪元。
 
 
 

© Willow 2022 - 2025