法医DNA测序|纳米孔测序基础知识→
group
analysis
date
Jan 13, 2025
slug
forensic_nanopore_basic
status
Published
tags
forensic
bioinformatics
nanopore sequencing
summary
之前的文章中,我们讲述了纳米孔测序仪小巧便携,长读长的优点,不仅可用于固定地点的安装测序也可以实现背包测序,这对于非人类法医遗传学研究具有重要意义。本合集将基于纳米孔测序仪以及数据的基本构成和分析进行相关知识的介绍,让非生物信息学专业的法医从业者也能轻松了解纳米孔测序。
type
Post
前期准备
在纳米孔测序中,对研究样本的处理和文库构建是整个测序流程中至关重要的前期步骤。首先,需要对样本进行前处理,包括细胞裂解、DNA提取及纯化,以获得高质量的长链DNA,这是确保测序数据准确性和可靠性的关键。接下来,通过去除小片段、修复DNA断裂及末端修饰等工艺,优化DNA片段的完整性,为文库构建奠定基础。在文库构建过程中,需将测序接头连接到目标DNA片段上,以便这些片段能够被纳米孔识别并进行测序。完成上述步骤后,即可利用纳米孔测序平台对文库进行实时、长读长测序。本研究主要关注数据生成过程的特点和分析方法,因此对于前期样本处理及文库构建的具体实验操作仅作简要说明。
那么我们用于测序的样本是怎样通过纳米孔测序仪产生数据的呢,想必大家都比较好奇,下面就一起探索纳米孔测序的奥秘吧!
测序原理
市面上的常见商业化纳米孔测序仪(以牛津纳米孔测序及ONT为例)设备都使用流动池,流动池包含嵌入在电阻膜中的一系列微孔——纳米孔。每个纳米孔对应于其自己的电极,电极连接到通道和传感器芯片,传感器芯片测量流经纳米孔的电流。当一个分子通过一个纳米孔时,电流被打断,产生一个特有的“波形”。然后使用碱基调用(basecalling)算法对曲线进行解码,以实时生成DNA或RNA序列。
Figure1.2.Typical setup for a nanopore experiment. Figure 1.3. Ionic current through a nanopore setup shown in Figure 1.2.
Basecalling
- 基础知识:Basecalling 即碱基识别,碱基识别是将 DNA 或 RNA 链通过纳米孔产生的电信号转换为相应碱基序列的过程。在ONT测序仪中,常由 MinKNOW 软件记录 DNA/RNA 链通过孔时离子电流的变化。MinKNOW 还将信号处理成 “reads” ,每个 reads 对应于一条 DNA/RNA 链。Basecalling 算法使用基于机器学习的信号处理技术将读取的原始信号转换为碱基。
- 网络框架:ONT的碱基识别算法主要采用双向循环神经网络 (RNN),官网基本网络结构如下。
- 模型种类:ONT的MinKNOW碱基识别包含三种不同的basecalling 模型,即快速模型、高准确度模型以及超高准确度模型。根据碱基识别的及时性分为 keep-up 和 catch-up 模式,小编称为实时模式和后处理模式。
测序数据
数据格式:POD5、.fast5、FASTQ和BAM
- POD5:是 ONT 开发的一种文件格式,它以可访问的方式存储 Nanopore 数据,并取代了传统的 .fast5 格式。与 .fast5 相比,此数据类型还可以使用更少的计算来更快地读取和写入数据,并且具有更小的原始数据文件大小的优势。详细数据格式及处理可见官方文档 ‣
- .fast5:.fast5 是一种传统文件类型,用于纳米孔测序数据存储,目前仍然可以在 MinKNOW 中选择该数据类型作为输出类型。.fast5 是一种 HDF5 文件,旨在包含分析纳米孔测序数据来源所需的所有信息。reads 的 .fast5 文件包含每条 read 的原始测序数据,默认每个文件 4000 条reads数据信息。更多关于.fast5 的 详细介绍可查看
- FASTQ:fatsq 文件是下游数据分析常见的数据格式,fastq 文件包含每条 read 的序列数据以及相关的每个碱基质量分数的一种文本文件。
一条序列信息在 fastq 文件中用四行内容进行描述:
1) 第 1 行以“@”开头,后面是包含测序运行信息的内容;
2)第 2 行是碱基序列(A、C、T、G 和 N);
3)第 3 行包含“+”,表示该条序列的正负链信息;
4)第 4 行对第 2 行中序列的每碱基质量分数进行编码。
详细例子如下:
- BAM:如果在basecalling中执行了比对,那么会输出比对的bam文件。
数据分析:
目前基于ONT数据常见的分析类型如下:
- 人类基因组学:一体化变异检测,包括 SNP、SV、CNV、STR 和甲基化。
- 癌症基因组学:来自配对肿瘤/正常样本数据的体细胞变异检测。
- 单细胞和转录组学:全长转录本的综合分析。
- 微生物学和传染病:实时宏基因组物种鉴定和病原体分析流程。
- 基因组组装:质粒和细菌基因组组装和注释。
- 靶向测序:扩增子序列中的变异识别。
参考
- Branton, Daniel & Deamer, David. (2019). Nanopore Sequencing: An Introduction. 10.1142/10995.