法医DNA测序|纳米孔测序数据比对:minimap2→
group
analysis
date
Jan 23, 2025
slug
forensic_nanopore_minimap2
status
Published
tags
forensic
nanopore sequencing
bioinformatics
summary
Minimap2 是一个功能多样的序列比对程序,用于将 DNA 或 mRNA 序列比对到大型参考数据库。
type
Post
Minimap2 是一个功能多样的序列比对工具,可用于 DNA 或 mRNA 序列比对到大型参考数据库。其典型应用场景包括:
- 将 PacBio 或 Oxford Nanopore 长读长基因组数据比对到人类基因组上;
- 在误差率高达 ~15% 的长读长之间寻找序列重叠;
- 对 PacBio Iso-Seq 或 Nanopore cDNA 和直接 RNA 读段进行剪接识别的比对;
- 比对 Illumina 单端或双端短读段;
- 进行组装到组装的比对;
- 在两种差异低于 ~15% 的近缘物种之间进行全基因组比对。
对于长度约为 10kb 的噪声读段序列,Minimap2 比主流长读段比对工具(如 BLASR、BWA-MEM、NGMLR 和 GMAP)快数十倍。在模拟长读段数据上,它比对更加准确,并生成适合后续分析的具有生物学意义的比对结果。而对于超过 100bp 的 Illumina 短读段,Minimap2 的速度是 BWA-MEM 和 Bowtie2 的三倍,并且在模拟数据上的准确性相当。有关详细的性能评估,请参考作者的进一步描述。
安装
建议conda安装
常用命令
部分参数说明
以下是小编在进行纳米孔测序数据比对中常用的参数,详细使用参数常见Manual Page - minimap2(1) (lh3.github.io)
- -a 生成Sam格式的比对结果,用于后续继续生产bam文件;
- -c 生成paf文件;
- -x map-ont 主要用于纳米孔测序数据;
- —eqx 输出 =/X 用于序列匹配/错配的CIGAR 运算符;
- --secondary=yes|no 是否输出次比对结果;
输出文件解读
PAF文件

SAM 文件
序列情况

比对的简单结果如下图所示


- QNAME:这是比对中查询序列的名称(即 read 的名称);相同的QNAME值表示这些读段来自同一个模板(template)。
- FLAG :一个以位运算编码的字段,用来描述各类属性或状态

- RNAME:比对的参考序列名称。
- POS:比对的参考起始位置。
- MAPQ:比对质量。
- CIGAR:比对具体信息。

- RNEXT:表示模板中下一个读段的主比对的参考序列名称;如果
RNEXT
与RNAME
相同,则设置为=
。
- PNEXT:表示模板中下一个读段的主比对的位置。
- TLEN:文库插入片段长度。
- SEQ: 片段序列 (segment SEQuence)。当序列未存储时,此字段可以为
*
。如果不是*
,则序列的长度必须等于 CIGAR 中 M/I/S/=/X 操作的长度总和。
- QUAL: 碱基质量 (base QUALity) 的 ASCII 值加上 33(与 Sanger FASTQ 格式中的质量字符串相同)。碱基质量是以 phred表示的碱基错误概率。