法医DNA测序|纳米孔测序数据比对:minimap2→

group
analysis
date
Jan 23, 2025
slug
forensic_nanopore_minimap2
status
Published
tags
forensic
nanopore sequencing
bioinformatics
summary
Minimap2 是一个功能多样的序列比对程序,用于将 DNA 或 mRNA 序列比对到大型参考数据库。
type
Post
 
Minimap2 是一个功能多样的序列比对工具,可用于 DNA 或 mRNA 序列比对到大型参考数据库。其典型应用场景包括:
  1. 将 PacBio 或 Oxford Nanopore 长读长基因组数据比对到人类基因组上;
  1. 在误差率高达 ~15% 的长读长之间寻找序列重叠;
  1. 对 PacBio Iso-Seq 或 Nanopore cDNA 和直接 RNA 读段进行剪接识别的比对;
  1. 比对 Illumina 单端或双端短读段;
  1. 进行组装到组装的比对;
  1. 在两种差异低于 ~15% 的近缘物种之间进行全基因组比对。
对于长度约为 10kb 的噪声读段序列,Minimap2 比主流长读段比对工具(如 BLASR、BWA-MEM、NGMLR 和 GMAP)快数十倍。在模拟长读段数据上,它比对更加准确,并生成适合后续分析的具有生物学意义的比对结果。而对于超过 100bp 的 Illumina 短读段,Minimap2 的速度是 BWA-MEM 和 Bowtie2 的三倍,并且在模拟数据上的准确性相当。有关详细的性能评估,请参考作者的进一步描述。

安装

建议conda安装

常用命令

部分参数说明

以下是小编在进行纳米孔测序数据比对中常用的参数,详细使用参数常见Manual Page - minimap2(1) (lh3.github.io)
  • -a 生成Sam格式的比对结果,用于后续继续生产bam文件;
  • -c 生成paf文件;
  • -x map-ont 主要用于纳米孔测序数据;
  • —eqx 输出 =/X 用于序列匹配/错配的CIGAR 运算符;
  • --secondary=yes|no 是否输出次比对结果;

输出文件解读

PAF文件

notion image

SAM 文件

序列情况
notion image
比对的简单结果如下图所示
notion image
notion image
  • QNAME:这是比对中查询序列的名称(即 read 的名称);相同的QNAME值表示这些读段来自同一个模板(template)。
  • FLAG :一个以位运算编码的字段,用来描述各类属性或状态
notion image
  • RNAME:比对的参考序列名称。
  • POS:比对的参考起始位置。
  • MAPQ:比对质量。
  • CIGAR:比对具体信息。
notion image
  • RNEXT:表示模板中下一个读段的主比对的参考序列名称;如果RNEXTRNAME相同,则设置为=
  • PNEXT:表示模板中下一个读段的主比对的位置。
  • TLEN:文库插入片段长度。
  • SEQ: 片段序列 (segment SEQuence)。当序列未存储时,此字段可以为 *。如果不是 *,则序列的长度必须等于 CIGAR 中 M/I/S/=/X 操作的长度总和。
  • QUAL: 碱基质量 (base QUALity) 的 ASCII 值加上 33(与 Sanger FASTQ 格式中的质量字符串相同)。碱基质量是以 phred表示的碱基错误概率。

参考

 

© Willow 2022 - 2025