法医DNA测序|纳米孔测序变异检测→
group
analysis
date
Feb 6, 2025
slug
forensic_nanopore_snv
status
Published
tags
forensic
nanopore sequencing
bioinformatics
summary
本期带来基纳米孔测序比对结果的常见变异识别软件
• bcftools
• Longshot
• Clair3
type
Post
本期带来基纳米孔测序比对结果的常见变异识别软件
- bcftools
- Longshot
- Clair3
Bcftools
Bcftools 是一组用于操作变异识别文件(VCF 和其二进制格式 BCF)的实用工具。所有命令都可以处理 VCF 和 BCF 文件,不论是未压缩还是 BGZF 压缩格式。
简单的变异识别命令
Bcftools 的操作通常分为两个主要部分:mpileup 和 call。以下是这两个部分的详细说明:
- mpileup 部分:该部分在每个覆盖的基因组位置生成基因型可能性(genotype likelihoods)。
- call 部分:该部分进行实际的变异识别。
在使用 Bcftools 进行变异调用时,可以使用以下选项:
m
:指示程序使用默认的调用方法。
v
:要求仅输出变异位点。
O
:选择输出格式。在这个例子中,我们选择了二进制压缩 BCF,这是进一步处理(如过滤)的最佳起始格式。
更加详细的使用方法参见:bcftools(1) (samtools.github.io)
Longshot
Longshot 是一种专为二倍体基因组设计的变异调用工具,适用于长读长且容易出错的测序数据,如 Pacific Biosciences (PacBio) SMRT 和 Oxford Nanopore Technologies (ONT) 的数据。以下是 Longshot 的主要功能和特点:
- 输入文件:Longshot 以对齐的 BAM/CRAM 文件作为输入。
- 输出文件:输出一个包含变异和单倍型信息的 phased VCF 文件。
- 变异调用:主要调用单核苷酸变异(SNVs),但如果输入的 VCF 文件中包含插入缺失变异(indels),它也能对这些 indels 进行基因分型。
- 单倍型分离 BAM 文件:可以输出单倍型分离的 BAM 文件,这些文件可以用于后续分析。
- 基因分型和单倍型分析:可以对输入的 VCF 文件进行基因分型和单倍型分析。
命令
Clair3
Clair3 是一种针对长读长测序数据的生殖系小变异调用工具。它结合了两种主要方法的优点:pileup 调用和全对齐(full-alignment)。以下是 Clair3 的主要特点和功能:
- 方法结合:
- Pileup 调用:处理大多数变异候选位点,速度快。
- 全对齐:处理复杂的变异候选位点,最大化精度和召回率。
- 性能:
- 运行速度快。
- 尤其在低覆盖率情况下表现优异。
- 简洁和模块化:
- 设计简单,易于部署和集成。
Clair3 的这些特性使其在处理长读长测序数据时非常高效和可靠,特别是对于覆盖率较低的样本。
除了 Clair3,Clair 系列还包括针对不同类型样本和应用场景的工具:
- Clair3-RNA:
- 专用于使用长读长 RNA-seq 样本进行生殖系变异调用。
- ClairS:
- 针对成对的肿瘤/正常样本进行体细胞变异调用。
- ClairS-TO:
- 针对仅有肿瘤样本的体细胞变异调用。
基于conda的安装方式及运行命令
更详细的使用方法以及更多的模型见:HKU-BAL/Clair3: Clair3 - Symphonizing pileup and full-alignment for high-performance long-read variant calling (github.com)
参考
- Petr Danecek, James K Bonfield, Jennifer Liddle, John Marshall, Valeriu Ohan, Martin O Pollard, Andrew Whitwham, Thomas Keane, Shane A McCarthy, Robert M Davies, Heng Li GigaScience, Volume 10, Issue 2, February 2021, giab008, https://doi.org/10.1093/gigascience/giab008
- Zheng, Z., Li, S., Su, J. et al. Symphonizing pileup and full-alignment for deep learning-based long-read variant calling. Nat Comput Sci 2, 797–803 (2022). https://doi.org/10.1038/s43588-022-00387-x