介绍

CNVkit 是一种用于检测群体中拷贝数变异(CNV)的分析工具,可以使用它来检测基因组中的 CNV 事件。CNV 是指基因组中大片段 DNA 的插入、缺失或重复,与许多疾病的发生和发展有关。

在使用 CNVkit 进行 CNV 分析之前,您需要进行以下准备工作:

  1. 安装 CNVkit:请根据您的操作系统在 CNVkit 官方网站上下载并安装 CNVkit。
  2. 准备输入文件:您需要一组已对齐的 WGS 或 WES 测序样本的 BAM 文件,以及每个样本的目标区域的 BED 文件。
  3. 创建参考文件:您需要创建一个参考样本的参考序列和控制区域的文件。

CNV 分析流程

CNVkit 的分析流程包括以下步骤:

  1. 创建参考文件:使用 CNVkit 的 "access" 命令创建一个参考 .bed 文件,列出您希望在每个样本中进行 CNV 检测的目标区域。
  2. cnvkit.py access sample.bed -g reference.fasta -t your_capture.bed -o reference.cnn
    Bash
  3. 预处理数据:使用 CNVkit 的 "batch" 命令对每个样本的 BAM 文件进行预处理,创建每个样本的 .cnn 文件。
  4. cnvkit.py batch your_BAM_files.bam --method wgs -n -d reference.cnn
    Bash
  5. 拷贝数估计:使用 CNVkit 的 "cnr" 命令估计每个样本中的拷贝数比例。
  6. cnvkit.py cnr your_cnn_files.cnn -r reference.cnn -o your_cnr_files.cnr
    Bash
  7. 拷贝数分段:使用 CNVkit 的 "segment" 命令将每个样本中的拷贝数数据进行分段,识别潜在的 CNV 区域。
  8. cnvkit.py segment your_cnr_files.cnr -o your_segments.cns
    Bash
  9. 基因型分析:使用 CNVkit 的 "call" 命令根据拷贝数比例和深度数据对每个样本的各个 CNV 事件进行基因型分析。
  10. cnvkit.py call your_segments.cns -o your_calls.cns
    Bash

结果解读

CNVkit 的分析结果包括多个文件,其中最重要的是 .call 文件,它包含了每个样本的 CNV 事件和其基因型信息。在结果中,每行记录了一个 CNV 事件的具体信息,如染色体编号、起始位置、终止位置、拷贝数变化等。

您可以使用 CNVkit 的 "scatter" 命令将 CNV 结果可视化,并使用其他可视化工具(如基因组浏览器)进一步解读和分析 CNV 事件。

此外,CNVkit 还支持通过参考样本的测序数据来校正样本之间的比例偏差,以提高结果的准确性。您可以使用 CNVkit 的 "reference" 命令创建参考文件,然后使用 "fix" 命令对其它样本进行校正。