介绍

CNVkit是一种用于检测群体中拷贝数变异(CNV)的分析工具,可以使用它来检测基因组中的CNV事件。CNV是指基因组中大片段DNA的插入、缺失或重复,与许多疾病的发生和发展有关。

在使用CNVkit进行CNV分析之前,您需要进行以下准备工作:

  1. 安装CNVkit:请根据您的操作系统在CNVkit官方网站上下载并安装CNVkit。
  2. 准备输入文件:您需要一组已对齐的WGS或WES测序样本的BAM文件,以及每个样本的目标区域的BED文件。
  3. 创建参考文件:您需要创建一个参考样本的参考序列和控制区域的文件。

CNV分析流程

CNVkit的分析流程包括以下步骤:

  1. 创建参考文件:使用CNVkit的"access"命令创建一个参考.bed文件,列出您希望在每个样本中进行CNV检测的目标区域。
  2. cnvkit.py access sample.bed -g reference.fasta -t your_capture.bed -o reference.cnn
  3. 预处理数据:使用CNVkit的"batch"命令对每个样本的BAM文件进行预处理,创建每个样本的.cnn文件。
  4. cnvkit.py batch your_BAM_files.bam --method wgs -n -d reference.cnn
  5. 拷贝数估计:使用CNVkit的"cnr"命令估计每个样本中的拷贝数比例。
  6. cnvkit.py cnr your_cnn_files.cnn -r reference.cnn -o your_cnr_files.cnr
  7. 拷贝数分段:使用CNVkit的"segment"命令将每个样本中的拷贝数数据进行分段,识别潜在的CNV区域。
  8. cnvkit.py segment your_cnr_files.cnr -o your_segments.cns
  9. 基因型分析:使用CNVkit的"call"命令根据拷贝数比例和深度数据对每个样本的各个CNV事件进行基因型分析。
  10. cnvkit.py call your_segments.cns -o your_calls.cns

结果解读

CNVkit的分析结果包括多个文件,其中最重要的是.call文件,它包含了每个样本的CNV事件和其基因型信息。在结果中,每行记录了一个CNV事件的具体信息,如染色体编号、起始位置、终止位置、拷贝数变化等。

您可以使用CNVkit的"scatter"命令将CNV结果可视化,并使用其他可视化工具(如基因组浏览器)进一步解读和分析CNV事件。

此外,CNVkit还支持通过参考样本的测序数据来校正样本之间的比例偏差,以提高结果的准确性。您可以使用CNVkit的"reference"命令创建参考文件,然后使用"fix"命令对其它样本进行校正。