詳しい説明は以下のページを参照していただければと思います。
https://software.broadinstitute.org/gatk/guide/article?id=6472
BAM fileからのread groupの確認方法は
samtools view -H sample.bam | grep '@RG'
GATKでの解析に必要なread group field は
ID = Read group identifier
この情報はuniqueである必要があります。
IDが同じの場合、多サンプルでSNP callしても、GATKでは1サンプル分の結果しか出ないという問題が生じます。
PU = Platform Unit
{FLOWCELL_BARCODE}.{LANE}.{SAMPLE_BARCODE}.
SM = Sample
PL = Platform/technology used to produce the read
PL=illumina
と入力しています。
LB = DNA preparation library identifier
これらの情報はPicardのAddOrReplaceReadGroups を使って記載します。
http://broadinstitute.github.io/picard/command-line-overview.html#AddOrReplaceReadGroups
0 件のコメント:
コメントを投稿