イネのデータベースのリファレンスゲノムがIRGSP build 4あるいはIRGSP build 5になっている場合には、今使っている リファレンスゲノムIRGSP1.0に変換する必要があります
Samtoolsを使うと簡単!FASTAファイルから部分配列を抜き出すを参考にして、リファレンスゲノムを切り出します
リファレンスにインデックスを付与する
samtools faidx ref_IRGSP4.fasta
FASTAのエントリー名と位置を指定して部分配列を切り出す
samtools faidx ref_IRGSP4.fasta chr1:12345-12445
>chr1:12345-12445
ATGA....
抜き出した部分配列を用いて、blast検索を行います
手法は以下の論文を参考にしました
Ohyanagi H, Ebata T, Huang X, Gong H, Fujita M, Mochizuki T, Toyoda A,
Fujiyama A, Kaminuma E, Nakamura Y, Feng Q, Wang ZX, Han B, Kurata N.
OryzaGenome: Genome Diversity Database of Wild Oryza Species. Plant Cell Physiol.
2016 Jan;57(1):e1. doi: 10.1093/pcp/pcv171. PubMed PMID: 26578696; PubMed Central
PMCID: PMC4722174.
(i) for each SNP, extract the 201 bp flanking sequence (the SNP nucleotide itself and the flanking 100 bp nucleotides on both sides) on the original genome (IRGSP-build4.0)
(ii) search the counterpart of the 201 bp on the latest genome (Os-Nipponbare-Reference-IRGSP-1.0) with BLASTN homology search, allowing no indel and one mismatch at most, with 100% coverage; (iii) if there is more than one homologous region, discard the SNP
(iv) if the SNP was converted onto a different chromosome, discard the SNP.
blastdb作成
makeblastdb -dbtype nucl -hash_index -in IRGSP-1.0_genome.fasta
blast
blastn -db IRGSP-1.0_genome.fasta -query test.fasta -out test_blastn.out -outfmt 6 -max_target_seqs 1
オプションは
-outfmt 6 タブ区切りで出力
-out filename