2014年5月27日火曜日

Short sequencesのNucleotide BLAST

短い配列のblastはgggenomeがオススめ
しかしながら、ゲノム配列が登録されていない生物種の場合自分でblast検索をする必要があります。




local blastの設定はこちらを参考に




今回はblast+を使っています。
NCBIのサイトに
"Search for short and near exact matches" under Nucleotide BLAST is useful for primer or short nucleotide motif searches.  


詳しく書かれています。



通常のnucleotide-nucleotide BLASTの設定では、短い配列はうまく見つけることが出来ません。
そこでword size、filter setting, expect valueをオプションで設定しておく必要があります。

今回はword sizeだけ設定しました。
20bp以下のprimer配列をfasta形式にまとめています。

hkane$ blastn -db database.fasta -query primer.fasta -out 出力ファイル名 -outfmt 6 -word_size 7 -num_alignments 2

”-outfmt 6”にしてタブ区切りで出力しています。Excelで開き、データをまとめる事が出来ます。

blast+の場合の各カラムとDescriptionは


Column NCBI name Description
1 qseqid Query Seq-id (ID of your sequence)
2 sseqid Subject Seq-id (ID of the database hit)
3 pident Percentage of identical matches
4 length Alignment length
5 mismatch Number of mismatches
6 gapopen Number of gap openings
7 qstart Start of alignment in query
8 qend End of alignment in query
9 sstart Start of alignment in subject (database hit)
10 send End of alignment in subject (database hit)
11 evalue Expectation value (E-value)
12 bitscore Bit score

です。