2013年7月10日水曜日

超絶高速ゲノム配列検索GGGenomeを使ってprimer 情報を整理する

 超絶高速ゲノム配列検索GGGenomeを使うとprimer 情報を整理するのが便利になります

primerの位置はゲノム配列情報が更新されると、変わってしまいます
その度にprimerの位置情報を更新するのは非常に時間がかかりますが、超絶高速ゲノム配列検索GGGenomeを使うと最新の情報に更新されるので非常に便利です

Excelでprimer情報を整理することもできますが、Google スプレッドシートを使うのがおすすめです
入力した配列情報からGGGenomeへのリンクができ、その情報をスプレッドシート上に表示させる事ができるからです


この場合はrice のゲノムを指定しているので、
=IF(LEN(B2)>0, CONCATENATE("",B2),"")
と入力しています

gggenomeのページに記載してありますが(以下http://gggenome.dbcls.jp/ja/を一部引用させていただきました)

検索結果へのリンク:

  • http://GGGenome.dbcls.jp/db/k/sequence[.format][.download]
  • db
  •  → hg19, mm10, rn5, galGal4, xenTro3, danRer7, ci2, dm3, ce10, TAIR10, rice, bmor1, refseq, ddbj。省略時は hg19
生物種やDBによってdbの部分を変更します


TAIR → Arabidopsis   
=IF(LEN(B2)>0, CONCATENATE("",B2),"")

ミスマッチ/ギャップを許容する場合は
=IF(LEN(B2)>0, CONCATENATE("2/",B2),"")

この場合は2のミスマッチ/ギャプを許容しています
http://GGGenome.dbcls.jp/db/k/
のkの部分の数字を変更します
ミスマッチ/ギャップを許容しない場合は省略可能です

sequence情報をGGGenomeに入力する事無く、自動リンクで開くことが出来るようになり便利です。
しかしリンクを開かずにこれらの情報をスプレッドシート上に表示できれば... ということでImportDataによる情報の取得を行います

(つづく)



2013年7月7日日曜日

超絶高速ゲノム配列検索GGGenomeでprimerの検索

超絶高速ゲノム配列検索GGGenomeはprimerなど短い配列の検索に非常に便利です


GGGenomeでSSR RM10001の配列がイネゲノムのどの位置にあるか確認してみます

Forward_primer:25bp
CAATCACCCTCACCCTCTTATATGC




GGGenomeを利用した場合は、このような短い配列でも検索が可能です。
しかも許容するミスマッチ/ギャップの数を設定する事が出来ます。

他のDBを利用したblast検索と比較

1) MSU Rice Genome Annotation Project Databaseでこのプライマー配列をblast検索すると…

Query=  raw_sequence
        (25 letters)

Database:  all.seq
           55,986 sequences; 166,005,375 total letters.
                                                                                 Smallest
                                                                                   Sum
                                                                       High    Probability
Sequences producing High-scoring Segment Pairs:              Score     P(N)        N

       *** NONE ***

検索する事が出来ませんでした


2) Rice Annotation Project (RAP) DBで同じ配列をblat検索してみると

Hit #1Query:Query (25 letters)
Hit:chr01
Alignment
QueryHitIdentity (%)
StartEndStrandStartEnd
125+2770727731100
Query: 1     caatcaccctcaccctcttatatgc 25
             ||||||||||||||||||||||||| 
Hit  : 27707 caatcaccctcaccctcttatatgc 27731


と結果が表示されました。

しかしCAATCACCCTCACCCTCなどの17bp以下の配列では

BLAT result

No hits found.


となってしまいます。

RAP-DBと比較してGGGenomeの方が圧倒的に早く検索が可能です


primer配列の検索にはGGGenomeを!