hkaneのLab Notebook

2014年2月20日木曜日

CyanoBaseの使い方　情報整理編　その１

CyanoBase ではURL と表示コンテンツの関係が分かりやすくなっています。

たとえば、
/cyanobase/Synechocystis/genes/slr1311 は遺伝子ID slr1311 のページを提供しています。

調べたい遺伝子IDを入力しなくても、直接そのページに移動する事が可能です。

これを利用して、遺伝子のリストを作成し、すぐにその遺伝子のページに移動できるようにGoogle Spread Sheetを使ってみます。

Google Driveの使い方はTogoTVを参照して下さい。

遺伝子IDのリストをGoogle Spread Sheetに入力します。

列Bにそれぞれの遺伝子IDに対応したURLを生成します。

関数は CONCATENATEを利用しています。　文字列を別の文字列に結合します。

詳しくは以下のページを参照して下さい。

https://support.google.com/drive/answer/3094123?hl=en

URLを指定する"http://genome.microbedb.jp/cyanobase/Synechocystis/genes/"という文字列と、遺伝子IDが入力されているセルA2の文字列を結合します。

=CONCATENATE("http://genome.microbedb.jp/cyanobase/Synechocystis/genes/",A2)

これで、リンク先のURL　http://genome.microbedb.jp/cyanobase/Synechocystis/genes/slr0611　が生成され、すぐに遺伝子の情報のページを見ることができます。

この関数はGoogle Spread Sheedだけでなく、Excelでも使う事が出来ます。

2014年2月11日火曜日

CyanoBaseの使い方〜応用編・APIの利用

今回はCyanoBaseの使い方の応用編です。APIの利用を中心にご紹介します。

CyanoBaseではキーワード検索の結果をtxt形式で保存することが出来ます。
たとえば、psbをキーワードにした場合

40の遺伝子がヒットしました。
これらの結果をダウンロードするには、右側のtxtボタンをクリックします。

このファイルを保存し、Excelなどの表形式で開くと簡単に情報を整理する事が出来ます。

CyanoBase では、URL と表示コンテンツの関係が分かりやすくなっています。
遺伝子IDさえわかれば直接参照出来るように設計されています

http://genome.microbedb.jp/cyanobase/Synechocystis/genes/{GeneID}　遺伝子のページ
http://genome.microbedb.jp/cyanobase/Synechocystis/genes/{GeneID}.fna 塩基配列
http://genome.microbedb.jp/cyanobase/Synechocystis/genes/{GeneID}.faa アミノ酸配列
http://genome.microbedb.jp/cyanobase/Synechocystis/blast_hits/{GeneID}　 blast検索の結果
http://genome.microbedb.jp/cyanobase/Synechocystis/orthologs/{GeneID}　　　　　　　　　　　CyanoBase に含まれる配列集合での、BLAST双方向ベストヒットとしてのオーソログ
http://genome.microbedb.jp/cyanobase/Synechocystis/iprscan_matches/{GeneID}　 InterProScan の結果

Synechocystissp. PCC 6803の情報をまとめて取得することも可能です。

遺伝子の情報は

http://genome.microbedb.jp/cyanobase/Synechocystis/genes.csv

からcsv形式で取得できます。

遺伝子ID、遺伝子名、ポジション、アノテーションのリストです。

アミノ酸配列の情報は

http://genome.microbedb.jp/cyanobase/Synechocystis/genes.faa

遺伝子シンボルは

http://genome.microbedb.jp/cyanobase/Synechocystis/genes/search/dsn/gene_symbol.txt

研究論文から専門のキュレーターが抽出した遺伝子シンボルのリストは

http://genome.microbedb.jp/cyanobase/Synechocystis/genes/search/dsn/gi_gname.txt

こちらの方が遺伝子シンボルの情報量は多いです。

以上のように、CyanoBaseに含まれる全生物種について同様に情報を取得する事が出来ます。

2013年12月18日水曜日

ちょうどNARに論文が公開されて、良い時期なのではないかと思い作成しました。
いつもはRAの学生さんがtogotvを作成されていますが、ヘビーユーザーがtogotvを作成すると面白いのではないかと考えたからです。

cyanobaseの特徴は何か？ということが伝わるように考えました。

1番の特徴はマニュアルキュレーションにより文献から抽出した情報がDBで公開されていることです。

文献から抽出した情報のうち、最も使われているのは
Gene symbol extracted from literature
だと思います。
これは他のDBでは公開されていない、cyanobase独自のものです。

TogoAnnotationを利用し、専門知識を持ったキュレーターが論文から手動で情報を抽出したものです。
時折誤った情報が紛れていますが、これは論文著者自身のミスが少なからず含まれています。
キュレーターが修正する方法もありますが、著者自身の記述を優先するという方針で入力しています。ご了承下さい。

遺伝子に対する参考文献情報も充実しております。
参考文献情報では、その遺伝子について言及しているセクション情報や同じ論文で記述されている他の遺伝子の情報を見ることが出来ます。

是非ご利用ください。

2013年12月4日水曜日

KAAS を使ってortholog assignment & pathway mapping

KAAS - KEGG Automatic Annotation Server
を使ってortholog assignment & pathway mappingを行いました
ESTの配列をBBH methodで解析
http://www.genome.jp/kaas-bin/kaas_main?mode=est_b

結果は


CL1Contig2	K02706

CL1Contig4	K08912

CL1Contig5	K02888

CL1Contig6	K08913

CL1Contig7	K08912

という感じに、IDとKOのリストが表示されます。

このままだとORTHOLOGY: K02706のNameやDefinitionがわからない...

そこで、Open Refineを利用してそれぞれのKOに対応する情報を取得しました。

KOに対応する情報の取得にはTogoWS REST serviceを利用しています
まずOpen Refineをインストール方法は統合TVを参考にしました

インストール後、TogoWS REST serviceを利用して情報を取得しました

まず、

Create a project

でKAASの結果ファイルを開きます

Create Project

表が作成されました

つぎにpathway情報を取得します。

Edit column →　Add column by fetching URLs...

column名を入力し、Throttle delayを 50に設定します

Expressionの欄に

"http://togows.dbcls.jp/entry/kegg-orthology/" + value + "/pathways"

と入力

しばらくすると以下のようにpathwaysが表示されました

これをダウンロードして、解析やデータベースを作成することができます。

2013年11月27日水曜日

超絶高速ゲノム配列検索GGGenomeの検索結果をスプレッドシート上に表示

”Google スプレッドシートを使ってprimer情報を整理する”の続きです

前回はスプレッドシート上で自動リンクで開くようにする方法をご紹介しました。

今回はリンクを開かずに、スプレッドシート上に検索結果を表示する方法をご紹介します。

ImportDataという関数を使います。

2013-08-19 活用事例：Googleスプレッドシート上で配列検索

としてGGGenomeでもスプレッドシートが公開されています。

Dのカラムの

=concatenate("http://GGGenome.dbcls.jp/rice/",C2,".txt")

という関数で自動リンクを生成

Eのカラムで

=ImportData(D2)

という関数を使って実際にこのページの情報を取得します

ImportDataという関数は
TogoWS REST serviceを利用するときにも便利ですが、残念ながら各スプレッドシートで使用できる ImportData 関数の数は 50 までです。多くのデータに利用するときにはOpen Refineの

Edit column →　Add column by fetching URLs...

がおすすめです

2013年7月10日水曜日

超絶高速ゲノム配列検索GGGenomeを使ってprimer 情報を整理する

超絶高速ゲノム配列検索GGGenomeを使うとprimer 情報を整理するのが便利になります

primerの位置はゲノム配列情報が更新されると、変わってしまいます
その度にprimerの位置情報を更新するのは非常に時間がかかりますが、超絶高速ゲノム配列検索GGGenomeを使うと最新の情報に更新されるので非常に便利です

Excelでprimer情報を整理することもできますが、Google スプレッドシートを使うのがおすすめです
入力した配列情報からGGGenomeへのリンクができ、その情報をスプレッドシート上に表示させる事ができるからです

この場合はrice のゲノムを指定しているので、
=IF(LEN(B2)>0, CONCATENATE("http://gggenome.dbcls.jp/ja/rice/ ",B2),"")
と入力しています

gggenomeのページに記載してありますが（以下http://gggenome.dbcls.jp/ja/を一部引用させていただきました）

検索結果へのリンク：

http://GGGenome.dbcls.jp/db/k/sequence[.format][.download]

生物種やDBによってdbの部分を変更します

TAIR →　Arabidopsis
=IF(LEN(B2)>0, CONCATENATE("http://gggenome.dbcls.jp/ja/TAIR10/ ",B2),"")

ミスマッチ/ギャップを許容する場合は
=IF(LEN(B2)>0, CONCATENATE("http://gggenome.dbcls.jp/ja/TAIR10/ 2/",B2),"")

この場合は2のミスマッチ／ギャプを許容しています
http://GGGenome.dbcls.jp/db/k/
のkの部分の数字を変更します
ミスマッチ/ギャップを許容しない場合は省略可能です

sequence情報をGGGenomeに入力する事無く、自動リンクで開くことが出来るようになり便利です。
しかしリンクを開かずにこれらの情報をスプレッドシート上に表示できれば... ということでImportDataによる情報の取得を行います

（つづく）

2013年7月7日日曜日

超絶高速ゲノム配列検索GGGenomeでprimerの検索

超絶高速ゲノム配列検索GGGenomeはprimerなど短い配列の検索に非常に便利です

GGGenomeでSSR RM10001の配列がイネゲノムのどの位置にあるか確認してみます

Forward_primer:25bp
CAATCACCCTCACCCTCTTATATGC

GGGenomeを利用した場合は、このような短い配列でも検索が可能です。
しかも許容するミスマッチ/ギャップの数を設定する事が出来ます。

他のDBを利用したblast検索と比較

1) MSU Rice Genome Annotation Project Databaseでこのプライマー配列をblast検索すると…

Query= raw_sequence
(25 letters)

Database: all.seq
55,986 sequences; 166,005,375 total letters.
　　　　　　　　　　　　 Smallest
　　　　　　　　　　　　 Sum
　　　　　　　　　High 　　Probability
Sequences producing High-scoring Segment Pairs: Score 　　　P(N) 　　 N

*** NONE ***

検索する事が出来ませんでした

2) Rice Annotation Project (RAP) DBで同じ配列をblat検索してみると

Alignment

Query

Hit

Identity (%)

Start

End

Strand

Start

End

27707

27731

100

Query: 1     caatcaccctcaccctcttatatgc 25
             ||||||||||||||||||||||||| 
Hit  : 27707 caatcaccctcaccctcttatatgc 27731

と結果が表示されました。

しかしCAATCACCCTCACCCTCなどの17bp以下の配列では

BLAT result

No hits found.

となってしまいます。

RAP-DBと比較してGGGenomeの方が圧倒的に早く検索が可能です