2013年12月18日水曜日

cyanobaseのとtogotv作成

cyanobaseのtogotvを作成しました。





ちょうどNARに論文が公開されて、良い時期なのではないかと思い作成しました。
いつもはRAの学生さんがtogotvを作成されていますが、ヘビーユーザーがtogotvを作成すると面白いのではないかと考えたからです。

cyanobaseの特徴は何か?ということが伝わるように考えました。

1番の特徴はマニュアルキュレーションにより文献から抽出した情報がDBで公開されていることです。

文献から抽出した情報のうち、最も使われているのは
Gene symbol extracted from literature
だと思います。
これは他のDBでは公開されていない、cyanobase独自のものです。

TogoAnnotationを利用し、専門知識を持ったキュレーターが論文から手動で情報を抽出したものです。
時折誤った情報が紛れていますが、これは論文著者自身のミスが少なからず含まれています。
キュレーターが修正する方法もありますが、著者自身の記述を優先するという方針で入力しています。ご了承下さい。

遺伝子に対する参考文献情報も充実しております。
参考文献情報では、その遺伝子について言及しているセクション情報や同じ論文で記述されている他の遺伝子の情報を見ることが出来ます。

是非ご利用ください。

2013年12月4日水曜日

KAAS を使ってortholog assignment & pathway mapping


KAAS - KEGG Automatic Annotation Server
を使ってortholog assignment & pathway mappingを行いました
ESTの配列をBBH methodで解析
http://www.genome.jp/kaas-bin/kaas_main?mode=est_b


結果は

CL1Contig2 K02706


CL1Contig4 K08912
CL1Contig5 K02888
CL1Contig6 K08913
CL1Contig7 K08912




という感じに、IDとKOのリストが表示されます。

このままだとORTHOLOGY: K02706のNameやDefinitionがわからない...

そこで、Open Refineを利用してそれぞれのKOに対応する情報を取得しました。

KOに対応する情報の取得にはTogoWS REST serviceを利用しています
まずOpen Refineをインストール方法は統合TVを参考にしました



インストール後、TogoWS REST serviceを利用して情報を取得しました




まず、


Create a project 


でKAASの結果ファイルを開きます

Next

Create Project



表が作成されました

つぎにpathway情報を取得します。



Edit column → Add column by fetching URLs...

column名を入力し、Throttle delayを 50に設定します



Expressionの欄に

"http://togows.dbcls.jp/entry/kegg-orthology/" + value + "/pathways"
と入力

しばらくすると以下のようにpathwaysが表示されました
これをダウンロードして、解析やデータベースを作成することができます。



2013年11月27日水曜日

超絶高速ゲノム配列検索GGGenomeの検索結果をスプレッドシート上に表示

”Google スプレッドシートを使ってprimer情報を整理する”の続きです

前回はスプレッドシート上で自動リンクで開くようにする方法をご紹介しました。

今回はリンクを開かずに、スプレッドシート上に検索結果を表示する方法をご紹介します。

ImportDataという関数を使います。

2013-08-19 活用事例:Googleスプレッドシート上で配列検索

としてGGGenomeでもスプレッドシートが公開されています。



Dのカラムの

=concatenate("http://GGGenome.dbcls.jp/rice/",C2,".txt")


という関数で自動リンクを生成

Eのカラムで

=ImportData(D2)

という関数を使って実際にこのページの情報を取得します




ImportDataという関数は
TogoWS REST service利用するときにも便利ですが、残念ながら各スプレッドシートで使用できる ImportData 関数の数は 50 までです。多くのデータに利用するときにはOpen Refineの



Edit column → Add column by fetching URLs...
がおすすめです

2013年7月10日水曜日

超絶高速ゲノム配列検索GGGenomeを使ってprimer 情報を整理する

 超絶高速ゲノム配列検索GGGenomeを使うとprimer 情報を整理するのが便利になります

primerの位置はゲノム配列情報が更新されると、変わってしまいます
その度にprimerの位置情報を更新するのは非常に時間がかかりますが、超絶高速ゲノム配列検索GGGenomeを使うと最新の情報に更新されるので非常に便利です

Excelでprimer情報を整理することもできますが、Google スプレッドシートを使うのがおすすめです
入力した配列情報からGGGenomeへのリンクができ、その情報をスプレッドシート上に表示させる事ができるからです


この場合はrice のゲノムを指定しているので、
=IF(LEN(B2)>0, CONCATENATE("",B2),"")
と入力しています

gggenomeのページに記載してありますが(以下http://gggenome.dbcls.jp/ja/を一部引用させていただきました)

検索結果へのリンク:

  • http://GGGenome.dbcls.jp/db/k/sequence[.format][.download]
  • db
  •  → hg19, mm10, rn5, galGal4, xenTro3, danRer7, ci2, dm3, ce10, TAIR10, rice, bmor1, refseq, ddbj。省略時は hg19
生物種やDBによってdbの部分を変更します


TAIR → Arabidopsis   
=IF(LEN(B2)>0, CONCATENATE("",B2),"")

ミスマッチ/ギャップを許容する場合は
=IF(LEN(B2)>0, CONCATENATE("2/",B2),"")

この場合は2のミスマッチ/ギャプを許容しています
http://GGGenome.dbcls.jp/db/k/
のkの部分の数字を変更します
ミスマッチ/ギャップを許容しない場合は省略可能です

sequence情報をGGGenomeに入力する事無く、自動リンクで開くことが出来るようになり便利です。
しかしリンクを開かずにこれらの情報をスプレッドシート上に表示できれば... ということでImportDataによる情報の取得を行います

(つづく)



2013年7月7日日曜日

超絶高速ゲノム配列検索GGGenomeでprimerの検索

超絶高速ゲノム配列検索GGGenomeはprimerなど短い配列の検索に非常に便利です


GGGenomeでSSR RM10001の配列がイネゲノムのどの位置にあるか確認してみます

Forward_primer:25bp
CAATCACCCTCACCCTCTTATATGC




GGGenomeを利用した場合は、このような短い配列でも検索が可能です。
しかも許容するミスマッチ/ギャップの数を設定する事が出来ます。

他のDBを利用したblast検索と比較

1) MSU Rice Genome Annotation Project Databaseでこのプライマー配列をblast検索すると…

Query=  raw_sequence
        (25 letters)

Database:  all.seq
           55,986 sequences; 166,005,375 total letters.
                                                                                 Smallest
                                                                                   Sum
                                                                       High    Probability
Sequences producing High-scoring Segment Pairs:              Score     P(N)        N

       *** NONE ***

検索する事が出来ませんでした


2) Rice Annotation Project (RAP) DBで同じ配列をblat検索してみると

Hit #1Query:Query (25 letters)
Hit:chr01
Alignment
QueryHitIdentity (%)
StartEndStrandStartEnd
125+2770727731100
Query: 1     caatcaccctcaccctcttatatgc 25
             ||||||||||||||||||||||||| 
Hit  : 27707 caatcaccctcaccctcttatatgc 27731


と結果が表示されました。

しかしCAATCACCCTCACCCTCなどの17bp以下の配列では

BLAT result

No hits found.


となってしまいます。

RAP-DBと比較してGGGenomeの方が圧倒的に早く検索が可能です


primer配列の検索にはGGGenomeを!







2013年6月22日土曜日

TodoDBからデータをダウンロード


TogoDBではデータを検索で絞り込み、ダウンロードすることができます



Simple Search の[Download]ボタンや Advanced Search の[Download]ボタンをクリ ックすると、データベースのデータを CSV 形式でダウンロードすることができます。

ダウンロードされるCSVファイルの名前は、デフォルトでは "データベース名.csv" となります。


取得したデータをExcelで開こうとしたとき、データにずれが生じたことがありました。
テキストファイルで開くと問題ないのですが 、Excelで開こうとすると変なところで改行が入ってしまいました。

原因をお聞きしたところ…


改行が入った行には文字数の多いセルがあり、Excelのセル当たりの文字数制限 (Excel2010では32767文字)を超えた辺りでExcelが行を分けてしまったようです。

このようなセル当たりの文字数制限を超えるデータの場合はExcelで扱うのは避けた方が良さそうです
(そんなデータをExcelで開こうとする事に問題がありますが...)

http://dbarchive.biosciencedbc.jp/files/togodb_user.pdf

2013年6月13日木曜日

TogoDB ~fileのアップロード

TogoDBでデータベースを公開するためには、Excelなどを利用してcsvファイルを準備します。


Importボタンから

Database nameを入力


Upload fileでファイルを選択

これで完了です。
しかしmacでファイルを作成した場合下記のようなエラーが出ます。


[CSV::IllegalFormatError] CSV::IllegalFormatError

an error has occurred

原因は改行コード問題。
これを解決するために、

MotDB 

AJACS32/bono

に掲載された
こちらを利用します。

perl -pe 's/\r/\n/g' mac.txt > mac_conv_unix.txt

perl -pe 's/\r/\n/g' 元のファイル名 > 新しいファイル名

これでファイルの変換を行い、もう一度

Upload file

を行います。



統合TVの「TogoDBの使い方 〜自分のデータベースを作る〜
はこちらから