2013年11月27日水曜日

超絶高速ゲノム配列検索GGGenomeの検索結果をスプレッドシート上に表示

”Google スプレッドシートを使ってprimer情報を整理する”の続きです

前回はスプレッドシート上で自動リンクで開くようにする方法をご紹介しました。

今回はリンクを開かずに、スプレッドシート上に検索結果を表示する方法をご紹介します。

ImportDataという関数を使います。

2013-08-19 活用事例:Googleスプレッドシート上で配列検索

としてGGGenomeでもスプレッドシートが公開されています。



Dのカラムの

=concatenate("http://GGGenome.dbcls.jp/rice/",C2,".txt")


という関数で自動リンクを生成

Eのカラムで

=ImportData(D2)

という関数を使って実際にこのページの情報を取得します




ImportDataという関数は
TogoWS REST service利用するときにも便利ですが、残念ながら各スプレッドシートで使用できる ImportData 関数の数は 50 までです。多くのデータに利用するときにはOpen Refineの



Edit column → Add column by fetching URLs...
がおすすめです

2013年7月10日水曜日

超絶高速ゲノム配列検索GGGenomeを使ってprimer 情報を整理する

 超絶高速ゲノム配列検索GGGenomeを使うとprimer 情報を整理するのが便利になります

primerの位置はゲノム配列情報が更新されると、変わってしまいます
その度にprimerの位置情報を更新するのは非常に時間がかかりますが、超絶高速ゲノム配列検索GGGenomeを使うと最新の情報に更新されるので非常に便利です

Excelでprimer情報を整理することもできますが、Google スプレッドシートを使うのがおすすめです
入力した配列情報からGGGenomeへのリンクができ、その情報をスプレッドシート上に表示させる事ができるからです


この場合はrice のゲノムを指定しているので、
=IF(LEN(B2)>0, CONCATENATE("",B2),"")
と入力しています

gggenomeのページに記載してありますが(以下http://gggenome.dbcls.jp/ja/を一部引用させていただきました)

検索結果へのリンク:

  • http://GGGenome.dbcls.jp/db/k/sequence[.format][.download]
  • db
  •  → hg19, mm10, rn5, galGal4, xenTro3, danRer7, ci2, dm3, ce10, TAIR10, rice, bmor1, refseq, ddbj。省略時は hg19
生物種やDBによってdbの部分を変更します


TAIR → Arabidopsis   
=IF(LEN(B2)>0, CONCATENATE("",B2),"")

ミスマッチ/ギャップを許容する場合は
=IF(LEN(B2)>0, CONCATENATE("2/",B2),"")

この場合は2のミスマッチ/ギャプを許容しています
http://GGGenome.dbcls.jp/db/k/
のkの部分の数字を変更します
ミスマッチ/ギャップを許容しない場合は省略可能です

sequence情報をGGGenomeに入力する事無く、自動リンクで開くことが出来るようになり便利です。
しかしリンクを開かずにこれらの情報をスプレッドシート上に表示できれば... ということでImportDataによる情報の取得を行います

(つづく)



2013年7月7日日曜日

超絶高速ゲノム配列検索GGGenomeでprimerの検索

超絶高速ゲノム配列検索GGGenomeはprimerなど短い配列の検索に非常に便利です


GGGenomeでSSR RM10001の配列がイネゲノムのどの位置にあるか確認してみます

Forward_primer:25bp
CAATCACCCTCACCCTCTTATATGC




GGGenomeを利用した場合は、このような短い配列でも検索が可能です。
しかも許容するミスマッチ/ギャップの数を設定する事が出来ます。

他のDBを利用したblast検索と比較

1) MSU Rice Genome Annotation Project Databaseでこのプライマー配列をblast検索すると…

Query=  raw_sequence
        (25 letters)

Database:  all.seq
           55,986 sequences; 166,005,375 total letters.
                                                                                 Smallest
                                                                                   Sum
                                                                       High    Probability
Sequences producing High-scoring Segment Pairs:              Score     P(N)        N

       *** NONE ***

検索する事が出来ませんでした


2) Rice Annotation Project (RAP) DBで同じ配列をblat検索してみると

Hit #1Query:Query (25 letters)
Hit:chr01
Alignment
QueryHitIdentity (%)
StartEndStrandStartEnd
125+2770727731100
Query: 1     caatcaccctcaccctcttatatgc 25
             ||||||||||||||||||||||||| 
Hit  : 27707 caatcaccctcaccctcttatatgc 27731


と結果が表示されました。

しかしCAATCACCCTCACCCTCなどの17bp以下の配列では

BLAT result

No hits found.


となってしまいます。

RAP-DBと比較してGGGenomeの方が圧倒的に早く検索が可能です


primer配列の検索にはGGGenomeを!







2013年6月22日土曜日

TodoDBからデータをダウンロード


TogoDBではデータを検索で絞り込み、ダウンロードすることができます



Simple Search の[Download]ボタンや Advanced Search の[Download]ボタンをクリ ックすると、データベースのデータを CSV 形式でダウンロードすることができます。

ダウンロードされるCSVファイルの名前は、デフォルトでは "データベース名.csv" となります。


取得したデータをExcelで開こうとしたとき、データにずれが生じたことがありました。
テキストファイルで開くと問題ないのですが 、Excelで開こうとすると変なところで改行が入ってしまいました。

原因をお聞きしたところ…


改行が入った行には文字数の多いセルがあり、Excelのセル当たりの文字数制限 (Excel2010では32767文字)を超えた辺りでExcelが行を分けてしまったようです。

このようなセル当たりの文字数制限を超えるデータの場合はExcelで扱うのは避けた方が良さそうです
(そんなデータをExcelで開こうとする事に問題がありますが...)

http://dbarchive.biosciencedbc.jp/files/togodb_user.pdf

2013年6月13日木曜日

TogoDB ~fileのアップロード

TogoDBでデータベースを公開するためには、Excelなどを利用してcsvファイルを準備します。


Importボタンから

Database nameを入力


Upload fileでファイルを選択

これで完了です。
しかしmacでファイルを作成した場合下記のようなエラーが出ます。


[CSV::IllegalFormatError] CSV::IllegalFormatError

an error has occurred

原因は改行コード問題。
これを解決するために、

MotDB 

AJACS32/bono

に掲載された
こちらを利用します。

perl -pe 's/\r/\n/g' mac.txt > mac_conv_unix.txt

perl -pe 's/\r/\n/g' 元のファイル名 > 新しいファイル名

これでファイルの変換を行い、もう一度

Upload file

を行います。



統合TVの「TogoDBの使い方 〜自分のデータベースを作る〜
はこちらから

2013年6月2日日曜日

TogoDBを使うために... アカウントの作成

TogoDBを開くと次のような画面が出てきます。








赤色のボタンのDataBaseをクリックしてから始めます。
下のようなログイン画面が出てくるので、OpenIDを入力しSign Inします。












TogoDBを利用するためにはDBCLSのOpenIDが必要です。
DBCLS OpenID サービス は、DBCLS が提供する OpenID 認証サービスです。
OpenIDは、一つのIDで対応するWebサービスに認証ができる仕組みです。Op­enID 対応サービスを利用する場合には、各サービス毎にアカウントやユーザ情報を管理する必­要がなくなります。

統合TVによる使い方紹介もあり、簡単にアカウントを作成する事が出来ます。

アカウントを作成してSign Inすると次のような画面が出てきます




これで準備は完了です。
次はデータベース用のデータを準備します。

統合TVの「TogoDBの使い方 〜自分のデータベースを作る〜
はこちらから



TOGO DBってすごい!

 EST 配列を自前の DBで公開したいと考えました。
さて、どうやったら良いか見当もつきません。

そんな時教えていただいたのが TOGO DB です。




この画面を見ただけではどこから始めようか...
当時はTogoDBが出来たばかりということもあり、詳しい事が分かりませんでした。

TogoDBメリットとしては


  1. サーバーが不要。メンテナンスも不要。
  2. csv  形式でデータをアップロード可能。
  3. 検索機能が充実している。
があげられます。
利用申請も必要ありませんでした。
DBCLSのOpenIDの登録だけで使う事ができました。




統合TVの「TogoDBの使い方 〜自分のデータベースを作る〜
はこちらから