hkaneのLab Notebook

2013年11月27日水曜日

超絶高速ゲノム配列検索GGGenomeの検索結果をスプレッドシート上に表示

”Google スプレッドシートを使ってprimer情報を整理する”の続きです

前回はスプレッドシート上で自動リンクで開くようにする方法をご紹介しました。

今回はリンクを開かずに、スプレッドシート上に検索結果を表示する方法をご紹介します。

ImportDataという関数を使います。

2013-08-19 活用事例：Googleスプレッドシート上で配列検索

としてGGGenomeでもスプレッドシートが公開されています。

Dのカラムの

=concatenate("http://GGGenome.dbcls.jp/rice/",C2,".txt")

という関数で自動リンクを生成

Eのカラムで

=ImportData(D2)

という関数を使って実際にこのページの情報を取得します

ImportDataという関数は
TogoWS REST serviceを利用するときにも便利ですが、残念ながら各スプレッドシートで使用できる ImportData 関数の数は 50 までです。多くのデータに利用するときにはOpen Refineの

Edit column →　Add column by fetching URLs...

がおすすめです

2013年7月10日水曜日

超絶高速ゲノム配列検索GGGenomeを使ってprimer 情報を整理する

超絶高速ゲノム配列検索GGGenomeを使うとprimer 情報を整理するのが便利になります

primerの位置はゲノム配列情報が更新されると、変わってしまいます
その度にprimerの位置情報を更新するのは非常に時間がかかりますが、超絶高速ゲノム配列検索GGGenomeを使うと最新の情報に更新されるので非常に便利です

Excelでprimer情報を整理することもできますが、Google スプレッドシートを使うのがおすすめです
入力した配列情報からGGGenomeへのリンクができ、その情報をスプレッドシート上に表示させる事ができるからです

この場合はrice のゲノムを指定しているので、
=IF(LEN(B2)>0, CONCATENATE("http://gggenome.dbcls.jp/ja/rice/ ",B2),"")
と入力しています

gggenomeのページに記載してありますが（以下http://gggenome.dbcls.jp/ja/を一部引用させていただきました）

検索結果へのリンク：

http://GGGenome.dbcls.jp/db/k/sequence[.format][.download]

生物種やDBによってdbの部分を変更します

TAIR →　Arabidopsis
=IF(LEN(B2)>0, CONCATENATE("http://gggenome.dbcls.jp/ja/TAIR10/ ",B2),"")

ミスマッチ/ギャップを許容する場合は
=IF(LEN(B2)>0, CONCATENATE("http://gggenome.dbcls.jp/ja/TAIR10/ 2/",B2),"")

この場合は2のミスマッチ／ギャプを許容しています
http://GGGenome.dbcls.jp/db/k/
のkの部分の数字を変更します
ミスマッチ/ギャップを許容しない場合は省略可能です

sequence情報をGGGenomeに入力する事無く、自動リンクで開くことが出来るようになり便利です。
しかしリンクを開かずにこれらの情報をスプレッドシート上に表示できれば... ということでImportDataによる情報の取得を行います

（つづく）

2013年7月7日日曜日

超絶高速ゲノム配列検索GGGenomeでprimerの検索

超絶高速ゲノム配列検索GGGenomeはprimerなど短い配列の検索に非常に便利です

GGGenomeでSSR RM10001の配列がイネゲノムのどの位置にあるか確認してみます

Forward_primer:25bp
CAATCACCCTCACCCTCTTATATGC

GGGenomeを利用した場合は、このような短い配列でも検索が可能です。
しかも許容するミスマッチ/ギャップの数を設定する事が出来ます。

他のDBを利用したblast検索と比較

1) MSU Rice Genome Annotation Project Databaseでこのプライマー配列をblast検索すると…

Query= raw_sequence
(25 letters)

Database: all.seq
55,986 sequences; 166,005,375 total letters.
　　　　　　　　　　　　 Smallest
　　　　　　　　　　　　 Sum
　　　　　　　　　High 　　Probability
Sequences producing High-scoring Segment Pairs: Score 　　　P(N) 　　 N

*** NONE ***

検索する事が出来ませんでした

2) Rice Annotation Project (RAP) DBで同じ配列をblat検索してみると

Alignment

Query

Hit

Identity (%)

Start

End

Strand

Start

End

27707

27731

100

Query: 1     caatcaccctcaccctcttatatgc 25
             ||||||||||||||||||||||||| 
Hit  : 27707 caatcaccctcaccctcttatatgc 27731

と結果が表示されました。

しかしCAATCACCCTCACCCTCなどの17bp以下の配列では

BLAT result

No hits found.

となってしまいます。

RAP-DBと比較してGGGenomeの方が圧倒的に早く検索が可能です

primer配列の検索にはGGGenomeを!

2013年6月22日土曜日

TodoDBからデータをダウンロード

TogoDBではデータを検索で絞り込み、ダウンロードすることができます

Simple Search の[Download]ボタンや Advanced Search の[Download]ボタンをクリックすると、データベースのデータを CSV 形式でダウンロードすることができます。

ダウンロードされるCSVファイルの名前は、デフォルトでは "データベース名.csv" となります。

取得したデータをExcelで開こうとしたとき、データにずれが生じたことがありました。

テキストファイルで開くと問題ないのですが、Excelで開こうとすると変なところで改行が入ってしまいました。

原因をお聞きしたところ…

改行が入った行には文字数の多いセルがあり、Excelのセル当たりの文字数制限　(Excel2010では32767文字）を超えた辺りでExcelが行を分けてしまったようです。

このようなセル当たりの文字数制限を超えるデータの場合はExcelで扱うのは避けた方が良さそうです

（そんなデータをExcelで開こうとする事に問題がありますが...)

TogoDB　利用者向け操作説明書

http://dbarchive.biosciencedbc.jp/files/togodb_user.pdf

2013年6月13日木曜日

TogoDB ~fileのアップロード

TogoDBでデータベースを公開するためには、Excelなどを利用してcsvファイルを準備します。

Importボタンから

Database nameを入力

Upload fileでファイルを選択

これで完了です。

しかしmacでファイルを作成した場合下記のようなエラーが出ます。

[CSV::IllegalFormatError] CSV::IllegalFormatError

an error has occurred

原因は改行コード問題。

これを解決するために、

MotDB

AJACS32/bono

に掲載された

こちらを利用します。

perl -pe 's/\r/\n/g' mac.txt > mac_conv_unix.txt

perl -pe 's/\r/\n/g' 元のファイル名 > 新しいファイル名

これでファイルの変換を行い、もう一度

Upload file

を行います。

統合TVの「TogoDBの使い方〜自分のデータベースを作る〜」

はこちらから

http://togotv.dbcls.jp/20100807.html

2013年6月2日日曜日

TogoDBを使うために... アカウントの作成

TogoDBを開くと次のような画面が出てきます。

赤色のボタンのDataBaseをクリックしてから始めます。
下のようなログイン画面が出てくるので、OpenIDを入力しSign Inします。

TogoDBを利用するためにはDBCLSのOpenIDが必要です。

DBCLS OpenID サービス は、DBCLS が提供する OpenID 認証サービスです。

OpenIDは、一つのIDで対応するWebサービスに認証ができる仕組みです。OpenID 対応サービスを利用する場合には、各サービス毎にアカウントやユーザ情報を管理する必要がなくなります。

統合TVによる使い方紹介もあり、簡単にアカウントを作成する事が出来ます。

アカウントを作成してSign Inすると次のような画面が出てきます

これで準備は完了です。

次はデータベース用のデータを準備します。

統合TVの「TogoDBの使い方〜自分のデータベースを作る〜」

はこちらから

http://togotv.dbcls.jp/20100807.html

TOGO DBってすごい！

EST 配列を自前の DBで公開したいと考えました。
さて、どうやったら良いか見当もつきません。

そんな時教えていただいたのが TOGO DB です。

この画面を見ただけではどこから始めようか...
当時はTogoDBが出来たばかりということもあり、詳しい事が分かりませんでした。

TogoDBメリットとしては

サーバーが不要。メンテナンスも不要。
csv 形式でデータをアップロード可能。
検索機能が充実している。

があげられます。
利用申請も必要ありませんでした。
DBCLSのOpenIDの登録だけで使う事ができました。

統合TVの「TogoDBの使い方〜自分のデータベースを作る〜」

はこちらから

http://togotv.dbcls.jp/20100807.html