2014年4月1日火曜日

Excelでセル内の余分なスペースを削除する

遺伝子IDをコピペするときなど、気付かないうちにスペースも一緒にコピーしている事が有ります。
”slr1311”と" slr1311"は似ているけど、後者にはスペースが入っています。

このスペースが作業中いたずらをすることが多いので、一括してスペースを削除したい!という時には
TRIM関数を利用しています。

TRIM(テキスト)
指定した文字列内の先頭と末尾のスペースを削除します

左側の列にもとの値を入力し、右側でTRIM関数を使ってスペースを削除した値を表示させます。

=TRIM(A1)






スペースを取り除いた値が右側の列に表示されました。




1つ1つ手作業でスペースを削除するのは大変です。
特に先頭ではなく末尾のスペースは見ただけでは気付きにくいので、おすすめです。

2014年3月30日日曜日

CyanoBaseの使い方 〜情報整理編 その2 vlookup関数

CyanoBaseのAPIとGoogle スプレッドシートを利用した情報の整理方法をご紹介します。
遺伝子IDがわかっていて、その情報を調べたいときに非常に便利です。

CyanoBaseでは遺伝子リストのCSVとテキストフォーマットの取得API提供しています。

Synechocystissp. PCC 6803の場合

http://genome.microbedb.jp/cyanobase/Synechocystis#api
を開きます。



まずAPIを利用して、Synechosystisの情報をダウンロードます。

この遺伝子リストファイルには
遺伝子ID、位置情報、definitionが含まれます。
ファイルをダウンロードして、利用します。

ここからはGoogle Driveを使った作業です。
Google Driveの使い方は以下のTogoTVを参照して下さい。


先ほどダウンロードした遺伝子リストファイルをGoogle Driveで開きます。



このシート(Sheet1)で使う遺伝子リストの範囲は、B列からG列まで。B列の遺伝子IDを検索し、対応するG列のDefinition情報を取り出します。 


別のシートに調べたい遺伝子リストをA列に、B列に下記の関数を記入します。


=vlookup(A1,'Sheet 1'!B:G,6,false)

この関数は
=VLOOKUP(検索値〔A1〕,範囲〔遺伝子リストのあるシートの範囲〕, 列番号〔選択した範囲の6列目に取り出したいデータがある〕,検索方法の指定(false:完全一致する場合のみ
を示しています。




この関数を入力しておけば、A列の遺伝子IDに対応するDefinitionを検索する事なく、すぐに表示させることが出来ます。

このvlookup関数はGoogle Spreadsheetだけではなく、Excelでも利用可能です。


2014年2月20日木曜日

CyanoBaseの使い方 情報整理編 その1

 CyanoBase ではURL と表示コンテンツの関係が分かりやすくなっています。

たとえば、
/cyanobase/Synechocystis/genes/slr1311 は遺伝子ID slr1311 のページを提供しています。



調べたい遺伝子IDを入力しなくても、直接そのページに移動する事が可能です。

これを利用して、遺伝子のリストを作成し、すぐにその遺伝子のページに移動できるようにGoogle Spread Sheetを使ってみます。

Google Driveの使い方はTogoTVを参照して下さい。




遺伝子IDのリストをGoogle Spread Sheetに入力します。



列Bにそれぞれの遺伝子IDに対応したURLを生成します。
関数は CONCATENATEを利用しています。 文字列を別の文字列に結合します。
詳しくは以下のページを参照して下さい。



URLを指定する"http://genome.microbedb.jp/cyanobase/Synechocystis/genes/"という文字列と、遺伝子IDが入力されているセルA2の文字列を結合します。

=CONCATENATE("http://genome.microbedb.jp/cyanobase/Synechocystis/genes/",A2)




これで、リンク先のURL http://genome.microbedb.jp/cyanobase/Synechocystis/genes/slr0611 が生成され、すぐに遺伝子の情報のページを見ることができます。

この関数はGoogle Spread Sheedだけでなく、Excelでも使う事が出来ます。



2014年2月11日火曜日

CyanoBaseの使い方〜応用編・APIの利用

 
今回はCyanoBaseの使い方の応用編です。APIの利用を中心にご紹介します。

CyanoBaseではキーワード検索の結果をtxt形式で保存することが出来ます。
たとえば、psbをキーワードにした場合

40の遺伝子がヒットしました。
これらの結果をダウンロードするには、右側のtxtボタンをクリックします。



このファイルを保存し、Excelなどの表形式で開くと簡単に情報を整理する事が出来ます。


CyanoBase では、URL と表示コンテンツの関係が分かりやすくなっています。
遺伝子IDさえわかれば直接参照出来るように設計されています

Synechocystissp. PCC 6803の情報をまとめて取得することも可能です。

遺伝子の情報

からcsv形式で取得できます。

遺伝子ID、遺伝子名、ポジション、アノテーションのリストです。

アミノ酸配列の情報は


遺伝子シンボル


研究論文から専門のキュレーターが抽出した遺伝子シンボルのリスト

こちらの方が遺伝子シンボルの情報量は多いです。


以上のように、CyanoBaseに含まれる全生物種について同様に情報を取得する事が出来ます。






2013年12月18日水曜日

cyanobaseのとtogotv作成

cyanobaseのtogotvを作成しました。





ちょうどNARに論文が公開されて、良い時期なのではないかと思い作成しました。
いつもはRAの学生さんがtogotvを作成されていますが、ヘビーユーザーがtogotvを作成すると面白いのではないかと考えたからです。

cyanobaseの特徴は何か?ということが伝わるように考えました。

1番の特徴はマニュアルキュレーションにより文献から抽出した情報がDBで公開されていることです。

文献から抽出した情報のうち、最も使われているのは
Gene symbol extracted from literature
だと思います。
これは他のDBでは公開されていない、cyanobase独自のものです。

TogoAnnotationを利用し、専門知識を持ったキュレーターが論文から手動で情報を抽出したものです。
時折誤った情報が紛れていますが、これは論文著者自身のミスが少なからず含まれています。
キュレーターが修正する方法もありますが、著者自身の記述を優先するという方針で入力しています。ご了承下さい。

遺伝子に対する参考文献情報も充実しております。
参考文献情報では、その遺伝子について言及しているセクション情報や同じ論文で記述されている他の遺伝子の情報を見ることが出来ます。

是非ご利用ください。

2013年12月4日水曜日

KAAS を使ってortholog assignment & pathway mapping


KAAS - KEGG Automatic Annotation Server
を使ってortholog assignment & pathway mappingを行いました
ESTの配列をBBH methodで解析
http://www.genome.jp/kaas-bin/kaas_main?mode=est_b


結果は

CL1Contig2 K02706


CL1Contig4 K08912
CL1Contig5 K02888
CL1Contig6 K08913
CL1Contig7 K08912




という感じに、IDとKOのリストが表示されます。

このままだとORTHOLOGY: K02706のNameやDefinitionがわからない...

そこで、Open Refineを利用してそれぞれのKOに対応する情報を取得しました。

KOに対応する情報の取得にはTogoWS REST serviceを利用しています
まずOpen Refineをインストール方法は統合TVを参考にしました



インストール後、TogoWS REST serviceを利用して情報を取得しました




まず、


Create a project 


でKAASの結果ファイルを開きます

Next

Create Project



表が作成されました

つぎにpathway情報を取得します。



Edit column → Add column by fetching URLs...

column名を入力し、Throttle delayを 50に設定します



Expressionの欄に

"http://togows.dbcls.jp/entry/kegg-orthology/" + value + "/pathways"
と入力

しばらくすると以下のようにpathwaysが表示されました
これをダウンロードして、解析やデータベースを作成することができます。



2013年11月27日水曜日

超絶高速ゲノム配列検索GGGenomeの検索結果をスプレッドシート上に表示

”Google スプレッドシートを使ってprimer情報を整理する”の続きです

前回はスプレッドシート上で自動リンクで開くようにする方法をご紹介しました。

今回はリンクを開かずに、スプレッドシート上に検索結果を表示する方法をご紹介します。

ImportDataという関数を使います。

2013-08-19 活用事例:Googleスプレッドシート上で配列検索

としてGGGenomeでもスプレッドシートが公開されています。



Dのカラムの

=concatenate("http://GGGenome.dbcls.jp/rice/",C2,".txt")


という関数で自動リンクを生成

Eのカラムで

=ImportData(D2)

という関数を使って実際にこのページの情報を取得します




ImportDataという関数は
TogoWS REST service利用するときにも便利ですが、残念ながら各スプレッドシートで使用できる ImportData 関数の数は 50 までです。多くのデータに利用するときにはOpen Refineの



Edit column → Add column by fetching URLs...
がおすすめです