2014年6月22日日曜日

Google Sitesで表を簡単に作成する

Google Sitesで表を作成するには
「ページを編集」「表」→「表を挿入」
https://sites.google.com/site/howtousesites01/page/pejini-biaowo-cha-rusuru-jian-yi

を使います。しかし表の作成に手間がかかります。
残念ながら表の罫線の表示・非表示を設定することができません。
またセルの結合ができません。

Excelで作成した表をコピペしようとしても罫線がなくなったり、形がずれてしまい、上手くいきませんでした。

簡単に表を作成する方法を探したところ...

Google Driveのスプレッドシートに表を作成し、
その表をGoogle SitesコピペすればOKでした。
罫線も自由に設定でき、セルの結合も可能、しかも形式が崩れません。

Google Driveの使い方はこちら




ほかのサイトではhtmlを編集すると書かれていますが、これもちょっと大変。
Google Driveのスプレッドシートを使うとGoogleSitesで表を簡単に作成できるようになります。
是非お試しください。




2014年5月27日火曜日

Short sequencesのNucleotide BLAST

短い配列のblastはgggenomeがオススめ
しかしながら、ゲノム配列が登録されていない生物種の場合自分でblast検索をする必要があります。




local blastの設定はこちらを参考に




今回はblast+を使っています。
NCBIのサイトに
"Search for short and near exact matches" under Nucleotide BLAST is useful for primer or short nucleotide motif searches.  


詳しく書かれています。



通常のnucleotide-nucleotide BLASTの設定では、短い配列はうまく見つけることが出来ません。
そこでword size、filter setting, expect valueをオプションで設定しておく必要があります。

今回はword sizeだけ設定しました。
20bp以下のprimer配列をfasta形式にまとめています。

hkane$ blastn -db database.fasta -query primer.fasta -out 出力ファイル名 -outfmt 6 -word_size 7 -num_alignments 2

”-outfmt 6”にしてタブ区切りで出力しています。Excelで開き、データをまとめる事が出来ます。

blast+の場合の各カラムとDescriptionは


Column NCBI name Description
1 qseqid Query Seq-id (ID of your sequence)
2 sseqid Subject Seq-id (ID of the database hit)
3 pident Percentage of identical matches
4 length Alignment length
5 mismatch Number of mismatches
6 gapopen Number of gap openings
7 qstart Start of alignment in query
8 qend End of alignment in query
9 sstart Start of alignment in subject (database hit)
10 send End of alignment in subject (database hit)
11 evalue Expectation value (E-value)
12 bitscore Bit score

です。

2014年4月1日火曜日

Excelでセル内の余分なスペースを削除する

遺伝子IDをコピペするときなど、気付かないうちにスペースも一緒にコピーしている事が有ります。
”slr1311”と" slr1311"は似ているけど、後者にはスペースが入っています。

このスペースが作業中いたずらをすることが多いので、一括してスペースを削除したい!という時には
TRIM関数を利用しています。

TRIM(テキスト)
指定した文字列内の先頭と末尾のスペースを削除します

左側の列にもとの値を入力し、右側でTRIM関数を使ってスペースを削除した値を表示させます。

=TRIM(A1)






スペースを取り除いた値が右側の列に表示されました。




1つ1つ手作業でスペースを削除するのは大変です。
特に先頭ではなく末尾のスペースは見ただけでは気付きにくいので、おすすめです。

2014年3月30日日曜日

CyanoBaseの使い方 〜情報整理編 その2 vlookup関数

CyanoBaseのAPIとGoogle スプレッドシートを利用した情報の整理方法をご紹介します。
遺伝子IDがわかっていて、その情報を調べたいときに非常に便利です。

CyanoBaseでは遺伝子リストのCSVとテキストフォーマットの取得API提供しています。

Synechocystissp. PCC 6803の場合

http://genome.microbedb.jp/cyanobase/Synechocystis#api
を開きます。



まずAPIを利用して、Synechosystisの情報をダウンロードます。

この遺伝子リストファイルには
遺伝子ID、位置情報、definitionが含まれます。
ファイルをダウンロードして、利用します。

ここからはGoogle Driveを使った作業です。
Google Driveの使い方は以下のTogoTVを参照して下さい。


先ほどダウンロードした遺伝子リストファイルをGoogle Driveで開きます。



このシート(Sheet1)で使う遺伝子リストの範囲は、B列からG列まで。B列の遺伝子IDを検索し、対応するG列のDefinition情報を取り出します。 


別のシートに調べたい遺伝子リストをA列に、B列に下記の関数を記入します。


=vlookup(A1,'Sheet 1'!B:G,6,false)

この関数は
=VLOOKUP(検索値〔A1〕,範囲〔遺伝子リストのあるシートの範囲〕, 列番号〔選択した範囲の6列目に取り出したいデータがある〕,検索方法の指定(false:完全一致する場合のみ
を示しています。




この関数を入力しておけば、A列の遺伝子IDに対応するDefinitionを検索する事なく、すぐに表示させることが出来ます。

このvlookup関数はGoogle Spreadsheetだけではなく、Excelでも利用可能です。


2014年2月20日木曜日

CyanoBaseの使い方 情報整理編 その1

 CyanoBase ではURL と表示コンテンツの関係が分かりやすくなっています。

たとえば、
/cyanobase/Synechocystis/genes/slr1311 は遺伝子ID slr1311 のページを提供しています。



調べたい遺伝子IDを入力しなくても、直接そのページに移動する事が可能です。

これを利用して、遺伝子のリストを作成し、すぐにその遺伝子のページに移動できるようにGoogle Spread Sheetを使ってみます。

Google Driveの使い方はTogoTVを参照して下さい。




遺伝子IDのリストをGoogle Spread Sheetに入力します。



列Bにそれぞれの遺伝子IDに対応したURLを生成します。
関数は CONCATENATEを利用しています。 文字列を別の文字列に結合します。
詳しくは以下のページを参照して下さい。



URLを指定する"http://genome.microbedb.jp/cyanobase/Synechocystis/genes/"という文字列と、遺伝子IDが入力されているセルA2の文字列を結合します。

=CONCATENATE("http://genome.microbedb.jp/cyanobase/Synechocystis/genes/",A2)




これで、リンク先のURL http://genome.microbedb.jp/cyanobase/Synechocystis/genes/slr0611 が生成され、すぐに遺伝子の情報のページを見ることができます。

この関数はGoogle Spread Sheedだけでなく、Excelでも使う事が出来ます。



2014年2月11日火曜日

CyanoBaseの使い方〜応用編・APIの利用

 
今回はCyanoBaseの使い方の応用編です。APIの利用を中心にご紹介します。

CyanoBaseではキーワード検索の結果をtxt形式で保存することが出来ます。
たとえば、psbをキーワードにした場合

40の遺伝子がヒットしました。
これらの結果をダウンロードするには、右側のtxtボタンをクリックします。



このファイルを保存し、Excelなどの表形式で開くと簡単に情報を整理する事が出来ます。


CyanoBase では、URL と表示コンテンツの関係が分かりやすくなっています。
遺伝子IDさえわかれば直接参照出来るように設計されています

Synechocystissp. PCC 6803の情報をまとめて取得することも可能です。

遺伝子の情報

からcsv形式で取得できます。

遺伝子ID、遺伝子名、ポジション、アノテーションのリストです。

アミノ酸配列の情報は


遺伝子シンボル


研究論文から専門のキュレーターが抽出した遺伝子シンボルのリスト

こちらの方が遺伝子シンボルの情報量は多いです。


以上のように、CyanoBaseに含まれる全生物種について同様に情報を取得する事が出来ます。






2013年12月18日水曜日

cyanobaseのとtogotv作成

cyanobaseのtogotvを作成しました。





ちょうどNARに論文が公開されて、良い時期なのではないかと思い作成しました。
いつもはRAの学生さんがtogotvを作成されていますが、ヘビーユーザーがtogotvを作成すると面白いのではないかと考えたからです。

cyanobaseの特徴は何か?ということが伝わるように考えました。

1番の特徴はマニュアルキュレーションにより文献から抽出した情報がDBで公開されていることです。

文献から抽出した情報のうち、最も使われているのは
Gene symbol extracted from literature
だと思います。
これは他のDBでは公開されていない、cyanobase独自のものです。

TogoAnnotationを利用し、専門知識を持ったキュレーターが論文から手動で情報を抽出したものです。
時折誤った情報が紛れていますが、これは論文著者自身のミスが少なからず含まれています。
キュレーターが修正する方法もありますが、著者自身の記述を優先するという方針で入力しています。ご了承下さい。

遺伝子に対する参考文献情報も充実しております。
参考文献情報では、その遺伝子について言及しているセクション情報や同じ論文で記述されている他の遺伝子の情報を見ることが出来ます。

是非ご利用ください。