2014年9月5日金曜日

SnpEffが動かない...

SnpEffをインストールして
java -Xmx4G -jar /hkane/software/snpEff/snpEff.jar .....
を実行しようとすると以下のようなエラーが出てしまいました。

Exception in thread "main" java.lang.UnsupportedClassVersionError: ca/mcgill/mcb/pcingola/snpEffect/commandLine/SnpEff : Unsupported major.minor version 51.0
at java.lang.ClassLoader.defineClass1(Native Method)
at java.lang.ClassLoader.defineClassCond(ClassLoader.java:637)
at java.lang.ClassLoader.defineClass(ClassLoader.java:621)
at java.security.SecureClassLoader.defineClass(SecureClassLoader.java:141)
at java.net.URLClassLoader.defineClass(URLClassLoader.java:283)
at java.net.URLClassLoader.access$000(URLClassLoader.java:58)
at java.net.URLClassLoader$1.run(URLClassLoader.java:197)
at java.security.AccessController.doPrivileged(Native Method)
at java.net.URLClassLoader.findClass(URLClassLoader.java:190)
at java.lang.ClassLoader.loadClass(ClassLoader.java:306)
at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:301)
at java.lang.ClassLoader.loadClass(ClassLoader.java:247)


SnpEff Version 4.0では

Latest version 4.0 C (2014-09-03)
Requires Java 1.7

と書かれています。
javaのバージョンを確認すると

hkane$java -version
java version “1.6.0_65”

javaが古かったことが原因

javaをupdate

java -version
java version “1.8.0_20"


無事動きました

2014年7月12日土曜日

IGVでbamファイルが表示されない

IGVでbamファイルを開こうとしたのですが、開くことが出来ても全く表示されません。
ネットで調べても原因としてあげられるのは、「bamファイルをsortする」ということがほとんどです。samtoolsでbamファイルをsortしても症状はおなじでした。
原因を見つけるまで時間がかかったので、ここに書いておきます。

reference genomeの位置は表示されます。




試しにsortしていないbamファイルを利用してみましたが、今度は開くことが出来ません。
bam, bam.baiファイルには問題なし
開くことは出来るので、きちんと***.bamという表示はありました。

下のGeneも表示されているので、Reference Genomeの設定も問題なさそうです。





原因は…
bam file
>chr01
fasta fale
>Chr01
gff3 file
>chr01
何が違うかお気づきですか?

実は染色体名が大文字と小文字で異なっており、同一のものと認識されなかったことが原因です。

他のパターンとして
bam file
>Chr01
fasta fale
>Chr01
gff3 file
>chr01

の場合は一番下の「Gene」の表示が出来ません
表示されない場合は、同一のIDかどうか?を確認してみてください。

2014年7月9日水曜日

OpenRefineで列を結合~ Excelのconcatenateに相当する作業を...

Open Refineで列を結合する場合

Excelではconcatenateに相当します

chr列とposition列を結合し、間に"."を入れてみます。

Excelでは

=concatenate(A1, ".", B1)

と関数を書きます。

OpenRefineの場合は

chrの列を選択し、Edit cellsからTransformを選択、


cells["chr"].value + "." + cells["position"].value

を入力します。




cells["列名"].value + "文字列" + cells["列名"].value

で表示されます。







sedコマンドを使わずに、スラッシュを含む文字列の置換 ~ Open Refineを利用

送られてきたデータにスラッシュが含まれていたので、sedコマンドが使えない...

そこでOpen Refineを利用

変換したい列を選択し、

Edit cells から Transform...を選択
次のような画面が出てくるので、

value.replace関数を使います。

"/"から"."への置換は

value.replace("/",".")
と入力。




今回は/で列を分割したかったので

Edit columnから

Split into several columns...

How to Split Columnと聞かれるので

by separator

でスラッシュ(/)を入力して分割しました。

ほかにもデータの形を整えるにはOpen Refineは便利です。



2014年7月8日火曜日

DDBJ pipelineからbam, bam.baiファイルをダウンロードしてIGVで利用

DDBJ pipelineを利用して解析を行っているのですが、結果をIGVで表示させたいと考えました。

IGVの使い方を見るとsorted bam fileとbam index fileが必要と書かれています。
samtoolsで変換しなければいけないと考えていましたが、これらのファイルをDDBJ pipelineの結果からダウンロードすれば良いことに気づきました。


mappingの結果のページから、下記の二つのファイルをダウンロードすればOK



ダウンロードが上手くいっているかを確認するため、ダウンロードしたファイルに対してMD5というツールを使いました。

$hkane:openssl md5 ファイル名

出てきた結果が、DDBJ pipelineのページの一番右のカラムのMD5の部分をクリックした結果と同じであれば正常です。

MD5の使い方を教えてくださったK様にこの場を借りてお礼申し上げます。

2014年7月5日土曜日

サイズの大きいzip fileを解凍

bam.zip ファイルが解凍できないというトラブルがあったので、解決法をメモしておきます。

当初は解凍先を外付けHDにしていたためだと考えていました。

HDのフォーマットを大容量用に変更しました。

しかしHDの設定を変更しても、エラーが出てきました。


Mac User の私が利用したのは「p7zip」インストールは
 hkane$ brew install p7zip

==> Downloading https://downloads.sourceforge.net/project/p7zip/p7zip/9.20.1/p7z
######################################################################## 100.0%

と表示されます。

brewのインストール方法はいくつか参考になるページがあるので探してみてください。


使うときは

hkane$ 7za x zipファイル名

大きなbamファイルも無事解凍出来ました。





2014年6月22日日曜日

Google Sitesで表を簡単に作成する

Google Sitesで表を作成するには
「ページを編集」「表」→「表を挿入」
https://sites.google.com/site/howtousesites01/page/pejini-biaowo-cha-rusuru-jian-yi

を使います。しかし表の作成に手間がかかります。
残念ながら表の罫線の表示・非表示を設定することができません。
またセルの結合ができません。

Excelで作成した表をコピペしようとしても罫線がなくなったり、形がずれてしまい、上手くいきませんでした。

簡単に表を作成する方法を探したところ...

Google Driveのスプレッドシートに表を作成し、
その表をGoogle SitesコピペすればOKでした。
罫線も自由に設定でき、セルの結合も可能、しかも形式が崩れません。

Google Driveの使い方はこちら




ほかのサイトではhtmlを編集すると書かれていますが、これもちょっと大変。
Google Driveのスプレッドシートを使うとGoogleSitesで表を簡単に作成できるようになります。
是非お試しください。




2014年5月27日火曜日

Short sequencesのNucleotide BLAST

短い配列のblastはgggenomeがオススめ
しかしながら、ゲノム配列が登録されていない生物種の場合自分でblast検索をする必要があります。




local blastの設定はこちらを参考に




今回はblast+を使っています。
NCBIのサイトに
"Search for short and near exact matches" under Nucleotide BLAST is useful for primer or short nucleotide motif searches.  


詳しく書かれています。



通常のnucleotide-nucleotide BLASTの設定では、短い配列はうまく見つけることが出来ません。
そこでword size、filter setting, expect valueをオプションで設定しておく必要があります。

今回はword sizeだけ設定しました。
20bp以下のprimer配列をfasta形式にまとめています。

hkane$ blastn -db database.fasta -query primer.fasta -out 出力ファイル名 -outfmt 6 -word_size 7 -num_alignments 2

”-outfmt 6”にしてタブ区切りで出力しています。Excelで開き、データをまとめる事が出来ます。

blast+の場合の各カラムとDescriptionは


Column NCBI name Description
1 qseqid Query Seq-id (ID of your sequence)
2 sseqid Subject Seq-id (ID of the database hit)
3 pident Percentage of identical matches
4 length Alignment length
5 mismatch Number of mismatches
6 gapopen Number of gap openings
7 qstart Start of alignment in query
8 qend End of alignment in query
9 sstart Start of alignment in subject (database hit)
10 send End of alignment in subject (database hit)
11 evalue Expectation value (E-value)
12 bitscore Bit score

です。

2014年4月1日火曜日

Excelでセル内の余分なスペースを削除する

遺伝子IDをコピペするときなど、気付かないうちにスペースも一緒にコピーしている事が有ります。
”slr1311”と" slr1311"は似ているけど、後者にはスペースが入っています。

このスペースが作業中いたずらをすることが多いので、一括してスペースを削除したい!という時には
TRIM関数を利用しています。

TRIM(テキスト)
指定した文字列内の先頭と末尾のスペースを削除します

左側の列にもとの値を入力し、右側でTRIM関数を使ってスペースを削除した値を表示させます。

=TRIM(A1)






スペースを取り除いた値が右側の列に表示されました。




1つ1つ手作業でスペースを削除するのは大変です。
特に先頭ではなく末尾のスペースは見ただけでは気付きにくいので、おすすめです。

2014年3月30日日曜日

CyanoBaseの使い方 〜情報整理編 その2 vlookup関数

CyanoBaseのAPIとGoogle スプレッドシートを利用した情報の整理方法をご紹介します。
遺伝子IDがわかっていて、その情報を調べたいときに非常に便利です。

CyanoBaseでは遺伝子リストのCSVとテキストフォーマットの取得API提供しています。

Synechocystissp. PCC 6803の場合

http://genome.microbedb.jp/cyanobase/Synechocystis#api
を開きます。



まずAPIを利用して、Synechosystisの情報をダウンロードます。

この遺伝子リストファイルには
遺伝子ID、位置情報、definitionが含まれます。
ファイルをダウンロードして、利用します。

ここからはGoogle Driveを使った作業です。
Google Driveの使い方は以下のTogoTVを参照して下さい。


先ほどダウンロードした遺伝子リストファイルをGoogle Driveで開きます。



このシート(Sheet1)で使う遺伝子リストの範囲は、B列からG列まで。B列の遺伝子IDを検索し、対応するG列のDefinition情報を取り出します。 


別のシートに調べたい遺伝子リストをA列に、B列に下記の関数を記入します。


=vlookup(A1,'Sheet 1'!B:G,6,false)

この関数は
=VLOOKUP(検索値〔A1〕,範囲〔遺伝子リストのあるシートの範囲〕, 列番号〔選択した範囲の6列目に取り出したいデータがある〕,検索方法の指定(false:完全一致する場合のみ
を示しています。




この関数を入力しておけば、A列の遺伝子IDに対応するDefinitionを検索する事なく、すぐに表示させることが出来ます。

このvlookup関数はGoogle Spreadsheetだけではなく、Excelでも利用可能です。


2014年2月20日木曜日

CyanoBaseの使い方 情報整理編 その1

 CyanoBase ではURL と表示コンテンツの関係が分かりやすくなっています。

たとえば、
/cyanobase/Synechocystis/genes/slr1311 は遺伝子ID slr1311 のページを提供しています。



調べたい遺伝子IDを入力しなくても、直接そのページに移動する事が可能です。

これを利用して、遺伝子のリストを作成し、すぐにその遺伝子のページに移動できるようにGoogle Spread Sheetを使ってみます。

Google Driveの使い方はTogoTVを参照して下さい。




遺伝子IDのリストをGoogle Spread Sheetに入力します。



列Bにそれぞれの遺伝子IDに対応したURLを生成します。
関数は CONCATENATEを利用しています。 文字列を別の文字列に結合します。
詳しくは以下のページを参照して下さい。



URLを指定する"http://genome.microbedb.jp/cyanobase/Synechocystis/genes/"という文字列と、遺伝子IDが入力されているセルA2の文字列を結合します。

=CONCATENATE("http://genome.microbedb.jp/cyanobase/Synechocystis/genes/",A2)




これで、リンク先のURL http://genome.microbedb.jp/cyanobase/Synechocystis/genes/slr0611 が生成され、すぐに遺伝子の情報のページを見ることができます。

この関数はGoogle Spread Sheedだけでなく、Excelでも使う事が出来ます。



2014年2月11日火曜日

CyanoBaseの使い方〜応用編・APIの利用

 
今回はCyanoBaseの使い方の応用編です。APIの利用を中心にご紹介します。

CyanoBaseではキーワード検索の結果をtxt形式で保存することが出来ます。
たとえば、psbをキーワードにした場合

40の遺伝子がヒットしました。
これらの結果をダウンロードするには、右側のtxtボタンをクリックします。



このファイルを保存し、Excelなどの表形式で開くと簡単に情報を整理する事が出来ます。


CyanoBase では、URL と表示コンテンツの関係が分かりやすくなっています。
遺伝子IDさえわかれば直接参照出来るように設計されています

Synechocystissp. PCC 6803の情報をまとめて取得することも可能です。

遺伝子の情報

からcsv形式で取得できます。

遺伝子ID、遺伝子名、ポジション、アノテーションのリストです。

アミノ酸配列の情報は


遺伝子シンボル


研究論文から専門のキュレーターが抽出した遺伝子シンボルのリスト

こちらの方が遺伝子シンボルの情報量は多いです。


以上のように、CyanoBaseに含まれる全生物種について同様に情報を取得する事が出来ます。