hkaneのLab Notebook

2014年7月12日土曜日

IGVでbamファイルが表示されない

IGVでbamファイルを開こうとしたのですが、開くことが出来ても全く表示されません。
ネットで調べても原因としてあげられるのは、「bamファイルをsortする」ということがほとんどです。samtoolsでbamファイルをsortしても症状はおなじでした。
原因を見つけるまで時間がかかったので、ここに書いておきます。

reference genomeの位置は表示されます。

試しにsortしていないbamファイルを利用してみましたが、今度は開くことが出来ません。
bam, bam.baiファイルには問題なし
開くことは出来るので、きちんと***.bamという表示はありました。

下のGeneも表示されているので、Reference Genomeの設定も問題なさそうです。

原因は…
bam file
>chr01
fasta fale
>Chr01
gff3 file
>chr01
何が違うかお気づきですか？

実は染色体名が大文字と小文字で異なっており、同一のものと認識されなかったことが原因です。

他のパターンとして
bam file
>Chr01
fasta fale
>Chr01
gff3 file
>chr01

の場合は一番下の「Gene」の表示が出来ません。
表示されない場合は、同一のIDかどうか？を確認してみてください。

2014年7月9日水曜日

OpenRefineで列を結合~ Excelのconcatenateに相当する作業を...

Open Refineで列を結合する場合

Excelではconcatenateに相当します

chr列とposition列を結合し、間に"."を入れてみます。

Excelでは

=concatenate(A1, ".", B1)

と関数を書きます。

OpenRefineの場合は

chrの列を選択し、Edit cellsからTransformを選択、

cells["chr"].value + "." + cells["position"].value

を入力します。

cells["列名"].value + "文字列" + cells["列名"].value

で表示されます。

sedコマンドを使わずに、スラッシュを含む文字列の置換 ~ Open Refineを利用

送られてきたデータにスラッシュが含まれていたので、sedコマンドが使えない...

そこでOpen Refineを利用

変換したい列を選択し、

Edit cells から Transform...を選択
次のような画面が出てくるので、

value.replace関数を使います。

"/"から"."への置換は

value.replace("/",".")
と入力。

今回は/で列を分割したかったので

Edit columnから

Split into several columns...

How to Split Columnと聞かれるので

by separator

でスラッシュ(/)を入力して分割しました。

ほかにもデータの形を整えるにはOpen Refineは便利です。

2014年7月8日火曜日

DDBJ pipelineからbam, bam.baiファイルをダウンロードしてIGVで利用

DDBJ pipelineを利用して解析を行っているのですが、結果をIGVで表示させたいと考えました。

IGVの使い方を見るとsorted bam fileとbam index fileが必要と書かれています。

samtoolsで変換しなければいけないと考えていましたが、これらのファイルをDDBJ pipelineの結果からダウンロードすれば良いことに気づきました。

mappingの結果のページから、下記の二つのファイルをダウンロードすればOK

ダウンロードが上手くいっているかを確認するため、ダウンロードしたファイルに対してMD5というツールを使いました。

$hkane:openssl md5 ファイル名

出てきた結果が、DDBJ pipelineのページの一番右のカラムのMD5の部分をクリックした結果と同じであれば正常です。

MD5の使い方を教えてくださったK様にこの場を借りてお礼申し上げます。

2014年7月5日土曜日

サイズの大きいzip fileを解凍

bam.zip ファイルが解凍できないというトラブルがあったので、解決法をメモしておきます。

当初は解凍先を外付けHDにしていたためだと考えていました。
HDのフォーマットを大容量用に変更しました。

しかしHDの設定を変更しても、エラーが出てきました。

Mac User の私が利用したのは「p7zip」インストールは
hkane$ brew install p7zip

==> Downloading https://downloads.sourceforge.net/project/p7zip/p7zip/9.20.1/p7z
######################################################################## 100.0%

と表示されます。

brewのインストール方法はいくつか参考になるページがあるので探してみてください。

使うときは

hkane$ 7za x　zipファイル名

大きなbamファイルも無事解凍出来ました。

2014年6月22日日曜日

Google Sitesで表を簡単に作成する

Google Sitesで表を作成するには
「ページを編集」→「表」→「表を挿入」
https://sites.google.com/site/howtousesites01/page/pejini-biaowo-cha-rusuru-jian-yi

を使います。しかし表の作成に手間がかかります。
残念ながら表の罫線の表示・非表示を設定することができません。
またセルの結合ができません。

Excelで作成した表をコピペしようとしても罫線がなくなったり、形がずれてしまい、上手くいきませんでした。

簡単に表を作成する方法を探したところ...

Google Driveのスプレッドシートに表を作成し、
その表をGoogle SitesにコピペすればOKでした。
罫線も自由に設定でき、セルの結合も可能、しかも形式が崩れません。

Google Driveの使い方はこちら

ほかのサイトではhtmlを編集すると書かれていますが、これもちょっと大変。
Google Driveのスプレッドシートを使うとGoogleSitesで表を簡単に作成できるようになります。
是非お試しください。

2014年5月27日火曜日

Short sequencesのNucleotide BLAST

短い配列のblastはgggenomeがオススめ

http://gggenome.dbcls.jp/ja/

しかしながら、ゲノム配列が登録されていない生物種の場合自分でblast検索をする必要があります。

local blastの設定はこちらを参考に

http://togotv.dbcls.jp/20110420.html

今回はblast+を使っています。

NCBIのサイトに

"Search for short and near exact matches" under Nucleotide BLAST is useful for primer or short nucleotide motif searches.

http://www.ncbi.nlm.nih.gov/BLAST/Why.shtml

詳しく書かれています。

通常のnucleotide-nucleotide BLASTの設定では、短い配列はうまく見つけることが出来ません。

そこでword size、filter setting, expect valueをオプションで設定しておく必要があります。

今回はword sizeだけ設定しました。

20bp以下のprimer配列をfasta形式にまとめています。

hkane$ blastn -db database.fasta -query primer.fasta -out 出力ファイル名 -outfmt 6 -word_size 7 -num_alignments 2

”-outfmt 6”にしてタブ区切りで出力しています。Excelで開き、データをまとめる事が出来ます。

blast+の場合の各カラムとDescriptionは

Column	NCBI name	Description
1	qseqid	Query Seq-id (ID of your sequence)
2	sseqid	Subject Seq-id (ID of the database hit)
3	pident	Percentage of identical matches
4	length	Alignment length
5	mismatch	Number of mismatches
6	gapopen	Number of gap openings
7	qstart	Start of alignment in query
8	qend	End of alignment in query
9	sstart	Start of alignment in subject (database hit)
10	send	End of alignment in subject (database hit)
11	evalue	Expectation value (E-value)
12	bitscore	Bit score

です。