hkaneのLab Notebook: 2015

2015年10月17日土曜日

Tasselでvcf fileが読み込めない

Tassel　5.0　を使っているのですが、どうしても読み込めないvcf fileがありました。

http://www.maizegenetics.net/#!tassel/c17q9

マニュアルをみると、vcf formatとして、tasselでは

http://www .1000genomes.org/wiki/analysis/variant-call-format/vcf-variant-call-format-version-42

https://cseweb.ucsd.edu/classes/fa14/cse182-a/notes/VCFv4.2.pdf

を採用しているようです。

読み込むことの出来るvcf fileでは

##fileformat=VCFv4.2

読み込むことが出来ないvcf fileでは

##fileformat=VCFv4.1

##fileformat=VCFv4.0

となっており、これが原因で読み込むことが出来ないかもしれません。

【追記】
本来ならばVCF fileをそのまま読み込めるはずですが、うまく行かない場合はvcftoolsを用いてvcf fileをplink形式などに変換します。

http://vcftools.sourceforge.net/man_latest.html#COMPARISON%20OPTIONS

OUTPUT OTHER FORMATS
--plink のオプションを使います。

変換したplink fileを用いれば、無事に解析が出来ました。

2015年10月14日水曜日

遺伝研スパコンからのデータ転送

スパコンへのデータ転送

ターミナルを使用して、localからスパコンへ

/Volumes/xxxx/xxx.shというファイルを転送する場合、

scp /Volumes/xxxx/xxx.sh username@gw.ddbj.nig.ac.jp:/home/username/xxxxx/

パスワードを要求されるので、入力するとデータが指定したパスに転送される

ターミナルを使用して、スパコンからlocalへ

sftp username@gw.ddbj.nig.ac.jp

を入力すると、

Connected to gw.ddbj.nig.ac.jp.

が表示される。

sftp> get /home/username/xxxxx/xxxxx.sam

2015年10月6日火曜日

ubuntuのjavaをアップデート

AWSを使っていて、ubuntuのjavaのバージョンが古かったのでアップデート

以下のページを参考にさせて頂きました。

http://www.yottanote.com/contents/linux/ubuntu/oraclejava_update.html

ubuntu@********:~$ java -version

java version "1.7.0_79"

もともとインストールされているjavaはjava version "1.7.0_79"

sudo add-apt-repository ppa:webupd8team/java

sudo apt-get update

sudo apt-get install oracle-java8-installer

再度バージョンを確認

ubuntu@********:~$ java -version

java version "1.8.0_60"

2015年7月22日水曜日

Linuxコマンドの覚え書き

すぐに忘れてしまうので、備忘録として...

コマンド
~（チルダ、と読む）	ホームディレクトリを意味
「cd」のみを打つ操作	ホームディレクトリへの移動
ls	デフォルトはディレクトリおよびファイル名しか返さない
ls -l	ファイルの詳細も同時に表示
ls -a	ドット(.)から始まるファイルが表示される
ls -m	ファイル名をカンマで区切って表示
ls -1	1行に1ファイルずつ表示
grep -c	検索条件にマッチした行数を表示
grep -cv	マッチしなかった行数を表示
grep -v	マッチしない行を検索結果として表示
grep -G	検索に正規表現を使用
!99	historyコマンド実行結果を眺めながら、以前実行したコマンドを番号で指定するやり方。
mv	ファイル名変更
>	出力のリダイレクト（上書き）
>>	出力をファイルに追記する（ファイルの更新）
<	入力のリダイレクト
<<	入力終端文字列を指定する

2015年6月1日月曜日

ggplot2でSNP数のヒストグラムを作成

Rのggplot2を用いて染色体ごとに分けて、position ごとのSNP数のヒストグラムを作成

#R version 3.1.2 (2014-10-31) -- "Pumpkin Helmet"

# ggplot2を読み込み
library(ggplot2)

#snpデータの読み込み
snp<-read.csv("~/hkane/typed_SNP.csv",header=T)

#データはこんな形式です
head(snp)

chr position
1 Chr01 52854
2 Chr01 52891
3 Chr01 207031
4 Chr01 395474
5 Chr01 395956
6 Chr01 912099

chrの列に染色体番号、positionの列に位置情報

qplot(position, 　#positionごとに

data = snp, 　　#snpのデータを使って

geom = "histogram", 　#ヒストグラムを作成

binwidth = 1000, #幅を設定　

facets = chr~.)　#chrごとに分けて

一部しか表示していませんが、こんな感じです

2015年5月31日日曜日

RAD-Seqを用いて、ヘテロの遺伝子型を解析

RAD-Seqを用いて、ヘテロの遺伝子型を解析した論文に関して調べてみました。

Hoffman JI, Simpson F, David P, Rijks JM, Kuiken T, Thorne MA, Lacy RC,
Dasmahapatra KK. High-throughput sequencing reveals inbreeding depression in a
natural population. Proc Natl Acad Sci U S A. 2014 Mar 11;111(10):3775-80. doi:
10.1073/pnas.1318945111. Epub 2014 Feb 28. PubMed PMID: 24586051; PubMed Central
PMCID: PMC3956162.
http://www.ncbi.nlm.nih.gov/pubmed/?term=24586051

Davey JW, Cezard T, Fuentes-Utrilla P, Eland C, Gharbi K, Blaxter ML. Special
features of RAD Sequencing data: implications for genotyping. Mol Ecol. 2013
Jun;22(11):3151-64. doi: 10.1111/mec.12084. Epub 2012 Oct 30. PubMed PMID:
23110438; PubMed Central PMCID: PMC3712469.
http://www.ncbi.nlm.nih.gov/pubmed/?term=23110438

どちらの論文でもヘテロの遺伝子型を解析する場合にはstacksよりもGATKが良いという結論でした。

もう一つ気になる点。

GATKとSAMtoolは、どちらもbayesian approach を用いていますが、結果が少し異なっています。

その点に関しては以下のまとめを参考にしました。

https://www.biostars.org/p/57149/
https://www.biostars.org/p/12500/#12526

上記サイトには
The samtools model tends to be conservative - it tends to call fewer heterozygotes than the independent model (←GATK).
と書かれています。

自分のデータで調べてみましたが、やはりsamtoolsの方がヘテロの遺伝子型の数が少ないです。

あくまでも今回私が調べた範囲の結論です。

参考にして頂ければ幸いですし、もし情報があれば教えてください。