2015年10月17日土曜日

Tasselでvcf fileが読み込めない

Tassel 5.0  を使っているのですが、どうしても読み込めないvcf fileがありました。

http://www.maizegenetics.net/#!tassel/c17q9

マニュアルをみると、vcf formatとして、tasselでは

http://www .1000genomes.org/wiki/analysis/variant-call-format/vcf-variant-call-format-version-42
https://cseweb.ucsd.edu/classes/fa14/cse182-a/notes/VCFv4.2.pdf
を採用しているようです。

読み込むことの出来るvcf fileでは
##fileformat=VCFv4.2

読み込むことが出来ないvcf fileでは
##fileformat=VCFv4.1
##fileformat=VCFv4.0
となっており、これが原因で読み込むことが出来ないかもしれません。

【追記】
本来ならばVCF fileをそのまま読み込めるはずですが、うまく行かない場合はvcftoolsを用いてvcf fileをplink形式などに変換します。

http://vcftools.sourceforge.net/man_latest.html#COMPARISON%20OPTIONS

OUTPUT OTHER FORMATS
--plink のオプションを使います。

変換したplink fileを用いれば、無事に解析が出来ました。


2015年10月14日水曜日

遺伝研スパコンからのデータ転送

スパコンへのデータ転送

  • ターミナルを使用して、localからスパコンへ
/Volumes/xxxx/xxx.shというファイルを転送する場合、

scp /Volumes/xxxx/xxx.sh username@gw.ddbj.nig.ac.jp:/home/username/xxxxx/

パスワードを要求されるので、入力するとデータが指定したパスに転送される


  • ターミナルを使用して、スパコンからlocalへ
sftp username@gw.ddbj.nig.ac.jp
を入力すると、
Connected to gw.ddbj.nig.ac.jp.
が表示される。
sftp> get /home/username/xxxxx/xxxxx.sam


2015年10月6日火曜日

ubuntuのjavaをアップデート

AWSを使っていて、ubuntuのjavaのバージョンが古かったのでアップデート

以下のページを参考にさせて頂きました。

http://www.yottanote.com/contents/linux/ubuntu/oraclejava_update.html


ubuntu@********:~$ java -version
java version "1.7.0_79"

もともとインストールされているjavaはjava version "1.7.0_79"


sudo add-apt-repository ppa:webupd8team/java
sudo apt-get update
sudo apt-get install oracle-java8-installer

再度バージョンを確認

ubuntu@********:~$ java -version
java version "1.8.0_60"


2015年7月22日水曜日

Linuxコマンドの覚え書き


すぐに忘れてしまうので、備忘録として...

コマンド
~(チルダ、と読む) ホームディレクトリを意味
「cd」のみを打つ操作 ホームディレクトリへの移動
ls デフォルトはディレクトリおよびファイル名しか返さない
ls -l ファイルの詳細も同時に表示
ls -a ドット(.)から始まるファイルが表
示される
ls -m ファイル名をカンマで区切って表示
ls -1 1行に1ファイルずつ表示
grep -c 検索条件にマッチした行数を表示
grep -cv マッチしなかった行数を表示
grep -v マッチしない行を検索結果として表示
grep -G 検索に正規表現を使用
!99 historyコマンド実行結果を眺めながら、以前実行したコマンドを番号で指定するやり方。
mv ファイル名変更
> 出力のリダイレクト(上書き)
>> 出力をファイルに追記する(ファイルの更新)
< 入力のリダイレクト
<< 入力終端文字列を指定する

2015年6月1日月曜日

ggplot2でSNP数のヒストグラムを作成

Rのggplot2を用いて染色体ごとに分けて、position ごとのSNP数のヒストグラムを作成

#R version 3.1.2 (2014-10-31) -- "Pumpkin Helmet"

# ggplot2を読み込み
library(ggplot2)

#snpデータの読み込み
snp<-read.csv("~/hkane/typed_SNP.csv",header=T)

#データはこんな形式です
head(snp)

    chr position
1 Chr01    52854
2 Chr01    52891
3 Chr01   207031
4 Chr01   395474
5 Chr01   395956
6 Chr01   912099

chrの列に染色体番号、positionの列に位置情報

qplot(position,  #positionごとに
data = snp,   #snpのデータを使って
geom = "histogram",  #ヒストグラムを作成
binwidth = 1000,  #幅を設定 
facets = chr~.) #chrごとに分けて

一部しか表示していませんが、こんな感じです






2015年5月31日日曜日

RAD-Seqを用いて、ヘテロの遺伝子型を解析

RAD-Seqを用いて、ヘテロの遺伝子型を解析した論文に関して調べてみました。

Hoffman JI, Simpson F, David P, Rijks JM, Kuiken T, Thorne MA, Lacy RC,
Dasmahapatra KK. High-throughput sequencing reveals inbreeding depression in a
natural population. Proc Natl Acad Sci U S A. 2014 Mar 11;111(10):3775-80. doi:
10.1073/pnas.1318945111. Epub 2014 Feb 28. PubMed PMID: 24586051; PubMed Central 
PMCID: PMC3956162.
http://www.ncbi.nlm.nih.gov/pubmed/?term=24586051

Davey JW, Cezard T, Fuentes-Utrilla P, Eland C, Gharbi K, Blaxter ML. Special 
features of RAD Sequencing data: implications for genotyping. Mol Ecol. 2013
Jun;22(11):3151-64. doi: 10.1111/mec.12084. Epub 2012 Oct 30. PubMed PMID:
23110438; PubMed Central PMCID: PMC3712469.
http://www.ncbi.nlm.nih.gov/pubmed/?term=23110438

どちらの論文でもヘテロの遺伝子型を解析する場合にはstacksよりもGATKが良いという結論でした。

もう一つ気になる点。

GATKとSAMtoolは、どちらもbayesian approach を用いていますが、結果が少し異なっています。
その点に関しては以下のまとめを参考にしました。

https://www.biostars.org/p/57149/
https://www.biostars.org/p/12500/#12526

上記サイトには
The samtools model tends to be conservative - it tends to call fewer heterozygotes than the independent model (←GATK). 
と書かれています。

自分のデータで調べてみましたが、やはりsamtoolsの方がヘテロの遺伝子型の数が少ないです。

あくまでも今回私が調べた範囲の結論です。
参考にして頂ければ幸いですし、もし情報があれば教えてください。