DDBJ-pipeline基礎(map/de novo)開発

次の機能を実装予定です。優先順位順に記載していきます

  1. DRA/ERA/SRA automatic import (Start)
  2. Preprocessing (Adapter配列除去機能)
  3. Automatic version up of analytical tools
  4. MD5 checksum for download files
  5. :

実装済の機能リスト

  • FASTQファイルのHTTP upload(PE可), 2011.1.20
  • QV>15以上の3’端trim機能, 2010.12.5
  • FTP client経由でFASTQ/FASTA形式ファイルのupload, 2010.11.19

map/de novo前のFASTQファイル編集

1.Quality scoreの変換
新型シーケンサから出力される配列のQuality scoreは、シーケンサの種類や、バージョンによって算出方法が異なります。
こちら参照FASTQ Quality

ほとんどの新型シーケンサがPHRED形式を採用しているのに対して、illuminaの’Solexa pipeline earlier’は、Solexa形式を採用しています。
PHRED形式であれば、mapping/de novo assemblyを行うにあたって、問題は発生しません。
mapping tool/de novo assembly toolによっては、PHRED形式でないと受け付けないtoolもあり注意が必要です。(Maq
その為、Pipelineでは、Quality ScoreをPHRED形式に変換する機能を実装予定です。

※DRA/SRA/ERAからダウンロードできるFASTQファイルは、PHRED形式に統一されています。
 
参考サイト:http://en.wikipedia.org/wiki/FASTQ_format

2.アダプター配列の除去

DRA/SRA/ERAからダウンロードできるFASTQファイルは、新型シーケンサにてシーケンスする為に必要なアダプターは除去済みですが、個々の研究者が付けたアダプター配列は除去されていません。

アダプター除去ツールとしては、以下のものがあるようです。
+fasta,fastq,csfasta,csfastqに対応
FAR
cutadapt

+fastqに対応
FASTX-toolkit
mirtools Adapter_trim.pl

+fastaに対応
Figaro
Biopiece: remove_adaptor