2014년 11월 24일 월요일

FastX Tool Kit


FastX Tool Kit에 들어있는 스크립트들. v.0.0.13 기준

별 게 다 있는데, Perl 스크립트 짜다가 간단히 루틴 만들어서 처리할 만한
기능도 있고, 그것도 번거로우니 잘하는 사람이 만든 깔끔한 것을 갖다 써도 되고.

fasta_clipping_histogram.pl
fasta_formatter
fasta_nucleotide_changer
fastq_masker
fastq_quality_boxplot_graph.sh
fastq_quality_converter
fastq_quality_filter     # 일정 quality 값 이상 되는 base가 일정 % 이상 있는 read만 keep.
fastq_quality_trimmer   # 3' end에 존재하는 일정 quality 미만인 연속된 base를 잘라냄.
fastq_to_fasta
fastx_artifacts_filter
fastx_barcode_splitter.pl    # multiplexing으로 실험된 fastq를 barcode seq 기준으로 demultiplexing하여 샘플별 read set으로 나눔.
fastx_clipper
fastx_collapser
fastx_nucleotide_distribution_graph.sh
fastx_nucleotide_distribution_line_graph.sh
fastx_quality_stats   # FASTQ 파일 내 read들에 대해 1,2, ..., N번째 base들이 어떤 quality score 분포를 띄는지 계산. min QS, 1st/3rd quantile QS 등을 계산.
fastx_renamer
fastx_reverse_complement
fastx_trimmer         # fastq 내 read들을 일괄적으로 자름. e.g 150bp->100bp. 앞(5')을 남기든지 뒤('3)를 남기든지
fastx_uncollapser

간단 커맨드라인 도움말(help) 집합:

공통: 기본적으로 quality score encoding이 Solexa/Illumina, 즉 phred-64로 되어 있다.
ASCII 코드로 64 미만인 character가 있으면 score 44인 base가 있으면 -20이라는 얘기라서 에러가 난다.
그럴 땐 Sanger encoding이라고 옵션을 붙여야 한다. -Q 33 을 덧붙이면 정상 작동.

※ "quality control processing of raw data"
항상 조각조각 찾고, 알게 되는데 한번 쓱 볼 만한.
http://59.163.192.90:8080/ngsqctoolkit/Examples/Output-Data/QC/IlluQC/Paired-end/output_pairedEnd_1.fastq_pairedEnd_2.fastq.html


댓글 없음:

댓글 쓰기