=== 2014. 04. 08. 화
#
분석에 있어서, 인간 장내 미생물 메타지놈과 토양 미생물 메타지놈 등 샘플환경이 다르면 DNA 프렙 등 실험은 달라질 수 있을 텐데, 분석도 차이가 발생할 수 있을까? 장내 미생물의 99%는 박테리아 라고 하는데 다른 환경도 마찬가지인가. OTU 등 클러스터링 작업, 혹은 16S rRNA DB에 시퀀스 서치할 때 (taxonomy assign) 활용할 mapper 라든가, 하고 난 뒤 해석 단계에서 라든지.
#
http://www.nature.com/nature/journal/v464/n7285/abs/nature08821.html
A human gut microbial gene catalogue established by metagenomic sequencing
2010 Mar / Nature / BGI
요약: 124명의 배설물에서 추출한 total DNA를 일루미나 GA로 시퀀싱, 드노보 어셈블, ORF prediction, 기능 annotation, phylotype 분류, minimal gut genome & metagenome 분석 등
유러피언 124명의 배설물에서 (faecal sample), 16S rRNA만 추출하지 않고, 전체를 (total DNA) 시퀀싱 해서 576.7Gb를 얻었음.
read length는 첫 batch 샘플 15개는 44bp로, 나머지 샘플 109개는 75bp로 진행.
novel seq 생성과 seq depth 사이의 optimal return을 계산하기 위해 일루미나 read를 Sanger read에 (총 311.7Mb) SOAP로 매핑했더니, 일루미나 read 4Gb로 Sanger read 94%, 89%가 커버되고, 12.6, 16.6Gb로 늘려서 했더니 95%로 다소 증가했으며 depth는 높았고 uniform level 인 걸로 보아, 일루미나 시퀀싱에서 bias는 거의 없었다고 판단.
반대로, 일루미나 read들 중 57%, 74%가 매핑되지 않았는데 이들은 Sanger로는 시퀀싱 안 됐던 novel seq로 보이며, 이 비율은 4Gb에서도 비슷했음. 이걸로 보면 novelty는 4Gb만 시퀀싱해도 캡처된다고 본다.
124개 샘플들에서 공통적으로 발견되는 미생물 종을 조사하기 위해 public DB의 데이터를 기반으로 bacteria와 archaea genome들을 모아서 'non-redundant set' 650개를 구성해놓고, 모든 read를 여기에 BLASTN으로 매핑.
개인별 미생물 다양성 차이가 클 것으로 예상하여 각 샘플의 read들을 각기 독립적으로 드노보 어셈블리 (SOAPdenovo) 진행, 전체 중 42.7% read가 참여되어 6.58M개 contig를 (길이>500bp) 생성. 총 길이는 10.3Gb, N50은 2.2kb. (supp. table #4)
샘플 하나의 read들 중 35%가 다른 샘플들로부터 생성된 contig에 매핑되었는데,
이는 common sequence core의 존재를 의미하는 것.
contig set을 완성하기 위해 124개 샘플의 unassembled read들만 모아서 재차 어셈블 진행.
0.4M개 contig 생성, 총 길이 370Mb, N50은 939bp.
어셈블리 퀄러티 검증은, contig를 Sanger read에 SOAP으로 매핑 (2개 샘플 진행) & FLX read의 드노보 어셈블 결과에 매핑 (1개 샘플 진행) 하여 contig 약 98% 이상이 99.5% 이상의 collinearity를 보이는 것으로 증명. 그리고, 어셈블리 에러를 계산해본 결과, 일루미나 및 FLX contig에서 각각 megabase당 14.2 및 20.7이 나옴. short read, long read based 어셈블리가 comparable하다고 주장.
Sanger read는 왜 어셈블하지 않았을까?
커버리지 계산은, 일루미나 read를 contig 그리고 known bacteria genome에 SOAP으로 첫 35bp에서 mismatch 2개 허용 & 90% identity를 적용했고, FLX 및 Sanger read를 같은 reference에 BLASTN으로 1 * 10^(-8), 100bp 이상 align, 90% identity를 적용해서 매핑.
어셈블해서 나온 contig들에 metaGene 이라는 툴을 적용하여 ORF prediction.
(contig들이 미생물들의 predicted gene들이 되는 셈...)
BLAT으로 pairwise alignment, 95% identity, 둘 중 짧은 시퀀스 길이 90% 이상 align 기준으로 grouping하고, 그룹에서 가장 긴 시퀀스가 그 그룹을 대표, 최종적으로 ORF 길이가 100bp 미만인 것은 filter out. 그리고 NCBI Genetic Codes 11로 translation 진행.
그리고 1%, 10% coverage 기준으로 계산해봄, 즉 그 genome이 1% 혹은 10% 커버됐다면 해당 미생물 종이 그 샘플에 포함된 걸로 간주한다는 것.
1% 기준: 모두 공통 18개 지놈, 전체 중 90% 이상 샘플 공통 57개, 50% 공통 75개,
10% 기준: 90% 공통 13개, 50% 공통 35개
1%는, 일반적인 bacteria genome 크기로 보면 40kb인데 이는 16S rRNA 길이의 25배에 해당된다고...
기준에 대한 근거로 얘기한 것 같은데, 그 미생물이 그 샘플에 포함됐는지 여부를 판단하기 위한 기준으로는 1%는 낮은 것 아닌가 생각이 든다.
common core 미생물들에 있어서도 개인간 미생물 조성 (relative abundance) 편차가 컸는데, 지놈 커버리지 1% 기준으로 90% 이상의 샘플에서 공통적으로 발견된 57개 microbial genome의 샘플간 편차가 적게는 12배에서 2187배까지 차이가 났다.
예상대로, Bacteroidetes 그리고 Firmicutes가 가장 높은 abundance를 보였다.
predicted gene들의 기능 조사를 위해, gene들을 NCBI-NR, KEGG, COG & eggNOG DB에 매핑한 결과, 77.1%가 phylotype 분류가 됐고 57.5%는 eggNOG 클러스터에 매치됐으며 47.0%은 KEGG orthology에, 18.7%는 KEGG pathway에 매치됐다.
KEGG pathway에는 별로 안 되는구나.
minimal gut genome - bacterium 하나가 장 내에서 자라는 데 필수적인 gene들 조사
minimal gut metagenome - 장 내의 ecosystem이 homeostasis (항상성)을 유지하기 위해 필요한 여러 종들로부터 생성되는 gene들을 조사
그 외...
1. 124 individuals - healthy, overweight, obese, inflammatory bowel disease
2. total DNA 사용한 이유? 제목이 gene catalogue긴 한데... 예산 여유가 있고, 이전의 다른 연구 그룹과 (미국,일본) 차별화되기 위해서 그런 건가.
- 아래 16S vs shotgun 비교가 어느 정도 대답이 되겠다.
사용된 DB:
- NCBI GenBank의 bacterial genome 806개
- known human gut bacteria genome sequences from
HMP DB, GenBank, Washington Univ in St Louis (85 genomes, ver. 2009 Apr.), MetaHIT project (17 genomes, ver. 2009 Sep., Sanger Ins.)
- US individuals (SRA002775; Roche 454), Jap (P. Bork's group, EMBL; Sanger)
- integrated NR DB: NCBI-NR (ver. 2009 Apr) + all genes from the known human gut bacteria genomes)
integrated NR DB 구성 방법?
#
http://res.illumina.com/documents/products/research_reviews/metagenomics_research_review.pdf
메타지놈: 16S rRNA 시퀀싱 vs shotgun 시퀀싱
application: monitoring populations / discovering new genes, new members, resolving complex taxonomies
ability to detect rare member: highly sensitive / much deeper sequencing required for the same level of sensitivity
#
16S rRNA gene의 시퀀싱에 대해서,
microbial taxon들을 확인하는 phylogenetic marker로 활용, 모든 생명체가 가지고 있고 bacteria의 경우 RNA의 80%를 차지, conserved & variable region이 산재해 있어서 PCR & 시퀀싱으로 확인하기 좋다, 특히 microbial population의 fluctuation monitoring에 효과적.
여러 NGS 플랫폼들에 있어서 read length, read depth, sequencing error이 그에 미치는 영향이 연구되어 있다, 그 논문은:
McCafferty J., Muhlbauer M., Gharaibeh R. Z., Arthur J. C., Perez-Chanona E., et al. (2013)
Stochastic changes over time and not founder effects drive cage effects in microbial community assembly in a mouse model. ISME J
#
검색 중 관심 가는 논문 목록
A Catalog of Reference Genomes from the Human Microbiome
2010 May / Science / The Human Microbiome Jumpstart Reference Strains Consortium
http://www.sciencemag.org/content/328/5981/994.full.pdf
Data mining the human gut microbiota for therapeutic targets
Brief Bioinform 1 November 2012: 751-768
http://bib.oxfordjournals.org/cgi/reprint/13/6/751
Computational systems biology and in silico modeling of the human microbiome
Brief Bioinform 1 November 2012: 769-780
http://bib.oxfordjournals.org/cgi/reprint/13/6/769
Computational meta'omics for microbial community studies
Mol Syst Biol 24 March 2014: 666
http://msb.embopress.org/cgi/reprint/9/1/666
Comparative analysis of microbiome between accurately identified 16S rDNA and quantified bacteria in simulated samples
J Med Microbiol 1 March 2014: 433-440
http://jmm.sgmjournals.org/cgi/reprint/63/Pt_3/433