1 Universidad de los Andes, Bogotá, Colombia, Septiembre 2015 Sequence and annotation of genomes and metagenomes with Galaxy Overview of sequencing technologies Dr. rer. nat. Diego Mauricio Riaño Pachón Brazilian Bioethanol Science and Technology Laboratory (CTBE) Brazilian Center for Research in energy and Materials (CNPEM) [email protected] http://bce.bioetanol.cnpem.br
2 Universidad de los Andes, Bogotá, Colombia, Septiembre 2015 CTBE is part of Ministry of Science and Technology with other three National Labs Brazilian Centre of Research in Energy and Materials (CNPEM)
3 Universidad de los Andes, Bogotá, Colombia, Septiembre 2015 NGS Facility CTBE/CNPEM 3 HiSeq2500 MiSeqcBot Image server batteries Compute power Miseq HiSeq
4 Universidad de los Andes, Bogotá, Colombia, Septiembre 2015 Genómica 4
5 Universidad de los Andes, Bogotá, Colombia, Septiembre 2015 Sequencing technologies 5
6 Universidad de los Andes, Bogotá, Colombia, Septiembre 2015 Next Generation Sequencing: Technologies and applications 6 Single Molecule Real Time Sequencing (SMRT)
7 Universidad de los Andes, Bogotá, Colombia, Septiembre 2015 PacBio: Single Molecule Real Time Sequencing (SMRT) 7 Play Video https://www.youtube.com/watch?v=v8p4ph2MAvI
8 Universidad de los Andes, Bogotá, Colombia, Septiembre 2015 Next Generation Sequencing: Technologies and applications 8 Nanopore sequencing
9 Universidad de los Andes, Bogotá, Colombia, Septiembre 2015 Oxford Nanopore 9 Play Video https://www.youtube.com/watch?v=3UHw22hBpAk
10 Universidad de los Andes, Bogotá, Colombia, Septiembre 2015 Next Generation Sequencing: Technologies and applications 10 Sequencing by Synthesis
11 Universidad de los Andes, Bogotá, Colombia, Septiembre 2015 Illumina: Sequencing by synthesis 11 https://www.youtube.com/watch?v=HMyCqWhwB8E Play Video
12 Universidad de los Andes, Bogotá, Colombia, Septiembre 2015 Illumina: Overview 12 Library preparation (more on this later) Bentley et al. 2008. Nature 456, 53-59 | doi:10.1038/nature07517 Original DNA fragments 200-400bp Ligation of Y adapters: Polarity Why this size range?
13 Universidad de los Andes, Bogotá, Colombia, Septiembre 2015 Illumina: Overview 13 Bentley et al. 2008. Nature 456, 53-59 | doi:10.1038/nature07517 Attach fragments to surface and amplify Attach Bridge PCR
14 Universidad de los Andes, Bogotá, Colombia, Septiembre 2015 Illumina: Overview 14 Bentley et al. 2008. Nature 456, 53-59 | doi:10.1038/nature07517 Mate pair sequencing Long fragments, e.g., 10Kbp Circularize Fragment Ligate Y adapters
15 Universidad de los Andes, Bogotá, Colombia, Septiembre 2015 Illumina 15 More details on Illumina´s SBS
16 Universidad de los Andes, Bogotá, Colombia, Septiembre 2015 16
17 Universidad de los Andes, Bogotá, Colombia, Septiembre 2015 17
18 Universidad de los Andes, Bogotá, Colombia, Septiembre 2015 18
19 Universidad de los Andes, Bogotá, Colombia, Septiembre 2015 19
20 Universidad de los Andes, Bogotá, Colombia, Septiembre 2015 20
21 Universidad de los Andes, Bogotá, Colombia, Septiembre 2015 21
22 Universidad de los Andes, Bogotá, Colombia, Septiembre 2015 22 The size of the fragment is very important, as long fragments could give rise to polyclonal clusters, and so, degraded signal Also you have to keep an eye on the number of clusters formed in the initial steps, if it is too large you will most likely loose most of the information, in those cases is better to start over and not waste sequencing reagents.
23 Universidad de los Andes, Bogotá, Colombia, Septiembre 2015 23
24 Universidad de los Andes, Bogotá, Colombia, Septiembre 2015 24
25 Universidad de los Andes, Bogotá, Colombia, Septiembre 2015 25
26 Universidad de los Andes, Bogotá, Colombia, Septiembre 2015 26
27 Universidad de los Andes, Bogotá, Colombia, Septiembre 2015 27
28 Universidad de los Andes, Bogotá, Colombia, Septiembre 2015 28 Sequencing by synthesis Metzkler, 2010. Nature Reviews Genetics 11, 31-46 | doi:10.1038/nrg2626 At each cycle, take four pictures (here they are shown combined) (A, C, G and T)
29 Universidad de los Andes, Bogotá, Colombia, Septiembre 2015 29 Combined image Cluster imaging: False color At each cycle, take four pictures (A, C, G and T) Combined image
30 Universidad de los Andes, Bogotá, Colombia, Septiembre 2015 Illumina: Paired end sequencing 30 C. Cosentino Slideshare: http://www.slideshare.net/cosentia Sequence first read Regenerate clusters Remove/Cleave first fragment Sequence second read
31 Universidad de los Andes, Bogotá, Colombia, Septiembre 2015 Illumina: Multiplexing 31 http://www.illumina.com/documents/products/datasheets/datasheet_sequencing_multiplex.pdf http://www.illumina.com/technology/next-generation-sequencing/multiplexing-sequencing-assay.html
32 Universidad de los Andes, Bogotá, Colombia, Septiembre 2015 Illumina: Multiplexing 32 http://www.illumina.com/documents/products/datasheets/datasheet_sequencing_multiplex.pdf http://www.illumina.com/technology/next-generation-sequencing/multiplexing-sequencing-assay.html Dual indexing is also possible: More samples in the same lane
33 Universidad de los Andes, Bogotá, Colombia, Septiembre 2015 33 Some library preparation strategies using Illumina
34 Universidad de los Andes, Bogotá, Colombia, Septiembre 2015 Illumina: Library preparation NeXtera 34
35 Universidad de los Andes, Bogotá, Colombia, Septiembre 2015 Illumina: Library preparation TruSeq RNASeq 35
36 Universidad de los Andes, Bogotá, Colombia, Septiembre 2015 Illumina: Library preparation TruSeq Strand-specific RNASeq 36
37 Universidad de los Andes, Bogotá, Colombia, Septiembre 2015 Illumina: Library preparation Synthetic long reads 37 http://www.illumina.com/products/truseq-synthetic-long-read-kit.html Genomic DNA is fragmented to approximately 10 Kb. Adapters are ligated to the fragments.
38 Universidad de los Andes, Bogotá, Colombia, Septiembre 2015 Illumina: Library preparation Synthetic long reads 38 http://www.illumina.com/products/truseq-synthetic-long-read-kit.html Fragments are clonally amplified across 384 wells. ~300 molecules/well Fragments are sheared and labeled with unique indexes. Fragments from all 384 wells are then pooled, purified, and size selected.
39 Universidad de los Andes, Bogotá, Colombia, Septiembre 2015 Illumina: Library preparation Synthetic long reads 39 http://www.illumina.com/products/truseq-synthetic-long-read-kit.html Fragments are sequenced. Read length distribution Sugarcane genome
40 Universidad de los Andes, Bogotá, Colombia, Septiembre 2015 Illumina: Library preparation Synthetic long reads 40 Genome assembly: The problem with the short reads Repeat copy 1Repeat copy 2 Collapsed repeat consensus Contig orientation? Contig order? Source: http://www.slideshare.net/flxlex/combining-pacbio-with-short-read-technology-for-improved-de-novo-genome-assemblyhttp://www.slideshare.net/flxlex/combining-pacbio-with-short-read-technology-for-improved-de-novo-genome-assembly
41 Universidad de los Andes, Bogotá, Colombia, Septiembre 2015 41 Data deluge and dropping costs
42 Universidad de los Andes, Bogotá, Colombia, Septiembre 2015 Costo de Secuencia 42 http://www.genome.gov/sequencingcosts/
43 Universidad de los Andes, Bogotá, Colombia, Septiembre 2015 Costo de Secuencia 43 http://www.forbes.com/sites/matthewherper/2014/08/20/flatleys-law-how- one-company-became-the-force-behind-medicines-genetic-revolution/
44 Universidad de los Andes, Bogotá, Colombia, Septiembre 2015 Illumina dominates the NGS market 44 http://www.bio-itworld.com/uploadedFiles/Bio-IT_World/Whitepaper_SmartForms/Forms/BITW_NGS_Survey.pdf Do you own, or support one of the following NGS platforms?
45 Universidad de los Andes, Bogotá, Colombia, Septiembre 2015 The data deluge: Costs 45 Stein, 2010. Genome Biology, 11:207 “in the not too distant future it will cost less to sequence a base of DNA than to store it on a hard disk” Data 07-2015 HiSeq 2500 (v3) Cost one flowcell: US$20.000 Yield: 500 Gbp Cost per bp: US$4x10 -6 Cost to store 1 TB: US$900 Cost to store 1bp (FastQ format ~5bytes): US$4.5x10 -4
46 Universidad de los Andes, Bogotá, Colombia, Septiembre 2015 Genomics in Colombia Today 46 Details: Marco Cristancho, BIOS.co
47 Universidad de los Andes, Bogotá, Colombia, Septiembre 2015 47 Applications
48 Universidad de los Andes, Bogotá, Colombia, Septiembre 2015 Genome sequencing Panda Octopus 1000 human genomes 1001 Arabidopsis genomes 10K Vertebrate genomes Genomic Encyclopedia of Bacteria and Archaea Community Genomics: Metagenomics 48
49 Universidad de los Andes, Bogotá, Colombia, Septiembre 2015 Other applications ChIP-Seq FAIRE-Seq mRNASeq ncRNASeq 49