See discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/321493119 La secuencia completa del gen ARN ribosomal 16S, una promesa para mejorar la precisión en la asignación taxonómica microbiana Chapter · October 2017 CITATIONS READS 3 10,289 3 authors: Ángel Martín Ortiz-Estrada Marcel Martinez-Porchas Universidad Estatal de Sonora Research Center for Food and Development A.C. 8 PUBLICATIONS 147 CITATIONS 152 PUBLICATIONS 2,347 CITATIONS SEE PROFILE SEE PROFILE Francisco Vargas-Albores Research Center for Food and Development A.C. 120 PUBLICATIONS 3,784 CITATIONS SEE PROFILE Some of the authors of this publication are also working on these related projects: Biochemical and molecular characterization of Trichoderma spp. antagonizing plant pathogenic fungi View project Bacterial diversity and functional profiles of microbial macroaggregates used for super-intensive aquaculture farming View project All content following this page was uploaded by Ángel Martín Ortiz-Estrada on 04 December 2017. The user has requested enhancement of the downloaded file. Diagnóstico, tendencias en investigación y áreas de oportunidad María Leticia Arena Ortiz • Xavier Chiappa Carrara COMPILADORES Diagnóstico, tendencias en investigación y áreas de oportunidad Microbiología ambiental en México Diagnóstico, tendencias en investigación y áreas de oportunidad Compiladores: María Leticia Arena Ortiz y Francisco Xavier Chiappa Carrara Esta publicación se realizó con el apoyo y financiamiento del Consejo Nacional de Ciencia y Tecnología (Conacyt), a través de la convocatoria Problemas Nacionales 2013, proyecto 212745 © D.R. Universidad Nacional Autónoma de México, 2017 Unidad de Ciencias y Tecnología de la unam en Yucatán Carretera Sierra Papacal Chuburná Puerto, km 5.5 CP 97302, Mérida, Yucatán, México www.sisal.unam.mx Primera edición: octubre 2017 ISBN: 978-607-02-9617-8 Coordinación editorial: Martha A. Salazar/sulazul Diseño y formación: Martha A. Salazar/Jorge Carrera Necoechea Fotografías: Claudio Contreras Koob Fósiles de estromatolitos (página 12): Latinstock México/John Cancalosi/Alamy Agradecemos profundamente las palabras y observaciones de los revisores: Ma. Leticia Arena Ortiz, Roberto Alejandro Arreguín Espinosa de los Monteros, Felipe Ascencio Valle, Graciano Calva Calva, Xavier Chiappa Carrara, Miguel Ángel del Río Portilla, Rosalba Esquivel-Cote, Francisco José Fernández Perriño, Rosalva García Sánchez, Patricia Guadarrama, Joel Lara Reyna, Hugo López Rosas, Lucila Méndez Moran, Noé Montaño, Iván Moreno Andrade, Ma. del Carmen Ponce Caballero, Yanet Romero Ramírez, Blanca Flor Solís Guzmán, Valeria Souza, María del Rocío Torres Alvarado, Juan Carlos Velázquez Aradillas, Pablo Yaza y Sergio Zavala El contenido de las publicaciones es responsabilidad exclusiva de los autores Prohibida la reproducción parcial o total de la obra por cualquier medio sin la autorización por escrito del titular de los derechos patrimoniales Impreso y hecho en Mérida, Yucatán, México Printed and made in Merida, Yucatan, Mexico Diagnóstico, tendencias en investigación y áreas de oportunidad María Leticia Arena Ortiz • Xavier Chiappa Carrara COMPILADORES Presentación Los microorganismos juegan un papel relevante en todos los ámbitos de la vida. Dada esa importancia emitimos una convocatoria en el marco del proyecto Conacyt 212745, con el objetivo de recopilar información de la comunidad científica nacional que dedica su investigación al quehacer de las bacterias. Recibimos la respuesta de 54 autores de distintas instituciones que confiaron en este proyecto y nos enviaron sus aportaciones, las cuales fueron revisadas por 23 académicos reconocidos en la temática, gracias a los cuales podemos ahora presentar el libro Microbiología ambiental en México. Diagnóstico, tendencias en investigación y áreas de oportunidad. Se trata de un producto de índole científico dirigido a la comunidad académica y público en general interesado en el mundo de los microbios, con la finalidad de agrupar y mostrar algunos de los avances y retos en el conocimiento de la microbiota del ambiente, y temas relacionados, donde se conjunta tanto la fracción cultivable, analizada con los métodos microbiológicos tradicionales, como la no cultivable que utiliza tecnologías de biología molecular en diversos temas, como legislación, equilibrio ecológico, ciclos biogeoquímicos, contaminación, riesgos a la salud, biorremediación, biotecnología, bioprospección, interacciones, taxonomía. Agradecemos a los que compartieron su conocimiento y sus resultados, y esperamos que esta sea una publicación que difunda el interés por el mundo microbiano y sus trascendentales implicaciones, y sirva de inspiración para generar más de estos productos. Los compiladores Índice Presentación 9 Índice 10 Introducción 13 Legislación 17 Legislación de recursos genéticos microbianos en México. Diagnóstico general, normatividad, áreas de oportunidad, problemáticas nacionales Taxonomía de procariontes 18 33 El concepto operativo de especie y los métodos genómicos en la taxonomía de procariontes 34 La secuencia completa del gen arn ribosomal 16s, una promesa para mejorar la precisión en la asignación taxonómica microbiana 50 Agua • Aire 65 Diversidad microbiana asociada a la tecnología avanzada para el tratamiento de agua residual. Avances recientes y propuestas futuras 66 Las bacterias metanotróficas y desnitrificantes en humedales de agua dulce en México: sus implicaciones en los servicios ambientales 82 Análisis comparativo de aeromicrobiología ambiental entre un medio contaminado y uno saludable 94 Métodos moleculares para el análisis del efecto de probióticos sobre comunidades microbianas de ambientes acuícolas 102 Suelo 121 Bacterias metalorresistentes para la biorremediación de suelos y jales mineros 122 Aislamiento y caracterización de microorganismos con actividad de biodegradación de los plaguicidas atrazina, clorotalonil y clorpirifos 140 Riqueza de la comunidad de los hongos micorrizógenos arbusculares en la selva Lacandona y su relación con la hipótesis del pasajero 156 Estimación del número más probable de microorganismos en suelos tropicales secos: una comparación de los procedimientos 168 Metagenómica como herramienta para el estudio de comunidades microbianas en diversas disciplinas agropecuarias 186 La búsqueda de los congéneres de bacterias reductoras de sulfato que mineralizan el carbono mediante el gen monóxido de carbono deshidrogenasa como marcador funcional 200 Microorganismos de vida libre y simbióticos: alternativa biotecnológica para restaurar ambientes contaminados 212 Hongos micorrízicos arbusculares (Glomeromycota: Fungi) en suelos volcánicos endurecidos de Tlaxcala, México 234 Bacterias y hongos con potencial biodegradador de hidrocarburos en diversos ambientes 246 Microbiología de los procesos de digestión anaerobia de residuos orgánicos en la producción de biogás 264 Directorio de autores 291 La secuencia completa del gen arn ribosomal 16s, una promesa para mejorar la precisión en la asignación taxonómica microbiana Ángel Martín Ortiz-Estrada, Marcel Martínez-Porchas y Francisco Vargas-Albores* *Correspondencia: [email protected] Resumen La secuencia del arn ribosomal 16s (arnr 16s) ha sido de gran utilidad para la asignación y clasificación taxonómica. Actualmente, gracias a la capacidad de las tecnologías de nueva generación de secuenciación (ngs) se están produciendo numerosas secuencias, sin embargo, debido a las limitantes de las mismas tecnologías, estas son parciales. Si bien las secuencias parciales son útiles, se tiene mejor precisión en las mediciones de diversidad taxonómica cuando se utilizan completas. Por ello ha crecido el interés de ensamblar adecuadamente las secuencias cortas con el uso de programas informáticos especializados en reconstruir genes arnr 16s, pero se ha dificultado por la gran similitud entre las secuencias. Dos programas, emirge y reago, parecen estar cumpliendo los requisitos que ensambladores generales no han podido. Por otro lado, para evitar el uso de herramientas de ensamble, las tecnologías de tercera generación (por ejemplo, smrt) han tomado ventaja, haciendo posible recuperar secuencias incluso más grandes que el tamaño del gen arnr 16s. Sin embargo, problemas asociados con el elevado costo por par base y la alta tasa de error, entre otros, continúan siendo limitantes que deben ser superadas en el futuro inmediato. Pese a ello, las tecnologías tipo smrt representan una alternativa prometedora para obtener secuencias completas del arnr 16s, que incrementen la precisión en la asignación taxonómica de microorganismos. Palabras clave: secuencia completa, gen arnr 16s, asignación taxonómica microbiana, tecnologías ngs. Introducción Los microorganismos habitan en cualquier ambiente de la biosfera. En los diferentes ecosistemas tienen roles de suma importancia, como por ejemplo: en ambientes marinos constituyen la base de la cadena trófica, están involucrados en la regulación de los ciclos biogeoquímicos de elementos esenciales (C, H, O, N, S y P) (Glöckner et al. 2012) y mantienen relaciones simbióticas con organismos superiores (Dubilier et al. 2008). Por otra parte, en ambientes terrestres, los microbios viven en simbiosis con las plantas (Gourion et al. 2015) y conforman la microbiota de animales hospederos (Ley et al. 2008, Wei et al. 2013, Krishnan et al. 2014), incluido el 50 humano (The Human Microbiome Project Consortium 2012). A pesar de su amplia distribución y su importancia en los ecosistemas, no resulta fácil detectar, identificar, caracterizar y cuantificar microorganismos (Zhou et al. 2015). Esto se debe principalmente a que cerca de 80 % no han podido ser cultivados en el laboratorio (Connon y Giovannoni 2002), además de que generalmente coexisten dentro de comunidades microbianas complejas que pueden llegar a ser muy diversas. Por consiguiente, conocer la estructura, dinámica, función e interacción de las comunidades microbianas requiere de acciones concertadas de varias disciplinas y, en su conjunto, representan un gran reto para la comunidad científica actual (Zhou et al. 2015). TAXONOMÍA DE PROCARIONTES Gen arn ribosomal 16s: una ventana a la diversidad microbiana A partir de la clasificación biológica de los tres dominios primarios de la vida (Bacteria, Archaea y Eucaria) que se construyó con base en las diferencias encontradas en secuencias del arn ribosomal de la subunidad pequeña (arnr ssu, acrónimo usado indistintamente para referirse a las subunidades 16s o 18s), se estableció que esta macromolécula sería un marcador evolutivo particularmente útil para los niveles taxonómicos que van de reino a familia y, en ocasiones, hasta género (Woese y Fox 1977). Con esta noción, aunada a los avances en biología molecular, Pace et al. (1986) lograron estimar la composición de comunidades microbianas de muestras ambientales a través del análisis de secuencias del gen arn ribosomal 16s (arnr 16s) obtenidas mediante clonación y posterior secuenciación Sanger. A pesar de no tener alta precisión para los niveles taxonómicos más profundos, debido a lo conservado de las secuencias, la utilidad del gen arnr 16s como marcador taxonómico es innegable. Esto se debe a que: 1) es ubicuo, ya que se encuentra en los organismos procariotas y arqueobacterias, y existe su homólogo eucariota; 2) su tamaño (ca. 1500 pb) y alto grado de conservación funcional permiten definir las tasas de mutación durante la evolución microbiana (Woese y Fox 1977); y 3) posee regiones conservadas, que son muy útiles para el diseño de cebadores y V1 1-66 V2 V3 V4 V5 V6 683-806 314-368 104-120 que flanquean nueve regiones variables (V1-V9), como se aprecia en la figura 1. Las secuencias de las regiones variables han sido utilizadas eficientemente para distinguir entre taxones, incluso en los niveles taxonómicos más profundos (Head et al. 1998, Clarridge 2004). El trabajo de Pace et al. (1986) marcó el punto de inflexión donde la limitante que imponía la dependencia de los métodos de cultivo para el estudio de la diversidad microbiana fue superada. Este notable avance, aunado a la implementación de la reacción en cadena de la polimerasa (pcr) (Mullis y Faloona 1987), hizo posible la construcción de genotecas, principalmente de secuencias completas del gen arnr 16s. Sin embargo, la secuenciación Sanger solamente permite usar secuencias individuales y purificadas, y para llegar a conocer la diversidad microbiana de muestras ambientales que contienen mezclas de adn de cientos o hasta miles de diferentes microorganismos se requiere una gran cantidad de esfuerzo previo. Por décadas, el amplificar, clonar y secuenciar el arnr 16s completo por la técnica de Sanger fue un protocolo estándar ampliamente utilizado para la identificación y clasificación taxonómica, que permitió estudiar la diversidad microbiana de muestras ambientales sin la necesidad de cultivar sus componentes individuales (Klindworth et al. 2013). Dichas secuencias fueron depositadas en bases de datos públicas, permitiendo a los científicos utilizarlas como referencias para la identificación 506-547 V7 V8 1043-1114 879-985 V9 1295-1432 1177-1247 1465-1500 Figura 1. Representación esquemática del gen arnr 16s. Existen diez regiones conservadas que flanquean las nueve regiones variables (V1-V9). Las posiciones corresponden a la secuencia del arnr 16s de E. coli. Número de acceso J01859. 51 y clasificación taxonómica microbiana (Maidak et al. 1994, Van de Peer et al. 1997). Desde su introducción, en la década pasada, las tecnologías de la “siguiente generación de secuenciación” (ngs: Next Generation Sequencing) (Mardis 2008), han desplazado gradualmente el uso de la secuenciación Sanger. Al principio las secuencias producidas por la ngs eran muy cortas y su mayor aplicación la encontraron en la secuenciación de genomas completos. Sin embargo, la capacidad y velocidad de generación de información tuvieron fuerte impacto en la genómica (Koboldt et al. 2013), la medicina (Kamalakaran et al. 2013) y la microbiología (Padmanabhan et al. 2013), entre otros campos científicos. Una vez que se pudieron obtener secuencias más largas y más confiables, estas tecnologías impulsaron el desarrollo de la metagenómica, la disciplina enfocada en el estudio del conjunto de genomas de un ambiente determinado, sin necesidad de cultivar y aislar sus componentes microbianos. Este enfoque metodológico permite la recuperación y el estudio de la información de la suma de los genomas que componen una muestra ambiental. Se espera que con estas herramientas estemos en posibilidad de describir la composición de cualquier comunidad microbiana así como de las capacidades funcionales de su conjunto, lo que permitirá explicar su papel en la comunidad y su efecto en el medioambiente (Thomas et al. 2012). Particularmente con fines de identificación microbiana, las tecnologías de la ngs han hecho posible recuperar grandes cantidades de secuencias del arnr 16s (Caporaso et al. 2012), incluyendo las provenientes de microorganismos no cultivables y/o poco representados en las comunidades. Lo anterior ha estado acompañado de avances en biocómputo, que ha facilitado el análisis de la gran cantidad de información generada con estas tecnologías (DeSantis et al. 2006, Wang et al. 2007, Pruesse et al. 2012). Esta conjunción de metodología y enfoques ha permitido la puesta en marcha de proyectos a gran escala, como el microbioma humano (Turnbaugh et al. 2007) y el microbioma 52 de la Tierra (Gilbert et al. 2014), que nos acercan al conocimiento de la diversidad microbiana en ambientes que, hasta hace poco tiempo, no habían sido explorados. Por lo general, en los estudios de metagenómica el análisis de una comunidad microbiana se hace secuenciando la mezcla de genomas presente en una muestra ambiental con alguna de las tecnologías de la ngs, lo que produce grandes cantidades de secuencias, pero de tamaño reducido. En el mejor de los casos se pueden secuenciar en ambas direcciones fragmentos de hasta 300 nucleótidos. El ensamble de los fragmentos para obtener secuencias completas del arnr 16s no es tarea fácil debido a la alta similitud entre ellas (Miller et al. 2011, Yuan et al. 2015), por lo que las herramientas bioinformáticas aún están acrecentando su precisión y buscando incrementar la confiabilidad (ver más adelante). Por otro lado, amplificar por la pcr y secuenciar una o más de las nueve regiones variables del gen arnr 16s utilizando estas plataformas de ngs es una práctica cada vez más común (Di Bella et al. 2013, Schloss et al. 2015, Barb et al. 2016). Para apoyar en la asignación taxonómica utilizando estas secuencias parciales del arnr 16s, se han desarrollado varias herramientas informáticas. Por ejemplo, Kraken permite asignar identidad con gran precisión a secuencias con un tamaño mínimo de 100 bp (Wood y Salzberg 2014), llegando con mucha confianza a nivel clase. Para mejorar la precisión y alcanzar confiabilidad para la asignación de niveles más profundos se requiere utilizar secuencias más largas y/o ampliar la base de datos con secuencias completas y de origen bien establecido que puedan servir de referencias. Esto se pone de manifiesto cuando la muestra proviene de un ambiente poco estudiado y donde existen pocas, o no existen, secuencias plenamente identificadas. Limitaciones en la precisión de la asignación taxonómica La utilidad de secuencias parciales del gen arnr 16s en la identificación microbiana ha sido TAXONOMÍA DE PROCARIONTES cuestionada debido a discrepancias en los resultados obtenidos en estudios comparativos entre algunas regiones variables y el gen completo (Kim et al. 2011, Sun et al. 2013). Las diferencias han sido explicadas con base en que cada región variable tiene su propia tasa de mutación y, por lo tanto, tiene diferente grado de utilidad en la identificación de ciertos grupos microbianos (Claesson et al. 2010, Kunin et al. 2010, Mizrahi-Man et al. 2013). Por otra parte, el índice de diversidad es una forma de evaluar las comunidades bacterianas y permite observar la utilidad de la región del arnr 16s amplificada en la descripción de poblaciones microbianas ambientales. Por ejemplo, en un análisis de poblaciones microbianas de sedimentos, Miller et al. (2013) observaron que al utilizar la región V3, en lugar de la secuencia completa, la diversidad estimada era menor y el número de unidades taxonómicas operacionales (otu, por sus siglas en inglés) que no pudieron ser clasificadas se incrementó de 8.6 a 34.6 %. En la caracterización de comunidades microbianas de aguas residuales, la información obtenida con un fragmento que contenía las regiones V1 y V2 no fue suficiente para detectar organismos de los filos Verrucomicrobia, Planctomycetes y Chlamydiae (Cai et al. 2013). En otro estudio, Huse et al. (2008) utilizaron dos bases de datos diferentes, una de intestino humano y otra de chimeneas submarinas para generar in silico las regiones V3 y V6. Con esta información pudieron demostrar que cada región del gen arnr 16s proporciona diferentes valores de diversidad microbiana, mientras que con la región V3 registraron 42 taxones, con la V6 solamente encontraron 26. En este sentido, recientemente, un estudio realizado por Yarza et al. (2014) puso en evidencia que las secuencias completas o muy cercanas al tamaño del gen arnr 16s permiten obtener mayor precisión en la identificación microbiana. Por último, un inconveniente en el uso del gen arnr 16s es que presenta varias copias, lo que debe manejarse con cuidado al hacer el análisis de datos y elaborar conclusiones. Pese a estas desventajas, el uso del gen arnr 16s como marcador sigue siendo la herramienta más fuerte para el entendimiento de las comunidades bacterianas de cualquier ambiente. Una excelente combinación es el uso de tantas regiones como sea posible y una secuenciación intensa del material genómico obtenido de la comunidad bacteriana (Tringe y Hugenholtz 2008, Hong et al. 2009, Wang y Qian 2009, Di Bella et al. 2013, Barb et al. 2016). La generación de secuencias completas La abundancia de secuencias completas y de calidad adecuada para estudios minuciosos de diversidad microbiana es limitada. En la última década ha habido un incremento importante en la generación de secuencias de genes arnr ssu, como se observa en dos importantes bases de datos de genes ribosomales: rdp (Ribosome Database Project) y silva. Particularmente, silva ha mostrado un crecimiento exponencial a partir del año 2010 y, en su última actualización, ssu 123 reporta un contenido de casi cinco millones de secuencias (figura 2). Este aumento en la generación de secuencias de genes ribosomales está relacionado con el alto rendimiento de las tecnologías de ngs, que permite recuperar grandes cantidades de secuencias por corrida (Schloss et al. 2015). No obstante, estas tecnologías solo posibilitan obtener secuencias cortas, por lo que la mayor parte de las que son depositadas en la base de datos de silva son secuencias parciales y solamente cerca de 35 % son secuencias completas o con longitud suficiente (≥ 900 pb para el dominio Archaea y ≥1 200 pb para los dominios Bacteria y Eucaria), lo que les ha permitido ser clasificadas como secuencias de referencias para la identificación taxonómica microbiana (silva 2015). Un caso similar ocurre en la base de datos rdp, donde solo 48 % de las secuencias de genes arnr ssu tienen una longitud igual o mayor a 1 200 pb. Por su parte, utilizando la metodología de Sanger es posible secuenciar con precisión hasta 1 kb y, con el uso de herramientas de ensamble (cap3, por ejemplo), se puede obtener la secuencia 53 5 Parc Ref ssu Ref nr 99 ssu ssu Millones de secuencias arnr ssu 4 3 2 1 0 2007 2008 2009 2010 2011 2012 2013 2014 2015 Años Figura 2. Número de secuencias arnr ssu depositadas en la base de datos de silva. ssu Parc: total de secuencias curadas. ssu Ref: secuencias de referencia extraídas de ssu Parc con una longitud ≥ 900 pb para el dominio Archaea y ≥ 1 200 pb para los dominios Bacteria y Eucaria. Ref NR 99: secuencias no-redundantes, secuencias obtenidas al agrupar secuencias de identidad. ssu ssu Ref que comparten 99 % de Fuente: con base en los datos disponibles en http://www.arb-silva.de/ completa del arnr 16s (Tringe y Hugenholtz 2008). En ausencia de una secuencia completa que pueda servir de referencia, la identificación y clasificación taxonómica microbiana de ambientes poco explorados se dificulta o no es posible llegar a niveles taxonómicos de mayor profundidad. Por esta razón solo ha sido posible clasificar y asignar 54 identidad a aquellas secuencias que son muy similares y/o iguales a las secuencias de referencia depositadas en las bases de datos, introduciendo incertidumbre o limitando su identificación. Por tal motivo, la mirada ha volteado nuevamente hacia la generación de secuencias completas que permitan asignar con mayor precisión la clasificación TAXONOMÍA DE PROCARIONTES taxonómica a gran cantidad de secuencias parciales del gen arnr 16s que se están produciendo en todo el mundo. Además de la secuenciación individual que puede realizarse por la técnica de Sanger, al día de hoy, dos estrategias han sido propuestas con el fin conseguir secuencias completas del arnr 16s. La primera se basa en el uso de poderosas herramientas informáticas en la reconstrucción del arnr 16s completo por ensamble de las secuencias cortas producidas con las tecnologías de ngs. La segunda alternativa radica en obtener secuencias más largas, lo cual es una promesa de la tercera generación de las tecnologías de secuenciación, por ejemplo smrt (Single Molecule Real Time). Reconstrucción del gen arnr 16s: de regreso al inicio Los datos metagenómicos representan una excelente oportunidad de conocer la composición de comunidades microbianas. Sin embargo, las secuencias parciales del arnr 16s que se generan a partir del metagenoma introducen incertidumbre en el proceso de identificación. Esto dificulta estimar con precisión la composición microbiana de cualquier muestra, principalmente las de origen ambiental. Por ello, en los últimos años ha crecido el interés de conseguir secuencias completas, o muy cercanas al tamaño del gen arnr 16s, a partir de secuencias cortas generadas en estudios metagenómicos (Miller et al. 2011, Yuan et al. 2015). Sin embargo, el trabajo de ensamble para reconstruir la secuencia completa del gen se ve dificultado por la gran cantidad de datos que se generan, las diferencias en la abundancia de especies, la longitud corta de las secuencias y la alta similitud entre ellas, sobre todo en los niveles taxonómicos más profundos (Yuan et al. 2015). Dentro de las herramientas diseñadas para el ensamble de novo de genomas se encuentran Velvet (Zerbino y Birney 2008), MetaVelvet (Namiki et al. 2012) e idba-ud (Peng et al. 2012); sin embargo, para reconstruir la secuencia del gen arnr 16s completo, estas herramientas producen una gran cantidad de quimeras y/o no son capaces de reconstruir eficientemente la secuencia completa del gen (Miller et al. 2011, Yuan et al. 2015). Por ello, dos programas especializados en la reconstrucción de genes arnr ssu han sido desarrollados: emirge y reago. Ambos programas ofertan una solución al reto que representa la construcción de secuencias completas del gen arnr 16s a partir de secuencias cortas generadas con las tecnologías de ngs. emirge (Expectation Maximization Iterative Reconstruction of Genes from the Environment) es un programa informático de código (emirge 2017) especializado en reconstruir genes arnr ssu a partir de secuencias pareadas, como las generadas con la tecnología Illumina. emirge fue desarrollado por Miller et al. (2011) con la clara intención de reconstruir genes arnr ssu de comunidades microbianas de muestras ambientales. Para la reconstrucción, emirge utiliza una modificación del algoritmo de máxima disimilaridad (Dempster et al. 1977) que le permite construir secuencias consenso más probables de genes arnr ssu utilizando como guía secuencias de referencia, las cuales son obtenidas, generalmente, de la base de datos silva; sin embargo, en teoría puede trabajar con cualquier otra base de datos, incluso con secuencias no ribosomales. Al inicio, emirge realiza un tamizaje de la base de datos que se utilizará como referencia para asegurar que las secuencias usadas sean completas o casi completas, por lo que elimina las que tienen longitudes menores a 1 200 pb y mayores a 2 mil pb. En el paso siguiente, emirge agrupa las secuencias que comparten, por lo general, 97 % de similitud, con esto ayuda a disminuir la cantidad de secuencias sobre las que se realizará la búsqueda de aquellas a ensamblar. Una vez que la base de datos ha sido depurada, este programa construye consenso realizando mapeos repetitivos emirge 55 de las secuencias a ensamblar en las secuencias de referencia, que probabilísticamente son similares. Para minimizar los errores en la construcción de los consensos, emirge utiliza los valores de calidad de las secuencias empleadas en el ensamble, lo que le permite identificar y corregir con precisión posibles errores en las secuencias consenso que se generan durante los ciclos de mapeo. Usualmente son necesarios al menos 30 ciclos de mapeo para muestras de comunidades simples y entre 80 a 120 ciclos de comunidades complejas, para construir las secuencias consenso más probables de genes arnr ssu. Adicionalmente, emirge calcula la abundancia relativa de las secuencias consenso construidas (Miller 2013). emirge ha sido utilizado para recuperar secuencias del gen arnr 16s a partir de datos de metagenomas de comunidades microbianas de muestras ambientales (Emerson et al. 2013, Hamilton et al. 2014, Emerson et al. 2015), amplicones de fragmentos de genes arnr 16s completos (Miller et al. 2013, Ong et al. 2013) y transcriptomas (Epelde et al. 2015, Fiore et al. 2015, Jones et al. 2015) y, en menor medida, ha sido empleado en la reconstrucción de genes arnr 18s (Stamps et al. 2015). Recientemente, en un estudio realizado con fragmentos de 75 pb provenientes de la amplificación de la región V3-V6 (ca. 700 pb) del gen arnr 16s de comunidades microbianas de heces humanas y exudados faríngeos, se encontró una precisión mayor a 90 % en la asignación de identidad a nivel género y especie en las secuencias reconstruidas con emirge. Además, en un análisis in silico de tres comunidades microbianas simuladas de heces y saliva humana, emirge logró reconstruir de forma precisa entre 91 y 98 % de las secuencias iniciales (Ong et al. 2013). Sin embargo, a pesar de su excelente diseño, emirge solamente puede realizar la reconstrucción de secuencias de genes arnr ssu si una secuencia de referencia ha sido depositada en las bases de datos, lo que es una limitante cuando se desea conocer la diversidad microbiana de ambientes poco estudiados. Pese a ello, en la actualidad emirge es 56 considerada una herramienta poderosa que permite aumentar la certidumbre al realizar la asignación taxonómica de los organismos presentes en las comunidades microbianas de las muestras ambientales estudiadas. reago Al igual que emirge, reago (REconstruct 16s ribosomal rna Genes from metagenOmic data) es un programa informático de código abierto (reago 2017) especializado en reconstruir genes ribosomales a partir de secuencias pareadas de metagenomas y generadas con la tecnología de Illumina. reago fue desarrollado por Yuan et al. (2015) y, a diferencia de emirge, está optimizado para reconstruir solo secuencias del gen arnr 16s. reago presenta tres ventajas con respecto a otras herramientas de ensamble: 1) detecta secuencias de genes ribosomales dentro del universo de secuencias generadas en el análisis de metagenomas, lo cual reduce la cantidad de ellas que serán usadas en el proceso de ensamble, 2) la información de las secuencias pareadas es utilizada cuidadosamente para guiar el ensamble, posibilitando teóricamente distinguir entre secuencias de especies diferentes y 3) es posible definir la orientación y posición de los consensos, y con ello aumentar la precisión del ensamble con base en la búsqueda de la homología de las secuencias del gen arnr 16s. Para evaluar su rendimiento, reago fue comparado con emirge y dos ensambladores metagenómicos populares: idba-ud y Meta Velvet. Para ello se utilizaron los datos correspondientes a una comunidad sintética que incluye 16 especies de arqueobacterias y 48 especies de bacterias pertenecientes a 50 géneros. Las secuencias fueron obtenidas en un secuenciador HiSeq2000 (Illumina), apareadas y de 101 pb (Shakya et al. 2013). Posterior a la reconstrucción solo las secuencias con una longitud mayor a 1 350 pb y al menos 98 % de similitud con el gen verdadero fueron analizadas. Al final reago mostró el TAXONOMÍA DE PROCARIONTES mejor rendimiento: fue capaz de recuperar 58 de los 64 genes y 48 de los 50 géneros (Yuan et al. 2015). Secuenciación de tercera generación La búsqueda por mejorar las tecnologías de secuenciación de adn/arn se ha enfocado principalmente en el desarrollo de secuenciadores que posibiliten la generación de secuencias de mayor tamaño que las obtenidas actualmente con las tecnologías de ngs, con la finalidad de minimizar el uso de herramientas de ensamble y así evitar los errores inherentes a este proceso. La posibilidad de conseguir secuencias tan largas como el gen arnr 16s con estas tecnologías puede ayudar a mejorar nuestro entendimiento acerca de la diversidad microbiana. Se prevé que esto ofrezca información con mayor fidelidad, al eliminar la posibilidad de obtener quimeras en el proceso de ensamble de secuencias. En esta competencia han despuntado dos nuevas tecnologías de tercera generación (Pacific Bioscience y Oxford Nanopore) que parecen tomar la delantera en este tipo de necesidades. Pacific Bioscience La secuenciación smrt ha sido desarrollada inicialmente por Helicos, y retomada y mejorada por Pacific Biosciences (PacBio). Esta tecnología no requiere de amplificación previa del templado de adn/arn, ya que el proceso de secuenciación se lleva a cabo en un chip que contiene decenas de miles de “nanocontenedores”, una tecnología conocida como zmw (Zero-Mode Waveguide), cuyo tamaño es menor a la longitud de onda de la luz, dentro de los cuales se encuentra fijada una adn polimerasa, a la que se une la cadena de nucleótidos a secuenciar junto con los cuatro distintos nucleótidos (A,T, C y G), cada uno de ellos unido a un fluoróforo particular (Hodkinson y Grice 2015). De esta manera, la tecnología ofrece lecturas con una extensión promedio de 4 600 pb (la mayor registrada) y 47 mil lecturas por corrida. A pesar de lo anterior, esta tecnología no ha sido utilizada de manera extensiva tal como las de la ngs, debido a la alta tasa de error registrada en sus inicios. No obstante, esto se ha resuelto mediante la implementación de aplicaciones, como la secuenciación circular consenso (circular consensus sequencing), la cual consiste en la secuenciación de la misma molécula en repetidas ocasiones, lo que reduce la tasa de error de manera significativa (Larsen et al. 2014). A pesar de los avances de esta tecnología y la superioridad en comparación con el resto en términos de longitud de lecturas, es posible que la secuenciación smrt tenga algunas limitantes para el estudio de la diversidad microbiana en muestras ambientales. Por ejemplo, el sistema smrt está diseñado para obtener secuencias de casi 5 mil pb, mientras que el arnr 16s tiene una extensión aproximada de 1 500 pb, lo que representa una subutilización de las capacidades de la tecnología. Una estrategia que permita aprovechar la alta capacidad de secuenciación es incluir la secuencia del gen arnr 23s (~2 900 pb) con mayor información genómica que ayude a incrementar la precisión en la clasificación taxonómica. Una desventaja es el costo, pero hay la confianza de que en breve será totalmente viable en términos técnicos y económicos; más aún, se espera que la obtención de secuencias completas enriquezca las bases de datos como silva, rdp y otras. Desarrollos recientes en torno a esta tecnología y otras (Mosher et al. 2014) para el estudio de comunidades microbianas, han dejado de manifiesto que las secuencias completas de arnr 16s, obtenidas por esta plataforma a partir de cualquier tipo de muestra ambiental, tienen una concordancia superior a 99 % con respecto a las referencias de las distintas bases de datos, con una resolución que permite identificar organismos cuya representatividad no rebasa 0.05 % (Roberts 2014, Bowman et al. 2015). Secuenciación por nanoporos Otra de las tecnologías emergentes es la secuenciación por nanoporos desarrollada por Oxford 57 Nanopore Technologies. En términos generales se basa en la medición de los cambios de corriente que ocurren a través del nanoporo por el cual atraviesa la cadena de nucleótidos. Se espera que esta tecnología disminuya drásticamente el costo de secuenciación, haciéndola accesible para laboratorios pequeños o individuales. Sin embargo, no ha alcanzado suficiente madurez, ya que se reportan tasas de error aun mayores que con smrt, principalmente por inserciones en la secuencia causadas por alteraciones termodinámicas dentro del nanoporo. Además, aunque la tecnología está diseñada para secuenciar fragmentos de 7 kb, en la práctica el promedio puede llegar a ser de entre 2 y 5 kb (Mikheyev y Tin 2014), lo cual sigue siendo útil para la secuenciación completa del arnr 16s y del arnr 23s; sin embargo, la similitud con los genes o secuencias de referencia generalmente es muy baja debido a los errores introducidos. El único estudio de diversidad bacteriana llevado a cabo hasta el momento utilizando secuenciación por nanoporos demostró que, si bien la tecnología todavía no es apta para la secuenciación de genomas completos, puede ser útil para el estudio de la diversidad microbiana, aunque la tasa de error sigue siendo alta (30 % en algunos de los casos) (Kilianski et al. 2015). Se espera que una vez que alcancen su madurez estas tecnologías desplacen a las plataformas actuales, debido a la ventaja que representa la secuenciación de fragmentos largos; sin embargo, las plataformas basadas en la secuenciación masiva de fragmentos pequeños están también haciendo intentos por incrementar la longitud de sus lecturas, como la generación de librerías de lecturas sintéticas largas (synthetic long-read dna libraries); no obstante, esto tiene un alto costo y se utiliza por lo general para detectar mutaciones y poder resolver problemas causados por transposones repetitivos en una determinada secuencia (McCoy et al. 2014). Perspectivas El gen arnr 16s ha demostrado ser un marcador filogenético excelente para la identificación 58 y clasificación taxonómica microbiana; sin embargo, para obtener mayor certidumbre se requiere que las secuencias sean completas o lo más cercano posible al tamaño del gen completo. Debido a su alto rendimiento, el uso de las tecnologías de ngs está ampliamente difundido a pesar de que el tamaño de las secuencias producidas es corto y represente un inconveniente cuando se busca tener la secuencia completa del gen. Para resolver este obstáculo, una alternativa se ha dirigido a la búsqueda y diseño de herramientas informáticas especializadas en reconstruir genes arnr ssu a partir de datos generados con las tecnologías de ngs. Otra estrategia se basa en realizar progresos tecnológicos que permitan la obtención de secuencias de mayor tamaño. Los avances en nanotecnología y microscopía de fluorescencia han posibilitado estas mejoras al presentar la nueva tecnología de tercera generación llamada smrt, la cual permite generar secuencias de tamaño más largas que incluso la longitud del gen arnr 16s. Por consiguiente, se prevé que las tecnologías de tercera generación permitan resolver los problemas existentes con el uso del arnr 16s como marcador para estudios taxonómicos y de evolución. Sin embargo, aún presenta desventajas, como el alto costo por base secuenciada y una mayor tasa de error que las ngs, las que seguramente se irán resolviendo en los próximos años. En cuanto se logre será posible obtener secuencias completas de genes arnr ssu con mayor precisión, ya que se evitarán los errores inherentes a la reconstrucción, lo que seguramente ayudará a alimentar las bases de datos de genes arnr ssu con nuevas secuencias completas. Gracias a los rápidos avances tecnológicos pronto lograremos aumentar el conocimiento de la diversidad y funcionamiento de las comunidades microbianas. Por último, una estrategia interesante, llamada “secuenciación híbrida” toma las ventajas de las tecnologías de secuenciación de segunda y tercera generación para encontrar un equilibrio en costo y calidad de las secuencias (Rhoads y Au 2015). TAXONOMÍA DE PROCARIONTES Literatura citada Barb, J. J., A.J. Oler, H.-S. Kim, N. Chalmers, et al. 2016. Development of an analysis pipeline characterizing multiple hypervariable regions of 16S rRNA using mock samples. PLoS ONE 11:e0148047. Bowman, B., M. Kim, Y-J Cho, J. Korlach. 2015. Long-Read, Single Molecule, Real-Time (SMRT) DNA sequencing for metagenomic applications. Metagenomics for Microbiology 2015:25-38. Cai, L, L. Ye, A. H. Y. Tong, S. Lok, et al. 2013. Biased diversity metrics revealed by bacterial 16S pyrotags derived from different primer ets. PLoS ONE 8(1):e53649. Caporaso, J. G., C. L. Lauber, W. A. Walters, D. Berg-Lyons, et al. 2012. Ultra-high-throughput microbial community analysis on the Illumina HiSeq and MiSeq platforms. The ISME Journal 6(8):1621-1624. Claesson, M. J., Q. Wang, O. O’Sullivan, R. Greene-Diniz, et al. 2010. Comparison of two next-generation sequencing technologies for resolving highly complex microbiota composition using tandem variable 16S rRNA gene regions. Nucleic Acids Research 38(22):e200. Clarridge. J. E. 2004. Impact of 16S rRNA gene sequence analysis for identification of bacteria on clinical microbiology and infectious diseases. Clinical Microbiology Reviews 17(4):840-862. Connon, S.A. y S. J. Giovannoni. 2002. High-throughput methods for culturing microorganisms in very-low-nutrient media yield diverse new marine isolates. Applied and Environmental Microbiology 68(8):3878-3885. Dempster, A. P., N. M. Laird, D. B. Rubin. 1977. Maximum likelihood from incomplete data via the EM algorithm. Journal of the Royal Statistical Society: Series B (Methodological) 39(1):1-38. DeSantis, T. Z. Jr., P. Hugenholtz, K. Keller, E. L. Brodie, et al. 2006. NAST: A multiple sequence alignment server for comparative analysis of 16S rRNA genes. Nucleic Acids Research 34(2):W394-W399. Di Bella, J. M., Y. Bao, G. B. Gloor, J. P. Burton, et al. 2013. High throughput sequencing methods and analysis for microbiome research. Journal of Microbiological Methods 95(3):401-414. Dubilier, N., C. Bergin, C. Lott. 2008. Symbiotic diversity in marine animals: the art of harnessing chemosynthesis. Nature Reviews Microbiology 6(10):725-740. Emerson, J. B., K. Andrade, B. C. Thomas, A. Norman, et al. 2013. Virus-host and CRISPR dynamics in archaea-dominated hypersaline lake tyrrell, Victoria, Australia. Archaea 2013:370871. Emerson, J. B., B. C. Thomas, W. Alvarez, J. F. Banfield. 2015. Metagenomic analysis of a high carbon dioxide subsurface microbial community populated by chemolithoautotrophs and bacteria and archaea from candidate phyla. Environmental Microbiology (inédito). emirge. Expectation Maximization Iterative Reconstruction of Genes from the Environment. En: <https://github. com/csmiller/emirge> Epelde, L., A. Lanzén, F. Blanco, T. Urich, et al. 2015. Adaptation of soil microbial community structure and function to chronic metal contamination at an abandoned Pb-Zn mine. FEMS Microbiology Ecology 91:1-11. Fiore, C. L., M. Labrie, J. K. Jarett, M. P. Lesser. 2015. Transcriptional activity of the giant barrel sponge, Xestospongia muta Holobiont: Molecular evidence for metabolic interchange. Frontiers in Microbiology 6:364. Gilbert, J. A., J. K. Jansson, R. Knight. 2014. The earth microbiome project: Successes and aspirations. BMC Biology 12:69. Glöckner, F. O., J. M. Gasol, N. McDonough, J.-B. Calewaert. 2012. Marine microbial diversity and its role in ecosystem functioning and environmental change. En: Marine Board Position Paper 17. J.-B. Calewaert y N. McDonough (eds). Marine Board-ESF, Ostend, Belgium, pp. 80. Gourion, B., F. Berrabah, P. Ratet, G. Stacey. 2015. Rhizobium–legume symbioses: The crucial role of plant immunity. Trends in Plant Science 20(3):186-194. Hamilton, T. L., D. S. Jones, I. Schaperdoth, J. L. Macalady. 2014. Metagenomic insights into S(0) precipitation in a terrestrial subsurface lithoautotrophic ecosystem. Frontiers in Microbiology 5:756. Head, I. M., J. R. Saunders, R. W. Pickup. 1998. Microbial evolution, diversity, and ecology: A decade of ribosomal RNA analysis of uncultivated microorganisms. Microbial Ecology 35(1):1-21. Hodkinson, B. P. y E. A. Grice. 2015. Next-generation s quencing: A review of technologies and tools for 59 wound microbiome research. Advances in Wound Care 4(1):50-58. Hong, S., J. Bunge, C. Leslin, S. Jeon, et al. 2009. Polymerase chain reaction primers miss half of rRNA microbial diversity. The ISME Journal 3(12):1365-1373. Huse, S. M., L. Dethlefsen, J. A. Huber, D. M. Welch, et al. 2008. Exploring microbial diversity and taxonomy using SSU rRNA hypervariable tag sequencing. PLoS Genetics 4(11):e1000255. Jones, D. S., B. E. Flood, J. V. Bailey. 2015. Metatranscriptomic analysis of diminutive thiomargarita-like bacteria (“Candidatus Thiopilula” spp.) from abyssal cold seeps of the Barbados accretionary prism. Applied and Environmental Microbiology 81(9):3142-3156. Kamalakaran, S., V. Varadan, A. Janevski, N. Banerjee, et al. 2013. Translating next generation sequencing to practice: Opportunities and necessary steps. Molecular Oncology 7(4):743-755. Kilianski, A., J. L. Haas, E. J. Corriveau, A. T. Liem, et al. 2015. Bacterial and viral identification and differentiation by amplicon sequencing on the MinION nanopore sequencer. GigaScience 4:12. Kim, M., M. Morrison, Z. Yu. 2011. Evaluation of different partial 16S rRNA gene sequence regions for phylogenetic analysis of microbiomes. Journal of Microbiological Methods 84(1):81-87. Klindworth, A., E. Pruesse, T. Schweer, J. Peplies, et al. 2013. Evaluation of general 16S ribosomal RNA gene PCR primers for classical and next-generation sequencing-based diversity studies. Nucleic Acids Research 41(1):e1. Koboldt, D. C., K. M. Steinberg, D. E. Larson, R. K. Wilson RK, et al. 2013. The next-generation sequencing revolution and its impact on genomics. Cell 155(1):27-38. Krishnan, M., C. Bharathiraja, J. Pandiarajan, V. A. Prasanna, et al. 2014. Insect gut microbiome–An unexploited reserve for biotechnological application. Asian Pacific Journal of Tropical Biomedicine 4 (Suppl 1):S16-S21. Kunin, V, A. Engelbrektson, H. Ochman, P. Hugenholtz. 2010. Wrinkles in the rare biosphere: Pyrosequencing errors can lead to artificial inflation of diversity estimates. Environmental Microbiology 12(1):118-123. Larsen, P. A., A. M. Heilman, A. D. Yoder. 2014. The utility of PacBio circular consensus sequencing for characterizing 60 complex gene families in non-model organisms. BMC Genomics 15:720. Ley, R. E., M. Hamady, C. Lozupone, P. J. Turnbaugh, et al. 2008. Evolution of mammals and their gut microbes. Science 320(5883):1647-1651. Maidak, B. L., N. Larsen, M. J. McCaughey, R. Overbeek, et al. 1994. The ribosomal database project. Nucleic Acids Research 22(17):3485-3487. Mardis, E. R. 2008. Next-generation DNA sequencing methods. Annual Review of Genomics and Human Genetics 9:387-402. McCoy, R. C., R. W. Taylor, T. A. Blauwkamp, J. L. Kelley, et al. 2014. Illumina TruSeq synthetic longreads empower de novo assembly and resolve complex, highly-repetitive transposable elements. PLoS ONE 9(9):e106689. Mikheyev, A. S. y M. M. Y. Tin. 2014. A first look at the Oxford Nanopore MinION sequencer. Molecular Ecology Resources 14(6):1097-1102. Miller, C. S. 2013. Assembling full-length rRNA genes from short-read metagenomic sequence datasets using EMIRGE. En: Methods in Enzymology. E. DeLong (ed.). Academic Press, pp. 333-352 Miller, C. S., B. J. Baker, B. C. Thomas, S. W. Singer, et al. 2011. EMIRGE: Reconstruction of full-length ribosomal genes from microbial community short read sequencing data. Genome Biology 12(5):R44. Miller, C. S., K. M. Handley, K. C. Wrighton, K. R. Frischkorn, et al. 2013. Short-Read assembly of full-length 16S amplicons reveals bacterial diversity in subsurface sediments. PLoS ONE 8(2):e56018. Mizrahi-Man. O., E. R. Davenport, Y. Gilad. 2013. Taxonomic classification of bacterial 16S rRNA genes using short sequencing reads: Evaluation of effective study designs. PLoS ONE 8(1):e53608. Mosher, J.J., B. Bowman, E. L., O. Shevchenko, J. Kan, et al. 2014. Improved performance of the PacBio SMRT technology for 16S rDNA sequencing. Journal of Microbiological Methods 104: 59-60. Mullis, K. B. y F. A. Faloona. 1987. Specific synthesis of DNA in vitro via a polymerase-catalyzed chain reaction. Methods in Enzymology 155:335-350. Namiki, T., T. Hachiya, H. Tanaka, Y. Sakakibara. 2012. MetaVelvet: An extension of Velvet assembler to de novo TAXONOMÍA DE PROCARIONTES metagenome assembly from short sequence reads. Nucleic Acids Research 40(20):e155. Ong, S. H., V. U. Kukkillaya, A. Wilm, C. Lay, et al. 2013. Species identification and profiling of complex microbial communities using shotgun Illumina sequencing of 16S rRNA amplicon sequences. PLoS ONE 8(4):e60811. Pace, N., D. Stahl, D. Lane, G. Olsen. 1986. The analysis of natural microbial populations by ribosomal RNA sequences. Advances in Microbial Ecology 9:1-55. Padmanabhan, R., A. K. Mishra, D. Raoult, P.-E. Fournier. 2013. Genomics and metagenomics in medical microbiology. Journal of Microbiological Methods 95(3):415-424. Peng, Y., H. C. Leung, S. M. Yiu, F. Y. Chin. 2012. IDBA-UD: A de novo assembler for single-cell and metagenomic sequencing data with highly uneven depth. Bioinformatics 28(11):1420-1428. Pruesse, E., J. Peplies, F. O. Glöckner. 2012. SINA: Accurate high-throughput multiple sequence alignment of ribosomal RNA genes. Bioinformatics 28(14):1823-1829. rdp. Ribosomal Database Project. En: <https://rdp.cme.msu. edu/hierarchy/hb_intro.jsp> reago. REconstruct 16s ribosomal rna Genes from metagenOmic data. En: <https://github.com/chengyuan/reago> Rhoads, A. y K. F. Au. 2015. PacBio sequencing and its applications. Genomics Proteomics Bioinformatics 13: 278–289 Roberts, R. J., M. O. Carneiro, M. C. Schatz. 2013. The advantages of SMRT sequencing. Genome Biology 14:405 Schloss, P. D., S. L. Westcott, M. L. Jenior, S. K. Highlander. 2015. Sequencing 16S rRNA gene fragments using the PacBio SMRT DNA sequencing system. PeerJ PrePrints 3:e778v1. Shakya, M., C. Quince, J. H. Campbell, Z. K. Yang, et al. 2013. Comparative metagenomic and rRNA microbial diversity characterization using archaeal and bacterial synthetic communities. Environmental Microbiology 15(6):1882-1899. silva Database Project. En: <http://www.arb-silva.de/documentation/release-123/> Stamps, B.W., L. Du, C. A. Mitchell, R. H. Cichecwicz, et al. 2015. Draft genomes of two Sordariomycete fungi that troduce novel secondary metabolites. Genome Announcements 3(2):e00291-15. Sun, D. L., X. Jiang, Q. L. Wu, N. Y. Zhou. 2013. Intragenomic heterogeneity of 16S rRNA genes causes overestimation of prokaryotic diversity. Applied and Environmental Microbiology 79(19):5962-5969. The Human Microbiome Project Consortium. 2012. Structure, function and diversity of the healthy human microbiome. Nature 486(7402):207-214. Thomas, T., J. Gilbert, F. Meyer. 2012. Metagenomics-a guide from sampling to data analysis. Microbial Informatics and Experimentation 2(3):1-12. Tringe, S. G. y P. Hugenholtz. 2008. A renaissance for the pioneering 16S rRNA gene. Current Opinion in Microbiology 11(5):442-446. Turnbaugh, P. J., R. E. Ley, M. Hamady, C. Fraser-Liggett, et al. 2007. The human microbiome project: Exploring the microbial part of ourselves in a changing world. Nature 449(7164):804-810. Van de Peer, Y., J. Jansen, P. De Rijk, R. De Wachter. 1997. Database on the structure of small ribosomal subunit RNA. Nucleic Acids Research 25(1):111-116. Wang, Q., G. M. Garrity, J. M. Tiedje, J. R. Cole. 2007. Naive Bayesian classifier for rapid assignment of rRNA sequences into the new bacterial taxonomy. Applied and Environmental Microbiology 73(16):5261-5267. Wang, Y. P.-Y. Qian. 2009. Conservative fragments in bacterial 16s rRNA genes and primer design for 16s ribosomal DNA amplicons in metagenomic studies. PLoS ONE 4(10):e7401. Wei, S., M. Morrison, Z. Yu. 2013. Bacterial census of poultry intestinal microbiome. Poultry Science 92(3):671-683. Woese, C. R. y G. E. Fox. 1977. Phylogenetic structure of the prokaryotic domain: The primary kingdoms. Proceedings of the National Academy of Sciences 74(11):50885090. Wood, D.E. y S. L. Salzberg. 2014. Kraken: Ultrafast metagenomic sequence classification using exact alignments. Genome Biology 15(3):R46. Yarza, P., P. Yilmaz, E. Pruesse, F. O. Glockner, et al. 2014. Uniting the classification of cultured and uncultured bacteria and archaea using 16S rRNA gene sequences. Nature Reviews Microbiology 12(9):635-645. 61 Yuan, C., J. Lei, J. Cole, Y. Sun. 2015. Reconstructing 16S rRNA genes in metagenomic data. Bioinformatics 31(12):i35–i43. Zerbino, D. R. y E. Birney. 2008. Velvet: Algorithms for de novo short read assembly using de Bruijn graphs. Genome Research 18(5):821-829. 62 View publication stats Zhou, J., Z. He, Y. Yang, Y. Deng, et al. 2015. High-throughput metagenomic technologies for complex microbial community analysis: Open and closed formats. mBio 6(1):e02288-14.v