Datos generales BIOINFORMÁTICA (curso 2008 / 2009) Licenciatura de Biotecnología (Universidad Pablo de Olavide) Asignatura Troncal Cuatrimestral de 6 créditos (3 teóricos y 3 prácticos) Profesor responsable: Dr. Antonio J. Pérez Pulido Departamento: Biología Molecular e Ingeniería Bioquímica Área académica: Genética Despacho: 20.B.109 (CABD, planta baja) Teléfono: 954 34 86 52 Las clases presenciales serán reforzadas por el uso de la plataforma Blackboard (aula virtual) de la Universidad Pablo de Olavide (http://aulavirtual.upo.es:8900/). Por este medio se publicarán los materiales, se dará acceso a foros de discusión, y se realizarán y entregarán las tareas y evaluaciones de la asignatura. Para cualquier duda o consulta tendrá preferencia de uso el foro de discusión (o las clases presenciales). Para consultas más personales se utilizará la herramienta de correo electrónico del aula virtual o se podrá solicitar una tutoría. Descripción La Bioinformática es la aplicación de la informática que permite la administración, análisis y comprensión de datos biológicos. El objetivo de esta asignatura será mostrar cómo acceder a las bases de datos de secuencias moleculares y cómo utilizar herramientas computacionales de análisis de datos biológicos. Pero también se mostrará y aprenderá a desarrollar nuevas herramientas y metodologías, y como integrarlo todo para resolver problemas biológicos concretos. Descriptores: Búsqueda de secuencias biológicas, búsquedas de similitud y motivos conservados, construcción de alineamientos y filogenias, predicción de estructura 3D, análisis de datos de expresión génica, programación en lenguaje Perl y utilización básica del sistema operativo Linux. Competencias Conocer los grandes portales web de bioinformática. Conocer los algoritmos básicos de análisis de secuencias, tales como métodos de alineamiento y búsqueda de motivos, entre otros. Ser capaz de buscar información relacionada con bioinformática. Buscar y comparar secuencias de nucleótidos y proteínas. Manejar programas de alineamientos múltiples y filogenias. Usar programas de predicción de estructura. Saber normalizar y analizar los datos de un experimento de expresión génica. Ser capaz de plantear protocolos propios para resolver problemas relacionados con el análisis de datos biológicos. Manejar el sistema operativo Linux y programar en Perl para resolver problemas básicos de Biología. Evaluación El curso de Bioinformática está dividido, por igual, en una parte teórica y otra práctica. Al final del curso habrá un examen sobre la parte teórica, mientras que la parte práctica será evaluada por medio de un trabajo en el que se aplicarán los conocimientos adquiridos durante el curso. Los 10 puntos de la evaluación se repartirán entre las siguientes tareas: I. II. III. Examen de teoría (4 puntos) Trabajo de prácticas (4 puntos) Tareas complementarias (2 puntos) Todas las tareas citadas son obligatorias y deberán aprobarse independientemente para poder aprobar todo el curso. Si en alguna de ellas se obtuviera menos de 5 puntos sobre 10, ésta quedará pendiente para septiembre. La nota numérica final se obtendrá al sumar los puntos de los 3 apartados citados y la nota cualitativa se asignará extrictamente por los baremos estándar: menor de 5: suspenso; mayor o igual a 5 y menor de 7: aprobado; mayor o igual a 7 y menor de 9: notable; mayor o igual a 9: sobresaliente; notas más altas, siempre que hayan sido mayor o igual a 9: matrícula de honor. I. Examen de teoría Al final del curso habrá un examen con preguntas tipo test, preguntas de respuesta corta y problemas del mismo tipo que los propuestos durante el curso. Este examen se llevará a cabo en un aula de ordenadores, utilizando las herramientas del aula virtual. Tendrá una duración de una hora y podrá contener preguntas sobre cualquier bloque del curso. II. Trabajo de prácticas Debido al carácter eminentemente práctico de la Bioinformática, el trabajo de prácticas de la asignatura supondrá un gran aporte para la nota final. Además se fomentará el trabajo en grupo, ya que debe ser realizado por grupos de tres alumnos/as. Este trabajo consistirá en el análisis bioinformático global de la secuencia molecular de un gen propuesto. Para ello, habrá que buscar esta secuencia, junto con el resto de representantes de su familia, y aplicarle todos los análisis bioinformáticos aprendidos durante el curso, escribiendo el ‘material y métodos’ empleado, junto con una discusión y conclusiones sobre todos los resultados obtenidos. El trabajo final deberá seguir un esquema general de trabajo científico y se entregará en formato electrónico a través del aula virtual. La fecha límite para su entrega será el mismo día del examen de teoría. III. Tareas complementarias A lo largo del curso se irán proponiendo trabajos de casos prácticos, ejercicios de prácticas (especialmente de la parte inicial de Informática) y/o trabajos escritos que se repartirán los dos puntos de esta tarea. Los enunciados de estos trabajos se publicarán en el aula virtual y serán entregados, por este mismo medio, antes de la publicación de los resultados. Una de las tareas propuestas podrá consistir en el estudio de un artículo científico, el cual se discutirá en clase, se evaluará por un pequeño exámen y se puntuará con un máximo de un punto sobre los dos de este apartado. La publicación de estas tareas y su fecha de entrega serán anunciadas con antelación en el calendario del curso. En el examen de Septiembre: Si no se aprobó en junio el examen de la tarea I, éste deberá repetirse en septiembre. Si no se aprobó en junio el trabajo de prácticas (tarea II), éste deberá presentarse en septiembre. Si no se aprobó la tarea III, se deberá realizar y aprobar un examen complementario, con problemas similares a los propuestos durante el curso. Para aprobar la asignatura en septiembre, será necesario aprobar (con un 5 sobre 10) todas las tareas. La nota de las tareas aprobadas en junio, se guardará para septiembre. Prácticas A medida que se vaya impartiendo la teoría de la asignatura, se irán realizando prácticas de un mínimo de 2 horas de duración, en las que se aplicarán los conocimientos adquiridos durante las horas teóricas. La planificación general será la siguiente, aunque en general se intentarán aplicar todos los temas de teoría del curso: 1. 2. 3. 4. 5. 6. 7. 8. 9. Sistema operativo Linux (práctica virtual) Programación en Perl Acceso a bases de datos moleculares y extracción de información Búsqueda de similitud Matrices de puntos para la búsqueda de secuencias conservadas Realización de alineamientos múltiples y filogenias Búsqueda de motivos y familias de proteínas Predicción y visualización de estructuras de proteínas Análisis de datos de expresión génica Las horas restantes de prácticas serán utilizadas para la integración de la información recopilada para la realización del trabajo práctico, y para la realización y evaluación de algunas tareas complementarias. Programa de clases teóricas Tema 1.- Introducción. Definición e historia de la bioinformática. Tipos de usuarios en bioinformática. Crecimiento de datos biológicos. Proyectos de secuenciación genómica. Ámbitos de actuación. Portales web de referencia en bioinformática. Bioinformática y biotecnología. Tema 2.- Informática básica. Arquitectura de computadores. Sistemas operativos: MS-Windows, Linux. Comandos básicos en Linux. Arquitectura cliente-servidor. Servidores de datos: discos remotos; conexiones remotas (telnet y ssh); servidores FTP; servidores HTTP; servidores de bases de datos. Servidores de bases de datos: mysql y postgres. Tema 3.- Lenguajes de programación. Tipos de lenguajes. Programación web en HTML. Programación web dinámica: PHP, javascript. Programación de shells en Linux. Lenguaje PERL (Practical Extraction and Report Language). El proyecto BioPerl. Programación CGI (Common Gateway Interface) para servidores web. Tema 4.- Bases de datos moleculares. Formatos de secuencia. Bases de datos de secuencias: EMBL, GenBank, UniProt. Crecimiento de las bases de datos moleculares. Acceso a las bases de datos: sistemas SRS, Entrez. Uso de operadores booleanos. Acceso por FTP y manejo de base de datos en Linux. Bases de datos bibliográficas (Medline). Herramientas para búsquedas bibliográficas: XplorMed. Otras bases de datos. Proyectos de secuenciación genómica (GOLD). Tema 5.- Comparación y alineamiento de secuencias. Comparación de dos secuencias (alineamiento par local o global). Sistemas de puntuación. Penalizaciones. Matrices de distancia. Grupos físico-químicos de aminoácidos. Matrices de puntos (dotplots). Alineamiento múltiple: Clustalw, T-Coffee. Tema 6.- Búsqueda de similitud. Conceptos de homología, similitud e identidad. Herramientas de búsqueda de similitud: Blast, FastA y programación dinámica (algoritmos de Needleman-Wunsch y Smith-Waterman). Parámetros de entrada de una búsqueda. Matrices de intercambio de aminoácidos: PAM, Blosum. Megablast. Blast en modo comando y uso de bases de datos de usuario. Genómica comparativa: comparación de genomas y búsqueda de regiones conservadas. Concepto moderno de sintenia. Búsqueda de ortólogos: Top-Blast y Blast cruzado. Tema 7.- Familias y motivos de secuencia. Filogenias moleculares. Enraizamiento de árboles filogenéticos: definición de grupos externos. Modelos escondidos de Markov: base de datos Pfam y herramienta HMMER. PSI-Blast (Position-Specific Iterated Blast). Redes neuronales. Modularidad proteica. Perfiles de secuencia y matrices de peso por posición. Patrones como expresiones regulares. Bases de datos de patrones aminoacídicos: Prosite. Búsqueda de motivos: InterProScan, MEME. Tema 8.- Bioinformática estructural. Niveles de estructura en proteínas. Predicción de estructura 2D y 3D. Búsqueda de modelos por homología y Threading. Predicción de otras características estructurales: hélices transmembrana, motivos coiled-coil, accesibilidad al solvente e hidrofobicidad. Bases de datos de estructuras (PDB) y de clasificación de estructuras (SCOP, CATH). Visualización de estructuras proteicas. Estructura cuaternaria: interacción de proteínas. Diseño de medicamentos. Predicción de estructuras secundarias de ARN. Tema 9.- Análisis de expresión génica. Chips de DNA, microarrays: Affymetrix y cDNA. Diseño de experimentos. Fuentes de error. Resolución de réplicas y normalización de resultados. Perfiles de expresión génica. Bases de datos de microarrays. Clasificación y clustering. Enriquecimiento biológico. Herramientas de análisis de expresión génica: PreP, engene, GEPAS. Proteómica y metabolómica. Tema 10.- Integración bioinformática. Integración para la predicción de función: anotación de secuencias. Biología de sistemas. Reglas asociativas. Integración de bases de datos y herramientas: BioMOBY, SOAP. Construcción de workflows. Herramientas de integración de servicios bioinformáticos: Taverna, MOWServ. Tutorías Miércoles de 10 a 12 de la mañana. Despacho nº17, 2ª planta, edif. 24B. Previa cita telefónica (Antonio: 954 34 86 52) o por e-mail, a través del aula virtual. Adicionalmente se habilitarán foros de discusión en el aula virtual, donde podrán consultarse también dudas. Una vez realizado el examen y se hayan publicado las notas, se convocará una cita para su corrección. Los alumnos que no estén de acuerdo con su nota, deben acudir a la sesión de corrección para cualquier rectificación. No se admitirán reclamaciones sobre las notas después del día de corrección. Bibliografía Existen tres libros básicos que tratan la mayoría del temario de la asignatura. Pero no hay un único texto que cubra todo el programa con la extensión y detalle que requieren algunos temas. Además de los libros recomendados, existen otros genéricos y específicos sobre Bioinformática que podrás encontrar en la biblioteca de la UPO: http://athenea.upo.es Bibliografía básica (manuales del curso) David W. Mount. Bioinformatics: sequence and genome analysis. New York : Cold Spring Harbor, 2004. Arthur M. Lesk. Introduction to bioinformatics. Oxford : Oxford University, 2008. Teresa K. Attwood, David J. Parry-Smith. Introducción a la bioinformática. Madrid : Prentice Hall, 2002. Bibliografía complementaria Cynthia Gibas and Per Jambeck. Developing bioinformatics computer skills. Beijing [etc.] : O'Reilly, 2001. Jean-Michel Claverie and Cedric Notredame. Bioinformatics for dummies. New York : Wiley, 2003. Michael R. Barnes and Ian C. Gray. Bioinformatics for geneticists. Chichester : John Wiley & Sons, cop. 2003. Jeff Augen. Bioinformatics in the post-genomic era: genome, transcriptome, proteome and information-based medicine. Boston [etc.] : Addison-Wesley, cop. 2005. Hooman H. Rashidi, Lukas K. Buehler. Bioinformatics basics: applications in biological science and medicine. Boca Raton, Florida : CRC Press , cop. 2000. Bibliografía para la parte computacional (Temas 2 y 3) Neil Matthew and Richard Stones. Beginning Linux programming. Indianapolis : Wiley, cop. 2004. Larry Wall, Tom Christiansen, and Jon Orwant. Programming Perl. Beijing [etc.] : O'Reilly, 2001. James D. Tisdall. Beginning Perl for bioinformatics. Cambridge [etc.] : O'Reilly, 2001. James D. Tisdall. Mastering Perl for bioinformatics. Sebastopol : O'Really, 2003. Bibliografía específica Victor A. Albert. Parsimony, phylogeny and genomics. Oxford : Oxford University Press, 2005. Jason T.L. Wang et al. Data mining in bioinformatics. London : Springer, 2005. Mohammed Zaki and Chris Bystroff. Protein structure prediction. Totowa (New Jersey) : Humana Press, 2007. Dov Stekel. Microarray bioinformatics. Cambridge ; New York : Cambridge University Press, 2003. Adicionalmente, en el aula virtual estará disponible una lista de enlaces a páginas web de interés para el curso.