Análisis estadístico de microarrays de ADN Víctor Moreno Bioestadística. Facultat Medicina. UAB Epidemiologia i Registre del Càncer. ICO Advertencia Varios materiales de esta presentación (imágenes, esquemas, textos) están copiados y a veces modificados de otros obtenidos en Internet sin permiso de sus autores. Me es imposible dar crédito adecuado a los autores originales, a quienes agradezco que pongan sus materiales a disposición pública Contenido • Qué es un microarray y para qué sirve. • Análisis estadístico: – – – – – – Análisis de imágenes Control de calidad Diseño de experimentos Análisis de expresión diferencial Reducción de la dimensionalidad Búsqueda de patrones Fundamentos El material genético genoma DNA expresión mRNA proteina mRNA DNA to RNA RNA to DNA DNA to cDNA transcriptase reverse transcriptase DNA polimerase DNA → RNA → DNA → cDNA T A T A A U A T C G C G G C G C Hibridación TCGAC AGCTG Usos de los microarrays • Análisis masivo del nivel de expresión de miles de genes: – – – – Clasificación de tumores (lympho-chip). Respuesta a fármacos. Asignación de función a genes (ESTs). Inferencia de redes de regulación génica. • Otros tipos de microarrays: – genotipado (SNPs, mutaciones, …) – número de copias del ADN (CGH) –… Tipos de microarrays de expresión • Filtros SAGE: serial analysis of gene expression • De oligonucleótidos, cortos y largos • De 2 colores – Permiten medir la abundancia relativa de tránscritos de RNA – Basados en la hibridación competitiva de 2 sondas marcadas con diferente color con un cDNA diana • De 4 colores: APEX SNP detection Método El microarray de ADN Clones de cDNA (dianas) Amplificación del producto por PCR Purificación Impresión 0.1nl/spot microarray Micrografia de un spot hibridado en un array de S. cerevisiae mRNA DNA (Sonda: Probe) cDNA microarray (Dianas: Targets) Lectura excitacion laser 2 scanning laser 1 emision sobreimponer imágenes y normalizar analisis Gene Array 1 gene/spot Labelled Target: cDNA sample 1 A B C D E F G cDNA sample 2 A B D E F G E A B C D E F G H I Gene Array 1 gene/spot Labelled Target: cDNA sample 1 A B C D E F G cDNA sample 2 A B D E F G E A B C D E F G H I Aspectos estadísticos • • • • • • Análisis de imagen Control de calidad Diseño de experimentos Análisis de expresión diferencial Reducción de la dimensionalidad Búsqueda de patrones Datos crudos Arrays HU4.6 de Yale • 4.592 dianas repartidas en 4x4 matrices de 24x24 puntos • 2 réplicas de cada diana • 2 hibridaciones posibles por chip • 2 imágenes TIFF de 16 bits, 1 por color ~ 30Mb Análisis de la imagen • Localización de los puntos. • Segmentación: decidir qué pixels son señal y qué son background. • Cuantificación: intensidad de la señal de cada canal, el background y medidas de calidad. Segmentación Seeded Region Growing Spots pequeños Fixed Circle Spots no circulares Cuantificación • Intensidad de los spots: – Media. – Mediana. • Valores de background: – Local. – Constante (global) – Morphological opening: estimación suavizada localmente en 2D del background global Aspectos estadísticos • • • • • • Análisis de imagen Control de calidad Diseño de experimentos Análisis de expresión diferencial Reducción de la dimensionalidad Búsqueda de patrones Medidas de calidad • • • • • • • • Circularidad Área, perímetro Razón señal / background Variación en las intensidades de los pixels Identificación des spots defectuosos Correlación entre intensidades de los spots Porcentaje de spots sin señal Distribución del área de los spots Spots Array Dificultades de la técnica Dificultades de la técnica Dificultades de la técnica 8 2.5 Density 6 2.0 4 2 0 Density 1.5 1.0 0.5 0.0 2 3 4 log10(Intensity) 5 6 2 3 4 log10(Intensity) 5 6 Filtrado • Variables: – Circularidad – Perímetro – Area área > 30 Área Réplicas Normalización • Objetivo: identificar y eliminar fuentes de variación sistemática que no sean diferencias de expresión: – – – – Diferente eficiencia en el marcaje con color Diferente cantidad de RNA en cy3 y cy5 Diferentes parámetros de escáner Efectos espaciales del chip (aguja, zona …) Normalización • Es necesaria para asegurar que las diferencias en intensidades se deben a diferencias de expresión real, no a artefactos de impresión, hibridización o escaneo … • El ajuste es un paso previo a cualquier otro análisis estadístico • Se evidencia cuando se compara la misma muestra marcada con 2 colores Visualización gráfica de intensidades • Usual – R vs G – log2(R) vs log2(G) • Preferible – Gráfica MA : • M = log2(R) - log2(G) • A = (log2(R) + log2(G))/2 = log2(R/G) = (R·G)0.5 Lowess/loess: regresión robusta ponderada localmente: suavizado Normalización • Centrado log2R/G← log2R/G - L – Constante: L = media o mediana de log2(R/G) – Adaptativa: L = función de intensidad, sector … • Regresión ponderada localmente (lowess o loess) • Escalado log2R/G←(log2R/G - L)/S • Métodos 2D Lowess to rank invariant gene selection Aspectos estadísticos • • • • • • Análisis de imagen Control de calidad Diseño de experimentos Análisis de expresión diferencial Reducción de la dimensionalidad Búsqueda de patrones Microarray protocol RNA extraction translation to DNA DNA labeling hybridization scanning image analysis statistical analysis Mayor sources of variability Teoría ≠ realidad Dye effect Cy5 SA Cy3 tissue RNA Cy3 SB Cy5 sample dye • Sample and array crossed • Array aliased with dye:sample interaction array y = µ + αg + βd + γ s + κa +τ g:d + φg:s + λg:a + e σ g2 : gene σ d2 : dye σ s2 : sample σ a2 : array ≡ dye : sample interaction σ g2:d : gene : dye interaction σ g2:s : gene : sample interaction σ g2:a : gene : array interaction ≡ gene : dye : sample σ e2 : residual (replicates ) Normalised in 20 quintiles. Removes dye*sample effect Variance Component estimate % % over gene interactions gene dye sample array = dye:sample 2,686 0,000 0,000 0,000 86,1 0,0 0,0 0,0 gene:dye gene:sample gene:array (dye:sample) 0,000 0,252 0,162 0,0 8,1 5,2 0,0 58,1 37,3 residual 0,020 0,6 4,6 100 13,9 V1 Loop G R A3 R A1 G V3 Reference R A2 R G V2 V0 G G G V1 V2 V3 Comparison to a common control B1 B2 B3 C T1 C T2 C T3 Var(TA-TB) =4σ2 Error df = 0 Balanced incomplete blocks B1 B2 B3 T1 T2 T2 T3 T3 T1 Var(TA-TB) =4/3σ2 Error df = 1 Aspectos estadísticos • • • • • • Análisis de imagen Control de calidad Diseño de experimentos Análisis de expresión diferencial Reducción de la dimensionalidad Búsqueda de patrones Expresión diferencial • Identificar los genes que cambian su expresión en función de variables de interés – Resultado clínico: supervivencia, respuesta al tratamiento, tipo de tumor, tratamientos, grupo, dosis, ... • Estimación: cuantificar el efecto • Test: evaluar la significación estadística Estimación • Cruda R/G o log2R/G • Suavizada: métodos bayesianos empíricos – Se intenta reducir la variabilidad de los valores mediante la incorporación de información externa: distribución de probabilidad “a priori” – Al tratarse de razones, las intensidades pequeñas suelen tener mayor variabilidad que las grandes 2 4 6 8 A 10 12 14 -4 -2 Normalized M 0 2 Método de Newton • Supone que las intensidades de cada sonda siguen una distribución Gamma con parámetros (aR , θR) y (aG , θG) • Modelo jerárquico Gamma-Gamma: – Los parámetros de escala ( θR y θG) provienen de otra distribución Gamma con parámetros (a0 ,ν) Measurement error Actual Expression Expresión diferencial • Con este modelo Gamma-Gamma, se puede derivar la distribución “a positeriori” de la expresión diferencial ρ=R/G: • Y el estimador bayesiano empírico es: Suavizado • Los estimadores bayesianos (R+ν)/G+ν) atenúan los estimadores crudos R/G. • La atenuación es mayor en los valores menores • El orden de las intensidades puede variar Los cambios ¿Son significativos? • Métodos sin réplicas (con 1 único array) – |log2 R/G |> k • Normalmente k = 2 • Justificación: “Porque todo el mundo lo hace así” – Si se tiene información sobre la variabilidad esperada por azar, se pueden calcular un valor de k que asegure un tasas de falsos positivos dada (Sabatti, UCLA tr304, Math Biosci) Método de Sabatti • Sin réplicas • Si se supone que yi ~N(θi,σ) y que hay “pocos” θi ≠ 0, entonces • los límites k = σ[2log(n)]1/2 son adecuados para detectar los valores de interés • σ se puede obtener de un experimento en el que se comparen 2 muestras idénticas (normal-normal) Sabatti (II) • Si se desea una tasa de falsos positivos dada (α), se puede mejorar el cálculo de k de manera adaptativa para considerar que normalmente el número de valores θi ≠ 0 es desconocido • Basado en el método de Benhamini & Hochberg (JRSS-B 1995) • Depende de σ, α y n Método de Sabatti σ 2 log(n) Método de Newton (2) • El modelo bayesiano empírico GammaGamma se puede mejorar con una mixtura para modelar la suposición de que una proporción de los genes no modifican su expresión: Modelo Gamma-Gamma-Bernoulli • Se puede estimar con el algoritmo EM • Perimite calcular para cada gen la odds de haber cambiado de expresión 2 0 -4 -2 M 2 4 6 8 A 10 12 14 Test de hipótesis • Para cada gen podemos hacer un test sobre la H0 de que no hay expresión diferencial: t-test / ANOVA • Posibles errores – Tipo I o falso positivo – Tipo II o falso negativo • Problema de multiplicidad – miles de hipótesis se prueban simultáneamente – Gran aumento de la probabilidad de error tipo I Tests de hipótesis múltiples • Definir una tasa de error de tipo I adecuada • Emplear un procedimiento que – Asegure un control estricto del error de tipo I – Sea potente (pocos falsos negativos) – Tenga en cuenta la distribución conjunta de los múltiples tests de hipótesis • Reportar un p-valor ajustado para cada gen que refleje la tasa global de error de tipo I Métodos basados en réplicas Modelos jerárquicos Tseng (2001) • Serie de experimentos en las mismas condiciones • Réplicas de hibridaciones y de spots • Asume log-normalidad de las intensidades • Estima los hiperparámetros (Bayesiano empírico) • Calcula la distribución a posteriori con métodos MCMC Modelos jerárquicos • Interesante: – Captura la dependencia entre genes • Problemas: – Basado en log-normalidad - cuestionable – Ignora las comparaciones múltiples Métodos no paramétricos • Dudoit 2002, Tusher 2001 • Diseño: – nC hibridaciones control-control – nD hibridaciones control-test • Test: • Permutaciones para evaluar la significación Permutaciones • Se intercambian las etiquetas entre control y test al azar • Se calcula el test (Ti) para cada gen con el nuevo orden • Se calcula el p-valor para cada gen según la fórmula Web resources • • • • Bioconductor: www.bioconductor.org Microarrays: www.microarrays.org Berkeley: www.stat.berkeley.edu Stanford: genome-www.stanford.edu Acknowledgments • • • • • • • Miguel A. Peinado Gabriel Capellá Mónica Grau Elisenda Vendrell Gemma Tarafa Antonia Obrador Xavier Solé • Institut Català d’Oncologia (ICO) • Institut de Recerca Oncològica (IRO)
Puede agregar este documento a su colección de estudio (s)
Iniciar sesión Disponible sólo para usuarios autorizadosPuede agregar este documento a su lista guardada
Iniciar sesión Disponible sólo para usuarios autorizados(Para quejas, use otra forma )