DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO IV U7– Diseño y análisis de estudios genéticos U7 – DISEÑO Y ANÁLISIS DE ESTUDIOS GENÉTICOS Juan Ramón González Ruiz. Doctor en Estadística. Investigador. Centre de Recerca en Epidemiologia Ambiental (CREAL). Unitat de Bioestadistica. Departament de Salut Pública. Universitad de Barcelona (UB) 1. INTRODUCCIÓN La publicación del primer borrador del genoma humano que se llevó a cabo en el año 2001 [ver lecturas recomendadas] ha permitido realizar numerosos estudios genéticos en los que se han encontrado genes de susceptibilidad para más de 40 enfermedades complejas (Alzheimer, cáncer, diabetes, …). Tradicionalmente los diseños de los estudios genéticos se han basado en casos afectos con una mayor predisposición a desarrollar la enfermedad. Por ejemplo, individuos con una aparición temprana de la enfermedad o aquellos con varios familiares afectados. En estos casos los estudios se basan en reclutar individuos relacionados (pedigríes o trios). Actualmente, sin embargo, los estudios genéticos suelen disponer de un grupo control y son similares a los que se utilizan epidemiología tradicional como los estudios de casos y controles y los de cohortes (principalmente los primeros). Una ventaja de utilizar este tipo de diseños es que se suele disponer de una amplia información recogida en los cuestionarios, así como de bancos con muestras biológicas que permiten analizar el ADN de los individuos. No obstante, antes de llevar a cabo un estudio de asociación, debemos tener evidencias que los factores genéticos juegan algún papel en la enfermedad que estamos estudiando. Para ello, los diseños tradicionales en genética basados en estudios con familias resultan cruciales. En esta unidad se empezará describiendo los marcadores genéticos que actualmente se utilizan en los estudios de genética, así como las tecnologías existentes para obtener la información sobre estos marcadores. Después se describirán los principales diseños, no sólo para establecer asociación si no también para poder determinar la existencia de algún gen de susceptibilidad para nuestra enfermedad de interés. Más tarde se ilustrará cómo realizar el análisis estadístico, que incluirá: cómo evaluar asociación, cómo corregir por estratificación poblacional (es decir, confusión por raza o etnia) y cómo tener en cuenta las comparaciones múltiples. Estos métodos se DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO IV U7– Diseño y análisis de estudios genéticos ilustrarán mediante un software libre basado en una aplicación Web que realiza todos estos análisis de forma sencilla y rápida, utilizando además varios conjuntos de datos reales. 2. DISEÑO DE ESTUDIOS GENÉTICOS 2.1 VARIABILIDAD GENÉTICA Empezaremos describiendo los marcadores genéticos que comúnmente se utilizan en estudios genéticos. Estos marcadores permitirán medir la variabilidad genética entre individuos, así como poder establecer posibles diferencias entre individuos sanos y enfermos. De esta forma, se podrán establecer qué regiones del genoma están involucradas en el desarrollo, susceptibilidad o etiología de una enfermedad. Para establecer una similitud con otros tipos de estudios, diremos que, estas variantes genómicas juegan el mismo papel que los factores de riesgo en los estudios de epidemiología tradicional. Las variaciones genéticas heredables se llaman polimorfismos, que ocurren cuando el DNA muta en las células germinales que se transmiten a los descendientes. La mayoría de estos polimorfismos no tienen un impacto funcional (es decir, no hacen que aparezca una enfermedad o un rasgo determinado), sólo algunos polimorfismos tienen algún impacto y normalmente viene determinado por la evolución. Cuando uno de estas variantes presenta una ventaja para el individuo, el polimorfismo aumenta en frecuencia en la población. Existen tres tipos de polimorfismos a nivel genético: Single Nucleotide Polimorphism (SNP) (pronunciado “esnip”), Variable Number Tandem Repeats (VNTR) y Copy Number Variations (CNV). Los SNPs son los polimorfismos más frecuentes y son los más analizados en la actualidad. En este curso estudiaremos este tipo de variantes genéticas. Los SNPs son polimorfismos de un cambio en un nucleotido en una posición concreta del genoma que afecta a una sola base (adenina (A), timina (T), citosina (C) o guanina (G)). Por ejemplo, en el gen de la apolipoproteína E (ApoE) se han descrito varios polimorfismos frecuentes que consisten en cambios de una única base. Uno de ellos, denominado ApoE * -4, resulta en un cambio en el aminoácido C de la posición 112 DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO IV U7– Diseño y análisis de estudios genéticos por una A. Esta variante se asocia con la enfermedad de Alzheimer. El cambio de un único nucleótido, si ocurre en una zona codificante como en el ejemplo de la ApoE, puede provocar un cambio de aminoácido en la proteína resultante, y ello puede resultar en una modificación de su actividad o función. Los cambios también pueden ocurrir en zonas del promotor de un gen y modificar su expresión. Estas zonas promotoras modulan el proceso de transcripción del ADN en ARN (la transcripción es el primer paso de la decodificación de un gen a una proteína). Lo mismo puede ocurrir si el cambio se produce en un intrón, como el ejemplo de la ataxia de Friedrich. Aunque los intrones no se traducen a proteína, cambios en su estructura pueden modular la expresión del gen. Otras veces, probablemente la mayoría, los cambios son silentes y no tienen repercusiones funcionales. Mientras que sólo estudios moleculares específicos pueden poner de manifiesto si los polimorfismos son funcionales, los estudios epidemiológicos son fundamentales para valorar si hay efectos en la salud de la población. En esta unidad se tratará principalmente cómo evaluar y cuantificar este efecto. La información genética obtenida a partir de los SNPs (genotipos) se puede obtener mediante distintas técnicas de genotipado que se describirán en la siguiente sección. Los VNTR aparecen con menos frecuencia que los SNPs y consisten en repeticiones seriadas de una serie de nucleotidos con tamaño variable. Por ejemplo, ATATATAT=(AT)4, ATATATATATAT=(AT)6. Las repeticiones pueden ser mononucleotidas (AAAAA), dinucleotidas (AT) o repeticiones más largas. Estos polimorfismos también se conocen como microsatélites y comúnmente son multialélicos ya que el número de repeticiones puede variar enormemente. Los VNTRs pueden tener un impacto funcional si están presentes en regiones codificantes. Un ejemplo típico es la diabetes tipo I que se ha asociado a VNTR en el gen de la insulina. Los individuos con un número pequeño de repeticiones (menos de 50) tiene el doble de riesgo que los sujetos con más de 200 repeticiones. Los CNVs se han identificado más recientemente como una fuente adicional de variabilidad genética. La variación en el número de copias de un gen puede ser un factor de riesgo para algunas enfermedades como por ejemplo osteoporosis o psoriasis donde individuos con menos copias de los genes UGT2B17 y LCE3C, respectivamente, enfermedades. presentan una mayor probabilidad de desarrollar dichas DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO IV U7– Diseño y análisis de estudios genéticos 2.2 TECNOLOGÍAS DE GENOTIPADO Los genotipos de un SNP, es decir la combinación de sus dos correspondientes alelos (dos homocigotos AA y BB y un heterocigoto AB o BA, donde A y B puede ser cualquiera de las 4 bases A,C,G ó T ) se obtienen a partir de las intensidades que se obtienen de una imagen escaneada de un experimento de microarrays. Para cada uno de los alelos también se dispone de información de una sonda para las dos direcciones del DNA (sense y antisense), así finalmente se dispone de 4 valores de intensidad. Los genotipos se determinan utilizando algoritmos que procesan estas intensidades y que dependen del número de SNPs que se estén procesando cada vez. Al inicio de realizarse estudios genéticos los genotipos solían obtenerse mediante métodos basados en PCR (polymerase chain reaction). Estos métodos permiten genotipar un número limitado de marcadores en cada ensayo, por lo que se empezaron a diseñar otros métodos que permitieran obtener información de un número mayor de SNPs en cada experimento. Estos métodos utilizan arrays de SNPs. Las primeras tecnologías de SNP arrays eran capaces de determinar unos 1.500 SNPs en un único ensayo. Más adelante aparecieron los arrays 100K (K indica 1,000 por lo que estos arrays eran capaces de genotipar 100,000 SNPs), 300K, 500K, 1,000K y actualmente existen arrays incluso de 4,000K. Actualmente se dispone de dos plataformas distintas para obtener estos genotipos: Affymetrix e Illumina [ver links a Illumina y Affymetrix en lecturas recomendadas]. 2.3 DISEÑOS DE ESTUDIOS GENÉTICOS Encontrar genes que se asocien a enfermedades es un largo proceso y necesita responder a varias preguntas antes de establecer esta relación (Tabla 7.01). Cada pregunta normalmente requiere llevar a cabo un diseño de estudio específico y medir la información genética con diferentes niveles de precisión. Sin embargo, actualmente se puede obtener información para todo el genoma completo de cada individuo de forma relativamente sencilla y barata, por lo que estos pasos previos no suelen llevarse a cabo. En este curso nos basaremos en este tipo de estudios que pretenden evaluar una posible asociación entre los genes y ciertas enfermedades o rasgos. Sin DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO IV U7– Diseño y análisis de estudios genéticos embargo, es importante conocer en qué escenarios se pueden emplear este tipo de estudios en relación a otros estudios de genética. Ante de diseñar un estudio que pretenda establecer asociaciones entre SNPs y cierta enfermedad, se debe contestar a una pregunta obvia importante: ¿Están los genes relacionados con la enfermedad que estamos estudiando? Esta pregunta se puede contestar utilizando información de estudios de casos y controles en el caso que seamos capaces de demostrar que hay cierta agregación familiar. Un análisis que incluya una variable que indique si hay familiares diagnosticados con nuestra enfermedad de interés en los individuos analizados y que demuestre que la proporción de afectos es superior en casos que en controles, puede ser concluyente. Sin embargo, este es un mecanismo muy naive ya que puede haber factores que confundan los resultados debido a exposiciones ambientales que comparten los familiares. Otra posibilidad de obtener evidencias de la existencia de algún factor genético es considerar estudios con inmigrantes. Esto ocurriría si las tasas de enfermedad en las segundas generaciones de inmigrantes es más similar a las tasas observadas en los países de origen que en los países de residencia. No obstante, los estudios más concluyentes sobre la existencia de algún gen relacionado con la enfermedad de estudio, vendría dado por los estudios de gemelos. Estos estudios son los más potentes para estimar la heredabilidad (la proporción de casos atribuible a factores genéticos). En estos estudios se trataría de comparar la concordancia entre los gemelos monocigotos y dicigotos combinada con la información ambiental que comparten los hermanos [ver artículo de Lichtenstein et al., en lecturas recomendadas]. Cuando una enfermedad aparece de forma recurrente en algunas familias, se suelen llevar a cabo estudios de segregación en pedigríes para poder determinar el modo de herencia de la enfermedad y estimar la penetrancia. Los estudios de ligamiento, también realizados en familias, nos dan una idea de en qué región del genoma se encentran estos genes. Cuando se dispone de suficiente evidencia sobre el hecho que existen factores genéticos como causa de una enfermedad específica, la siguiente pregunta que se debe realizar es: ¿qué genes son? Es en este punto donde se ubican los estudios de asociación que vamos a tratar en esta asignatura. El hecho de que hagamos mayor énfasis en los estudios de asociación viene dado por la mejora que se ha llevado a DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO IV U7– Diseño y análisis de estudios genéticos cabo en los últimos años en la tecnología para medir marcadores genéticos. Como se ha comentado anteriormente, la secuenciación del genoma ha permitido que se pueda establecer qué regiones del genoma están asociadas a ciertas enfermedades, y en última instancia cuáles son responsables. Los estudios de asociación utilizan SNPs como marcadores genéticos y son la aproximación más potente para contestar a esta pregunta. Los diseños en estudios de asociación son los que normalmente se llevan a cabo en epidemiología tradicional ya que los investigadores aprovechan la información de estos estudios y la combinan con la información genética que obtienen a partir de material biológico que estos estudios suelen disponer. Así los estudios de asociación genética se basan en diseños de casos y controles y diseños de cohortes. Estos diseños se han descrito en una unidad anterior (unidad 5 sobre diseño y análisis de estudios de factores de riesgo), por lo que no entraremos en detalle en ellos. Los estudios de asociación comparan las frecuencias de los genotipos de una serie de SNPs entre casos y controles no relacionados de una muestra de una población dada. La posibilidad de poder incluir casos y controles no relacionados, permite utilizar tamaños de muestra grandes para aumentar el poder de detección. La estrategia que suelen llevara a cabo para encontrar genes responsables de una enfermedad normalmente se basa en seleccionar SNPs pertenecientes a genes candidatos porque se conozca que estos genes tienen una relación con el mecanismo de acción de la enfermedad. Por ejemplo, los genes típicos que se estudian en cáncer están relacionados con el control del ciclo celular, la inflamación, el metabolismo, o la reparación de DNA. Actualmente la tecnología es capaz de genotipar millones de SNPs a la vez. De esta forma, en vez de realizar estudios de asociación con genes candidatos en los que se incluye unos cientos de SNPs, también se puede llevar a cabo un análisis completo del genoma en el que se intenta determinar qué SNPs se asocian con la enfermedad, sin establecer ninguna hipótesis a priori. Estos estudios se conocen como GWAS (del inglés Genome Wide Association Studies). Un ejemplo ilustrativo de estos estudios, en los que no se establece ninguna hipótesis previa aparece en cáncer de próstata, donde se ha identificado una región en la que no hay genes que puedan establecerse como responsables de esta enfermedad. El hecho de encontrar un SNP asociado con la enfermedad no quiere decir que sea el responsable de la misma. Esto puede ocurrir por tres causas, principalmente. La DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO IV U7– Diseño y análisis de estudios genéticos primera es que realmente sea el SNP causal, la segunda a que este SNP esté en desequilibrio de ligamiento (LD), es decir, correlacionado con el verdadero SNP causal, y la tercera a que los resultados estén confundidos por lo que se conoce como estratificación poblacional (este problema se tratará en la sección de análisis). En ocasiones, para encontrar el verdadero SNP causal tendremos que volver a resecuenciar llevando a cabo un genotipado más detallado (fine-mapping) de la región de intereses. Finalmente, el SNP causal requerirá de estudios funcionales para documentar el mecanismo de acción que determina el riesgo. Para algunos genes, la variación genética no es probablemente suficiente para causar una enfermedad, a menos que actúe un factor ambiental de forma simultánea. Por ejemplo, el polimorfismo NAT2 se ha asociado con un riesgo aumentado de cáncer de vejiga en los fumadores y este riesgo no se ha observado en fumadores [ver artículo de García-Closas et al. en lecturas recomendadas]. Este es un ejemplo de interacción gen-ambiente. Ignorar el factor ambiental puede hacer que no encontremos un riesgo para ciertos genes puesto que éste se puede atenuar cuando incluimos individuos que están expuestos a un factor ambiental (promediar el efecto en fumadores y no fumadores). De la misma forma, también es probable que las interacciones gen-gen puedan existir y que sólo los individuos portadores de múltiples variantes presente un riesgo aumentado para ciertas enfermedades. Ambos tipos de interacciones pueden estudiarse en estudios de asociación donde la dificultad radica en el hecho de que, sin hipótesis a priori, el número de interacciones que podemos estudiar es muy grande, requiriendo además un tamaño de muestra muy elevado. 2.4 ESTUDIOS DE ASOCIACIÖN COMPLETOS DEL GENOMA (GWAS) La continua mejora llevada a cabo en la tecnología de genotipado y sobre todo su abaratamiento, ha hecho posible que actualmente se lleven a cabo numerosos estudios de asociación en los que se interroga el genoma completo. Los GWAS utilizan tecnologías de genotipado a gran escala (en inglés high-throughput) para analizar cientos de miles de SNPs y relacionarlos con variables clínicas, rasgos cuantitativos o enfermedades. Una de las principales ventajas de los GWAS es que no presuponen ninguna hipótesis a priori con respecto a una posible relación entre un gen y la enfermedad de estudio, permitiendo así encontrar nuevos genes de DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO IV U7– Diseño y análisis de estudios genéticos susceptibilidad para enfermedades comunes como por ejemplo Alzheimer, cáncer, esquizofrenia, diabetes, Parkinson o esclerosis múltiple entre otras [ver WTCC en lecturas recomendadas]. Por otro lado, uno de los principales problemas inherentes a los GWAS es que pueden darse un número muy elevado de falsos positivos puesto que se están llevando a cabo cientos de miles de tests estadísticos, haciéndose necesario adoptar correcciones estadísticas o llevar a cabo estudios suplementarios para replicar los resultados obtenidos. El tema de cómo tener en cuenta las comparaciones múltiples se estudiará más adelante en la sección de análisis. El diseño más empleado en los GWAS ha sido hasta ahora el de casos y controles. Como se ha comentado anteriormente, la razón principal es que ya existen estudios epidemiológicos que además disponen almacenado material biológico del que se puede extraer información genética. Estos estudios, además, son menos costosos que los estudios de cohortes, donde se requiere décadas de seguimiento para alcanzar el número de casos requerido para detectar efectos genéticos moderados, y de ahí su adopción en este tipo de estudios. La mayoría de GWAS adoptan diseños multi-estado para reducir el número de falsos positivos minimizando el coste de genotipado y manteniendo el poder estadístico [ver Hirschhorn and Daly en lecturas recomendadas]. En la práctica, los GWAS se llevan a cabo en 2 (o a veces más) pasos. En el primer paso se genotipan todos los SNPs (dependiendo de la plataforma entre 300,000 y 1,000,000 de SNPs o más) en un grupo inicial de casos y controles. Después, en el paso 2, sólo los marcadores más “prometedores” (es decir, los SNPs que muestran una significación estadística más importante) son re-genotipados en otro grupo de casos y controles. El número de SNPs e individuos incluido en ambos pasos puede variar dependiendo del coste. Uno de los principales problemas en estos diseños es establecer el punto de corte que determine qué SNPs vale la pena re-genotipar. En la sección de análisis indicaremos algunas aproximaciones que se están adoptando actualmente para tratar este problema. DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO IV U7– Diseño y análisis de estudios genéticos 3. ANÁLISIS DE ESTUDIOS GENÉTICOS Los análisis estadísticos que se llevan a cabo en los estudios de asociación en genética no son complicados, pues principalmente se basan en analizar modelos de regresión logística que son los que normalmente se usan en estudios de casos y controles. El principal problema que aparece en este tipo de estudios es el coste computacional, ya que además de evaluar la asociación entre la enfermedad y cada SNP (recordemos que pueden ser cientos de miles) también se suelen probar diferentes modelos de herencia como veremos más adelante. Afortunadamente, existen varios programas estadísticos y aplicaciones web que permiten realizar estos análisis de forma sencilla y rápida. En esta unidad ilustraremos cómo analizar los estudios de asociación mediante el programa estadístico SNPstats [ver material suplementario] que es muy útil cuando se dispone de un número moderado de SNPs (decenas). En esta unidad mostraremos cómo interpretar los resultados que se obtienen de SNPstats para cada tipo de análisis que debemos realizar en un estudio de asociación. En el caso de disponer de una cantidad mayor de SNPs (miles) es recomendable usar otros programas disponibles en R como por ejemplo SNPassoc (González et al., Bioinformatics, 2008) que también tiene una implementación en Web [ver material suplementario]. Para ilustrar cómo realizar un análisis de asociación usaremos unos datos reales que están disponibles en la Web de SNPstats (para acceder a ellos, ir a http://bioinfo.iconcologia.net/index.php?module=Snpstats, botón “Run SNPStats” y enlace “Dataset 1”). Los datos corresponden a un estudio de casos y controles para cáncer colorectal, donde se dispone de información genética y ambiental. La figura 1 ilustra cómo importar los datos a SNPstats. Como se puede observar, el formato requerido es un archivo de texto (ASCII) donde se puede incluir información tanto de los SNPs (cada alelo separado por “/”) como variables ambientales. El manual suplementario describe cómo realizar el pre-proceso de los datos donde se indica nuestra variable dependiente (caso-control o rasgo cuantitativo) así como otras posibles variables confusoras. DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO IV U7– Diseño y análisis de estudios genéticos 3.1 EQUILIBRIO DE HARDY-WEINBERG Antes de analizar la asociación entre un SNP y la enfermedad, debemos comprobar que dado un SNP y su frecuencia alélica para una población específica se cumpe el equilibrio de Hardy-Weimberg (HWE en inglés). Este principio determina qué frecuencias genotípicas deberíamos observar, asumiendo que los alelos se transmiten de forma independiente entre generaciones y siempre que no haya selección sobre ellos. Así, si tenemos un SNP con dos alelos, A y B, con una frecuencia en la población p y q = 1-p respectivamente, las probabilidades esperadas, f, para cada genotipo vienen dadas por: fAA=p2 fAB=2.p.q fBB=q2 Para comprobar que un SNP cumple el HWE se suele utilizar una prueba de bondad de ajuste de χ2. La hipótesis nula es que el SNP cumple con el HWE, por lo que necesitamos obtener p-valores mayores a 0.05. Sin embargo, la prueba de ji-cuadrado puede tener problemas cuando analizamos un SNP con valores pequeños para un genotipo, en ese caso se suele utilizar un test exacto de Fisher. Las razones para que un SNP no cumpla HWE pueden ser varias: • Tener un tamaño de muestra pequeño • Fallo en el genotipado • El SNP está mapando varias regiones genómicas • Haya habido una selección positiva de ciertos alelos (es decir, que un alelo se asocie a una mayor longevidad) En el contexto de un estudio de casos y controles, debemos tener en cuenta que HWE sólo debe ser evaluado en la población control, que es donde debería cumplirse este principio, ya que esperamos que en los casos algunas de las frecuencias genotípicas observadas sean distintas a las esperadas ya que ese polimorfismo puede DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO IV U7– Diseño y análisis de estudios genéticos ser responsable, en cierta forma, de la aparición de la enfermedad. Si no tenemos claro el porqué un SNP no cumple HWE debemos excluirlo del análisis. La figura 2 muestra los resultados de la prueba de HWE (junto con una descriptiva de las frecuencias alélicas y genotípicas) para nuestro ejemplo sobre cáncer colorectal. Se observa que para este SNP el p-valor es de 0.9 en los controles, por lo que no tendríamos evidencias para rechazar la hipótesis nula. En otras palabras, podemos aceptar que las frecuencias genotípicas observadas para este SNP son compatibles con HWE. 3.2 ANÁLISIS SIMPLE DE SNPs: ASOCIACIÓN ENTRE UN SNP Y UN RASGO El análisis simple de SNPs es el primer análisis que se lleva a cabo tras realizar un control de calidad en nuestros datos (test de HWE). Esencialmente, el análisis consiste en evaluar asociación entre los genotipos de un SNP y una variable respuesta. Este análisis es sencillo y computacionalmente fácil de realizar en estudios de asociación [ver Corden and Clayton en lecturas recomendadas]. Notemos sin embargo que, en el contexto de un GWAS, éste tipo de análisis presenta algunas dificultades tanto desde el punto de vista estadístico como bioinformático, especialmente para aquellos estudios de asociación con grandes tamaños de muestra. La gran cantidad de datos que generan estos estudios (miles de casos y controles y cientos de miles de SNPs) demanda tener ciertas habilidades computacionales como estadísticas, así como una infraestructura potente para llevar a cabo los análisis estadísticos. A continuación detallamos cómo evaluar asociación entre un SNP y un rasgo específico. Dividiremos los diferentes tipos de análisis dependiendo del tipo de variable respuesta que tengamos: binaria o cuantitativa. Rasgos binarios: El escenario con una variable respuesta categórica (binaria generalmente) suele ser el más usual y suele encontrarse en estudios de asociación poblacionales (casos y controles). En estos estudios se dispone de información de individuos afectos (casos) y no afectos (controles). La manera de evaluar asociación entre el SNP y la enfermedad se realiza mediante la tabla de contingencia 3x2 (tabla 2). Para testar la hipótesis nula de no asociación entre genotipos y la variable respuesta, podemos llevar a cabo un test de χ2 con 2 grados de libertad. Cuando DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO IV U7– Diseño y análisis de estudios genéticos tenemos unas frecuencias genotípicas pequeñas (menor de 5) en una o más de una celda, es recomendable realizar un test exacto de Fisher. El modelo que tiene en cuenta la tabla completa de los tres genotipos se conoce como codominante o de 2 grados de libertad. Básicamente el modelo asume que puede haber un riesgo distinto de los individuos heterocigotos y homocigotos variantes respecto a los homocigotos normales. Para algunas enfermedades complejas se puede asumir que el efecto para los individuos heterocigotos (AB) es la mitad que para los homocigotos variantes (BB). Este modelo se conoce como modelo additivo y se puede testar mediante un test de tendencia lineal (por ejemplo el de Mantel-Haenszel que se utiliza en epidemiología tradicional) que se conoce en genética como test de Cochran-Armitage. La hipótesis nula en este caso es que la pendiente para la recta que relaciona el riesgo y los tres genotipos es cero. Este modelo también se conoce como modelo multiplicativo ya que modela los efectos en la escala de odds. Una ventaja importante de este modelo es que no necesita que se cumpla HWE, así que puede ser una opción cuando esta hipótesis no se puede validar en nuestra población. Sin embargo, algunas veces se espera que nuestro SNP siga otros patrones de herencia como el dominante o el recesivo. En otras palabras, a veces se asume que basta con tener un alelo variante para conferir riesgo (modelo dominante) o que es necesario tener las 2 copias del alelo variante (modelo recesivo) para presentar la enfermedad. Así pues, para llevar a cabo el análisis de asociación bajo esos modelos, basta con reorganizar la tabla de contingencia 3x2 en una tabla 2x2 tal y como podemos ver en las tablas 3 y 4, respectivamente. Cabe decir que también se suele testar un modelo en el que se comparan los dos genotipos homocigotos contra el heterocigoto. Este modelo se conoce con varios nombres, entre ellos sobredominante (overdominant en inglés) o de heterocigosidad, aunque no suele usarse demasiado en la práctica dado que desde un punto de vista biológico resulta difícil explicar este tipo de efectos. El análisis de las tablas 3 y 4 puede realizarse de la misma forma con un test de χ2 (con 1 grado de libertad) o con un test exacto de Fisher, dependiendo del número de individuos en cada celda. Puesto que normalmente los investigadores están interesados en analizar enfermedades que no sólo están afectadas por factores genéticos si no que también existen factores ambientales conocidos, muchas veces interesa realizar los análisis de asociación entre el SNP y la enfermedad, ajustados por esos factores ambientales, DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO IV U7– Diseño y análisis de estudios genéticos bien para tener más posibilidad de encontrar una asociación positiva entre el factor genético y la enfermedad o bien para poder evitar algún tipo de confusión debido a estos factores. En este caso, los modelos de regresión logística ofrecen una posibilidad más flexible para evaluar asociación entre un SNP y el rasgo binario. Para muestras de tamaño grandes, le test de razón de verosimilitud para el modelo logístico contra la hipótesis nula βAA = βAB = βBB es equivalente al test de χ2 con 2 grados de libertad (modelo codominante). La ventaja es que el modelo de regresión logística permite ajustar por variables ambientales, así como evaluar interacciones gen-gen y gen-ambiente. Es por ello que este modelo se usa para testar la asociación entre SNPs y el rasgo binario de forma más general. Para especificar los modelos de herencia en un modelo de regresión logística, tan sólo necesitamos restringir los valores de los coeficientes β. Así, forzando que βAB = βBB o βAA = βAB testaríamos el efecto dominante o recesivo, respectivamente. Si restringimos que βAB sea la mitad entre βAA y βBB entonces el modelo logístico es equivalente al test de Cochran-Armitage (tendencia lineal o modelo aditivo). Rasgos cuantitativos: Un ejemplo típico de estudio de asociación entre un rasgo cuantitativo es aquél en el que queremos testar si la expresión de un gen se ve afectado por el genotipo de un SNP específico (que puede estar o no en el mismo gen). Este tipo de asociación suele ser interesante en enfermedades con una base genética importante como puede ser el cáncer. Otro ejemplo puede darse en estudios en los que se quiera determinar si la inteligencia viene determinada o no por los genes. En ese caso podríamos medir el cociente intelectual (variable continua) y preguntarnos si este índice es mayor o menor en individuos que tengan ciertas variantes genéticas. Una primera aproximación para evaluar el grado de asociación entre un SNP y el rasgo cuantitativo, podría ser mediante la categorización del la respuesta continua en dos clases (por ejemplo “valores normales” vs “valores altos o anormales”) y luego utilizar las aproximaciones que se han mencionado anteriormente. Sin embargo este análisis no sería óptimo pues perderíamos mucho poder para detectar diferencias estadísticamente significativas entre grupos. De esta forma, en vez de usar esta aproximación, una forma más natural para testar la asociación en presencia de un rasgo cuantitativo es usar un test como el ANOVA o un modelo de regresión lineal. DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO IV U7– Diseño y análisis de estudios genéticos Mientras que un modelo ANOVA (para los tres genotipos) es equivalente a un test de χ2 con 2 grados de libertad, la regresión lineal asume linealidad entre los genotipos y las medias de la respuesta, por lo que los grados de libertad se reducen a 1. Además, ambos tests necesitan que el rasgo se distribuya según una distribución normal y que tengan una variabilidad similar en los tres genotipos. Estos problemas pueden resolverse mediante trasformaciones de la variable respuesta tal y como se enseña en los cursos de introducción a la estadística. Al igual que se ha explicado para los rasgos binarios, los modelos de herencia también se pueden especificar en este caso, colapsando los genotipos de forma adecuada para generar un modelo dominante, recesivo o aditivo que contemple diferentes patrones genéticos. Otros tipos de rasgos: En estudios de cohortes, o en los que se estudian factores pronóstico la variable analizada suele ser el tiempo hasta que se observa un evento de interés. Desde un punto de vista estadístico, el estimador de Kaplan-Meier o el modelo de Cox pueden usarse para estimar tanto las curvas de supervivencia o el riesgo en función del genotipo. En otras ocasiones, el rasgo cuantitativo no es binario (por ejemplo casos y controles donde los casos presentan diferentes sub-fenotipos). En este caso otros modelos como la regresión multinomial pueden emplearse de la misma forma que los modelos de regresión logística. En ambos casos, también se puede forzar a que el SNP siga un patrón de herencia especificado. La figura 3 muestra los resultados donde se lleva a cabo un test para evaluar la asociación entre el SNP1 y el cáncer colorectal. Para nuestro ejemplo, como se puede leer en la figura, este análisis se ha realizado ajustado por edad y sexo, lo que supone que el p-valor de asociación corresponde a un test de razón de verosimilitud donde se ha comparado un modelo que incluye las variables edad y sexo como independientes, con el modelo que incluye la edad, el sexo y el SNP como variables explicativas. Observamos que ninguno de los p-valores es inferior a 0.05, por lo que no podemos rechazar la hipótesis nula de igualdad de efectos. Las columnas AIC (Akaike Information Criteria) y BIC (Bayesian Information Criteria) sirven para determinar qué modelo de herencia es el que se ajusta mejor a los datos. En este caso el menor AIC y BIC serían los correspondientes al modelo sobredominante indicando que ése es el que mejor se ajusta. Notemos que también corresponde al modelo de herencia con un p-valor menor, cosa que ocurren en la mayoría de ocasiones. DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO IV U7– Diseño y análisis de estudios genéticos A modo de ilustración, y para aprender a interpretar los resultados, diríamos que, por ejemplo, asumiendo un modelo de herencia recesivo, el riesgo de desarrollar cáncer colorectal para los individuos homocigotos variantes (es decir, para los GG) es un 16% superior que para los individuos que son homocigotos normales o heterocigotos (CC+CG). El OR para el modelo dominante lo interpretaríamos como: los individuos con el alelo variante, G, tienen un 15% menos de probabilidad de desarrollar la enfermedad que los portadores del alelo normal. Notemos que ninguno de estos resultados es estadísticamente significativo puesto que el p-valor no es menor que el p-valor nominal del 5%. Sólo se pretende mostrar cómo se interpretan los resultados. En cuanto a los análisis para un rasgo cuantitativo, las tablas son similares a las que se obtienen de un estudio de casos y controles, pero en vez de mostrar OR se presentan diferencias de medias de la variable respuesta para cada genotipo. 3.3 ANÁLISIS DE MULTIPLES SNPs Los estudios de asociación raramente se restringen al análisis simple de un marcador. Aunque son una buena estrategia para detectar posibles asociaciones con el rasgo, el análisis simple de SNPs se han mostrado bastante ineficientes ya que no integran información sobre marcadores que estén cercanos. Puesto que es bastante improbable que se haya genotipado el verdadero SNP causal, el análisis de múltiples SNPs puede proporcionar una ventaja adicional al análisis puntual de un único SNP. Existen dos aproximaciones principales para evaluar asociación para múltiples marcadores: los modelos de regresión y el análisis de haplotipos. Los modelos de regresión se basan en la regresión logística o los modelos lineales (dependiendo del tipo de respuesta que tengamos). Sin embargo, como el número de SNPs que se suelen analizar es muy elevado, los modelos de regresión tradicionales suelen ser ineficientes para el análisis de multiples SNPs. Es por ello que se han probado otros modelos más complejos (árboles de regresión y de clasificación, redes neuronales, random forest, boosting, regresión lógica, …) para intentar abordar este problema. Estos modelos requieren un conocimiento avanzado tanto de métodos estadísticos como de computación y quedarían emplazados para cursos más avanzados en DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO IV U7– Diseño y análisis de estudios genéticos estudios genéticos. Esto hace que nos centremos en los métodos basados en haplotipos ya que constituyen una alternativa muy atractiva. A continuación introduciremos los conceptos básicos de la teoría de haplotipos y revisaremos los métodos de asociación basados en ellos. Un haplotipo es una combinación de alelos de múltiples loci polimórficos a lo largo de un cromosoma. Aunque un cromosoma entero puede verse como un haplotipo, normalmente sólo se consideran regiones no mayores a 100Kbp (100 pares de kilobases) con polimorfismos altamente ligados (es decir, relacionados). Así, para un conjunto de marcadores dado, cada persona tiene dos haplotipos, uno heredado del padre y otro de la madre. Se puede calcular de forma sencilla que un conjunto de n SNPs bialélicos generan 2n haplotipos potenciales. Sin embargo, las tasas de recombinación hacen que el número de haplotipos que suelan generarse sean mucho más pequeños que ese número máximo teórico. Un problema serio que tiene los análisis que requieren información haplotípica es que los estudios de genotipos normalmente generan datos sin conocer la fase. Es decir, para un sujeto no conocemos realmente qué alelo proviene de cada uno de los progenitores. Las técnicas de laboratorio que permiten conocer esta información son muy caras y consumen mucho tiempo de análisis. Para resolver esta falta de información se necesitan aproximaciones estadísticas que nos permita inferir los haplotipos a para un conjunto de muestras no relacionadas y varios marcadores genéticos. La inferencia de estos haplotipos y su asociación con un rasgo se basa en métodos estadísticos muy complejos (basados en el algoritmo EM y máxima verosimilitud) pero que afortunadamente están implementados en varios programas informáticos. La figura 4 muestra los resultados del análisis de haplotipos que obtendríamos con SNPstats. La primera tabla muestra una descriptiva de los haplotipos estimados mediante el algoritmo EM. Las celdas en rojo significa que son haplotipos con una frecuencia menor al 1% (esto es un parámetro del programa) por lo que para el análisis de asociación, todos estos haplotipos se considerarán como una categoría única llamada “rare” (haplotipos raros). También observamos que el haplotipo más frecuente tanto en casos como en controles es el haplotipo CTCGG que está presente en casi el 60% de la población. En la segunda tabla observamos, por ejemplo, que los individuos que tienen el haplotipo CCAGG tienen casi 2.5 veces más probabilidad de desarrollar cáncer colorectal que aquellos individuos con el haplotipo DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO IV U7– Diseño y análisis de estudios genéticos más frecuente. Siendo esta OR estadísticamente significativa, con un nivel de significación del 5% (p-valor 0.03). 3.4 ANÁLISIS GEN-GEN Y GEN-AMBIENTE Existe evidencia empírica que sostiene la idea que tanto los factores genéticos como ambientales afectan las enfermedades comunes. Es por ello que muchos estudios genéticos, tras demostrar la relación de un gen con la enfermedad, suelen preguntase si este efecto es el mismo entre subgrupos de pacientes definidos por alguna característica clínica o que están expuestos a diferentes riesgos ambientales (interacción gen-ambiente) o si existe otro gen que modifique el efecto de éste (interacción gen-gen que se conoce en los estudios genéticos como epistasis). La forma más sencilla de estudiar estas interacciones es mediante modelos estadísticos. Al igual que en el caso del análisis de un SNP, se utilizan modelos de regresión logística o modelos lineales dependiendo de la naturaleza de los datos. En este caso, el test de razón de verosimilitud viene dado por la comparación de los modelos (nótese que para el análisis de un rasgo cuantitativo es idéntico) logit(p)=α+β·Gen+δ·Amb logit(p)=α+β·Gen+δ·Amb+γ·Gen*Amb donde p corresponde a la probabilidad de ser caso, Gen indica gen y Amb ambiente. Este tipo de análisis también puede llevarse a cabo mediante SNPstats. La figura 5 muestra el resultado correspondiente a un análisis de interacción entre el SNP1 y el sexo. La primera tabla muestra las ORs para la interacción entre el SNP y el sexo. Como referencia se toma el genotipo homocigoto que tiene el alelo más frecuente y la categoría de referencia para la variable sexo (en este caso las mujeres). En ocasiones, para ayudar a interpretar una interacción, resulta útil presentar el análisis estratificado. Las siguientes dos tablas muestran el análisis de asociación estratificado por el SNP y luego por la variable sexo, respectivamente. 3.5 MÉTODOS DE ESTADÍSITICOS EN GWAS Los GWAS utilizan tecnologías de genotipado a gran escala (Illumina o Affymetrix) para evaluar la asociación de cientos de miles de SNPs con variables clínicas o DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO IV U7– Diseño y análisis de estudios genéticos cualquier otro tipo de rasgos. Como ya hemos mencionado anteriormente, el principal inconveniente de este tipo de estudios es que debemos realizar un número muy grande de test estadísticos (tantos como SNPs hallamos genotipado). Esto puede llevar a encontrar un número de falsos positivos no deseado, por lo que necesitamos adoptar algún método de corrección por comparaciones múltiples o realizar algún tipo de réplica de nuestros hallazgos. El análisis estadístico para evaluar asociación entre un SNP y nuestro rasgo de interés es el mismo que se ha descrito para el análisis simple de un SNP. El diseño más utilizado es el de casos y controles, por lo que las limitaciones de este tipo de análisis son las mismas que aparecen en este tipo de estudios. El sesgo de recuerdo aparece cuando los casos reportan su historia de exposición de forma distinta que los controles. Sin embargo en los estudios genéticos esto no es un problema ya que los genotipos (que juega el papel de factor de exposición) se miden de forma exacta utilizando el DNA de los individuos. Sin embargo, en algunas ocasiones este sesgo puede aparecer si el DNA se recoge de forma distinta entre casos y controles. Por otro lado, el sesgo de selección aparece cuando los controles no provienen de la misma población que los casos. En este caso, la carga genética o ambiental puede diferir como resultado del diseño del estudio y no por diferencias genéticas reales. Finalmente, el sesgo por confusión aparece cuando un factor de riesgo también se asocia con el marcador. En estudios genéticos este problema se conoce por estratificación poblacional y aparece de forma más marcada en el contexto de GWAS ya que estos estudios requieren de un número de muestra muy grande (miles de casos y controles) y suelen llevarse a cabo en distintos países. Esta situación se observa cuando tanto la enfermedad como la frecuencia alélica se correlacionan mediante la etnia. En otras palabras, este problema puede aparecer cuando los casos y controles de nuestra muestra provienen de poblaciones (razas) distintas. Este problema se puede resolver en la fase de diseño si apareamos los casos y controles por raza o seleccionamos a los controles de la misma familia que los casos (diseño apareado). Sin embargo, puesto que los estudios de asociación genéticos suelen utilizar individuos de estudios existentes, no podemos adoptar esta solución y debemos tener en cuenta que los GWAS suelen incorporar individuos de varios países para obtener un número elevado de casos y controles que les permita detectar efectos pequeños (a menudo ORs de entre 1.1 y 1.6). De esta forma, sólo podemos controlar esta confusión mediante métodos estadísticos. Existen varias aproximaciones, pero la DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO IV U7– Diseño y análisis de estudios genéticos más usada en el contexto de los GWAS es un método conocido como EIGENSTRAT. Básicamente este método realiza un análisis de componentes principales con los genotipos (previa normalización) y usa los valores de la primera y segunda componente principal para ajustar la asociación. En la figura 6 podemos ver un análisis de este tipo para una muestra de 270 individuos europeos (CEU), africanos (Yoruba, YRI) y chinos mas japoneses (CHB+JPT). En ella se puede ver como las dos primeras componentes principales discriminan perfectamente a los individuos de cada población. El eje 1 separa a los africanos de los asiáticos y europeos y la segunda componente separa a los europeos de los asiáticos. Una vez se dispone de esta información la asociación entre la enfermedad y el SNP se realiza mediante el siguiente modelo de regresión logística: logit(p)=α+β1·SNP+ β2·e1+ β3·e2 donde e1 y e2 son los valores que observamos en el eje X e Y de la figura 1 que corresponde con los valores de la 1ª y 2ª componente principal y p es la probabilidad de ser caso. Como se puede observar, este modelo no es más que un modelo de asociación ajustado por una variable que tiene en cuenta las diferencias entre poblaciones y que es un modelo similar al que se utiliza en epidemiología tradicional para tener en cuenta la confusión cuando se evalúa la asociación entre un factor de riesgo y la enfermedad. Un punto crítico de los GWAS es el de comparaciones múltiples. Este problema aparece porque testamos de forma simultánea un número muy elevado de hipótesis (una para cada SNP). La corrección por comparaciones múltiples se realiza para controlar el conjunto de hipótesis y para proteger al investigador a la hora de encontrar falsas asociaciones que pudieran atribuirse al azar. En nuestro caso, la corrección por comparaciones múltiples supondrá lo mismo que determinar un threshold para el cual un p-valor se considere estadísticamente significativo y que garantice un error de tipo I global igual a nuestro nivel nominal que suele ser del 5%. La idea más simple se basa en corregir la tasa de error que se define como el hecho de cometer al menos un error del tipo I. La forma más sencilla y conocida de realizar esta corrección es mediante el método de Bonferroni. Este método requiere p-valores inferiores a α/Μ donde α es el nivel de significación nominal (normalmente 0.05) y M es el número de SNPs analizados. Utilizando esta corrección, en un GWAS que DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO IV U7– Diseño y análisis de estudios genéticos incluya 1,000,000 SNPs tendríamos un valor de significación corregido de 5.0x10-8. Sin embargo hay estudios que dicen que este valor es demasiado conservador y sugieren otros valores menos extremos. También se suele utilizar otro método de corrección que se conoce como false discovery rate (FDR) o métodos basados en permutaciones que son capaces de estimar el verdadero número de hipótesis que se testan en un GWAS [ver Dudbridge and Gustano en lecturas recomendadas]. Otra aproximación muy usada para proteger al investigador ante los falsos positivos minimizando el coste del estudio y manteniendo el poder estadístico consiste en adoptar un diseño multi-etapa (Figura 7). En la práctica los GWAS se llevan a cabo en 2-3 (o a veces más) etapas. En la primera etapa, se genotipa todo el conjunto de marcadores (dado por la plataforma de análisis: Illumina, Affymetrix, …) en una muestra inicial de individuos. En la segunda etapa, los marcadores más significativos son re-genotipados en otro grupo de individuos utilizando una matriz de SNPs más pequeña. El número de SNPs y de individuos suele depender del presupuesto del investigador. De esta forma, se seleccionan aquellos SNPs que han mostrado una asociación con la enfermedad con un significación estadística dada. En el primer paso, no se suele ser muy restrictivo y se puede considerar un p-valor más liberal (es decir, sin tener en cuenta las comparaciones múltiples). En la segunda etapa, si que se consideran aquellos SNPs que pasan un p-valor más restrictivo que está corregido por comparaciones múltiples. Finalmente, en la tercera etapa, aquel conjunto de SNPs que muestran una comparaciones asociación múltiples, es estadísticamente validado en significativa una muestra tras corregir por independiente, que generalmente suele ser de otro pais o varios países [ver Hirschhorn and Daly en lecturas recomendadas]. El Wellcome Trust Case Control Consortium (WTCC) [ver lecturas recomendadas] publicó uno de los primeros GWAS en los que se analizaron siete enfermedades comunes. En este artículo se discuten los temas mencionados anteriormente, entre ellos el problema de estratificación poblacional, el de comparaciones múltiples y el diseño multi-etapa. En cuanto al software para analizar GWAS, podemos decir que existen varios programas (PLINK, SNPTEST, snpMatrix, SNPassco,…) pero que ninguno de ellos está implementado en una aplicación tan amigable como SNPstats. Además estos programas requieren un conocimiento avanzado de programación en programas DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO IV U7– Diseño y análisis de estudios genéticos compilados (C, C++, …) o en R. Existe un proyecto para usar SNPassoc (que está implementado en R) en un entorno Web, que puede utilizarse en estos casos [ver material suplementario]. 4. LECTURAS RECOMENDABLES • International human genome sequencing consortium. Initial sequencing and analysis of the human genome. Nature, 2001, 409:860-921 • Venter, J.C. et al. The sequence of the human genome. Science, 2001, 291:13041351. Primer artículo (ambos se publicaron a la vez) en el que se describe la secuencia del genoma humano. Útil para conocer cómo se obtuvo la información genética en humanos. • Información de cómo se obtienen los genotipos según las dos plataformas que actualmente se utilizan en estudios de asociación, sobre todo en el caso de GWAS • o Illumina: www.illumina.com o Affymetrix: www.affymetrix.com P. Lichtenstein, et al. Environmental and heritable factors in the causation of cancer-analysis of cohorts of twins from Sweden, Denmark and Finland. N Engl J Med, 2003;43:78-85. Artículo donde se muestra cómo el cáncer puede estar debido a factores genéticos basado en un estudio de gemelos • M. García-Closas, et al. NAT2 slow acetylation, GSTM1 null genotype, and risk of bladder cancer: results from the Spanish bladder cancer study and meta-analysis. Lancet, 2005;366:649-659. Estudio donde se muestra cómo el cáncer de vejiga puede estar debido a una interacción gen-ambiente. DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO IV U7– Diseño y análisis de estudios genéticos • H. J. Cordell and D. Clayton. Genetic Epidemiology 3: Genetic association studies. Lancet, 2005;366:1121-1131. • J. N. Hirschhorn and M. J. Daly. Genome-wide association studies for common diseases and complex traits. Nature Revision Genetic, 2005;6:95:108 Estos dos artículos son dos buenas revisiones donde se discuten los métodos estadísticos en estudios de asociación genética y los diseños en GWAS. • The Wellcome Trust Case Control Consortium (WTCC). Genome-wide association study of 14,000 cases of seven common diseases and 3,000 shared controls. Nature, 2007;447:661-678. Artículo en el que se lleva a cabo un GWAS para 14.000 casos de siete enfermedades comunes y 3,000 controles. En este estudio se muestran todos los problemas que aparecen en estudios de asociación (comparaciones múltiples, estratificación, …) así como los diseños empleados en estudios completos del genoma. DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO IV U7– Diseño y análisis de estudios genéticos 5. RESUMEN En esta unidad se ha descrito los principales diseños y métodos estadísticos que se utilizan en estudios genéticos. Los métodos estadísticos incluyen cómo evaluar asociación entre un SNP y un rasgo (ya sea binario o cuantitativo), cómo evaluar interacciones entre factores genéticos y ambientales, cómo analizar varios SNPs utilizando haplotipos y cómo tener en cuenta las comparaciones múltiples. Este último punto es uno de los principales problemas que se presentan en este tipo de estudios puesto que se suelen analizar cientos de miles de SNPs. Esta metodología se ha ilustrado con ejemplos pertenecientes a datos reales utilizando un software de libre disposición que permite analizar los datos que se generan en este tipo de investigaciones de forma sencilla y rápida. DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO IV U7– Diseño y análisis de estudios genéticos 6. EJERCICIOS EJERCICIO 1 La base de datos “pulmon.txt” corresponde a un estudio de casos y controles, donde los casos son pacientes diagnosticados de cáncer de pulmón, para los que se han obtenido información genética para 8 SNPs. Además se dispone de información sobre edad, sexo y hábito tabáquico (0:no fuma + exfumador, 1:fuma). Realiza los siguientes análisis y contesta a las siguientes preguntas: 1. Realiza un análisis descriptivo de los genotipos para cada SNP 2. ¿Están todos los SNPs en HWE? ¿cómo lo has comprobado? 3. Evalúa la asociación entre la variable grupo (0: control, 1:caso) y cada SNP ajustando por edad y sexo a. ¿existe alguna asociación estadísticamente significativa? ¿bajo qué modelo de herencia? ¿cómo interpretarías los resultados? b. ¿es esta asociación estadísticamente significativa tras tener en cuenta las comparaciones múltiples? 4. Realiza un análisis de interacción entre el SNP d9850 y el hábito tabáquico e interpreta los resultados Nota: Para ver y contestar la pregunta de este caso, debe acceder a la versión on line del curso, que encontrará en el Campus del CEC. DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO IV U7– Diseño y análisis de estudios genéticos EJERCICIO 2 Se conoce que el tratamiento con fármacos antidepresivos es la mejor opción para tratar los episodios psicóticos que aparecen durante la evolución de los trastornos de ánimo. Sin embargo, un tercio de los pacientes que reciben estos tratamientos no muestran una buena respuesta. Existen varios factores que pueden contribuir a una mala respuesta como por ejemplo: el sexo, la edad, el número de episodios previos, el tipo de depresión (unipolar o bipolar) o la severidad de la enfermedad entre otros. También se conoce que existen algunos factores genéticos que pueden influenciar en una mejor repuesta al tratamiento. Algunos estudios han mostrado que la reducción de los niveles de BDNF (grain-derived neurotrophic factor) pueden aumentar la vulnerabilidad a sufrir depresión y es por ello que algunos autores se han planteado la pregunta científica sobre si los genes del BDNF pueden asociarse o no a una mejor respuesta al tratamiento farmacológico (ver artículo Gratacós et al. The Pharmacogenomics Journal, 2008;8:110-112). Para este ejercicio se dispone de la información contenida en la base de datos “BDNF.txt” sobre 374 casos diagnosticados con algún trastorno del estado de ánimo donde se tiene información sobre variables clínicas y genéticas (8 SNPs). Esta base de datos corresponde a la información publicada en el artículo anteriormente citado. Contesta a las siguientes preguntas. 1. Realiza un análisis descriptivo de los genotipos para cada SNP 2. ¿Están todos los SNPs en HWE? ¿existe algún problema en este caso? 3. Evalúa la asociación entre la respuesta al tratamiento y cada SNP a. ¿existe alguna asociación estadísticamente significativa? ¿bajo qué modelo de herencia? ¿cómo interpretarías los resultados? b. ¿es esta asociación estadísticamente significativa tras tener en cuenta las comparaciones múltiples? DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO IV U7– Diseño y análisis de estudios genéticos 4. Realiza un análisis de asociación entre los haplotipos formados por los SNPs rs12273363 , rs908867, y rs1491850 y la respuesta al tratamiento ¿cómo interpretarías los resultados? 5. Realiza un análisis de interacción entre el SNP rs12273363 y el estado piscótico e interpreta los resultados Nota: Para ver y contestar la pregunta de este caso, debe acceder a la versión on line del curso, que encontrará en el Campus del CEC. DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO IV U7– Diseño y análisis de estudios genéticos FIGURAS F 7·1 Entrada de datos para el análisis de asociación en estudios genéticos mediante SNPstats DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO IV U7– Diseño y análisis de estudios genéticos F 7·2 en estudios genéticos mediante SNPstats DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO IV U7– Diseño y análisis de estudios genéticos F 7·3 Resultados del análisis de asociación en estudios genéticos mediante SNPstats DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO IV U7– Diseño y análisis de estudios genéticos F 7·4 Resultados del análisis de haplotipos en estudios genéticos mediante SNPstats DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO IV U7– Diseño y análisis de estudios genéticos F 7·5 Resultados del análisis de interacción en estudios genéticos mediante SNPstats DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO IV U7– Diseño y análisis de estudios genéticos F 7·6 Análisis de componentes principales usando el método EIGENSTRAT para detectar estratificación poblacional en la muestra. DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO IV U7– Diseño y análisis de estudios genéticos F 7·7 Diseño multi-etapa para un estudio completo del genoma (GWAS) DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO IV U7– Diseño y análisis de estudios genéticos F 7·8 Definición de variables para el ejercicio 1 DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO IV U7– Diseño y análisis de estudios genéticos F 7·9 Solución a la pregunta 1 del ejercicio 1 F 7·10 Solución a la pregunta 2 del ejercicio 1 DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO IV U7– Diseño y análisis de estudios genéticos F 7·11 F 7·12 Solución a la pregunta 3 a) del ejercicio 1 Solución a la pregunta 4 del ejercicio 1 DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO IV U7– Diseño y análisis de estudios genéticos F 7·13 Definición de variables para el ejercicio 2 DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO IV U7– Diseño y análisis de estudios genéticos F 7·14 Solución a la pregunta 1 del ejercicio 2 F 7·15 Solución a la pregunta 2 del ejercicio 2 DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO IV U7– Diseño y análisis de estudios genéticos F 7·16 Solución a la pregunta 3 del ejercicio 2 DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO IV U7– Diseño y análisis de estudios genéticos F 7·17 Definición de variables para la pregunta 4 del ejercicio 2 DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO IV U7– Diseño y análisis de estudios genéticos F 7·18 Solución a la pregunta 4 del ejercicio 2 DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO IV U7– Diseño y análisis de estudios genéticos F 7·19 Solución a la pregunta 5 del ejercicio 2 DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO IV U7– Diseño y análisis de estudios genéticos TABLAS T 7·1 Preguntas relevantes y diseños de estudios en epidemiología genética Pregunta Diseño de estudio ¿Están los genes relacionados con la enfermedad? Agregación familiar, estudios con gemelos ¿Cuál es el modo de herencia? Segregación ¿Dónde están los genes? Ligamiento ¿Qué genes son? Asociación ¿Cuál es la variante causal? Fine-mapping ¿Cuál es el mecanismo? Estudios funcionales Interacciones Asociación Gen-Gen y Gen-Ambiente Tabla de contingencia con el número de individuos T 7·2 para cada genotipo en casos y controles Genotipo Controles Casos AA nAAco nAAca AB nABco nABca BB nBBco nBBca DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO IV U7– Diseño y análisis de estudios genéticos Tabla de contingencia para el modelo dominante donde el alelo B es el alelo de riesgo. T 7·3 En este caso se espera que los individuos heterocigotos tengan el mismo riesgo que los individuos homocigotos BB, por ello ambas categorías se colapsan. T 7·4 Genotipo Controles Casos AA nAAco nAAca AB + BB nABco + nBBco nABca + nBBca Tabla de contingencia para el modelo recesivo donde el alelo B es el alelo de riesgo En este caso se espera que los individuos heterocigotos BB tenga riesgo para desarrollar la enfermedad, por ello los individuos con un alelo A se colapsan en una misma categoría. Genotipo Controles Casos AA + AB nABco + nAAco nABca + nAAca BB nBBco nBBca