ESTADÍSTICA ESPAÑOLA Vol. 44, Núm. 149, 2002, págs. 113 a 128 El paradigma de la verosimilitud por JESÚS BESCOS SINDE Universidad de Castilla-La Mancha RESUMEN El uso de las probabilidades de error de los procedimientos estadísticos de contrastación como medida de la evidencia en favor o en contra de las hipótesis sometidas a prueba en un contraste es, cuando menos, equívoco. El enfoque de Neyman-Pearson a la contrastación de hipótesis responde a la necesidad de seguir un curso de acción tras la realización de un contraste (aceptar o no la hipótesis considerada), con lo que excluye la posibilidad de que el soporte de los datos para evaluar la idoneidad de hipótesis alternativas sea insuficiente. Este artículo trata de destacar que la medida de evidencia adecuada para evaluar el soporte relativo de hipótesis rivales es la función de verosimilitud (o la razón de verosimilitud), entendida en los términos originalmente acuñados por Fisher, quien definió el cociente de verosimilitud como la preferencia relativa de los datos por las hipótesis consideradas en cada situación concreta. Además de cuestiones de tipo lógico, se presentan los resultados de una simulación sencilla que muestran como, bajo ciertos requisitos expresados en términos de preferencia relativa medida a través de la razón de verosimilitud, el mecanismo de contrastación de Neyman- 113 114 ESTADÍSTICA ESPAÑOLA Pearson falla al apoyar hipótesis que resultan estar escasamente sustentadas por las observaciones. Palabras clave: verosimilitud, test de hipótesis. Clasificación AMS: 62F03 1. INTRODUCCIÓN En el corazón de la teoría de Neyman-Pearson para la determinación de un contraste óptimo, se encuentra el concepto de evidencia estadística que se defiende en este artículo: la recogida en la función de verosimilitud de la muestra. Sin embargo, en las interpretaciones habituales de los contrastes de hipótesis, el concepto de evidencia barajado se relaciona con las denominadas probabilidades de los errores de tipo I y tipo II, o a través de los denominados p-valores cuya utilización ha sido cuestionada repetidamente en la literatura estadística (Lindsey (1999) y Nelder (1999)). En el presente artículo se señalan las principales inconsistencias lógicas de las interpretaciones usuales del enfoque NP, y se pergeñan las líneas principales del paradigma de la estadística paramétrica que es consecuencia lógica de aceptar el principio de verosimilitud. Tal aceptación se produce de manera implícita cuando los experimentos se diseñan en atención al concepto de desvianza, o cuando se contrastan hipótesis recurriendo a la razón de verosimilitud o sus equivalentes asintóticos: multiplicadores de Lagrange o test de Wald. Por ello parece adecuado revisar los fundamentos de este paradigma, denominado de la verosimilitud, tratando de mejorar la comprensión de los métodos prácticos derivados del mismo. El articulo está estructurado en 5 apartados. En el primero se presenta la notación a emplear y se repasan las líneas básicas del enfoque de Neyman-Pearson de la contrastación de hipótesis. En el segundo apartado y a través de un ejemplo sencillo se explica el papel de la función de verosimilitud en la contrastación de hipótesis, y se refiere el denominado Principio de Verosmilitud para, a continuación discutir teóricamente cómo tal principio puede resultar incompatible con la interpretación habitual de la contrastación en el paradigma Neman-Pearson. El tercer apartado se destina a proporcionar criterios para la interpretación, a efectos prácticos, del diferente sustento evidencial para las hipótesis en consideración en un contraste, cuando tal sustento se expresa como cociente de verosimilitudes, y no como probabilidades de error del test. 114 EL PARADIGMA DE LA VEROSIMILITUD 115 El cuarto apartado presenta los resultados de una simulación que ilustra las consideraciones teóricas de los apartados anteriores. Por último, el quinto apartado se destina a las principales conclusiones y a exponer las líneas que garantizan la utilidad del principio de verosimilitud a la hora de contrastar hipótesis. 2. ENFOQUE DE NEYMAN-PEARSON PARA LA CONTRASTACIÓN DE HIPÓTESIS A efectos de establecer el marco conceptual de referencia, supondremos que enfrentamos un fenómeno que contiene una variabilidad, descrita por una familia de posibles distribuciones de probabilidad {Pθ:θ ∈ Θ} , donde θ se denomina parámetro, y el conjunto Θ al que pertenece el parámetro espacio paramétrico. Tal espacio puede variar en diferentes situaciones concebibles, desde una familia de funciones hasta un conjunto de números reales, o vectores. Aquí consideraremos que el espacio paramétrico es un subconjunto de 5r. Podemos expresar la distribución de probabilidad a través de su función de densidad o cuantía que denotamos por pθ. La probabilidad de que se produzca la observación x se denota por pθ(x) o más brevemente p(x). Las conjeturas (hipótesis) acerca del comportamiento del fenómeno bajo estudio, se expresan en términos estadísticos afirmando que la variabilidad en el fenómeno se describe por un subconjunto de la familia de distribuciones de probabilidad postulado o, alternativamente, que pertenece a un determinado subconjunto de Θ. Supongamos que se formulan dos hipótesis rivales simples (aquellas que especifican completamente la distribución de probabilidades de la variable observada, x, que toma valores en el espacio muestra, Χ), denotadas por H1 y H2, y tratamos de determinar cuál de las dos está mejor “soportada” por los datos observados, x. La forma de proceder para determinar la región crítica, C, óptima del test en el paradigma de Neyman-Pearson (en adelante NP), consiste en preguntarse por la existencia una región C ⊆ Χ, tal que el suceso { p1(x) / p(2(x) < k} bajo H1 tenga una probabilidad igual a un nivel predeterminado, α, denominada probabilidad de error de tipo I. En estas condiciones, el lema de NP garantiza que tal región será la que presente menor probabilidad de cometer error de tipo II (consistente en “elegir” H1 bajo H2), denotada por β, entre todas aquellas regiones cuya probabilidad de cometer error de tipo I sea menor o igual que el nivel α, preestablecido. Bajo esta perspectiva, un procedimiento de contrastación óptimo es un mecanismo de decisión óptimo: diseñado para presentar “buenas” propiedades a largo plazo en el sentido de que minimice la frecuencia con que conducirá a conclusiones 115 116 ESTADÍSTICA ESPAÑOLA erróneas. Pero tal y como señala Birnbaum (1962), además del problema de tomar una decisión acertada, está el problema inferencial de cómo debe ser la interpretación de las observaciones en términos de evidencia a favor de las hipótesis en juego. A pesar de que el enfoque original de Neyman-Pearson se centra exclusivamente en el problema decisorio, los desarrollos ulteriores y dominantes en la literatura estadística han abordado el problema inferencial otorgando a las probabilidades de error del contraste un significado en términos de evidencia relativa. Así es usual en la práctica estadística entender que si se han predeterminado probabilidades de error (α, β) suficientemente pequeñas –digamos (0.05, 0.05)-, y las observaciones ulteriores conducen al rechazo de H1 a favor de H2 , tal rechazo se realiza sobre una supuesta evidencia “fuerte” o “moderadamente fuerte” en tal sentido, mientras que si dichas probabilidades de error toman los valores (0.1;0.2), la “evidencia” con la que se rechazaría H1 se considera moderada, sino débil. Otra interpretación usual en la literatura consiste en atender a los valores de α y β observados (o sólo al α observado denominado p-valor del contraste), interpretándolos en idéntico sentido al señalado anteriormente: valores bajos para ambos (α,β) significarían fuerte sustento evidencial del resultado del contraste. Pues bien, uno de los propósitos de este artículo es poner de relieve que tal interpretación es lógicamente inconsistente, lo que no constituye una novedad: Pratt (1961 y 1977), Birnbaum (1962, 1970, 1977), Royall (1997). En primer lugar, la “forma” de la región crítica viene dada por la desigualdad, {p1(x) / p(2(x) < k} [1] es decir, por la verosimilitud relativa de la muestra bajo las hipótesis alternativas. En concreto, la regla prescribe inclinarse hacia H2 a partir de un determinado valor “k”, sobre el que más adelante volveremos, y que es el número de veces que es relativamente más verosímil H1 que H2. Dada una muestra donde k=2 significa que H1 es 2 veces “ relativamente más preferida”(1) por los datos que H2, mientras que k=1/2, expresaría la situación contraria. Por tanto, el lema de NP establece una división del espacio muestra en función de la preferencia relativa de los resultados, x, por las distintas hipótesis, determinando como región crítica el subconjunto de resultados que “soporten” en mayor medida relativa H2. Además de esta condición, se impone el cumplimiento de (2) para que el test tenga el tamaño deseado, (1) Sobre la interpretación de la función de verosimilitud como la expresión del orden natural de preferencias de los datos por las distintas hipótesis véase Fisher (1973, pag 73) 116 EL PARADIGMA DE LA VEROSIMILITUD Pθ [{p1(x) / p(2(x) < k} / H1] = α 117 [2] y si hay otro más potente que el obtenido como consecuencia de aplicar (1) y (2), necesariamente ha de corresponder a otra probabilidad α. En definitiva, ¿cuál es el concepto de evidencia implícitamente manejado en el anterior razonamiento?. Es decir, ¿qué se emplea como portador de la información de los datos para dilucidar entre las diferentes hipótesis? Es claro que la función de verosimilitud. 3. FUNCIÓN DE VEROSIMILITUD Y PRINCIPIO DE VEROSIMILITUD Antes de seguir avanzando, examinemos un ejemplo de función de verosimilitud. Supongamos que se trata de determinar la probabilidad ‘p’ asociada al resultado ‘cara’ al lanzar una moneda. Imaginemos que realizamos 30 lanzamientos y obtenemos 12 caras. La función de verosimilitud de este resultado, que denotamos por l(x,p), es proporcional a la probabilidad de observar el resultado ‘x’ cuando la probabilidad de éxito toma el valor ‘p’. 30 l(x, p) = cpθ (x) = c p12 (1 − p)18 12 donde ‘c’ es una constante de proporcionalidad, que podemos establecer como c= 1 1 = maxl(x, p) 30 12 12 12 18 1− {p} 12 30 30 de modo que la función de verosimilitud está “normalizada” con respecto a su máximo, siendo su expresión final l(x, p) = p12 (1 − p)18 12 12 12 1 − 30 30 18 117 118 ESTADÍSTICA ESPAÑOLA El gráfico siguiente recoge la forma de esta función en este caso concreto Como se observa, la función de verosimilitud alcanza su máximo en 0.4, el valor de p más soportado por los datos (o preferido), para disminuir a medida que nos alejamos de este punto. La ordenada de la función para cada valor de ‘p’ es la verosimilitud de tal valor. Si la comparación entre la verosimilitud de dos valores del parámetro ‘p’ se realiza a través del cociente de sus ordenadas correspondientes, es obvio que la verosimilitud relativa no queda afectada por el cambio de escala consecuencia de ‘normalizar’, tal como se ha hecho anteriormente. Supongamos que tuviéramos interés en comparar el soporte relativo de las hipótesis H1:p=0,3; frente a H2: p=0,6. El cociente o razón de verosimilitud sería 5.78529, interpretándose como que la hipótesis H1 es soportada 5.7 veces más, en términos relativos, que H2. La preguntas inmediatas son:¿qué significa ser relativamente preferido 5.7 veces más? y ¿cuál es la escala en la que se miden estas preferencias relativas? Dada la definición de la función de verosimilitud, 5.7 es el número de veces que la observación, x, resulta más probable bajo H1 que bajo H2. La respuesta en relación a la escala queda, momentáneamente, diferida. Como puede apreciarse, en el caso de hipótesis simples, la observación y eventual tabulación de la función de verosimilitud permite reflejar la intensidad con que los datos observados soportan los diferentes valores del parámetro. Como consecuencia lógica de tal representación de la evidencia, surgen los intervalos de 118 EL PARADIGMA DE LA VEROSIMILITUD 119 verosimilitud, - véase por ejemplo Hudson (1971) o Edwards, (1972). En concreto, Hudson los define como: ∧ I(θ ) = θ: Lnl(x, θ) ≥ Lnl x, θ − Lnk [3] Es decir, el conjunto de valores del parámetro tales que el valor más preferido lo es, con respecto a ellos, k veces como máximo(2). A efectos ilustrativos, si en el ejemplo anterior de 12 caras en 30 lanzamientos, consideramos una preferencia relativa máxima de 3 (el máximo, p=0.4, es preferido como mucho 3 veces más), el intervalo que obtenemos es (0.274; 0,535)(3) La aceptación de tal función como la única portadora de ‘evidencia’ es un argumento extra-matemático, puesto que no es derivable a partir del cuerpo de axiomas de probabilidad. Tal argumento se formula como axioma de verosimilitud: (Edwards, 1972, pag 31): “Dentro del sistema de un modelo estadístico, toda la información que proveen los datos en cuanto a los méritos relativos de dos hipótesis está contenida en el cociente de verosimilitud de esas hipótesis sobre los datos, y el cociente de verosimilitud se interpretará como el grado en que los datos soporta una hipótesis frente a la otra”.(4) Para Lindsey (1996, pag 73), al aceptar este principio “lo que hemos hecho es utilizar la variabilidad de los posibles resultados del mecanismo generador de los datos, específicamente, la incertidumbre sobre que el resultado observado hubiera ocurrido, para proveer una medida de la incertidumbre sobre los parámetros del modelo utilizado para describir ese mecanismo. Esto debe ser distinguible de cualquier incertidumbre acerca de la elección del modelo (función) debida a la carencia de información (teórica), que no aparece en la verosimilitd (...) El principio de verosimilitud no establece que la inferencia estadística deba basarse solamente en este principio. Es más, es una afirmación relativa, comparando modelos, pero sin proveer conocimiento absoluto acerca de cualquier modelo posible. Esto es lógico si ningún modelo puede ser cierto. Lo único que queremos es el mejor (2) El logartimo de la función de verosimilitud es denominado “función de soporte”. En caso de considerar la función de verosimilitud normalizada, lo que tenemos es la expresión de las preferencias relativas en términos aditivos. De ahí el nombre de soporte. (3) Obsérvese que puesto que la función de verosimilitud toma distintos valores dentro del intervalo de verosimilitud, no todos los valores del parámetro dentro del intervalo presentan el mismo sustento evidencial. Esto es diferente en el caso de los intervalos de confianza, donde todos los valores del intervalo son igualmente compatibles con los datos. Además, el intervalo de verosimilitud del ejemplo no es simétrico respecto a 0.4. (4) Para una discusión lógica sobre los fundamentos del principio de verosimilitud véase Birnbaum (1962, 1977). 119 120 ESTADÍSTICA ESPAÑOLA modelo entre los disponibles para que nos ayude a comprender cómo pueden ser generados los datos” Admitido este axioma, es relativamente fácil comprender por qué la interpretación de las probabilidades de error de un contraste como medida de la evidencia pueden entrar en contradicción con el principio de verosimilitud y, consecuentemente, no debe otorgarse a tales probabiliades un significado evidencial. En primer lugar, puesto que en general, β es la probabilidad en la cola de la distribución bajo H2, resulta que cuanto más potente sea el test (menor β) menos compatibles resultaran los datos con H2 y, por tanto, más débil será la evidencia relativa de H2 contra H1, puesto que la verosimilitud es proporcional a la probabilidad de las observaciones bajo cada una de las hipótesis. Tomemos un ejemplo de Pratt (1977, pag 65) : si x es N(0,1) bajo H1 y N(θ,1) bajo H2 , y x=1.645 (α=0.05), entonces H2 es más plausible si θ=2 (β=0.36) que si θ=4 (β=0.009). Además, dado que la relación entre las probabilidades de error observadas de un contraste y la razón de verosimilitud es (Pratt, 1977): α≤ 1− α 1 α ≤ λ (x ) ≤ ≤ 1− β β β -donde λ(x) es la razón de verosimilitud-, se sigue que si la razón de verosimilitud es pequeña α debe ser pequeño, mientras que si la razón de verosimilitud es grande β debe ser grande. Así para (α=0.05, β=0.05) - valores observados a los que usulamente se asocia un grado de sustento evidencial ‘fuerte’ - la razón de verosimilitud puede tomar cualquier valor comprendido entre 1/19 y 19, y si tal cociente expresa la “intensidad” del soporte relativo de los datos por las dos hipótesis en juego, está claro que podemos encontrarnos con muestras que soporten H1 , o H2 , o que carezcan de información para dilucidar entre ambas hipótesis. Si las probabilidades de error se fijan de antemano, en el más estricto sentido del paradigma NP, entonces la razón de verosimilitud no está acotada según la desigualdad anterior, de modo que con mayor razón las probabilidades de error no son necesariamente compatibles con el grado de sustento evidencial medido a través de λ(x). Consideremos el siguiente ejemplo tomado de Royall (1996, pag16). Se trata de dilucidar entre dos hipótesis relativas a la probabilidad de éxito, θ, en 30 repeticiones independientes de un experimento de Bernoulli, H1: θ=1/4 y H2: θ=3/4. Cuando el número observado de éxitos se representa por x, la razón de verosimilitud es p2 (x ) p1(x ) = 32x − 30 (en el numerador H2). La mejor región crítica con tamaño α=0.05 contiene todos los valores de x para los cuales la razón de verosimilitud es 120 121 EL PARADIGMA DE LA VEROSIMILITUD como mínimo k = 3 24−30 = 1 729 , es decir x ≥ 12 . (Bajo H1 la probabilidad de 12 éxitos o más en 30 repeticiones es sólo 0.05). Como se ve en este ejemplo, el “mejor” test llama a elegir H2 cuando la evidencia favorece, de hecho, a H1: un factor k menor que la unidad. En concreto, si se observa x=12 el test determina la elección de H2 cuando los datos soportan 729 veces más a H1, en términos relativos. De modo análogo, los resultados x=13 y x=14 representan evidencia bastante fuerte en favor de H1; y en cuanto a la observación x=15, que se corresponde a una tasa de éxito observada de 1/2 equidistante de las hipótesis formuladas (θ=1/4 y θ=3/4)- comprobamos que mientras el método NP determina la elección de H2, la evidencia relativa en términos de verosimilitud es neutral entre las hipótesis p 2 x p 1 x = 1 . () () 4. LA ESCALA DE MEDIDA DE LA VEROSIMILTUD Abordemos ahora el problema de la escala en la que medir la verosimilitud relativa. Es decir, la respuesta a la pregunta formulada anteriormente sobre cómo interpretar que una hipótesis es 5.7 veces relativamente más preferida que otra. Lindsey (1996) refiere los resultados de Kass y Raftery(5) que proporcionan una interpretación de los valores de la función de verosimilitud normalizada (con respecto a su máximo) recogida en la tabla siguiente: Valores de la razón de verosimilitud normalizada Evidencia 0.37 - 1 Pequeña 0.05 - 0.37 Positiva 0.007-0.05 Fuerte <0.007 Muy Fuerte Por su parte, Royall (1996) define una escala de soporte evidencial por comparación a un experimento que denomina “canónico” y que resumimos a continuación. Supongamos que se tienen dos hipótesis sobre las proporciones de la composición de colores de las bolas que integran una urna. Las dos hipótesis son: ‘todas blancas’ y ‘la mitad blancas’, respectivamente. Para dilucidar entre ellas se extraen bolas de la urna con reposición, removiendo antes de cada extracción. (5) Kass y Raftery (1995) Bayes factors. Journal of the American Statistical Association, 90, 773-795 121 122 ESTADÍSTICA ESPAÑOLA Supongamos que se extrae una bola que resulta ser blanca, a continuación otra blanca. Si en la tercera extracción la bola resulta blanca, se podrá caracterizar tal situación como evidencia “bastante fuerte” en favor de “todas blancas” frente a “la mitad blancas”. La razón de verosimilitud es 2 3 = 8 . A partir de este ejemplo construye la tabla siguiente razonando de este modo: si observamos b blancas, la razón de verosimilitud en favor de ‘todas blancas’ sobre ‘la mitad blancas’ es igual a 1 (12 ) , o 2b . Por tanto una verosimilitud relativa de ‘k’ b corresponde a ‘b’ bolas blancas consecutivas, donde k = 2b . Razón verosimilitud 10 20 50 100 1000 b 3.3 4.3 5.6 6.6 10.0 Estamos ahora en condiciones de evaluar sobre una base más objetiva, cuánta evidencia representa un factor k = 5.7 o un factor k = 729. 5. UN EJEMPLO SIMULADO Para ilustrar convenientemente la incoherencia del paradigma NP con la interpretación de la evidencia en términos de la razón de verosimilitud -corazón de dicho paradigma- hemos elaborado el siguiente ejemplo. Tomamos observaciones procedentes de una población N(µ,σ2), donde la media es desconocida considerando dos hipótesis alternativas para la varianza, H1: σ2=16 y H2 : σ2=49. Se consideran muestras de tamaño 20 y la regla de contraste (región crítica) viene determinada por C = X : ∑ 2 _ x − x > 482,28 [4] que conduce al rechazo de H1 en favor de H2. Esta regla se ha fijado de modo que las probabilidades de error se pueden cifrar en (0.05, 0.043), por lo que, de acuerdo con la interpretación al uso criticada en este artículo, cualquier resultado que se alcance bajo estas condiciones, se considerará apoyado por evidencia “fuerte”. 122 EL PARADIGMA DE LA VEROSIMILITUD 123 A continuación se procedió a generar, mediante simulación, 1000 muestras de tamaño 20 a partir de x∼N(20,4) -H1- , y otras tantas a partir de x∼N(20,7) -H2-(6). Para “representar” la evidencia en términos de verosimilitud, el supuesto establecido de desconocimiento de µ , implica que en la función de verosimilitud obtenida a partir de la función de densidad de la distribución normal, está presente µ como parámetro de ruido, y para prescindir del mismo hemos elegido representar la verosimilitud de la muestra sobre σ2, a través de la denominada verosimilitud marginal (7)-obtenida a partir de la distribución en el muestreo del estadístico (n1)s2. El logaritmo de tal función normalizada con respecto al máximo es: L(σ 2 ) = − n − 1 σ 2 Ln 2 s 2 s 2 − 1+ σ 2 Se aplica esta función, particularizándola para las dos hipótesis sobre la varianza, a cada una de las muestras, y se obtiene la razón de verosimilitud p2(x)/p1(1x), como λ(x) = Exp[L(σ22)-L(σ21)]. Elegimos considerar el valor 8 de la razón de verosimilitud, como nivel de evidencia “bastante fuerte” -tres extracciones consecutivas de bolas blancas en el experimento canónico de Royall- de modo que si λ>8 se considera evidencia fuerte en favor de H2; si λ<1/8 se considera evidencia fuerte en favor de H1; y si toma valores intermedios, se considera evidencia débil para dilucidar entre las dos hipótesis. A cada una de las muestras se les aplicó la regla de contrastación derivada del paradigma NP, tal y como se formuló en (4). La tabla de la página siguiente resume los principales resultados de esta simulación y muestra como, bajo el concepto de evidencia subyacente en el cociente de verosimilitud, las “decisiones” derivadas de la aplicación de la regla NP, son incoherentes. En concreto, lo más relevante es que muchas decisiones-NP se toman con un nivel de evidencia “débil”. Esto es especialmente importante si consideramos que a la hora de contrastar hipótesis no sabemos, a diferencia de este ejemplo, cuál de ellas es cierta, si es que alguna lo es. Y que el verdadero problema consiste en dilucidar qué hipótesis es “relativamente” más compatible con la observación. (6) Tomar la media de la población como 20, se ha hecho por conveniencia, para poder generar las muestras. De hecho para realizar las “inferencias” a partir de la función de verosimilitud, y fijar las probabilidades de error de tipo I y II, se ha operado considerando µ desconocida. (7) La idoneidad de esta elección descansa en que esta función de verosimilitud es “robusta” para distintos valores de la media . Tsou (1995) 123 124 ESTADÍSTICA ESPAÑOLA La primera columna de la tabla indica el número de la serie correspondiente a las 10 series de muestras (100 muestras de tamaño 20 en cada serie) generadas bajo las dos hipótesis consideradas. La segunda columna, el número de veces que la regla NP condujo al rechazo de H1. La tercera, el número de veces que el cociente de verosimilitud favoreció H2 (el rechazo de H1) con un factor de al menos 8. Obviamente esta evidencia es equívoca cuando los datos se generan a partir de N(20,4)). La cuarta, el número de veces que el cociente de verosimilitud favoreció H1 en un factor de al menos 8. La última columna el número de veces que la evidencia, en forma de cociente de verosimilitud, fue débil. 2 DATOS GENERADOS BAJO H1: σ = 16 Numero de la serie Rechazo H1 según NP Evidencia fuerte errónea en contra de H1 Evidencia fuerte a favor de H1 Evidencia Débil 1 2 3 4 5 6 7 8 9 10 5 2 4 3 5 4 6 7 4 5 1 0 0 0 0 0 0 4 1 2 85 93 88 84 79 90 84 81 87 87 14 7 12 16 21 10 16 15 12 11 Total Porcentaje 45 0,045 8 0,008 858 0,858 134 0,134 124 125 EL PARADIGMA DE LA VEROSIMILITUD 2 DATOS GENERADOS BAJO H2: σ = 49 Rechazo H1 según NP Evidencia fuerte en contra de H1 Evidencia fuerte errónea en contra de H2 Evidencia Débil 1 2 3 4 5 6 7 8 9 10 96 95 94 96 98 97 96 97 95 100 88 90 84 87 91 88 84 91 86 93 2 3 3 3 1 1 1 1 2 0 10 7 13 10 8 11 15 8 12 7 Total Porcentaje 964 0,964 882 0.882 17 0,017 101 0,101 6. CONCLUSIONES Como conclusiónes principal podemos señalar que la supuesta base evidencial resultante de trabajar con una regla cuyo comportamiento medio es óptimo según cierto criterio (probabilidades de error en el paradigma NP) no es válida. Si bien en la simulación anterior, se observa que al operar con probabilidades de error pequeñas, es muy infrecuente que se presenten situaciones con evidencia fuerte “errónea" - frecuencia del 8 por mil bajo H1 y del 1,7% bajo H2 - , la frecuencia de aparición de evidencia “débil” es muy superior: por encima del 10% bajo las dos hipótesis. Por lo tanto, de la mera aplicación de la regla de decisión dicótoma (NP) no se puede garantizar, ni siquiera en términos de frecuencia aceptable a largo plazo en sucesivas repeticiones del muestreo, que la observación soporte fuertemente tal decisión. Si se quiere hacer compatibles ambas visiones es necesario enfocar el problema precisamente en el orden inverso al empleado por Neyman-Pearson. Primero determínese qué nivel de “evidencia” -en términos del cociente de verosimilitud- se desea para discernir entre diferentes hipótesis y, luego podremos, eventualmente y siempre que interese, determinar las probabilidades de error. Ahora bien, si empleamos la razón de verosimilitud como medida de la evidencia, sería tranquilizador, a la hora de diseñar un experimento, estar en condiciones 125 126 ESTADÍSTICA ESPAÑOLA de determinar el tamaño muestral necesario para discernir entre hipótesis “verdaderas” e hipótesis “falsas” con cualquier nivel de exigencia (en términos de la razón de verosimilitud) y con casi seguridad. En otras palabras, supongamos que X se distribuye de acuerdo con pB, (una hipótesis que consideramos “cierta”) y que pA es otra distribución de probabilidad (la hipótesis “falsa”); dada una constante k>0 podemos afirmar: 1 ( ) ≥ k ≤ Pr p A X pB (X) k [5] Es decir, la probabilidad de obtener evidencia equívoca en favor de la hipótesis falsa es menor, cuanto mayor sea la fuerza de la evidencia (k) requerida. La demostración es inmediata. Si S es el conjunto de valores de x que producen un cociente de verosimilitud en favor de la hipótesis A de al menos k unidades, cuando B es cierta: Pr(S) = ∑ p (X) ≤ ∑ p (X) B S A k ≤1k [6] S Expresión que establece la práctica imposibilidad de encontrar evidencia fuerte en favor de una hipótesis falsa. Pero además, es posible demostrar (Robbins, 1970) que si Xi se distribuyen iid n bajo HB, y A etiqueta otra hipótesis, el cociente ∏p A (xi ) pB (xi ) converge a cero i=1 con probabilidad 1. Lo que significa que es posible especificar cualquier número k por grande que sea, tal que encontraremos un número ‘n’ de observaciones que con probabilidad 1, la evidencia en favor de B será de al menos k. Es decir, para cualquier requerimiento de evidencia en términos de verosimilitud relativa, k, que deseemos establecer, habrá un tamaño muestral que permita alcanzarlo. Para finalizar es preciso añadir que la mayor parte de las conclusiones son trasladables al caso de los denominados “contrastes de significación”, donde la medida de la evidencia allí manejado se expresa a través de la probabilidad de tipo I observada. Por cuestiones de espacio no abordamos aquí este problema. Baste señalar que, la idea subyacente bajo el paradigma de la verosimilitud es evaluar el soporte relativo de los datos por hipótesis rivales, sin pretender aportar una media absoluta del soporte, como se deriva de la apliación corriente de los contrastes de significación. 126 127 EL PARADIGMA DE LA VEROSIMILITUD REFERENCIAS BIRNBAUM, A. (1962). «On the Foundations of Statistical Inference», Journal of the American Statistical Association, 57, 269-326 BIRNBAUM, A. (1970). «Statistical Methods in Scientific Inference» (Letter), Nature, 225,1033 BIRNBAUM, A. (1977). «The Neyman-Pearson Theory as Decision Theory, and as Inference Theory; with a Criticism of the Lindley-Savage argument for Bayesian Theory», Synthese 36, 19-49 EDWARDS, A.W. (1972). «Likelihood». Cambridge University Press. FISHER, R.A. (1973). «Statistical Methods and Scientific Inference», Hafner Press, London HUDSON. D.J. (1971). «Interval Estimation from the Likelihood Function», Journal of the Royal Statistical Society, B33, 256-262 LINDSEY, J.K. (1996). «Parametric Statistical Inference», Clarendon Press, Oxford LINDSEY, J.K. (1999). «Statistical Heresies». The Statistician 48, 1-40 NELDER, J.A. (1999). «Statistics for the Milenium». The Statistician” 48, 257-269 PRATT, J.W. (1961). «Review of Testing Statistical Hypotheses by E.L Lehmann», Journal of the American Statistical Association, 56, 163-167 PRATT, J.W. (1977). «Decisions’ as statistical evidence and Birnbaum’s ‘confidence concept». Synthese 36, 59-69 ROBBINS, H. (1970). «Statistical Methods related to the law of the iterated logaritmh». Annals of mathematical Statistics, 41, 1397-1409 ROYALL, R. (1997). «Statistical Evidence. A Likelihood paradigm»», Chapman & Hall SILVEY, S.D. (1970). «Statistical Inference», Chapman & Hall TSOU , T.S. (1995). «Robust Likelihood». Journal of the American Statistical Association, v 90, 429, 316-320 127 128 ESTADÍSTICA ESPAÑOLA LIKELIHOOD PARADIGM SUMMARY The use of error probabilities of statistical hypothesis testing procedures as a measure of the strengh of evidence is, at least, equivocal. The Neyman-Pearson approach is concerned with using the observations to make a choice between the hypothesis under consideration, and the evidencial interpretations of the data fall outside the scope of this theory. This paper remarks that the concept of evidence is embodied in the law of likelihood, as it was originally conceived by Fisher: data’s preference function over the parametric space. In addition to logical considerations, this paper includes the results of a simple simulation showing that, under certain requierements expressed in terms of relative preference measured through the likelihood ratio between rival hypothesis, the Neyman Pearson’s device fails due to the fact that it supports hypothesis that are weakely based on evidence. Key words: likelihood, Hypothesis Testing AMS Classification: 62F03 128