El paradigma de la verosimilitud

Anuncio
ESTADÍSTICA ESPAÑOLA
Vol. 44, Núm. 149, 2002, págs. 113 a 128
El paradigma de la verosimilitud
por
JESÚS BESCOS SINDE
Universidad de Castilla-La Mancha
RESUMEN
El uso de las probabilidades de error de los procedimientos estadísticos de contrastación como medida de la evidencia en favor o en
contra de las hipótesis sometidas a prueba en un contraste es, cuando menos, equívoco.
El enfoque de Neyman-Pearson a la contrastación de hipótesis
responde a la necesidad de seguir un curso de acción tras la realización de un contraste (aceptar o no la hipótesis considerada), con lo
que excluye la posibilidad de que el soporte de los datos para evaluar
la idoneidad de hipótesis alternativas sea insuficiente.
Este artículo trata de destacar que la medida de evidencia adecuada para evaluar el soporte relativo de hipótesis rivales es la función de verosimilitud (o la razón de verosimilitud), entendida en los
términos originalmente acuñados por Fisher, quien definió el cociente
de verosimilitud como la preferencia relativa de los datos por las hipótesis consideradas en cada situación concreta.
Además de cuestiones de tipo lógico, se presentan los resultados
de una simulación sencilla que muestran como, bajo ciertos requisitos
expresados en términos de preferencia relativa medida a través de la
razón de verosimilitud, el mecanismo de contrastación de Neyman-
113
114
ESTADÍSTICA ESPAÑOLA
Pearson falla al apoyar hipótesis que resultan estar escasamente
sustentadas por las observaciones.
Palabras clave: verosimilitud, test de hipótesis.
Clasificación AMS: 62F03
1. INTRODUCCIÓN
En el corazón de la teoría de Neyman-Pearson para la determinación de un
contraste óptimo, se encuentra el concepto de evidencia estadística que se defiende en este artículo: la recogida en la función de verosimilitud de la muestra. Sin
embargo, en las interpretaciones habituales de los contrastes de hipótesis, el
concepto de evidencia barajado se relaciona con las denominadas probabilidades
de los errores de tipo I y tipo II, o a través de los denominados p-valores cuya
utilización ha sido cuestionada repetidamente en la literatura estadística (Lindsey
(1999) y Nelder (1999)).
En el presente artículo se señalan las principales inconsistencias lógicas de las
interpretaciones usuales del enfoque NP, y se pergeñan las líneas principales del
paradigma de la estadística paramétrica que es consecuencia lógica de aceptar el
principio de verosimilitud. Tal aceptación se produce de manera implícita cuando
los experimentos se diseñan en atención al concepto de desvianza, o cuando se
contrastan hipótesis recurriendo a la razón de verosimilitud o sus equivalentes
asintóticos: multiplicadores de Lagrange o test de Wald. Por ello parece adecuado
revisar los fundamentos de este paradigma, denominado de la verosimilitud, tratando de mejorar la comprensión de los métodos prácticos derivados del mismo.
El articulo está estructurado en 5 apartados.
En el primero se presenta la notación a emplear y se repasan las líneas básicas
del enfoque de Neyman-Pearson de la contrastación de hipótesis.
En el segundo apartado y a través de un ejemplo sencillo se explica el papel de
la función de verosimilitud en la contrastación de hipótesis, y se refiere el denominado Principio de Verosmilitud para, a continuación discutir teóricamente cómo tal
principio puede resultar incompatible con la interpretación habitual de la contrastación en el paradigma Neman-Pearson.
El tercer apartado se destina a proporcionar criterios para la interpretación, a
efectos prácticos, del diferente sustento evidencial para las hipótesis en consideración en un contraste, cuando tal sustento se expresa como cociente de verosimilitudes, y no como probabilidades de error del test.
114
EL PARADIGMA DE LA VEROSIMILITUD
115
El cuarto apartado presenta los resultados de una simulación que ilustra las
consideraciones teóricas de los apartados anteriores.
Por último, el quinto apartado se destina a las principales conclusiones y a exponer las líneas que garantizan la utilidad del principio de verosimilitud a la hora de
contrastar hipótesis.
2. ENFOQUE DE NEYMAN-PEARSON PARA LA CONTRASTACIÓN DE HIPÓTESIS
A efectos de establecer el marco conceptual de referencia, supondremos que
enfrentamos un fenómeno que contiene una variabilidad, descrita por una familia de
posibles distribuciones de probabilidad {Pθ:θ ∈ Θ} , donde θ se denomina parámetro, y el conjunto Θ al que pertenece el parámetro espacio paramétrico. Tal espacio
puede variar en diferentes situaciones concebibles, desde una familia de funciones
hasta un conjunto de números reales, o vectores. Aquí consideraremos que el
espacio paramétrico es un subconjunto de 5r. Podemos expresar la distribución de
probabilidad a través de su función de densidad o cuantía que denotamos por pθ.
La probabilidad de que se produzca la observación x se denota por pθ(x) o más
brevemente p(x).
Las conjeturas (hipótesis) acerca del comportamiento del fenómeno bajo estudio, se expresan en términos estadísticos afirmando que la variabilidad en el fenómeno se describe por un subconjunto de la familia de distribuciones de probabilidad
postulado o, alternativamente, que pertenece a un determinado subconjunto de Θ.
Supongamos que se formulan dos hipótesis rivales simples (aquellas que especifican completamente la distribución de probabilidades de la variable observada, x,
que toma valores en el espacio muestra, Χ), denotadas por H1 y H2, y tratamos de
determinar cuál de las dos está mejor “soportada” por los datos observados, x.
La forma de proceder para determinar la región crítica, C, óptima del test en el
paradigma de Neyman-Pearson (en adelante NP), consiste en preguntarse por la
existencia una región C ⊆ Χ, tal que el suceso { p1(x) / p(2(x) < k} bajo H1 tenga una
probabilidad igual a un nivel predeterminado, α, denominada probabilidad de error
de tipo I. En estas condiciones, el lema de NP garantiza que tal región será la que
presente menor probabilidad de cometer error de tipo II (consistente en “elegir” H1
bajo H2), denotada por β, entre todas aquellas regiones cuya probabilidad de cometer error de tipo I sea menor o igual que el nivel α, preestablecido.
Bajo esta perspectiva, un procedimiento de contrastación óptimo es un mecanismo de decisión óptimo: diseñado para presentar “buenas” propiedades a largo
plazo en el sentido de que minimice la frecuencia con que conducirá a conclusiones
115
116
ESTADÍSTICA ESPAÑOLA
erróneas. Pero tal y como señala Birnbaum (1962), además del problema de tomar
una decisión acertada, está el problema inferencial de cómo debe ser la interpretación de las observaciones en términos de evidencia a favor de las hipótesis en
juego.
A pesar de que el enfoque original de Neyman-Pearson se centra exclusivamente en el problema decisorio, los desarrollos ulteriores y dominantes en la literatura estadística han abordado el problema inferencial otorgando a las probabilidades de error del contraste un significado en términos de evidencia relativa. Así es
usual en la práctica estadística entender que si se han predeterminado probabilidades de error (α, β) suficientemente pequeñas –digamos (0.05, 0.05)-, y las observaciones ulteriores conducen al rechazo de H1 a favor de H2 , tal rechazo se realiza
sobre una supuesta evidencia “fuerte” o “moderadamente fuerte” en tal sentido,
mientras que si dichas probabilidades de error toman los valores (0.1;0.2), la “evidencia” con la que se rechazaría H1 se considera moderada, sino débil.
Otra interpretación usual en la literatura consiste en atender a los valores de α y
β observados (o sólo al α observado denominado p-valor del contraste), interpretándolos en idéntico sentido al señalado anteriormente: valores bajos para ambos
(α,β) significarían fuerte sustento evidencial del resultado del contraste.
Pues bien, uno de los propósitos de este artículo es poner de relieve que tal interpretación es lógicamente inconsistente, lo que no constituye una novedad: Pratt
(1961 y 1977), Birnbaum (1962, 1970, 1977), Royall (1997).
En primer lugar, la “forma” de la región crítica viene dada por la desigualdad,
{p1(x) / p(2(x) < k}
[1]
es decir, por la verosimilitud relativa de la muestra bajo las hipótesis alternativas.
En concreto, la regla prescribe inclinarse hacia H2 a partir de un determinado valor
“k”, sobre el que más adelante volveremos, y que es el número de veces que es
relativamente más verosímil H1 que H2. Dada una muestra donde k=2 significa que
H1 es 2 veces “ relativamente más preferida”(1) por los datos que H2, mientras que
k=1/2, expresaría la situación contraria. Por tanto, el lema de NP establece una
división del espacio muestra en función de la preferencia relativa de los resultados,
x, por las distintas hipótesis, determinando como región crítica el subconjunto de
resultados que “soporten” en mayor medida relativa H2. Además de esta condición,
se impone el cumplimiento de (2) para que el test tenga el tamaño deseado,
(1) Sobre la interpretación de la función de verosimilitud como la expresión del orden
natural de preferencias de los datos por las distintas hipótesis véase Fisher (1973, pag 73)
116
EL PARADIGMA DE LA VEROSIMILITUD
Pθ [{p1(x) / p(2(x) < k} / H1] = α
117
[2]
y si hay otro más potente que el obtenido como consecuencia de aplicar (1) y (2),
necesariamente ha de corresponder a otra probabilidad α.
En definitiva, ¿cuál es el concepto de evidencia implícitamente manejado en el
anterior razonamiento?. Es decir, ¿qué se emplea como portador de la información
de los datos para dilucidar entre las diferentes hipótesis? Es claro que la función de
verosimilitud.
3. FUNCIÓN DE VEROSIMILITUD Y PRINCIPIO DE VEROSIMILITUD
Antes de seguir avanzando, examinemos un ejemplo de función de verosimilitud.
Supongamos que se trata de determinar la probabilidad ‘p’ asociada al resultado
‘cara’ al lanzar una moneda. Imaginemos que realizamos 30 lanzamientos y obtenemos 12 caras. La función de verosimilitud de este resultado, que denotamos por
l(x,p), es proporcional a la probabilidad de observar el resultado ‘x’ cuando la
probabilidad de éxito toma el valor ‘p’.
 30
l(x, p) = cpθ (x) = c  p12 (1 − p)18
 12 
donde ‘c’ es una constante de proporcionalidad, que podemos establecer como
c=
1
1
=
maxl(x, p)  30  12 12  12 18
 

1−
{p}
 12  30  30 
de modo que la función de verosimilitud está “normalizada” con respecto a su
máximo, siendo su expresión final
l(x, p) =
p12 (1 − p)18
12 12 
12 

1 −
30 
30 
18
117
118
ESTADÍSTICA ESPAÑOLA
El gráfico siguiente recoge la forma de esta función en este caso concreto
Como se observa, la función de verosimilitud alcanza su máximo en 0.4, el valor
de p más soportado por los datos (o preferido), para disminuir a medida que nos
alejamos de este punto. La ordenada de la función para cada valor de ‘p’ es la
verosimilitud de tal valor. Si la comparación entre la verosimilitud de dos valores
del parámetro ‘p’ se realiza a través del cociente de sus ordenadas correspondientes, es obvio que la verosimilitud relativa no queda afectada por el cambio de
escala consecuencia de ‘normalizar’, tal como se ha hecho anteriormente.
Supongamos que tuviéramos interés en comparar el soporte relativo de las hipótesis H1:p=0,3; frente a H2: p=0,6. El cociente o razón de verosimilitud sería
5.78529, interpretándose como que la hipótesis H1 es soportada 5.7 veces más, en
términos relativos, que H2.
La preguntas inmediatas son:¿qué significa ser relativamente preferido 5.7 veces más? y ¿cuál es la escala en la que se miden estas preferencias relativas?
Dada la definición de la función de verosimilitud, 5.7 es el número de veces que la
observación, x, resulta más probable bajo H1 que bajo H2. La respuesta en relación
a la escala queda, momentáneamente, diferida.
Como puede apreciarse, en el caso de hipótesis simples, la observación y
eventual tabulación de la función de verosimilitud permite reflejar la intensidad con
que los datos observados soportan los diferentes valores del parámetro. Como
consecuencia lógica de tal representación de la evidencia, surgen los intervalos de
118
EL PARADIGMA DE LA VEROSIMILITUD
119
verosimilitud, - véase por ejemplo Hudson (1971) o Edwards, (1972). En concreto,
Hudson los define como:


 ∧
I(θ ) = θ: Lnl(x, θ) ≥ Lnl x, θ  − Lnk




[3]
Es decir, el conjunto de valores del parámetro tales que el valor más preferido lo
es, con respecto a ellos, k veces como máximo(2). A efectos ilustrativos, si en el
ejemplo anterior de 12 caras en 30 lanzamientos, consideramos una preferencia
relativa máxima de 3 (el máximo, p=0.4, es preferido como mucho 3 veces más), el
intervalo que obtenemos es (0.274; 0,535)(3)
La aceptación de tal función como la única portadora de ‘evidencia’ es un argumento extra-matemático, puesto que no es derivable a partir del cuerpo de axiomas
de probabilidad. Tal argumento se formula como axioma de verosimilitud: (Edwards, 1972, pag 31): “Dentro del sistema de un modelo estadístico, toda la información que proveen los datos en cuanto a los méritos relativos de dos hipótesis
está contenida en el cociente de verosimilitud de esas hipótesis sobre los datos, y
el cociente de verosimilitud se interpretará como el grado en que los datos soporta
una hipótesis frente a la otra”.(4)
Para Lindsey (1996, pag 73), al aceptar este principio “lo que hemos hecho es
utilizar la variabilidad de los posibles resultados del mecanismo generador de los
datos, específicamente, la incertidumbre sobre que el resultado observado hubiera
ocurrido, para proveer una medida de la incertidumbre sobre los parámetros del
modelo utilizado para describir ese mecanismo. Esto debe ser distinguible de
cualquier incertidumbre acerca de la elección del modelo (función) debida a la
carencia de información (teórica), que no aparece en la verosimilitd (...) El principio
de verosimilitud no establece que la inferencia estadística deba basarse solamente
en este principio. Es más, es una afirmación relativa, comparando modelos, pero
sin proveer conocimiento absoluto acerca de cualquier modelo posible. Esto es
lógico si ningún modelo puede ser cierto. Lo único que queremos es el mejor
(2) El logartimo de la función de verosimilitud es denominado “función de soporte”. En
caso de considerar la función de verosimilitud normalizada, lo que tenemos es la expresión
de las preferencias relativas en términos aditivos. De ahí el nombre de soporte.
(3) Obsérvese que puesto que la función de verosimilitud toma distintos valores dentro
del intervalo de verosimilitud, no todos los valores del parámetro dentro del intervalo presentan el mismo sustento evidencial. Esto es diferente en el caso de los intervalos de confianza,
donde todos los valores del intervalo son igualmente compatibles con los datos. Además, el
intervalo de verosimilitud del ejemplo no es simétrico respecto a 0.4.
(4) Para una discusión lógica sobre los fundamentos del principio de verosimilitud véase
Birnbaum (1962, 1977).
119
120
ESTADÍSTICA ESPAÑOLA
modelo entre los disponibles para que nos ayude a comprender cómo pueden ser
generados los datos”
Admitido este axioma, es relativamente fácil comprender por qué la interpretación de las probabilidades de error de un contraste como medida de la evidencia
pueden entrar en contradicción con el principio de verosimilitud y, consecuentemente, no debe otorgarse a tales probabiliades un significado evidencial.
En primer lugar, puesto que en general, β es la probabilidad en la cola de la distribución bajo H2, resulta que cuanto más potente sea el test (menor β) menos
compatibles resultaran los datos con H2 y, por tanto, más débil será la evidencia
relativa de H2 contra H1, puesto que la verosimilitud es proporcional a la probabilidad de las observaciones bajo cada una de las hipótesis. Tomemos un ejemplo de
Pratt (1977, pag 65) : si x es N(0,1) bajo H1 y N(θ,1) bajo H2 , y x=1.645 (α=0.05),
entonces H2 es más plausible si θ=2 (β=0.36) que si θ=4 (β=0.009).
Además, dado que la relación entre las probabilidades de error observadas de
un contraste y la razón de verosimilitud es (Pratt, 1977):
α≤
1− α 1
α
≤ λ (x ) ≤
≤
1− β
β
β
-donde λ(x) es la razón de verosimilitud-, se sigue que si la razón de verosimilitud
es pequeña α debe ser pequeño, mientras que si la razón de verosimilitud es
grande β debe ser grande. Así para (α=0.05, β=0.05) - valores observados a los
que usulamente se asocia un grado de sustento evidencial ‘fuerte’ - la razón de
verosimilitud puede tomar cualquier valor comprendido entre 1/19 y 19, y si tal
cociente expresa la “intensidad” del soporte relativo de los datos por las dos hipótesis en juego, está claro que podemos encontrarnos con muestras que soporten H1 ,
o H2 , o que carezcan de información para dilucidar entre ambas hipótesis.
Si las probabilidades de error se fijan de antemano, en el más estricto sentido
del paradigma NP, entonces la razón de verosimilitud no está acotada según la
desigualdad anterior, de modo que con mayor razón las probabilidades de error no
son necesariamente compatibles con el grado de sustento evidencial medido a
través de λ(x).
Consideremos el siguiente ejemplo tomado de Royall (1996, pag16). Se trata de
dilucidar entre dos hipótesis relativas a la probabilidad de éxito, θ, en 30 repeticiones independientes de un experimento de Bernoulli, H1: θ=1/4 y H2: θ=3/4. Cuando
el número observado de éxitos se representa por x, la razón de verosimilitud es
p2 (x ) p1(x ) = 32x − 30 (en el numerador H2). La mejor región crítica con tamaño
α=0.05 contiene todos los valores de x para los cuales la razón de verosimilitud es
120
121
EL PARADIGMA DE LA VEROSIMILITUD
como mínimo k = 3 24−30 = 1 729 , es decir x ≥ 12 . (Bajo H1 la probabilidad de 12
éxitos o más en 30 repeticiones es sólo 0.05).
Como se ve en este ejemplo, el “mejor” test llama a elegir H2 cuando la evidencia favorece, de hecho, a H1: un factor k menor que la unidad. En concreto, si se
observa x=12 el test determina la elección de H2 cuando los datos soportan 729
veces más a H1, en términos relativos. De modo análogo, los resultados x=13 y
x=14 representan evidencia bastante fuerte en favor de H1; y en cuanto a la observación x=15, que se corresponde a una tasa de éxito observada de 1/2 equidistante de las hipótesis formuladas (θ=1/4 y θ=3/4)- comprobamos que mientras el método NP determina la elección de H2, la evidencia relativa en términos de
verosimilitud es neutral entre las hipótesis p 2 x p 1 x = 1 .
()
()
4. LA ESCALA DE MEDIDA DE LA VEROSIMILTUD
Abordemos ahora el problema de la escala en la que medir la verosimilitud relativa. Es decir, la respuesta a la pregunta formulada anteriormente sobre cómo
interpretar que una hipótesis es 5.7 veces relativamente más preferida que otra.
Lindsey (1996) refiere los resultados de Kass y Raftery(5) que proporcionan
una interpretación de los valores de la función de verosimilitud normalizada (con
respecto a su máximo) recogida en la tabla siguiente:
Valores de la razón de verosimilitud normalizada
Evidencia
0.37 - 1
Pequeña
0.05 - 0.37
Positiva
0.007-0.05
Fuerte
<0.007
Muy Fuerte
Por su parte, Royall (1996) define una escala de soporte evidencial por comparación a un experimento que denomina “canónico” y que resumimos a continuación.
Supongamos que se tienen dos hipótesis sobre las proporciones de la composición
de colores de las bolas que integran una urna. Las dos hipótesis son: ‘todas blancas’ y ‘la mitad blancas’, respectivamente. Para dilucidar entre ellas se extraen
bolas de la urna con reposición, removiendo antes de cada extracción.
(5) Kass y Raftery (1995) Bayes factors. Journal of the American Statistical Association,
90, 773-795
121
122
ESTADÍSTICA ESPAÑOLA
Supongamos que se extrae una bola que resulta ser blanca, a continuación otra
blanca. Si en la tercera extracción la bola resulta blanca, se podrá caracterizar tal
situación como evidencia “bastante fuerte” en favor de “todas blancas” frente a “la
mitad blancas”. La razón de verosimilitud es 2 3 = 8 .
A partir de este ejemplo construye la tabla siguiente razonando de este modo: si
observamos b blancas, la razón de verosimilitud en favor de ‘todas blancas’ sobre
‘la mitad blancas’ es igual a 1 (12 ) , o 2b . Por tanto una verosimilitud relativa de ‘k’
b
corresponde a ‘b’ bolas blancas consecutivas, donde k = 2b .
Razón verosimilitud
10
20
50
100
1000
b
3.3
4.3
5.6
6.6
10.0
Estamos ahora en condiciones de evaluar sobre una base más objetiva, cuánta
evidencia representa un factor k = 5.7 o un factor k = 729.
5. UN EJEMPLO SIMULADO
Para ilustrar convenientemente la incoherencia del paradigma NP con la interpretación de la evidencia en términos de la razón de verosimilitud -corazón de dicho
paradigma- hemos elaborado el siguiente ejemplo. Tomamos observaciones procedentes de una población N(µ,σ2), donde la media es desconocida considerando dos
hipótesis alternativas para la varianza, H1: σ2=16 y H2 : σ2=49. Se consideran
muestras de tamaño 20 y la regla de contraste (región crítica) viene determinada
por

C = X :

∑
2
_


 x − x  > 482,28



[4]
que conduce al rechazo de H1 en favor de H2. Esta regla se ha fijado de modo
que las probabilidades de error se pueden cifrar en (0.05, 0.043), por lo que, de
acuerdo con la interpretación al uso criticada en este artículo, cualquier resultado
que se alcance bajo estas condiciones, se considerará apoyado por evidencia
“fuerte”.
122
EL PARADIGMA DE LA VEROSIMILITUD
123
A continuación se procedió a generar, mediante simulación, 1000 muestras de
tamaño 20 a partir de x∼N(20,4) -H1- , y otras tantas a partir de x∼N(20,7) -H2-(6).
Para “representar” la evidencia en términos de verosimilitud, el supuesto establecido de desconocimiento de µ , implica que en la función de verosimilitud obtenida a
partir de la función de densidad de la distribución normal, está presente µ como
parámetro de ruido, y para prescindir del mismo hemos elegido representar la
verosimilitud de la muestra sobre σ2, a través de la denominada verosimilitud
marginal (7)-obtenida a partir de la distribución en el muestreo del estadístico (n1)s2. El logaritmo de tal función normalizada con respecto al máximo es:
L(σ 2 ) = −
n − 1   σ 2
Ln
2   s 2

s 2 
 − 1+


σ 2 

Se aplica esta función, particularizándola para las dos hipótesis sobre la varianza, a cada una de las muestras, y se obtiene la razón de verosimilitud p2(x)/p1(1x),
como λ(x) = Exp[L(σ22)-L(σ21)].
Elegimos considerar el valor 8 de la razón de verosimilitud, como nivel de evidencia “bastante fuerte” -tres extracciones consecutivas de bolas blancas en el
experimento canónico de Royall- de modo que si λ>8 se considera evidencia fuerte
en favor de H2; si λ<1/8 se considera evidencia fuerte en favor de H1; y si toma
valores intermedios, se considera evidencia débil para dilucidar entre las dos
hipótesis.
A cada una de las muestras se les aplicó la regla de contrastación derivada del
paradigma NP, tal y como se formuló en (4).
La tabla de la página siguiente resume los principales resultados de esta simulación y muestra como, bajo el concepto de evidencia subyacente en el cociente de
verosimilitud, las “decisiones” derivadas de la aplicación de la regla NP, son incoherentes. En concreto, lo más relevante es que muchas decisiones-NP se toman con
un nivel de evidencia “débil”. Esto es especialmente importante si consideramos
que a la hora de contrastar hipótesis no sabemos, a diferencia de este ejemplo,
cuál de ellas es cierta, si es que alguna lo es. Y que el verdadero problema consiste
en dilucidar qué hipótesis es “relativamente” más compatible con la observación.
(6) Tomar la media de la población como 20, se ha hecho por conveniencia, para poder
generar las muestras. De hecho para realizar las “inferencias” a partir de la función de
verosimilitud, y fijar las probabilidades de error de tipo I y II, se ha operado considerando µ
desconocida.
(7) La idoneidad de esta elección descansa en que esta función de verosimilitud es “robusta” para distintos valores de la media . Tsou (1995)
123
124
ESTADÍSTICA ESPAÑOLA
La primera columna de la tabla indica el número de la serie correspondiente a
las 10 series de muestras (100 muestras de tamaño 20 en cada serie) generadas
bajo las dos hipótesis consideradas. La segunda columna, el número de veces que
la regla NP condujo al rechazo de H1. La tercera, el número de veces que el cociente de verosimilitud favoreció H2 (el rechazo de H1) con un factor de al menos 8.
Obviamente esta evidencia es equívoca cuando los datos se generan a partir de
N(20,4)). La cuarta, el número de veces que el cociente de verosimilitud favoreció
H1 en un factor de al menos 8. La última columna el número de veces que la evidencia, en forma de cociente de verosimilitud, fue débil.
2
DATOS GENERADOS BAJO H1: σ = 16
Numero de la
serie
Rechazo H1
según NP
Evidencia fuerte
errónea en contra
de H1
Evidencia fuerte a
favor de H1
Evidencia
Débil
1
2
3
4
5
6
7
8
9
10
5
2
4
3
5
4
6
7
4
5
1
0
0
0
0
0
0
4
1
2
85
93
88
84
79
90
84
81
87
87
14
7
12
16
21
10
16
15
12
11
Total
Porcentaje
45
0,045
8
0,008
858
0,858
134
0,134
124
125
EL PARADIGMA DE LA VEROSIMILITUD
2
DATOS GENERADOS BAJO H2: σ = 49
Rechazo H1
según NP
Evidencia fuerte en
contra de H1
Evidencia fuerte
errónea en contra
de H2
Evidencia
Débil
1
2
3
4
5
6
7
8
9
10
96
95
94
96
98
97
96
97
95
100
88
90
84
87
91
88
84
91
86
93
2
3
3
3
1
1
1
1
2
0
10
7
13
10
8
11
15
8
12
7
Total
Porcentaje
964
0,964
882
0.882
17
0,017
101
0,101
6. CONCLUSIONES
Como conclusiónes principal podemos señalar que la supuesta base evidencial
resultante de trabajar con una regla cuyo comportamiento medio es óptimo según
cierto criterio (probabilidades de error en el paradigma NP) no es válida. Si bien en
la simulación anterior, se observa que al operar con probabilidades de error pequeñas, es muy infrecuente que se presenten situaciones con evidencia fuerte “errónea" - frecuencia del 8 por mil bajo H1 y del 1,7% bajo H2 - , la frecuencia de aparición de evidencia “débil” es muy superior: por encima del 10% bajo las dos hipótesis. Por lo tanto, de la mera aplicación de la regla de decisión dicótoma (NP) no se
puede garantizar, ni siquiera en términos de frecuencia aceptable a largo plazo en
sucesivas repeticiones del muestreo, que la observación soporte fuertemente tal
decisión.
Si se quiere hacer compatibles ambas visiones es necesario enfocar el problema precisamente en el orden inverso al empleado por Neyman-Pearson. Primero
determínese qué nivel de “evidencia” -en términos del cociente de verosimilitud- se
desea para discernir entre diferentes hipótesis y, luego podremos, eventualmente y
siempre que interese, determinar las probabilidades de error.
Ahora bien, si empleamos la razón de verosimilitud como medida de la evidencia, sería tranquilizador, a la hora de diseñar un experimento, estar en condiciones
125
126
ESTADÍSTICA ESPAÑOLA
de determinar el tamaño muestral necesario para discernir entre hipótesis “verdaderas” e hipótesis “falsas” con cualquier nivel de exigencia (en términos de la razón
de verosimilitud) y con casi seguridad. En otras palabras, supongamos que X se
distribuye de acuerdo con pB, (una hipótesis que consideramos “cierta”) y que pA es
otra distribución de probabilidad (la hipótesis “falsa”); dada una constante k>0
podemos afirmar:
1
( )
≥ k ≤
Pr p A X
pB (X)  k

[5]
Es decir, la probabilidad de obtener evidencia equívoca en favor de la hipótesis
falsa es menor, cuanto mayor sea la fuerza de la evidencia (k) requerida.
La demostración es inmediata. Si S es el conjunto de valores de x que producen
un cociente de verosimilitud en favor de la hipótesis A de al menos k unidades,
cuando B es cierta:
Pr(S) =
∑ p (X) ≤ ∑ p (X)
B
S
A
k ≤1k
[6]
S
Expresión que establece la práctica imposibilidad de encontrar evidencia fuerte
en favor de una hipótesis falsa.
Pero además, es posible demostrar (Robbins, 1970) que si Xi se distribuyen iid
n
bajo HB, y A etiqueta otra hipótesis, el cociente
∏p
A
(xi ) pB (xi )
converge a cero
i=1
con probabilidad 1. Lo que significa que es posible especificar cualquier número k
por grande que sea, tal que encontraremos un número ‘n’ de observaciones que
con probabilidad 1, la evidencia en favor de B será de al menos k. Es decir, para
cualquier requerimiento de evidencia en términos de verosimilitud relativa, k, que
deseemos establecer, habrá un tamaño muestral que permita alcanzarlo.
Para finalizar es preciso añadir que la mayor parte de las conclusiones son
trasladables al caso de los denominados “contrastes de significación”, donde la
medida de la evidencia allí manejado se expresa a través de la probabilidad de tipo
I observada. Por cuestiones de espacio no abordamos aquí este problema. Baste
señalar que, la idea subyacente bajo el paradigma de la verosimilitud es evaluar el
soporte relativo de los datos por hipótesis rivales, sin pretender aportar una media
absoluta del soporte, como se deriva de la apliación corriente de los contrastes de
significación.
126
127
EL PARADIGMA DE LA VEROSIMILITUD
REFERENCIAS
BIRNBAUM, A. (1962). «On the Foundations of Statistical Inference», Journal of the
American Statistical Association, 57, 269-326
BIRNBAUM, A. (1970). «Statistical Methods in Scientific Inference» (Letter), Nature,
225,1033
BIRNBAUM, A. (1977). «The Neyman-Pearson Theory as Decision Theory, and as
Inference Theory; with a Criticism of the Lindley-Savage argument for Bayesian
Theory», Synthese 36, 19-49
EDWARDS, A.W. (1972). «Likelihood». Cambridge University Press.
FISHER, R.A. (1973). «Statistical Methods and Scientific Inference», Hafner Press,
London
HUDSON. D.J. (1971). «Interval Estimation from the Likelihood Function», Journal of
the Royal Statistical Society, B33, 256-262
LINDSEY, J.K. (1996). «Parametric Statistical Inference», Clarendon Press, Oxford
LINDSEY, J.K. (1999). «Statistical Heresies». The Statistician 48, 1-40
NELDER, J.A. (1999). «Statistics for the Milenium». The Statistician” 48, 257-269
PRATT, J.W. (1961). «Review of Testing Statistical Hypotheses by E.L Lehmann»,
Journal of the American Statistical Association, 56, 163-167
PRATT, J.W. (1977). «Decisions’ as statistical evidence and Birnbaum’s ‘confidence
concept». Synthese 36, 59-69
ROBBINS, H. (1970). «Statistical Methods related to the law of the iterated logaritmh».
Annals of mathematical Statistics, 41, 1397-1409
ROYALL, R. (1997). «Statistical Evidence. A Likelihood paradigm»», Chapman & Hall
SILVEY, S.D. (1970). «Statistical Inference», Chapman & Hall
TSOU , T.S. (1995). «Robust Likelihood». Journal of the American Statistical Association, v 90, 429, 316-320
127
128
ESTADÍSTICA ESPAÑOLA
LIKELIHOOD PARADIGM
SUMMARY
The use of error probabilities of statistical hypothesis testing procedures as a measure of the strengh of evidence is, at least, equivocal.
The Neyman-Pearson approach is concerned with using the observations to make a choice between the hypothesis under consideration, and the evidencial interpretations of the data fall outside the scope of this theory.
This paper remarks that the concept of evidence is embodied in the
law of likelihood, as it was originally conceived by Fisher: data’s preference function over the parametric space.
In addition to logical considerations, this paper includes the results
of a simple simulation showing that, under certain requierements expressed in terms of relative preference measured through the likelihood ratio between rival hypothesis, the Neyman Pearson’s device fails
due to the fact that it supports hypothesis that are weakely based on
evidence.
Key words: likelihood, Hypothesis Testing
AMS Classification: 62F03
128
Descargar