Subido por Mayela Marquinez

Test estadísticos

Anuncio
Tarea 2
Estadística
Integrantes: Mayela W. Marquínez M. 4 – 761 – 124
Walys M. Marquínez M. 4 – 761 – 123
Test estadísticos
Son el instrumento o procedimientos matemáticos para testar la hipótesis
estadística que, al contrario de la estadística paramétrica, no hacen ninguna
asunción sobre las distribuciones de frecuencia de las variables que son
determinadas. El nivel de medición puede ser nominal u ordinal. La muestra no tiene
que ser aleatoria.
1. Hipótesis alternativas
Es una afirmación sobre la población que es contradictoria con 𝑯𝑶 y lo que
concluimos cuando rechazamos 𝑯𝑶 . Esto es normalmente lo que el investigador
está tratando de probar.
Dado que las hipótesis nula y alternativa son contradictorias, debe examinar las
pruebas para decidir si tiene suficiente evidencia para rechazar la hipótesis nula o
no. Las pruebas se presentan en forma de datos de muestra.
Una vez que haya determinado qué hipótesis apoya la muestra, tome una decisión.
Hay dos opciones para tomar una decisión. Son "rechazar 𝑯𝑶 " si la información
de la muestra favorece la hipótesis alternativa o "no rechazar 𝑯𝑶 " o "negarse a
rechazar 𝑯𝑶 " si la información de la muestra es insuficiente para rechazar la
hipótesis nula.
1.1 Riesgo y potencia
Hasta aquí hemos realizado tests con una sola hipótesis de modelación 𝑯𝑶 . El
único error que podía ser cuantificado consistía en rechazar 𝑯𝑶 erróneamente. La
probabilidad de este rechazo es el umbral
del test. No rechazar 𝑯𝑶 significa
solamente que no ha sucedido nada que nos permita ponerla en duda. Esto no
significa que 𝑯𝑶 es ''verdadera'' (las leyes de probabilidad no existen en la
naturaleza). De ahora en adelante vamos a situarnos en una situación donde dos
modelos están compitiendo el uno contra el otro. Los datos disponibles deberán
permitirnos tomar una decisión sobre 𝑯𝑶 , con referencia a otra hipótesis 𝑯𝟏 .
Decimos
entonces
que
hacemos
un
Tomemos el ejemplo de un indicador fisiológico
test
de 𝑯𝑶 contra 𝑯𝟏 .
(tasa de una cierta substancia
en la sangre) la cual con un valor elevado es un síntoma de una cierta enfermedad.
Como es habitual, se considerará que la tasa observada en un individuo es la
realización de una cierta variable aleatoria. Supongamos que estudios anteriores
han mostrado que en un sujeto sano, el valor de
mientras que en un sujeto enfermo ella sigue la
sigue la ley
ley . Si la
enfermedad no es grave, y si el tratamiento comporta riesgos para el paciente, el
médico decidirá favorecer la hipótesis que su paciente goza de buena salud: esa
será su hipótesis nula 𝑯𝑶 . Ella será comprobada por un test unilateral a la derecha
(rechazo de los valores de
decisión es:
Rechazo de
muy grandes). Con el umbral 𝛼 = 0,05, la regla de
Se decidirá, por tanto, que el paciente está enfermo si su tasa es mayor que
𝒍𝟎 = 𝟏. 𝟒𝟗𝟑. El umbral
enfermo
a
un
mide el riesgo de rechazar 𝑯𝑶 erróneamente (declarar
individuo
sano).
Pero
otro
riesgo
consiste
en
no
rechazar 𝑯𝑶 mientras que 𝑯𝟏 es verdadera (no diagnosticar la enfermedad
cuando el paciente está verdaderamente enfermo). Se denota 𝛽 la probabilidad
correspondiente:
𝛽 = ℙℋ1 [𝑁𝑜 𝑟𝑒𝑐ℎ𝑎𝑧𝑎𝑟 ℋ0 ]
En este caso la ley de
bajo la hipótesis 𝑯𝟏 es la ley
normal y por tanto:
Rechazar 𝑯𝑶 erróneamente es el error de primera especie y el umbral
es
el riesgo de primera especie. No rechazar 𝑯𝑶 erróneamente es el error de
segunda especie y la probabilidad 𝜷 de este error es el riesgo de segunda especie.
La probabilidad 1 − 𝛽 de rechazar 𝑯𝑶 bajo 𝑯𝟏 se llama la potencia del test.
Como hemos mostrado en los ejemplos, puede ser que el riesgo de segunda
especie 𝜷 sea bastante importante, mientras que el umbral del test
se fija al
definir el test. El error de primera especie es el que se elige controlar, aún cuando
esto signifique no tener en cuenta el error de segunda especie. Esto induce una
disimetría en el tratamiento de las dos hipótesis. La regla de rechazo del test está
definida únicamente a partir de
y 𝑯𝑶 . Ante dos alternativas, se tomará
como 𝑯𝑶 la hipótesis que sería más grave rechazar erróneamente.
Retomemos el ejemplo del diagnóstico, pero supongamos ahora que la enfermedad
es potencialmente muy grave pero fácilmente curable. El peligro sería no detectar
la enfermedad. El médico tomará como hipótesis nula la hipótesis que el paciente
está enfermo.
ℋ0′ : 𝑇 𝑠𝑖𝑔𝑢𝑒 𝑙𝑎 𝑙𝑒𝑦 𝒩 (2,0.16)
El test será ahora unilateral a la izquierda (rechazo de los valores muy pequeños).
Al umbral 𝛼 = 0,05, la regla de decisión es:
′
Rechazo de ℋ0
⇔ 𝑇 < 𝑙1 = 𝒬𝒩(2,0.16) (0.05) = 1.342
Se constata que 𝒍𝟏 es menor que 𝒍𝑶 . Este test es, por tanto, diferente del anterior.
Según el valor de
, las decisiones pueden coincidir o no.
Si 𝑇
< 𝑙1 : se acepta 𝑯𝑶 y se rechaza ℋ0′ , las decisiones son coherentes.
Si 𝑙1
< 𝑇 < 𝑙0 : se aceptan 𝑯𝑶 y ℋ0′ , resultado no interpretable.
Si 𝑇
< 𝑙0 : rechazo de 𝑯𝑶 y se acepta ℋ0′ , las decisiones son coherentes.
1.2 Tests paramétricos
Nos situamos en el caso más frecuente, donde las variables son modeladas por una
muestra de una cierta ley desconocida. Hasta ahora, hemos considerado hipótesis
que tienen que ver con una sola ley
, lo que permitía determinar la ley de
un estadígrafo de test en función de la muestra, y por tanto calcular las
probabilidades de error (umbral o riesgo). Cuando una hipótesis tiene que ver con
una sola ley se dice que es simple. En el caso contrario, decimos que es compuesta.
Frecuentemente, el modelo presupone que la ley desconocida pertenece a una
cierta familia de leyes prefijada, que dependen de uno o más parámetros (leyes
binomiales, leyes normales...). Denotaremos por
desconocida. Un test sobre los valores de
al parámetro y por 𝑷𝜽 a la ley
se llama paramétrico. Una hipótesis
simple será del tipo 𝜽 = 𝜽𝟎 , donde 𝜽𝟎 es un valor prefijado. Las hipótesis
compuestas
serán
del
tipo 𝜽 < 𝜽𝟎 , 𝜽 > 𝜽𝟎 o 𝜽 ≠ 𝜽𝟎 .
Para hacer un test sobre el valor del parámetro, lo más lógico consiste en emplear
como estadígrafo de test a un estimador convergente de este parámetro. Un
estimador convergente es un estadígrafo (función de la muestra), que toma valores
que estarán más cercanos a
Si
mientras más grande sea el tamaño de la muestra.
es un estimador convergente de
𝓗 𝟎 : 𝜽 = 𝜽𝟎 ,
, entonces bajo la hipótesis
𝜽𝟎 .
Se
< 𝜽𝟏 , el test será unilateral a la derecha (rechazo de los valores de
muy
debe
rechazará 𝓗𝟎 cuando
tomar
valores
cercanos
a
toma valores muy alejados de 𝜽𝟎 .
Veamos el caso de dos hipótesis simples:
𝓗𝟎 : 𝜽 = 𝜽𝟎 contra 𝓗𝟏 : 𝜽 = 𝜽𝟏
Si 𝜽𝟎
grandes). Pero la definición del test no tiene en cuenta a 𝜽𝟏 : será la misma para
cualquier valor 𝜽𝟏 > 𝜽𝟎 , y también para:
𝓗𝟎 : 𝜽 = 𝜽𝟎 contra 𝓗𝟏 : 𝜽 > 𝜽𝟎
igual en el caso:
𝓗𝟎 : 𝜽 ≤ 𝜽𝟎 contra 𝓗𝟏 : 𝜽 > 𝜽𝟎
En este último caso, como la hipótesis 𝓗𝟎 es compuesta, el umbral será definido
como la probabilidad maximal de rechazar 𝓗𝟎 erróneamente.
Se empleará un test bilateral para probar:
𝓗𝟎 : 𝜽 = 𝜽𝟎 contra 𝓗𝟏 : 𝜽 ≠ 𝜽𝟎
Una manera frecuentemente empleada para definir un test paramétrico a partir de
una estimación de
es de utilizar un intervalo de confianza.
Definición 4.1 Sea (𝑋1 , . . . , 𝑋𝑛 ) una muestra de la ley 𝑷𝜽 . Se llama intervalo de
confianza de nivel 1 − 𝛼 a un intervalo aleatorio [𝑇1 , 𝑇2 ] , donde
𝑇1 ≤ 𝑇2
son dos estadígrafos, funciones de la muestra, tales que:
Por tanto, un intervalo de confianza contiene al valor del parámetro con una fuerte
probabilidad. Si la hipótesis 𝓗𝟎 : 𝜽
= 𝜽𝟎 es verdadera, el intervalo de confianza
debe contener a 𝜽𝟎 .
Proposición 4.2 Sea [𝑇1 , 𝑇2 ] un intervalo de confianza de nivel 𝟏 − 𝜶 para
Se define un test de umbral
para la hipótesis 𝓗𝟎 : 𝜽
= 𝜽𝟎 por
.
la regla de
decisión:
Rechazo de 𝓗𝟎 ⇔ 𝜽𝟎
∉ [𝑇1 , 𝑇2 ]
Consideremos el caso de una muestra de la ley exponencial 𝜺(𝝀) . Queremos un
test bilateral de la hipótesis 𝓗𝟎 : 𝝀
la media empírica 𝑻
=
𝟏
= 𝟏 . El estimador natural de 𝝀 es el inverso de
. Para una muestra de la ley 𝜺(𝝀), la media
𝑿
empírica 𝑿 sigue la ley gamma 𝓖(𝓷, 𝓷𝝀), por tanto la variable aleatoria
𝝀
𝑻
sigue
la ley gamma 𝓖(𝓷, 𝓷). Se deduce que el siguiente intervalo es un intervalo de
confianza de nivel 𝟏 − 𝜶 para
𝝀:
La regla de decisión para el test de umbral
que se deduce de este intervalo de
confianza será:
Rechazo de
En este caso, el test basado en el intervalo de confianza es equivalente al test
basado en el intervalo de dispersión simétrico de la ley de
siempre es así).
bajo 𝓗𝟎 (pero no
Descargar