RESUMEN DE INFERENCIA ESTADÍSTICA MÉTODOS DE INVESTIGACIÓN AVANZADA RESUMEN DE TÉRMINOS USADOS EN INFERENCIA ESTADÍSTICA POBLACIÓN: Conjunto de individuos o elementos que poseen ciertas propiedades comunes que se desea estudiar. MUESTRA: Conjunto representativo de los elementos de una población. DISTRIBUCIÓN MUESTRAL: Función que describe las probabilidades de una determinada variable aleatoria (característica) de la muestra. PARÁMETRO: Característica numérica de la distribución de la población, describe parcial o completamente la distribución. ESTADÍSTICO: Variable aleatoria función de las variables aleatorias de la muestra. ESTIMADOR: Estadístico que para una muestra determinada da un valor numérico concreto del parámetro de estudio de la población. *Los parámetros se estiman en base a estadísticas. *Las estadísticas se obtienen de la información contenida en una muestra aleatoria, cada muestra entrega un estimador del parámetro. *Estimación de parámetros se basa en la teoría de probabilidades y sólo es posible cuando se conoce la distribución muestral del estadístico. INFERENCIA ESTADÍSTICA: Proceso inductivo mediante el cual podemos decidir acerca de la realidad DE LA POBLACIÓN en base a la información muestral adecuadamente procesada. Objetivos de la inferencia estadística: Estimación de parámetros. o Estimación Puntual. o Estimación por intervalos de confianza. Contraste de hipótesis. Rocío Garrido Martos 1 RESUMEN DE INFERENCIA ESTADÍSTICA MÉTODOS DE INVESTIGACIÓN AVANZADA HIPÓTESIS ESTADÍSTICA: Afirmación que se hace acerca de un parámetro poblacional. La afirmación que está establecida y que se espera sea rechazada después de aplicar una prueba estadística es llamada la hipótesis nula y se representa por Ho. La afirmación que se espera sea aceptada después de aplicar una prueba estadística es llamada la hipótesis alternativa y se representa por H1. PRUEBA ESTADÍSTICA: Fórmula, basada en la distribución del estimador del parámetro que aparece en la hipótesis y que va a permitir tomar una decisión acerca de aceptar o rechazar una hipótesis nula. Una prueba estadística no es cien por cien segura y puede llevar a una conclusión errónea. Hay dos tipos de errores que pueden ocurrir. El error tipo I, que se comete cuando se rechaza una hipótesis nula que realmente es cierta y el error tipo II que se comete cuando se acepta una hipótesis nula que realmente es falsa. La hipótesis nula realmente es cierta La hipótesis nula realmente es falsa La prueba rechaza la hipótesis nula Error tipo I (FALSO POSITIVO) No hay error La prueba acepta la hipótesis nula No hay error Error tipo II (FALSO NEGATIVO NIVEL DE SIGNIFICACIÓN (α): Probabilidad de cometer error tipo I. El gran problema es que para realizar las pruebas estadísticas necesitamos conocer la distribución muestral. Para realizar una aproximación a una distribución utilizaremos el Teorema Central del límite. TEOREMA CENTRAL DEL LÍMITE: Dicho teorema explica que por diferente que sea la distribución de la variable de nuestro estudio, su media - si tenemos suficientes datos - sigue una distribución Normal. El problema es que en investigación, con mucha frecuencia, no se conocen los datos (media y desviaciones estándar) de las poblaciones. La T Rocío Garrido Martos 2 RESUMEN DE INFERENCIA ESTADÍSTICA MÉTODOS DE INVESTIGACIÓN AVANZADA de Student es una prueba que ayuda a estimar los valores poblacionales a partir de los datos muestrales. La T de Student es utilizada para la estimación de medias y proporciones en variables cuantitativas y para la comparación de medias y proporciones en distintas poblaciones. La distribución t es un poco distinta a la distribución normal, ya que es una distribución estimada a partir de datos muestrales. Esta estimación es penalizada en función del tamaño de la muestra. Así mientras más pequeña es la muestra mayor es la pena. Por esto - a diferencia de la distribución normal que se construye a partir de dos parámetros: media y desviación estándar – la distribución t requiere conocer los "grados de libertad". El procedimiento correcto para usar una t de student requiere que se planteen primero las hipótesis y estas son las que se sometren a prueba. PRUEBA T PARA UNA MUESTRA La prueba t para una muestra efectúa un contraste de hipótesis para comprobar si la media de una variable difiere de forma significativa de un valor que nosotros mismos seleccionamos. PRUEBA T PARA MUESTRAS INDEPENDIENTES La t de Student para datos independientes se usa para comparar medias de variables en dos grupos de casos que son independientes entre sí, de forma que los sujetos de cada grupo deberían haber sido elegidos de forma aleatoria. En caso contrario elegiríamos la opción de t de Student para datos apareados o dependientes. Al hacer la comparación de medias hay que tener en cuenta otro factor, que es la igualdad o no de las varianzas en los dos grupos, pues los resultados no serán iguales en ambos casos. Si asumimos igualdad de varianzas podremos calcular un estimador único y más estable de la varianza poblacional a partir de las varianzas muestrales. Si las varianzas no son iguales no podremos hacer esto. El procedimiento Comparar medias realiza automáticamente un test de hipótesis para la igualdad de las varianzas (test de Levene). Cuando se asumen varianzas iguales, gl es igual a (n1 + n2 – 2), pero cuando las varianzas no son iguales hay que calcularlo de otras formas. La más usada es la aproximación de Satterthwaite, que SPSS calcula. Rocío Garrido Martos 3 RESUMEN DE INFERENCIA ESTADÍSTICA MÉTODOS DE INVESTIGACIÓN AVANZADA PRUEBA T PARA MUESTRAS RELACIONADAS En este caso las muestras no son independientes, sino que están relacionadas. Lo más habitual es que se trate de variables mediadas en los mismos casos en dos momentos temporales diferentes, o que sean casos apareados en función de otras variables. En esta ocasión se tratan los datos como parejas de datos, y se halla la media de las diferencias entre cada pareja, así como su desviación típica para calcular el error estándar de la media. El resto de los valores son equivalentes a los del caso anterior. ANOVA DE UN FACTOR Este procedimiento es el equivalente a la t de Student para más de dos muestras, es decir, realiza una comparación de medias en variables cuantitativas para más de dos grupos de casos. Se usa para contrastar la hipótesis de que varias medias son iguales. Rocío Garrido Martos 4