TEOREMA DEL LÍMITE CENTRAL Paloma Páez de la Cadena Universidad Autónoma de Madrid Estadística Inferencial Métodos para obtener conclusiones válidas para toda la población a partir del estudio de una muestra. Años 30 del siglo XX: Relación entre la Probabilidad y la Estadística Algunos nombres: De Moivre, Gauss Ronald A. Fisher (1890-1962) Karl Pearson Yale, Neyman y E. Pearson ¿Por qué se recurre a las muestras? La población es excesivamente numerosa La población es muy difícil o imposible de controlar El proceso de medición es destructivo Se desea conocer rápidamente ciertos datos de la población y se tardaría demasiado en consultar a todos Población y muestra 300.000 puntos 1.200 puntos Muestreos Distribuciones Muestrales El estudio de determinadas características de una población se efectúa a través de diversas muestras que pueden extraerse de ella. Los estadísticos (media, mediana, desviación típica) obtenidos de las muestras nos van a permitir decidir sobre la aproximación apropiada del correspondiente parámetro de la población. Para abordar de manera satisfactoria los problemas anteriores, es necesario el conocimiento de las relaciones existentes entre los estadísticos muestrales y los parámetros de la población. Como estos últimos se infieren de los estadísticos, es necesario conocer la distribución muestral de estos estadísticos. Distribución muestral de medias Comenzamos con la situación de obtener conclusiones sobre la media de la población a partir del estudio de las medias obtenidas en las muestras. Consideramos una población y de ella extraemos muestras de tamaño n Cada una de estas muestras tendrá una media. Consideramos la variable aleatoria X, que asigna a cada muestra su media. Así podemos estudiar su distribución, llamada distribución muestral de medias. Ejemplo: Lanzamiento de varios dados Media y desviación típica MEDIA DESVIACIÓN TÍPICA UN DADO 3,5 1,71 DOS DADOS (PROMEDIO) 3,5 1,21 TRES DADOS (PROMEDIO) 3,5 0,98 CUATRO DADOS (PROMEDIO) 3,5 0,86 Conclusiones sobre la Media y la Desviación Típica Las cuatro medias son iguales La desviación típica es tanto menor cuantos más dados participan En la tabla anterior se puede comprobar que la desviación típica para n dados es: desviación típica para 1 dado /n Distribución de las medias muestrales Distribución de las medias muestrales El resultado del lanzamiento de un dado puede considerarse un individuo de una población infinita: lanzar un dado indefinidamente. Lanzar un dado cuatro veces (o lanzar cuatro dados) puede ser considerado como una muestra de tamaño 4 de esa población. Según ese punto de vista, la experiencia que hemos descrito puede resumirse así: Conclusiones sobre la Distribución de las medias muestrales Si de la distribución “resultado obtenido al lanzar un dado” extraemos muestras de tamaños n = 2, n = 3, n = 4,… la distribución de sus correspondientes medias se parece a una distribución normal tanto más cuanto mayor sea n. Todas las distribuciones tienen la misma media. Cuantos más dados intervienen, menor desviación típica tiene la distribución. Este resultado relativo al lanzamiento de un dado se generaliza para cualquier distribución según el siguiente teorema: Teorema del Límite Central Dada una población de media y desviación típica , no necesariamente normal, la distribución de las medias de las muestras de tamaño n: Tiene la misma media que la población Su desviación típica es n y, por consiguiente, disminuye al aumentar n Cuando n ≥30 es prácticamente normal Condiciones Es importante señalar que este teorema es válido cualquiera que sea la distribución de la población de partida El grado de aproximación de la distribución de las medias muestrales a la correspondiente normal depende del tipo de población de partida y del valor de n Si la población de partida es normal, también lo será la distribución de las medias muestrales, cualquiera que sea el valor de n Aunque la población de partida no sea normal, la distribución de las medias muestrales puede ser muy parecida a la normal, incluso para valores pequeños de n, pero para n≥30 es seguro que se consigue una gran aproximación a la normal cualquiera que sea la distribución de partida Una simulación del Teorema del Límite Central Simulación de un estudio sobre el peso de una población con sobrepeso Francisco Javier Barón Universidad de Málaga http://www.youtube.com/watch?v=FcDcJnw00hk Consecuencias / Ventajas 1. Control de las medias muestrales En una población de media y desviación típica , nos disponemos a extraer una muestra de tamaño n. Antes de hacerlo, sabemos que la distribución de las medias x, de todas las posibles muestras es normal, con media y desviación típica n y, por tanto, podemos averiguar la probabilidad de que la media de una muestra concreta esté en un cierto intervalo 2. Control de la suma de todos los individuos de la muestra La suma de todos los individuos de la muestra es una distribución normal de media n y desviación típica n Por tanto podemos calcular cuál es la probabilidad de que la suma de los elementos de una muestra esté, a priori, en un cierto intervalo 3. Inferir la media de la población a partir de una muestra Esta es la aplicación más importante del Teorema del Límite Central. A partir de una muestra se pueden extraer conclusiones válidas sobre la media de la población de partida Mapa Conceptual Estadística inductiva y deductiva Estadística inductiva. Estimación de parámetros Buscar estadísticos muestrales que puedan considerarse buenos estimadores de los parámetros poblacionales. Estadística deductiva. Contrastes de hipótesis Plantear hipótesis sobre la población y el uso de los datos de una muestra para saber si son aceptables o no El problema: Estimación de la media Uno de los problemas más sencillos de la estadística inductiva es el de: ESTIMAR EL VALOR DE LA MEDIA DE UNA POBLACIÓN A PARTIR DE UNA MUESTRA Estimación Puntual Desconocemos los cocientes intelectuales de los alumnos de una universidad, pero disponemos de los datos de una muestra de 200 de estos alumnos Calculamos x = 108 media del CI de los individuos de la muestra Parece razonable estimar que la media de la población será aproximadamente, igual que la media de la muestra, 108 Pero ¿cómo de aproximadamente? La estimación puntual sirve de poco mientras desconozcamos cuál es el grado de aproximación de x a Estimación por intervalos A partir de una muestra aleatoria de tamaño n podemos estimar el valor de un parámetro de la población del siguiente modo: Dando un intervalo dentro del cual confiamos que esté el parámetro. Se llama intervalo de confianza. Hallando la probabilidad de que tal cosa ocurra. A dicha probabilidad se la llama nivel de confianza Eficacia de una estimación Cuanto mayor sea el tamaño de la muestra, mayor eficacia tendremos en nuestra estimación. Esta eficacia se manifiesta de dos formas: En el tamaño del intervalo (cuanto más pequeño, más precisos estamos siendo ) En el nivel de confianza (más nivel de confianza significa mayor seguridad en la estimación Tamaño de la muestra, longitud del intervalo y nivel de confianza son tres variables estrechamente relacionadas La Distribución Normal En un estudio estadístico, la distribución normal se puede aplicar a casi todas las muestras que se extraigan y a muchas poblaciones que las incluyan Karl Pearson entusiasta de la curva normal Comprobó que en la naturaleza había medidas que no se distribuyen normalmente Elaboró esquemas específicos de dichas distribuciones Muchas distribuciones que a primera vista no son normales, resultan ser, después de cuidadosos análisis, una combinación de dos o más distribuciones normales A lo largo de su historia ha sido mitificada y denostada La distribución Normal en Educación La “CONSTANTE MACABRA o cómo se ha desmotivado a muchos estudiantes” (El rompecabezas) André Antibi. Universidad Paul Sabatié de Toulouse http://firgoa.usc.es/drupal/node/20362 Universidad de Santiago de Compostela Extraído del libro Alsina, C. “Vitaminas matemáticas. Cien claves sorprendentes para introducirse en el fascinante mundo de los números”. Barcelona. Ariel. 2008