Licenciatura en CC. Ambientales. Matemáticas I. Tema no 1 Resultados teóricos -Tengo entendido que usted cree posible predecir el futuro. De pronto S. se sintió cansado. Parecı́a que esta malinterpretación de su teorı́a era inevitable. Tal vez no deberı́a haber presentado su tesis. -No exactamente, en realidad. Lo que he hecho es mucho mas limitado que eso... Lo que he hecho... es demostrar que ... es posible elegir un punto de partida y formular hipótesis adecuadas que supriman el caos. Esto permitirı́a predecir el futuro no con pelos y señales, por supuesto, sino a grandes trazos; no con certeza...- dijo. El Emperador, que habı́a escuchado atentamente, dijo: - Pero ¿ no significa ésto que usted ha demostrado cómo predecir el futuro? Asimov: ”Prelude to Foundation” Estadı́stica descriptiva La Estadı́stica es la ciencia que trata sobre la obtención de información a partir de datos numéricos. Al igual que las palabras, los datos no se interpretan a sı́ mismos, sino que deben ser interpretados. La estadı́stica aplicada se divide en tres campos de estudio: • El análisis de datos se ocupa de los métodos y las ideas necesarios para organizar y describir datos utilizando gráficos, resúmenes numéricos y descripciones matemáticas más elaboradas. • La obtención de datos proporciona métodos para obtener los datos que permiten dar respuestas claras a preguntas concretas. • La inferencia estadı́stica va más allá de los datos disponibles para obtener conclusiones sobre un universo más amplio. La inferencia estadı́stica no sólo obtiene conclusiones, sino que acompaña estas conclusiones con una afirmación sobre su fiabilidad. 1. Tipos de variables estadı́sticas Una variable estadı́stica es cualitativa cuando sólo puede clasificarse en categorı́as no numéricas (por ejemplo, el color de los ojos). Una variable estadı́stica es cuantitativa cuando toma valores numéricos (por ejemplo, la edad de las personas). Habitualmente se distinguen dos tipos de variables cuantitativas: discretas y continuas. Se dice discreta si ésta toma sólo un conjunto finito o numerable de valores. Se dice continua si puede tomar cualquier valor en un intervalo (finito o infinito). Utilizaremos la siguiente notación: 1 • n: número de elementos observados. x1 , . . . , xn : los n valores de la variable estadı́stica obtenidos en la muestra (puede haber repeticiones). • A veces, al estudiar variables continuas, no disponemos de los datos originales, sino que nos dan los datos agrupados en una serie de clases A1 , . . . , Ak . En este caso la notación serı́a: n: número de elementos observados. x1 , . . . , xk : representantes de las clases A1 , . . . , Ak (generalmente los puntos medios de los intervalos). n1 , . . . , nk : número de observaciones dentro de cada clase (frecuencias absolutas). f1 , . . . , fk : frecuencias relativas dentro de cada clase (fi = ni /n). Observa que n = n1 + · · · + xk . 2 2. Estadı́stica descriptiva de una variable 1. Medidas de centralización. Su misión es dar una idea del valor central alrededor del cual se reparten los valores de la muestra obtenida. • La media muestral. – ... de una variable discreta: Viene dada por la fórmula: x= 1 (x1 + · · · + xn ) . n – ... de una variable continua con los datos agrupados: Viene dada por la fórmula: x= 1 (n1 x1 + · · · + nk xn ) = (f1 x1 + · · · + fk xk ) . n • La mediana muestral de una variable discreta. Es el valor de la muestra que deja a la izquierda y derecha el mismo número de observaciones una vez ordenadas. Luego, si el número de observaciones es impar, la mediana es el valor central; si es par, la mediana es el punto medio de los dos valores centrales. Para hallar la mediana de una distribución hay que seguir los siguientes pasos: – Ordena todas las observaciones de la mı́nima a la máxima – Si el número de observaciones n es impar, la mediana M es la observación central de la lista ordenada 1 . Si el número de observaciones n es par, entonces la mediana M es la media de las dos observaciones centrales de la lista ordenada. 2. Medidas de dispersión. Son medidas que nos dan idea de la dispersión de los datos con respecto a los valores centrales. • La varianza muestral. – ... de una variable discreta: Viene dada por la fórmula: vx = 1 (x1 − x)2 + · · · + (xn − x)2 . n – ... de una variable continua con los datos agrupados: Viene dada por la fórmula: vx = 1 n1 (x1 − x)2 + · · · + nk (xk − x)2 = (f1 (x1 −x)2 +· · ·+fk (xk −x)2 ) . n • La desviación q P tı́pica. Es la raı́z cuadrada positiva de la varianza, es decir σ = n1 (xi − x)2 . Tiene las siguientes propiedades importantes: 1 La posición de la mediana se halla en este caso contando (n + 1)/2 observaciones desde el comienzo de la lista. 3 – Mide la dispersión respecto de la media. Debe emplearse sólo cuando se escoge la media como medida de centralización. – Se tiene que σ = 0 sólo cuando no hay dispersión. De lo contrario σ > 0. – Está fuertemente influenciada por las observaciones atı́picas 2 . • Los cuartiles.Los cuartiles determinan entre qué valores se encuentra la mitad central de las observaciones 3 Para calcular los cuartiles: – Ordena las observaciones en orden creciente y localiza la mediana M en la lista ordenada de observaciones. – El primer cuartil Q1 es la mediana de las observaciones situadas a la izquierda de la mediana de la totalidad. – El tercer cuartil Q3 es la mediana de las observaciones situadas a la derecha de la mediana de la totalidad. – El segundo cuartil Q2 es la mediana M . 3. Representación grafica de los datos Los datos se pueden representar como • Diagrama de barras: compara de forma rápida el tamaño de los tipos de datos. • Diagrama de sectores: muestra la importancia relativa de cada categorı́a respecto del total. • Gráficos temporales. Un gráfico temporal de una variable representa cada observación en el momento en que se midió. Se recomienda situar siempre la escala temporal en el eje de abcisas y la variable que nos interesa en el eje de las ordenadas. Si no hay demasiados puntos, la unión de los puntos contı́guos mediante segmentos facilita la visualización de la evolución de la variable a lo largo del tiempo. Una variación ”conjunta” es una tendencia; se trata de una variación, a largo plazo, por ejemplo creciente, decrecien, etc... • Diagramas de tallos y hojas 4 Para hacer un diagrama de tallos y hojas: – Separa cada observación en un tallo que contenga todos los dı́gitos menos el del final (es decir, el situado más a la derecha) y en una hoja, el dı́gito del final. – Sitúa los tallos de forma vertical en orden creciente de arriba abajo. Traza una lı́nea vertical a la derecha de los tallos. – Repasa todos los datos y sitúa cada hoja a la derecha de su tallo. 2 Se dice de una observación que es atı́pica cuando dista más de tres veces la desviación tı́pica de la media. 3 El primer cuartil se sitúa en el primer 25% de las observaciones. El tercer cuartil se sitúa en el 75% de las observaciones. El segundo cuartil es la mediana. 4 Para conjuntos pequeños de datos, un diagrama de tallos y hojas es más rápido de hacer que un histograma y presenta una información más detallada. 4 – Sitúa otra vez las hojas colocándolas esta vex en orden creciente desde cada tallo. Modificaciones en los diagramas de tallos y hojas. Hay dos modificaciones en los diagramas de tallos que nos dan más flexibilidad a la hora de representar las distribuciones. La primera consiste en redondear los datos de manera que el dı́gito final, después del redondeo, sea adecuado como hoja; haz esto cuando los datos tengan demasiados dı́gitos. También puedes dividir los tallos para doblar su número cuando todas las hojas se sitúan en unos pocos tallos. • Diagramas de cajas y bigotes (”box-plot”). Para hacer un diagrama de caja y bigotes de una variable discreta: – Halla el mı́nimo valos de la tabla de datos, M in, el máximo valor, M ax, la mediana M y los cuartiles Q1 y Q3 . – Elige un punto a en el eje de abcisas y traza el rectángulo cuyos vértices tienen las coordenadas: (a, Q3 ), (a + 1, Q3 ), (a + 1, Q1 ), (a, Q1 ). – Dibuja los segmentos horizontales: (a, M )(a + 1, M ), (a, M ax)(a + 1, M ax) , (a, M in)(a + 1, M in). – Dibuja los segmentos verticales (a + 0.5, M ax)(a + 0.5, Q3 ), (a + 0.5, Q1 )(a + 0.5, M in). • El histograma: es un gráfico de la distribución de una variable cuantitativa. Para hacer un histograma: 1. Divide el recorrido de los datos en clases. Asegúrate de especificar las clases con precisión de manera que cada observación se sitúe exactamente en una clase. 2. Haz un recuento del número de observaciones de cada clase. 3. Dibuja el histograma: – Primero marca la escala de valores de la variable cuya distribución se muestra en el eje de abcisas (eje OX). – Seguidamente marca la escala de recuentos en el eje de ordenadas (eje OY ). Cada rectángulo representa una clase. Más concretamente, el área de cada rectángulo representa la frecuencia de cada clase. Si fi es la frecuencia relativa y ai es la anchura de la clase, la altura del rectángulo serı́a: fi hi = . ai Esta alturas se pueden cambiar proporcionalmente sin ningún problema. Distribuciones normales El aspecto general de una distribución de datos puede proporcionar una idea de su centro y su dispersión. También si la distribución tiene una forma simple; por ejemplo si es simétrica, asimétrica hacia la derecha, hacia la izquierda, etc.. En particular hay un tipo de distribuciónes de datos que se llaman normales que, entre otras, tienen las caracterı́sticas siguientes: 5 (1) Un porcentaje del 68 por ciento de los datos está a distancia maxima de la media de una desviación tı́pica. (2) Un porcentaje del 95 por ciento dista menos del doble de la desviación tı́pica de la media (3) Es simétrica respecto de la media. Para las distribuciones normales, el porcentaje de los datos situado a distancia de la media entre proporciones de la desviación tı́pica, se puede ver en la tabla de la distribución Normal tipificada. 6 4. Estadı́stica descriptiva de dos variables Supongamos que queremos estudiar dos caracterı́sticas cuantitativasdadas por dos variables estadı́sticas discretas, X e Y , de una población. 1. • La covarianza muestral, covx,y , se define como: covx,y = 1 (x1 y1 + · · · + xn yn ) − x · y . n Observa que covx,y = covy,x . • El coeficiente de correlación. Se define como: covx,y r=√ vx vy . 2. Modelo de regresión lineal. La información contenida en la nube de puntos de la forma (xi , yi ) se intenta resumir mediante una recta especial de R2 , llamada la recta de regresión de Y sobre X. Su fórmula es : y−y = covx,y (x − x) . vx Si consideramos la función de dos variables reales (a, b) = n1 ((y1 − a − bx1 )2 + · · · + (yn − a − bxn )2 ) y calculamos el mı́nimo de esta función, obtenemos que se alcanza en covxy covxy . x , b= a=y− vx vx La función (a, b) se llama el error cuadrático medio, y, por tanto, diremos que la recta de regresión es aquella que minimiza el error cuadrático medio. Se llama Varianza residual al error cuadrático medio cuando se consideren los datos dados por la recta de regresión respecto a los datos reales. Su valor viene dado por la expresión ECM = vy (1 − r2 ) donde r es el coeficiente de correlación. Esto indica que los errores son menores cuanto mas próximo sea r a 1. 3. Aplicaciones del modelo de regresión lineal. En muchas situaciones, intentar resumir una nube de puntos que no están ”más o menos” alineados mediante una recta, puede no tener mucho sentido. En general disponemos de unas observaciones (x1 , y1 ), . . . , (xn , yn ) de dos caracterı́sticas, X e Y , de una población, y tratamos de ajustar un modelo de la forma y = a + bg(x) a estos datos, como aproximación a una modelización simple. • ... si la nube de puntos es de tipo logarı́tmico, parece bastante aconsejable ajustar un modelo de la forma y = a + b ln(x). En este caso, definimos T = ln X, hallamos la recta de regresión de Y sobre T , pongamos t = a + bx. Luego el ajuste logarı́mico se da para y = a + b ln x. 7 • ... si la nube de puntos es de tipo exponencial, parece bastante aconsejable ajustar un modelo de la forma y = aebx . Si T = ln Y , y hallamos la recta de regresión de T sobre X, pongamos t = A + Bx; entonces y = et = eA eBx . Luego el ajuste exponencial se da para a = eA , b = B. 8