APUNTES DE ESTADÍSTICA PARA 4º DE ESO OPCIÓN A TEMA 1: Qué es la Estadística y lenguaje que utiliza. 1.1. ¿Qué es la Estadística? El nombre de ESTADÍSTICA alude al inicio de esta rama de las Matemáticas, cuyo interés principal era por los asuntos de ESTADO (nación): empadronamientos, censos de poblaciones, índices de natalidad y mortandad, etc. Pero actualmente la Estadística interviene en los campos más diversos e insospechados; en materias que ni mucho menos tienen que ver directamente con las Matemáticas (Sociología, Psicología, Biología, Geología, Literatura, Medicina, Meteorología, mundo empresarial, Economía, previsiones de cualquier tipo, Ciencias Humanas en general, etc.). Podemos definirla como la Ciencia que, utilizando como instrumento base a las Matemáticas, estudia las leyes de comportamiento de aquellos fenómenos que, no estando sometidos a las leyes físicas, dependen del azar, bien describiéndolos (Estadística Descriptiva o Deductiva), o generalizando dichas leyes y, basándose en ellas, predice, infiere, induce o estima resultados desde un colectivo (llamado muestra) a toda la población (Estadística Inferencial o Inductiva). Otra definición puede ser esta: una rama de las Matemáticas que se ocupa de recoger, analizar y extraer información útil de un conjunto de datos; esta información aparece en forma de números, porcentajes o a través de gráficos. El método que utiliza para ello (Método Estadístico) consiste en recoger, organizar, resumir, presentar, analizar, extraer información relevante y útil del conjunto de datos recogidos, generalizar a colectivos más amplios y contrastar los resultados con otros colectivos. En todo caso, la Estadística tiene por objeto el estudio de los colectivos y de las relaciones que existen entre ellos, entendiendo por colectivo, población o universo, un conjunto grande de elementos, personas o cosas. Así pues, la Estadística necesita de una masa de elementos para poder ser aplicada, puesto que trata de hallar leyes de comportamiento del conjunto en general y no de cada uno de los elementos en particular. La población puede ser, según su tamaño, finita o infinita, o tan grande que convenga considerarla como infinita. Cuando la población o colectivo es muy grande, se hará difícil la observación directa en cada elemento de ella de lo que se quiere estudiar, debido al enorme coste que acarrearía, a la enorme capacidad de trabajo necesaria y al tiempo que se debería emplear. Estos inconvenientes pueden ser superados mediante la elección, convenientemente organizada, de sólo una parte de la población, lo suficientemente representativa, llamada muestra. La Estadística Inductiva o Inferencial es también un buen instrumento para rechazar o aceptar las hipótesis que puedan hacerse sobre las características del colectivo total, basándose en el análisis de una muestra representativa de dicho colectivo. En nuestros días, la Estadística se ha convertido en un método efectivo para describir valores de datos económicos, políticos, sociales, psicológicos, biológicos y físicos, y sirve como herramienta para relacionar y analizar dichos datos, así como establecer descripciones, predicciones, comparaciones y generalizaciones sobre una población a partir de los datos obtenidos de una muestra. Gracias al uso de los ordenadores, la rápida computación de los datos recogidos en disciplinas como la Medicina, la Meteorología, la Sociología y otras ciencias y ramas del saber, permite una mejor y más rápida aplicación de los métodos estadísticos. La Prensa, la política y los programas informativos de televisión están cargados de datos y de estudios estadísticos (estadísticas) sobre los más diversos temas. 1 1.2. El Método Estadístico. El método, ya mencionado antes, seguido por esta ciencia requiere una planificación en etapas básicas: 1.- Planteamiento del problema a estudiar. 2.- Recogida de datos. 3.- Depuración de los datos. 4.- Presentación de los datos. 5.- Cálculo de los parámetros estadísticos necesarios. 6.- Confección de gráficos. 7.- Interpretación de parámetros y gráficos. 8.- Comparación, si procede, con otros colectivos. 1.3. Lenguaje Estadístico. (Aplicar simultáneamente todo lo anterior y lo que sigue a tres estudios concretos: 1. Número de hijos (familias de los alumnos); 2. Anotar el color natural de su pelo: M, R, C, P; 3. Estatura (talla) de cada uno en centímetros) Población, colectivo o universo: Conjunto sobre el que se realiza el estudio. No tiene porqué ser de personas. Individuo: Cada elemento de la población. Tamaño de la población: Número de individuos que la forman (N). Carácter: Aspecto, fenómeno, rasgo o cualidad que se va e estudiar en una población. A las distintas posibilidades que puede presentar un carácter se les llama modalidades si no se expresan numéricamente, y valores en caso contrario. Estas posibilidades deben ser incompatibles dos a dos, de manera que no haya un individuo que esté en más de una de ellas, sino que cada individuo debe pertenecer a una y solo una de ellas. El número de modalidades o valores de un carácter puede variar según la información que se quiera recoger. Podemos distinguir dos tipos de caracteres: cualitativos si las distintas modalidades no son medibles numéricamente (sexo, estado civil, ...), recibiendo el nombre de atributos, o cuantitativos si los valores del carácter se expresan numéricamente; en este caso, el carácter se representa por una letra mayúscula (X, Y, Z, ...) y recibe el nombre de variable estadística, que las hay discretas, cuando los posibles valores distintos que puede tomar son aislados o números enteros (número de hijos, de empleados,...), o continuas, cuando los posibles valores distintos que puede tomar son infinitos o forman parte de un intervalo de números reales (peso, edad completa, talla, temperatura exacta,...). Cuando se tenga una variable discreta que tome más de 12 ó 15 valores distintos, cada uno de los cuales aparezca ni veces, éstos suelen también agruparse en intervalos como si fuera continua, aunque de por sí no lo sea, por ser valores aislados o enteros. En casos así la llamaremos variable discreta agrupada, o simplemente, variable agrupada, y, repetimos, en todo la trataremos como variable continua. Se hace esto, sin gran perjuicio para la información que se desea obtener, aunque, ciertamente, cuando se elabora una tabla con datos agrupados siempre se pierde algo de información, pues en ella se ignora cada valor concreto, que se difumina dentro de un intervalo y que es representado por otro valor (ver “marca de clase”) diferente a él, generalmente, pero a cambio se gana en claridad y en eficacia de cálculo y de organización. Para el estudio de una variable estadística continua o discreta agrupada se usan las clases o intervalos, que son grupos de los posibles valores que puede tomar la variable. La amplitud de estas clases puede ser constante (todas miden igual) o variable. El número de clases a adoptar depende de la precisión que se quiera conseguir, y a veces, poner muchas clases o pocas lleva a una irregularidad en las conclusiones, pero no conviene que sean menos de 6 ni más de 15. Un criterio aceptable es tomar en torno a N intervalos (N=tamaño máx. valor - mín. valor de la población o de la muestra en estudio), y como ancho, , si sale nº de int ervalos 2 exacto; si no fuese así, se añadirían valores a un lado y al otro simétricamente. También procuraremos tomarlos semiabiertos en la forma [ , ) o bien ( , ], cuando algún valor de la variable coincida justo con el de división de dos intervalos consecutivos. De no ocurrir esto, se pueden tomar cerrados, o simplemente "De ... a ... ", o separados con un guión " ... - ... ", pudiendo solaparse los valores extremos. ALGUNAS DEFINICIONES MÁS Al punto medio de cada clase o intervalo se le llama marca de clase ( mi ó xi), y es el valor que representa a todo el intervalo. Muestra: Subconjunto de individuos de la población sobre los que se realiza el estudio para luego extrapolar o inferir las conclusiones a toda la población. Ya veremos más adelante cómo elegir las muestras (Muestreo). Frecuencia absoluta: Número de individuos que presentan una modalidad o valor ( ni ). La suma de todas debe ser N (número total de individuos en estudio) ( Sni = N ) Frecuencia relativa: Cociente entre frecuencia absoluta y N. æç f i = n i ö÷. Se cumple que la è Nø suma de todas debe ser 1 ( Sfi =1 ). Porcentaje: Las frecuencias relativas expresadas en % (multiplicadas por 100). (pi=100 × f i ). La suma de todos debe ser 100 ( Spi =100 ). Frecuencia absoluta acumulada: Es la suma de las frecuencias absolutas, una vez ordenados los valores de la variable, desde la primera, n1 , hasta la del que ocupa el lugar i , ni . La última de todas debe siempre valer N. Frecuencia relativa acumulada: Como la anterior, pero de las relativas. La última de todas debe valer 1. Porcentajes acumulados: Lo mismo, pero con los porcentajes. El último de todos debe valer 100. Tabla estadística: Organización tabular de todos los datos, en la que es fácil ir haciendo cálculos para ir obteniendo algunos de los parámetros estadísticos. Sondeo: Es un método de investigación destinado a obtener información de un grupo de individuos previamente seleccionado. Encuesta: Es una técnica que nos va a permitir recoger la información necesaria para un posterior estudio. Se puede realizar por observación o simplemente preguntando a los individuos, y se puede realizar sobre el total de la población o sobre una muestra representativa, si es que la población es muy numerosa o entrañara mucha dificultad a la hora de consultarla. Para realizar una encuesta hay que tener en cuenta: 1. La información que se desea recibir y con qué precisión. 2. A qué población va dirigida y qué muestra o muestras van a ser seleccionadas. 3. El método escogido para llevarla a cabo de forma que se eviten al máximo los errores. 4. La forma de elaborarla para que el posterior análisis de las respuestas sea válido y fácil de realizar. Pasos a seguir en su elaboración: 1. Definir el objeto de la encuesta, formulando los objetivos y diseñando la muestra. 2. Formulación del cuestionario. 3. Trabajo de campo: obtención de los datos. 4. Obtención de los resultados, procesando y tabulando los datos obtenidos para presentarlos para un posterior análisis. Cuestionario: Es el medio de comunicación entre el que solicita los datos y el individuo encuestado. 3 Un cuestionario se estructura en secciones, y éstas, en preguntas, que deben ser fáciles de comprender y responder. Las preguntas deben cumplir: 1. Ser concretas, sin dar lugar a distintas interpretaciones. 2. Con lenguaje sencillo adaptado al nivel de los encuestados. 3. Deben facilitar la sinceridad de las respuestas. 4. Deben no ser molestas. 5. Es conveniente que al redactarlas no se influya en la respuesta. 6. El número de preguntas debe ser proporcional a la cantidad de información que se quiere obtener. 7. Se deben construir de forma que las respuestas sean fácilmente codificadas, depuradas y tratadas informáticamente. 8. Si son largos, tener una estructura que mantenga el interés del encuestado. 9. Se debe hacer previamente un ensayo con él (entre 30 y 100 entrevistas). Pueden aparecer en él distintos tipos de preguntas: 1. Preguntas cerradas: Dan sólo dos respuestas posibles para marcar la que crea el encuestado (sí – no, por ejemplo). 2. Abiertas: El encuestado en ellas puede expresar libremente su opinión. 3. De elección múltiple: Se pide al encuestado que escoja entre las respuestas que se ofrecen (más de dos). 4. Preguntas con clasificación: Ordenar entre las opciones que se ofrecen. 5. Preguntas “¿Por qué?”: Es una pregunta abierta en la que se pide al interrogado que muestre los motivos de sus respuestas. 6. Preguntas filtro: Permiten juzgar la validez de las respuestas. En ocasiones hay personas que, sin tener idea de lo que se pregunta, responden, y sus respuestas pueden falsear los resultados de los estudios. A la hora de publicar los resultados de una encuesta son necesarios los informes: Son importantes para avalar la seriedad del estudio hecho, y no es frecuente encontrarlos en los estudios estadísticos que aparecen en los medios de comunicación, con lo que puede manipularse la información a los usuarios si estos no están advertidos. Y son de dos tipos: a) El técnico, que debe mostrar información exhaustiva sobre la población objeto del estudio, muestra o muestras escogidas y método de selección de individuos para dichas muestras (tipo de muestreo aplicado), método de recogida de datos, fuentes de esos datos, fecha, metodología seguida, empresa encargada del estudio, etc. b) El resumido, que deberá incluir la información básica sobre las fuentes de datos y lo expuesto en el apartado anterior. Es el que suele ir dirigido al usuario en general. TEMA 2: Estadística Descriptiva unidimensional. 2.1. Organización tabular de los datos. Los datos se recuentan, se agrupan y se organizan en tablas llamadas tablas de frecuencias. En ellas se van preparando y organizando los datos, añadiendo las columnas de cálculos necesarios para realizar gráficos adecuados y calcular los parámetros estadísticos convenientes. (Ir haciendo todo esto con los datos recogidos de los alumnos para los tres estudios que haremos en principio). 4 Aparecerán las columnas referentes a: X , con los xi , que son los distintos valores de la variable estadística X , si el carácter fuese cuantitativo (variable) discreto, o con los Ii, que son los intervalos o clases, seguidos de las xi , que aquí corresponderían a las marcas de clase, si el carácter fuese cuantitativo (variable) continuo o discreto agrupado; o con las modalidades , si se tratara de un carácter cualitativo. A estas columnas les seguirán las encabezadas por las: ni , fi , pi , Ni , Fi , Pi , y más adelante, y sólo para caracteres cuantitativos, las columnas correspondientes a: x i n i , x i2 n i . Hay unas tablas especiales muy utilizadas en Geografía, Historia y Economía que son para mostrar las series cronológicas o temporales, que recogen observaciones de un mismo carácter a lo largo de un periodo de tiempo, que se suele dar en años o incluso en meses. 2.2. Gráficos. 1.Diagrama de barras: Se usa para caracteres cuantitativos discretos (variable no agrupada), cualitativos, y para series cronológicas. Pueden hacerse vertical u horizontalmente; con frecuencias absolutas, relativas (útiles para comparar poblaciones) o porcentajes, acumuladas o no. Se trazan sobre los ejes con rectángulos más o menos estrechos de longitud proporcional a las frecuencias, procurando que no se solapen. 2. Histogramas: Guardan la misma idea que los anteriores, pero usados para caracteres cuantitativos continuos (variables estadísticas continuas) o discretos agrupados (variables estadísticas agrupadas). Son aquí las áreas de los rectángulos las que deben ser proporcionales a las frecuencias, de manera que si tienen distintas amplitudes los intervalos, las alturas de las torres deben ser hi=ni/ci (donde ci es la amplitud de cada intervalo) o las longitudes de los mismos si son todos de igual base. Entre ellos están las llamadas pirámides de población, en los cuales están cambiados los ejes y son en realidad dos histogramas unificados, uno a izquierda y otro a derecha, uno para hombres y otro para mujeres, por ejemplo. 3. Polígonos de frecuencias: Se forman uniendo los puntos medios de las bases superiores de las barras o de los rectángulos del histograma, según sea la variable discreta, o agrupada o continua, respectivamente. Entre ellos se encuentran los climogramas, que representan la marcha semanal, mensual o anual de las temperaturas o de las lluvias medias caídas. Pueden confeccionarse con las frecuencias absolutas o con las relativas, normales o acumuladas. A estos últimos los llamaremos polígonos de frecuencias acumuladas. 4. Diagramas de sectores: Son gráficos en los que a cada valor o modalidad se le asigna un trozo de círculo (sector circular) de área (o número de grados de amplitud) proporcional a la frecuencia que representan. Usados para caracteres cualitativos o cuantitativos discretos sin agrupar. 5. Pictogramas: Son gráficos con dibujos alusivos al carácter que se está estudiando y cuyos tamaños son proporcionales a las frecuencias que representan, las cuales se deben indicar en el dibujo. 6. Cartogramas: Son gráficos realizados sobre mapas, en los que aparecen indicados sobre las distintas zonas cantidades y colores de acuerdo con el carácter que representan. 7. Barras e histogramas tridimensionales. 5 Etc. Cuando nos encontremos con información basada en gráficos estadísticos de cualquier tipo, y para evitar que nos llegue deformada, es importante tener en cuenta: 1. Las escalas utilizadas en los ejes coordenados cuando los haya. 2. Si no hay ejes, la información numérica debe aparecer en el gráfico, guardando la correspondiente proporción con los tamaños asignados. De no ser así, se pueden manipular los gráficos a gusto de los intereses de partidos políticos, empresas, etc. 2.3. Medidas o parámetros estadísticos. A) Medidas de centralización: A1) MEDIA aritmética: Es la media aritmética de todos los valores: se suman todos, uno por cada individuo, y se divide la suma por el número total de individuos de la población (o de la muestra, si es media muestral). Si alguno se repite varias veces (ni veces) , se suma tantas veces como aparece, es decir, se multiplica su valor por las veces que aparece. Por eso tenemos la fórmula para la media: x = åx n i N i = å x i f i . Si fuese la muestral se utilizaría la letra griega m (mu). La media es el centro de gravedad de la distribución de los datos. Si hay valores extremos y poco significativos, la media puede que no sea muy representativa de toda la población. Por eso se suele estudiar conjuntamente con la desviación típica (Coeficiente de Pearson). Por supuesto que puede tomar un valor no coincidente con ningún valor de la variable que esté en la tabla. Si se suma o resta una misma cantidad constante a todos los valores de la variable, su media queda aumentada o disminuida en dicha cantidad. Si se multiplican o dividen todos los valores de la variable por una misma cantidad constante, también la media queda multiplicada o dividida por ella. Estas dos últimas propiedades permiten cambiar de escala los valores de la variable cuando convenga. A2) MODA: Se define como el valor o la modalidad más frecuente (con mayor frecuencia). En el caso de una variable no agrupada es el valor de la variable que más se repite. Si se estudia un carácter cualitativo, la modalidad que más se repita. En el caso de una variable agrupada en intervalos de igual amplitud se busca el intervalo de mayor frecuencia (intervalo o clase modal) y se aproxima la moda por el valor obtenido al aplicar la fórmula: Mo = Li-1 + ni - n i-1 × ci (ni - n i-1) + (ni - n i+1) en donde: Li-1 es el límite inferior del intervalo modal, ni es la frecuencia absoluta del intervalo modal, ni-1 es la frecuencia absoluta del intervalo anterior al intervalo modal, ni+1 la del intervalo posterior al modal, y ci es la amplitud del intervalo. Puede ser que exista más de una moda, en cuyo caso se dice que la distribución es bimodal, trimodal, etc. La moda es menos representativa que la media, excepto para las distribuciones con datos cualitativos. 6 A3) MEDIANA: Se define como el valor central de la variable, es decir, el que deja el 50 % de los datos a la izquierda y el otro 50 % restante a la derecha. Se calcula así: En el caso de una variable no agrupada, una vez ordenados todos los datos (en orden creciente o decreciente) , es el valor central si el número de observaciones es impar, o la media de los dos centrales si es par. Resulta muy útil para esto aprovechar, en la tabla, la columna de las frecuencias absolutas acumuladas, o mejor aún, la de los porcentajes acumulados: se busca en dicha columna dónde está incluido el porcentaje 50 % y se mira el correspondiente valor de la variable. En el caso de una variable agrupada o continua, hemos de buscar (aprovechando, por ejemplo, la columna de las Pi de la tabla) el intervalo central, que es aquél que corresponda con el valor de la columna de las Pi donde esté incluido el porcentaje 50 % , y se aplica la fórmula: N - N i-1 Me = Li-1 + 2 × ci ni B) Medidas de posición: B1) PERCENTILES o CENTILES: Una vez ordenados todos los valores de la variable (los datos), son los valores de la variable que dejan a su izquierda un porcentaje determinado de la población. Se representan por Ch o Ph , donde h indica el porcentaje. Por ejemplo, el C32 es el valor de la variable que deja a su izquierda el 32 % de la población. Si la variable es agrupada o continua, una vez obtenido (mediante la columna de las Ni o la de las Pi ) el intervalo en el que se encuentra cada centil, se aplica la fórmula siguiente: N h× - N i-1 100 Ch = Li-1 + × ci ni donde ya sabemos el significado de cada cosa. B2) CUARTILES: Son los centiles C25 , C50 y C75 , llamados “primer cuartil” (Q1=C25) , “segundo cuartil” (Q2=C50=Me) y “tercer cuartil” (Q3=C75). B3) DECILES: Son, respectivamente, D1=C10 , D2=C20 , etc. C) Medidas de dispersión: C1) RANGO o RECORRIDO: Es la diferencia entre el mayor valor y el menor de la variable, si ésta no está agrupada. Si está agrupada, es la diferencia entre el límite superior del último intervalo y el límite inferior del primero. C2) RANGO INTERCUARTÍLICO: Es la diferencia Q3 - Q1 , y nos da una franja en la que se encuentra el 50 % central de la población. Todas las medidas estudiadas hasta aquí se miden en las mismas unidades que los datos C3) VARIANZA: Es la media de los cuadrados de las desviaciones respecto a la media. Se representa por V, S2 o también por s 2. 7 ( ) 2 El cuadrado de la desviación de cada valor respecto a la media es: xi - x . Así queda la fórmula siguiente: V = S =s 2 2 å( x = i ) 2 - x × ni åx = N Se mide en unidades cuadradas. 2 i × ni N - x = å x i2 × f i - x 2 2 C4) DESVIACIÓN TÍPICA: Es la raíz cuadrada positiva de la varianza. Se representa por DT, S o por . La fórmula es la anterior afectada de una raíz cuadrada. Es la unidad de dispersión más utilizada y la más importante. Indica el nivel de concentración de los datos en torno a la media aritmética ( más dispersos cuanto más se aleje de cero la d. t.) Se mide en las mismas unidades que los datos. Propiedades importantes de estas dos últimas medidas, con vista a los cambios de escala, son: 1ª) Si a los valores de una variable se les suma (resta) la misma constante, la varianza y la desviación típica es la misma que la de los datos iniciales. 2ª) Si lo que se hace es multiplicar (dividir) todos los datos por una constante distinta de cero, la varianza quedaría multiplicada (dividida) por el cuadrado de dicha constante, mientras que la desviación típica lo haría por la constante. C5) COEFICIENTE DE VARIACIÓN DE PEARSON (CV). Para comparar las dispersiones de dos o más distribuciones (variables estadísticas) no podemos confrontar simplemente las varianzas o las desviaciones típicas respectivas, puesto que estos coeficientes de dispersión vienen afectados por la unidad de medida de la respectiva variable. Es necesario, por tanto, eliminar esa influencia convirtiendo dichas medidas en números abstractos. El coeficiente de variación de Pearson , definido como el cociente entre la desviación típica y la media: CV = s , cumple perfectamente con este cometido. x Como cociente de las mismas unidades es adimensional y se puede dar en % , e indica la representatividad de la media en la distribución de los datos: si toma valores cercanos a cero, la media es muy representativa del conjunto de datos, puesto que la dispersión es menor, y si se aleja de cero, la media sería poco representativa, debido a la mayor dispersión de datos en torno a ella. Solo en los casos en que la media sea muy próxima a cero no debe usarse, ya que el denominador es muy pequeño y puede dar un grado erróneo de dispersión. Cuanto menor es el coeficiente de variación más homogénea es la distribución. Al ser una medida relativa, permite comparar distribuciones del mismo tipo, aunque tengan distinto tamaño. 8