26 ESTADÍSTICA: Rama de las matemáticas que se ocupa de reunir, organizar y analizar datos numéricos y que ayuda a resolver problemas como el diseño de experimentos y la toma de decisiones. HISTORIA: Desde los comienzos de la civilización han existido formas sencillas de estadística, pues ya se utilizaban representaciones gráficas y otros símbolos en pieles, rocas, palos de madera y paredes de cuevas para contar el número de personas, animales o cosas. Hacia el año 3000 a.C. los babilonios usaban pequeñas tablillas de arcilla para recopilar datos sobre la producción agrícola y sobre los géneros vendidos o cambiados mediante trueque. En el siglo XXXI a.C., mucho antes de construir las pirámides, los egipcios analizaban los datos de la población y la renta del país. Los libros bíblicos de Números y Crónicas incluyen, en algunas partes, trabajos de estadística. El primero contiene dos censos de la población de Israel y el segundo describe el bienestar material de las diversas tribus judías. En China existían registros numéricos similares con anterioridad al año 27 2000 a.C. Los griegos clásicos realizaban censos cuya información se utilizaba hacia el 594 a.C. para cobrar impuestos. El Imperio romano fue el primer gobierno que recopiló una gran cantidad de datos sobre la población, superficie y renta de todos los territorios bajo su control. Durante la edad media sólo se realizaron algunos censos exhaustivos en Europa. Los reyes caloringios Pipino el Breve y Carlomagno ordenaron hacer estudios minuciosos de las propiedades de la Iglesia en los años 758 y 762 respectivamente. Después de la conquista normanda de Inglaterra en 1066, el rey Guillermo I de Inglaterra encargó la realización de un censo. La información obtenida con este censo, llevado a cabo en 1086, se recoge en el Domesday Book. El registro de nacimientos y defunciones comenzó en Inglaterra a principios del siglo XVI, y en 1662 apareció el primer estudio estadístico notable de población, titulado Observations on the London Bills of Mortality (Comentarios sobre las partidas de defunción en Londres). Un estudio similar sobre la tasa de mortalidad en la ciudad de Breslau, en Alemania, realizado en 1691, fue utilizado por el astrónomo inglés Edmund Halley como base para la primera tabla de mortalidad. En el siglo XIX, con la generalización del método científico para estudiar todos los fenómenos de las ciencias naturales y sociales, los investigadores aceptaron la necesidad de reducir la información a valores numéricos para evitar la ambigüedad de las descripciones verbales. En nuestros días, la estadística se ha convertido en un método efectivo para describir con exactitud los valores de datos económicos, políticos, sociales, psicológicos, biológicos o físicos, y sirve como herramienta para relacionar y analizar dichos datos. El trabajo del experto estadístico no consiste ya sólo en reunir y tabular los datos, sino sobre todo en el proceso de ―interpretación‖ de esa información. El desarrollo de la teoría de la probabilidad ha aumentado el alcance de las aplicaciones de la estadística. Muchos conjuntos de datos se pueden aproximar, con gran exactitud, utilizando determinadas distribuciones probabilísticas; los resultados de éstas se pueden utilizar para analizar datos estadísticos. La probabilidad es útil para comprobar la fiabilidad de las inferencias estadísticas y para predecir el tipo y la cantidad de datos necesarios en un determinado estudio estadístico. ESTADÍSTICA DESCRIPTIVA: La estadística descriptiva analiza, estudia y describe a la totalidad de individuos de una población. Su finalidad es obtener información, analizarla, elaborarla y simplificarla lo necesario para que pueda ser interpretada cómoda y rápidamente y, por tanto, pueda utilizarse eficazmente para el fin que se desee. El proceso que sigue la estadística descriptiva para el estudio de una cierta población consta de los siguientes pasos: Selección de caracteres dignos de ser estudiados. Mediante encuesta o medición, obtención del valor de cada individuo en los caracteres seleccionados. Elaboración de tablas de frecuencias, mediante la adecuada clasificación de los individuos dentro de cada carácter. Representación gráfica de los resultados (elaboración de gráficas estadísticas). Obtención de parámetros estadísticos, números que sintetizan los aspectos más relevantes de una distribución estadística. ESTADÍSTICA INFERENCIAL: La estadística descriptiva trabaja con todos los individuos de la población. La estadística inferencial, sin embargo, trabaja con muestras, subconjuntos formados por algunos individuos de la población. A partir del estudio de la muestra se pretende inferir aspectos relevantes de toda la población. Cómo se selecciona la muestra, cómo se realiza la inferencia, y qué grado de confianza se puede tener en ella son aspectos fundamentales de la estadística inferencial, para cuyo estudio se requiere un alto nivel de conocimientos de estadística, probabilidad y matemáticas. ETAPAS DE DESARROLLO DE LA ESTADÍSTICA La historia de la estadística está resumida en tres grandes etapas o fases. 1.- Primera Fase: Los Censos: Desde el momento en que se constituye una autoridad política, la idea de inventariar de una forma más o menos regular la población y las riquezas existentes en el territorio está ligada a la conciencia de soberanía y a los primeros esfuerzos administrativos. 2.- Segunda Fase: De la Descripción de los Conjuntos a la Aritmética Política: Las ideas mercantilistas extrañan una intensificación de este tipo de investigación. Encuestas sobre artículos manufacturados, el comercio y la población. La primera propuesta de un impuesto sobre los ingresos La escuela inglesa proporciona y publica en 1801 el primer censo general de población, 28 Desarrolla los estudios industriales, de las producciones y los cambios, haciéndose sistemáticos durante las dos terceras partes del siglo XIX. 3.- Tercera Fase: Estadística y Cálculo de Probabilidades: El cálculo de probabilidades se incorpora rápidamente como un instrumento de análisis extremadamente poderoso para el estudio de los fenómenos. A partir de 1950 comienza la época moderna de la Estadística Algunos aspectos diferenciales respecto a los periodos anteriores son: La aparición del computador va a revolucionar la metodología estadística y permitirá la construcción de modelos más complejos. El cambio de énfasis en la metodología estadística La influencia de Neyman y Pearson entre otros concentran la investigación teórica en la búsqueda de procedimientos óptimos de estimación y contraste de hipótesis. La creciente importancia del análisis multi-variable que solo puede tratarse mediante programas de computador adecuados. Las técnicas emergentes de clasificación, simulación y descripción de datos que solo son posibles debido a la creciente potencia de los computadores. CONCEPTOS BÁSICOS DE ESTADÍSTICA: POBLACIÓN: Se define como el conjunto de todas las mediciones que es posible obtener a partir de observar una cierta característica en cada uno de los elementos de la población de estudio; es decir el lugar donde se aplica la encuesta. MUESTRA: Es cualquier subconjunto no vacío de la población. Una muestra básica, es la llamada muestra aleatoria, la cual se selecciona al azar, partiendo de una población. Cuando la muestra es tomada de una población que cumple con ciertas características especiales (por ejemplo ser mujer o ser mayor de 30 años, entre otras) recibe el nombre de muestra sesgada. VARIABLE: Al hablar en estadística de una variable, nos referimos a un atributo observable - en los elementos de la muestra o de una población de estudio -, que no asume el mismo valor para todos los elementos, es decir, toma dos o más valores. Los valores que utiliza la estadística son de cualquiera de estos tres tipos: Variables cualitativas o atributos: no se pueden medir numéricamente (por ejemplo: nacionalidad, color de la piel, sexo, color de ojos, estado civil, entre otras). Variables cuantitativas: tienen valor numérico (edad, precio de un producto, ingresos anuales) y pueden ser: Discretas: sólo pueden tomar valores enteros (1, 2, 8, -4, etc.). Por ejemplo: número de hermanos (puede ser 1, 2, 3...., entre otras, pero, por ejemplo, nunca podrá ser 3,45). Continuas: pueden tomar cualquier valor real dentro de un intervalo. Por ejemplo, la velocidad de un vehículo puede ser 80,3 km/h, 94,57 km/h...entre otras. Las variables también se pueden clasificar en: Variables unidimensionales: sólo recogen información sobre una característica (por ejemplo: edad de los alumnos de una clase). Variables bidimensionales: recogen información sobre dos características de la población (por ejemplo: edad y altura de los alumnos de una clase). Variables pluridimensionales: recogen información sobre tres o más características (por ejemplo: edad, altura y peso de los alumnos de una clase). Variables categóricas: Si sus posibles valores son categorías (colores, partidos políticos entre otras). DATOS: Son las respuestas obtenidas al aplicar una encuesta y son la base para elaborar tablas de frecuencias y gráficas estadísticas. Los datos pueden ser: Datos no agrupados: Es cuando se hace el conteo de las personas que dieron una misma respuesta, también se conoce como frecuencia Datos agrupados: Se fija un intervalo y dentro de éste se ubican varios de los datos obtenidos. Ejemplo: En la Institución educativa Ricaurte se encuestan 120 estudiantes para determinar su equipo de fútbol favorito, obteniendo los siguientes resultados: 50 millitos, 40 Nacional y 30 Santa fé. 29 Población: Institución Educativa Ricaurte Muestra: 120 Estudiantes Clase de muestra: Aleatoria Variable: ¿Cuál es su equipo de fútbol favorito? Clase de variable: Categórica y cuantitativa discreta Datos: 50 millitos, 40 Nacional y 30 Santa fé. Clase de datos: No agrupados GRÁFICOS ESTADÍSTICOS: Son representaciones gráficas de los resultados que se muestran en una tabla estadística. Pueden ser de formas muy diversas, pero con cada tipo de gráfica se cumple un propósito. Por ejemplo, en los medios de comunicación, libros de divulgación y revistas especializadas se encuentran multitud de gráficas estadísticas en las que, con notable expresividad, se ponen de manifiesto los rasgos de la distribución que se pretende destacar. Los diagramas de barras, los diagramas de sectores, los histogramas y los polígonos de frecuencias son algunas de ellas. En síntesis las representaciones gráficas deben conseguir que un simple análisis visual ofrezca la mayor información posible. Según el tipo del carácter que estemos estudiando, usaremos una representación gráfica u otra. a) Diagramas de barras: Es un gráfico sobre ejes cartesianos en el que distribuimos en el eje X o eje de abscisa: Las modalidades si el carácter es cualitativo Los valores si la variable es no agrupada Sobre ellos se levantan barras o rectángulos de igual base (que no se solapen) cuya altura sea proporcional a sus frecuencias. También se suelen utilizar para series cronológicas y pueden, asimismo, representarse horizontalmente, intercambiando los ejes. Realicemos los diagramas de barras asociados a los siguientes ejemplos: Ejemplo 1. Un estudio hecho en un conjunto de 25 varones con objeto de determinar su grupo sanguíneo ha conducido a los siguientes resultados: A, B, A, A, A, AB, O, A, A, A, O, B, O, A, B, O, B, O, A, B, B, A, A, O, B. Modalidad A B O AB Frecuencia absoluta 11 7 6 1 25 Frecuencia relativa 11/25 7/25 6/25 1/25 1 Porcentajes 44% 28% 24% 4% 100% Ejemplo 2. En la siguiente tabla se han recogido los datos sobre la entrada de turistas, en millones, en España durante los distintos meses de 1997. E 1‘94 F 1‘98 M 2‘84 A 3 M 3‘91 J 3‘98 J 5‘89 A 6‘48 S 4‘56 O 3‘90 N 2‘46 D 2‘39 30 b) Histogramas: Se utiliza con variables agrupadas en intervalos, representando en el eje X los intervalos de clase y levantando rectángulos contiguos de base la longitud de los distintos intervalos y de altura tal que el área sea proporcional a las frecuencias representadas. Si son frecuencias acumuladas, serán proporcionales a las alturas aunque los intervalos sean de distinta amplitud. En el ejemplo 3 hemos agrupado los datos en intervalos. Por tanto, podemos realizar los histogramas utilizando las frecuencias absolutas y las frecuencias absolutas acumuladas. Ejemplo: El número de personas que viven en cada uno de los portales de una gran barriada es: 63, 69, 83, 85, 93, 73, 80, 94, 104, 125, 141, 152, 115, 120, 127, 139, 105, 114, 123, 121, 128, 90, 75, 137, 131, 73, 62, 100, 109, 117, 124, 103, 133, 138, 143, 110, 61, 91, 87, 156, 147, 134, 129, 96, 99, 74, 104, 97, 84, 98, 78, 71, 133, 63, 69, 76, 86, 88, 77, 124, 116, 119, 102, 107, 106, 111, 119, 107, 100, 109, 83, 85, 93, 93, 118, 116, 117, 133, 155, 143. ¿Cómo resumirías los datos en una tabla? Intervalos de clase (60,76] (76,92] (92,108] (108,124] (124,140] (140,156] Marca de clase 68 84 100 116 132 148 Frecuencia absoluta Frecuencia relativa Porcentajes 12 13 18 18 12 7 80 12/80 13/80 18/80 18/80 12/80 7/80 1 15% 16‘25% 22‘5% 22‘5% 15% 8‘75% 100% Frecuencia absoluta acumulada 12 25 43 61 73 80 Frecuencia relativa acumulada 12/80 25/80 43/80 61/80 73/80 1 En este caso, todos los intervalos son de la misma longitud, por lo que la altura de cada rectángulo coincide con la frecuencia. Cuando se realizan representaciones correspondientes a edades de población, cambiamos el eje Y por el eje X para obtener las llamadas pirámides de población, que no son más que 2 histogramas a izquierda y derecha, para hombres y mujeres. Veamos un ejemplo: 31 c) Polígonos de frecuencias: Son gráficos lineales que se utilizan en el caso de una variable cuantitativa. Para realizar estos polígonos unimos los puntos medios de las bases superiores del diagrama de barras o del histograma según la variable sea agrupada o no agrupada. Vamos a realizar los polígonos de frecuencia asociados a los siguientes ejemplos: Ejemplo 1. Observa el siguiente gráfico en el que se expresan las calificaciones obtenidas en un ejercicio: ¿Cómo resumirías esta información en una tabla? Valores Frecuencia absoluta Frecuencia relativa Porcentajes 1 2 1 2 3 4 3 1 2 1 20 1/20 2/20 1/20 2/20 3/20 4/20 3/20 1/20 2/20 1/20 1 5% 10% 5% 10% 15% 20% 15% 5% 10% 5% 100% 1 2 3 4 5 6 7 8 9 10 Frecuencia absoluta acumulada 1 3 4 6 9 13 16 17 19 20 Frecuencia relativa acumulada 1/20 3/20 4/20 6/20 9/20 13/20 16/20 17/20 19/20 1 Ejemplo 2. El número de personas que viven en cada uno de los portales de una gran barriada es: 63, 69, 83, 85, 93, 73, 80, 94, 104, 125, 141, 152, 115, 120, 127, 139, 105, 114, 123, 121, 128, 90, 75, 137, 131, 73, 62, 100, 109, 117, 124, 103, 133, 138, 143, 110, 61, 91, 87, 156, 147, 134, 129, 96, 99, 74, 104, 97, 84, 98, 78, 71, 133, 63, 69, 76, 86, 88, 77, 124, 116, 119, 102, 107, 106, 111, 119, 107, 100, 109, 83, 85, 93, 93, 118, 116, 117, 133, 155, 143. ¿Cómo resumirías los datos en una tabla? Intervalos de clase (60,76] (76,92] (92,108] (108,124] (124,140] (140,156] Marca de clase 68 84 100 116 132 148 Frecuencia absoluta Frecuencia relativa Porcentajes 12 13 18 18 12 7 12/80 13/80 18/80 18/80 12/80 7/80 15% 16‘25% 22‘5% 22‘5% 15% 8‘75% 80 1 100% Frecuencia absoluta acumulada 12 25 43 61 73 80 Frecuencia relativa acumulada 12/80 25/80 43/80 61/80 73/80 1 32 Un caso particular de aplicación de los histogramas y los polígonos de frecuencias es el climograma, que representa la marcha anual de las temperaturas y de las lluvias medias, sobre un mismo sistema de coordenadas. Veamos un ejemplo: En el caso de representar las frecuencias acumuladas se unen los puntos medios de las bases superiores del diagrama de barras, si la variable es no agrupada, y los vértices superiores derechos de los rectángulos si se trata de una variable agrupada. d) Diagrama de sectores: Son gráficos en los que a cada valor o modalidad se reasigna un sector circular de área proporcional a la frecuencia que representan. Se utilizan si el carácter es cualitativo o cuantitativo discreto no agrupado. Ejemplo: Un estudio hecho en un conjunto de 25 varones con objeto de determinar su grupo sanguíneo ha conducido a los siguientes resultados: A, B, A, A, A, AB, O, A, A, A, O, B, O, A, B, O, B, O, A, B, B, A, A, O, B. e) Pictogramas: Son gráficos con dibujos alusivos al carácter que se está estudiando y cuyo tamaño es proporcional a la frecuencia que representan; dicha frecuencia se suele representar. En el siguiente ejemplo hemos representado el número de partidos ganados, perdidos o empatados de un equipo. f) Cartogramas: Son gráficos realizados sobre mapas, en los que aparecen indicados sobre las distintas zonas cantidades o colores de acuerdo con el carácter que representan. En el siguiente cartograma observamos la urbanización en el mundo atendiendo a la industrialización.