COMPILACIÓN DE TEMAS AUTORES: Dr. Juan Enrique García La Rosa.. Dr. Jesús Barreto Molina. Dr. José Manuel González Abreu. 2008 0 PRÓLOGO El presente texto básico ha sido confeccionado mediante una compilación de temas de diferentes autores. El mismo consta de seis capítulos en los que se aborda en lo esencial los contenidos de la Estadística Descriptiva. En el primer capítulo se explica la importancia de la Estadística en la vida cotidiana de las personas y, esencialmente, para los profesionales de la educación, se definen los tipos de variables estadísticas y las escalas para medirlas. El segundo capítulo aborda las diferentes formas de presentación de datos estadísticos a través de la construcción de las tablas de frecuencias y de gráficos estadísticos. El tercer capítulo describe los contenidos relacionados con las medidas de tendencia central, de posición relativa y de dispersión y los capítulos 5 y 6, los contenidos sobre la teoría combinatoria y de las probabilidades. Para mejor comprensión de los contenidos que se abordan en cada capítulo, se recurre a la presentación de ejemplos concretos vinculados a la realidad escolar, es decir, a las posibles situaciones que los profesores y las profesoras pueden encontrarse en el proceso de enseñanza aprendizaje. Al final de cada capítulo se proponen ejercicios y problemas para que los y las estudiantes comprueben si han asimilado con solidez los contenidos que en este se han abordado. 1 ÍNDICE CAPÍTULO 1: ESTADÍSTICA: OBJETO MEDICIÓN. 1.1. Objeto de estudio de la estadística. DE ESTUDIO. VARIABLES. PÁG. 3 PÁG. 3 1.2. Variables estadísticas: su medición. PÁG. 5 CAPÍTULO 2: DISTRIBUCIÓN DE FRECUENCIAS Y REPRESENTACIÓN PÁG. 10 GRÁFICA DE DATOS. 2.1. Presentación y agrupación de los datos. PÁG. 10 2.2. Distribuciones de frecuencias para datos discretos PÁG. 12 2.3. Distribución de frecuencias para datos agrupados. PÁG. 15 2.4. Representación gráfica de distribuciones de frecuencia PÁG. 18 2.5. Representación gráfica para datos discretos. PÁG. 19 2.6. Representación gráfica para datos continuos. PÁG. 22 CAPÍTULO 3: MEDIDAS DE TENDENCIA CENTRAL, DE POSICIÓN RELATIVA PÁG. 26 Y DE DISPERSIÓN. 3.1. Para valores simples o no agrupados. PÁG. 26 3.2. Para valores agrupados. PÁG. 31 3.3. Medidas de posición relativa. PÁG. 34 3.4. Medidas de dispersión o variabilidad. PÁG. 37 CAPÍTULO 4: CORRELACIÓN Y REGRESIÓN. 4.1. Relación entre dos variables cuantitativas. 4.2. Relación entre dos variables cualitativas. CAPÍTULO 5: TEORÍA COMBINATORIA. PÁG. 60 PÁG. 61 PÁG. 72 PÁG. 94 PÁG. 101 CAPÍTULO 6: TEORÍA DE LAS PROBABILIDADES. 6.1. Experimento. Espacio muestral y suceso aleatorio. PÁG. 101 6.2. Operaciones entre sucesos. Sucesos mutuamente excluyentes y PÁG. 104 sucesos exhaustivos. 6.3. El concepto de probabilidad. Las definiciones clásica y estadística de probabilidades. Propiedades de la probabilidad. PÁG. 108 6.4. Definición de probabilidad condicional. Regla del producto. Sucesos PÁG. 114 independientes. Reglas de la Probabilidad Total Y de Bayes. PÁG. 115 6.5. Sucesos independientes. 2 CAPÍTULO 1: ESTADÍSTICA: OBJETO DE ESTUDIO. VARIABLES. MEDICIÓN. El trabajo con datos se inició desde tiempos remotos en las sociedades primitivas, cuando en los pueblos fue necesario contar sus habitantes y calcular sus recursos para poder organizar sus comunidades y sus vidas. La historia confirma que los primeros procesos de recopilación, procesamiento y análisis de información fueron realizados por los gobernantes de las grandes civilizaciones antiguas con la finalidad de que tuvieran conocimientos de los bienes que el Estado poseía y cómo estaban distribuidos en la población. Desde entonces en muchos Estados se ordenaban estudios que les permitieran tener mayor conocimiento de determinadas características de la población, planificar los impuestos y conocer la cantidad de hombres disponibles para la guerra. Con el transcurso del tiempo ya por el siglo XVII en las sociedades era necesario hacer análisis numéricos relacionados con la salud pública, nacimientos, muertes y actividades propias del comercio, situación que determinó un perfeccionamiento paulatino de los procesos de recopilación y tratamiento de información hasta llegar a la actualidad en que el estudio y análisis de datos no se limita solamente al estudio demográfico y de la Economía. Su campo de aplicación se extendió a las diferentes esferas de la vida del hombre pues día a día se presentan informaciones de carácter económico, político y social que necesitan ser interpretados para una mejor comprensión de los hechos y fenómenos de la sociedad y del mundo. Actualmente se necesitan métodos efectivos para describir con exactitud los valores de datos económicos, políticos, sociales, psicológicos, biológicos o físicos, así como herramientas para relacionar y analizar dichos datos. El trabajo no consiste sólo en reunir y tabular los datos, sino sobre todo en el proceso de “interpretación” de esa información. 1.1. Objeto de estudio de la estadística. Cuando se estudia el proceso de investigación empírica, por ejemplo la metodología observacional, se comprende la necesidad de contabilizar e interpretar matemáticamente los resultados obtenidos. En el caso de las Ciencias Sociales resulta difícil generalizar a partir del estudio de un fenómeno individual. Un evento puede ser suficiente para caracterizar a un sujeto, pero las leyes científicas se confeccionan sobre la base de la frecuencia con que se repite tal fenómeno. Por ejemplo, no se puede afirmar que un cierto método de lectura o de aprendizaje de una lengua extranjera, sea más eficiente, cuando se ha obtenido un resultado muy favorable con un cierto individuo concreto. Podremos hacer tal afirmación, cuando un conjunto suficientemente amplio de individuos demuestren, con un margen de error aceptable (por lo general menor que 5 – 10 %), que el método empleado conduce a resultados superiores. Aún cuando las observaciones respecto a un fenómeno sean rigurosas, existen diferencias o discrepancias en los datos obtenidos. Esto ocurre a menudo, incluso en aquellos casos en que el fenómeno se repite en condiciones idénticas por el mismo individuo. La implicación de este hecho puede conducir a inseguridad, a un cierto margen de error o falta de certeza y que nos hace dudar respecto a la base que puedan tener nuestras interpretaciones y conclusiones de algún fenómeno. 3 De aquí surge la necesidad de contar con métodos y técnicas que nos permitan considerar esas diferencias y determinar cuándo los resultados de nuestros estudios son válidos y así poder tomar las decisiones necesarias. La Estadística es la ciencia que provee de métodos que permiten obtener, organizar, resumir, presentar y analizar datos relativos a un conjunto de individuos u observaciones lo que permite extraer conclusiones válidas y tomar decisiones lógicas basadas en dichos análisis. Todo profesional tiene que ser un investigador y por tanto debe poseer conocimientos mínimos necesarios para, al menos, poder realizar investigaciones y comprender los resultados que se obtengan. Por ejemplo a un maestro se le puede presentar la siguiente situación: En un aula de 30 alumnos hay 20 que alcanzan calificaciones (sobre 100) superiores a 90 puntos y 10 que no alcanzan estos resultados. Realizar esta observación no significa haber hecho un estudio estadístico y sería incorrecto pensar que en cualquier aula de esa escuela hay dos alumnos con altas calificaciones por cada uno que no rebasa la calificación de 90. Resultaría mucho más inadecuado tratar de aplicar el resultado de una sola aula al conjunto de toda la escuela, o a todas las escuelas de la región. Para ello es preciso obtener información, como la antes citada de numerosos alumnos en diversas aulas y escuelas de la localidad. Al recolectar datos respecto a las características de un grupo de objetos o individuos, tales como las estaturas y los pesos de los estudiantes en las escuelas, es casi imposible observar el grupo completo. Por eso se considera como población al conjunto de individuos, o más general, elementos con una característica observable (medible) y una muestra al subconjunto o a una parte de una población. En esencia, la Estadística se puede dividir en dos grandes ramas: la Estadística Descriptiva y la Inferencial. La Descriptiva es la que estudia la descripción de una población representada por un conjunto de datos, se encarga principalmente del estudio de las muestras. Cuando se pretende describir (hacer estimaciones, tomar decisiones) acerca de una población partiendo solo de la información de una muestra extraída de ella se hace uso de la Inferencial, o sea se realizan generalizaciones a toda la población de la que fue seleccionada la muestra. La Estadística Descriptiva analiza, estudia y describe a conjuntos de individuos de una población. Su finalidad es obtener información, analizarla, elaborarla y simplificarla lo necesario para que pueda ser interpretada cómoda y rápidamente y, por tanto, pueda utilizarse eficazmente para el fin que se desee. El trabajo estadístico inicial después de cuantificar las características de interés consiste en describir a través de tablas, gráficos y determinados estadígrafos agrupando los datos buscando descubrir características tendencias en distribuciones de frecuencia empíricas. El proceso que se sigue para el estudio de una cierta población consta de los siguientes pasos: • Selección de caracteres dignos de ser estudiados (representativos). • Mediante encuesta o medición, obtención del valor de cada individuo en los caracteres seleccionados. 4 • Elaboración de tablas mediante la adecuada clasificación de los individuos dentro de cada carácter. • Representación gráfica de los resultados. • Obtención de parámetros estadísticos, es decir números que sintetizan los aspectos más relevantes de una distribución estadística 1.2. Variables estadísticas: su medición. Una variable es un símbolo, tal como X ; Y ; A ... pude asumir cualquiera de los valores de un conjunto que se denomina, dominio de la variable. Si la variable sólo puede asumir un valor se llama constante. Por ejemplo en la ecuación 4 x + 3 = 7, x es una variable que puede tomar todos los valores del dominio ( N , Z , Q , R ó C ). El término variable, trasladado de las matemáticas al terreno de las ciencias sociales, reúne dos características fundamentales: • Rasgos que pueden ser observados, y que por tanto van a permitir alguna comprobación con la realidad empírica. • La propiedad de poder variar, es decir, de asumir valores. Una variable es una característica medible que toma sus valores en dependencia de la casualidad. En la investigación una variable puede definirse como una característica medida en las unidades de análisis de las muestras. De acuerdo con el sistema de medición, es decir, las propiedades matemáticas, las variables pueden ser: 1. Cualitativas: Cuando se establecen distintas categorías para cada modalidad de la variable, reflejan cualidades de la variable. Se refieren a características que no se pueden cuantificar. Estas variables también reciben el nombre de “categóricas”. La categorización de estas variables es un requisito para su posterior análisis. Ejemplo: Sexo, rendimiento académico (categorizado en alto, mediano y bajo), colores de las flores, grado de satisfacción respecto a cierto servicio, interés por alguna actividad, etc. 2. Cuantitativas: Cuando son suceptibles de ser medidas numéricamente. Ejemplo: Edad, peso, rendimiento académico (medido en puntos), cantidad de alumnos por grupo, etc. En función de su naturaleza las variables cuantitativas pueden ser : a) Discretas: Cuando sólo pueden tomar un número finito o a lo sumo numerable de valores, que suelen coincidir con los números enteros. Ejemplo: Número de alumnos en una clase, número de libros en una biblioteca, número de hijos, etc. b) Continuas: Pueden tomar cualquier valor dentro de un intervalo de números reales no reducido a un punto ni vacío. Ejemplo: La edad, el rendimiento académico, la inteligencia, etc. 5 Nota: Existen otros tipos de variables: Según el criterio metodológico Según el control Teórico – explicativo − Dependientes − Independientes − Extrañas o ajenas − Aleatorias − Controladas − Estímulo − Respuesta − Intermediarias En sentido general las mediciones se expresan mediante datos continuos y las enumeraciones o el conteo mediante datos discretos. Para aplicar los métodos de la Estadística es necesario cuantificar las características o propiedades del fenómeno objeto de estudio: aproximadamente hasta las primeras décadas del siglo XX, muchos investigadores dudaban que se pudieran cuantificar las propiedades de los fenómenos sociales; por tal motivo, renunciaban a la aplicación de la Estadística o cometían el no menos grave error de hacer mediciones en las Ciencias Sociales, tal y como se hacen en la Física o la Química. Actualmente en lo relacionado con el problema de la "medición" en las Ciencias Sociales se han logrado avances y se han propuesto algunas "escalas de medición". Ahora bien, ¿qué significa realizar una medición? En un sentido amplio, "medir es asignar un número a un objeto, de acuerdo con una regla"; medir es comparar algo con un patrón o indicador más o menos definido y preciso, que la experiencia coadyuva a redefinir o precisar aún más. En síntesis, la medición exige primero establecer indicadores y después definir las escalas a utilizar. En gran medida, el método estadístico a utilizar dependerá de la escala donde está clasificada la variable que se está investigando. Como medir es cuantificar es necesario establecer ciertas escalas para poder llevar a cabo la medición. Se emplean 4 escalas de medición o cuantificación: nominal, ordinal, de intervalo y de razón o proporción. La escala categorías establecer elementos nominal: Se presenta cuando la variable que se mide se puede "dividir" en o clases mutuamente excluyentes y exhaustivas, entre las que solo es posible una relación de "igual a" o de "desigual a", la igualdad se establece entre los de una misma categoría; mientras que, la desigualdad está presente entre 6 elementos de diferentes clases. Esta desigualdad no lleva implícita una relación de orden entre las categorías, es decir, no es posible decidir si un elemento de una clase es inferior o superior a un elemento de otra clase. Las clases son mutuamente excluyentes y exhaustivas cuando cada elemento de la población (o de la muestra) pertenece a una, y solo a una, de las clases establecidas. A cada categoría se le podrá asignar un número diferente, pero ese número no tiene valor cuantitativo, ni unidad de medida, es puramente identificativo de la clase. Se establecen atributos o valores dados por cualidades y no hay relación matemática entre los elementos. Si para la variable que se mide solo se pueden definir dos clases, con las características antes mencionadas, se dice que la escala es "nominal dicotómica”. Por ejemplo: ¾ La clasificación de los alumnos de una escuela según su sexo. Como se investiga la variable sexo se tiene que, todo alumno de la escuela, será incluido en una de las dos categorías posibles: masculino o femenino, abarcándose toda la población por lo que es exhaustiva. En esta medición solo existen dos categorías, por lo que se considera una escala nominal dicotómica. ¾ La clasificación de los estudiantes de una escuela según las particularidades psicológicas de su personalidad. Como cada uno de los estudiantes se puede clasificar en melancólico, sanguíneo, flemático o colérico; se está en presencia de una escala nominal. La escala ordinal también requiere de clases mutuamente excluyentes y exhaustivas, pero con la propiedad de que entre las diferentes categorías que se consideren, sea posible establecer una relación de orden; es decir, dentro de los elementos que están en una misma clasificación se mantiene la relación de "igual a", pero entre elementos de dos categorías diferentes, la relación de desigualdad es más precisa que en el caso de una nominal, ya que, se puede decidir cuál de los dos elementos es "mayor o menor que" el otro. En esta escala los números que se utilicen poseen también un valor identificativo y no se les acompaña de ninguna unidad de medida, pero tienen que expresar la relación de orden que existe entre las diferentes clases, aunque la distancia o diferencia entre dos de esos números, que sean consecutivos, no importa. Ejemplo: En la clasificación de los alumnos de una escuela según su disciplina, esta variable permite clasificar a cada alumno en una de las tres categorías: mala, regular o buena. Todo alumno que esté en la primera categoría se considera igual en cuanto a su disciplina, pero diferente a otro que esté en alguna de las otras categorías; no solo diferente, sino que está en una clase inferior a otro que esté con regular o con buena disciplina. La escala de intervalos se presenta en el estudio de variables que se dividan en categorías mutuamente excluyentes y exhaustivas, y al igual que la ordinal, precisa de una "relación de orden" bien definida entre esas clases, pero en las que la distancia o diferencia entre dos categorías consecutivas siempre sea la misma, lo cual la diferencia de la anterior escala. En ella los números tienen mayor "relevancia" que en las escalas anteriores, con ellos se puede, además de compararlos, realizar sumas, restas y multiplicarlos por un mismo valor; sin embargo, el valor 0 no es absoluto, es decir, no indica la ausencia de la "característica" que se investiga. Por otra parte existe una unidad de medida que es común para todas las categorías utilizadas en la medición de la variable. 7 Ejemplo: Si se consideran las calificaciones sobre 100 puntos, en Matemática, de los alumnos de una escuela, un alumno que obtenga 0 puntos en el examen no significa que sus conocimientos en esa materia son nulos, es decir, el valor 0 no es absoluto —no indica, en este caso, la ausencia total de conocimientos—. Esta propiedad hace que, por ejemplo, si un alumno A de esa escuela obtuvo 80 puntos y otro estudiante B logró 40 puntos, no indica que A tenga "el doble" de los conocimientos que tiene B; sí se podrá decir que el alumno A tiene 40 puntos más que el B. Es una escala ordinal en la que se ha definido una distancia entre sus clases, una unidad de medida entre sus clases o puntajes, de modo que la proporción o razón entre las longitudes de dos intervalos cualesquiera permanece invariable ante toda transformación de la escala en otra de intervalo. O sea para un par de puntajes x y z cualesquiera tales que x < z se puede expresar la cantidad de unidades, de igual medida, en que z es mayor que x. Por ejemplo la escala de temperatura medida en grados centígrados. La escala de razones —también llamada de proporciones—, se presenta en el estudio de variables que se dividan en categorías mutuamente excluyentes y exhaustivas, y al igual que la de intervalos, se caracteriza porque existe una unidad de medida que es común para todas las clases que se constituyan, pero para ellas —a diferencia de la de intervalos— el valor 0 es absoluto, es decir, indica la ausencia total del atributo que se investiga. El cero absoluto se considera como la ausencia total de cualidad medida, y por tanto es el valor que no puede ser rebasado en la parte inferior Muchas variables cuantitativas de tipo físico se miden en escalas de razón como la edad, el peso, la longitud. Por ejemplo si se considera la estatura, en metros, de los alumnos de una escuela existe una unidad común para todas las tallas que se encuentren; así como el 0 es absoluto, indica toda ausencia de estatura. Tanto en la escala nominal, como en la ordinal, los números utilizados no se "acompañan" de una unidad de medida, por ello se dice que estas dos escalas son "no métricas"; en cambio, las escalas de intervalos y de proporciones, respectivamente, están caracterizadas por una unidad de medida que es común para todas las categorías que se definan en la variable, ello hace que a ellas se les agrupe con la denominación de "escalas métricas". Las escalas no métricas son las que con mayor frecuencia se encuentran en las Ciencias Sociales, en cambio, las métricas son más cercanas al mundo físico. Por ejemplo a los niños de un grupo con determinados trastornos se les podría clasificar atendiendo a diferentes aspectos y habría que utilizar por tanto diferentes escalas según corresponda: Clasificación según: Escala El tipo de insuficiencia que presenten. Nominal. El grado en que presentan la insuficiencia. Ordinal. Su temperatura en grados Celsius. Intervalo. Su peso en kilogramos. De razón. 8 EJERCICIOS PARA COMPROBAR TUS CONOCIMIENTOS Ejercicio 1: Diga cuál es continuo y cuál discreto de los datos dados a continuación: a) Número de varones en cada 100 familias. b) Peso de 50 estudiantes de una escuela. Ejercicio 2: Describa los valores que puede tomar la variable y diga en qué tipo de escala se puede realizar su medición. a) Sexo de cada alumno de un grupo. b) Cantidad de estudiantes en un grupo. c) Calificación de un alumno en una prueba. d) Estado de salud de los alumnos de un grupo. e) El peso de cada alumno de un grupo. f) Aceptación de un cierto método de estudio por los alumnos de un grupo. 9 CAPÍTULO 2: DISTRIBUCIÓN DE FRECUENCIAS Y REPRESENTACIÓN GRÁFICA DE DATOS. 2.1. Presentación y agrupación de los datos. Diariamente, los periódicos, las revistas y la televisión muestran gráficos, tablas y en ocasiones los resultados de encuestas realizadas a la población, por tanto es importante tener el conocimiento básico para interpretar estas informaciones. También es preciso considerar la forma de trabajar con los datos obtenidos de una investigación. El trabajo estadístico se puede dividir en cuatro fases fundamentales: la recolección, la clasificación, la presentación o exposición y el análisis de los datos. En Estadística, los datos que no han recibido ningún procesamiento y que el investigador los tiene, tal y como han resultado de su proceso de recolección, se denominan datos primarios. Como por ejemplo: Los siguientes datos constituyen las mediciones de cuatro variables, realizadas a una muestra seleccionada al azar de 40 alumnos de una escuela. Se considera X: notas en Matemática; Y: notas en Física, en puntos ambas; Z: disciplina de los alumnos, en Bien, Regular y Mal T: interés de los alumnos por el estudio, en sí o no. Alumnos X Y Z T Alumnos X Y A1...... 84.0 88.0 R sí A21...... 66.0 62.0 M no A2...... 72.0 70.0 B sí A22...... 75.0 72.0 M no A3...... 70.0 80.0 R no A23...... 67.0 70.0 M sí A4...... 72.0 84.0 M no A24...... 84.0 88.0 R A5...... 85.0 89.4 R sí A25...... 77.0 72.4 R sí A6...... 84.0 88.0 R sí A26...... 75.0 72.0 M no A7...... 74.0 88.6 M sí A27...... 82.0 84.0 B A8...... 77.0 90.0 M sí A28...... 67.0 75.0 R no A9...... 77.0 86.0 B no A29...... 71.0 80.0 R no A10..... 77.0 88.5 R no A30...... 88.0 94.0 B sí A11..... 79.0 85.0 B no A31...... 78.0 70.0 R sí A12..... 68.0 90.0 B sí A32...... 76.0 79.4 M sí A13..... 79.0 83.4 R sí A33...... 74.0 88.6 M sí A14..... 82.0 82.0 M no A34...... 87.0 93.0 B A15..... 76.0 79.4 M sí A35...... 70.0 80.0 R no A16..... 78.0 88.0 B sí A36...... 69.0 82.0 R no A17..... 86.0 92.0 R no A37...... 73.0 62.0 R no A18..... 88.0 75.0 B A38...... 86.0 88.0 B sí Z T sí sí sí sí 10 A19..... 80.0 87.0 R no A39...... 73.0 60.0 R sí A20..... 81.0 78.0 M no A40...... 80.0 92.0 B sí Sería muy difícil, utilizando estos datos, tal y como aquí se muestran, responder, entre otras, las siguientes interrogantes: ¿cuántos de estos alumnos tienen buena disciplina y qué por ciento representan del total?, ¿cuántos tienen notas, en Matemática, entre 66 y 70 puntos y qué por ciento ellos representan con respecto al total de esa muestra?, ¿cuántos de los estudiantes tienen interés por el estudio y buena disciplina?, Es por eso que una vez que se han obtenido los datos, es necesario e importante organizarlos para poder extraer conclusiones de su análisis. Las tablas y los gráficos, que son formas complementarias de presentación de los datos primarios, ayudarán a responder, con cierta facilidad, las anteriores preguntas y otras muchas. Una tabla estadística —o simplemente, una tabla— es una disposición, arreglo o agrupamiento de los datos primarios, de modo tal, que el "investigador" pueda encontrar "regularidades esenciales" presentes en esos datos. Al proceso de confección de una tabla se le denomina tabulación de los datos —o brevemente, tabulación—. En ocasiones, antes de realizar la tabulación de los datos primarios, ellos se suelen ordenar, de modo ascendente o descendente, según su magnitud; por lo que ese `ordenamiento', sería el primer procesamiento que reciben los datos primarios. Después de que los datos primarios se colocan en una tabla estadística, se les comienzan a llamar datos tabulados o agrupados. Sobre la base del ejemplo de los datos primarios a continuación se ofrece un ejemplo de tabla. Tabla #1Disciplina de los alumnos. Categorías Cantidad Mal 12 Regular 17 Bien 11 Total 40 Para poder brindar una información más completa una tabla debe tener tres partes esenciales: el encabezamiento, el cuerpo y el pie. ¾ El encabezamiento que es la parte superior y está formado por el título que es un texto breve, conciso, que ofrece una información clara sobre los datos que están tabulados y el subtítulo que es, al igual que el título, un texto breve, pero complementario de aquel en el que se puede especificar la fecha en que fueron recopilados los datos; así como, la unidad de medida empleada, si esta es común a todos los datos de la tabla 11 ¾ El cuerpo es la parte principal donde se sitúan los datos recogidos en la investigación. Debe ser sencilla, comprensible, sin rebuscamiento, de manera tal que permita una fácil interpretación de los datos, mediante la revelación de sus regularidades. Se suele "resaltar" mediante el empleo de líneas, que constituyen "el marco del cuerpo de la tabla". ¾ El pie está constituido por notas aclaratorias que se ubican debajo del cuerpo y donde se pueden indicar la fuente de procedencia de los datos, el significado de símbolos incluidos en el cuerpo; así como, otras informaciones anexas que contribuyan a esclarecer el contenido de la tabla. En los textos, en los periódicos y revistas así como en los informes de investigación, es frecuente encontrar "tablas" que solo poseen el cuerpo, por lo que resulta difícil poder captar la información que con ellas se quiere transmitir. 2.2. Distribuciones de frecuencias para datos discretos Un método para organizar y clasificar los datos consiste en la confección de una distribución de frecuencias que varía en dependencia de que la variable sea discreta o continua. Las distribuciones de frecuencias son una forma relativamente abreviada de mostrar los datos y ofrecen, para muchos fines, una información adecuada sobre los datos primarios, aunque en ocasiones "omiten" algunos de estos datos. Independientemente de si son simples o agrupados se deben considerar las categorías o clases, las frecuencias absolutas, las frecuencias relativas, las frecuencias acumulativas y las frecuencias relativas acumulativas. Categoría o clase: Es el "arreglo" que se utiliza para distribuir los datos de la variable que se tabula. (Ver la columna 1 de la tabla 1) Cuando se confecciona una distribución simple, se toman las mismas categorías o valores que posee la variable que se tabula, mientras que, si se confecciona una distribución para datos agrupados, las categorías o valores de la variable que se va a tabular no se toman de un modo explícito, tal y como los posee dicha variable. En las distribuciones para datos simples, la cantidad de categorías que se utilizarán las determina la propia naturaleza de la variable que se investiga; sin embargo, para las de agrupados, tanto la cantidad como el tamaño de las subdivisiones que se emplearán, están sujetos a determinadas "reglas" que se analizarán posteriormente. Es frecuente reservar el término "categoría" para las distribuciones de datos simples, principalmente porque ellas se emplean en variables no métricas; por otro lado, se usa la denominación "clase" para las de datos agrupados, que con frecuencia son utilizadas para las variables métricas. La frecuencia absoluta de una categoría es igual al número de observaciones que pertenecen a esta categoría. La suma de las frecuencias absolutas de todas las categorías de una distribución de frecuencias es igual al número total de observaciones. Se pueden determinar por ejemplo la cantidad de estudiantes que tienen un número determinado de hermanos, la cantidad de familias que tienen un solo hijo o la cantidad de estudiantes que son hijos únicos. 12 Como la frecuencia absoluta es la cantidad de veces que un dato primario se repite, dentro de cada categoría se puede representar en una tabla como sucede por ejemplo en la columna 2 de la tabla 1. La frecuencia relativa de una categoría es igual a su frecuencia absoluta dividida por el número total de observaciones. La suma de las frecuencias relativas de todas las categorías de una distribución de frecuencias es igual a 1, salvo por cuestiones de aproximación. A veces para determinar la frecuencia relativa es necesario hacer redondeos, y si no se obtiene el valor 1 para la suma se hacen aproximaciones de ésta. La frecuencia relativa de la categoría i, en símbolos es fi = Ni N La frecuencia porcentual de una categoría es igual a su frecuencia relativa multiplicada por 100. La suma de las frecuencias porcentuales de todas las categorías de una distribución N de frecuencias es igual a 100, salvo por cuestiones de aproximación. fi = i × 100 N La frecuencia acumulativa de una categoría es igual a la suma de las frecuencias absolutas de esta categoría y de las anteriores. Se denota por Fi Frecuencia relativa acumulativa o acumulativa relativa para una categoría j, es la suma de las frecuencias relativas desde la categoría uno hasta la categoría j. En símbolos es: j Fj = ∑ Ni i =1 Propiedades de las frecuencias 9 Las frecuencias absolutas y absolutas acumulativas son siempre números enteros no negativos. 9 La suma de todas las frecuencias absolutas es igual al total de la muestra: h ∑N i =1 i =N 9 Las frecuencias relativas y relativas acumulativas son siempre números no negativos, fraccionarios, mayores o iguales que 0 y menores o iguales que uno, o también, mayores o iguales que 0% y menores o iguales que el 100%. 9 La frecuencia absoluta acumulativa de la primera categoría, es igual a la frecuencia absoluta de esta misma categoría. 9 La frecuencia absoluta acumulativa correspondiente a la categoría h, es igual al total de la muestra. 9 La frecuencia relativa acumulativa correspondiente a la primera categoría, es igual a la frecuencia relativa de esa misma categoría. 9 La frecuencia relativa acumulativa correspondiente a la categoría h, es igual a la unidad o al 100 % Para la confección de una distribución de frecuencias de datos simples es recomendable seguir los siguientes pasos: 13 • Determinación a partir de los datos primarios de la variable, mediante la observación de esta, cuáles y cuántas son las diferentes categorías o valores que posee dicha variable. • Realización de la ubicación de cada dato primario de la variable que se investiga en la categoría o valor que a él le corresponde. Este "proceso" se denomina tarjado. • Determinación de las frecuencias absolutas de cada categoría: esto es contar la cantidad de tarjas (rayas o palotes) que corresponde a cada categoría y asignarle el número correspondiente. • Calcular, si es necesario, las demás frecuencias y colocarle las otras partes a la tabla. Ejemplo: A partir del ejemplo de los datos primarios de la variable Z (disciplina) realice una tabulación de esta variable. Siguiendo los pasos anteriores se determina que esta variable es ordinal y que tiene tres categorías o valores individuales diferentes: Mal, Regular y Bien. A continuación se va realizando un recorrido por cada uno de los datos de esta variable, y mediante una raya, se va situando cada dato en la categoría que le corresponde; así el alumno A1 que tiene regular disciplina estará ubicado en esa categoría, el alumno A2 que tiene buena "conducta" estará en la tercera categoría y así sucesivamente: Categorías Tarjado Mal ///// \\\\\ // Regular ///// \\\\\ ///// \\ Bien ///// \\\\\ / Se cuentan las rayas que hay en cada categoría y se obtienen las frecuencias absolutas tal y como se observó en la tabla 1.Así se puede conocer que de los 40 alumnos de la muestra, 11 tienen buena disciplina, o lo que es lo mismo plantear que 27.50 % de los alumnos investigados tienen buena disciplina. Ejemplo: A partir de la tabla que aparece a continuación que corresponde al número de profesores que trabajan en 10 escuelas dadas de matriculas similares se pueden extraer las conclusiones siguientes: DATOS FRECUENCIA FRECUENCIA FRECUENCIA FRECUENCIA ABSOLUTA RELATIVA ABSOLUTA RELATIVA ACUMULADA ACUMULADA 40 2 0,2 2 0,2 41 2 0,2 4 0,4 42 3 0,3 7 0,7 43 2 0,2 9 0,9 44 1 0,1 10 1,0 Totales 10 1,0 14 • No existen grandes diferencias entre el número de trabajadores de los diez centros, la cantidad de trabajadores que más se repite es 42, ya que hay 3 que poseen esa cifra como se puede apreciar al observar la frecuencia absoluta). • Esa misma cifra dada en por ciento (frecuencia relativa) es el 30 %. • El número de escuelas con una cantidad de trabajadores menor o igual que 42 es 7 y esta cifra representa el 70 %. (frecuencia absoluta y relativa correspondiente) • Si se tienen criterios sobre el número de trabajadores que debe tener una escuela para que su gestión sea eficiente de acuerdo con la matricula, por ejemplo que el número sea 36, de los datos de la tabla se puede apreciar que todas están por encima de ese número, pudiendo ser causa de las posibles insuficiencias de la gestión educativa de esos centros. 2.3. Distribución de frecuencias para datos agrupados. En el caso en que las variables tengan pocos valores distintos que a menudo es el caso de las variables en escalas nominal y ordinal las distribuciones serán como las tratadas antes, por conteo de valores individuales en que junto a cada valor distinto aparece su frecuencia que será igual a la cantidad de veces que se repite. En el caso de los datos cuantitativos, se hará de forma similar al caso de los discretos pero con la diferencia de que son previamente organizados por intervalos. Estos intervalos son decididos por el investigador atendiendo a su naturaleza y a los intereses de la investigación. Rango o amplitud: Es la diferencia entre el dato mayor y el dato menor. Longitud del intervalo: Diferencia de los extremos del intervalo más 1, para aproximar por exceso. Intervalos de clases: Son las divisiones del intervalo en subintervalos y pueden ser de diferentes tamaños. Límites de los intervalos: Cuando se habla de los límites de los intervalos se consideran los puntos superior e inferior de cualquier intervalo. Los límites se pueden presentar de distintas formas: Ejemplo: A B C 60 - 65 60 - 64,99 60 - 64 65 - 70 65 - 69,99 65 - 69 70 - 75 70 - 74,99 70 - 74 75 - 79 75 - 79,99 75 - 79 80 - 85 80 - 84,99 80 - 84 La forma A resulta algo confusa y es poco utilizada, ya que el límite superior de un intervalo coincide con el límite inferior del intervalo siguiente. Si se tienen datos que coinciden con los límites, entonces no es posible ubicarlos de manera unívoca en un intervalo. 15 La forma B es muy utilizada por resultar muy clara. Sin embargo en la Estadística aplicada a la Educación, es muy utilizada la forma C. En este caso hay que aclarar que los límites presentados no son los límites de clase reales. Los límites de clase reales se obtienen sumando media unidad (0,5) al límite superior y restando media unidad al inferior. Luego en el caso presentado, para el intervalo 65 – 69 serían 64,5 – 69,5, siempre que se trate de variables continuas. Marca de clase: Es el punto medio del intervalo de clase y se obtiene, sumando los límites de clase inferior y superior y dividiendo por 2. También se le denomina punto medio. Para la confección de una distribución de frecuencias para datos agrupados es recomendable seguir los siguientes pasos: 1.- Determinar, a partir de los datos primarios de la variable que se investiga, cuál es el dato menor y el dato mayor que se llamarán, Xmín y Xmáx. respectivamente. De aquí se sabe que los N datos de la muestra están incluidos en el intervalo [Xmín, Xmáx]. (De lo que se trata, por tanto, es de construir h "intervalos más pequeños" para "repartir" en ellos los N datos de la muestra). Precisamente, a estos intervalos es a lo que les denominan clase o intervalos de clase: estos intervalos tienen que ser mutuamente excluyentes y exhaustivos. 2.- Calcular la diferencia entre el dato mayor y el menor de la muestra, que se llamará "recorrido R" de los datos, en símbolos: R = Xmáx-Xmín. 3.- A partir del valor de R, decidir la cantidad "preliminar" h de intervalos a formar (h es un número entero). Está generalizado el criterio de no formar menos de cuatro clases, ya que si ello se hiciera se "disipa" demasiado la información de los datos primarios: si el tamaño de la muestra es pequeño o si los valores de la variable que se miden no son muy diferentes entre sí, es preferible realizar una tabulación simple de esos datos. Tampoco se deben formar "demasiadas" clases, ya que ello dificultaría encontrar "regularidades" entre los datos que se investigan: es bastante general el criterio de no formar más de quince intervalos y en casos muy extremos llegar hasta veinte. 4.- Determinar la amplitud Ci de cada intervalo de clase. En realidad, debido a los propósitos para los que se construye la distribución de frecuencias, es recomendable que todas las clases tengan la misma amplitud o "ancho", incluso, la utilización de diferentes anchos, se debe reservar solo para casos extremos en los que las particularidades de los datos no admitan amplitud igual para cada intervalo. Cuando se toma la decisión de construir todos los intervalos del mismo ancho, entonces no es necesario utilizar el subíndice i para denotar esta amplitud y se escribe simplemente C; en tal caso el valor de C se determina de la división de R (recorrido) por el valor de h (cantidad de intervalos), en símbolos: C= R/h. 5.- Construir los h intervalos de clase. Para esto, se deberá tener en cuenta el ancho de cada intervalo y el dato menor, determinados antes. El límite inferior de la clase uno, podrá ser el propio Xmin o algún valor menor que este. A partir de aquí, para obtener el límite superior de esa clase, se adiciona el 16 valor de C al límite inferior adoptado ya: de cualquier modo, lo que sí se tendrá que cumplir, necesariamente, es que el menor dato esté incluido en ese primer intervalo. Para construir la segunda clase, se toma el límite superior de la primera y se le suma el valor de C: con esto, el límite superior de la primera clase se convierte, a la vez, en límite inferior de esta segunda clase; de este modo, se reitera el proceso hasta elaborar la clase h. El mayor dato tendrá que estar, necesariamente, incluido en el intervalo h. Como el dato menor estará incluido en el primer intervalo y el mayor en el último, se cumple la exhaustividad de las clases. El hecho de hacer coincidir el límite superior de una clase con el inferior de la siguiente, no altera el postulado que establece que los intervalos tienen que ser mutuamente excluyentes, ya que se adopta el convenio de considerar ese valor como un dato de la clase que lo contiene como límite inferior, por lo que ese valor solo pertenece a una de ellas. 6.- Realizar la ubicación de cada dato primario de la variable que se investiga en la clase que a él le corresponde. Este "proceso" se denomina tarjado. En esta operación, se deberá tener en cuenta que si algún dato primario es igual al límite superior de una clase, y por tanto, al inferior de la clase siguiente, ese dato será incluido en el intervalo que tiene ese valor como límite inferior (según el criterio establecido en la indicación 5). 7.- Determinar las frecuencias absolutas de cada categoría. 8.- Calcular, si es necesario, las demás frecuencias y colocarle las otras partes a la tabla. Por ejemplo si se considera la confección de una distribución de frecuencia para la variable X (calificaciones en Matemática) del ejemplo de los datos primarios. Como es una variable medida en escala métrica, y que además, tiene 22 valores diferentes, por tales razones es preferible realizar la tabulación mediante intervalos de clases. Siguiendo los pasos anteriores, a partir de los datos primarios, se tiene que Xmín=66 y Xmáx=88, por tanto, en el intervalo: [66; 88] están los 40 datos de la muestra. Ese intervalo se divide en subintervalos de iguales amplitudes, pero antes se determina la amplitud o recorrido de los datos primarios: R= Xmáx-Xmín=88-66=20. Considerando las indicaciones del paso 3, se toma h= 6, y además, se adopta la decisión de construir todas las clases de la misma amplitud, entonces C=R/h=20/6=3.33. Este valor de C es "inapropiado", es preferible tomar el valor de C como un número entero, en este caso, y también que sea par, por tanto se considera C=4. Para formar los límites de las clases, se opta por comenzar por el propio Xmín y a partir de ese valor se le va adicionando el valor de C para hasta construir la clase en la que esté incluido el Xmáx: 66+4=70, 70+4=74, 74+4=78,... A continuación se hace el tarjado, tal y como se explicó en la distribución anterior, si un dato primario coincide con el límite superior de una clase, y por tanto, con el inferior de la siguiente, será incluido en la clase que tiene a dicho valor como límite inferior, es por ello que se ha empleado el operador "menor que" en los intervalos: Clases Tarjado 66.00 < 70.00 ///// 70.00 < 74.00 ///// \\ 17 74.00 < 78.00 ///// \\\\\ 78.00 < 82.00 ///// \\ 82.00 < 86.00 ///// \ 86.00 < 90.00 ///// Si ahora se cuentan la cantidad de tarjas de cada intervalo, se obtienen las frecuencias absolutas. Por último se completa tabla. Tabla B: Calificaciones en Matemática. Notas Cantidad Por ciento Cantidad Acumulada Por ciento acumulado Puntos medios 66.00<70.00 5 12.50 5 12.50 68 70.00<74.00 7 17.50 12 30.00 72 74.00<78.00 10 25.00 22 55.00 76 78.00<82.00 7 17.50 29 72.50 80 82.00<86.00 6 15.00 35 87.50 84 86.00<90.00 5 12.50 40 100.00 88 Total 40 100.00 (en puntos) 2.4. Representación gráfica de distribuciones de frecuencia En ocasiones, para transmitir la información de una forma rápida y que sea comprendida por otras personas, la tabla de frecuencia no es lo más ilustrativo porque a veces es muy extensa y de difícil comprensión, así surgen otras formas para representar datos, los llamados gráficos. O sea además de la presentación de los datos primarios en forma tabular, también se pueden presentar mediante los gráficos que aportan mayor información pues la visualización permite destacar los principales aspectos del fenómeno objeto de estudio. Un gráfico es la representación de los datos por medio de puntos, líneas o rectángulos cuyas dimensiones tienen que ser proporcionales a la magnitud de los datos presentados. Es un medio auxiliar de exposición o presentación ya que el medio principal es la tabla estadística. Mientras que la tabla muestra valores "exactos", el gráfico es una aproximación. Sin embargo, tiene la ventaja de que permite apreciar más rápidamente el comportamiento de los datos. Al igual que la tabla, el gráfico tiene tres partes fundamentales, que son: encabezamiento, cuerpo y leyenda. El encabezamiento: Es la parte superior y está formado por el título que es un texto breve, conciso, que ofrece una información clara sobre los datos que están graficados y el subtítulo que es, al igual que el título, un texto breve, pero complementario de aquel. 18 El cuerpo: Es la parte principal ya que en ella se sitúan los datos recogidos en la investigación. Determina el "tipo de gráfico" que se está empleando y mostrará la proporcionalidad de los datos. La leyenda: Está constituida por notas aclaratorias que se ubican, por lo general, hacia la parte derecha del cuerpo. También existen otras tendencias que sitúan la leyenda debajo del cuerpo e incluso en su interior. Cuando en un gráfico se representan dos o más variables, la leyenda juega un papel esencial para comprenderlo, en tal caso, se utilizan las mismas figuras que se emplearon en el cuerpo con colores, sombreados, rayados u otras características acordes con las ya empleadas y siempre diferentes entre sí. Existen diversos tipos de gráficos, que se clasifican atendiendo a las "figuras" utilizadas en su construcción. Entre los gráficos más usados están los de barras, de sectores, los histogramas y los polígonos de frecuencias. 2.5. Representación gráfica para datos discretos. Si se desea representar gráficamente las frecuencias absolutas o las relativas bastará con llevar a un eje horizontal los valores de la variable y sobre cada uno de ellos levantar un segmento vertical de longitud igual a la frecuencia absoluta o relativa correspondiente al valor. Este tipo de gráfico se llama de diagrama de frecuencias o de barras de frecuencias. Gráfico de barras: Es aquel en el cual el fenómeno que se estudia queda representado por una serie de rectángulos o barras que pueden dibujarse horizontal o verticalmente. Se utiliza para representar variables de tipo cualitativo o cuantitativo discreto. Puede presentar dos o más indicadores que corresponden a dos o más variables, en ese caso los rectángulos representativos de cada uno de ellos se distinguirán por distintos colores o sombreados. 100 80 Fábrica 1 60 Fábrica 2 40 Fábrica 3 20 0 1er trim. 2do trim. 3er trim. 4to trim. Las barras irán yuxtapuestas separando cada dato identificativo de acuerdo con las normas para la separación de barras, e s decir, el espacio entre grupos no debe ser menor que la mitad del ancho de una barra ni mayor que su ancho pero manteniendo la misma separación una vez determinada. En el caso de barras proporcionales se presenta en una sola figura geométrica datos cuyo conjunto forma un todo definido, mostrando la proporción de cada una de las partes con relación al total. La diferencia con los gráficos anteriores es que se encuentran todos los datos representados en una sola barra dividida en porciones. 19 100% 80% Fábrica 3 60% Fábrica 2 40% Fábrica 1 20% 0% 1er trim. 2do trim. 3er trim. 4to trim. Si lo que se desea representar son las frecuencias acumuladas absolutas o relativas se hace uso entonces de los llamados gráfico acumulativos de frecuencias. Estas gráficas consisten en llevar sobre un eje horizontal los diferentes valores de la variable y levantando sobre cada uno de estos valores un segmento vertical de longitud igual a la frecuencia acumulada correspondiente completando con tramos horizontales hasta el valor inmediato siguiente. El gráfico circular o de pastel es representado por un círculo que está dividido en partes (sectores), cuyas amplitudes son proporcionales a la frecuencia correspondiente. Este tipo de gráfico tiene gran impacto visual y es muy útil cuando el análisis de las partes con respecto a un todo es más importante que el valor real. Resulta muy adecuado cuando hay pocos valores, o bien cuando el carácter que se estudia es cualitativo. La siguiente tabla corresponde a los resultados de una evaluación de 540 alumnos de una escuela. Evaluación Frecuencia Absoluta Frecuencia relativa en por ciento Regular 153 28,3 Mal 87 16,1 Bien 300 55,6 Total 540 100 Para su construcción se divide el círculo en sectores, de tal manera que la medida de cada sector (amplitudes del ángulo central correspondiente al sector), represente el número de alumnos o el por ciento evaluados en cada modalidad. Para obtener cada sector se determina el ángulo central que le corresponde, dividiendo los 360° (medida del ángulo completo) en partes proporcionales a las frecuencias absolutas 153; 87 y 300 de la siguiente forma: Para calcular la medida del sector que le corresponde a los evaluados como Regular, se divide la frecuencia absoluta (153) por el tamaño de la muestra (540) y se multiplica por 360°. En general para calcular la amplitud del ángulo que va a corresponder a cada uno de los sectores se multiplica la frecuencia relativa correspondiente al dato que se analice por 360°. Así el cálculo para determinar el sector correspondiente a la modalidad de Regular es el 153 siguiente: • 360° = 102° 540 20 De manera análoga para: Mal: 87 • 360° = 58° 540 Bien: 300 • 360° = 200° 540 Se verifica que el total es 360º o sea 102º + 58º + 200º = 360º Por último, con ayuda del semicírculo graduado o dividiendo en partes proporcionales el círculo de acuerdo a la medida del sector se obtiene el gráfico circular siguiente. Regular Mal Bien Es posible también hacer representaciones gráficas mediante el empleo de los llamados pictogramas o diagramas pictóricos que se usan con frecuencia para presentar los datos de una forma intuitiva. Muchos de ellos ponen de manifiesto una gran originalidad en su presentación. En estos gráficos para elegir la escala se debe tener en cuenta si son grandes o pequeñas las cantidades a representar, de este modo cada unidad de longitud de la ordenada, cada barra o símbolo será igual a un número de unidades de la cantidad a representar. Ejemplo: En el siguiente gráfico se representan los resultados de una encuesta realizada en una región donde se estudió el sexo de los trabajadores en seis actividades diferentes. A través de la gráfica anterior de una forma muy atractiva puede visualizarse mediante símbolos alusivos al fenómeno, la composición por sexo de las personas que trabajan en las 6 actividades diferentes seleccionadas; lo que le permitirá arribar a sus propias conclusiones y a pensar en el por qué de esta composición. 21 2.6. Representación gráfica para datos continuos. Histogramas: Consiste en un conjunto de columnas o rectángulos unidos, empleando una columna para cada intervalo de clase. Es una gráfica de barras, generalmente verticales, cuyas alturas vienen dadas por el cociente de las frecuencia relativa de la clase y la amplitud del intervalo correspondiente y cuyo ancho común es la longitud de cada clase. Se traza sobre un eje horizontal donde se marcan las clases y sobre ellas las barras correspondientes y se considera un eje vertical de las frecuencias. Es decir en el eje x se marcan las bases de estos rectángulos y en el eje y se marca la altura de los rectángulos que está determinada por la frecuencia absoluta o relativa de las clases correspondientes. Polígonos de frecuencia. Esta representación consiste en una gráfica de líneas, dibujada en función del punto medio de los intervalos. Se sigue el mismo procedimiento que para los histogramas pero las frecuencias se marcan en los puntos medios de cada intervalo de clase y no en sus límites, uniendo los puntos consecutivamente. Un gráfico que muestre la frecuencia acumulativa menor que cualquier límite de clase real superior dibujado en función del límite de clase superior se denomina polígono de frecuencia acumulativa u ojiva. Ejemplo de ojiva para la distribución de 1200 calificaciones en una evaluación de Matemática. 22 EJERCICIOS PARA COMPROBAR TUS CONOCIMIENTOS 1. Se aplica una encuesta donde se pregunta: ¿Motiva usted sus clases? Se dan los ítems siguientes: 1. Siempre 2. La mayoría de las veces 3. Casi nunca 4. Nunca Se obtienen las respuestas siguientes: 4 1 1 1 3 3 4 2 1 4 3 1 4 2 2 3 1 2 2 3 4 1 4 2 1 3 1 4 3 2 3 2 4 3 1 2 3 4 1 4 Confeccione una distribución de frecuencias. Nota: Aunque aparecen tabulados números, éstos representan las categorías de los ítems de la encuesta. 2. Una pregunta de selección múltiple en una encuesta tiene 5 respuestas posibles (A, B, C, D, E). Haga una distribución de frecuencias para los datos siguientes: A D D E B A E C D D A A C B E E D B D A A A E E C C C B B E D A B C D B D A A E E B B C C E A B 3. Se observan 33 alumnos y se clasifican según la insuficiencia que presentan en A, B, C, D, G, W y se obtienen los resultados siguientes: A,A,B,W,B,G,A,B,B,B,G,D,D,C,C,W,W,C,C,B,A,W,C,G,G,B,B,C,G,C,B,G,W Construya con estos datos: a) Una distribución de frecuencias. b) Las frecuencias relativa y porcentual. c) Las gráficas de barras y circular o de pastel. 4. Se observan las calificaciones de 40 estudiantes en la asignatura Estadística, que resultaron ser, según la lista: R,M,E,E,M,M,R,B,M,M,B,B,B,B,B,E,B,B,R,R, (donde M - Mal , R - Regular R,E,B,B,B,R,B,B,R,M,E,B,B,R,R,B,B,R,R,R B - Bien y E - Excelente) a) Construya una distribución de frecuencias. b) Calcule las frecuencias relativas, acumulativas. c) Confeccione el histograma y la gráfica de pastel. 5. Los datos siguientes corresponden a los tiempos de reacción, (en segundos) de una muestra de 50 alumnos de la escuela A. 44.1 46.3 40.9 48.1 43.7 44.2 30.9 47.8 53.1 47.9 23 45.3 54.8 42.1 46.8 41.7 46.6 44.0 47.6 43.9 44.9 44.1 43.7 44.8 39.3 51.7 54.8 51.1 49.5 43.3 42.4 36.4 45.0 48.7 40.6 45.8 46.0 58.6 45.9 45.6 56.9 42.4 46.8 52.3 51.3 49.9 45.3 36.2 53.2 37.0 55.7 a) Construya una distribución de frecuencias. b) Calcule las frecuencias relativas, acumulativas. c) Confeccione el histograma y la gráfica poligonal. 6. En una investigación antropométrica se midieron los pesos de 40 alumnos universitarios (peso en libras): 138 146 168 146 161 a) b) c) d) e) f) 164 158 126 173 145 150 140 138 142 135 132 147 176 147 142 144 136 163 135 150 125 148 119 153 156 149 152 154 140 145 157 144 165 135 128 Haga una distribución de frecuencias con 12 clases. Determine las marcas de clase. Determine las frecuencias absolutas. Determine las frecuencias relativas. Determine las frecuencias relativas acumuladas. Haga el histograma y el polígono de frecuencias de esa distribución. 7. En una escuela con matrícula de 800 estudiantes se realizó una encuesta sobre la preferencia de programas de televisión, obteniéndose los siguientes resultados: Programas Alumnos Deportivos 80 Musicales 120 Infantiles 240 Noticieros 200 Culturales 160 Represente los resultados de esta encuesta en un: a) Gráfico de barras y circular. b) Pictograma. 8. Se ha realizado una encuesta en 30 hogares en la que se les pregunta el número de individuos que conviven en el domicilio habitualmente. Las respuestas obtenidas han sido las siguientes: 4, 4, 1, 3, 5, 3, 2, 4, 1, 6, 2, 3, 4, 5, 5, 6, 2, 3, 3, 2, 2, 1, 8, 3, 5, 3, 4, 7, 2, 3. 24 a) Calcule la distribución de frecuencias de la variable obteniendo las frecuencias absolutas, relativas y sus correspondientes acumuladas. b) ¿Qué proporción de hogares está compuesto por tres o menos personas? ¿Qué proporción de individuos vive en hogares con tres o menos miembros? c) Dibuje el diagrama de barras de frecuencias y el diagrama en escalera. d) Agrupe por intervalos de amplitud 2 los valores de la variable, calcule su distribución de frecuencias y represente el histograma correspondiente. 9. En un estudio sobre consumo de gasolina en una gran ciudad se eligió una muestra de 100 vehículos y se observó el número de litros que consumían en un día, obteniéndose la siguiente distribución de frecuencias. a) Calcule la distribución de frecuencias, obteniendo, además, la amplitud de cada intervalo así como sus respectivas marcas de clase. b) Represente gráficamente la distribución de frecuencias mediante un histograma. 10. Se realiza un estudio en una ciudad sobre la capacidad hotelera y se obtienen los siguientes resultados: a) Represente gráficamente esta distribución de frecuencias mediante un histograma. b) ¿Cuál es la proporción de hoteles que disponen de entre 11 y 60 plazas? c) ¿Cuántos hoteles tienen treinta o menos plazas? d) Calcule las marcas de clase de cada intervalo. e) ¿Cuál es la proporción de hoteles que disponen de entre 15 y 50 plazas? ¿Qué hipótesis hace para este último cálculo? 11. Una entidad bancaria dispone de 50 sucursales en el territorio nacional y ha observado el número de empleados que hay en cada una de ellas para un estudio posterior. Las observaciones obtenidas han sido: 12, 10, 9, 11, 15, 16, 9, 10, 10, 11, 12, 13,14,15, 11, 11, 12, 16, 17, 17,16,16, 15, 14, 12, 11 11, 11, 12, 12, 12, 15, 13, 14, 16, 15, 18, 19, 18, 10, 11, 12, 12, 11, 13, 13, 15, 13, 11, 12. a) Calcule la distribución de frecuencias de la variable obteniendo las frecuencias absolutas, relativas y sus correspondientes acumuladas. b) ¿Qué proporción de sucursales tiene más de 15 empleados? c) Dibuje el diagrama de barras y el diagrama en escalera correspondientes. d) Agrupe en intervalos de amplitud 3 los valores de la variable, calcule su distribución de frecuencias y represente su histograma y su polígono de frecuencias acumuladas. 25 CAPÍTULO 3: MEDIDAS DE TENDENCIA CENTRAL, DE POSICIÓN RELATIVA Y DE DISPERSIÓN. Como ya se conoce, la Estadística se encarga de la recolección, clasificación y presentación de datos, mediante tablas y gráficos, pero también del análisis de esos datos con el fin de conocer características propias de la muestra seleccionada. Esto último se realiza a partir de la "reducción" de los datos primarios, o de ellos ya tabulados, a unos cuantos "valores representativos", que se les da el nombre de estadígrafos, estadísticos o medidas descriptivas y que ayudan a encontrar regularidades entre los datos que describen. Son magnitudes que sirven para valorar una serie de mediciones que se calculan a partir de los datos. Se utilizan con mucha frecuencia para describir una característica o el carácter de una distribución. Se pueden obtener para los datos primarios y para agrupados. Cuando se tiene una lista de datos numéricos a veces se necesita extraer uno que sea representativo de todos, es decir, que ofrezca una cierta idea del valor más típico, ya sea porque es el que más se repite o porque tenga la misma cantidad de datos antes o después de él o porque es el valor alrededor del cual están los demás. Este tipo de datos que se ubican hacia el lugar central de la lista y que indican medidas representativas se llama medidas de tendencia central o de posición. Los valores que asumen estas medidas están incluidos entre el menor y el mayor de los datos lo que no significa que ocuparán exacta y necesariamente su centro, ni que los valores que tomen tengan que coincidir con alguno de los que han sido recolectados. Entre estas medidas se tienen la moda, la mediana, la media ( aritmética, geométrica, armónica) y los percentiles, entre otras. A veces es conveniente calcularlas todas, a veces dos y en otros casos una medida es la apropiada, es decir, se pueden utilizar según el tipo de fenómeno que se analice y las características de los datos que se procesan. 3.1. Para valores simples o no agrupados. La moda: En una muestra de tamaño N, la moda, si existe, es el dato o los datos, que tienen mayor frecuencia absoluta. De lo anterior se infiere que en una muestra para que haya moda, tiene que existir por lo menos un dato que se repita una cantidad de veces mayor que la que aparecen los demás. Por tanto, en una muestra la moda puede o no existir, y si existe puede ser única o no. Se puede calcular para cualquier escala de medición de la variable que se estudia. Para denotar la moda de una variable X, se usará la notación X̂ . En ocasiones una lista de datos puede tener más de una moda, cuando son varios los datos que más se repiten (y se repiten la misma cantidad de veces). Esta medida de tendencia central es también usualmente empleada para estudiar situaciones de la vida práctica. Es muy útil cuando los datos son cualitativos, pues no depende de cálculos con ellos. Puede ser usada para cualquier tipo de datos, es fácil de determinar. 26 Se señala que puede no existir y que no es una función algebraica de los valores individuales de la serie, por lo que puede oscilar mucho de una muestra a otra. Por ejemplo, la moda se utiliza para indicar el número más frecuente de veces que un árbitro muestra tarjeta amarilla a un jugador en un partido de voleibol para penalizar sus faltas, para indicar la nota más frecuente que un grupo de alumnos obtuvo en la prueba de Matemática, para identificar el horario preferido por los pobladores de una ciudad en una encuesta sobre el tránsito de una línea de ómnibus. La mediana de una muestra de tamaño N , cuyos datos han sido ordenados ascendente o descendentemente, es el valor (único) que ocupa el propio centro de dichos datos. Por tanto, si el elemento de la muestra cuyo valor es el de la mediana se excluye, los datos primarios podrán redistribuirse en dos subgrupos, los cuales quedarán integrados por cantidades iguales de datos. Solo tiene validez práctica cuando se le aplica a variables que estén medidas en escala métrica u ordinal. Para calcular la mediana de una muestra de tamaño N, se deberán seguir los siguientes pasos: • Ordenar los datos de modo ascendente o descendente. • Calcular la posición que ocupa la mediana: si N es impar, la mediana ocupa la posición ( N + 1) 2 de los datos; en cambio si N es par, entonces la mediana se encuentra entre los datos que ocupan las posiciones N 2 y ( N 2) + 1 . • Dentro de la muestra ordenada localizar el dato o los datos que ocupan la posición o posiciones calculadas en el paso 3. En el momento de realizar la interpretación de la mediana se deberá tener mucho cuidado, ya que en ocasiones esta coincide con algunos de los datos primarios y en otras no. Puede señalarse que : ¾ La mediana siempre existe y puede ser determinada para cualquier grupo de datos, sean ordinales o numéricos (no para datos nominales). ¾ Siempre es única. ¾ Puede ser hallada con un mínimo de cálculos siendo apropiada para muestras pequeñas. ¾ No es fácilmente afectada por valores extremos. En la práctica se puede utilizar por ejemplo para determinar el valor central de las notas de Matemática de los 30 alumnos de un grupo o el valor central de la cantidad de pasajeros transportados por un ómnibus en los recorridos que hizo en un día. Ejemplo: Conocidos los datos 3; 2; 5; 8; 7; 13; 11 calcule la mediana. Después de ordenarlos queda: 2 3 5 7 8 11 13. El número de datos es impar: n = 7, 7 +1 = 4, por tanto la mediana es el dato que ocupa el cuarto lugar; en éste caso el 2 número 7. 27 La media aritmética es el valor alrededor del cual se encuentran los datos de una lista. Se calcula sumando todos los datos y dividiendo el resultado por el número de datos. Solo tiene validez práctica cuando se le aplica a variables que estén medidas en escala métrica. Se denota por el símbolo X y la fórmula para calcularla es: n + + ... + xn X = x1 x 2 = n ∑ xi i =1 n = 1 n ∑ xi n i =1 En esta expresión Xi representa a cada dato o valor de la variable, el signo Σ significa la suma de todos los datos y n es la cantidad de datos. A esta media aritmética se le llamara simple para diferenciarla de la media aritmética ponderada que se analizará posteriormente. También, se le suele decir promedio, aunque este último nombre se puede prestar a confusión. Constituye el punto de " equilibrio o centro de gravedad" de los datos. Es muy utilizada al analizar situaciones de la vida como por ejemplo al calcular el promedio de notas de un alumno y el promedio del gasto de electricidad o de agua de una familia. Puede señalarse que: Siempre existe. Siempre es única y fácil de calcular. Toma en cuenta cada dato de manera individual. Es una función algebraica de los valores individuales de la serie de datos. Puede o no coincidir con uno o más de los datos y no depende de su cantidad. Para su cálculo no requiere que los datos sean ordenados, ni tabulados y puede o no ser igual a la moda. Se puede utilizar cuando la muestra no es extremadamente pequeña pero no en el caso de datos nominales (que son atributos o valores dados por propiedades) ni ordinales. Si en una muestra todos los datos son iguales (constantes), entonces la media aritmética de esa muestra es esa misma constante. La media aritmética está influida por valores extremos, lo que constituye una limitante en su utilización, o sea, está "afectada" por cada dato y principalmente, por aquellos que se alejan mucho de los demás. Quizás sea esta la gran deficiencia o limitación de esta medida lo que hace que, en ocasiones, la media no sea una "buena representación" de los datos. Ejemplo: Si se calcula la media considerando las calificaciones sobre 100 puntos de 10 alumnos 42 52 100 48 60 58 56 42 39 100 x ≈ 60 esto significaría que la media de los alumnos está aprobado, sin embargo sólo hay 3 aprobados (es decir, tres calificaciones de 60 o más puntos). Ejemplo: Dada las notas (sobre 10 puntos) de 30 alumnos 6,9 9,7 3,2 6,8 8,8 5,3 4,5 2,8 8,7 9,8 6,8 7,6 9,2 8,3 8,3 6,3 6,9 7,6 6,8 9,3 28 7,7 7,6 9,8 5,7 1,3 7,2 9,7 4,9 6,9 1,7 a) Calcular la moda: Mo = 6,8 ; 6,9 ; 7,6 b) Calcular la mediana: Después de ordenadas las notas medias( pues 30 es par) son la 6,9 + 7,2 14 , 1 15 (6,9 ) y la 16 (7,2 ), luego la mediana es : = = 7 , 05 ≈ 7, 0 2 2 En este caso la mediana no es un dato pues hay un número par de datos. La media geométrica de una muestra de tamaño N es la raíz Nésima del producto de los N datos de esa muestra. Se denota esta medida por G. En símbolos: G = N X 1 X 2 X 3 ... X N Cuando los datos vienen dados por razones es más recomendable utilizar la geométrica en lugar de la aritmética. La media geométrica se utiliza en los casos en que los datos de la variable que se investiga, presenta una "razón de crecimiento". Tiene, entre otros campos, gran uso dentro de la Biología. Si la cantidad de observaciones es muy grande para simplificar los cálculos se hace uso de las propiedades de los logaritmos decimales y se obtiene una nueva expresión para esta fórmula, que en realidad es la que se utiliza: N lg X 1 + lg X 2 + ... + lg X N = lg G = N ∑ lg X i =1 i N En definitiva, para calcular la media geométrica de una muestra de tamaño N, se procede del siguiente modo. 9 Calcular el logaritmo decimal de cada dato de la muestra. 9 Calcular la media aritmética de esos nuevos datos. 9 Calcular el antilogaritmo de esa media. La media armónica de una muestra de tamaño N es el cociente que se establece entre el tamaño de la muestra y la suma de los recíprocos de los datos de esa muestra. Denotando por MA esta N N es: MA = = N 1 1 1 1 + + ... + ∑ X1 X 2 XN i =1 X i medida y su fórmula para el cálculo En resumen, para calcular la media armónica de una muestra de tamaño N, se procede del siguiente modo: ¾ Calcular el recíproco de cada dato de la muestra. ¾ Calcular la suma de esos nuevos datos. ¾ Dividir el valor de N por la suma anterior. La media geométrica de un conjunto de valores positivos es menor o igual a su aritmética pero mayor o igual que la armónica. En resumen: 29 De las medidas de tendencia central estudiadas la media es la más utilizada, aunque en ciertos casos la utilización de la mediana o de la moda es preferible. La media en muy sensible a valores extremos, o sea, cuando se altera drásticamente el valor de uno de los datos, la media varía considerablemente. La mediana es preferible a la media cuando se está interesado en conocer el punto medio de la distribución de los datos ya que es el valor que la divide en dos partes iguales. La moda revela su utilidad, tanto en el estudio de datos cualitativos, como cuantitativos, mientras que la media y la mediana son aplicables a datos cuantitativos. La importancia de las medidas estudiadas está en dependencia del tipo de datos, de su distribución y del objetivo que se tiene en la realización del estudio. A pesar de ser considerada la media como la medida más importante en la mayoría de los estudios de fenómenos o hechos, el conocimiento de las tres proporciona una mejor descripción de estos. Ejemplo: La tabla de frecuencias que se presenta a continuación corresponde a los resultados del control que realizó la directora de una escuela- durante 19 días - a los alumnos que llegaron tarde a clases. Calcule la media, la moda y la mediana. Número de alumnos que llegaron tarde Frecuencia absoluta 0 2 1 2 2 3 3 2 4 2 5 6 6 1 7 1 Total 19 Para calcular la media, como los datos están recogidos en la tabla donde están reflejadas las frecuencias absolutas se puede reducir el número de sumandos haciendo uso del cálculo de los productos que se obtienen al multiplicar la cantidad de alumnos que llegaron tarde por la frecuencia. La suma de estos productos se divide por el número total de datos y de esta forma se obtiene la media aritmética. Media = 0 • 2 + 1• 2 + 2 • 3 + 3 • 2 + 4 • 2 + 5 • 6 + 6 •1 + 7 •1 =3,4 19 Si se observa la tabla de frecuencias se puede notar directamente de que el valor que más se repite en este conjunto de datos es el 5. De manera que la cantidad de alumnos que con más frecuencia llegaron tarde al matutino fue de 5, que es la moda de estos datos 30 En este caso para determinar la mediana se deberá ordenar en forma creciente o decreciente el conjunto de datos: 0; 0; 1 ;1 ;2 ;2 ;2 ;3 ;3 ;4 ;4; 5 ;5; 5; 5; 5; 5; 6; 7 . Como el número de datos es impar bastaría tomar su valor central que en este caso es 4. Luego la mediana del número de alumnos que llegaron tarde al matutino es 4. 3.2. Para valores agrupados. ¿Cómo determinar la media, la moda y la mediana cuando los datos están agrupados en una tabla de frecuencias? Moda: En las distribuciones de frecuencia, cuando las observaciones se presentan en intervalos de clase, la clase de mayor frecuencia es la modal. ⎛ Se calcula utilizando la fórmula : Mo = L i + ⎜⎜ n1 ⎝ n1 + n2 ⎞ ⎟⎟ ⋅ i ⎠ L i : Límite inferior real de la clase modal. n 1 : Frecuencia absoluta posterior a la frecuencia modal. n 2 : Frecuencia absoluta anterior a la frecuencia modal. i : Amplitud del intervalo de la clase modal. Dentro de una misma muestra depende considerablemente de la amplitud de las clases en que fueron concentrados los valores. Mediana: Cuando los datos están agrupados en clases se utiliza la fórmula: ⎛ n ⎞ − fa ⎜ ⎟ − m 1 2 ⎝ ⎠ ⋅ i donde: Me = Li + fm Li: Límite de clase real inferior de la clase mediana. n: Número de observaciones. f a m − 1 : Suma de todas las frecuencias de las clases inferiores a la clase mediana f m −1 a m −1 = ∑ fk k =1 f m : Frecuencia de la clase donde va a estar la mediana. i : Amplitud del intervalo de la clase mediana (diferencia de los extremos más 1) Cuando una serie de datos están agrupados en una distribución de frecuencias, la mediana, por definición, será el punto que indique el 50 % de los casos. Ejemplo: La siguiente distribución de frecuencias corresponde a las notas obtenidas por un grupo de 50 escolares en un examen de Geografía con un valor de 100 puntos. Determine la mediana. 31 INTERVALOS f Frecuencia acumulada INTERVALOS f Frecuencia acumulada 50 - 54 1 1 75 - 79 6 20 55 - 59 3 4 80 - 84 10 30 60 - 64 2 6 85 - 89 8 38 65 - 69 4 10 90 - 94 7 45 70 - 74 4 14 95 - 99 5 50 Determinando la mitad de los casos 1 . 50 = 25 2 ¿ A qué intervalo corresponde el caso No. 25 ? Con el auxilio de la frecuencia acumulada, hasta el intervalo 75 - 79 se tienen 20 casos, faltan 5 , luego está en el intervalo 80 - 84 . L i = 79,5 M = 79,5 + n = 50 f a m − 1 = 20 fm = 10 i = 5 (25 − 20 ) . 5= 82 10 Media aritmética: Si se tiene una distribución de frecuencias, todos los valores que se encuentran en un intervalo dado se consideran coincidentes con el punto medio del intervalo, entonces: + + ... + f n xn 1 n X = f 1 x1 f 2 x 2 = ∑fx n i =1 i i f 1 + f 2 + ... + f n ⎛ n ⎞ ⎜ ∑ fi = n ⎟ ⎜ i =1 ⎟ ⎝ ⎠ donde fi es la frecuencia y xi el valor medio del intervalo o marca de clase. Este procedimiento presupone que los valores se distribuyen uniformemente sobre la amplitud de clase. Siempre que la amplitud de clase no sea muy grande y el número de clases no sea muy pequeño, se puede pensar que las desviaciones de las marcas de clase se compensan y que el error es pequeño Ejemplo: Si se considera la distribución dividida en intervalos del ejemplo de las notas de los 30 alumnos se tendría: Intervalo 0 – 2,5 2,5 – 5 5 – 7,5 fi 2 4 10 Punto medio del intervalo x1 = 0 + 2,5 = 1,25 2 x2 = 2,5 + 5 = 3,75 2 x3 = 5 + 7,5 = 6,25 2 32 7,5 – 10 X = 14 x4 = 7,5 + 10 = 8,75 2 2 ⋅ 1, 25 + 4 ⋅ 3 , 75 + 10 ⋅ 6 , 25 + 14 ⋅ 8 ,75 2 , 5 + 15 + 62 , 5 + 122 , 5 = 30 30 202 , 5 = 6 , 75 ≈ 6 , 8 que comparado con el resultado de los datos simples no difiere 30 mucho. = Si los datos se repiten se obtiene la media de igual forma que en los datos agrupados por clases, pero donde xi son los datos que se repiten y fi las frecuencias (o sea, las veces que se repiten). + + ... + f n xn X p = f1 x1 f 2 x 2 f1 + f 2 + ... + f n donde fi : frecuencia de cada dato xi : cada dato que aparece i = 1, ... , n Ejemplo: Las calificaciones 5; 8; 6; 2 se presentan en una cierta prueba con una frecuencia de 3; 2; 4 y 1. Xp = 3 ⋅ 5 + 2 ⋅ 8 + 4 ⋅ 6 + 1⋅ 2 57 = = 5,7 ≈ 6 3 + 2 + 4 +1 10 Cuando se quiere obtener la media aritmética de varias se debe tener en cuenta el número de elementos que han intervenido en cada una de ellas, de este modo la media obtenida con más elementos tiene mayor valor que la obtenida con menos. De esta forma la media ponderada surge cuando se quiere determinar la media única de varios grupos de datos sobre la base de sus medias individuales y el número de datos de cada grupo. Con ello se puede caracterizar la totalidad de las muestras investigadas. Xp = En este caso n 1 x 1 + n 2 x 2 + ... + n k x k n 1 + n 2 + ... + n k donde ni es el número de datos (frecuencia) cuya media es x i . La media única se obtiene ponderando las medias individuales. Ejemplo: Conocidas las medias de notas en tres grupos X i : 55 70 90 n i : 35 30 25 Si se pondera: X p = 35 ⋅ 55 + 30 ⋅ 70 + 25 ⋅ 90 6275 = = 69 , 7 ≈ 70 35 + 30 + 25 90 33 3.3. Medidas de posición relativa. Si un conjunto de datos se ordena, el valor medio que divide al conjunto en dos partes iguales es la mediana. Ampliando esta idea se puede pensar igual de los valores que dividen al conjunto en cuatro partes iguales. Estos valores denotados por Q 1 ; Q 2 ; Q 3 y Q 4 son denominados cuartiles, siendo el valor Q 2 , igual al de la mediana. Si se divide en 100 partes se llaman percentiles. Ejemplo : División en cuartiles del conjunto de notas de 10 alumnos: 3,0 4,8 5,2 7,0 7,3 7,4 7,9 8,5 9,5 9,9 1 2 3 4 5 6 7 8 9 10 Q1 2 Eltos. Q 2 Q3 2 Elementos 2 Eltos. 25 % 2 Eltos. 50 % 25 % Método para calcularlos: Para esto se calcula primero la mediana del conjunto y después la mediana de cada uno de los subconjuntos obtenidos. Mediana: Q2 = 7,3 + 7,4 14,7 = = 7,35 2 2 Q 1 = 5,2 Son datos, pues hay un número impar de datos. Q 3 = 8,5 Esto significa que el 25 % tienen 5,2 o están por debajo de 5,2; el 50 % tiene 7,35 o menos y el 75 % tiene 8,5 o menos. También se puede interpretar que el 25 % tiene 8,5 o más, el 50 % tiene 7,35 o más y el 75 % tiene 5,2 o más. El percentil 50 es la mediana, el 25 es el cuartil 1 ( Q 1 ) y el percentil 75 es el cuartil 3 ( Q 3 ). El primer cuartil ( Q 1 ) es el punto de amplitud que tiene por debajo de su valor el 25 %, o sea la cuarta parte de los casos. El segundo cuartil ( Q 2 ) es precisamente la mediana que tiene por debajo el 50 % , o sea la mitad de los casos. El cuartil ( Q 3 ) tiene por debajo las tres cuartas partes de los datos de la distribución, o sea el 75 % de los casos y por tanto tiene por encima de él la otra cuarta parte de los casos. Ejemplo: Con la distribución de frecuencias de los 50 alumnos en el examen de Geografía 1 ⋅ 50 = 12 , 5 Q1 : 4 ⎛ 12 , 5 − 4 ⎞ Q 1 = 69 , 5 + ⎜ ⎟ ⋅ 5 = 69,5 + 4,25 =73,75 ≈ 73,8 10 ⎝ ⎠ Q 2 : Se halló antes y es 82. 34 Q3 : 3 ⋅ 50 = 37 , 5 4 ⎛ 37 , 5 − 30 ⎞ Q 3 = 84 , 5 + ⎜ ⎟ ⋅ 5 = 84,5 + 4,69 = 89,2 8 ⎝ ⎠ Percentiles: Utilizando el mismo procedimiento de los cuartiles, se calculan puntos por debajo de los cuales se encuentra el 10 %, 78 % o cualquier otro porcentaje, ya que la escala total de puntuación se divide en 100 partes iguales. Q 1 es el P 25. Q2 es el P 50 y Q 3 es el P 75 Ejemplo: Utilizando el ejemplo anterior hallar P 35 y P 60 P 35 se obtiene calculando : Como n = 50 entonces : P 35 = 74, 5 + ( 35 .n 100 35 . 50 100 17,5 − 14 6 = 17, 5 que cae en la clase 75 -79. ) .5 = 74,5 + 2,25 = 77,4 76,8 Esto significa que el 35 % de lo alumnos obtuvo notas de 76,8 o menos. P 60 se obtiene calculando: P 60 = 79,5 + ( 30 − 20 10 60 60 . 50 n = = 30 100 100 ) . 5 = 79,5 + 5 = 84,5 Esto significa que el 60 % de los alumnos obtuvo notas de 84,5 puntos o menos. Rango de percentiles: Cuando se trata de determinar la situación de un alumno en un grupo, de comparar su posición en dos materias diferentes, o de comparar la posición de dos alumnos en dos grupos, el rango de percentil permite hacer esta comparación. Si se quiere saber cuál de dos alumnos de dos grupos diferentes ocupa una mejor posición en sus grupos, sabiendo que uno obtiene un rango de 15 en su grupo de 32 alumnos, y el otro de 27 en un grupo de 42 alumnos, esto no es posible hacerlo a simple vista, es necesario para compararlos encontrar su posición si ambos grupos tuvieran 100 alumnos. Cálculo del rango de percentiles. Fórmula: R p = 100 − 100 R − 50 donde n n = número de datos R = rango de cada dato. Las notaciones percentiles facilitan: • La interpretación significativa de las puntuaciones individuales. • La comparación de puntuaciones obtenidas por un mismo sujeto en dos o más test de una materia o en pruebas distintas. • También permite conocer el porcentaje de observaciones ( datos ) que son menores e iguales a un valor dado de la distribución. 35 Rango Percentil para datos agrupados. Pueden utilizarse las frecuencias absolutas o relativas. Con las frecuencias absolutas se usa la expresión: FXi = f a + xi − li ( Fa − f a ) i Fxi : frecuencia absoluta acumulada hasta el valor xi xi : valor dado. li : límite inferior del intervalo al que pertenece xi i : amplitud del intervalo. Fa : frecuencia absoluta acumulada que corresponde a la clase a la que pertenece xi f a : frecuencia acumulada anterior al intervalo al que pertenece xi . La expresión anterior permite calcular la frecuencia absoluta acumulada hasta el valor Xi , al Fxi calcular que porcentaje representa del total de datos, entonces se calcula R = ⋅ 100 ∑ fi Si se trabaja con frecuencias relativas acumuladas, se utiliza R = fr + x i − li ( Fr − f r ) i Donde: Fr : frecuencia relativa acumulada a la clase a la que pertenece Xi . f r : frecuencia relativa acumulada anterior al intervalo al que pertenece Xi . li : límite inferior al intervalo al que pertenece Xi . i : amplitud del intervalo. Ejemplo: Conocida la distribución de las calificaciones obtenidas en una prueba de Física se quiere conocer qué porcentaje de los alumnos tiene hasta 73 puntos. INTERVALOS f fa INTERVALOS f fa 50 - 54 1 1 75 - 79 6 20 55 - 59 3 4 80 - 84 10 30 60 - 64 2 6 85 - 89 8 38 65 - 69 4 10 90 - 94 7 45 70 - 74 4 14 95 - 99 5 50 Para ello se halla el rango percentil de la anotación 73. 36 F73 cae en el intervalo 70 – 74 con una xi = 73 F xi = f a + li = 69,5 i=5 Fa = 24 f a = 16 xi − li 73 − 69,5 ( Fa − f a ) = 16 + ( 24 − 16 ) i 5 = 16 + 3,5 ⋅8 5 = 16 + 0,7 ⋅ 8 = 16 + 5,6 = 21,6 Para conocer qué porcentaje de alumnos tiene hasta 73 puntos entonces 21,6 R= ⋅ 100 = 54 % 40 3.4. Medidas de dispersión o variabilidad. Tanto la tabulación y agrupación de los datos como las medidas de tendencia central, aunque sirven para caracterizar una distribución, no dan una idea completa de la situación, es decir, las medidas de tendencia central no bastan pues se limitan a poner de manifiesto un valor conjunto de todos los datos y no dan indicaciones de cómo se distribuyen los elementos alrededor de un valor central. No proporcionan información en torno a si los elementos pequeños son más numerosos que los mayores ni ponen de manifiesto si las diferencias entre los elementos varían o no regularmente y si son grandes o pequeñas. Observe la figura siguiente, en donde los valores del eje X (abscisas) señalados, corresponden a las medias de las distribuciones que se grafican respecto a las frecuencias (eje Y). D IS T R IB U C IO N E S - G rá fic o II DIST RIBUCIONES - Gráfico I 4 3,5 3 2,5 2 1,5 1 0,5 0 2 0 0 0 1 2 3 2 4 6 8 4 En I, hay dos distribuciones distintas, pero con igual “media”. En cambio en II, las medias son diferentes pero las distribuciones son idénticas. En el caso siguiente: 3; 7; 42; 47; 71 15; 38; 42; 52; 23 X = 34 X = 34 M = 42 M = 42 37 A pesar de que las series son evidentemente diferentes, tienen la misma media y la misma mediana. Para eliminar estas insuficiencias de las medidas de tendencia central se hace necesario contar con una medida que indique la variabilidad o dispersión de los datos de una distribución y es por ello que se hace el estudio de la dispersión (que es el grado según el cual los datos numéricos tienden a difundirse alrededor de un valor promedio) para caracterizar una distribución. La mayor o menor variabilidad de los valores de una serie de datos con respecto a las medidas de tendencia central se representa por índices de dispersión o variabilidad. Cuanto más homogénea es la serie menores son tales índices. Entre las medidas de dispersión están el recorrido, la varianza, la desviación típica o estándar, el coeficiente de variación y el error estándar de la media. Rango, amplitud o recorrido: Si se tienen las siguientes puntuaciones obtenidas por dos grupos de estudiantes. Grupo I Grupo II Alumnos Puntuación Alumnos Puntuación A 100 J 62 B 80 K 61 C 60 L 60 D 40 M 59 E 20 N 58 Media X = 60 Media X = 60 Mediana M = 60 Mediana M = 60 Es evidente que las medidas de tendencia central no describen las diferencias de rendimiento entre los estudiantes del grupo I y II. Es necesario emplear una medida de dispersión al mismo tiempo que las de tendencia central, para comparar sus rendimientos. El grupo I es decididamente heterogéneo, con grandes variaciones en los rendimientos. El grupo II es bastante homogéneo con pocas diferencias en las puntuaciones contiguas y entre las puntuaciones más altas y más bajas. Entonces se analiza el rango pues define la variabilidad de las medidas. Esta es la más simple de las medidas de dispersión y se utiliza para comparar rápidamente dos distribuciones. Es poco confiable, pues considera sólo dos observaciones extremas, independientemente de la forma de la distribución y de las frecuencias de cada valor de la variable. R = X máxima – X mínima En general se tiene que a mayor recorrido (rango) se tiene una mayor dispersión de los datos y viceversa. En el ejemplo: 38 Grupo I R = 100 − 20 = 80 Grupo II R = − 58 = 62 4 Luego en el grupo I hay una mayor dispersión de los datos que en el grupo II, es decir en el I los datos están menos agrupados alrededor de la media en que el II que están más concentrados. Puede observarse que el rango es fácil de calcular pero en ocasiones no refleja diferencias de la forma en que se distribuyen los datos de cada grupo. Desviación media : Se define como la media aritmética de los valores absolutos de las diferencias entre los datos y su media aritmética. Solo se puede calcular con datos simples repetidos o agrupados en clases. n ∑ xi − x Dx = donde i =1 n es la media aritmética de los datos de la distribución y x xi − x es el valor absoluto de la desviación de x i con respecto a x . La desviación media indica donde estarían concentrados los datos si estuvieran todos a la misma distancia de la media aritmética. Ejemplo: Si se consideran las notas de 5 alumnos: 1; 3; 5; 8; 9. xi xi − x xi − x 1 − 4,2 4,2 3 − 2,2 2,2 5 − 0,2 0,2 8 2,8 2,8 9 3,8 3,8 Dx = x = 26 = 5,2 5 13,2 = 2,64 5 13,2 1 2 2,56 3 4 5 6 5,2 7 8 9 10 7,84 5,2 − 2,64 = 2,56 5,2 + 2,64 = 7,84 La mayor parte de los datos estarían concentrados entre 2,56 y 7,84. Ejemplo: Hallar la D x de las notas de 10 alumnos. 39 Datos simples: 8,5 ; 7,3 ; 4,8 ; 5,2 ; 3,0 ; 7,9 ; 9,5 ; 9,9 ; 7,4 ; 7,0 Resultado: xi xi − x 8,5 1,45 7,3 0,25 4,8 − 2,35 5,2 − 1,85 3,0 − 4,05 7,9 0,85 9,5 2,45 9,9 2,85 7,4 0,35 7,0 − 0,05 10 ∑ x i = 70,5 y X = 7,05 , por último D X = i =1 16,5 = 1,65 10 Es posible considerar que la calificación de cada alumno se diferencia de la calificación media en 1,65. Como ese es un valor pequeño se puede interpretar como que la mayoría de los alumnos tiene una calificación próxima a la media. Desviación media para datos agrupados. n : No. de datos. Xi : punto medio de la clase. fi : frecuencia de cada intervalo. Ejemplo : La siguiente tabla muestra la distribución de las notas de 50 alumnos en un examen de Historia. Clases xi fi x if i xi − x xi − x fi 10 − 14 12 2 24 17,6 35,2 15 − 19 17 8 136 12,6 100,8 20 − 24 22 6 132 7,6 45,6 25 − 29 27 12 324 2,6 31,2 30 − 34 32 7 224 2,4 16,8 35 − 39 37 6 222 7,4 44,4 40 40 − 44 42 4 168 12,4 49,6 45 − 49 47 3 141 17,4 52,2 50 − 54 52 1 52 22,4 22,4 55 − 60 57 1 57 27,4 27,4 Total X= ∑ Xi f i n 50 = 1480 = 29,6 50 425,6 D x= ∑ f i x −x i n = 425,6 = 8,51 50 En ocasiones, por dificultades en el manejo algebraico de los módulos, hace que no se utilice mucho. La desviación estándar o desviación típica (S ). Es la medida de variabilidad más comúnmente usada y de mayor confianza, puesto que varía menos que otros cuando se calcula para varias muestras extraídas de la misma población. La desviación estándar representa todas las diferencias de las observaciones respecto a la media, de modo que si el valor de S es pequeño, las desviaciones son pequeñas y la muestra es más homogénea respecto a otras muestras con valores mayores de S. La desviación típica o estándar de una muestra de tamaño N es la raíz cuadrada positiva de la varianza. Se denota por S y en símbolos es: S = + S 2 Cálculo de S para datos no agrupados: La fórmula de S para este tipo de casos viene ( ∑ xi − x dada por: S = )2 n En el ejemplo de las notas de los 5 alumnos, x = 26 = 5,2 5 Xi xi − x (x i − x) 1 − 4,2 17,64 3 − 2,2 4,84 5 − 0,2 0,04 8 2,8 7,84 9 3,8 14,44 2 ∑ = 44,8 ∑ ( Xi − X ) 2 n = 44,8 = 8,96 5 S= 8,96 ≈ 2,99 41 Cálculo de S para datos agrupados. Aún cuando existe más de un método para el cálculo de S en este tipo de situación, se vera aquel más largo, pero seguro en el cálculo. La fórmula viene dada por : S = ∑ f i( x i − x ) 2 n donde, f i : frecuencia de cada intervalo. x i : marca de clase o punto medio de cada intervalo. x : media aritmética de la muestra. n : número de casos u observaciones. En el ejemplo de las 50 notas en el examen de Historia Intervalo xi fi xi − x (x i − x) 10 – 14 12 2 – 17,6 309,76 619,52 15 – 19 17 8 – 12,6 158,76 1270,08 20 – 24 22 6 – 7,6 57,76 346,56 25 – 29 27 12 – 2,6 6,76 81,12 30 – 34 32 7 2,4 5,76 40,32 35 – 39 37 6 7,4 54,36 328,56 40 – 44 42 4 12,4 153,76 615,04 45 – 49 47 3 17,4 302,76 908,28 50 – 54 52 1 22,4 501,76 501,76 55 – 60 57 1 27,4 750,76 750,76 50 ∑ f i( x i − x ) n 2 = 5462 = 109,24 50 2 f i (x i − x) 2 5462 S= 109,24 ≈ 10,45 La varianza de una muestra de tamaño N es la media aritmética del cuadrado de las desviaciones de cada dato respecto a la media de esa muestra. N Se denota por S² y su fórmula de cálculo es: S 2 = ∑(X i =1 i − X )2 N Observaciones: Se ha demostrado, estadísticamente, que para el cálculo de la varianza muestral, resulta conveniente hacer una modificación en la fórmula anterior, que consiste en realizar la división por N-1, en vez de hacerlo por N. 2.- Se debe observar que el valor de la varianza se expresa en unidades al cuadrado, por eso, resulta difícil tener una idea clara del 42 grado de variabilidad de los datos, por lo que para eliminar esta dificultad se puede extraer la raíz cuadrada a la varianza, con lo que se obtiene otro medida descriptiva En síntesis, para calcular esta medida se deben realizar los siguientes pasos: • Calcular la media de la muestra. • Calcular las desviaciones (diferencias) de cada dato de la muestra respecto a la media de esta. • Elevar al cuadrado cada una de las desviaciones obtenidas en el paso 2. • Sumar todos los resultados del paso 3. • Dividir la suma obtenida en el paso 4, por N-1. Puede señalarse que: • Siempre un número no negativo, es decir, será cero o un valor con signo positivo. • La varianza de una muestra de tamaño N, en la que todos sus datos sean iguales es cero. En tal caso no existe dispersión de los datos de la muestra respecto a su media. • La varianza de una constante c es igual a cero. • La varianza de la suma de una variable y una constante es igual a la varianza de la variable. • La varianza del producto de una constante por una variable, es igual al producto del cuadrado de la constante por la varianza de la variable. Cuando es necesario distinguir la desviación estándar de una población, de la desviación estándar de una muestra sacada de esa población, con frecuencia se utiliza el símbolo S para la muestra y σ para la población. Así S 2 y σ 2 representarían la varianza muestral y la varianza de la población respectivamente. Los valores de S si se suman y restan a la media dan el intervalo de mayor concentración de los datos. Es posible analizar la significación estadística de la desviación típica o estándar (S). Si la distribución es aproximadamente normal lo que significa que tiene una distribución simétrica alrededor de la media. El histograma es aproximadamente : X Se cumple una relación entre X y S (Regla empírica). Para las distribuciones normales resulta que: • El 68% aproximadamente de los casos están incluidos entre X − S y X + S 43 Es decir, una desviación típica a cada lado de la media. 68 % x−S • x+S x El 95% de los casos están incluidos entre X−2S y X +2S Dos desviaciones estándar a cada lado de la media. 95 % x − 2S • x x + 2S El 99% de los casos están incluidos entre X − 3 S y X +3S 3 desviaciones estándar a cada lado de la media. 99 % x − 3S x x + 3S Consideraciones acerca de la curva normal. Es simétrica y cuando se acerca al eje de las abscisas, en la práctica da la impresión de que toca al eje aunque esto no es cierto. Mientras que en una determinada muestra particular, todas las observaciones pueden caer en los límites antes señalados, si se pudiera observar toda la población, algunos casos teóricamente caerían fuera de esos límites. En otras palabras, teóricamente el gráfico se puede extender hacia el +∞ o -∞. 44 Por esta razón al dibujar la curva normal debe tocar al eje x, sino extenderse indefinidamente acercándose cada vez más a él. Todas las medidas de tendencia central (media, mediana y moda) coinciden en el punto más alto de la curva. Hasta ahora se han visto datos que se obtienen a partir de la evaluación del aprovechamiento escolar, del peso, la estatura o la edad; cada uno de estos valores están expresados en escalas distintas y al reflejar esto en un gráfico, las anotaciones no se podrían comparar entre sí, ya que corresponden a variables distintas. Una de las ventajas de la curva, es que posee anotaciones propias, a las que se llama estándar o puntaje estándar y tienen la característica de que cualquier grupo de anotaciones independientemente de lo que midan pueden ser expresadas con este tipo de anotación; es decir, permite reducir a una única escala cualquier tipo o clase de anotación. El puntaje estándar se define como el cociente que se obtiene al dividir la desviación que muestra un dato de la serie con respecto a su media aritmética, por la desviación típica de la serie o distribución.. Este estadígrafo que a veces se expresa en % , evidencia su utilidad cuando se quieren comparar dos valores correspondientes a dos distribuciones normales y más aún si dichas series difieren con respecto a la media, desviación típica o ambas. Se calcula utilizando la expresión: z = donde: z : anotación estándar. x i −x S S : desviación estándar. x i − x : diferencia de cada dato respecto a la media. z : mide la desviación de la media en unidades de la desviación estándar. Ejemplo. Un estudiante recibió una nota de 84 puntos en un examen final de Matemática, donde la nota promedio fue de 76 puntos y la desviación estándar de 10. En un examen final de Física la nota promedio fue 82 y la desviación estándar 16 y recibió una nota de 90 puntos. ¿En qué materia fue su conocimiento relativo más alto? zM = 84 − 76 = 0,8 10 zF = 90 − 82 = 0,5 16 Como se aprecia su conocimiento relativo fue más alto en Matemática. El coeficiente de variación: Otro estadígrafo de dispersión, pero de carácter relativo, que permite comparar las dispersiones de dos o más conjuntos de datos es el coeficiente de variación. Se define como el cociente que se obtiene al dividir la desviación estándar de una distribución por la media aritmética. Se expresa generalmente en tanto porciento, permite determinar en qué distribución los datos están más agrupados y, por tanto, la media es más representativa. El coeficiente de variación de una muestra de volumen N es el cociente entre la desviación típica y la media aritmética de dicho muestra. Se denota por CV y en símbolos 45 es: CV = S X .Con mucha frecuencia el valor de CV se multiplica por cien y se expresa en por ciento. El hecho de que tanto la desviación estándar como la media, estén expresados en la misma unidad de medida, hace que el coeficiente de variación no tenga unidad de medida; por ello, es una medida muy propicia para comparar la variación entre dos conjuntos de datos que estén medidos en diferentes unidades, por ejemplo, una comparación entre la dispersión de la estatura y del peso corporal de los alumnos de una muestra. Permite comparar distribuciones en las cuales las variables están expresadas en diferentes unidades de medida. Para calcular el coeficiente de variación se utiliza la expresión: V = S x ⋅ 100 Ejemplo. Los profesores de dos aulas de sexto grado aplicaron cada uno a su grupo de alumnos una prueba cuyos resultados fueron los siguientes A B x = 40 x = 45 S = 4 S = 9 Los profesores desean conocer qué grupo muestra los resultados más consistentes con respecto a la nota promedio. VA = 4 ⋅ 100 = 10 % 40 VB = 9 ⋅ 100 = 20 % 45 Se puede afirmar que los resultados del grupo A están más agrupados con respecto a la media que los del grupo B, ya que en el B la dispersión relativa es mayor (20 %), es decir, a menor coeficiente de variación corresponde una menor dispersión relativa y por tanto, una mayor concentración de los datos alrededor de la media aritmética. El error estándar de la media El error estándar de la media de una muestra de extensión N, es el cociente entre la desviación típica de la muestra y la raíz cuadrada del tamaño de esa muestra. Se denota por: . S X y su fórmula es S X = S N Ejemplo: Dada una muestra aleatoria de cinco alumnos y sus calificaciones, en puntos, de Matemática. Calcule las medidas descriptivas. M F Q B G A1 .... 85 86 66 85 78.4 A2 .... 85 82 82 86 96.6 A3 .... 85 91 91 85 78.4 Alumnos 46 A4 .... 85 79 99 92 75.0 A5 .... 85 87 87 77 96.6 Moda. En realidad aquí se tiene un caso `extremo', en el que todos los datos son iguales: la muestra es de cinco alumnos (N=5). La variable que se mide, como son las notas, está en una escala de intervalos. Como los cinco estudiantes tienen ―en Matemática― la misma nota (85 puntos), entonces, la frecuencia absoluta de cada dato es igual a N, por tanto, no existe ningún dato que se repita más que los otros, esto hace que no existe la moda. Para Física, se ve que cada uno de los datos tiene frecuencia absoluta igual a uno, es decir, ninguno de ellos se repite más que los otros, por tanto, tampoco existe la moda. Algo similar ocurre en el caso de Química. En Biología, se ve que dos alumnos tienen notas de 85 puntos, mientras que los otros tres, tienen calificaciones diferentes entre sí, es decir, la frecuencia absoluta de 85 es 2, y la de 86, 92 y 77 es uno, respectivamente, por tanto, aquí la moda es de 85 puntos: la calificación más frecuenta que obtienen los alumnos de la muestra, en Biología, es de 85 puntos. Se trata de una muestra con una moda. En símbolos: X̂ =85 puntos. Analice que para Geografía, la muestra tiene dos modas. Mediana para las notas en cada asignatura. En Matemática los datos están ordenados y como N=5, la mediana es la nota que ocupa la ~ posición (5+1)/2=3, que corresponde al alumno A3: 85 puntos: X =85 puntos. (En este ejemplo todos los datos son iguales, y por tanto, la mediana coincide con todos ellos). Para Física, lo primero es ordenar los datos: 79, 82,86,87,91. Como N= 5, la posición que ocupa esta medida es la (5+1)/2=3, que corresponde al dato 86, ~ que es la nota del alumno A2: X =86 puntos. (Como todos los datos de la muestra son diferentes, la mediana solo coincide con uno de ellos). Por tanto, el 60% (3 de 5) de los alumnos de la muestra tiene calificaciones de 86 puntos o menos y el otro 60% tiene notas de 86 puntos o más. Para las otras asignaturas usted puede verificar que las medianas son, respectivamente, 87,85 y 78.4 puntos. Considerando ahora que se observa la nota, en Física, de un alumno A6 y esta es de 94 puntos, entonces los datos ordenados son: 79, 82,86,87,91,94. Como N=6, la mediana es el dato que está entre los que ocupan las posiciones 6/2=3 y (6/2)+1= 4, de aquí se tiene que los datos que ocupan los lugares tres y cuatro son el 86 y el 87, esto hace que la mediana en ~ este caso sea: X = (86 + 87) = 86.5 puntos (que es un valor que no coincide con ninguno de 2 los datos primarios). Por tanto, el 50% (3 de 6) de los alumnos de la muestra tienen calificaciones menores de 86.5 puntos y el otro 50% tienen notas superiores a los 86.5 puntos. Si en este ejemplo, los datos tres y cuatro hubiesen sido iguales, por ejemplo ambos 86, la interpretación del resultado sería más complicada. 47 Media aritmética Primero se hará el análisis para Matemática, Como N=5 y cada Xi lo constituyen cada nota en particular: X1=85, X2=85,..., X5=85, para calcular la media, basta con sumar estas cinco notas y ese resultado dividirlo por cinco: 85 + 85 + 85 + 85 + 85 425 = =85 puntos. X = 5 5 Si se realizan los cálculos para las otras asignaturas, se comprobará que en todas ellas, la media aritmética es de 85 puntos. Todo lo que se ha planteado con anterioridad para esta medida, puede ser verificado, a partir de los datos de cada una de las asignaturas que se han analizado. Los casos de Química y Geografía, ilustran que la media no es una buena representante de estos datos porque entre ellos existen valores extremos. Varianza para cada una de las asignaturas Como en todos los casos se ha obtenido que la media es de 85 puntos. Siguiendo los pasos citados anteriormente, se realizará un esquema de cálculo: Matemática: Xi (X i − X ) ( X i − X )2 85 85-85=0 0²=0 85 85-85=0 0²=0 85 85-85=0 0²=0 85 85-85=0 0²=0 85 85-85=0 0²=0 ∑(X ∑(X ∑X i = 425 i − X) = 0 i − X )2 = 0 Física: Yi (Yi − Y ) (Yi − Y ) 2 86 86-85=1 1 82 82-85=-3 9 91 91-85=6 36 79 79-85=-6 36 87 87-85=2 4 ∑ (Y ∑ (Y ∑Y i = 425 i −Y ) = 0 i − Y ) 2 = 86 48 Aplicando la fórmula de la varianza, para Matemática S²= 0/(5-1)=0 puntos²: esto significa que no existe dispersión de los datos de la muestra respecto a su media. En el caso de Física: S²=86/(5-1)=86/4= 21.5 puntos²: la dispersión de los datos de la muestra respecto a su media es alta. Para las demás asignaturas, usted puede comprobar que las varianzas son: S² = 151.5 puntos² para Química, S²=28.5 puntos² para Biología y S²=114.06 puntos² para Geografía. Desviación típica S=0 puntos, en Matemática. S=4.64 puntos, en Física. S=12.31 puntos, en Química. S=5.33 puntos, en Biología. S=10.68 puntos, en Geografía. La interpretación de estos resultados es la misma que la realizada para la varianza. Mientras menor sea el valor de la desviación típica, menor será el grado de dispersión de los datos respecto a la media aritmética. Coeficiente de variación: CV=0 (0%) para las calificaciones en Matemática. CV=0.054 (5.4%) para Física. CV=0.144 (14.4%) para Química. Cv=0.063 (6.3%) para Biología y CV=0.126 (12.6%) para Geografía. Como se puede observar, aquí se mantiene la interpretación dada para la varianza y la desviación típica. Química es la asignatura que presenta una mayor dispersión en sus calificaciones y Matemática es la de mayor estabilidad. EJERCICIOS PARA COMPROBAR TUS CONOCIMIENTOS 1. La siguiente situación muestra el contenido de una encuesta. Señale con una cruz (X) donde corresponda: SEXO ESTADO CIVIL PREFERENCIA A. Femenino ____ A. Soltero ______ En los ratos libres prefiere: B. Masculino ____ B. Casado ______ A. Escuchar música_____ C. Viudo _______ B. Leer _____ D. Separado ____ Suponga que esta encuesta se aplica a una muestra representativa constituida por 10 profesores de escuelas. Las respuestas obtenidas aparecen reflejadas en la siguiente tabla: S: variable “sexo” EC: variable “estado civil” P: variable “preferencia” SUJETOS S EC P 1 A B B 2 A A A 49 3 B C A 4 A D B 5 B C A 6 B A B 7 A A A 8 A B A 9 B B B 10 A C A a) Haga la distribución de frecuencias. b) Las variables medidas en esta encuesta ¿cómo son? c) ¿Hay diferencias notables entre los solteros, casados y viudos? d) ¿Qué es más frecuente en la muestra, encontrar mujeres u hombres? 2. Las notas finales en Matemática de 80 estudiantes de una escuela están registradas en la tabla siguiente: 68 84 75 82 68 90 62 88 73 79 88 73 60 93 71 59 61 65 75 87 74 62 95 78 66 78 82 75 94 77 69 74 96 78 89 61 75 95 60 79 79 62 67 97 78 85 76 65 65 80 73 57 88 78 62 76 86 67 73 81 72 63 76 75 76 85 63 68 83 71 53 85 93 75 72 60 71 73 74 77 Determina: a) La calificación más alta. b) La calificación más baja. c) Las notas de los 5 estudiantes de más alta calificación. d) Las notas de los 5 estudiantes de más baja calificación. e) La calificación del estudiante que ocupa el décimo lugar. f) ¿Cuántos estudiantes tuvieron notas iguales o más altas que 75? g) ¿Cuántos obtuvieron notas por debajo de 85 puntos? 3. En una encuesta a 16 alumnos sobre la asignatura que prefieren se obtuvieron los resultados siguientes: Computación, Estadística, Biología, Química, Biología, Estadística, 50 Computación, Biología, Computación, Estadística, Biología, Química, Biología, Estadística, Computación, Biología. a) Confeccione la tabla de distribución de frecuencias. b) Calcule las medidas descriptivas que correspondan. 4. Se observan 25 personas y se clasifican según su aspecto en: Obesa (O), Gruesa (G), Buen Peso (BP), Delgada (D) y Muy Delgado (MD), obteniéndose los resultados siguientes: BP, D, D, MD, O, D, G, G, G, O, BP, BP, D, D, D, O, O, G, G, BP, MD, BP, G, D, MD a) Construya la tabla de distribución de frecuencias. b) Calcule las medidas descriptivas que correspondan. 5. Se lanza un dado 19 veces con las siguientes lecturas: 5, 1, 3, 3, 6, 2, 6, 4, 5, 2, 1, 2, 5, 3, 2, 6, 1, 4, 4 a) ¿Cuál es el promedio de las lecturas obtenidas? b) ¿Cuál es la tirada que más se repite? c) ¿Cuál es el valor intermedio de todas las lecturas, ordenadas estas de menor a mayor? 6. En una escuela se seleccionaron al azar 20 alumnos para hacer una investigación sobre la edad de los alumnos que con más frecuencia participan en competencias deportivas. Para ello se seleccionaron como muestra alumnos de diferentes grados, recogiéndose sus edades de la siguiente forma: 11 15 14 12 11 14 14 13 15 16 12 12 14 14 15 15 13 14 15 13 a) Ordene los datos de menor a mayor. b) Construya la tabla de frecuencias absolutas. c) Determine la cantidad de alumnos que tienen 15 años. d) ¿Qué por ciento de alumnos tienen 11 años? e) ¿Cuál es la edad más frecuente de los alumnos seleccionados? f) Diga la cantidad de alumnos que tienen edad superior a 13 años. g) Realice una investigación similar en la escuela donde realiza la práctica laboral. 9. A continuación aparecen representados una tabla y dos gráficos que expresan los datos (en milímetros), de la cantidad de agua caída (como promedio), en un municipio durante los doce meses del año 2003. 51 Ene. Feb. Mar. Abr. May Jun. Jul. Ago. Sep. Oct. Nov. Dic. 101 264 43 41 20 22 193 300 130 270 225 14 300 250 250 200 150 100 200 150 Ene. Mar. May. Jul. Sep. ov . N En e. M ar . M ay . 50 Ju l. Se p. 50 0 100 0 220 Nov. a) Identifique cada uno de los gráficos representados b) ¿En qué meses cayó mayor y menor cantidad de lluvia? c) ¿En qué meses cayó menos de 120 milímetros de lluvia? d) ¿En qué meses se alcanzó mayores niveles de precipitaciones? ¿Por qué? e) ¿Cuál fue el promedio de lluvia caída en el año? f) ¿Qué importancia tiene para usted estos gráficos? 10. La información expresada en miles de Kilómetros cuadrados sobre la superficie aproximada de diferentes regiones está dada en la tabla: Regiones Superficie África 30000 América 42000 Antártida 13000 Asia 44000 Australia y Oceanía 9000 Europa 10000 a) Represente estos datos mediante un gráfico de barras y uno circular. b) Según su opinión diga cuál de las dos gráficas es la más representativa para ilustrar la situación dada. 11. En una escuela se hizo un estudio sobre las características anatómicas y fisiológicas de un grupo de alumnos. Para ello se seleccionó una muestra de 40 alumnos y entre otros datos recopilados se midió su estatura en centímetros con los siguientes resultados: 168, 160, 168, 175, 175, 160, 165, 154, 163, 165, 168, 168, 158, 168, 160, 161, 162, 166, 163, 158, 178, 169, 158, 163, 171, 170, 165, 156, 167, 164, 162, 165, 163, 156, 174, 165, 173, 172, 168, 168. 52 a) Construya con estos datos una tabla de frecuencias absolutas y relativas. b) ¿Qué tanto por ciento de alumnos tiene una estatura superior a 168 cm? c) ¿Cuál es el valor promedio de las estaturas de los alumnos de la muestra? d) ¿Cuál es la estatura más frecuente en ese grupo de alumnos? e) Realice una investigación similar en la escuela donde realiza la práctica laboral. 12. La siguiente tabla muestra las tasas de mortalidad infantil del año 2001 en algunos países seleccionados de América (Fuente: Estado Mundial de la Infancia, UNICEF, 2001) Países Tasa de Mortalidad(Por cada mil nacidos vivos) Argentina 19 Brasil 34 Cuba 6,2 Colombia 26 Estados Unidos 7 Guatemala 45 a) Represente los datos anteriores en una gráfica de barras y en una gráfica de línea (poligonal). b) Los países que aparecen en la tabla están ordenados alfabéticamente. Ordene estos en forma creciente según lasas de mortalidad correspondientes. c) ¿Qué país tiene menor tasa de mortalidad infantil? d) ¿Qué país tiene mayor tasa de mortalidad infantil? e) ¿En cuánto supera la tasa de mortalidad de Brasil a la de Cuba? 13. En un estudio sobre el número de conejos recién nacidos en 60 camadas se obtuvieron los siguientes datos por camada: 5 6 7 4 2 5 1 3 4 6 5 2 3 4 2 5 4 5 7 6 5 3 1 2 6 5 6 4 5 2 1 7 9 7 6 6 4 3 8 1 3 2 8 4 1 7 2 2 4 3 4 5 6 2 3 3 1 2 8 7 a) Ordene los datos de menor a mayor. b) Elabore una tabla de frecuencias absolutas y relativas. c) Determine cuántas conejas tuvieron camadas de 5 crías. 53 d) Determine la camada que se presentó con mayor frecuencia. e) Calcular el número total de crías en las 60 camadas de conejos. 14. Durante el año, la temperatura mensual promedio en grados de una ciudad a las 12 m es: Feb Mar Abr May Jun Jul Ago Sep Oct Nov Dic 20 17 18 21 Ene 24 18 19 20 23 20 18 23 a) ¿Cuál es la temperatura promedio anual? b) ¿Cuál es el valor central de temperatura en dicha ciudad? c) ¿Cuál es la temperatura más común? 15. Dados los resultados de una prueba de un grupo de 50 alumnos: 8,0 7,5 7,3 9,1 1,8 2,7 8,3 6,3 8,8 7,4 6,8 4,4 7,8 4,3 7,1 9,9 8,4 7,5 7,3 8,7 0,3 5,5 9,5 9,3 6,2 7,6 6,5 3,9 7,4 3,2 7,7 7,2 8,5 8,6 7,8 4,7 2,7 7,9 7,3 10,0 6,9 7,5 8,7 8,4 7,7 7,8 7,1 8,8 9,3 7,0 Determinar: a) La calificación más frecuente. b) El intervalo donde hay más calificaciones. c) Cantidad de aprobados. d) La nota, a partir de la cual se encuentra la mitad de los estudiantes. e) La mejor y la peor nota. f) Las 10 mejores y las 10 peores notas. 16. El número de estudiantes reprobados por un grupo de profesores se recoge en la tabla siguiente: 5 6 6 8 7 7 9 5 4 8 1 1 6 7 8 7 9 6 5 4 10 a) ¿Cuál es la medida de tendencia central que utilizaría para representar estos datos? b) Calcúlela. c) Determine la medida de dispersión asociada y represente estas medidas en una gráfica. ¿Qué nombre recibe? d) Represente la información en un diagrama de frecuencias. 17. Se ha realizado un estudio entre 100 mujeres mayores de 15 años y el número de hijos de las mismas. El resultado ha sido: 54 Se pide: a) Calcular el número medio de hijos, la mediana y la moda. b) Calcular los cuartiles y el decil 7. c) Analizar la dispersión de la distribución, interpretando los resultados. 18. Sea la distribución referida a beneficios anuales de 38 empresas madrileñas: Se pide: a) Calcular el beneficio medio de estas 38 empresas madrileñas. b) ¿Cuál es el beneficio mayor de la mitad de las empresas más modestas? c) Determinar el beneficio más frecuente. d) Estudiar la dispersión de esta distribución a partir del recorrido intercuartílico, desviación típica y coeficiente de variación. Interpretar los resultados obtenidos. 19. Una empresa tenía a finales del pasado año mil seiscientos cincuenta accionistas distribuidos de la siguiente forma: Se pide: a) Hallar el número medio de acciones por accionista y su desviación típica. b) Hallar la mediana. c) Comente, con base estadística, el grado de concentración de las acciones. d) ¿Qué porcentaje del total de acciones poseen los accionistas mayoritarios? e) ¿Qué porcentaje de los accionistas minoritarios posee el 20% del total de acciones? 20. Una alumna de primer curso de Economía, tras los exámenes de febrero, quiere saber en qué asignatura de las cursadas en el primer cuatrimestre ocupa una mejor posición relativa según la nota obtenida. Para satisfacer su curiosidad dispone de la siguiente información: 55 Determine en qué asignatura está situada en una mejor posición relativa. 21. Se expresan a continuación las longitudes de 7 objetos, medidas en cm 7,0 7,4 8,9 9,6 10,5 11,7 12,5 Calcula la media y desviación típica de los 7 datos. Determinar, utilizando únicamente las medidas calculadas en el apartado anterior, la media, la desviación típica, la varianza, y el coeficiente de variación de los mismos datos expresados en mm. 22. Se mide cierta variable sobre una muestra de 10 individuos, obteniéndose los siguientes datos: 4 5 4,5 3,9 5,2 4 5,2 5,3 23 4,1 Dar una medida de centralización y otra de dispersión adecuadas. 23. El polígono de frecuencias siguiente, nos da las puntuaciones obtenidas en Estadística por un grupo de 20 alumnos: a) Construir la tabla de frecuencias. b) ¿Cuántos alumnos obtuvieron puntuaciones entre 40 y 70? c) Encontrar gráficamente la mediana y la moda. Si se le hace otra prueba al mismo grupo de alumnos, y se obtienen las puntuaciones: 50 55 100 25 50 40 55 60 25 45 70 55 15 45 55 60 55 40 45 55 d) Construir la tabla de frecuencias y calcular la mediana. e) ¿Qué datos están más dispersos, los obtenidos en la primera prueba o en la segunda? 24. En un centro hospitalario de la provincia de Sevilla se ha tratado, con un nuevo medicamento llamado SINDOLORCABEZON, durante 5 días a un grupo de pacientes, todos ellos padecen de jaqueca crónica (se despiertan todos los días con dolor de cabeza). Se 56 realiza un estudio sobre el nº de días que un paciente sufre mejoría con el anterior medicamento obteniendo la tabla: Valores xi Frecuencias ni 0 100 1 250 2 300 3 500 4 450 5 2000 a) Realizando el gráfico adecuado y hallando los promedios (Media aritmética, Media armónica, Media geométrica, Moda, y Mediana), indicar cuál sería el que mejor representaría los datos, (Contesta razonadamente y con el mayor detalle posible) b) Calcula también el porcentaje de pacientes que sienten mejoría con el medicamento en todos los días del tratamiento. c) ¿Por qué no calculamos el coeficiente de variación para ver la representatividad de la media? ¿Habría que hallarlo? 25. Se ha realizado una estadística en el centro comercial CONTINENTOL sobre los gastos (en miles de pesetas) que una familia tiene cuando realiza sus compras un día cualquiera de la semana. Este estudio nos aporta la siguiente tabla: Intervalos Frecuencias 0-5 1000 5-10 1100 10-20 1600 20-50 1000 50-100 300 Se pide: a) ¿Cuál es el motivo por el que los datos se presentan en intervalos? b) ¿Te parece coherentes los datos de la tabla, o bien tendrías que estudiar su procedencia antes de continuar el estudio? 57 c) Halla los ingresos que en ese día tuvo el centro comercial y el gasto medio, modal y mediano de cada familia. d) Hallar el primer cuartil. ¿Qué significado tiene? e) Estudiar la representatividad del gasto medio. ¿Es representativa? ¿Por qué? 26. Se realiza una estadística en dos centros de enseñanza, uno público y otro privado, referente a la nota global del bachillerato de cada uno de los alumnos que van a acudir a los exámenes de selectividad. Las distribuciones de frecuencias son las siguientes: Centro privado Nota global de Frecuencias cada alumno. 5,5 10 6.5 15 7.5 20 8.5 30 9.5 15 Centro público Nota global de Frecuencias cada alumno. [5 , 6] 250 (6 , 7] 150 (7 , 9] 100 (9, 10] 20 Se pide: a) A la vista de la tabla, te sugiere algún comentario de especial importancia. ¿Cuál es el motivo de que los datos se presenten en dos tablas de diferente tipo? b) Estudiar las diferentes medidas de tendencia central (promedios) en las dos distribuciones. En cada distribución ¿cuál te parece más representativo? ¿por qué? c) Hallar el porcentaje de alumnos que en cada centro tiene una nota global superior al 7. 58 d) Hallar los cuartiles primero y tercero de las dos distribuciones. e) Estudiar la representatividad de las medias obtenidas en las distribuciones por separado. ¿En cuál de las dos es más representativa? 59 CAPÍTULO 4: CORRELACIÓN Y REGRESIÓN. Hasta el momento nos hemos ocupado del cálculo de diversos estadígrafos, que nos han permitido describir la distribución de los valores de una variable única y relacionar tales estadígrafos con la interpretación de los datos. Con frecuencia, nos vemos enfrentados al problema de determinar las relaciones entre dos o más variables. Por ejemplo: 1. ¿Existe evidencia que permita decir que el método activo logra rendimientos más altos en los alumnos? 2. ¿Cuál es el efecto de los cursos de perfeccionamiento realizados por los profesores en el aprendizaje de sus alumnos? 3. ¿Existe relación entre la dependencia de la escuela (en los países donde exista, municipal – particular) y la repetición de los alumnos? 4. ¿Qué relación existe entre el ingreso familiar e interés de los alumnos por seguir estudios universitarios? Tan pronto como empezamos a indagar acerca de las relaciones entre las variables, nos adentramos en el campo de la correlación, el cual se presenta cuando nos preguntamos si existe relación entre un par de variables. Es común que un maestro se plantee las siguientes preguntas: ¿Existe relación entre el tiempo dedicado al estudio, ya sea individual o colectivo, y el aprovechamiento logrado por los alumnos en cada una de las materias? ¿Cómo saber si existe esa relación? Si se hace un análisis del comportamiento de los alumnos en relación con este hecho, es muy probable encontrar lo siguiente: a) Que generalmente cuando los alumnos estudian el número suficiente de horas, obtienen un buen aprovechamiento, expresado en sus calificaciones. b) Que los alumnos que generalmente estudian muy pocas horas al día, obtienen menor aprovechamiento, si los comparamos con los que estudian más. c) Que aquellos alumnos que habitualmente estudian un tiempo promedio – ni mucho ni poco – obtienen también calificaciones promedio. Estas tres alternativas dan una idea de la relación que existe entre el número de horas dedicadas al estudio y el aprovechamiento. Por experiencia se sabe que hay alumnos, que a pesar de estudiar mucho, tienen bajo aprovechamiento, y algunos, que a pesar de estudiar poco, obtienen buenas calificaciones. Esto puede ocurrir, pero no es lo que se observa en la mayoría de los alumnos. ¿Cómo investigar esta relación? 60 Hasta ahora hemos estado trabajando con series estadísticas, pero no hemos estudiado la relación que existe entre ellas, aspecto que es muy importante en las investigaciones pedagógicas. 4.1. Relación entre dos variables cuantitativas. Análisis de regresión. Ejemplo. Se quiere investigar si existe alguna relación entre las notas de un grupo de alumnos y alumnas en primer y segundo años en una disciplina determinada: Alumno X 1. año 8,8 7,3 9,5 6,1 8,3 1 2 3 4 5 Y 2. año 9,2 7,7 9,9 6,5 8,7 Nota: Se trata de datos simples. La investigación de la relación entre las dos variables, se comienza generalmente con un intento de descubrir la forma aproximada de la relación, para esto, se representan los datos en un sistema de coordenadas. Este gráfico recibe el nombre de diagrama de dispersión. Representemos en un sistema de coordenadas rectangulares los datos dados, donde a cada eje corresponde un año. X: nota de pirmer año Y: Nota de segundo año. Podría ser Y nota de primero y X la nota de segundo. Para su representación formamos los pares: (8,8 ; 9,2) , (7,3 ; 7,7) , (9,5 ; 9,9) , (6,1 ; 6,5) , (8,3 ; 8,7) y los representamos gráficamente. Y Diagrama de dispersión 12 10 8 6 4 2 0 0 5 10 X 61 En la gráfica se puede observar si existe o no una relación acentuada y si tiene forma lineal o no. Si observamos el diagrama de dispersión anterior, vemos que corresponde al de una recta, pues los puntos están alineados. Cuando esto sucede se dice que la relación entre ambas series de datos es lineal, pues como se ve la representación gráfica está contenida en una recta. Se puede comprobar que cada par satisface la relación: Y = X + 0,4 X (1ero) 8,8 7,3 9,5 6,1 8,3 8,8 7,3 9,5 6,1 8,3 Y (2do) + 0,4 = 9,2 + 0,4 = 7,7 + 0,4 = 9,9 + 0,4 = 6,5 + 0,4 = 8,7 Este tipo de relación es muy importante, pues cuando se conoce, se puede predecir lo que sucede con otros alumnos a partir del conocimiento de la nota de uno de los grados. Ejemplo: ¿Cuál fue la nota de un alumno en 1er año, si en 2do año obtuvo 5,8? X = 5,8 − 0,4 = 5,4 ¿Cuál fue la nota de un alumno en 2do año, si en 1er año obtuvo 7,1? Y = 7,1 + 0,4 = 7,5 Nota: Si solo se tiene la representación gráfica se puede también por aproximación predecir cualquier nota. Pero, ¿cómo proceder si los datos no están en una relación lineal? G r á fic o d e d is p e r s ió n 14 12 10 y 8 6 4 2 0 0 5 10 x Aquí, en este diagrama de dispersión los datos no están en una línea recta, sin embargo se puede trazar una recta que aproxime los datos, es decir, que “se ajusta”. 62 Es evidente que podría existir más de una recta, pero ¿cuál escoger? Se debe buscar le línea de ajuste óptimo y a esta recta se le llama recta de regresión de Y sobre X, y al proceso de búsqueda de la curva que ajuste mejor se le llama regresión lineal. Consideraciones matemáticas. En un sistema de coordenadas rectangulares, las variables se representan convencionalmente por x e y , y los puntos del plano por pares ordenados de la forma (x ; y). Cuando los puntos están sobre una recta, corresponden a una ecuación lineal de primer grado que relaciona las variables. En nuestro ejemplo vimos que la ecuación era y = x + 0,4. Nota: Cada ecuación del tipo y = m x + n tiene como representación gráfica una recta, y cada recta a su vez, tiene una ecuación del tipo descrito. Los coeficientes m y n son constantes para cada recta, x e y son las variables. m: depende del ángulo de inclinación con respecto semieje positivo x (pendiente de la recta) n : representa el desplazamiento sobre el eje y. y y=mx + n Ejemplo y = 0,5 x + 2 n α tan α = m m = 0,5 n = 2 x Método de ajuste manual de curvas. Para evitar criterios individuales en el ajuste, o sea, al construir rectas u otras curvas de aproximación a los datos, es necesario estar de acuerdo con la definición de una curva de ajuste óptimo. 63 Utilización del método de los mínimos cuadrados. • Dn • D1 • • • • • D3 Distancia: diferencia de la coordenada real y la del punto que x1 x2 x3 xn corresponde en la curva (desviaciones), D1, D2, ... Dn . Para un valor de x, por ejemplo x1, existe una diferencia entre el valor de la ordenada y1 y el correspondiente de la curva, este diferencia la denotamos por D1 y así sucesivamente. Una medida de la bondad de ajuste de la curva con los datos viene dada por la cantidad: D12 + D22 + D32 + ... + Dn2 Si esta es pequeña el ajuste es bueno, si es grande el ajuste es malo. Definición: De todas las curvas que aproximan un conjunto dado de puntos, la curva que tiene la propiedad de que D12 + D22 + D32 + ... + Dn2 sea un mínimo, se llama curva de ajuste óptimo. En este caso es la curva mínimo cuadrática. Si se trata de una recta, entonces es la recta mínimo cuadrática. Es costumbre emplear esta definición cuando x es la variable independiente e y la dependiente. Si x es la variable dependiente, la definición se modifica considerando las desviaciones horizontales en lugar de la verticales, lo que equivale al intercambio de los ejes x e y. Si no se especifica lo contrario, es usual considerar x como variable independiente e y como variable dependiente. La recta mínimo cuadrática que aproxima al conjunto de puntos ( x i ; y i ) tiene la siguiente ecuación: y = mx + n donde m y n son constantes que se determinan de la forma siguiente: 64 Tomamos: x = x i − x e y = y i − y , es decir, sustituimos a x e y por sus valores medios (desviaciones respecto a la media) que son los errores que se cometen al sustituir por los valores medios). ∑xy Entonces, y n = y − mx m= ∑ x2 El punto ( x ; y ) se denomina centroide o centro de gravedad de los datos y la recta de ajuste pasa por él. Ejemplo. Para las notas de 6to. y 7mo. grado . X 8,8 7,3 9,5 6,1 8,3 x=8 xi yi 8,8 7,3 9,5 6,1 8,3 9,2 7,7 9,9 6,5 8,7 m= ∑ xy ∑x 2 = Y 9,2 7,7 9,9 6,5 8,7 y = 8,4 x = xi − x 0,8 − 0,7 1,5 − 1,9 0,3 0 6,999 =1 6,999 x · y y = yi − y 0,8 − 0,7 1,5 − 1,9 0,3 0 0,64 0,49 2,25 3,61 0,09 6,999 x2 0,64 0,49 2,25 3,61 0,09 6,999 n = y − m x = 8,4 − 8 = 0,4 La ecuación de la recta de regresión es: y = x + 0,4 Ya planteamos con anterioridad la importancia de encontrar una recta que se aproxime lo mejor posible a los datos. Esto permite obtener valores no conocidos sobre la recta. Ejemplo Nota 1 2 3 4 5 1ro. 6,5 6,7 8,8 9,2 7,9 2do. 6,0 7,3 8,4 9,7 8,0 donde la ecuación de regresión es y = 1,05 x − 0,33 . 65 Si queremos averiguar cuál sería la nota en séptimo grado de un un alumno que en sexto obtuvo: 1ero : x 7,0 9,5 4,0 2do : ŷ (valor estimado o dado por la recta) 7,02 ≈ 7,0 9,65 ≈ 9,7 3,87 ≈ 3,9 Para x = 7 ŷ = 1,05 · 7 − 0,33 = 7,35 − 0,33 = 7,02 Para x = 9,5 ŷ = 1,05 · 9,5 − 0,33 = 9,95 − 0,33 = 9,65 Para x = 4 ŷ = 1,05 · 4 − 0,33 = 4,02 − 0,33 = 3,87 ¿Qué sucede si en este mismo ejemplo calculamos los valores dados inicialmente? x : 6,5 6,7 8,8 9,2 7,9 y : 6,0 7,3 8,4 9,7 8,0 Recordemos que la ecuación es y = 1,05 x − 0,33 , luego para calcular los valores pronosticados (estimados) debemos sustituir en la ecuación: Para x = 6,5 : ŷ = 1,05 · 6,5 − 0,33 = 6,83 − 0,33 = 6,5 De la misma forma se procede con el resto de los valores de x . RESUMEN • • • La recta de ajuste o regresión establece una dependencia lineal entre dos series de datos continuos o discretos, pero pertenecientes a un intervalo real. No se puede usar con datos que sean solamente ordinales y mucho menos con nominales. Se usa apra establecer relaciones entre variables que permitan comprender mejor la relación entre los fenómenos, hacer una descripción cuantitativa y hacer predicciones (estimaciones). En la práctica se hace con series de numerosos datos. Aquí lo hemos hecho con pocos, para no hacer cálculos demasiado engorrosos. En el análisis de regresión se trata de establecer la forma de la relación entre las variables, es decir, estudiamos la relación funcional entre las variables, de modo que podemos predecir el valor de una con base a la otra. Convencionalmente la variable o variables que son la base de la predicción se llaman variable o variables independientes y la variable que se va a predecir se denomina variable independiente. 66 CORRELACIÓN LINEAL Veamos ahora el grado de relación, o la correlación entre las variables, que permite conocer el grado y la dirección de la relación que existe entre un hecho y otro o entre dos fenómenos, ya que en muchos casos la simple observación no nos da los elementos suficientes acerca de la existencia o no de una relación. En el ejemplo visto hasta el momento, si ordenamos las notas observen que: X : 6,5 7,7 8,7 9,2 9,9 Y : 6,1 7,3 8,3 8,8 9,5 A altos valores de la variable x corresponden altos valores de la variable y. Aquí hay una correlación positiva, también en su representación gráfica se observó que en la recta a medida que x crece y crece también (es creciente, sube), luego la recta tiene pendiente positiva. Puede suceder lo siguiente: 6 y La recta “baja”. Existe un ajuste “lineal”, pero a mayor valor de x le corresponde un menor valor de y. La correlación es negativa. 8 4 2 0 0 2 4 6 8 Los datos no tienen una tendencia lineal. En este caso es parabólica. Correlación no lineal. y x 4 3 ,5 3 2 ,5 2 1 ,5 1 0 ,5 0 0 2 4 x En el siguiente caso no se observa ningún tipo de tendencia. No existe correlación. 67 y No es posible observar regularidad alguna. 4 3,5 3 2,5 2 1,5 1 0,5 0 0 2 4 x Existen varios tipos de correlación. Resulta de interés para nosotros la lineal y vamos a prestarle atención a continuación. En realidad siempre se puede hallar entre dos series de datos una línea de regresión, pero es necesario saber la medida de su utilidad, o sea, en qué medida explica la variación de los datos. Esa medida se puede obtener a través de la suma de los cuadrados de las distancias a la media. • y1 − y y • y0 − y Variación total: ∑ (y − y) 2 Variación explicada También se puede medir por la suma de los cuadrados de la diferencia entre los valores estimados (explicados) y la media. 68 Recta de regresión ŷ − y ∑ (y − y) 2 Al cociente de la variación explicada y la variación total se le llama coeficiente de determinación: 2 Variación exp licada ∑ ( ŷ − y ) = r = 2 Variación total ∑( y − y ) 2 ŷ − y :Diferencia entre puntos de la recta y la media y − y :Diferencia entre puntos de la recta y el valor real. Una buena manera de evaluar la estimación realizada es comparando ambas variaciones. Este coeficiente nos expresa qué parte de la variación total es la variación explicada, multiplicando por 100 ( r 2 ⋅ 100 ) se calcula el por ciento de variación explicada. La raíz cuadrada del coeficiente de determinación, es el coeficiente que se usa para “medir” la bondad de la estimación hecha, es decir, si se ajusta o no. r = Variación exp licada Variación total El coeficiente de correlación es el valor o índice numérico identificado con una r que nos permite conocer el grado y la dirección de la relación que existe entre dos conjuntos de valores dados. r ≤ 1 , es decir, “r” varía entre − 1 y 1. • • • Si r = 1 Si r = − 1 Si r = 0 es una correlación perfecta. es una correlación inversa. no hay correlación. El valor de r será 1 ó − 1, si todos los puntos se encuentran sobre una línea recta. 69 Una correlación positiva indica que valores grandes de una variable tienden a acompañar valores grandes de la otra variable, una correlación negativa indica que pequeños valores de una variable tienden a acompañar a valores grandes de otra. Debe señalarse que un alto coeficiente de correlación no es necesariamente una dependencia real entre las variables. Ejemplo. Puede haber una alta correlación entre el rendimiento académico de los alumnos y el resultado de los juegos de football del equipo de la localidad en ese año. Estos ejemplos son a veces mencionados como correlaciones sin sentido. Ejemplo. Calcular la correlación en el ejemplo 1. xi yi ŷ 8,8 7,3 9,5 6,1 8,3 9,2 7,7 9,9 6,5 8,7 9,2 7,7 9,9 6,5 8,7 2 r = ŷ − y 0,8 − 0,7 1,5 − 1,9 0,3 ( ŷ − y ) 0,64 0,49 2,25 3,61 0,09 7,08 2 yi − y 0,8 − 0,7 1,5 − 1,9 0,3 (y i − y) 0,64 0,49 2,25 3,61 0,09 7,08 2 7,08 =1 7,08 100 % de la variación explicada, como r = 1 es una correlación perfecta. Esta manera de calcular tiene la desventaja que no hay forma de saber si la correlación es positiva o negativa. La forma más fácil de calcularlo es considerando: r = ∑ xy 2 ∑x ∑y 2 donde x = x i − x , y = y i − y ∑ x 2 : Suma de los cuadrados de las desviaciones respecto a la media, ∑ ( x i − x ) 2 ∑ y : Suma de los cuadrados de las desviaciones respecto a la media, ∑ ( y i − y ) 2 2 70 Ejemplo Alumno xi yi 1 2 3 4 5 6 7 8 9 10 Total 80 70 82 83 86 87 85 84 93 90 840 75 79 77 85 82 92 83 86 90 81 830 Media x = 84 y = 83 r = X xi − x Y Y 16 196 4 1 4 9 1 0 81 36 64 16 36 4 1 81 0 9 49 4 2 ∑ X = 348 2 ∑ Y = 264 yi − y −4 − 14 −2 −1 2 3 1 0 9 6 0 −8 −4 −6 2 −1 9 0 3 7 −2 0 ∑ XY 2 2 X2 XY ∑X ⋅∑Y 2 = 32 56 12 −2 −2 27 0 0 63 − 12 ∑ X Y = 174 174 348 ⋅ 264 = 0,574 Interpretación de r . Si algún concepto estadístico se usa y abusa de él, es el de coeficiente de correlación, por ello es importante precisar su interpretación. La interpretación del coeficiente de correlación como medida del grado de relación lineal entre dos variables es una interpretación matemática pura y está desprovista de implicaciones de causa y efecto. Es decir, que dos variables tiendan a aumentar o disminuir al mismo tiempo, no implica que una tenga un efecto directo o indirecto sobre la otra, ya que puede suceder que ambas estén sujetas a la influencia de otras variables. Puede suceder que parejas de variables pudiesen dar un alto valor de un coeficiente de correlación y que no se deba realmente a una estrecha relación entre ellas, sino al efecto común sobre estas de una tercera variable, y entonces este alto valor del coeficiente de correlación refleja solo este efecto común. El coeficiente de correlación se debe manejar con mucho cuidado ya que de no ser así, puede llevarnos a conclusiones totalmente erróneas. Luego, para usarlo correctamente se debe tener conocimientos del campo donde se está utilizando. Generalmente puede considerarse: 71 • • • • Una interrelación estadística fuerte, si r está entre 0,7 Una interrelación estadística media, si r está entre 0,5 Una interrelación estadística débil, si r está entre 0,20 Una interrelación estadística muy débil, si r está entre y 0,9 . y 0,69. y 0,49. 0,09 y 0,19. 4.2. Relación entre dos variables cualitativas. En este epígrafe analizaremos tres tipos de relaciones frecuentes entre dos variables cualitativas. I. Relación entre dos variables ordinales. Una medida de relación entre dos variables ordinales es el coeficiente de correlación de rangos de Spearman, que denotaremos por la letra griega ρ (Rho). Existen innumerables situaciones a las que es posible aplicar ρ. Por ejemplo, un profesor podría ordenar a sus estudiantes atendiendo a la puntualidad y luego reordenarlos atendiendo a la responsabilidad. ¿Puede afirmarse que a mayor responsabilidad le corresponda mayor puntualidad? La intuición sugiere que sí, pero el análisis cuantitativo puede aportar más argumentos sobre la base del cálculo de ρ. Es importante señalar que en este ejemplo todo el análisis gira en torno al ordenamiento de cada variable, independiente de que el profesor haya utilizado cantidades para lograrlo. De hecho, el número de llegadas tarde por estudiante constituye un conjunto de cantidades que facilita ordenarlos atendiendo a la puntualidad, pero este criterio no debe ser suficiente si se desatiende el grado de justificación y la importancia de la actividad que exige mayor puntualidad, entre otros aspectos. La práctica educativa demuestra que los ordenamientos no siempre constituyen un buen instrumento pedagógico. Si la investigación lo amerita, es importante mantener la confidencialidad de los datos. Además, muchas veces no queda otra alternativa que ubicar dos o más individuos en una misma posición, como podría ser el siguiente ordenamiento atendiendo al escalafón por índice general. LOG YTL JCT ECP PTR LRC JMS → → → → → → → 14 4 (*) 13 4 (*) 15 1 (*) 10 MRT PTS YLA APS YDA MCR YRR → 26 → 10 → 21 → 8 → 16 → 9 → 2 (*) LGH → 20 YHH → 4 (*) YLM → 16 YHV → 7 MCV → 22 AAF → 10 AFG → 24 YPC → 16 YBL → 2 (*) MLO → 24 THV → 16 YUA → 23 Si se observa el conjunto de números señalados con asteriscos es posible notar que los seis primeros expedientes ocupan los cuatro primeros puestos. Esta contradicción conduce al concepto de rango como promedio de las ubicaciones ideales de las posiciones coincidentes (en caso de desempate). Por ejemplo, era de esperar que existiese un segundo y un tercer lugar, pero en la práctica esto no fue posible por la coincidencia del índice general de YRR y 72 YBL. Por tanto, como el promedio de 2 y 3 es 2,5 entonces se le otorga a cada uno este número como rango. Lo mismo ocurrirá con los tres ocupantes del cuarto lugar, los tres ocupantes del décimo, los cuatro ocupantes del decimosexto lugar y los dos ocupantes del vigésimo cuarto lugar. LUGAR ESTUD. 1ro 2do 2do 4to 4to 4to 7mo 8vo 9no 10mo 10mo 10mo 13ro LRC YRR YBL YTL ECP YHH YHV APS MCR JMS AAF PTS JCT RANGO 1 2,5 2,5 5 5 5 7 8 9 11 11 11 13 LUGAR ESTUD. 14to 15to 16to 16to 16to 16to 20mo 21ro 22do 23ro 24to 24to 26to LOG PTR YLM YDA YPC THV LGH YLA MCV YUA AFG MLO MRT RANGO 14 15 17,5 17,5 17,5 17,5 20 21 22 23 24,5 24,5 26 Bajo el supuesto de que no existen empates, el coeficiente de Spearman viene expresado del modo siguiente: n ρ = 1− 6∑ d i2 i =1 3 n −n donde di es la diferencia entre el valor ordinal en la variable X y el valor ordinal en la variable Y del individuo i, siendo n el número total de pares de observaciones. Para el caso en que existan empates (ligaduras), pero el número de estos sea reducido, se emplea la misma fórmula, atribuyendo como valor ordinal el rango obtenido. Si el número de coincidencias es grande, la nueva fórmula de ρ requiere del número p de empates en la variable X, del número q de empates en la variable Y, del número txi de igualados en cada uno de los grupos de empates en la variable X y del número tyj de igualados en cada uno de los grupos de empates en la variable Y. A continuación, se calcula el valor de las siguientes expresiones: t xi3 − t xi Txi = 12 Tyj = t 3yj − t yj 12 , para todo i=1,2,…, p. , para todo j=1,2,…, q. n3 − n p w= − ∑ Txi 12 i =1 73 n3 − n q z= − ∑ T yi 12 j =1 Finalmente, la fórmula corregida por ligaduras del coeficiente de correlación de Spearman es: n ρ= w + z − ∑ d i2 i =1 2 wz Cuando no existen ligaduras en ambas variables el coeficiente de Spearman coincide con el de Pearson aplicado a los rangos de las dos variables en cuestión. Por este motivo, otro modo de calcular ρ consiste en ranguear los datos y calcular con ellos el valor de R. Como Excel no calcula ρ directamente, cuando el número de ligaduras es insignificante puede seguirse este derrotero. Las propiedades de ρ son muy similares a las de R. En efecto: 1. El valor de ρ siempre es un número real del intervalo [-1; 1], o sea, -1 ≤ ρ ≤ 1. 2. Cuanto más se aproxime ρ a -1 o a 1, mayor será la relación (dependencia o asociación) que existe entre las variables. 3. Cuanto más se aproxime ρ a 0, más independencia existe entre las variables. 4. Si ρ es positivo (negativo), se concluye que a mayor valor ordinal de la variable X le corresponde mayor (menor) valor ordinal de la variable Y. Para ilustrar el caso más sencillo, he aquí un ejemplo sin ligaduras. Diez escuelas (n = 10) de un municipio han sido ordenadas según el indicador de “Asistencia y Puntualidad” y según el indicador de “Promoción”, resultando la siguiente tabla de datos: ESCUELA A B C D E F G H I J ASISTENCIA Y PUNTUALIDAD 2 5 1 8 10 3 9 6 7 4 PROMOCIÓN 1 4 2 7 9 3 8 6 10 5 Denominando X a la variable “Asistencia y Puntualidad” e Y a la variable “Promoción”, es atinado denotar el valor ordinal del individuo i por xi e yi en cada variable respectivamente. Calculando di = xi – yi es posible hallar la suma de todos los valores di². Así pues, de la tabla anterior se obtiene la siguiente: 74 xi 2 5 1 8 10 3 9 6 7 4 yi 1 4 2 7 9 3 8 6 10 5 ∑ di 1 1 -1 1 1 0 1 0 -3 -1 di² 1 1 1 1 1 0 1 0 9 1 16 Por tanto, según la fórmula sin correcciones por ligaduras, el coeficiente ρ tiene el siguiente valor: 6 ⋅ 16 ≈ 0,9 103 − 10 En consecuencia, se puede inferir que los indicadores evaluados están bastante correlacionados de manera directa; es decir, las escuelas que tienen mejor asistencia y puntualidad también alcanzan los mejores resultados en su promoción. ρ = 1− Para ilustrar el cálculo de ρ en presencia de ligaduras sirve de ejemplo la siguiente situación, donde un jefe de ciclo analiza las notificaciones del rendimiento escolar de nueve alumnos del quinto grado (n = 9). Al comparar las calificaciones obtenidas en las asignaturas de “Educación Plástica” y “Educación Musical y Corporal” intuye que existe una elevada correlación entre ambas. Estas variables se expresan en una escala ordinal, utilizando las categorías de Insuficiente (I), Regular (R), Bien (B), Muy Bien (MB) y Excelente (E). He aquí las calificaciones de los nueve estudiantes: ESTUDIANTE AGZ RPA MCB LEA YGZ YPT APG ESC YSP EDUCACIÓN PLÁSTICA B B E MB R B MB E B EDUCACIÓN MUSICAL Y CORPORAL B B MB R B R E E MB Para facilitar el cálculo es necesario sustituir la tabla anterior por la correspondiente tabla de rangos. 75 ESTUDIANTE AGZ RPA MCB LEA YGZ YPT APG ESC YSP X 6,5 (x3) 6,5 (x3) 1,5 (x1) 3,5 (x2) 9 6,5 (x3) 3,5 (x2) 1,5 (x1) 6,5 (x3) ∑ Y 6 (y3) 6 (y3) 3,5 (y2) 8,5 (y4) 6 (y3) 8,5 (y4) 1,5 (y1) 1,5 (y1) 3,5 (y2) di 0,5 0,5 -2 -5 3 -2 2 0 3 d i2 0,25 0,25 4 25 9 4 4 0 9 55,5 En la variable X (rango en “Educación Plástica”) se tiene que existen tres ligaduras. La primera de ellas es x1 (1,5) que se repite dos veces, luego x2 (3,5) que se repite también dos veces y finalmente x3 (6,5) que se repite cuatro veces. El rango correspondiente a YGZ (9) no tiene ligaduras. Recordando las notaciones de la fórmula corregida para el cálculo de ρ, se tiene que p = 3 (tres ligaduras), donde tx1 = 2, tx2 = 2 y tx3 = 4. Por tanto, 23 − 2 Tx1 = = 0,5 12 23 − 2 Tx 2 = = 0,5 12 43 − 4 Tx 3 = =5 12 3 ∑T i =1 w= xi = Tx1 + Tx 2 + Tx 3 = 0,5 + 0,5 + 5 = 6 93 − 9 − 6 = 54 12 En el caso de la variable Y (rango en “Educación Musical y Corporal”), todos los rangos tienen ligaduras. Puede observarse directamente de la tabla anterior que ty1 = 2, ty2 = 2, ty3 = 3 y ty4 = 2. De manera similar se obtiene que: 76 23 − 2 T y1 = = 0,5 12 23 − 2 Ty 2 = = 0,5 12 33 − 3 Ty3 = =2 12 23 − 2 Ty 4 = = 0,5 12 4 ∑T j =1 yj = T y1 + T y 2 + T y 3 + T y 4 = 0,5 + 0,5 + 2 + 0,5 = 3,5 93 − 9 z= − 3,5 = 56,5 12 Conocidos los valores de w, z y di², es posible calcular el valor del coeficiente ρ de Spearman, corregido por ligaduras: 54 + 56,5 − 55,5 ρ= ≈ 0,51 2 54 ⋅ 56,5 Como puede observarse, la presunción del jefe de ciclo debería ser más conservadora. Otro coeficiente de suma utilidad para el análisis de la correlación entre dos variables al menos ordinales fue propuesto por el estadístico británico Maurice George Kendall (19071983). Si no existen ligaduras su cálculo es bastante sencillo. En general se siguen los pasos siguientes: 1. Se ranguean las variables X e Y por separado, manteniendo los pares (xi; yi). 2. Se ordenan los pares atendiendo al orden de los rangos de X. 3. Para cada rango de Y se observa cuántos hay a su derecha mayores que él, y cuántos menores. De esta manera es posible construir dos columnas de cantidades: una de valores mayores y otra de valores menores. 4. Se suman los valores de cada columna y luego se resta la segunda suma de la primera. A la cantidad resultante se le denota por D. 5. Se calcula el índice de asociación de Kendall utilizando la fórmula siguiente (donde τ es la letra griega Tau): 2D τ= 2 n −n 6. El grado de asociación se explica como en los coeficientes de Pearson y Spearman, según τ esté más o menos cerca de ±1 o de 0. El signo de τ indica la dirección de la relación y su valor absoluto indica la magnitud de la misma, de modo que los mayores valores absolutos revelan las relaciones más fuertes. He aquí un ejemplo ilustrativo. Dos estudiantes ordenan las asignaturas que reciben según su preferencia, tal y como se muestra a continuación. 77 Estudiante RRC Español Historia Geografía Matemática Biología Química Estudiante MCP Español Historia Geografía Matemática Biología Química 4 2 3 6 1 5 1 5 3 6 2 4 No es necesario ranguear, pues la estructura del instrumento exige el ordenamiento empleando números naturales. Los pares (X; Y) son los siguientes: X: 4 2 3 6 1 5 Y: 1 5 3 6 2 4 Ordenando según X se obtiene: X: 1 2 3 4 5 6 Y: 2 5 3 1 4 6 Ahora es posible analizar la fila de la variable Y. A la derecha del 2 existen cuatro números mayores que él (5, 3, 4 y 6) y uno menor (1). A la derecha del 5 existe un número mayor que él (6) y tres menores (3, 1 y 4). Así sucesivamente se conforman las siguientes columnas de cantidades: MAYORES 4 1 2 2 1 ∑ = 10 MENORES 1 3 1 0 0 ∑=5 Por tanto, se obtiene D = 10 – 5 = 5 y con ello el valor del índice de asociación de Kendall: 2⋅5 ≈ 0,33 62 − 6 Puede concluirse que las preferencias de ambos estudiantes son bastante dispares, por la proximidad de τ a 0. Si las variables presentan ligaduras debe utilizarse la siguiente fórmula corregida: τ= τ= 2D n − n − w n2 − n − z 2 donde p q i =1 j =1 w = ∑ t xi (t xi − 1), z = ∑ t yj (t yj − 1) 78 Nuevamente txi y tyj denotan las multiplicidades de las ligas en X e Y respectivamente, tal y como se explicó en la corrección de ρ. En la actualidad es común denominar la fórmula no corregida por Tau-a y a la corregida por Tau-b. Esta última es una generalización de la primera y la de más amplio uso, razón por la cual aparece en el análisis de correlaciones del SPSS junto a los test de Pearson y Spearman. Existe otro coeficiente de Kendall denominado Tau-c (también conocido como Tau-c de Stuart o de Kendall-Stuart), el cual tiene en cuenta el número de empates pero de manera distinta. Este coeficiente se emplea cuando los datos se agrupan en tablas de contingencia, muy grandes y no cuadradas. La interpretación de Tau-c es similar a sus dos análogas. El ejemplo analizado anteriormente resulta bastante artificial. Por lo regular el interés del investigador no recae en la comparación de dos estudiantes. Más exactamente el interés recaería en el grado de concordancia de un grupo numeroso de estudiantes, respecto a un conjunto de asignaturas. Existe otro índice denominado “coeficiente de concordancia de Kendall”, el cual goza de amplia aplicación en problemas de concordancia de jueces. En el caso anterior, un grupo de estudiantes constituiría un grupo de jueces imaginario que decidiría, mediante el citado instrumento, el orden de preferencia de un conjunto de asignaturas. El problema de ordenar las asignaturas según su grado de preferencia encierra otro problema de mayor envergadura: ¿En qué medida el grupo de “jueces” está de acuerdo (concuerda) con ese ordenamiento? El coeficiente de concordancia de Kendall se denota por W y es un índice de divergencia entre la concordancia real y la concordancia perfecta. Este estadígrafo asume valores del intervalo [0; 1], de manera que valores cercanos a 1 indican alta concordancia de los jueces, mientras que los cercanos a 0 indican una marcada tendencia al desacuerdo. Para evitar un poco el formalismo matemático se describirá a continuación el cálculo de W a través de un ejemplo. Un investigador ha formulado diez indicadores para caracterizar cierta situación de aprendizaje. Estos indicadores proceden de diversas fuentes, así como de la elaboración personal del propio investigador. Por tal motivo, es de esperar que algunos no resulten pertinentes, o bien que resulten redundantes. Para perfeccionar su conjunto de indicadores solicitó el concurso de cinco especialistas (expertos) de reconocido prestigio en este campo de investigación. Después de explicarles su objetivo, solicitó que ordenaran estrictamente los diez indicadores, basándose en su mayor prioridad. También les preguntó cuántos serían suficientes para esta caracterización. Los resultados fueron los siguientes: Indicadores I1 I2 I3 I4 I5 I6 I7 I8 I9 I10 5 2 6 8 9 30 3 4 5 1 2 15 10 10 8 7 6 41 2 1 2 2 5 12 7 6 3 4 3 23 6 5 7 6 7 31 4 8 4 5 4 25 8 7 9 10 8 42 1 3 1 3 1 9 9 9 10 9 10 47 Expertos E1 E2 E3 E4 E5 Suma de rangos 79 Como puede observarse, la última fila contiene la suma de los rangos. Tomando en consideración que la mediana de la cantidad de indicadores que resultarían suficiente fue Me = 5, el investigador seleccionó los cinco primeros indicadores (los de menor suma de rangos): I9, I4, I2 e I7, en este mismo orden. Para analizar el grado de concordancia entre el criterio de los expertos, se calcula τ de la siguiente manera: W = 12 S 2 k 2 n2 −1 ( ) donde S² es la varianza del conjunto {Rj}, j = 1, 2, …, n de sumas de rangos (la última fila de la tabla anterior), k el número de jueces (expertos) y n el número de ítems (indicadores). El cálculo de S² es más sencillo tomando en consideración que el promedio de las sumas Rj siempre es igual a ½k(n + 1). Por ejemplo, en este mismo caso se tiene R= 5(10 + 1) = 27,5 2 de manera que S2 = 2 1 10 2 Rj − R ∑ 10 j =1 ( ) 1 2 30 +152 + 412 + 122 + 232 + 312 + 252 + 422 + 92 + 472 − 27,52 10 = 155,65 = por tanto, 12 ⋅ 155,62 ≈ 0,75 52 102 − 1 La fórmula para el cálculo de W es equivalente a la siguiente: W = ( ) n W= 12∑ R j − 3n(n + 1) 2 j =1 ( 2 ) n n2 −1 donde los promedios indicados se refieren a los valores de cada columna. Por ejemplo, en este mismo problema los promedios resultan de dividir cada uno de los valores Rj entre 5, que es la cantidad k de elementos en cada columna. En el ejemplo resulta: 2 2 2 2 2 2 2 2 2 2 ⎛ 30⎞ ⎛15⎞ ⎛ 41⎞ ⎛12⎞ ⎛ 23⎞ ⎛ 31⎞ ⎛ 25⎞ ⎛ 42⎞ ⎛ 9 ⎞ ⎛ 47⎞ R = ⎜ ⎟ + ⎜ ⎟ + ⎜ ⎟ + ⎜ ⎟ + ⎜ ⎟ + ⎜ ⎟ + ⎜ ⎟ + ⎜ ⎟ + ⎜ ⎟ + ⎜ ⎟ = 364,76 ∑ ⎝ 5 ⎠ ⎝ 5 ⎠ ⎝ 5 ⎠ ⎝ 5 ⎠ ⎝ 5 ⎠ ⎝ 5 ⎠ ⎝ 5 ⎠ ⎝ 5 ⎠ ⎝ 5⎠ ⎝ 5 ⎠ j =1 10 2 j 12 ⋅ 364,76 − 3 ⋅ 10 ⋅ (10 + 1) ≈ 0,75 10 10 2 − 1 2 Por tanto, W = ( ) 80 Cuando el número de ítems a ordenar es grande, resulta difícil un ordenamiento objetivo por cada juez, ya que el número de comparaciones aumenta notablemente. Por otra parte, no siempre el juez cuenta con argumentos suficientes para ordenar cualquier par de ítems, de modo que es atinado permitir posibles ligaduras. Cuando el número de empates es pequeño, el resultado de la fórmula anterior no difiere significativamente; pero si este número es grande se requiere de una corrección por ligaduras. He aquí la fórmula corregida: 12S 2 W= ( ) kn ∑T k 2 n2 −1 − k i=1 Donde gi ( Ti = ∑ t hi − t hi h =1 3 i ) siendo i = 1, 2, …, k, gi el número de ligaduras en la fila j. Para cada grupo de ligas en la fila i, thi es el número de observaciones coincidentes en el grupo h, h = 1, 2, …, gi. Frecuentemente se hace uso de otra fórmula equivalente para el cálculo de W. Manteniendo las notaciones anteriores esta otra fórmula es: n W= 12∑ R j − 3n(n + 1) 2 2 j =1 ( ) 1 k n n − 1 − ∑ Ti k i =1 2 Haciendo uso de sencillos recursos algebraicos se demuestra la equivalencia de ambas fórmulas. El investigador, al igual que en los casos anteriores, puede utilizar aquella que considere de mayor comodidad. A continuación se resuelve un problema ilustrativo aplicando la primera de ellas. Un investigador somete a juicio valorativo de tres expertos un total de cinco metodologías elaboradas por varios autores. Para ello se apoya en una escala tipo Likert con categorías cualitativas. Los resultados obtenidos se ilustran en la tabla siguiente, donde las evaluaciones de cada experto se representan utilizando los símbolos ♣, ♦ y ♥, respectivamente. MUY ADECUADA BASTANTE ADECUADA ADECUADA ♦♥ ♦♥ ♥ ♣♦ ♣ ♣ ♣♦ ♥ METODOLOGÍA 1 METODOLOGÍA 2 METODOLOGÍA 3 METODOLOGÍA 4 METODOLOGÍA 5 ♦ POCO ADECUADA INADECUADA ♣♥ 81 En vista de que la escala es cualitativa ordinal, para cada metodología puede obtenerse el rango considerado por cada experto. Por ejemplo, el experto representado por el símbolo de trébol (♣) ha evaluado de bastante adecuadas las tres primeras metodologías, de modo que obtendrán el mismo rango. He aquí la tabla de rangos: EXPERTO 1 (♣) METOD. 1 3 METOD. 2 3 METOD. 3 3 METOD. 4 1 METOD. 5 5 EXPERTO 1 (♦) 4,5 1,5 3 1,5 4,5 EXPERTO 1 (♥) SUMA DE RANGOS 4 1,5 1,5 3 5 11,5 6 7,5 5,5 14,5 La varianza de la fila correspondiente a las sumas de rangos (última fila) es S² = 12. Para el cálculo de Ti es necesario observar que existe una sola ligadura en la primera fila, o sea, g1 = 1. Esta ligadura contiene tres elementos, por lo que t11 = 3. Aquí el subíndice “hi” no debe leerse como un “once”, sino “uno-uno”. En la segunda fila hay dos ligaduras, cada una con dos elementos (g2 = 2, t21 = 2, t22 = 2). Finalmente, en la tercera fila solo aparece una ligadura con un par de elementos (g3 = 1, t31 = 2). Calculando los valores Ti (i = 1, 2 y 3) resulta: T1 = 3 2 − 3 = 24, ( ) ( ) T2 = 2 3 − 2 + 2 3 − 2 = 12, T3 = 2 − 2 = 6. Sustituyendo en la fórmula resulta: 3 12 ⋅ 12 ≈ 0,75 3 2 2 3 5 − 1 − (24 + 12 + 6 ) 5 Por tanto, puede concluirse que los expertos concuerdan bastante en sus criterios. De esta manera, tomando en consideración el orden de las sumas de rangos, el investigador puede ordenar las cinco metodologías comenzando por la cuarta para mayor prioridad. W = ( ) II. Relación entre variables nominales Como se recordará, la característica esencial de las variables nominales consiste en que sus categorías no son ordenables. Este hecho no impide que se pueda medir el grado de asociación, relación o dependencia entre estos tipos de variables. En 1904 Pearson introdujo un estadígrafo conocido como “coeficiente de contingencia” que se explica a continuación. Cualquier objeto o sujeto puede poseer varias características, relativas a diversas variables. Cuando se trata de dos variables nominales, la representación por medio de una tabla de doble entrada facilita mucho el análisis de los datos; solo que en este caso no importa el orden de las filas ni el de las columnas. Si ambas variables fuesen independientes por completo, al tomar una muestra representativa de cada categoría es natural esperar que todas las celdas contengan la misma frecuencia absoluta. Denotando este valor por A, todas las casillas de la tabla de doble entrada contendrán el valor de A. Al tratarse de una tabla de k filas (1 ≤ i ≤ k) y n columnas (1 ≤ j ≤ n), 82 entonces las frecuencias marginales respectivas serán n A en cada fila (columna de valores nA) y kA en cada columna (fila de valores kA); mientras que la suma total N es igual a knA, como se muestra a continuación. 1≤j≤n 1≤i≤k nA k = número de categorías de la variable X n = número de categorías de la variable Y knA kA De aquí se desprende una estrategia para calcular el valor esperado de una celda en caso de independencia, conocidas las frecuencias marginales y el total de observaciones. En efecto, al multiplicar las frecuencias marginales observadas respecto a la celda (i; j) y dividir el producto entre el total, se obtiene (nA . kA)/(knA) = A. Pearson ya había creado un estadígrafo que años más tarde desarrollaría su hijo Egon Sharpe Pearson (1895-1980), el cual ofrece una medida del grado de independencia entre dos variables. Este estadígrafo se denomina “chi-cuadrado” (o “ji-cuadrado”) y ofrece una medida de la independencia al contrastar las frecuencias observadas con las frecuencias esperadas; se denota χ 2 y se calcula mediante una suma doble, extendida a todas las filas y columnas: k n χ = ∑∑ 2 i =1 j =1 (f − eij ) 2 ij eij Aquí fij representa la frecuencia observada de la celda (i; j) y eij la correspondiente frecuencia esperada. El símbolo χ 2 no representa el cuadrado aritmético de una variable denotada por la letra griega Chi; es solo convencional. Como se puede observar, el estadígrafo χ 2 alcanza su valor mínimo (se anula) en caso de que las variables sean completamente independientes, o sea cuando fij = eij para todo par (i; j). En cambio, χ 2 tiene el inconveniente de carecer de valor máximo, por depender del tamaño de la muestra. Se puede demostrar que al multiplicar todas las fij por una constante suficientemente grande χ 2 aumenta, a pesar de que las frecuencias relativas sean las mismas antes y después de dicha multiplicación. 83 La idea de Pearson consistió en utilizar la siguiente fórmula para el cálculo del coeficiente de contingencia: C= χ2 N + χ2 donde N es el número de observaciones (tamaño de la muestra). En general, en lugar de χ 2 puede utilizarse otro estadígrafo más adecuado, sin que C deje de denotar el coeficiente de contingencia. He aquí sus principales propiedades: 1. El coeficiente C siempre está comprendido entre 0 y Cmáx, donde C máx = t −1 , t = min(k , n ). t Particularmente, en tablas de contingencia cuadradas (k = n) se tiene que C máx = t −1 n −1 = n n 2. La fuerza de asociación entre las variables disminuye cuando C se aproxima a 0 y aumenta cuando se aproxima a Cmáx, el cual siempre es menor que 1. 3. Dos coeficientes de contingencia, procedentes de dos observaciones diferentes de un mismo par de variables, solo son comparables si mín(k, n) coincide en las correspondientes tablas de doble entrada. 4. El coeficiente C también es aplicable a variables cualitativas ordinales y a variables cuantitativas, siendo sus propiedades e interpretación las mismas. 5. El coeficiente de contingencia no es comparable directamente con otros coeficientes de correlación como R, ρ y τ . Particularmente, en tablas cuadradas de orden k×k para variables cuantitativas se cumple que: R= C (1 − C )(k − 1) 2 A continuación se ejemplifica el cálculo de C. Una directora afirma que no existe correlación sensible entre el estilo de dirección y el temperamento de los cuadros. Para sostener este criterio se apoya en varios casos percibidos durante su larga carrera profesional. Los datos devenidos de la experiencia personal no necesariamente aportan suficientes argumentos para sostener tesis universales. Por este motivo, la directora empleó algunos de los datos obtenidos en un diagnóstico efectuado por el Departamento de Dirección Científica Educacional. La variable “estilo de dirección” contaba de cuatro categorías: paternalista, democrático, autoritario y permisivo; mientras que la variable “temperamento” registraba también cuatro categorías predominantes: colérico, flemático, melancólico y sanguíneo. He aquí los datos compilados en una tabla de doble entrada. 84 TEMPERAMENTO ESTILO PATERNALISTA DEMOCRÁTICO AUTORITARIO PERMISIVO ∑ COLÉRICO 23 34 18 25 100 FLEMÁTICO 21 19 32 40 112 MELANCÓLICO 42 21 17 22 102 SANGUÍNEO 21 38 43 18 120 ∑ 107 112 110 105 434 En lugar de 23 (coléricos y paternalistas simultáneamente), el valor esperado bajo el supuesto de independencia es igual al producto de las frecuencias marginales correspondientes entre el total: (107×100)/434 ≈ 24,65. De igual manera se calculan todos los valores esperados de cada casilla: TEMPERAMENTO ESTILO PATERNALISTA DEMOCRÁTICO AUTORITARIO PERMISIVO COLÉRICO 24,65 25,81 25,35 24,19 FLEMÁTICO 27,61 28,90 28,39 27,10 De aquí resulta el valor del estadígrafo χ χ2 = (23 − 24,65)2 + (21 − 27,61)2 24,65 27,61 Por tanto: C = + ... + 2 MELANCÓLICO 25,15 26,32 25,85 24,68 SANGUÍNEO 29,59 30,97 30,41 29,03 : (18 − 29,03)2 29,03 ≈ 45,62 45,62 χ2 ≈ ≈ 0,31. 2 434 + 45,62 N+χ En vista de que la tabla de contingencia es cuadrada de orden 4×4, el valor máximo de C es: 4 −1 ≈ 0,87. 4 Como puede observarse, el valor de C está mucho más próximo a 0 que a 0,87. Por este motivo, todo parece indicar que la directora tiene razón; así que de existir alguna correlación esta es bastante leve. C máx = Además del coeficiente de contingencia, también es usual aplicar el “coeficiente de correlación V de Cramér”. Este estadígrafo fue ideado por el matemático sueco Carl Harald Cramér (1893-1985) y se define por la fórmula V = χ2 , donde también t = mín(k, n) y N N (t − 1) es el total de observaciones. Los valores de V están comprendidos entre 0 y 1; ambos inclusive. Esta peculiaridad lo hace más atractivo que el coeficiente C. Retomando el problema anterior resulta: V = χ2 N (t − 1) = 45,62 ≈ 0,19 , lo que refuerza la hipótesis de la directora. 434(4 − 1) 85 III. Relación entre dos variables dicotómicas. Ya se analizó la naturaleza de una variable dicotómica como aquella que solo puede alcanzar una entre dos categorías. La dicotomía no es una característica exclusiva de variables cualitativas nominales como el sexo (femenino o masculino) o el interés explícito y definitivo por estudiar cierta carrera (sí o no). Por el contrario, la dicotomía puede ocurrir en cualquier tipo de variable; por ejemplo, en variables cualitativas ordinales como la evaluación de una inspección (insatisfactoria o satisfactoria), e incluso en variables cuantitativas como la edad civil (menor de edad o mayor de edad, respecto al límite de 16 años). En el último ejemplo la variable “edad” ha sido dicotomizada, tomando la edad núbil (16 años) para establecer la división. En general, al dicotomizar una variable no necesariamente se busca un salto cualitativo o cuantitativo, sino la distinción entre dos conjuntos de atributos, relaciones, valores, etcétera. Para determinar la asociación, relación o dependencia entre dos variables dicotómicas se utiliza un estadígrafo conocido como coeficiente de correlación ϕ , donde ϕ es la letra griega Phi. Si los datos han sido agrupados en una tabla de contingencia de orden 2×2, como la siguiente: Y X y1 A C A+C x1 x2 ∑ y2 B D B+D ∑ A+B C+D N entonces el coeficiente de correlación ϕ viene dado por: ϕ= AD − BC ( A + B )(C + D )( A + C )(B + D ) He aquí algunas de sus principales propiedades: 1. El coeficiente ϕ está comprendido entre -1 y 1 (ambos inclusive) y su interpretación es similar a la del coeficiente R de Pearson, para valores cercanos a 0 y a ±1. 2. Si ϕ es positivo, entonces los individuos (u objetos) de la modalidad x1 tienden a la modalidad y1 y los de la modalidad x2 tienden a la modalidad y2. Si ϕ es negativo estas tendencias se intercambian. 3. En el caso de variables dicotómicas numéricas, ϕ coincide con el valor absoluto del coeficiente R de Pearson aplicado a los valores de las dos variables. 4. En general, ϕ es un caso particular del coeficiente V de Cramér para t = 2. Por ello puede demostrarse que ϕ = χ2 , de manera que en tablas en las que una de las variables tiene N más de dos niveles, ϕ puede tomar valores mayores que 1 (pues el valor de χ 2 puede ser mayor que el tamaño muestral). Esta es la razón por la cual se recomienda para variables dicotómicas. 86 A continuación se ejemplifica el cálculo e interpretación de ϕ mediante un problema resuelto. En una provincia se ha aplicado una encuesta a 500 estudiantes de preuniversitario, con el objetivo de indagar sobre su interés por el estudio de carreras pedagógicas. Con el fin de planificar los aseguramientos de hospedaje para hembras y varones en el ISP, conviene analizar la correlación del interés respecto a ambos sexos. Los datos ya tabulados son los siguientes: SEXO INTERÉS F 121 135 256 Sí No ∑ De aquí, ϕ = M 72 172 244 ∑ 193 307 500 121 ⋅ 172 − 72 ⋅ 135 ≈ 0,18. 193 ⋅ 307 ⋅ 256 ⋅ 244 Como puede observarse, la cercanía de ϕ a 0 indica muy baja correlación entre ambas variables. Las variables dicotómicas nominales también pueden cruzarse con variables numéricas y especialmente con variables en escala de intervalo. Por ejemplo, cuando se desea analizar la correlación entre las cantidades de estudiantes de sendos municipios y el total correspondiente de errores ortográficos; o bien la correlación entre los índices generales de los que prefieren las ciencias y los que prefieren las humanidades, entre disímiles exigencias de la práctica escolar. Existe un estadígrafo que se ajusta exactamente a estas condiciones y se denomina “coeficiente de correlación biserial puntual”. A fin de comprender mejor este coeficiente se retoma una observación realizada en el capítulo 2, respecto a la variable “sexo” de tipo nominal dicotómico. En los paquetes computacionales se acostumbra a utilizar convenidamente los números 0 y 1, de manera que representen cada uno una modalidad. De esta forma resultan dos columnas de números: una variable cuantitativa X y otra dicotómica Y formada por ceros y unos. Considerando los valores 0 y 1 de la columna Y como auténticos números, el coeficiente de correlación biserial puntual no es más que la fórmula del coeficiente de correlación lineal de Pearson, aplicada a ambas columnas de números. Se demuestra que la fórmula del coeficiente de correlación biserial puntual es la siguiente: Rbp = Xp−X p ⋅ Sx 1− p donde X p es el promedio de los individuos enumerados con 1 en la variable X, X y SX son el promedio y la desviación típica de la variable X, mientras que p es la proporción de individuos enumerados con 1 en la variable Y. El valor Rbp es el mismo si en lugar de contabilizar los individuos etiquetados con 1 se contabilizan los etiquetados con 0, ya que la variable Y es nominal y el orden carece de sentido. Las principales propiedades de Rbp son las siguientes: 87 1. El coeficiente Rbp está comprendido entre -1 y 1 (ambos inclusive) y su interpretación es similar a la del coeficiente R de Pearson para valores cercanos a 0 y a ±1. 2. Bajo el supuesto de que p se refiere a los individuos enumerados con 1, si el signo de Rbp es positivo (negativo) entonces los individuos de la modalidad enumerada con 1 tienden a tomar valores altos (bajos) en la variable X, y los enumerados con 0 tienden a tomar valores bajos (altos) en X. En problemas que involucran el cálculo de Rbp, regularmente, la variable numérica está saturada de datos. A continuación se discute un ejemplo procedente de las investigaciones educacionales. Una escuela secundaria básica recibe su matrícula de varias escuelas primarias, siendo algunas rurales y otras urbanas. Al aplicar un diagnóstico ortográfico se pudo contabilizar la cantidad de errores por estudiantes. El siguiente gráfico ilustra un fragmento de la tabla contentiva de los datos, donde 0 indica una procedencia urbana y 1 una procedencia rural. ESTUDIANTE MCR ACP JPP JHB LCP (…) ERRORES 12 3 20 3 6 (…) PROCEDENCIA 1 0 0 1 1 (…) Como se trataba de 210 estudiantes se decidió compilar los datos en una tabla de frecuencias, donde la variable relativa al total de errores (cuantitativa discreta) se reorganizó con sus datos agrupados. La tabla resultante es la siguiente: MARCA DE CLASE 3 8 13 18 23 28 33 ERRORES [0, 5] [6, 10] [11, 15] [16, 20] [21, 25] [26, 30] ≥ 31 ∑ PROCEDENCIA URBANA RURAL 5 19 12 28 27 31 28 12 21 5 10 6 6 0 109 101 ∑ 24 40 58 40 26 16 6 210 La primera y la última marca de clase no son los promedios exactos de los correspondientes intervalos; el lector deberá comprender la conveniencia de tomar estos valores (3 y 33). La columna de frecuencias de procedencia rural es la que corresponde a los “unos” de la tabla original. Por ese motivo, la proporción p se calcula directamente: p= total de procedencia rural 101 = ≈ 0,48. 210 total 88 Denotando por xi los errores según la columna de marcas de clase, por fiT (se lee “efe sub i supra te”) la frecuencia absoluta total de ambas procedencias, por fip frecuencia absoluta de los estudiantes procedentes de escuelas rurales (que son los señalizados por el símbolo “1”), resulta esta nueva tabla: f iT 24 40 58 40 26 16 6 210 xi 3 8 13 18 23 28 33 ∑ f ip 19 28 31 12 5 6 0 101 xi fiT 72 320 754 720 598 448 198 3110 xi2 fiT 216 2560 9802 12960 13754 12544 6534 58370 xi fip 57 224 403 216 115 168 0 1183 Ahora es posible calcular los datos que se restan en la fórmula del coeficiente Rbp. En primer lugar, respecto a la variable X que en este caso representa el total de errores por estudiante se tiene, desestimando la procedencia, que: ∑x X = i f iT = N 3110 ≈ 14,81, 210 2 1 1 2 xi2 f iT − X ≈ ⋅ 58370 − (14,81) ≈ 7,66. ∑ n 10 Considerando ahora la proporción relativa a escuelas rurales en la misma variable X resulta: Sx = X ∑x f = ∑f i p p i p i = 1183 ≈ 11,71. 101 Por tanto, Rbp = Xp−X p 11,71 − 14,81 0,48 ⋅ ≈ ⋅ ≈ −0,39. Sx 1− p 7,66 0,52 La interpretación de este resultado comporta dos consideraciones. En primer lugar, como el módulo de Rbp (el valor absoluto 0,39) es relativamente pequeño, puede decirse que la correlación es baja. En segundo lugar, como el signo de Rbp es negativo, entonces los estudiantes procedentes de escuelas rurales (individuos enumerados con 1) tienden a cometer pocos errores ortográficos (valores bajos de la variable X); mientras que los procedentes de escuelas urbanas tienden a cometer muchos errores. En ambos casos esta tendencia es baja. EJERCICIOS PARA COMPROBAR TUS CONOCIMIENTOS. 1. En un grupo de alumnos se recogió la información del número de horas que dedicaron al estudio de la matemática para un examen y también sus notas en el examen. Los datos son los siguientes: 89 horas 11,5 10 12,5 6 9,8 10,5 10 7 9 6,8 notas 9,8 8 8,2 9 7,6 9,2 9,3 8 10 5,4 a) ¿Qué tipo de medida de tendencia central y de dispersión representaría mejor estos datos? b) Represente la información bivariada en un diagrama de dispersión. c) Si le parece apropiado, obtenga una recta de regresión. d) Determine el coeficiente de correlación y la parte de la variación explicada. e) ¿Qué conclusiones puede hacer respecto a la relación entre el número de horas de estudio y la nota en el examen? 2. Las notas en estadística (X) y en matemáticas (Y) obtenidas por 10 alumnos elegidos al azar en un grupo de primer curso de la Facultad de Ciencias Económicas y Empresariales han sido las siguientes, según el orden de selección de la muestra: a) Represente la nube de puntos correspondiente a esta distribución. ¿Qué hipótesis pueden hacerse a la vista de esta representación? b) Estime los parámetros de la recta de regresión de Y/X. Interprete los coeficientes calculados. c) Estime los parámetros de la recta de regresión de X/Y. Interprete los coeficientes calculados, y compare ambas rectas. d) Represente las dos rectas de regresión junto a la nube de puntos. e) Calcule el coeficiente de correlación lineal entre X e Y. f) Para un alumno que haya obtenido un 7 en matemáticas ¿qué nota le pronosticaría en estadística? g) Para un alumno que haya obtenido un 4 en estadística ¿qué nota le pronosticaría en matemáticas? 3. Se desea estudiar la repercusión que tiene los días de lluvia en el número de visitas a un zoo. Para ello, se observaron las siguientes variables, durante los últimos diez años, siendo Y = Nº de visitas anuales, en miles, y X = Nº de días de lluvia al año: a) Calcule el coeficiente de correlación lineal e interprete el valor hallado. b) Obtenga la recta de regresión que explique el número de visitas anuales en función del número de días de lluvia. 4. En un país europeo se han obtenido estadísticas que relacionan el número de vehículos matriculados y el número de accidentes habidos en un período determinado. Los datos recogidos son los siguientes: 90 Se pide: a) Un modelo de regresión que nos explique el nº de accidentes en función de los vehículos matriculados. Interpretar los coeficientes del modelo. b) Coeficiente de correlación lineal. ¿Qué puede decir con este dato? c) Porcentaje de las causas ajenas a la regresión que influyen en la variable dependiente. d) Deducir cuál sería el nº de accidentes si se matriculan 800 vehículos. 5. Dada la difícil situación por la que atraviesa actualmente la empresa QUEMALAPATA en la que hemos empezado a trabajar, se propone la reducción de determinados gastos. Para ello se estudia la relación que existe entre dos variables como son: los gastos en publicidad (variable X) y los beneficios (variable Y). De ambas variables disponemos de los siguientes datos: Año 1993 1994 1995 1996 1997 70 75 80 90 104 33 45 50 65 67 Gastos en Publicidad (105 ptas) Beneficios (106 ptas) Se pide: a) ¿Se puede considerar que ambas variables guardan algún tipo de relación? ¿Cuál sería la variable dependiente y cuál la independiente? b) Realizando un gráfico adecuado. ¿Se puede suponer que la relación que las liga es de tipo lineal? c) Construye las dos rectas de regresión mínimo cuadrática asociada con las variables. d) Si la empresa para el próximo año realizará un esfuerzo para poder invertir 11.500.000 ptas en publicidad. ¿Cuáles resultarían ser sus beneficios? ¿Con qué fiabilidad realizaría usted la predicción? 91 e) ¿Cuáles resultarían ser sus beneficios si la predicción se efectúa considerando tan solo como variable explicativa el tiempo? ¿Cuál sería la fiabilidad de esta otra predicción? Comente los resultados. 6. Un estudiante de Estadística de la provincia de Sevilla, para poder pagarse sus estudios debe trabajar como camarero en un bar de copas de su localidad CASTILLEJADELCUESTON, al cual suelen acudir todos los jóvenes de la zona. Este año con los conocimientos aprendidos decide por fin estudiar la relación existente entre las galletas saladas y el consumo de bebidas, ya que, es costumbre, dar al cliente este aperitivo cuando se pide una consumición. Las galletas no pueden tener una concentración de sal superior a 35 gramos por cada 10.000 galletas, y por ello decide ir variando a partir de 10 gramos la concentración de 5 en 5 gramos cada semana e ir anotando el incremento en caja semanalmente. Obteniendo la siguiente tabla: Gramos de sal por cada 1 1000 galletas Ingresos pesetas) en caja (en 1.5 2 2.5 3 140300 150000 165000 175000 200000 Se pide: a) Establecer un modelo lineal que relaciona las dos variables, estudiando la fiabilidad de dicho modelo b) Como consecuencia de los resultados anteriores el propietario del bar decide añadir a las galletas 40,25 gramos de sal, que coincide con toda la sal que tiene, en los almacenes. Realiza una predicción de los ingresos en caja y comente el resultado. c) Si el propietario desea unos ingresos de 160.000 pesetas que cantidad de sal aportaría a las galletas. Si aporta 2,75, ¿cuál sería el ingreso en caja? Explicar cual de las dos predicciones te merece mayor confianza. 7. Cinco niños de 2, 3, 5, 7 y 8 años (X) pesan respectivamente, 14, 20, 30, 42, y 44 kg (Y). Calcular: a) los parámetros x , y , Sx , Sy , Sxy . b) la recta de regresión del peso sobre la edad. c) el coeficiente de correlación lineal. d) según estos datos, ¿cuánto se prevé que debiera pesar un niño de 6 años? 8. Se han colgado sucesivamente del extremo de un resorte cinco masas, X, en gramos, y se ha registrado los alargamientos, Y, en milímetros, producidos por las cargas. He aquí la tabla. 92 Dibuja la nube de puntos. Hallar la recta de regresión, el coeficiente de correlación lineal y deducir lo que se estiraría el muelle si colgáramos una masa de 15 gramos. 9. La siguiente tabla muestra el número de accidentes de tráfico en los últimos 7 años: a) determinar el número medio de accidentes en los 7 años b) dibuja la nube de puntos b) calcular la recta de regresión de X(años) sobre Y(nº accidentes) c) obtener el coeficiente de correlación lineal d) ¿cuántos accidentes estimarías para el año 2000? 10. Se han observado conjuntamente las variables X e Y, 1000 veces, obteniéndose en total los siguientes valores: Calcular: a) los parámetros x , y , Sx , Sy , Sxy . b) la recta de regresión. 11. Ajustar la recta de regresión con los puntos dados hallando el coeficiente de correlación lineal. ¿Por qué da “r” ese valor? 93 CAPÍTULO 5: TEORÍA COMBINATORIA. Variaciones, combinaciones y permutaciones. Para realizar nuestro análisis, partiremos del ejemplo siguiente: Ejemplo 1: Se tiene una urna que contiene 4 bolas idénticas en cuanto a sus tamaños y formas; estas bolas están numeradas del 1 al 4. Consideremos el experimento que consiste en seleccionar al azar dos bolas de esa urna. Describa de qué formas se puede realizar esta selección. Respuesta: Caso 1: Se extrae una bola, se anota su número y se devuelve a la urna antes de escoger la otra. a) Interesa saber cuál bola se extrajo primero. b) No interesa saber cuál bola se seleccionó primero. Caso 2: Se extrae la primera bola, se anota su número y no se devuelve a la urna antes de extraer la otra. Caso 3: Se extraen simultáneamente las dos bolas. Observaciones: —En el caso 1-a, atendiendo al modo en el que se realizó la selección, se establece un orden, y además, una misma bola puede ser seleccionada en las dos oportunidades, es decir se admite la repetición. Esto se puede ilustrar mediante el siguiente diagrama de árbol: 94 Segunda extracción Primera extracción 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 (1, 1); (1, 2); (1, 3); (1, 4); (2, 1); (2, 2); (2, 3); (2, 4); (3, 1); (3, 2); (3, 3); (3, 4);(4, 1); (4, 2); (4, 3) y (4, 4) Observe que: (1, 2)≠(2, 1) Selección con repetición (reposición o reemplazo) y con orden. —En el caso 1-b, según la forma de selección, no se puede establecer un orden, pero se admite la repetición; por lo que el diagrama se simplifica como sigue: (1, 1);(1, 2);(1, 3); (1, 4); (2, 2); (2, 3); (2, 4); (3, 3); (3, 4); (4, 3) y (4, 4) Observe que: (1, 2)=(2, 1) 95 Segunda extracción Primera extracción 1 2 1 2 3 4 2 3 4 3 3 4 4 4 Selección con repetición (reposición o reemplazo) y sin orden. —En el caso 2 se puede, evidentemente, establecer un orden de selección, pero no se admite repetición ya que la primera bola extraída no se devuelve a la urna. El diagrama será: Segunda Primera 1 2 3 4 2 1 3 4 3 1 2 4 4 1 2 3 96 (1, 2); (1, 3); (1, 4); (2, 1); (2, 3); (2, 4); (3, 1); (3, 2); (3, 4); (4, 1); (4, 2) y (4, 3) Observe que: (1, 2)≠(2, 1) Selección sin repetición (reposición o reemplazo) y con orden. —Por su parte, en el caso 3 como las dos bolas se extraen a la vez, no es posible la repetición, ni existe un orden de selección. Aquí no se puede construir un diagrama de árbol. (1, 2); (1, 3); (1, 4); (2, 3); (2, 4); (3, 4) Selección sin repetición (reposición o reemplazo) y sin orden. En este ejemplo, la cantidad total de bolas que se tienen es pequeña (4), así como el total que se van a seleccionar (2); ello facilita contar el total de resultados posibles: 16 en el caso 1-a, 10 en el 1-b, 12 en el caso 2 y 6 en el 3. Sin embargo, la realización del árbol o simplemente el conteo de esos resultados sería laborioso si estos números (total de bolas y cantidad a seleccionar) fueran mayores. Precisamente, para realizar este conteo se emplea la teoría combinatoria. Llamemos N al total de bolas (objetos) que están disponibles para ser seleccionados y sea R la cantidad que se van a seleccionar. En el ejemplo que tratamos N= 4 y R= 2. Definición 1: Se llaman variaciones con repetición y con orden de los N elementos de un conjunto dado, tomados R a R, a todos los posibles ordenamientos con reposición de los R elementos seleccionados de los N del conjunto dado. (Caso 1-a) Notación: VR(N, R) Definición 2: Se llaman variaciones sin repetición y con orden de los N elementos de un conjunto dado, tomados R a R, a todos los posibles ordenamientos sin reposición de los R elementos seleccionados de los N del conjunto dado. (Caso 2) Notación: V(N, R) Definición 3: Se llaman combinaciones sin repetición y sin orden de los N elementos de un conjunto dado, a todos los subconjuntos diferentes de R elementos distintos, que se pueden formar con los N elementos del conjunto dado. (Caso 3) Notación: C(N, R) Definición 4: Se llaman combinaciones con repetición y sin orden de los N elementos de un conjunto dado, a todos los subconjuntos diferentes de R elementos iguales o no, que se pueden formar con los N elementos del conjunto dado. (Caso 1-b) Notación: CR(N, R) Teorema 1: El número VR(N, R) está dado por V(N, R)= NR, con N y R naturales. —Para el caso 1-a, tenemos: VR(4, 2)= 42=16. Teorema 2: El número V(N, R) está dado por V(N, R)= N!/(N-R)!, con N y R naturales (N≥ R). —Para el caso 2, tenemos que V(4, 2)= 4!/(4-2)!= 12. Observación: Si N= R, a las variaciones sin repetición y con orden se les denomina permutaciones y se denota por PN. De donde se tiene que PN= N!. Teorema 3: El número C(N, R) está dado por: C(N, R)= N!/(R! (N-R)!), con N y R naturales (N≥ R). 97 —Para el caso 3, tenemos que C(4, 2)= 4!/(2!(4-2)!)= 6. Observaciones: —Al valor C(N, R) se le denomina número combinatorio o coeficiente binomial. —Si N= R1+ R2+...+ Rk, entonces al número N!/R1! R2!...Rk! se le denomina coeficiente multinomial. Propiedades del número C(N, R): 1.- (N, 0)= (N, N)= 1 2.- (N, 1)= 1 3.- (N, 2)= N(N-1)/2 4.- (N, R)= (N, N-R) 5.- (N, R)+(N, R+1)= (N+1, R+1) 6.- R(N, R)= N(N-1, R-1) Teorema 4: El número CR(N, R) está dado por: CR(N, R)= (N+R-1)/(R! (N-R)!) —Para el caso 1-b, tenemos que CR(N, R)= (4+2-1)!/(2!(4-2)!)=10 EJERCICIOS PARA COMPROBAR TUS CONOCIMIENTOS 1. Un grupo de madres cuyos hijos juegan en un equipo de béisbol menor, animan sus niños en los juegos con un grupo de pancartas. En total disponen de 10 pancartas distintas y llevan siempre a cada juego por lo menos 3 pancartas. ¿De cuántas formas posibles podrían animar las madres a sus hijos con las pancartas en el próximo juego? 2. Un test consta de 10 preguntas, cada una con 2 posibles respuestas: “si” y “no”. ¿De cuántas formas posibles se puede responder este test? 3. Un examen consta de 8 preguntas; las 5 primeras con 2 posibles respuestas y las 3 últimas con 5 posibles respuestas cada una. ¿De cuántas formas posibles puede responderse este examen? 4. Una caja contiene 25 cubos, 12 de color rojo, 8 de color negro y 5 de color blanco. Cada cubo tiene un número que lo identifica. ¿Cuántos grupos de 7 cubos, 3 rojos, 2 negros y 2 blancos pueden formarse con los cubos de la caja? 5. Un grupo de 4 amigos salen con sus respectivas novias y en un conocido parque de la ciudad le piden a una persona que le tomen una foto. ¿De cuántas formas se podrán arreglar, si desean salir todos de pie y al lado de su respectiva pareja? 6. Un grupo de jóvenes aventureros han decidido ir a conocer 10 países de Europa, de los cuales no tienen ninguna información. Luego de marcharse de cada país, calificarán al país de acuerdo a lo visto en su corta visita como: “muy agradable”, “agradable” o “no agradable”. 98 ¿De cuántas maneras podrán calificar a 4 países como “muy agradables”, 3 como “agradables” y a 3 como “no agradables”? 7. Un grupo de 7 atletas se disponen a participar en una prueba de natación. ¿De cuántas maneras posibles pueden entregarse las medallas de oro, plata y bronce? 8. Al iniciar una jornada de trabajo cualquiera las 4 personas encargadas de atender al público en cierta empresa tienen a 7 personas en espera. ¿De cuántas formas posibles podrán ser atendidas las 7 personas por los funcionarios de atención al público si cada funcionario debe atender una persona por lo menos? 9. En una reunión hay 12 mujeres y 5 hombres. Queremos tomar fotografías distintas de manera que en cada una aparezcan 5 personas. ¿En cuántas fotografías aparecen 2 hombres? 10. Una madre de una familia de 6 miembros posee 8 empaques de un determinado producto para llevarlos a un buzón donde participará en un sorteo por un vehículo. Ella no desea identificar todos los empaques con el mismo nombre, sino que desea que todos los miembros de la familia aparezcan identificados en al menos un empaque, en busca de la suerte familiar. ¿De cuántas formas posibles podrá identificar la señora los empaques bajo la condición que ella misma ha impuesto? 11. ¿Cuántas palabras de 6 letras se pueden formar con las letras m, n, p, a, i, o de tal manera que no aparezcan 2 consonantes ni 2 vocales juntas? 12. En el consejo de una ciudad hay 10 concejales y 5 oficiales. ¿Cuántos comités pueden formarse si cada uno debe constar de 5 oficiales y 2 concejales? 13. ¿Cuántos productos de 3 factores se pueden formar con los números 5, 7, 9, 11 y 13? 14. ¿Cuántas señales diferentes pueden hacerse izando 6 banderas de colores diferentes una sobre otra si se pueden izar cualquier número de ellas a la vez? 15. ¿De cuántas formas pueden ser colocados 10 automóviles en un stock, si 3 de ellos son Fiat, 4 son Ford, 2 son Toyota y 1 es BMW? 16. ¿De cuántas maneras pueden ser seleccionadas 4 personas provenientes de 5 parejas de casados, si la selección consiste de 2 damas y 2 caballeros? 17. Se tienen los números 5874 y 12369. ¿Cuántos números enteros diferentes pueden formarse con 2 cifras no repetidas del primero y 3 no repetidas del segundo? 18. ¿De cuántas maneras pueden acomodarse en una biblioteca 5 libros de Matemáticas, 7 de Química, 4 de Física y 8 de Estadística de modo que los de una misma materia estén siempre juntos? 19. Una junta directiva de 5 cargos diferentes debe estar formada por 3 hombres y 2 mujeres. ¿De cuántas maneras diferentes se puede formar dicha junta si se dispone de 7 hombres y de 5 mujeres? 99 20. ¿De cuántas formas distintas se pueden colocar 5 cartas diferentes en 3 buzones, cada uno dirigido a distintas partes del mundo? 100 CAPÍTULO 6: TEORÍA DE LAS PROBABILIDADES. 6.1. Experimento. Espacio muestral y suceso aleatorio Experimento, según el Diccionario, es la "acción de experimentar" y, a su vez, experimentar es "probar prácticamente una cosa". Así, son múltiples las definiciones que en la literatura se encuentran sobre experimento; para nuestros propósitos adoptaremos la siguiente: Definición 1: Experimento es la realización de un conjunto de condiciones que pueden ser repetidas un número arbitrario de veces (al menos, mentalmente). Cuando un investigador realiza un experimento, siempre espera obtener de él algún resultado; pero, ocurre que en muchos de ellos podrá saber con certeza qué resultado va a obtener, mientras que en otros no podrá realizar dicha aseveración. Esto hace que podamos clasificar los experimentos en determinísticos o aleatorios. Definición 2: Un experimento es determinístico, cuando se puede predecir con exactitud el resultado que se obtendrá al realizarlo. Definición 3: Un experimento es aleatorio, cuando no se puede predecir con exactitud el resultado que se obtendrá al realizarlo. (A estos también se les llaman estocásticos). Ahora ustedes podrán indicar varios ejemplos de experimentos y clasificarlos, pero vamos a prevenirlos en el sentido de que nuestro interés son los experimentos estocásticos, es por ello que, a continuación, relacionamos algunos ejemplos de estos últimos: Ejemplo 1 (de experimentos aleatorios): a) El lanzamiento de un dado homogéneo, o de una moneda, sobre una superficie plana. b) La evaluación, de aprobado o suspenso, que obtendrá un alumno en el examen de Matemática. c) La selección —de modo imprevisto— de una tarjeta, de entre cinco que son idénticas y que han sido perfectamente mezcladas. (Estas tarjetas pueden tener el nombre o el número que identifica a cada alumno de un equipo de estudio, y el interés puede ser, observar la situación docente del alumno seleccionado en Matemática, Física o Química). En estas situaciones planteadas, se habrán percatado ustedes de que, no es posible predecir con certeza el resultado que se obtendrá cuando se realice el experimento; sin embargo, sí se puede predecir cuál o cuáles serán los posibles resultados en cada realización del experimento (o en cada prueba). Así, cuando se lanza un dado homogéneo sobre una superficie plana, son posibles seis resultados; todo alumno que asiste a un examen tiene dos resultados posibles: aprobar o suspender, y cuando de un equipo de estudio —como el descrito en el caso c—, se selecciona un alumno en la forma en que se ha dicho, pueden ocurrir cinco resultados posibles. (Una selección que se haga del modo que se plantea en este caso, se dice que es una "selección aleatoria o al azar"). Queremos insistir en el hecho de que, aunque en los experimentos aleatorios no es posible predecir el resultado exacto que se obtendrá al realizar el experimento, sí se puede saber cuál o cuáles, serán los posibles resultados de este. Aquí nos interesa la siguiente definición: Definición 4: Se llama punto muestral a cada uno de los resultados de un experimento aleatorio. 101 En muchas ocasiones será de interés conocer cuáles son todos los puntos muestrales del experimento, por ello tenemos la definición siguiente: Definición 5: Se llama Espacio Muestral al conjunto de todos los puntos muestrales de un experimento aleatorio. Para referirnos al espacio muestral, como notación, emplearemos la S y para especificar el total de puntos muestrales de S, usaremos la notación N(S). De acuerdo con la cantidad N(S), el espacio muestral se puede clasificar en finito o infinito: si N(S) es un número determinado, entonces el espacio muestral es finito; en caso contrario, diremos que es infinito. (Los espacios muestrales de los distintos experimentos del ejemplo 1, son finitos). Para representar el espacio muestral se emplean diferentes formas, entre las que tenemos: ⎯La representación descriptiva: consiste en indicar, verbalmente, cuáles son los puntos muestrales del espacio muestral. ⎯La representación tabular: consiste en situar, entre llaves y separados por comas, cada uno de los puntos muestrales del espacio muestral, mediante el empleo de símbolos. Estos símbolos pueden ser letras, números, etc). ⎯La representación constructiva: consiste en emplear notaciones matemáticas, situadas entre llaves, de modo tal que no aparezcan de forma explícita los puntos muestrales del espacio muestral. ⎯La representación mediante diagramas: consiste en emplear figuras de la geometría plana, tales como, cuadrados, circunferencias, etc., para indicar los puntos muestrales del espacio muestral. Ilustremos mediante un ejemplo los últimos aspectos tratados: Ejemplo 2 (de espacio muestral): Consideremos el experimento descrito en el caso c del ejemplo 1. Llamémosle a1, a2,.., a5 a cada alumno del equipo y supongamos los siguientes resultados docentes de estos alumnos: Aquí, el experimento consiste en seleccionar al azar un alumno del equipo, por tanto, los puntos muestrales son cada uno Alumno Matemática Física Química de los alumnos, ya que a1................. Bien............. Bien....... Bien cualquiera de ellos puede ser a2................. Bien............. Bien....... Bien seleccionado. a3................. Mal.............. Mal........ Bien Veamos las diferentes formas de a4................ Regular........ Mal........ Bien representar el espacio muestral: a5................. Mal.............. Bien....... Bien ⎯Representación descriptiva: S: el espacio muestral está formado por los alumnos a1, a2, a3, a4 y a5 del equipo de estudio. ⎯Representación tabular: S={a1, a2, a3, a4, a5}, N(S)=5. (El espacio muestral es finito). ⎯Representación constructiva: S={ai: i≤5, i∈N\0} 102 ⎯Representación mediante diagrama: s Este espacio muestral, además de ser finito, tiene otra característica que queremos destacar y es que, no existe un alumno del equipo que tenga "mayor posibilidad" de ser seleccionado que otro cualquiera. Cuando un espacio muestral tiene esta característica, se dice que es "equiprobable". Muchas veces el investigador no está interesado solo en conocer todos los posibles resultados del experimento aleatorio, sino que, lo está en "algunos de esos resultados". Así, en este experimento, puede estar interesado en los alumnos que estén evaluados de bien en Matemática, o de mal en Física, etc. En tal caso, se hablará de un "suceso aleatorio". Definición 6: Un suceso o evento aleatorio es un conjunto de puntos muestrales de un experimento estocástico. Para denotar los eventos se utilizan las letras mayúsculas de nuestro alfabeto, con o sin subíndices: A, B, C,...., A1, A2,..., y para indicar el número de puntos muestrales del suceso, se emplea la notación N(A), N(B),..., N(A1), N(B1),... Esta definición es muy similar a la de espacio muestral, sin embargo se diferencia en que en el espacio muestral tienen que estar todos los puntos muestrales del experimento, mientras que, en el evento no necesariamente lo estarán. Para representar a cada suceso se emplean las mismas formas que se utilizan para representar el espacio muestral. Por otro lado, debemos precisar que, todo suceso siempre estará referido a un espacio muestral. Ejemplo 3 (de sucesos aleatorios): Algunos sucesos referidos al espacio muestral del ejemplo 2, son los siguientes: A: que el alumno que se seleccione esté evaluado de bien en Matemática. B: que el alumno que se seleccione esté evaluado de bien en Física. C: que el alumno que se seleccione esté evaluado de bien en Química. D: que el alumno que se seleccione esté evaluado de regular en Física. E: que el alumno que se seleccione esté evaluado de mal en Física. Aquí solo hemos definido, en representación descriptiva, cinco de todos los posibles sucesos que se pueden definir del espacio muestral anterior: usted podrá indicar otros muchos (le sugerimos que lo haga). Escribamos ahora, en representación tabular, estos eventos: A={a1, a2}, N(A)=2. B={a1, a2, a5}, N(B)=3. C={a1, a2, a3, a4, a5}=S, N(C)=N(S)=5. D=φ, este suceso NO TIENE PUNTO MUESTRAL ALGUNO: N(D)=N(φ)=0. 103 (El símbolo empleado para indicar que este suceso no tiene punto muestral es la letra griega phi). E={a3, a4}, N(E)=2. Ahora bien, si cuando realicemos este experimento, es decir, si cuando de ese equipo de estudio seleccionemos, al azar, un alumno; este es el a2, diremos que los sucesos A, B y C ocurren, mientras que los sucesos D y E no ocurren: ya que a2 es un punto muestral que pertenece a los eventos A, B y C, pero no pertenece a los sucesos D y E. Definición 7 (de ocurrencia de un suceso): sea M un suceso de un espacio muestral S. Diremos que el suceso M ocurre, si el resultado que se obtiene cuando se realiza el experimento, es un punto muestral que pertenece a dicho evento. En caso contrario, se dice que el suceso M no ocurre. En estos momentos tenemos que saber responder cuál o cuáles de los sucesos anteriores ocurren y cuál o cuáles no, si el alumno seleccionado es el a1, o si es el a4, etc. Se percatarán ustedes de que el suceso C "siempre ocurre" al realizar el experimento, sin embargo, el D "nunca ocurre". Además, siempre que ocurra el suceso A, ocurre el suceso B y ocurre el evento C, no así el suceso D y el E. Definición 8 (de suceso seguro): Un suceso de un espacio muestral S que siempre que se realice el experimento ocurre, se llama evento seguro o cierto. El suceso seguro se denota por S y observe que este siempre va a tener la misma cantidad de puntos muestrales que tenga el espacio muestral, es el caso del suceso C. Definición 9 (de suceso imposible): un suceso de un espacio muestral S que no ocurre nunca, cuando se realiza el experimento, se llama evento imposible. El evento imposible se denota por φ y nunca va a tener punto muestral alguno, es decir, N(φ)=0; tal es el caso del evento D. Definición 10 (de subevento): Sean M y N dos sucesos de un espacio muestral. Diremos que el suceso M es subevento del suceso N, si siempre que ocurra el suceso M, ocurre también el suceso N. Observación: Si M es subevento de N y a la vez N es subevento de M, entonces se dice que M y N son iguales: M=N. Notación de subevento: M⊂N. En nuestro ejemplo 3, A⊂B, A⊂C y se cumple: que N(A)<N(B), N(A)<N(C). Además, siempre se cumplirá que: cualquiera sea M, M⊂S. 6.2. Operaciones entre sucesos. Sucesos mutuamente excluyentes y sucesos exhaustivos. 1.- Complemento de un suceso: Fijémonos nuevamente en los sucesos B y E del ejemplo 3: B={a1, a2, a5} y E={a3, a4}. Observemos que si el alumno seleccionado es el a1, ocurre el evento B, pero el suceso E no; mientras que si el alumno seleccionado es el a3, entonces ocurre el evento E, pero no el suceso B. Así, en cada realización de este experimento, siempre ocurrirá uno de estos dos sucesos, pero no los dos a la vez: cuando esto sucede se 104 dice que dichos eventos son complementarios. Definición 11 (de complemento de un suceso): Sea M un suceso de un espacio muestral S. Al suceso que ocurre, cuando al realizar el experimento no ocurre el evento M, se le llama suceso complemento o contrario del evento M. Para denotar el complemento del suceso M se emplea el símbolo Mc. Observe que todo punto muestral de S siempre pertenecerá al suceso o a su complemento, es decir, si al realizar el experimento ocurre el suceso M, entonces no ocurrirá su complemento; pero si ocurre el complemento de M, entonces no ocurrirá el suceso M. Por tanto, al complemento de un suceso pertenecen los puntos muestrales del espacio muestral que no pertenezcan al suceso y viceversa. Ejemplo 4 (de complemento de un suceso): Determine el complemento de cada uno de los sucesos descritos en el ejemplo 3. Ac: que el alumno que se seleccione no esté evaluado de bien en Matemática. Ac={a3, a4, a5}, N(Ac)=3. Bc : que el alumno que se seleccione no esté evaluado de bien en Física. Bc={a3, a4}=E, N(Bc)=2. Observe que Bc⊂Ac, ya que A⊂B. Cc: que el alumno que se seleccione no esté evaluado de bien en Química. Cc=φ. Luego, como C=S, tenemos que Sc=φ. Dc: que el alumno que se seleccione no esté evaluado de regular en Física. Dc={a1, a2, a3, a4, a5}=S. Luego, como D=φ, tenemos que φC=S. Ec: que el alumno que se seccione no esté evaluado de mal en Física. Ec={a1, a2, a5}=B, N(Ec=3. Tarea I: Sobre la base de los resultados obtenidos en los ejemplos 2, 3 y 4, verifique que son válidas las siguientes igualdades: 1.- N(Ac)=N(S)-N(A) 2.- N(Bc)=N(S)-N(B) 3.- N(Cc )=N(S)-N(C) 4.- N(Dc)=N(S)-N(D) 5.- N(Ec)=N(S)-N(E) Tarea II: Verifique que para todo suceso M de un espacio muestral S se cumple que: (Mc)c=M 2.- Producto de dos sucesos Ahora analicemos los sucesos A={a1, a2} y B= {a1, a2, a5}: veamos que el punto muestral a1 es común a los dos eventos, es decir, si el alumno que resulta seleccionado, cuando se realiza el experimento, es el a1, estarán ocurriendo, a la vez, los eventos A y B —esto no es así si el alumno seleccionado es el a5; en tal caso solo ocurre el suceso B—. Por tal razón, si el alumno seleccionado es el a1, diremos que está ocurriendo el "producto de los sucesos A y B"; que es otra de las operaciones que se definen entre los sucesos. 105 Definición 12 (producto o multiplicación de sucesos): Sean M y N dos sucesos de un espacio muestral S. Al evento que ocurre cuando ocurren, a la vez, los sucesos M y N, se le llama producto de los sucesos M y N. Para denotar la multiplicación de los sucesos M y N emplearemos cualesquiera de las dos formas siguientes: M∩N o M•N, y para referirnos al total de puntos muestrales del suceso producto, lo haremos escribiendo la notación N(A∩B) o N(A•B). En la definición anterior queda establecido que, el producto de dos sucesos, es también un suceso. Este nuevo suceso ocurre solo cuando ocurran ambos eventos, es decir, en el suceso producto están los puntos muestrales que son comunes a los dos sucesos. Ejemplo 5 (producto de sucesos): Determine, sobre la base de los sucesos descritos en los ejemplos 3 y 4, las multiplicaciones siguientes: A∩B: que el alumno que se seleccione esté evaluado de bien en Matemática y en Física. (Los alumnos a1 y a2 cumplen estas dos condiciones: estar evaluado de bien en ambas asignaturas). A∩B={a1, a2}, N(A∩B)=2. Observe que N(A∩B)≠N(A)N(B) y además, si se determina B∩A, se vería que A∩B=B∩A (propiedad conmutativa). También, en este caso se cumple que A∩B=A, debido a que A⊂B. A∩C: que el alumno que se seleccione esté evaluado de bien en Matemática y en Química. (Solo los alumnos a1 y a2 cumplen esta condición). A∩C={a1, a2}, N(A∩C)=2. Observe que N(A∩C)≠N(A)N(C) y además, si se determina C∩A, se vería que A∩C=C∩A. También tenemos que C =S (S es el suceso seguro), luego cualquiera sea A, se cumple que A∩S=A. A∩E: que el alumno que se seleccione esté evaluado de bien en Matemática y de mal en Física. (En este equipo no existe alumno alguno que cumpla estas dos condiciones). A∩E=φ, N(A∩E)=0. En este caso se dice que los eventos A y E son "mutuamente excluyentes". Definición 13 (de eventos mutuamente excluyentes): Sean M y N dos eventos de un espacio muestral S. Se dice que los eventos M y N son sucesos mutuamente excluyentes, si la ocurrencia del producto de ellos es el suceso imposible. Notación: M∩N=φ. Es evidente que dos sucesos que sean mutuamente excluyentes no tienen ningún punto muestral en común. Sigamos con el ejemplo 5: A∩D: que el alumno que se seleccione esté evaluado de bien en Matemática y de regular en Física. A∩D=φ. Como D=φ, tenemos que se cumple, para cualquier suceso M, que, M∩φ=φ. Ac∩B: que el alumno que se seleccione no esté evaluado de bien en Matemática, pero sí lo esté en Física. (Solo el alumno a5 cumple estas dos condiciones): Ac∩B={a5}, N(Ac∩B)=1. A∩Bc: que el alumno que se seleccione esté evaluado de bien en Matemática y no lo esté en Física. (No existe ningún alumno en el equipo que cumpla estas dos condiciones): 106 A∩Bc=φ, N(A∩Bc)=0. Observe que Ac∩B≠A∩Bc. Ac∩Bc: que el alumno que se seleccione no esté evaluado de bien ni en Matemática ni en Física. (Los alumnos a3 y a4 son los que cumplen estas dos condiciones): Ac∩Bc={a3, a4}, N(Ac∩Bc)=2. Observe que se pudo haber descrito este suceso diciendo: "que el alumno que se seleccione no esté evaluado de bien en ninguna de las dos asignaturas". Además, como: Bc⊂Ac, se cumple que Ac∩Bc=B. (A∩B)c: que el alumno que se seleccione no esté evaluado de bien en Matemática y Física, o lo que es lo mismo, que no esté evaluado de bien en ambas asignaturas. (A∩B)c={a3, a4, a5}, N(A∩B)c=3. Aquí hemos obtenido el suceso complemento de A∩B. Tarea III: Sobre la base de los resultados de los ejemplos 3, 4 y 5, verifique que se cumple que: a) A∩Ac =φ, B∩Bc=φ. b) N(Ac∩B)=N(B)-N(A∩B), c) N(A∩Bc)=N(A)-N(A∩B). 3.- Suma de sucesos Como ya se a visto, el producto de dos sucesos es un evento que ocurre, cuando ocurran exactamente los dos sucesos. Muchas veces estamos interesados en un suceso que ocurre, cuando ocurra al menos uno de esos sucesos; en tal caso se dice que ocurre la "suma de esos eventos". Definición 14 (de suma o unión de sucesos): Sean M y N dos sucesos de un espacio muestral S. Se llama suma o unión de los eventos M y N al suceso que ocurre, cuando ocurra el evento M, o cuando ocurra el suceso N, o cuando ocurran ambos M y N. Usaremos las notaciones M∪N o M+N para la suma de los sucesos M y N, y para referirnos al total de puntos del suceso suma la expresión N(M∪N) o N(M+N). En la definición anterior queda establecido que a la suma de dos sucesos pertenecen los puntos muestrales que pertenezcan a un suceso, al otro o a ambos. Las expresiones "que al menos uno de los sucesos ocurra" o "que ocurra el suceso M o el suceso N", se emplean con frecuencia, para referirse a la unión de estos sucesos. Ejemplo 6 (de suma de sucesos): Sobre la base de los ejemplos 2 y 3, determine: A∪B: que el alumno que se seleccione esté evaluado de bien en Matemática o en Física. (Aquí, sería lo mismo decir que esté evaluado de bien en al menos una de estas asignaturas). A∪B ={a1, a2, a5}, N(A∪B)=3. Observe que A∪B=B, esto se debe a que A⊂B. Además A∪B=B∪A, ya que la suma de dos sucesos es conmutativa. AUC: que el alumno que se seleccione esté evaluado de bien en Matemática o en Química. A∪C ={a1, a2, a3, a4, a5}, N(A∪C)=5. Aquí, se cumple que A∪C=S, pero C=S. Luego cualquiera sea el suceso M, se tiene que M∪S=S 107 A∪D: que el alumno que se seleccione esté evaluado de bien en Matemática o de regular en Física. A∪D ={a1, a2}, N(A∪D)=2. Aquí, tenemos que A∪D=A, pero D=φ, luego cualquiera sea M, se cumple que M∪φ=M. A∪E: que el alumno que se seleccione esté evaluado de bien en Matemática o de mal en Física. A∪E={a1, a2, a3, a4}, N(A∪E)=4. (Recuerde que los sucesos A y E son mutuamente excluyentes: A∩E=φ). B∪E: que el alumno que se seleccione esté evaluado de bien o de regular en Física. B∪E={a1, a2, a3, a4, a5}, N(B∪E)=5. Aquí ha sucedido que el resultado de esta suma es S, B∪E=S: cuando esto es así, se dice que los sucesos son "exhaustivos". Definición 15 (de sucesos exhaustivos): Sean M y N dos sucesos de un espacio muestral S. Los eventos M y N se llaman exhaustivos, si la ocurrencia de al menos uno de ellos es el suceso seguro. (M∪N =S). (Cualquier suceso y su complemento siempre son exhaustivos). (A∪B)c: que el alumno que se seleccione no esté evaluado de bien en al menos una de estas asignaturas, esto es lo mismo que decir que no esté evaluado de bien ni en Matemática ni en Física. (A∪B)c={a3, a4}, N(A∪B)=2. Si usted revisa el ejemplo 5, encontrará que (A∪B)c=Ac•Bc. Esta igualdad es válida para dos sucesos M y N cualesquiera de S. Ac∪Bc: que el alumno que se seleccione no esté evaluado de bien en Matemática o no esté evaluado de bien en Física. Estas dos condiciones la cumplen los alumnos a3, a4 y a5. Ac∪Bc ={a3, a4, a5}, N(Ac∪Bc)=3. Si vuelve usted a observar el ejemplo 5, encontrará que A∪B=(Ac∩Bc). Esta igualdad es válida para dos sucesos M y N cualesquiera de S. Tarea IV: Sobre la base de los ejemplos 2, 3, 5 y 6 compruebe que se cumplen las siguientes igualdades, las que se pueden generalizar para cualesquiera sucesos M y N de S: a) N(A∪B)=N(A)+N(B)-N(A∩B). b) N(A∪E)=N(A)+N(E), ya que A∩E=φ. c) N(Ac∩Bc)=N(S)-N(A∪B). 6.3. El concepto de probabilidad. Las definiciones clásica y estadística de probabilidades. Propiedades de la probabilidad 1.- El concepto de probabilidad: Si consultamos el diccionario Larousse, veremos que probabilidad significa "verosimilitud, cosa probable"; a su vez, verosimilitud se define como "carácter verosímil" y verosímil es un adjetivo, cuyo significado es "que parece cierto". Por otro lado, se expresa que probable — que también es un adjetivo— quiere decir "que tiene apariencias de verdad. Que puede suceder". Pero probabilidad es también una categoría filosófica, que para los idealistas se concibe como "una medida del grado de certeza del observador": desde luego, esto significaría que la 108 probabilidad es una medida que depende de la conciencia del observador y no de la realidad objetiva; debido a ello es que para nosotros la probabilidad tiene otra interpretación, que ha sido corroborada por la práctica: "La probabilidad es la medida del grado de realización de un acontecimiento concreto, en unas condiciones concretas y con una regularidad concreta". Dicho de otro modo, la probabilidad es la medida cuantitativa que tiene la posibilidad de llegar a ser realidad. La probabilidad, por otro lado, no es una medida del grado de ocurrencia de los acontecimientos determinísticos, es decir, no es una medida de la necesidad: de aquellos acontecimientos que ocurren por una ley establecida. De todo lo planteado anteriormente, también debemos destacar que, una alta medida de probabilidad no indica que, necesariamente, ese acontecimiento ocurrirá: significa sí, que el grado de que la posibilidad se convierta en realidad, es alto. (Una valoración similar se puede realizar para un valor bajo de la probabilidad). 2.- La definición clásica de probabilidad. Propiedades Hasta ahora no hemos dicho cómo se calcula la probabilidad que tiene un suceso de ocurrir (o de no ocurrir), es decir, cuál es la probabilidad de que un alumno que se seleccione al azar, del equipo de estudio descrito con anterioridad, esté evaluado de bien en Matemática; o cuál es la probabilidad de que no lo esté, etc., tales interrogantes serán respondidas a continuación. Sin embargo, queremos decir que no existe una única forma o vía matemática para calcular la probabilidad, sino que existen diferentes maneras que se aplican atendiendo a las particularidades del fenómeno que se investiga; una de estas vías es la definición clásica de probabilidad, que fue la que primero se descubrió. Definición 16 (Definición clásica de probabilidad): Sea S un espacio muestral finito y equiprobable, y sea M un suceso aleatorio de S. La probabilidad de que el suceso M ocurra se denota por P(M) y está dada por: P(M ) = N (M ) N (S ) Observación: Queremos llamar la atención en que, como el producto de dos sucesos es también un suceso, entonces: P( M ∩ N ) = N (M ∩ N ) N (S ) Algo similar se puede definir para el complemento y para la suma de sucesos. —Propiedades de la probabilidad: Sean M y N dos sucesos de un espacio muestral S, se cumple: 1.- Para el suceso imposible φ, tenemos que N(φ)=0, luego: P (φ ) = N (φ ) 0 = =0 N (S ) N (S ) 2.- Para el suceso seguro S, tenemos que N(S)=N(S), luego: 109 P( S ) = N (S ) =1 N (S ) 3.- Para el complemento de M, Mc, tenemos que: N(Mc)=N(S)-N(M), luego: N (M C ) N (S ) − N (M ) N (S ) N (M ) P(M ) = = = − = 1 − P( M ) N (S ) N (S ) N (S ) N (S ) C 4.- Para los sucesos M∩Nc y Mc∩N, tenemos, respectivamente, que N(M∩Nc)=N(M)-N(M∩N) y N(Mc∩N )= N(N)-N(M∩N), luego: P(M ∩ N C) = N(M ∩ N C ) N (M ) − N (M ∩ N ) N (M ) N (M ∩ N ) = = − = P(M ) − P(M ∩ N ) N (S ) N (S ) N (S ) N (S ) P(M C ∩ N ) = N (M C ∩ N ) N (N ) − N(M ∩ N ) N (N ) N (M ∩ N ) = = − = P( N) − P(M ∩ N ) N (S ) N (S ) N (S ) N (S ) 5.- Para el suceso M U N, tenemos que: N(M∪N)=N(M)+N(M)-N(M∩N),luego: N (M ∪ N ) N (M ) + N ( N ) − N (M ∩ N ) N (M ) N ( N ) N (M ∩ N ) = = + − N (S ) N (S ) N (S ) N (S ) N (S ) = P ( M ) + P ( N ) − P( M ∩ N ) P( M ∪ N ) = (Regla de la suma de dos sucesos). Observación: Si los sucesos M y N son mutuamente excluyentes (M∩N=φ), entonces P(M∩N)=0 y se tiene que: P(M∪N)=P(M)+P(N). 6.- Para el suceso Mc∩Nc, tenemos que: N(Mc∩Nc)= N(S)-N(M∪N), luego: P(M C ∩ N C ) = N ( M C ∩ N C ) N ( S ) − N (M ∪ N ) N (S ) N ( M ∪ N ) = = − = 1 − P(M ∪ N ) N (S ) N (S ) N (S ) N (S ) 7.- Para los sucesos M y N, si M⊂N, tenemos que: N(M)≤N(N), de donde: N (M ) N ( N ) ≤ , por tanto: P(M)≤P(N). N (S ) N (S ) Observaciones: ⎯Si M es subevento de N, entonces P(M)≤P(N). ⎯Si P(N)>P(M), entonces N no es subevento de M. ⎯Si M no es subevento de N, entonces P(M) puede ser o no, menor o igual que P(N). ⎯Si P(M)≤P(N), entonces M puede ser o no, subevento de N. Ejemplo 7 (sobre cálculo de probabilidades): Considerando el equipo de estudio descrito en el ejemplo 2, calcule la probabilidad de los siguientes sucesos: 1) A: que el alumno que se seleccione esté evaluado de bien en Matemática. 2) B: que el alumno que se seleccione esté evaluado de bien en Física. 3) C: que el alumno que se seleccione esté evaluado de bien en Química. 110 4) D: que el alumno que se seleccione esté evaluado de regular en Física. 5) E: que el alumno que se seleccione esté evaluado de mal en Física. 6) Ac: que el alumno que se seleccione no esté evaluado de bien en Matemática. 7) Bc: que el alumno que se seleccione no esté evaluado de bien en Física. 8) Cc: que el alumno que se seleccione no esté evaluado de bien en Química. 9) Dc: que el alumno que se seleccione no esté evaluado de regular en Física. 10) Ec: que el alumno que se seccione no esté evaluado de mal en Física. 11) A∩B: que el alumno que se seleccione esté evaluado de bien en Matemática y en Física. 12) A∩C: que el alumno que se seleccione esté evaluado de bien en Matemática y en Química. 13) A∩E: que el alumno que se seleccione esté evaluado de bien en Matemática y de mal en Física. 14) A∩D: que el alumno que se seleccione esté evaluado de bien en Matemática y de regular en Física. 15) A∩Bc: que el alumno que se seleccione esté evaluado de bien en Matemática y no lo esté en Física. 16) Ac∩B: que el alumno que se seleccione no esté evaluado de bien en Matemática, pero sí lo esté en Física. 17) (A∩B)c: que el alumno que se seleccione no esté evaluado de bien en Matemática y Física, o lo que es lo mismo, que no esté evaluado de bien en ambas asignaturas. 18) A∪B: que el alumno que se seleccione esté evaluado de bien en Matemática o en Física. (Aquí sería lo mismo decir que esté evaluado de bien en al menos una de estas asignaturas). 19) A∪C: que el alumno que se seleccione esté evaluado de bien en Matemática o en Química. 20) A∪D: que el alumno que se seleccione esté evaluado de bien en Matemática o de regular en Física. 21) A∪E: que el alumno que se seleccione esté evaluado de bien en Matemática o de mal en Física. 22) B∪E: que el alumno que se seleccione esté evaluado de bien o de regular en Física. 23) (A∪B)c: que el alumno que se seleccione no esté evaluado de bien en al menos una de estas asignaturas, esto es lo mismo que decir que no esté evaluado de bien ni en Matemática ni en Física. 24) Ac∩Bc: que el alumno que se seleccione no esté evaluado de bien ni en Matemática ni en Física. 25) Ac∪Bc: que el alumno que se seleccione no esté evaluado de bien en Matemática o no esté evaluado de bien en Física. Solución: De los ejemplos anteriores tenemos que: Según el ejemplo 2: N(S)=5. 111 Según el ejemplo 3: N(A)=2, N(B)=3, N(C)=N(S)=5, N(D)=N(φ)=0 y N(E)=2. Según el ejemplo 4: N(Ac)=3, N(Bc)=2, N(Cc)=0, N(Dc)=5 y N(Ec)=3 Según el ejemplo 5: N(A∩B)= 2, N(A∩C)= 2, N(A∩E)=0, N(A∩D)=0, N(Ac∩B)=1, N(A∩Bc)=0, N(Ac∩Bc)=2, N(A∩B)c=3. Según el ejemplo 6: N(A U B)= 3, N(A U C)= 5, N(A U D)= 2, N(A∪E)c=4, N(B∪E)=5, N(A∪B)=2, N(Ac∪Bc)=3. ⎯Los incisos del 1 al 5, se resuelven aplicando directamente la definición 16 (definición clásica de probabilidad), y los resultados de los ejemplos 2 y 3: P(M ) = N (M ) N (S ) 1) P ( A) = N ( A) 2 = = 0,4 N (S ) 5 2) P ( B ) = N ( B) 3 = = 0,6 N (S ) 5 3) P(C)=1, (C = S); 4) P(D)=0, (D=φ); 5) P(E)=0,4, (Como P(A)=P(E), los sucesos A y E son "equiprobables") ⎯Los incisos del 6 al 10 se resuelven aplicando directamente la definición 16 y los resultados del ejemplo 4, o la propiedad 3 de la probabilidad y los resultados de los incisos del 1 al 5, de este ejemplo: 6) P(Ac)=.6, (Aplicando la definición). Otra vía: P(Ac)= 1-P(A)=1 -0,4=0,6, (Aplicando la propiedad 3 de la probabilidad y el resultado del inciso 1). Observación: En realidad, esta última vía de solución es la que tiene mayor aplicación práctica; debido a ello, es que la emplearemos en los siguientes incisos: dejaremos de tarea los incisos 8, 9 y 10. 7) P(Bc)=1-P(B)=1-0,6=0,4, (Usando el resultado del inciso 2). ⎯Los incisos del 11 al 14 se resuelven, aplicando directamente la fórmula dada en la observación correspondiente a la definición 16 y los resultados del ejemplo 5: el inciso 14 queda de tarea. 11) P(A∩B)=0,4, (Observe que P(A∩B)≠P(A)P(B), es decir 0,4≠(0,4)(0,6)). 12) P(A∩C)=0,4, (Observe que P(A∩C)=P(A)P(C), es decir 0,4=(0,4)(1)). 13) P(A∩E)=0 (Recuerde que A∩E=φ) ⎯Los incisos 15 y 16 se resuelven, aplicando directamente la fórmula dada en la observación correspondiente a la definición 16 y los resultados del ejemplo 5, o aplicando la propiedad 4 de la probabilidad y los resultados de los incisos 1 ó 2 y 11, de este ejemplo. Mientras que, en el ejemplo 17 podemos aplicar la observación de la definición 16 y uno de los resultados del ejemplo 5, o la propiedad 3 de la probabilidad y el resultado del anterior inciso 11. 15) P(A∩Bc)=0. (Aquí usamos la observación de 16 y el resultado del ejemplo 5). Otra vía: P(A∩Bc)=P(A)-P(A∩B)=0,4-0,4=0. (Aquí usamos la propiedad 4 y los resultados de 112 los anteriores incisos 1 y 11: en realidad, lo que más frecuente se hace en la práctica es aplicar esta propiedad; es por eso que, el próximo inciso solo lo haremos por esta vía). 16) P(A∩Bc)=P(B)-P(A∩B)=0,6-0,4=0,2. (Aquí usamos los resultados de los anteriores incisos 2 y 11). 17) P(A∩B)c=1-P(A∩B)=1-0,4=0,6. (Aquí usamos la propiedad 3 y el resultado del anterior inciso 11). ⎯Los incisos del 18 al 22 se resuelven, aplicando directamente la fórmula dada en la observación correspondiente a la definición 16 y los resultados del ejemplo 6, o aplicando la propiedad 5 de la probabilidad y los resultados de los anteriores incisos del 11 al 14: los incisos 19, 20 y 22 quedan de tarea. 18) P(A∪B)=0, 6 (Aquí usamos la observación 5 definición 16 y el resultado del ejemplo 6). Otra vía: P(A∪B)=P(A)+P(B)-P(AB)=.4+.6-.4=.6 (Aquí usamos la propiedad 5 de la probabilidad y los resultados de los anteriores incisos 1, 2 y 11). 21) P(A∪E)=P(A)-P(E)+P(A∩E)=0,4+0,4-0=0,8 (Aquí se da el hecho de que A∩E=φ, luego P(A∪E)=P(A)+P(E)). ⎯Los incisos 23, 24 y 25 se resuelven, aplicando directamente la fórmula dada en la observación correspondiente a la definición 16 y los resultados de los ejemplos 6, 5 y 6 respectivamente; o aplicando las propiedades 3, 6 y 5 de la probabilidad, respectivamente, y los resultados de los anteriores incisos 18, 6, 7 y 24. (Usaremos las propiedades en nuestra solución). 23) P(A∪B)c=1-P(A∪B)=1-0,6=0,4. (Aplicando la propiedad 3 y el resultado del anterior inciso 18). 24) P(Ac∩Bc)=1-P(A∪B)=1-0,6=0,4. (Aplicando la propiedad 6 y el resultado del anterior inciso 18). Observación: A causa de que (A∪B)c=Ac∩Bc, los resultados de los anteriores incisos 23 y 24 son iguales, es decir, se ha resuelto el mismo problema por dos vías diferentes. 25) P(Ac∪Bc)= P(Ac)+P(Bc)+P(Ac∩Bc)=0,6+0,4-0,4=0,6. (Aplicando la propiedad 5 y los resultados de los anteriores incisos 6, 7 y 24). Observación: A causa de que Ac∪Bc=(A∩B)c, los resultados de los anteriores incisos 25 y 17 son iguales, es decir, se ha resuelto el mismo problema por dos vías diferentes. 5.- La definición estadística de probabilidades. Propiedades Como se ha visto, para calcular la probabilidad de un suceso aplicando la definición clásica de probabilidades, no es necesario tener que realizar el experimento, es decir, es un modo "a priori" de calcular la probabilidad; sin embargo, esta definición tiene las desventajas de que para poderla aplicar el espacio muestral tiene que ser, en primer lugar, finito; y en segundo lugar, equiprobable. Otra definición de probabilidad que es usada en la práctica es la "definición estadística", pero su aplicación requiere que se haya realizado el experimento. Definición 17 (Definición estadística de probabilidad): Sea N la cantidad de veces que se realiza (o que se repite) un experimento, y sea M —llamado frecuencia absoluta—, la cantidad de veces que se observa un suceso A en las M realizaciones de este experimento. 113 Al número M N se le llama frecuencia relativa de ocurrencia del suceso A. En símbolos: f r ( A) = M N La frecuencia relativa de un suceso representa la probabilidad que tiene ese suceso de ocurrir solo si N es un número suficientemente grande. Observación: La frecuencia relativa de un suceso cumple las mismas propiedades que la probabilidad. Ejemplo 8: De una escuela que tiene 800 alumnos se seleccionaron 600, de modo aleatorio, y se observó que 560 de ellos son de bajos rendimientos docentes en las "ciencias". ¿Cuál es la frecuencia relativa de alumnos de esta escuela que tienen problemas en las "ciencias"? Solución: N= 600, M= 560 (frecuencia absoluta). 560 = 0,9333 . En este caso como N es grande, (N=600) la frecuencia relativa se 600 considera la probabilidad que tiene el suceso de ocurrir. f r ( A) = 6.4. Definición de probabilidad condicional. Regla del independientes. Reglas de la Probabilidad Total Y de Bayes. producto. Sucesos 1.- La definición de probabilidad condicional Retomemos el ejemplo del equipo de estudio que venimos tratando: Ejemplo 9: De un equipo de estudio integrado por 5 alumnos se sabe que 2 están evaluados de bien en Matemática, 3 lo están en Física y 2 lo están en ambas asignaturas. Si selecciona al azar un alumno de ese equipo de estudio, cuál es la probabilidad de que: a) esté evaluado de bien en Matemática, si se sabe que lo está en Física. b) esté evaluado de bien en Física, si se sabe que lo está en Matemática. c) esté evaluado de bien en Matemática, si se sabe que no lo está en Física. d) no esté evaluado de bien en Matemática, si se sabe que no lo está en Física. Solución: En el ejemplo 3 describimos los sucesos: A: que el alumno que se seleccione esté evaluado de bien en Matemática. B: que el alumno que se seleccione esté evaluado de bien en Física. Además: P(A)=0,4, P(B)=0,6, P(A∩B)=0,4, P(Ac)=0,6, P(Bc)=0,4, P(A∩Bc)=0 y P(Ac∩Bc)=0,4. (Todos estos resultados se obtuvieron en el ejemplo 7) Fijémonos que en el inciso a, se desea calcular la probabilidad de que ocurra el suceso A, bajo la condición de que ya ha ocurrido el suceso B, para ello tenemos la siguiente definición: Definición 18 (Definición de probabilidad condicional): Sean M y N dos sucesos de un espacio muestral S. La probabilidad condicional de que ocurra el suceso M, si ha ocurrido el suceso N, se denota por P(M/N) y si P(N)≠0, entonces: 114 N (M ∩ N ) N (N ) P(M / N ) = Observación: La probabilidad condicional cumple las mismas propiedades que la probabilidad clásica, además: P( N / M ) = P( M ∩ N ) , si P(M)≠0. P( M ) Aplicando esta definición, podremos resolver este ejemplo: a) P ( A / B ) = P ( A ∩ B ) 0,4 = = 0,6667 P( B) 0,6 P( A ∩ B) 0,4 = =1 P ( A) 0,4 b) P ( B / A) = Observación: P(A/B)≠P(B/A) por lo general. c) P ( A / B C ) = P( A ∩ B C ) 0 = =0 C 0,4 P( B ) d) P ( A C / B C ) = P ( A C ∩ B C ) 0,4 = =1 0,4 P( B C ) 2.- Regla del producto Si en la fórmula de la probabilidad condicional despejamos P(M∩N), tenemos que: P(M∩N)=P(M/N)P(N)=P(N/M)P(M), expresión que se conoce como "regla del producto de la probabilidad". Ejemplo 10: La probabilidad de que un alumno de una escuela sea de primer año es de 0,7 y la probabilidad de que participe en las actividades extraescolares, si es de primer año es de 0,4. Además se conoce que la probabilidad de que un estudiante de la escuela participe en estas actividades es de 0,5. Cuál es la probabilidad de que un alumno seleccionado al azar de esa escuela: a) no sea de primer año. b) sea de primer año y no participe en las actividades extraescolares. c) sea de primer año o participe en las actividades extraescolares. Solución: Primeramente debemos denotar y describir los sucesos. Resolveremos el inciso b y dejaremos de tarea los otros dos. A: que el alumno que se seleccione sea de primer año. B: que el alumno que se seleccione participe en las actividades extraescolares. P(A)=0,7, P(B/A)=0,4, P(B)=0,5 b) P(A∩Bc)=P(A)-P(A∩B)=0,7-?, P(A∩Bc)=0,7-0,28=0,42. pero P(A∩B)=P(B/A)P(A)=(0,4)(0,7), luego: 6.5. Sucesos independientes. En ocasiones se cumple que la probabilidad de que ocurra un suceso no está "afectada" por la ocurrencia de otro suceso, en tal caso se tiene la siguiente definición: Definición 19 (de sucesos independientes): Sean M y N dos sucesos de un mismo espacio muestral S. Los eventos M y N son independientes si y solo si P(M/N)=P(M), o bien 115 P(N/M)=P(N). (Si la igualdad no se cumple se dice que los sucesos son dependientes o no independientes). Observaciones: —Si los sucesos son de dos espacios muestrales diferentes, entonces siempre cumplirán la igualdad anterior, es decir, siempre son independientes. —Si los sucesos M y N son independientes, la regla del producto se expresa como P(M∩N)=P(M)P(N). —Si los sucesos M y N son independientes, también lo son M y Nc, Mc y N, y, Nc y Mc, y se cumple que: P(M∩Nc)= P(M)P(Nc), P(Mc∩N)=P(Mc)P(N) y P(Mc∩Nc)=P(Mc)P(Nc). —Si M≠φ y N≠φ, se cumple que: 1) si M∩N=φ, entonces M y N son dependientes. 2) si M y N son independientes, entonces M∩N≠φ. 3) si M∩N≠φ, entonces M y N pueden ser independientes o no. 4) si M y N son dependientes, entonces M y N pueden ser mutuamente excluyentes o no. Ejemplo 11: La probabilidad de que un estudiante del grupo A participe en un trabajo productivo es de .5, mientras que la probabilidad de que lo haga uno del grupo B es de .6. Si se selecciona aleatoriamente un alumno de cada grupo, cuál es la probabilidad de que: a) el del grupo B no participe en el trabajo. b) ambos participen en el trabajo productivo. c) el del grupo A participe y el del grupo B no. d) el del grupo A participe, si el del grupo B lo hace también. e) al menos uno de los alumnos participe en el trabajo. f) ni el del grupo A ni el del grupo B participen. Solución: Lo primero es denotar y describir los sucesos: A: que el alumno del grupo A participe en el trabajo productivo. B: que el alumno del grupo B participe en el trabajo productivo. P(A)=.5, P(B)=.6 Observación: como los sucesos A y B son de dos espacios muestrales diferentes, son independientes. a) P(Bc)=1-P(B)=1-0,6=0,4. b) P(A∩B)=P(A)P(B)=(0,5)(0,6)=0,30. (Efectivamente P(A∩B)≠0, ya que A y B son independientes) c) P(A∩Bc)=P(A)P(Bc)=(0,5)(0,4)=0,20. (Aquí se hubiese podido aplicar la propiedad: P(A∩Bc)=P(A)-P(A∩B)). d) P(A/B)=P(A)=0,5. (Por ser A y B independientes: el mismo resultado se obtiene si se usa la definición de probabilidad condicional). Los dos últimos incisos quedan de tarea. 116 3.- Reglas de la probabilidad Total y de Bayes Analicemos el siguiente ejemplo: Ejemplo 12: El primer año de la carrera de Matemática-Computación tiene una matrícula de 40 alumnos, distribuidos en dos grupos (A y B) en cantidades iguales. En el grupo A hay 12 militantes de la UJC y en el grupo B hay 18. Se selecciona al azar un alumno de primer año de dicha carrera, cuál es la probabilidad de que: sea del grupo A. sea del grupo B. sea militante de la UJC, si es del grupo A. sea militante de la UJC, si es del grupo B. sea militante de la UJC. sea del grupo A, si se sabe que es militante de la UJC. Sea del grupo B, si se sabe que no es militante de la UJC. Solución: Lo primero es denotar y describir los sucesos: A: que el estudiante seleccionado sea militante de la UJC. B1: que el estudiante seleccionado sea del grupo A. B2: que el estudiante seleccionado sea del grupo B. Datos: N(S)=40, N(B1)=20, N(B2)=20 Observe que B1∪B2=S (son sucesos exhaustivos) y B1∩B2=φ (son mutuamente excluyentes) Aplicando la definición clásica de probabilidades: P(B1)=20/40=1/2=0,50. Aplicando la definición clásica de probabilidades: P(B2)=20/40=1/2=0,50. Se desea calcular la probabilidad del suceso A, con la condición de que B1 ha ocurrido: P(A/B1)=12/20=0,60. P(A/B2)=18/20=0,90. e) En este caso se desea calcular la probabilidad del suceso A, que está relacionado con los eventos B1 y B2. A= A•B1∪A•B2 P(A)=P(A•B1∪A•B2) P(A)=P(A•B1)+P(A•B2) aplicando la regla de la multiplicación P(A)=P(A/B1)P(B1)+P(A/B2)P(B2) (Regla de la probabilidad Total para dos sucesos) =(12/20)(1/2)+(18/20)(1/2) =0,30+0,45 =0,75 —Generalización de la regla de la probabilidad Total: sean A y B1, B2,..., BN sucesos de un espacio muestral S, con las condiciones de que los eventos Bi (i=1, 2,..., N) sean 117 mutuamente excluyentes dos a dos y exhaustivos. La probabilidad de que ocurra el suceso A está dada por: N P(A)=P(A/B1)P(B1)+P(A/B2)P(B2)+...+P(A/BN)P(BN)= P ( A) = ∑ P ( A / Bi ) P ( Bi ) (Regla de la i =1 probabilidad Total). f) En este caso, se trata de una probabilidad condicional P(B1/A) Aplicando la definición de P( B1 • A) probabilidad condicional: P( B1 / A) = , por la regla del producto, se llega a: P( A) P( A / B1 ) P( B1 ) , las probabilidades del numerador y el denominador ya fueron P ( B1 / A) = P ( A) calculadas en el inciso anterior. (esta fórmula se conoce con el nombre de Regla de Bayes para dos sucesos). Sustituyendo en esta fórmula, se obtienen el resultado pedido: P ( B1 / A) = 0,30 = 0,40 . 0,75 (El inciso g queda de tarea). —Generalización de la regla de Bayes: considerando las mismas condiciones dadas en la generalización de la regla de la probabilidad Total, se tiene que: P ( A / Bi ) P ( Bi ) P( A / Bi ) P( Bi ) P ( Bi / A) = = N P ( A) ∑ P( A / Bi ) P( Bi ) i =1 EJERCICIOS PARA COMPROBAR TUS CONOCIMIENTOS 1. ¿Cuál es la probabilidad de obtener un número par al lanzar un dado? 2. ¿Cuál es la probabilidad de obtener al menos un 4 al tirar dos veces un dado? 3. En una escuela el 60% de los alumnos están acreditados. ¿Cuál es la probabilidad : a) de que un alumno seleccionado al azar esté acreditado? b) de que en un grupo de 4 alumnos seleccionados al azar, los 4 estén acreditados? c) de que al menos 1 alumno en un grupo de 4 esté reprobado? 4. Se desea escoger una escuela para una prueba. En la tabla siguiente se clasifican según la región y el tipo de escuela. Ubicación Urbana Rural Total Norte 25 50 75 Sur 20 30 50 Total 45 80 125 ¿Cuál es la probabilidad de escoger una escuela: a) al Norte b) al Sur c) Rural al Norte d) Urbana al Sur? e) ¿Son independientes la ubicación y el tipo? 118 5. La siguiente tabla es una clasificación de los empleados de una Universidad, según la ocupación y la edad: Ocupación Administración Docente Personal de apoyo 20 - 30 2 1 16 31 - 40 24 40 20 41 - 50 16 36 14 51 ó + 17 28 2 ¿Cuál es la probabilidad de que un empleado elegido al azar: a) esté en la administración o tenga más de 51 años b) no sea miembro del cuerpo docente c) sea miembro del cuerpo docente si tiene más de 41 años? d) ¿Son independientes los criterios? 6. Calcula la probabilidad de obtener dos caras tras cinco lanzamientos de una moneda no trucada. ¿Coincide con la probabilidad de obtener 20 caras tras 50 lanzamientos de la misma moneda? 7. Se extrae una bola de un bombo que cuenta con 999 bolas iguales numeradas del 1 al 999. Calcular la probabilidad de que la bola extraída sea la no1. Supongamos que tras cada extracción se repone la bola extraída. Calcula entonces la probabilidad de que, tras diez extracciones, las bolas seleccionadas sean las números 1, 2, 3, 4, 5, 6, 7, 8, 9 y 10 (en este mismo orden). 8. Se lanzan dos veces un par de dados. ¿Cuál es la probabilidad de obtener totales de 7 y 11? 9. Una urna contiene 8 bolas rojas, 5 amarillas y 7 verdes. Se extrae una bola al azar. Determina la probabilidad de que: a) Sea roja, b) Sea amarilla, c) Sea verde, d) No sea roja, e) Sea roja o verde, f) No sea verde, g) Sea roja, verde o amarilla. 10. Se lanzan tres monedas al aire. Calcula la probabilidad de que: a) haya al menos una cara, b) hayan al menos dos caras, c) hayan caras o cruces. 11. Sean A y B dos sucesos aleatorios de un espacio muestral, tal que p(A) = 3/8, p(B) = 1/2 y p(A B) = 1/4. Se pide: a) p(A B), b) p(A), c) p(B). 12. Halla la probabilidad de que la suma de los puntos de las caras visibles de un dado que se lanza al azar sea múltiplo de 5. 13. Halla la probabilidad de que al extraer dos cartas de una baraja de 40 cartas sean dos ases. 14. En una bolsa hay 50 bolas numeradas del 1 al 50. a) ¿Cuál es la probabilidad de sacar una bola cuyo número sea múltiplo de 2? b) ¿Y múltiplo de 5? 119 15. Se tiene una urna compuesta por 20 bolas rojas y 15 blancas. Se extraen con reemplazamiento dos bolas al azar. a) Halla la probabilidad de que ambas sean rojas. b) Halla la probabilidad de que una sea roja y la otra blanca. 16. Ídem que en el problema anterior, pero suponiendo que las extracciones son sin reemplazamiento. 17. De una baraja española de 40 cartas se extraen simultáneamente 2 cartas. Halla la probabilidad de: a) Que sean ambos oros. b) Que ninguna sea copas. 18. La probabilidad de que un hombre viva dentro de 30 años es de 1/5 y la probabilidad de que su mujer viva transcurridos 30 años es 3/7. Pasados 30 años hallar: a) Probabilidad de que vivan ambos b) Probabilidad de que sólo viva la mujer c) Probabilidad de que sólo viva el hombre d) Probabilidad de que no viva ninguno de los dos. 19. El 60% de los habitantes de una ciudad lee el periódico A; el 45%, el B y el 20% ambos. ¿Qué % no lee ninguno? 20. Según el Servicio Meteorológico, en Valdemorillo hay una probabilidad 0,4 de que haga frío; 0,6 de que llueva o haga frío y 0,1 de que llueva y haga frío. ¿Cuál es la probabilidad de que me moje si salgo a la calle sin paraguas? 21. Halla la probabilidad de que al lanzar tres dados se obtenga una suma inferior a 17. 22. En una clase hay 10 alumnas rubias, 20 morenas, 5 alumnos rubios y 10 morenos. Un día sólo asisten 44. Calcúlese la probabilidad de que la persona que falte sea: a) hombre, b) mujer, c) hombre rubio, d) mujer morena, e) hombre moreno o mujer rubia, f) hombre rubio o mujer morena, g) hombre o mujer, h) persona pelirroja. 23. Tiramos un dado y extraemos una carta de la baraja. ¿Cuál es la probabilidad de que salga número par en el dado y una carta de bastos? 120 Bibliografías de las cuales fueron tomados los contenidos de los diferentes capítulos para la realización de esta compilación. 1. Cruz, M. y Campano, A. E. (2007). El procesamiento de la información en las investigaciones educacionales. La Habana: Edición Cubana. Cuba. (para la elaboración del epígrafe 4.2 del capítulo 4). 2. González A. y Fuentes, A. (2001). Lecciones de Probabilidades y Estadística. Instituto Superior Pedagógico “José de la Luz y Caballero. Holguín. Cuba. (para la elaboración de los capítulos 5 y 6). 3. Lima, S. (2006). Folleto de Estadística. Instituto Central de Ciencias Pedagógicas. La Habana. Cuba. (para la elaboración de los capítulos 1, 2 y 3 y del epígrafe 4.1 del capítulo 4). 4. Marco, R. y Ortiz, S. (2007). Colección de problemas de Estadística Descriptiva. Universidad Autónoma de Madrid. España. Compiladores: - Juan Enrique García La Rosa, Doctor en Ciencias Pedagógicas, Profesor de Matemática y Profesor Auxiliar de la Universidad Pedagógica “Frank País García” de Santiago de Cuba, Cuba. Jesús Barreto Molina, Doctor en Ciencias Matemáticas, Profesor de Matemática y Profesor Auxiliar de la Universidad Pedagógica “Félix Varela” de Villa Clara, Cuba. José Manuel González Abreu, Doctor en Ciencias Pedagógicas, Profesor de Matemática y Profesor Titular de la Universidad “Hermanos Saiz Montes de Oca” de Pinar del Río, Cuba. 121