Octava Edición ESTAD IS TI CA ELEMENTAL John E. Freund Arizona State University Gary A. Simon New York University TRADUCCION JOSE JULIAN DIAZ DIAZ Traductor REVISION TECNICA MARCIAL GIL RICO RICO Ingeniero Civil -------PEARSON Educación ' ® México • Argentina • Brasil • Colombia • Costa ~ca • Chile • Ecuador España • Guatemala • Panamá • Perú • Puerto Ricp • Uq1guay :ven'ézuela . . 040230 COLEF BIBLIOTECA INTRODUCCION 1.1 El crecimiento de la estadística moderna 2 1.2 El estudio de la estadística 3 1.3 Estadística descriptiva e inferencia estadística 5 1.4 La naturaleza de los datos estadísticos 1.5 Revisión de términos clave 10 1.6 Ejercicios de revisión 10 1.7 Referencias 11 * 7 La recopilación, el proceso, la interpretación y la presentación de los datos numéricos pertenece al dominio de la estadística. Estas tareas comprenden el cálculo de los promedios de bateo de beisbol, la recopilación de datos sobre nacimientos y muertes, la evaluación de la efectividad de productos comerciales y el pronóstico del tiempo. La información estadística se nos presenta constantemente en la radio y la televisión. Nuestro entusiasmo por los hechos estadísticos se ve alentado por diarios nacionales, tales como The Wall Street Journal y USA Today. La palabra "estadística" se usa de varias maneras. Se puede referir no sólo a la simpie tabulación de información numérica, corr.o en los informes de las transacciones bursátiles, sino también al conjunto de técnicas que se utilizan en el procesamiento o el análisis de datos. También el término "estadista" se usa de varias maneras. El término se puede aplicar a quienes simplemente recopilan información, así como a aquellos que elaboran análisis o interpretaciones y también a los académicos que desarrollan la teoría matemática sobre la cual se basa la estadística. En las secciones 1.1 y 1.2 estudiamos el crecimiento reciente de la estadística y su campo de aplicaciones siempre creciente. En la sección 1.3 explicamos la diferencia entre las dos ramas principales de la estadística, la estadística descriptiva y la inferencia estadística y en la sección 1A, que es opcional, analizamos la naturaleza de las diversas clases de datos y en relación con esto, advertimos al lector acerca del uso del tratamiento matemático indiscriminado de los datos estadísticos. 1.1 EL CRECIMIENTO DE LA ESTADISTICA MODERNA Hay varias razones por las que el alcance de la estadística y la necesidad de estudiar la estadística han crecido de manera considerable en los últimos quince años o a1go así. Una razón es el planteamiento cuantitativo que se usa en forma creciente en todas las ciencias, así como en los negocios y muchas otras actividades que afectan m.:1estras vidas de modo directo. Esto incluye el uso de técnicas matemáticas en la evaluación de sistemas de con_trol de emisión de contaminantes, la planificación de las existencias, el análisis de los patrones del tránsito, el estudio de los efectos de varias clases de medicamentos, la evaluación de técnicas de enseñanza, el análisis del comportamiento competitivo de empresarios y gobiernos, el estudio de la dieta y la longevidad y demás actividades pertinentes. La disponibilidad de computadoras poderosas ha incrementado en gran medida nuestra capacidad para manejar información numérica. El costo de muchas computadoras también es accesible, de modo que pequeñas empresas, estudiantes universitarios y aun bachilleres pueden efectuar un trabajo estadístico sofisticado. La otra razón es que la cantidad de datos que se recopila, procesa y difunde al público por a~gún motivo se ha incrementado casi más allá de la comprensión y cada quien debe determinar la parte "buena" y la parte"'mala" de l<} estadística. Para actuar como vigilantes, se requiere que cada vez más personas con cierto conocimiento-estadístico participen en forma activa en la recopilación y el at¡áJisis de los datos y, lo que es de igual importancia, en toda la planificación preliminar. Sin haber participado en esta última actividad, es aterrador pensar en todos los aspectos que pueden presentar problemas en la recopilación de datos estadísticos. Los resultados de costosas encuestas pue- 2 CAP. 1 / INTRODUCCION den ser inútiles si las preguntas son ambiguas o se formulan erróneamente, si se formulan a las personas equivocadas, en el lugar o el momento equivocado. Como lo ilustran los ejemplos siguientes, gran parte de esto consiste tan sólo en el sentido común: EJEMPLO Para determinar la opinión del público acerca de la continuación de cierto programa gubernamental, un entrevistador pregunta: "¿Piensa que este programa derrochador se debería detener?" Explique por qué esta pregunta quizá no obtendrá la información deseada. Solución De hecho, el entrevistador está "rogando por la pregunta" a sugerir que el programa incurre en el dispendio. EJEMPLO Para estudiar la reacción de los consumidores en relación con un nuevo producto ali' sin menticio, se realiza una encuesta casa por casa todos los días durante las mañanas, repetir la visita en caso que nadie se encuentre en casa. Explique por qué esto puede generar información equivocada. Solución Esta encuesta no llegará a aquellas personas que es más probable usen el producto: solteros y parejas de casados en las que ambos trabajan. Si bien gran parte del crecimiento de la estadística al que se hizo mención comenzó antes de la "revolución de las computadoras", la amplia disponibilidad y el uso de la computadora han acelerado el proceso en gran medida. En particular, las computadoras nos permiten manejar, analizar y clasificar grandes cant.idades de datos, así como realizar cálculos que en el pasado parecían demasiado complicados inclusive para observarlos. El objetivo de este libro será que usted comprenda las ideas de la e,stadística. Para ésta, el acceso a la computadora no es crucial. A veces, en el texto se ilustran los usos de la computadora, pero casi todos los ejercicios pueden realizarse sólo con una calculadora de cuatro funciones. 1.2 EL ESTUDIO DE LA ESTADISTICA La materia de la estadística puede presentarse en diferentes niveles de dificultad matemática y puede estar dirigida hacia aplicaciones en distintos campos de la investigación. De acuerdo con esto, se han escrito muchos libros de texto sobre estadística empresarial, estadística educativa, estadística médica, estadística psicológica, ... , e inclusive sobre estadísticá para historiadores. Si bien los problemas que surgen en estas distintas disciplinas en ocasiones requerirán de técnicas estadísticas especiales, ninguno de los métodos básicos que se analizan en este libro está limitado a un campo de aplicación en particular. De la misma forma en que 2 + 2 = 4 sin importar si lo que sumamos son dólares, caballos o árboles, los métodos que presentaremos proporcionan modelos estadísticos que se aplican sin importar si los datos son coeficientes intelectuales, pagos de impuestos, tiempos de reacción, lecturas de la humedad, evaluación de pruebas, SEC. 1.2 I EL ESTUDIO DE LA ESTADISTICA 3 etcétera. Para ilustrar mejor esto, considere el ejercicio 13.96 de la página 379, que elaboró el autor. 13.96 En una muestra aleatoria de 200 personas jubiladas, 137 afirmaron que prefieren vivir en un departamento que vivir en una casa unifamiliar. En el nivel 0.05 de significancia, ¿esto refuta la aseveración de que el 60% de todas las personas jubiladas prefieren vivir en un departamento que en una casa unifamiliar? \ La pregunta que se plantea aquí debería ser clara y también debería serlo que la respuesta sería interesante sobre todo para los científicos sociales o para personas de la industria de la construcción. Sin embargo, si quisiéramos satisfacer los intereses de estudiantes de biología, ingeniería, educáción o ecología, tendríamos que replantear el ejercicio como sigue: 13.96 En una muestra aleatoria de 200 árboles de cítricos expuestos a una temperatura de - 6.66º, 137 mostraron daños en sus frutos. En el nivel 0.05 de significancia, ¿esto refuta la aseveración de que el 60% de todos los árboles de cítricos expuestos a una temperatura de - 6.66º presentarán algún daño en sus frutos? 13.96 En una muestra aleatoria de 200 transistores producidos por un fabricante determinado, 137 pasaron una prueba de rendimiento acelerado. En el nivel 0.05 de significancia, ¿esto refuta la aseveración de que el 60% de todos los transistores producidos por ese fabricante pasará la prueba? 13.96 En una muestra aleatoria de 200 estudiantes de bachillerato de una ciudad grande, 137 dijeron que asistirían a la universidad. En el nivel 0.05 de significancia, ¿esto refuta la aseveración de que el 60% de todos los estudiantes de bachillerato de esta ciudad asistirá a la universidad? 13.96 En una muestra aleatoria de 200 automóviles sometidos a verificación de emisión de contaminantes, 137 no cumplieron las normas legales del estado. En el nivel 0.05 de significancia, ¿esto refuta la aseveración de que el 60% de todos los automóviles verificados en este estado no cumplirá con las normas legales de emisión? Hasta donde el trabajo de este libro comprende, el tratamiento estadístico de todas estas versiones del ejercicio 13.96 es el mismo y con algo de imaginación el lector podrá replantearlo para casi cualquier campo de especialización. Como algunos autores lo hacen, podríamos presentar y designar problemas especiales para los lectores con intereses específicos, pero esto opacaría nuestro objetivo de señalar al lector la importancia de la estadística en todas las ciencias, los negocios y la vida diaria. Para lograr este objetivo, hemos incluido en este texto ejercicios que cubren una amplia gama de intereses. Para evitar la posibilidad de confundir a alguien con nuestras diferentes versiones del ejercicio 13.96, debemos aclarar que no es posible plantear todos los problemas de estadística siguiendo el mismo patrón. A pesar que los métodos que estudiaremos en este libro tienen una aplicación amplia, siempre es importante asegurarse que el modelo estadístico utilizado sea el correcto. 4 CAP. 1 / INTRODUCCJON EJERCICIOS 1.1 Replantee el ejercicio 13.96 al que se hace referencia en la página 4 de modo que sea de interés para (a) un vendedor de cosméticos; (b) un músico; (c) un ingeniero de tráfico. 1.2 Una "mala" estadística puede resultar del plantearniento de preguntas en forma incorrecta o a las personas equivocadas. Explique-por qué las siguientes situaciones pueden · generar información inútil: (a) Para determinar el sentirniento del público en cuanto a una restricción de comercio exterior específica, un entrevistador pregunta a los electores: "¿Usted cree que esta práctica injusta debería detenerse?" (b) Con el objeto de pronosticar una elección municipal, un encuestador de opinión pública telefonea a personas seleccionadas al azar en el directorio telefónico de la ciudad. 1.3 Una "mala" estadística puede resuttar del plantearniento de preguntas en el lugar o momento incorrectos. Explique por qué las siguientes situaciones pueden generar información inútil: (a) Para pronosticar una elección, un encuestador entrevista a las personas que salen de un edificio en el que se encuentra la sede nacional de un partido político. (b) Para estudiar los patrones de gasto de las familias de un grupo de ingresos determinados, se realiza ·una encuesta durante las primeras tres semanas de diciembre. 1.4 Explique por qué cada uno de los siguientes estudios quizá no genere la información deseada: (a) Para deterrninar la proporción de latas de café mal selladas, un inspector de control de calidad analiza cada quincuagésima lata que sale de la línea de producción. (b) Para determinar el ingreso anual promedio de sus egresados 10 años después de la graduación, en 1990 la oficina de alumnos de una universidad envió cuestionarios a todos los miembros de Ja generación de 1980 y la estimación se basó en Jos cuestionarios que regresaron. (c) Para averiguar Jos hechos acerca de los hábitos de limpieza dental, se preguntó a una muestra de Jos residentes de una comunidad cuántas veces al día se cepillaban los dientes. 1.3 ESTADISTICA DESCRIPTIVA E INFERENCIA ESTADISTICA El origen de la estadística moderna se puede rastrear en dos áreas de interés que, superficialmente, tienen muy poco en común: gobierno (ciencia política) y juegos de azar. -i::os gobiernos han hecho gran uso de .los censos para contar personas y propiedad, y el problema de describir, resumir y analizar los datos de los censos ha llevado al desarrollo de los métodos que hasta hace poco constituían casi todo el material disponible de la materia de estadística. Estos métodos, que en un principio consistían sobre todo en la presentación de datos en forma de tablas y gráficas, constituyen lo que ahora llamamos estadística descriptiva. Esta comprende cualquier actividad relacionada con los datos y está diseñada para resumir o describir los mismos sin factores pertinentes adicionales; esto es, siri intentar inferir nada que vaya más allá de los datos, como tales. Por ejemplo, si las pruebas practicadas en seis automóviles compactos, demostraran que pueden acelerar de Oa 100 k/h en 18.7, 19.2, 16.2, 12.3, 17.5 y 13.9 segundos y reportáramos que la mitad de éstos aceleró de O a 100 k/h en menos de 17.0 segundos, SEC 1.3 / ESTADISTICA DESCRIPTIVA E INFERENCIA ESTADISTICA 5 nuestro trabajo pertenecería al dominio de la estadística descriptiva. Este también sería el caso si sostuviéramos que estos seis automóviles promediaron 18.7 + 19.2 + 16.2 + 12.3 + 17.5 + 13.9 = 16 .3 segundos 6 pero no es así si concluimos que la mitad de todos los automóviles importados ese año podrían acelerar de O a 100 k/h en menos de 17.0 segundos. Aunque la estadística descriptiva es una rama importante de la estadística y continúa usándose en forma general, por lo regular se deriva de muestras (de observaciones hechas sólo acerca de una parte de un conjunto numeroso de elementos) y esto implica que su análisis requiere de generalizaciones que van más allá de los datos. Como consecuencia, la característica más importante del reciente crecimiento de la estadística ha sido un cambio en el énfasis de los métodos que describen a métodos que sirven para hacer generalizaciones; es decir, un cambio en el énfasis de la estadística descriptiva a los métodos de la inferencia estadística. Por ejemplo, se requiere que tales métodos pronostiquen el periodo de vida de una calculadora de bolsillo (sobre la base del comportamiento de varias calculadoras similares); para calcular el valor estimado para 1995 de todas las propiedades privadas de Orange County, California (sobre la base de las tendencias empresariales, las proyecciones de población y demás factores pertinentes); para comparar la efectividad de dos dietas para reducir de peso (sobre la base de las pérdidas de peso de personas que han estado a dieta); para determinar la dosis más efectiva de un nuevo medicamento (sobre la base de pruebas practicadas con pacientes voluntarios de hospitales seleccionados); o para pronosticar el flujo de tránsito de una vía rápida que aún no ha sido construida (sobre la base de conteos de tránsito hechos en el pasado en rutas alternativas). En cada una de las situaciones descritas en el párrafo anterior existen incertidumbres, porque sólo hay información parcial, incompleta o indirecta; por lo tanto, los métodos de inferencia estadística necesitan valorar los méritos de nuestros resultados, para seleccionar el pronóstico "más prometedor", o para seleccionar el curso de acción "más razonable" (el pronóstico "potencialmente más rentable"). En vista de las incertidumbres, manejamos problemas como éstos con métodos estadísticos que tienen su origen en los juegos de azar. Aunque el estudio matemático de los juegos de azar se remonta al siglo XVII, no fue sino hasta el inicio del siglo XIX que ta teoría desarrolló un criterio de "caras o cruces" por ejemplo, o de "rojo o negro" o "pares o nones", se aplicó también a situaciones de la vida real en que los resultados eran "niño o niña'', "vida o muerte", "éxito o fracaso" y demás. Así, la teoría de la probabilidad se aplicaba a muchos problemas de las ciencias del comportamiento, naturales y sociales y en la actualidad constituye un importante instrumento para el análisis de cualquier situación (en las ciencias, los negocios o la vida diaria) que en cierto modo implica un elemento de incertidumbre o de azar. En particular, proporciona la base para los métodos que usamos cuando generalizamos, a partir de datos observados, expresamente, cuando utilizamos los métodos de inferencia estadística. En años reciernes, se ha sugerido que el énfasis se ha distanciado mucho de la estadística descriptiva para aproximarse a la inferencia estadística y que se debería prestar una mayor atención al tratamiento de problemas que requieren sólo de técnicas descriptivas. Para cubrir estas necesidades, en fechas recientes se han desarrollado algunos métodos descriptivos nuevos con la nomenclatura de análisis exploratorio de datos. En las secciones 2.3 y 4.5 se presentarán dos de estos métodos. 6 CAP. 1 / INTRODUCCION 1.4 LA NATURALEZA DE LOS DATOS ESTADISTICos*t Los datos estadísticos son la materia prima de las investigaciones estadísticas -surgen siempre que se toman medidas o se registran observaciones. Pueden ser pesos de animales, medidas de características de la personalidad o intensidades de movimientos telúricos y pueden ser simples respuestas de "sí o no" de descripciones del estado civil de las personas como solteras, casadas, viudas o divorciadas. Dado que en la página 2 señalamos que la estadística maneja datos numéricos, esto requiere alguna explicación, porque las respuestas de "sí-o no" y las descripciones del estado civil difícilmente parecerían corresponder a la calificación de numérico. Observe, no obstante, que podemos registrar las respuestas de "sí o no" a una pregunta como Oy 1 (o como 1 y 2, o tal vez como 29 y 30 si nos referimos a la decimoquinta pregunta de "sí o no" de una prueba) y que podemos registrar el estado civil de una persona 1, 2, 3 o 4, dependiendo de que la persona sea soltera, casada, viuda o divorciada. De esta manera artificial o nominal, los datos categóricos (cualitativos o descriptivos) se pueden convertir en datos numéricos y si, en consecuencia, clasificamos las diversas categorías, nos referimos a los números que registramos como datos nominales. Los datos nominales son numéricos sólo por su nombre, porque no comparten ninguna de las propiedades de los números que manejamos con la aritmética común. Por ejemplo, si registramos estados civiles como 1, 2, 3 o 4, como hemos sugerido, no podemos expresar que 3 > 1 o que 2 < 4 y no podemos expresar que 2 - 1 = 4 - 3, que 1 + 3 = 4 o que 4 + 2 = 2, de ahí que siempre es importante verificar si los cálculos matemáticos efectuados en un análisis estadístico en realidad son legítimos. Ahora consideremos algunos ejemplos en que los datos comparten algunas, pero no necesariamente todas las propiedades de los números que manejamos con la aritmética ordinaria. Por ejemplo, en mineralogía, la dureza de los sólidos se determina mediante la observación de "qué raya qué". Si un mineral puede rayar otro, éste recibe un número de dureza más alto y en la escala de Mohs, los números del 1 al 10 se asignan al talco, el yeso, la calcita, la fluorita, la apatita, el feldespato, el cuarzo, el topacio, el zafiro y el diamante. Con estos números podemos expresar que 6 > 3, por ejemplo, o que 7 < 9, ya que el feldespato es más duro que la calcita y el cuarzo es más suave que el zafiro. Por otro lado, no podemos expresar que 10 - 9 = 2 - 1, por ejemplo, porque la diferencia entre el diamante y el zafiro en realidad es mucho más grande que la diferencia entre el yeso y el talco. Así mismo, no sería significativo indicar que el topacio es dos veces más duro que la fluorita simplemente porque sus números de dureza respectiva en la escala Mohs son de 8 y 4. Si no podemos hacer nada más que determinar desigualdades, como fue el caso en el ejemplo anterior, nos referimos a los datos ordinales. En relación con los datos ordinales, > no significa necesariamente "mayor que"; se puede usar para denotar conceptos como "más feliz que", "preferible que", "más difícil qu,e", "más sabroso que" y demás. tcomo se explicó en el prefacio, todas las secciones marcadas con el símbolo* son opcionales. Aunque el material de esta sección pretende servir como una advertencia en contra del tratamiento matemático inaiscriminado de los datos estadísticos, es de mayor importancia para los estudiantes de las ciencias del comportamiento y sociales, donde las escalas artificiales sirven para medir, digamos, tendencias de neurosis, felicidad o conformidad con las normas sociales. SEC. 1.4 / LA NATURALEZA DE LOS DA TOS EST ADISTICOS 7 Si también podemos determinar diferencias, pero no podemos multiplicar o dividir, nos referimos a los datos como datos de intervalo. Para dar un ejemplo, suponga que se nos dan las lecturas de temperatura siguientes en grados Fahrenheit: 63º, 68º, 91º, 107º, 126° y 131 º.Aquí, podemos expresar que 107° > 68° o 91° < 131 º,que simplemente significa que 107° es más cálido que 68º y que 91 º es más frío que 131°. Del mismo modo, podemos expresar que 68° - 63º = 131 º - 126º, ya que las diferencias de temperatura iguales son iguales en el sentido de que se requiere de la misma cantidad de calor para aumentar la temperatura de un objeto de 63º a 68º al igual que de 126° a 131 º;Por otro lado,,Jl_o...sería muy significativo expresar que 126º es el doble de cálido de 63º, aunque 126º·+ 63º = 2. Para demostrar por qué, sólo tenemos que convertir a grados Celsius, donde la primera temperatura se convierte en ~(126- 32) 52.2º, la segunda temperatura se convierte en f(63 - 32) =17 .2°, y demostrar que la primera cifra ahora es de más de tres veces de la segunda. Esta dificultad surge porque las escalas Fahrenheit y Celsius tienen origen (cero) artificial; en otras palabras el número cero de ninguna escala indica la ausencia de cualquier cantidad que intentemos medir. Si también podemos formar cocientes, nos referimos a los datos como datos racionales y no es dificil obtener tales datos. Estos incluyen todas las medidas (o determinaciones) comunes de longitud, altura, cantidades de dinero, peso, volumen, área presión, tiempo transcurrido (aunque no el tiempo calendario), intensidad del sonido, densidad, brillo, velocidad y demás. La diferencia que hemos hecho aquí entre datos nominales, de intervalo y racionales es importante, ya que como apreciaremos, la naturaleza de un conjunto de datos puede sugerir el uso de técnicas estadísticas particulares. Para enfatizar el punto de que lo que podemos y lo que no podemos hacer aritméticamente con un conjunto de datos determinado depende de la naturaleza de los datos, considere las siguientes calificaciones obtenidas por cuatro estudiantes en las tres partes de una prueba de historia completa = Linda Toin Henry Rose Historia de América Historia de Europa Historia antigua 89 51 56 40 61 54 70 77 40 13 55 72 Los totales de los cuatro ~studiantes son de 180, 171, 165 y 162, de modo que Linda obtuvo la calificación más alta, seguida por Tom, Henry y Rose. Ahora suponga que alguien propone que comparemos el rendimiento total de los cuatro estudiantes clasificando sus calificaciones de altas a bajas para cªda parte de la prueba promediando luego sus clasificaciones. Lo que obtenemos aparece en la tabla siguiente Linda Tom Henry Rose 8 CAP. l I INTRODUCCION Historia de América Historia de Europa Historia antigua Rango promedio 1 2 3 4 4 3 2 1 4 3 2 1 3 213 213 2 Aquí, la clasificación del promedio de Linda se calculó como 1 + 4 + 4 = ~ = 3 el 3 3 ' 2 , . de Tom como 2+3+3 = -8 = 2-, y as1 sucesivamente. 3 3 3 Ahora, si observamos el rango promedio, encontramos que Rose resultó ser la mejor, seguida por Henry, Tom y Linda, de modo que el orden es el inverso del anterior. ¿Cómo es esto posible? Bien, pueden suceder cosas raras cuando promediamos rangos. Por ejemplo, cuando se trata de sus rangos, el excedente de 28 puntos de Linda sobre Tomen historia de América cuenta tanto como el excedente de Tom de 5 puntos en historia de Europa y el excedente de Tom sobre Henry de 21 puntos en historia de América cuenta tanto como el excedente de Henry sobre él por un solo punto en historia antigua. Concluimos que, tal vez, no deberíamos haber promediado sus rangos sino que también se podría señalar que ni siquiera deberíamos haber totalizado las calificaciones originales. La variación de las calificaciones en historia de América que van de 13 a 89 es mucho más alta que la de las otras dós clases de calificaciones y esto afecta en gran medida las calificaciones totales y sugiere un resultado imperfecto del procedimiento. No deberíamos comprender esto aquí, ya que nuestro objetivo ha sido sólo alertar al lector en contra del uso indiscriminado de las técnicas estadísticas. EJERCICIOSt 1.5 1.6 En cinco pruebas de biología un estudiante obtuvo calificaciones de 46, 61, 74, 79 y 88. ¿A cuál de las conclusiones siguientes se puede llegar a partir de estas cifras mediante métodos meramente descriptivos y que requieren de generalizaciones? Explique sus respuestas. (a) Sólo dos de las calificaciones fueron mayores que 75. (b) Las calificaciones de cada uno en cada prueba aumentan en la siguiente. (c) El estudiante debe haber estudiado más arduamente para cada prueba sucesiva. (d) La diferencia entre las calificaciones más altas y las más bajas es de 42. Mary y Jean son vendedoras de bienes raíces. En los primeros tres meses de 1990 Mary vendió 3, 6 y 2 casas unifamiliares y Jean vendió 4, O y 5 casas unifamiliares.¿A cuál de las conclusiones siguientes se puede llegar a partir de métodos meramente descriptivos y que requieren de generalizaciones? Explique sus respuestas. (a) Durante los tres meses Mary vendió más casas unifamiliares que Jean. (b) Mary es una mejor vendedora de bienes raíces que Jean. (c) Mary vendió por lo menos dos casas unifamiliares durante cada uno de los tres meses. tLos ejercicios que se han señalado con el símbolo (d) Jean probablemente tomó sus vacaciones anuales durante el segundo mes. l. 7 En tres días consecutivos, un policía de tránsito levantó 9, 14 y 10 infracciones por conducir;con exceso de velocidad y 5, 1O y 12 infracciones por no respetar el semáforo en rojo. ¿A cuál de las conclusiones siguientes se puede llegar a partir de métodos meramente descriptivos y que requieren de generalizaciones? Explique sus respuestas. (a) En los tres días, el policía levantó más infracciones por conducir con exceso de velocidad que por no respetar el semáforo en rojo. (b) En dos de los tres días, el policía levantó más infracciones por conducir con exceso de velocidad que por no respetar el semáforo en rojo. (c) El policía levantó el número más bajo de infracciones en el primer día porque era su primer día de trabajo. (d) En un día, el policía rara vez levantará más de 15 infracciones por conducir con exceso de velocidad. 1.8 Los tres limones que una persona compró en el mercado pesaron 200, 225 y 340 gramos. ¿A cuál de las conclusiones siguientes se puede llegar a partir de métodos meramente descriptivos y que requieren de generalizaciones? Explique sus respuestas. * fonnan parte del material opcional. SEC. 1.4 I LA NATURALEZA DE LOS DATOS ESTADISTICOS 9 *1.9 *1.10 (a) El peso promedio de los tres limones es de 765 gramos. (b) El promedio ponderado de los limones que se venden en el mercado es de 765 gramos. Obtendremos datos nominales u ordinales si (a) los mecánicos tienen que indicar si es muy difícil, difícil, fácil o muy fácil cambiar las bujías de un automóvil último modelo; (b) la religión de las personas que intentan suicidarse se clasifica como 1, 2, 3, 4 o 5, representando el protestantismo, el catolicismo, el judaísmo, otra y ninguna; (c) los consumidores deben señalar si prefieren la marca A que la B, les agradan las dos por igual o prefie-1 ren la marca B que la A; (d) los consumidores deben señalar si prefieren la marca A que la B, les agradan las dos por igual, prefieren la marca B que la A o no expresan su opinión. ¿Los datos siguientes son nominales, ordinales, de in ter-' valo o racionales? Explique sus respuestas. (a) Números de seguridad social. (b) El número de pasajeros que viajan en autobús de Los Angeles a San Diego. (c) Clasificaciones del interés vocacional, consistentes en el número total de respuestas de "sí" para un conjunto de preguntas, si se puede suponer que cada respuesta de "sf' representa el mismo incremento del interés vocacional. (d) Grados militares. *1.11 *1.12 Las clasificaciones del coeficiente intelectual en ocasiones se consideran como datos de intervalo. ¿Qué suposición implicaría esto acerca de las diferencias de la inteligencia de tres personas con coeficientes intelectuales de 95, 105 y 135? ¿Es lógica esta suposición? En la página 8 indicamos que los datos que pertenecen al . tiempo calendario (por ejemplo, los años en que el equipo de futbol de la Armada derrota al de la Marina) no son datos racionales. Explique por qué. ¿Qué tipo de medidas temporales constituyen los datos racionales? 1.5 REVISION DE TERMINOS CLAVEt (con referencias de página a sus definiciones) Análisis exploratorio de datos, 6 *Datos de intervalo, 8 *Datos nominales, 7 *Datos o~dinales, 7 *Datos racionales, 8 Estadística descriptiva, 5 Inferencia estadística, 6 Modelos estadísticos, 3 Teoría de la probabilidad, 6 1.6 EJERCICIOS DE REVISIONt· 1.13 El boletaje pagado para· asistir a lé>s juegos de futbol en casa de. una pequeña universidad fue de 12,305, 10,984, 6,850; 11,733 y 10,641. ¿A cuál de las siguientes conclusiones se puede llegar a partir de estas cifras por medio de métodos meramente descriptivos y que requieren de generalizaciones? Explique sus respuestas. (a) La asistencia al tercer partido en casa fue baja porque llovió. (b) Entre los cinco juegos, el boletaje pagado fue más alto en el primer partido. (c) El boletaje pagado superó los 11,000 en dos de los cinco juegos. tLos términos que se han señalado co11'P.I símbolo* forman parte del material opcional. tLos ejercicios de revisión marcados con el símbolo *pertenecen al material opcional. 10 CAP. 1 I INTRODUCCION (d) El bolct<ije pagado se incrementó del tercer al cuarto partido en casa porque el equipo de futbol de la universidad había estado ganando. * t.14 1.15 *1.16 1.17 ¿Los datos siguientes son nominales, ordinales, de intervalo o racionales? Explique sus respuestas. (a) Elevaciones sobre el nivel del mar. (b) Respuestas a la pregunta de si (en el área del centro de una ciudad grande) las condiciones de vida "están empeorando mucho", "están empeorando un poco", "permanecen igual", "están mejorando un poco" o "están mejorando mucho". (c) Antigüedad de automóviles usados. (d) Respuestas de las licencias para conductores en relación con el color de ojos. Explique por qué cada uno de los datos siguientes bien podría fracasar para proporcionar la información deseada: (a) Para pronosticar una elección municipal, un encuestador de opinión pública hace preguntas a las personas que caminan frente a la oficina de gobier, no municipal. (b) Para determinar la opinión del público sobre ciertas restricciones a las importaciones, un entrevistador pregunta a los electores: "¿Cree que a los consumidores norteamericanos se les debería negar el uso de estos productos?" Si los estudiantes calculan sus índices de puntuación de calificaciones (esto es, el promedio de sus calificaciones) contando A, B, C, D y F como 4, 3, 2, 1 y O, ¿qué implica esto acerca de Ja naturaleza de las calificaciones? Explique por qué cada uno de los datos siguientes bien podría fracasar para proporcionar la información deseada: (a) Para conocer la opinión del público en cuanto a las importaciones de India, se pregunta a personas seleccionadas si les agrada el arte hindú. (b) Para valorar los hechos relacionados con los hábitos de baño, a una muestra de los ciudadanos de un país europeo se le pregunta cuántas veces en promedio se bañan a la semana. 1.18 *1.19 1.20 Usando el mismo modelo de automóvil, cinco conductores promediaron 9.95, 9.57, 10.2, 9.95 y 9.65 kilómetros por litro. ¿A cuál de las siguientes conclusiones se puede llegar a partir de estas cifras por medio de métodos meramente descriptivos y que requieren de generalizaciones? Explique sus respuestas. (a) Con mayor frecuencia que ninguna de las otras cifras, los conductores promediaron 9.95 kilómetros por litro. (b) Con mayor frecuencia que ninguna de las otras cifras, los conductores de este tipo de automóvil promediaron 9.95 kilómetros por litro. (c) Ninguno de los promedios difiere de 9.99 por más de 1.6093 kilómetros. (d) Si se repite el experimento completo, ninguno de los conductores promediará menos de 9.57 ni más de 10.41 kilómetros por litro. En dos torneos de golf de la liga mayor, un golfista profesional terminó en el segundo y el noveno Jugar, en tanto que otro terminó en el sexto y el quinto. Comente sobre el argumento de que como 2 + 9 =6 + 5, el rendimiento total de los dos golfistas en estos dos torneos fue igualmente bueno. Replantee el ejercicio al que nos referimos en la página 4 de manera que sea de especial interés para (a) un abogado; (b) un agente de viajes; (c) un autor. 1.7 REFERENCIAS Se pueden encontrar análisis breves e informales sobre lo que es la estadística y lo que hacen Jos estadistas en los panfletos titulados Careers in Statistics y Statistics as a Career: Women at Work, publicados por la American Statistical Association. Se pueden obtener escribiendo a esta organización a 1429 Duke Street, Alexandria, VA, 22314. Entre los pocos libros sobre Ja historia de la estadística, en el nivel elemental, tenemos WALKER H. M., Studies in the History ofStatistical Method. Baltimore: The Williams & Wilkins Company, 1929. SEC. 1.7 I REFERENCIAS 11 y en el nivel más avanzado PEARSON E. S. y KENDALL, M. G., editores, Studies in the History of Statistics and Probability. Nueva York: Hafner Press, 1970. KENDALL, M. G. y PLACKETI, R. L., editores, Studies in the History of Statistics and Prob' ability, Vol.//. Nueva York: Macmillan Publishing Co., Inc., 1977. STIGLER, S. M., The History of Statistics. Cambridge, Mass.: Harvard University Press, 1986. Un análisis más detallado de la naturaleza de los datos estadísticos y el problema general de la escala (en particular, el problema de la construcción de escalas de medición) se puede encontrar en HILDEBRAND, D. K., LAING, J.D. y ROSENTHAL, H., Analysis ofürdinal Data. Beverly Hills, Calif.: Sage Publications, Inc., 1977. REYNOLDS, H. T., Analysis of Nominal Data. Beverly Hills, Calif.: Sage Publications, Inc., 1977. SJEGEL, S., Nonparametric Statisticsfor the Behavioral Sciences. Nueva York: McGraw-Hill Book Company, 1956. Los siguientes son algunos títulos de la lista siempre creciente de libros sobre estadística escritos para los principiantes. BROOK, R. J., ARNOLD, G. C., HASSARD, T. H. y PRINGLE, R. M., editores, The Fascination of Statistics. Nueva York: Marce! Dekker, Inc., 1986. CAMPBELL, S. K., Flaws and Fallacies in Statistical Thinking. Englewood, Cliffs, N. J: Prentice-Hall, Inc., 1974. HOLLANDER, M. y PROSCHAN, F., The Statistical Exorcist: Dispelling Statistics Anxiety. Nueva York: Marce! Dekker, Inc., 1984. HOOKE, R., How to Tell the Liarsfrom the Statisticians. Nueva York: Marce! Dekker, Inc., 1983. KIMBLE, G. A., How to Use (and Misuse) Statistics. Englewood Cliffs, N. J.: Prentice-Hall, Inc., 1978. LARSEN, R. J. y STROUP, D. F., Statistics in the Real World. Nueva York: Macmillan Publishing Co., Inc., 1976. RUNYON, R.P., Winning with Statistics. Reading, Mass.: Addison-Wesley Publishing Company, Inc., 1977. TANUR, J. M. editor, Statistics: A Guide to the Unknown. San Francisco: Holden-Day, Inc., 1972. 12 CAP. 1 I INTRODUCCION RESUMEN DE DATOS: DISTRIBUCION DE LA FRECUENCIA 2.1 Lista de valores numéricos 14 2.2 Distribuciones de la frecuencia 18 2.3 Representaciones gráficas 27 2.4 Revisión de términos clave 33 2.5 Ejercicios de revisión 34 2.6 Referencias 35 En años recientes, la recopilación de datos estadísticos se ha incrementado con una tasa tal que sería imposible mantenerse al día siquiera con una pequeña parte de los factores que afectan directamente nuestras vidas, a menos de que se difunda esta información en una forma "digerida" o resumida. La actividad de agrupar grandes cantidades de datos en una forma útil siempre ha sido importante, pero en las últimas décadas esta actividad se ha multiplicado en gran medida. En parte, esto ha sido consecuencia del desarrollo de computadoras que ahora permiten efectuar en minutos actividades que antes se evitaban porque habrían requerido de meses o años y en parte son resultado de la multitud de datos generados por el planteamiento cada vez más cuantitativo de las ciencias, en especial de las ciencias del comportamiento y las sociales, donde casi todos los aspectos de la vida humana en la actualidad se miden de una u otra manera. El método de resumen de datos más común consiste en su presentación en forma condensada en tablas o gráficas y en algún momento esto constituyó la mejor parte de un curso elemental de estadística. Hoy en día, hay tanto más que aprender sobre estadística, que se dedica muy poco tiempo a este tipo de trabajo. En cierto modo, esto es desafortunado porque no se necesita buscar con detenimiento en diarios, revistas y aun en publicaciones periódicas profesionales para encontrar gráficas estadísticas que son intencionalmente engañosas. La sección 2.1 aborda la tarea del listado de valores numéricos y presenta una técnica nueva, la exposición de tronco y hoja. La sección 2.2 estudia las distribuciones de la frecuencia, el método estándar para la agrupación de datos. La sección 2.3 presenta algunos métodos gráficos. 2.1 LISTA DE VALORES NUMERICOS La organización y la presentación de un conjunto de información numérica es una de las primeras tareas para comprender un problema. Como una situación típica, considere los valores que aparecen en seguida, los cuales representan el tiempo del trayecto al trabajo de 100 empleados de un gran edificio de oficinas ubicado en el centro. Los tiempos se dan en minutos y cada valor representa el tiempo promedio de un empleado en cinco días de trabajo consecutivos. La simple recopilación de esta información no es una tarea sencilla, pero es evidente que se debe hacer más para que los números sean comprensibles. 44.0 35.4 28.4 36.2 38.4 49.2 15.8 28.8 38.0 29.2 40.6 49.6 35.2 56.4 31.0 12.6 27.0 47.8 30.0 45.8 18.0 56.2 24.8 12.6 45.6 37.4 18.0 42.2 42.0 16.2 14 CAP.2 / RESUMEN DE DA TOS: DISTRlBUCION DE LA FRECUENCIA 37.0 31.8 44.0 30.4 45.0 52.6 41.0 53.6 50.6 108.2 46.0 86.4 38.4 12.2 90.2 41.0 22.6 125.4 103.4 44.0 35.4 12.6 74.0 123.8 100.0 40.0 24.2 16.2 52.4 42.6 19.4 27.4 23.0 42.0 39.0 28.0 89.6 39.0 20.2 39.4 20.4 56.4 14.0 39.4 11.4 39.8 47.0 32.4 37.0 49.4 23.6 37.6 90.4 43.0 40.8 33.6 64.6 22.2 37.6 41.4 43.2 39.4 30.2 39.2 28.2 37.8 29.8 39.4 60.0 40.4 ¿Qué se puede hacer para que esta información sea más práctica? Algunas personas encuentran interesante identificar los valores extremos. Para esta lista, el valor más bajo es de 11.4 minutos y el más alto es de 125.4 minutos. En ocasiones, es útil ordenar los valores de los datos en orden de creciente a decreciente. La lista que se presenta a continuación da estos valores ordenados y ahora es posible saber más acerca de los tiempos de trayecto. Por ejemplo, ahora vemos que hay muchos valores que se aproximan a 40 minutos. 11.4 12.2 12.6 18.0 19.4 20.2 27.0 27.4 28.0 30.4 31.0 31.8 37.0 37.4 37.6 39.2 39.4 39.4 41.0 41.0 41.4 44.0 44.0 45.0 49.6 50.6 52.4 74.0 86.4 89.6 14.0 22.6 28.8 35.2 38.0 39.8 42.2 46.0 56.2 100.0 12.6 12.6 20.4 22.2 28.2 28.4 32.4 33.6 37.6 37.8 39.4 39.4 42.0 42.0 45.6 45.8 52.6 53.6 90.2 90.4 15.8 23.0 29.2 35.4 38.4 40.0 42.6 47.0 56.4 103.4 16.2 23.6 29.8 35.4 38.4 40.4 43.0 47.8 56.4 108.2 16.2 24.2 30.0 36.2 39.0 40.6 43.2 49.2 60.0 123.8 18.0 24.8 30.2 37.0 39.0 40.8 44.0 49.4 64.6 125.4 Ordenar un conjunto numeroso de datos en forma creciente o decreciente es una labor sorprendentemente difícil. Esta lista de números, aun en su forma ordenada, sigue siendo una vasta pieza de información. Será útil contar con otras formas de manejar estos valores. Una técnica desarrollada hace poco, la gráfica de tronco y hoja, brindará una buena impresión total de los datos. Para ilustrar esta técnica, considere las siguientes calificaciones en una prueba de coordinación física aplicada a 20 estudiantes que habían ingerido una cantidad de alcohol equivalente a 0.1 % de supeso: 69 57 84 64 52 67 93 72 61 74 74 55 79 82 65 61 88 68 63 77 Ahora divida cada número en sus decenas y unidades, disponiendo juntos los valores que comparten las decenas. Esto es, pensaremos en el número 69 como en 6 1 9. Entonces las decenas se dispondrán en forma vertical con unidades dispuestas al lado. Para el conjunto de las 20 calificaciones de coordinación física, la gráfica es ésta: 5 2 7 6 9 1 7 4 9 5 5 3 4 7 2 4 7 8 4' 2 9 3 8 1 8 El primer renglón de la gráfica, expresamente 5 1 2 7 5, nos indica que la lista con-• tiene los valores de 52, 57 y 55. El segundo renglón nos indica que la lista contiene ocho valores de la decena de los 60. Esta tabla se conoce como una representación gráfica de tronco y hoja porque cada renglón representa una posición de tronco y cada dígito a la derecha de la línea vertical se puede considerar como una hoja. Para hacer esta gráfica de tronco y hoja, comience sólo con los troncos, de la siguiente manera: SEc'. 2.1 / LISTA DE VALORBS NUMERICOS 15 5 6 7 8 9 Con todo, este paso no tiene que ser perfecto, es fácitdisponer posiciones de tronco adicionales en la parte superior o en la inferior. Luego, marque las hojas por elementos de datos individuales en orden consecutivo. Después de los tres primeros valores (69, 84, 52), la gráfica de tronco y hoja lucirá así: 5 6 2 9 7 8 9 4 La gráfica de tronco y hoja estará completa después de efectuar sólo un paso con los datos. La gráfica de tronco y hoja contiene la misma información que la lista original, pero es mucho más compacta. La gráfica de tronco y hoja destaca)os aspectos importantes de los datos. Por ejemplo, en este caso revela de inmediato que la mayoría de los datos pertenece al orden de los 60. La gráfica de tronco y hoja desarrolla la mayor parte de la tarea de clasificación de los valores. A la mayoría de la gente le agrada completar la clasificación ordenando también las hojas. En este ejemplo, se llega a lo siguiente: 5 6 2 5 7 7 1 1 3 4 5 7 8 9 2 4 4 7 9 8 9 2 4 8 3 No todos los valores se pueden disponer en una gráfica de tronco y hoja con tanta facilidad. El tratámiento de situaciones más complicadas es una cuestión de discernimiento. Consideremo~ los 100 tiempos de trayecto antes señalados. Estos números se dieron con décimas de minuto. Al realizar la gráfica de tronco y hoja, más que redondear los valores al minuto más cercano, recomendamos que se ignoren las décimas. Este introduce un sesgo de medio minuto en la gráfica, pero con casi el mismo esfuerzo se produce el mismo resultado tan apropiado como el redondeo.t Usaremos los dígites de las decenas para clasificar el tronco y esto produce la siguiente gráfica: toescartar.números representa varias ventajas durante el proceso de redondeo cuidadoso y éste es el procedimiento recomendado por John Tukey, el inventor de la representación gráfica de tronco y hoja. Su libro aparece en la lista de referencias al final del capítulo. 16 , GAP. 2 / RESUMEN DE DATOS: DISTRIBUCION DE LA FRECUENCIA 1 2 3 4 5 6 7 8 9 122224566889 0022334477888899 0001123555677777788899999999 0000111222233444555677999 0223666 04 4 69 00 10 11 038 12 13 35 NOTA: 7 4 medidas 3 medidas 12 74 minutos 123 minutos Esta gráfica de tronco y hoja sólo requiere una revisión de la lista original. Se pueden ordenar las hojas. De hecho, esta gráfica comunica el mensaje de la lista original en una forma muy clara en términos gráficos. Es útil agregar una nota, como lo hicimos, para ayudar al lector de esta gráfica. Esta ciertamente es útil cuando los números del tronco no son decenas. La gráfica de tronco y hoja se puede modificar de varias formas para satisfacer necesidades particulares. Si queremos elaborar una gráfica de tronco y hoja con más troncos de los que habría de otra manera, podemos dividir en dos cada posición del tronco. Usamos la primera posición del tronco para disponer las hojas O, 1, 2, 3 y 4 y usamos la segunda posición para disponer las hojas 5, 6, 7, 8 y 9. Por tanto, para el segundo grupo de datos de la página 15, obtendríamos la representación gráfica de doble tronco: 5· 5* 6· 6* 7· 7* 8· 8* 9· 2 5 7 1 5 2 7 2 8 3 3 4 7 8 9 4 4 9 4 En esta gráfica, duplicamos el número de posiciones del tronco dividiendo por la mitad el intervalo que cubre cada decena. Así mismo, en el caso de algunas descripciones más detalladas (véase la sección 3.4), es conveniente tener algunas hojas en cada tronco dispuestas por tamaño, como en la figura 2.1, donde usamos una computadora para elaborar la gráfica de tronco y hoja anterior. No estudiaremos las gráficas de tronco y hoja con mayor detalle, ya que.nu·estro objetivo fue en esencia presentar una de las técnicas relativamente nuevas que forman· parte del término general de análisis exploratorio de datos. Estas técnicas s~ utilizan sobre todo para analizar datos sin emplear los métodos más tradicionales de análisis es- ' tadísticos o antes de aplicar los mismos. · SEC. 2.1 I LISTA DE VALORES NUMERICn<: 17 040230 r.n1 FF BIBLIOTECA. MTB DA+:OS DATOS MTB > .> > > CONJUNTO Cl 69 57 84 64 52 67 93 72 74 55 61 74 79 82 65 61 88 68 63 77 TRONCO Cl GRAFICA DE TRONCO Y HOJA DE Cl UNIDAD DE TRONCO Y HOJA l. ftHHl 1 2 REPRESENTA 12. 1 3 7 (4) 9 6 4 2 -1- FIGURA 2.1 5* 5. 6* 6. 7* 7. 8* 8. 9* 2 57 1134 5789 244 79 24 8 3 Impresión por computadora para la elaboración de una gráfica de doble tronco. EJERCICIOS 2.1 2.2 ·2.3 Las siguientes son las alturas en centímetros de dieciséis estudiantes de bachillerato: 172, 182, 177, 174, 166, 158, 170, 178, 163, 161, 191, 167, l71,201, 166, 172.Elabore una gráfica de tronco y hoja con las clasificaciones de tronco 15, 16, 17, 18, 19 ~ 20; Los siguientes son los pesds en libras de veinte solicitantes de empleo en un departamento de bomberos de la ciudad: 225, 182, 194, 210, 205, 172, 181, 198, 164, 176, 180,193, 178, 193,208,186,183,170,186,l88.Elabore una gráfica de tronco y hoja con las clasificaciones de tronco 16, 17, 18, 19, 20, 21y22. Las siguientes son las ganancias semanales en dólares de quince vendedores: 425, 440, 610, 518, 324, 482, 624, 390, 468, 457, 509, 561, 482, 480, 520. Elabore una gráfica de tronco y hoja con las clasificaciones de tronco 3, 4, 5 y 6; las decenas se deben usar como hojas. 2.4 Elab.ore una lista de los valores de datos que aparecen en la gráfica de tronco y hoja siguiente. 4 5 6 7 o 2 3 1 8 9 233779 o 2.5 Elabore una gráfica de doble tronco para los datos del ejercicio 2.2. 2.6 Las siguientes son las edades de treinta y dos cabezas de familia de una comunidad de jubilados: 68, 81, 62, 61, 76, 65,69,73,66,68, 71, 74,64, 70,68, 73,82, 79,63, 69, 68, 66, 73, 74, 77, 80, 73, 66, 67, 81, 77 y 66 años. Elabore una gráfica de doble tronco para estos valores. 2.2 DISTRIBUCIONES DE LA FRECUENCIA Cuando manejarnos conjuntos cuantiosos de datos, a menudo podernos obtener una buena imagen general y toda la información que necesitemos agrupando los datos en un 18 c;AP. 2 I RESUMEN DE DATOS: DISTRIBUCION DE LA FRECUENCIA ;o.,t_.... ,,., 1J'. ~~c.,~~-"9\) número de clases, intervalos o categorías. Por ejemplo, los datos correspondientes a 1983 sobre el tamaño de los sistemas de televisión por cable de Estados Unidos se pueden resumir como sigue: Número de suscriptores Sistemas dé televisión por cable Mt¡nos de 1,000 2,444 1,573 1,000- 3,499 3.500- 9,999 10.000-19.999 20,000-49,999 50.000 omás 9·5g 369 239 57 Total 5,640 Una tabla como ésta se conoce como una distribución de la frecuencia (o simple~ mente como una distribución); esto demuestra cómo se distribuyen los sistemas de televisión por cable entre las seis clases. Entonces cuando los datos se agrupan por tamaños hacemos referencia a una tabla como la anterior como una distribución numérica (o cuantitativa). En el ejemplo de la televisión por cable, cada clase cubrió un amplio rango de valores, pero también hay distribuciones numéricas en que la clase cubre sólo un valor único. Esto se ilustra por medio del ejemplo siguiente con base en un estudio en el que se preguntó a 200 personas cuántas veces habían visitado el zoológico local durante los doce meses anteriores: Número de visitantes del zoológico local Número de personas o 1 90 72 1 16 3 4 5 6 8 3 o 1 Total 200 Si se agrupan los datos en categorías no numéricas, la tabla resultante se conoce como una distribución categórica (o cualitativa). Esta clase de ci1stribuCión se ilustra mediante la tabla siguiente de 2,439 quejas sobre las características de comodidad de una línea aérea: SEC. 2.2 I DISTRIBUCIONES DE LA FRECUENCIA 19 Naturaleza de la queja Espacio insuficiente para las piernas Asientos incómodos Pasillos angostos Compartimientos de equipaje insuficientes Sanitarios insuficientes Otras quejas diversas Total Número de quejas 719 914 146 218 58 384 2,439 Podríamos convertir una distribución como ésta en una distribución numérica codificando los datos, digamos, asignando a las seis alternativas los números 1, 2, 3, 4, 5 y 6, pero esto nos daría datos nominales, que son numéricos sólo en un sentido trivial. Las distribuciones de la frecuencia présentan los datos en una forma relativamente compacta, dan una buena imagen en general y contienen información adecuada para muchos propósitos, pero por lo general hay algunos factores que no se pueden determinar sin referirse a los datos originales. Por ejemplo, a partir de la primera tabla de esta seccion no podemos encontrar ni el tamaño del más pequeño de los 5,640 sistemas de televisión por cable, ni el promedio de suscriptores de los diez sistemas más grandes. De modo similar, con base en la tercera tabla no podemos indicar el número de quejas sobre asientos incómodos por la amplitud de los asientos de los mismos o el número de quejas por compartimientos de equipaje insuficientes en relación con el espacio para los portatrajes. No obstante, las distribuciones de la frecuencia presentan datos en bruto (no procesados) de una manera más práctica y el precio que debemos pagar por esto -la pérdida de cierta información- por lo regular vale la pena. En esencia la elaboración de una distribución de la frecuencia consiste en tres pasos: (1) la selección de las clases (intervalos o categorías), (2) la selección o clasificación de los datos en estas clases y (3) el conteo del número de factores de cada clase. Dado que el segundo y el tercer paso son meramente mecánicos en este caso debemos Cóncentrarnos, a saber, en el de la selección de una clasificación ideal. Para las distribuciones numéricas, esto consiste en decidir el número de clases que se usarán y de qué clase a qué clase se debe ir. Ambas alternativas son en esencia arbitrarias, sin embargo por lo común se observan las reglas siguientes: Rara vez usamos menos de 6 o más de 15 clases; el número exacto que usaremos en una situación determinada dependerá en gran medida del número de lecturas u observaciones implícitas. Es evidente que perderíamos más de lo que gaQaríamos si agrupáramos cinco observaciones en doce clases con la mayor parte de éstas vacías y quizá descartaríamos mucha información si agrupáramos mil lecturas en tres clases. Asegúrese siempre de que cada factor (lectura u observación) pertenezca a una y sólo una:, clase. Para concluir, debemos asegurarnos de que los valores inferiores y superiores caigan en 20 CAP. 2 I RESUMEN DE DATOS: DISTRIBUCION DE LA FRECUENCIA la clasificación, que ninguno de los valores caiga en una brecha entre clases sucesivas y que las clases no se traslapen, expresamente, que las clases sucesivas no tengan valores en común. Siempre que es posible hacemos que las clases cubran rangos de valores iguales. Del mismo modo, si podemos, disponemos los rangos en múltiplos de números de manejo fácil, tales como 5, 10 o 100 porque esto tenderá a facilitar la elaboración y el uso de una distribución. Por lo que respecta a estas reglas, la distribución de la televisión por cable de la página 19 satisface las dos primeras, pero viola la tercera. En realidad, la tercera regla se viola de varias maneras, ya que las clases 1,000-3,499, 3,500-9,999, 10,000-19,999 y 20,000-49,999 cubren distintos rangos de valores, la primera clase no tiene ningún límite inferior específico y la última clase no tiene ningún límite superior específico. Es probable que los estadistas del gobierno responsables de esta tabla tengan buenas razones para seleccionar las clases como lo hicieron. Nos referimos a las clases de la variedad de "menos de'', "o menos", "más de" u "o más" como clases abiertas y las usamos para reducir el número de clases necesarias cuando algunos de los valores son bastante menores o bastante mayores que el resto. Sin embargo, generalmente se deben evitar las clases abiertas, ya que éstas hacen imposible el cálculo de ciertos valores de interés, tales como los promedios o los totales (véase el ejercicio 3.52, página 62). En cuanto a la segunda regla, tenemos que observar si los datos se dan al dólar o al cer)tavo más cercano, si se dan a la pulgada o a la décima de pulgada más cercana, a la onza o al céntimo de onza más cercano y así, dependiendo el caso. Por ejemplo, si queremos agrupar los pesos de ciertos animales podríamos usar la primera de las clasificaciones siguientes cuando los pesos se dan al kilogramo más cercano, la segunda cuando se dan a la décima de kÜogramo más cercana y la tercera cuan_9o se dan a la céntima de kilogramo más cercana: Peso (kilogranws) Peso (kilogranws) Peso (kilogramos) 10-14 15-19 20-24 25-29 30-34 etc. 10.0-14.9 15.0-19.9 20.0-24.9 25.0 29.9 30.0-34.9 etc. 10.00-14.99 15.00-19.99 20.00-24.99 25.00-29.99 30.00-34.99 etc. Para ilustrar lo que hemos estudiado en esta sección, ahora revisemos los pasos reales de agrupación de un conjunto de datos de una distribución de la frecuencia. EJEMPLO Elabore una distribución de las siguientes cantidades de óxidos de azufre (en toneladas emitidas por una planta industrial en 80 días: SEC. 2.2 I DISTRIBUCIONES DE LA FRECUENCIA 21 15.8 22.7 26.8 19.1 18.5 14.4 8.3 25.9 Solución 26.4 9.8 22.7 15.2 23.0 29.6 21.9 10.5 17.3 6.2 18.0 22.9 24.6 19.4 12.3 15.9 11.2 14.7 20.5 26.6 20.1 17.0 22.3 27.5 23.9 17.5 11.0 20.4 16.2 20.8 13.3 18.1 24.8 26.1 20.9 21.4 18.0 24.3 11.8 17.9 18.7 12.8 15.5 19.2 7.7 22.5 19.3 9.4 13.9 28.6 19.4 21.6 13.5 24.6 20.0 24.1 9.0 17.6 16.7 16.9 23.5 18.4 25.7 20.1 13.2 23.7 10.7 19.0 14.5 18.1 31.8 28.5 Dado que el valor inferior es 6.2 y el valor superior es 31.8, podríamos seleccionar las seis clases 5.0-9.9, 10.0-14.9, ... y 30.0-34.9, las siete clases 5.0-8.9, 9.0-12.9, ... y 29.0-32.9, las nueve clases 5.0-7.9, 8.0-10.9, ... y 29.0-31.9 o muchas otras clasificaciones. Nótese que en cada una de las clasificaciones mencionadas, las clases acomodan todos los datos, no los traslapan y todas son del mismo tamaño. Esencialmente, la selección entre estas clasificaciones es arbitraria, pero suponiendo que por algunas razones legales (digamos leyes gubernamentales) sea necesario mantener todos los valores mayores que 16.9 pero menores que 21.0 en la clase, seleccionamos la segunda. Así, clasificando las ochenta medidas en siete clases obtenemos la ·tabla siguiente: Toneladas de óxido de azufre 5.0- 8.9 9.0-12.9 13.0-16.9 17.0-20.9 21.0-24.9 25.0-28.9 29.0-32.9 cuenta o conteo 111 -f(lf -f!H -ffH -fHI fH-1 JI Frecuencia lfH HH /JI/ -fflf -fH+ -flff -flH fHI -HH 11 //// Total 3 10 14 25 17 9 2 80 En la presentación final de esta tabla, por lo regular se omite la cuenta o conteo. Los números que aparecen en la columna del lado derecho de la tabla anterior, que muestra cuántos factores pertenecen a cada clase, se conocen como frecuencias de clase. Los valores superiores e inferiores que pueden corresponder a cualquier clase seconocen como sus límites de clase y para la distribución de los datos de emisión éstos son 5.0 y 8.9, 9.0 y 12.9, 13.0 y 16.9, ... y 29.0 y 32.9. Más específicamente, 5.0, 9.0, 13.0, ... y 29.0 se llaman límites de clase inferior y 8.9, 12.9, 16.9, ... y 32.9 se llaman límites de clase superior. Todas las cantidades que agrupamos en nuestro ejemplo se dieron a la décima de tonelada más cercana, de modo que 5.0 en realidad incluye todos los valores de 4.95 a 5.05, 8.9 comprende todos los valores de 8.85 a 8.95 y la clase 5.0-8.9 incluye todos los valores de 4.95 a 8.95. En forma similar, la segunda clase comprende todos los valores de 8.95 a !2.95, ... y fa séptima clase incluye todos los valores de 28.95 a 32.95 . .Comúnmente nos referimos a 4.95, 8.95, 12.95, ... y 32.95 como fronteras de clase o límites de clase reales. Aunque 8.95 es la frontera superior de la primera clase y tam- 22 CAP. 2 I RESUMEN DE DATOS: DISTRIBUCION DE LA FRECUENCIA bién la frontera inferior de la segunda, ... y 28.95 es la frontera superior de la sexta clase al igual que la frontera superior de la séptima, no hay razón para alarmarse. Las fronteras de clase son, por su misma naturaleza, valores imposibles que no pueden ocurrir entre los datos que se agrupan. Por ejemplo, en el caso de la televisión por cable de la página 19, los límites de clase son los valores imposibles 999.5, 3,499.5, 9,999.5, 19,999.5 y 49,999.5. Son valores imposibles porque un sistema de televisión por cable no puede pertenecer muy bien a medio suscriptor. Para evitar las brechas en la escala numérica continua, algunos libros de texto de estadística y programas de computación de uso común (por ejemplo el Minitab) incluyen en cada clase su limitación inferior. Incluirían 4.95, pero no 8.95 en la primera clase de la distribución de los datos de emisión de óxidos de azufre. De modo similar, incluirían 8.95, pero no 12.95 en la segunda clase y así sucesivamente. Es evidente que todo esto es por completo inmaterial en tanto que los límites de clase sean valores imposibles que no pueden ocurrir entre los datos que se están agrupando. En especial, es por esta razón que no se puede enfatizar en forma excesiva el uso de los límites de clase (véase el estudio de la figura 10.3, página 258). Las distribuciones numéricas también tienen lo que llamamos marcas de clase e intervalos de clase. Las marcas de clase son simplemente los puntos medios de la clase y se-obtienen sumando los límites inferiores y superiores de una clase (o sus límites inferiores y superiores) y dividiendo el resultado entre dos. Si la longitud detodas las clases de una distribución es igual, su intervalo d.e clase común, que conocemos como el intervalo de clase de la distribución, también se obtiene por la diferencia entre dos marcas de clase sucesivas cualquiera. 1 EJEMPLO Solución Obtenga las marcas de clase y el intervalo de clase de la distribución de los datos de emisión de óxidos de azufre. ·º ; 8·9 = 6.95, Las marcas de clase son 5 17.0; 20.9 29 = 18.95, ·º +2 32·9 = 30.95. = 21.0; 24.9 9·0 ~ 12·9 = 10.95, = 22.95, l3.0 ; 16·9 = 14.95, 25.0; 28.9 = 26.95, y Por tanto, ya que los intervalos. de clase son 8.95- 4.95 = 4, = 12.95 - 8.95 4, ... y 32.95 - 28.95 4 y que todos son iguales, el intervalo de clase de la distribución es de 4. Nótese que si hubiéramos tomado las diferencias entre los límites de clase en vez de las diferencias entre las fronteras de clase, habríamos obtenido 3.9 en lugar de 4 y 3.9 no es el intervalo de clase. Esencialmente, existen dos maneras en que las distribuciones de la frecuencia se pueden modificar para satisfacer necesidades particulares. Una manera consiste en convertir una distribución en una distribución porcentual dividiendo cada frecuencia de clase entre el número total de factores agrupados y multiplicando luego por el 100%. EJEMPLO Convierta la distribución de los datos de emisión de óxidos de azufre en una distribución porcentual. SEC. 2.2 I DISTRIBUCIONES DE LA FRECUENCI/. 23 Solución . 1 . L a pnmera case contiene 10 de 80 · 100% = 12.50% 3 - · 100º/ = 3.75º/ de los datos, la segunda clase compren80 /o /o ') de los datos, ... y la séptima clase contiene 8-0 · 100/(, = 2.50% de los datos. Estos resultados aparecen en la tabla siguiente: Toneladas de óxi· dos de azufre Porcentaje 5.0- 8.9 9.0-12.9 13.0-16.9 17.0-20.9 21.0-24.9 25.0-28.9 29.0-32.9 3.75 12.50 17.50 31.25 21.25 11.25 2.50 100.00 A menudo, usamo~ las distribuciones porcentuales cuando queremos comparar dos o más distribuciones; por ejemplo, si deseamos comparar la emisión de óxidos de la planta considerada en nuestro ejemplo con la de una planta con una ubicación distinta. La otra forma de modificar una distribución de la frecuencia es convirtiéndola en una distribución acumulativa de "menos de", "o menos", "más de" u "o más". Para elaborar una distribución acumulativa simplemente sumamos las frecuencias de clase, iniciando sea con la distribución superior o la inferior. EJEMPLO Convierta la distribución de la página 22 en una distribución acumulativa de "menos de". Solución Dado que ninguno de los valores es de menos de 5.0, 3 de los valores son de menos de 9.0, 3 + 10 = 13 de los valores son de menos de 13.0, 3 + 10 + 14 =27 de los valores son de menos de 17.0 y así consecutivamente, obtenemos los resultados de la tabla siguiente: Toneladas de óxidos de azufre Menos de 5.0 Menos de 9.0 Menos de 13.0 Menos de 17.0 Menos de 21.0 Menos de 25.0 Menos de 29.0 Menos de 33.0 Frecuencia acumulativa O 3 13 27 52 69 78 80 Nótese que en vez de "menos de 5.0", "menos de 9.0", "menos de 13.0", ... , podríamos haber expresado "4.9 o menos", "8.9 o menos", "12.9 ó menos", ... o "menos de 4.95", "menos de 8.95", "menos de 12.95",. .. 24 CAP. 2 / RESUMEN DE DATOS: DISTRIBUCION DE LA FRECUENCIA De la misma manera, también podemos convertir una distribución porcentual en distribuciones porcentuales acumulativas. Sólo sumamos los porcentajes en lugar de las frecuencias comenzando sea con la distribución superior o la inferior. Hasta ahora, sólo hemos estudiado la elaboración de distribuciones numéricas, pero el problema general de la elaboración de distribuciones categóricas (o cualitativas) es casi el mismo. Aquí, tenemos que volver a decidir cuántas categorías (clases) debemos usar y el tipo de factores que cada categoría comprende, asegurándonos de que todos los factores estén acomodados y que ~aya ambigüedades. Puesto que las categorías con frecuencia se deben seleccionar antes& que se pueda recompilar cualquier dato, por lo regular es prudente incluir una categoría denominada "otros" o "diversos". En el caso de las distribuciones categóricas, no tenemos que preocupamos por detalles matemáticos, tales como los límites, fronteras y marcas de clase. Por otro lado, a menudo se suscita un problema grave con las ambigüedades y debemos extremar precauciones, siendo explícitos en la definición de lo que se comprende en cada categoría. Por ejemplo, si tuviéramos que clasificar mercancías vendidas a un supermercado como "carnes", "alimentos congelados", "productos de repostería" y demás, sería di~ fícil decidir, por mencionar un caso, dónde disponer los pasteles de carne congelados. Similarmente, si debiéramos clasificar ocupaciones, sería difícil decidir dónde disponer al administrador de una granja, si nuestra tabla comprendiera (sin calificación) las dos categorías de "granjeros" y "gerentes". Por esto, siempre que es posible, es recomendable usar las categorías estándar desarrolladas por el departamento de censos y otros organismos gubernamentales. Se pueden encontrar referencias a las listas de tales categorías en el libro de P.M. Hauser y W. R. Leonard entre las referencias de la página 35. EJERCICIOS 2.7 Los pesos de los jugadores de un equipo de futbol americano varían entre 168 y 266 libras. Indique los límites de once clases en que se podrían agrupar estos pesos. 2.8 Las medidas del punto de ebullición de un saborizante en extracto, dadas a la décima de grados Celsius más cercana, varían entre 148.2º y 160.6º. Indique los límites de clase en que se podrían agrupar estas medidas. 2.9 Las ganancias semanales de los empleados a destajo de una fábrica de muebles varían entre $227.82 y $396.05. Indique los límites de siete clases en que se podrían agrupar estos valores. 2.10 Los números de asientos de autobús en los viajes de Filadelfia a Baltimore se agrupan en una tabla con las clases 0-4, 5-9, 10-14, 15-19, 20-24 y 25 o más. ¿Será posible determinar exactamente, a partir de esta tabla, los viajes de autobús en los que hubo (a) por lo menos 10 asientos vacíos; (b) más de 10 asientos vacíos; (c) más de 14 asientos vacíos; (d) por lo menos 14 asientos vacíos; (e) exactamente 9 asientos vacíos? de frecuencias con las clases $0.00-4.99, $5.00-9.99, $10.00-14-99, $15.00-19.99, $20.00-24.99 $25.0029.99 y $30.00 y más altas. ¿Es posible determinar, con base en esta proporción, las compras valoradas a (a) menos de $10.00; (b) $10.00 o menos; (c) más de $25.00; (d) $25.00 o más? 2.12 La siguiente es la distribución de los pesos de 125 muestras de mineralé's recolectadas en una investigación de campo: Peso en gramos Número de especímenes O.O- 19.9 20.0- 39.9 40.0- 59.9 60.0- 79.9 80.0- 99.9 100.0-119.9 120.0-139.9 16 38 35 20 Total 125 2.11 El administrador de una oficina de correos ha agrupado los valores de las compras de timbres en una distribución SEC. 2.2 I 11 4 1 DISTRIBUCIONES DE LA FRECUENCtA 25 Si es posible, encuentre cuántas de las muestras pesan como máximo (a) 59.9 gramos; (b) más de 59.9 gramos; (c) más de 80.0 gramos: (d) 80.0 gramos o menos; (e) exactamente 70.0 gramos; (f) cualquier valor de 60.0 a 100.0 gramos. 2.13 Los números de enfermeras en servicio cada día en un hospital se agrupan en una distribución que tiene las clases 15-29, 30-44, 45-59, 60-74 y 75-89. Encuentre (a) los límites de clase; (b) las fronteras de clase; (c) las marcas de clase; (d) el intervalo de clase de la distribución. Agrupe estas calificaciones en una distribución que tenga las clases 20-29, 30-39, 40-49, 50-59, 60-69, 70-79, 8089 y 90-99. 2.20 Convierta la distribución obtenida en el ejercicio anterior en una distribución porcentual. 2.21 Convierta la distribución obtenida en el ejercicio 2.19 en una distribución acumulativa de "menos de", comenzando por "menos de 20". 2.22 Los siguientes son los pesos corporales (en gramos) de 50 ratas usadas en un estudio de deficiencias vitamínicas: 136 125 135 137 126 129 2•.14 Los valores declarados de los paquetes enviados por correo de Gran Bretaña a Estados Unidos se agrupan en una distribución con las clases $0.00-49.99, $50.00-99.99, $100.00-149.99, $150.00-199.99, $200.00-249.99, $250.00-299.99 y $300.00 y más. Encuentre (a) los límites de clase; (b) las fronteras de clase; (c) las marcas de clase; (d) el intervalo de clase de la distribución. 2.15 2.16 Las marcas de clase de una distribución del número de asaltos rl?gistrados diariamente en una delegación de policía son 4, 13, 22, 31 y 40. Si los intervalos de clase son iguales, encuentre (a) las fronteras de clase; (b) los límites de clase. Para agrupar datos sobre el número de días lluviosos registrados por una estación climatológica para el mes de agosto durante los últimgs seis días, un meteorólogo usa las clases 0-5, 6-11, 12-,16, 18-24 y 24-30. Explique en dónde pueden surgir las dificultades. 2.18 Para agrupar las ventas que varían entre $10.00 y $60.00, un dependiente utiliza las clasificaciones siguientes: $10.00-19.99, $20.00-35.99, $35.00-49.90 y $50.0059.99. Explique en dónde pueden surgir las dificultades. 2.19 Las siguientes son las calificaciones que obtuvieron 40 estudiantes en una prueba de psicología: 75 89 66 52 90 68 83 94 77 60 38 47 87 65 97 49 65 72 73 81 63 77 31 88 74 37 85 76 74 63 69 72 91 87 76 58 63 70 72 65 26 CAP. 2 11s 115 127 95 100 113 118 101 103 146 113 95 121 129 110 126 106 148 137 87 126 119 125 132 108 118 119 117 120 110 82 105 102 104 133 104 132 146 Agrupe estos pesos en una distribución que tenga las clases 80-89, 90~99, 100-109, ... y 140-149. 2.23 Convierta la distribución obtenida en el ejercicio anterior en una distribución porcentual. 2.24 Convierta la distribución obtenida en el ejercicio 2.22 en una distribución acumulativa de "o más", comenzando por "80 o más". 2.25 Los siguienteS son los números de clientes de un restaurante a quienes se les sirvió almuerzo en 120 días laborales: Las marcas de clase de una distribución de VCRs (grabadoras de video cassette),reparadas diariamente por un centro de servicio regional del fabricante son 6, 19, 32 y 45. Si los intervalos de clase son iguales, encuentre (a) las fronteras de clase; (b) los límites de clase. 2.17 92 119 126 120 118 124 50 64 46 55 64 59 60 48 54 62 59 57 61 59 61 46 62 59 62 52 56 43 61 59 55 66 51 45 50 55 59 56 67 56 56 62 67 76 74 49 63 52 63 59 57 52 78 62 60 41 61 57 53 57 64 60 61 68 52 58 55 73 65 60 57 52 58 47 60 66 49 63 71 65 58 58 57 53 62 66 64 51 64 43 60 69 61 59 63 48 63 53 63 58 65 55 63; 58 53 42 61 60 53 63 58 54 60 61 64 65 56 47 51 62 66 56 64 67 55 54 Agrupe estas cifras en una distribución que tenga las cla- ses 40-44, 45-49, 50-54, 55-59, 60-64, 65-69, 70-74 y 7579. 2.26 2.27 RESUMEN DE DATOS: DISTRIBUCION DE LA FRECUENCIA Convierta la distribución obtenida en el ejercicio anterior en una (a) distribución porcentual; (b) distribución porcentual acumulativa de "menos de". Las siguientes son las millas por galón obtenidas con 40 tanques de gasolina llenos: 24.5 23.7 24.6 23.9 24.9 23.6 24.1 24.4 23.9 24.2 24.8 24.7 24.1 24.7 24.7 25.0 23.9 24.4 24.9 24.1 22.9 25.1 24.5 25.0 22.8 24.7 24.6 25.7 24.8 23.1 23.8 23.3 23.6 24.5 25.3 25.2 24.3 24.0 23.4 24.6 Agrupe estas cifras en una distribución que tenga las clases 22.5-22.9, 23.0-23.4, 23.5-23.9, 24.0-24.4, 24.524.9, 25.0-25.4 y 25.5-25.9. 2.28 Convierta la distribución obtenida en el ejemplo anterior en (a) una distribución acumulativa de "más de"; (b) una distribución porcentual acumulativa de "más de". 2.29 En una autopista hubo 1, O, 3, 2, 3, 5, 3, O, 2, 7, O, 4, 3, 1, 3, 1, 5, 3, 4, 4, 2, 1, 3, 1, 2, 2, 1, O, 2, O, O, 1, 1, 2, 4, 5, 3, 4, 3, 4, 3, 3, 5, 2, 1, 6, 1, 2, 4 y 6 accidentes de tránsito durante cincuenta tardes en horas pico. Elabore una distribución que demuestre en cuántas tardes se registraron O, 1, 2, 3, 4, 5, 6 o 7 accidentes. 2.30 Una auditoría de 60 facturas de venta reveló O, O, 2, O, 2, 1, O, 1, 3, 1, 2, O, 1, 1, O, 1, O, 3, 1, 4, 1, 1, O, O, O, O, 1, O, 3,2,0, 1,0,0, 1,2,2, 1,0,0,3, 1,0,0,2,0,2, 1, 1,2,0, 4, 2, O, 1, O, O, 1, O y· 1 errores en la cotización de los precios. Estructure una distribución que demuestre en cuántas de las facturas hubo O, 1, 2, 3 o 4 errores. 2.31 Convierta la distribución obtenida en el ejemplo anterior en una distribución acumulativa de "menos de". 2.32 Una encuesta efectuada en un hotel de Nueva York indicó que 40 huéspedes llegaron en los medios de transporte siguientes: automóvil, automóvil, autobús, avión, tren, autobús, autobús, avión, automóvil, avión, avión, autobús, avión, automóvil, automóvil, tren, tren, automóvil, automóvil, automóvil, automóvil, avión, avión, automóvil, autobús, automóvil, autobús, automóvil, avión, automóvil, avión, avión, automóvil, automóvil, automóvil, autobús, tren, automóvil, autobús y automóvil. Estructure una distribución categórica que demuestre las frecuencias correspondientes a los diferentes medios de transporte. 2.33 En una distribución categórica, los vestidos de mujer se clasifican de acuerdo con la tela con la que se hicieron, lana, algodón, seda o fibras sintéticas. Explique en dónde pueden surgir las dificultades. 2.3 REPRESENTACIONES GRAFICAS Cuando las distribuciones de la frecuencia se estructuran principalmente para condensar conjuntos numerosos de datos y representarlos en una forma "fácil de asimilar", por lo general es mejor presentarlos gráficamente. Una fotografía dice más que mil palabras y esto era verdadero antes· de la popularidad actual de las gráficas por computadora, en la que los paquetes de software tratan de superar sus competidores mediante la elaboración de representaciones gráficas de datos estadísticos. Én el caso de las distribuciones de la frecuencia, la forma de representación gráfica más común es el histograma, como el que presentamos en la figura 2.2. Los histogramas se elaboran representando las medidas u observaciones agrupadas (en la figura 2.2, los datos de la emisión de óxidos de azufre) en una escala horizo~tal y las frecuencias de clase en una escala vertical y trazando rectángulos cuyas bases equivalgan a los intervalos de clase y cuyas alturas correspondan a las frecuencia de clase. (No hay nada sagrado acerca de esta disposición y, de ser conveniente, la escala de medida y las frecuencias de clase se pueden representar como en la impresión por computadora de la figura 2.3.) Las marcas sobre la escala horizontal de un histograma pueden ser los límites de clase como en la figura 2.2, las fronteras de clase, las marcas de clase o valores clave arbitrarios. Para facilitar la lectura, usualmente es preferible mostrar los límites de clase, aunque los rectángulos en realidad van de una frontera de clase a la siguiente. Nótese que no se pueden diseñar los histogramas para distribuciones con clases abiertas y SEC. 2.3 I REPRESENTACIONES GRAFICAS 27 FIGURA 2.2 Histograma de la distribución de los datos de la emisión de óxidos de azufre. que requieren de especial atención cuando no todos los intervalos de clase son iguales (véase ejercicio 2.39, página 32). Los datos que llevaron a la figura 2.2 fueron fáciles de agruparse porque sólo había 80 valores en la muestra. En el caso de conjuntos de datos en realidad cuantiosos, puede MTB SET,Cl '> DATA> 15,. á DATA> 22.1 DATA> 26,8 DJ\.TA>; 19.1 DATA> ,Ül.5 DATA> 14.4 DATA> a.3 DATA> 25.9 MTB >' HIST Cl 26.4 9.8 22.7 lS.2 23.0 29.6 21.9 10.5 6 ,95 ,4,;-0 17.3 6.2 i0. ~ cr 22:9 24.6 19.4 12.J/ 15.9 i, 11. 2 14. 7, 20.s 26.6 20.l 17.0 22,. ~ 27.5 23.9 17.S 11.0 20.4 16.2 20.8 13.3 18;1 24.8 26.l 20.9 21.4 18. o. 24.3 11.8 17.9 18.7 12.a 15.5 19.2 7.7 22.5 19.3 9.4 13.9 28.6 19.4 21.6 13.5 24.6 20.0 24.1 9.0 17.6 16.7 16.9 23.S 18.4 25.7 20.1 CJ FIGURA 2.3 Impresión por computadora para la elaboración del histograma de los datos de la emisión de óxidos de azufre. 28 CAP. 2 f RESUMEN DE DATOS: DISTRIBUCION DE LA FRECUENCIA 13.2 23.7 10.7 19.0 14.5 18.l 31.8 28.S FIGURA 2.4 Gráfica de barras de la distribució11 de los datos de la emisió11 óxidos de azufre. ser conveniente elaborar histogramas directamente a partir de los datos en bruto usando un paquete de computación adecuado. Por ejemplo, la figura 2.3 presenta un histograma de los datos de la emisión de óxidos de azufre creado por computadora. t Como se puede apreciar en el comando "HIST C 1 6.95 4.0", la primera marca de clase es de 6,95 y el intervalo de clase es 4, de modo que las clases están dispuestas como en la tabla de la página 22. En comparación con la figura 2.2, el diagrama que está a su lado en realidad no es un histograma de acuerdo con la definición que mencionamos. No obstante, combina algunas de las características de las figuras 2.4 y 2. 7 y representa la misma idea. Las gráficas de barras, como la que aparece en la figura 2.4, son parecidas a los histogramas. Las alturas de los rectángulos o barras representan las frecuencias de la clase como un histograma, pero no hay motivo para tener una escala horizontal continua. Otra forma de representación gráfica de uso menos común es el polígono de frecuencias, como el que se presenta en la figura 2.5. Aquí, las frecuencias de clase están trazadas en las marcas de clase y los puntos sucesivos están unidos con líneas rectas. Nótese que agregamos clases con frecuencia cero en ambos extremos de la distribución para "sujetar" la gráfica a la escala horizontal. Si aplicamos una técnica similar a una distribución acumulativa, obtenemos lo que se conoce como una ojiva. Sin embargo, en una ojiva, las frecuencias acumulativas se trazan en las fronteras de clase en lugar de hacerlo en las marcas de clase; es obvio que la frecuencia acumulativa correspondiente a, digamos, "menos de 13.0" se debería trazar en la frontera de clase 12.95, ya tEn la impresión de la figura 2.3 y otras que se presentan en este texto, las palabras y los números parecen referirse a los aspectos técnicos de la operación del programa de computación particular empleado. Si tiene acceso a una computadora, el lector debería referirse a los manuales pertinentes de instrucciones de operación y una lista de problemas para poder resolver con los programas existentes. Los usuarios capacitados pueden crear los programas necesarios. SEC. 2.3 I REPRESENTACIONES GRAFICAS 29 FIGURA 2.5 Polígono de frecuencias de la distribución de los datos de la emisión de óxidos de azufre. que "menos de 13.0" en realidad comprende todos los valores hasta 12.95. La figura 2.6 presenta una ojiva de la distribución acumulativa de "menos de" obtenida que aparece en la página 24 para los datos de la emisión de los óxidos de azufre. A pesar de que el atractivo visual de los histogramas, gráficas de barras, polígonos de frecuencias y ojivas es un claro avance sobre las tablas simples, hay varias maneras de presentar las distribuciones de un modo más dramático y a menudo con mayor efec- Ojiva de la distribución acumulativa de los datos de la emisión de óxidos de azufre. FIGURA 2.6 30 CAP. 2 / RESUMEN DE DATOS: DISTRIBUCION DE LA FRECUENCIA FIGURA 2.7 Pictograma de la población de Estados Unidos. tividad. Un ejemplo de·tales representaciones pictóricas (frecuentemente vistas en los diarios, revistas e informes de varios tipos) es el pictograma de la figura 2.7. A menudo, las distribuciones categóricas (o cualitativas) se representan gráficamente como gráficas circulares, como la que aparece en la figura 2.8, donde se divide un círculo en secciones (partes en forma de segmento) que son proporcionales entamaño con las frecuencias o los porcentajes correspondientes. Para elaborar una gráfica circular, primero convertimos la distribución en una distribución porcentual. Luego, ya que un círculo completo corresponde a 360 grados, obtenemos los ángulos centrales de varias secciones multiplicando los porcentajes por 3.6. FIGURA 2.8 Producción de energía eléctrica de Estados Unidos en 1982. SEC. 2.3 I REPRESENTACIONES GRAFICAS 31 Muchas computadoras están programadas con anticipación de modo que, una vez que se han capturados los datos, un simple comando producirá una gráfica circular o variaciones de la misma. Algunas gráficas circulares creadas por computadora utilizan colores, algunas son tridimensionales, algunas cortan secciones (como rebanadas de pastel) para hacer énfasis y algunas sombrean o entintan las diferentes secciones. La investigación sobre la capacidad para leer representaciones gráficas ha sugerido que los usuarios no capacitados presentan problemas para interpretar las gráficas circulares. Comparar la información de dos gráficas circulares adyacentes es particularmente difícil. La comparación de las alturas de barras de los histogramas es más bien fácil. Se recomienda usar las gráficas circulares sólo en raras ocasiones y con extrema precaución. EJERCICIOS 2.34 La siguiente es la distribución de la facturación mensual de 200 cuentas de una tienda departamental: Importe en dólares 2.37 Convierta la distribución del ejercicio anterior en una distribución acumulativa de "menos de" y trace ~na ojiva. 2.38 Frecuencia Medios de transporte 22 47 66 35 21 0.00- 19.99 20.00- 39.99 40.00~ 59.99 60.00- 79.99 80.00- 99.99 100.00-119.99 (a) Trace un histograma de esta distribución. (b) Trace una gráfica de barras de esta distribución. Convierta la distribución del ejercicio anterior en una distribución acumulativa de "menos de" y trace una ojiva. 2.36 La siguiente es la distribución de los pesos de 150 mujeres que ingresaron a una universidad: 82 13 2 3 Elabore una gráfica circular para esta distribución porcentual. -· 2.39 La figura 2.9 presenta la distribución de las calificaciones de 80 principiantes de una universidad en un examen de clasificación de conocimientos de lenguas extranjeras. Explique por qué se podría dar con facilidad una impresión errónea e indique cómo se podría mejorar. Peso en libras Frecuencia 90- 99 100-109 110-119 120-129 130-139 140-149 150-159 160-169 170-179 180-189 Porcentaje Viaja solo Viaja en grupo en automóvil Viaja en autobús Varios o trabajan en casa 9 2.35 La siguiente tabla demuestra cómo viajan a su trabajo los trabajadores en Denver, Colorado. 28 6 25 46 37 22 7 3 3 o 1 50-59 60-69 70-79 80-99 Calificaciones en el examen de clasificación (a) Trace lin histograma de esta distribución. (b) Trace un polígono de frecuencias de esta distribución. 32 CAP.2 I RESUMENDEDATOS:DISTRIBUCIONDELAFRECUENCIA FIGURA 2.9 Distribución de las calificaciones en el examen de clasificación de conocimientos de lenguas extranjeras. 2.42 Aquí, de nuevo, presentamos las calificaciones (del ejer- ~ cicio 2.19) que obtuvieron 40 estudiantes en una prueba de psicología: 75 38 63 69 89 47 77 72 66 87 31 91 52 65 88 87 90 97 74 76 68 49 37 58 83 65 85 63 94 72 76 70 77 73 74 72 60 81 63 65 Utilice un paquete de computación para elaborar un histograma con las e fases 20-29, 30-39, 40-49, 50-59, 60-69, 70-79, 80-89 y 90-99. Elabore también un histograma con las clases 20-39, 40-59, 60-79 y 80-99. ¿Qué histograma prefiere? Ingreso familiar 2.43 FIGURA 2.10 Pictograma para el ejercicio 2.40 2.40 2.41 El pictograma de la figura 2.1 O pretende ilustrar que en cierta región, el ingreso familiar promedio se ha duplicado de $7,000 en 1970 a $14,000 en 1982. Explique por qué este pictograma da una impresión errónea y señale cómo se podría modificar. Elabore una gráfica circular de la siguiente distribución, que presenta los números de vehículos de motor registrados en una oficina estatal: Tipo de vehículo Automóvil de pasajeros Mini van Camión de dos ejes Camión multiejes Motocicleta Lancha de motor ~ 2.44 ~ Utilice un paquete de computadora para elaborar un histogramacon las clases 40-44, 45-49, 50-54, 55-59, 60-64, 65-69, 70-74 y 75-79 para el número de clientes del almuerzo del ejercicio 2.25. Utilice un paquete de computadora para elaborar un histograma con las clases 22.5-22.9, 23.0-23.4, 23.5-23.9, 24.0-24.4, 24.5-24.9, 25.0-25.4 y 25.5-25.9 para los datos de millas por galón del ejercicio 2.27 de las páginas 26-27. Niímero 248 62 42 12 55 9 Total 2.4 REVISION DE TERMINOS CLAVEt (con referencias de página a sus definiciones) Análisis exploratorio de datos, 17 Clases, 20 Clases abiertas, 21 Datos en bruto, 20 Distribución, 19 Distribución acumulativa, 24 tLos ténninos que se presentan en los ejercicios aparecen en negritas. SEC. 2.4 I REVISION DE TERMINOS CLAVE 33 Distribución categórica, 19 Distribución cualitativa, 19 Distribución cuantitativa, 19 Distribución de la frecuencia, 19 Distribución numérica, 19 Distribución porcentual, 23 Distribuciones porcentuales acumulativas, 25 Frecuencias de clase, 22 Fronteras de clase, 22 Gráfica de tronco y hoja, 15 Gráficas circulares, 31 Gráficas de barras, 29 Histograma, 27 Intervalos de clase, 23 Límites de clase, 22 Límites de clase inferior, 22 Límites de clase reales, 22 Límites de clase superior, 22 Marcas de clase, 23 Ojiva, 29 Pictograma, 31 Polígono de frecuencia, 29 Representación gráfica de doble tronco. 17 2.5 EJERCICIOS DE REVISION 2.45 Las marcas de clase de una distribución del número de llamadas recibidas a diario por una pequeña compañía de taxis son 18, 25, 32, 39,46y 53. ¿Cuáles son los límites de clase si todos los intervalos de clase son iguales? 2.46 Los siguientes son los números de venados observados en 72 sectores de tierra en un conteo de vida silvestre: 18 13 8 2 21 15 8 19 12 16 o 10 9 o 13 11 16 16 22 2 21 18 12 14 12 14 8 10 20 29 16 17 11 28 17 17 20 11 19 15 13 4 33 15 18 16 1 14 24 8 20 10 18 21 21 13 4 20 16 10 (a) (b) (c) (d) 2.51 13 6 16 7 5 10 16 9 18 12 19 6 por lo menos 79 personas; más de 79 personas; 40 o más personas; a lo sumo 120 personas? La siguiente es la distribución del número de alimentos que 60 vendedores de bienes raíces cobraron como gastos de representación comercial en una semana dada: Número de las medidas 0-1 2-3 4-5 6-7 8-9 Agrupe estos datos en una distribución que tenga las clases 0-4, 5-9, 10-14, 15-19, 20-24, 25-29 y 30-34. 2.47 Elabore un histograma de la distribución obtenida en el ejercicio anterior. 2.48 Convierta la distribución del ejercicio 2.46 en una distribución acumulativa de "o menos" y trace una ojiva. 2.49 Las edades de los empleados de una compañía se deben agrupar en las clases siguientes: menores de 19, 20-24, 25-29, 30-34, 34-39 y mayores de 39 años. Explique en dónde podrían surgir dificultades. 2.50 El número de personas que asiste cada día a una exposición de arte se agrupan en una distribución con las clases 0-39, 40-79, 80-119 y 120-159. ¿Es posible determinar a partir de esta distribución en cuántos días asistieron a la exposición 34 CAP. 2 I RESUMEN DE DATOS: DISTRIBUCION DE LA FRECUENCIA Frecuencia 16 25 13 4 2 Encuentre (a) las marcas de clase; (b) las fronteras de clase; · (c) el intervalo de clase de la distribución. 2.52 Convierta la distribución del ejercicio anterior en una distribución porcentual acumulativa de "o más" y trace una gráfica de barras. 2.53 En 1982, las 1,572 orquestas de Estados Unidos, incluyeron 385 orquestas universitarias, 919 orquestas comunitarias, 94 orquestas urbanas, 110 orquestas metropolitanas y otras 64. Presente esta información en forma de una (a) gráfica de barras; (b) gráfica circular. 2.54 *2.55 En 1986, los salarios anuales pagados a los profesores de un distrito escolar variaron entre $18,400 y $32,600. Indique los límites de seis clases, cada una con un intervalo de $2,500, en el cual se podrían agrupar estos salarios. 2* 2· 3* Entre los histogramas, gráficas de barras y gráficas circulares, ¿cuáles se pueden usar para representar: (a) datos nominales; (b) datos ordinales; (c) datos de intervalo? 2.56 Las medidas de longitud del pescado que se dan a la décima de pulgada más cercana se agrupan en una tabla cuyas clases tienen las limitaciones 5.95, 7 .95, 9.95, 11.95, 13.95 y 15.95. ¿Cuáles son los límites inferiores y superiores de cada clase? 2.57 Al preguntar a cincuenta residentes de una comunidad si alguna vez habían asistido a las juntas del consejo del pueblo, éstos respondieron: nunca, ocasionalmente, rara vez, rara vez, nunca, rara vez, ocasionalmente, a menudo, nunca, rara vez, rara vez, rara vez, ocasionalmente, rara vez, ocasionalmente, nunca, nunca, rara vez, a menudo, nunca, nunca, rara vez, ocasionalmente, ocasionalmente, rara vez, rara vez, nunca, nunca, rara vez, rara vez, a menudo, ocasionalmente, ocasionalmente, nunca, rara vez, nunca, rara vez, rara vez, ocasionalmente, rara vez, nunca, nunca, rara vez, ocasionalmente, nunca, rara vez, rara vez, ocasionalmente, rara vez y nunca. Elabore una distribución categórica y trace una gráfica circular. 2.58 (a) 125 (b) 34 (c) ¡* 1. Haga una lista de los datos que corresponden a los siguientes sistemas de representaciones gráficas de tronco y hoja: 3· 4* 1 1 3 67 o 4 05 8 19 7 48 6 6 5 o 8 2 9 6 4 6 3 8 2 7 7 o 7 2 3 7 5 2.59 Los siguientes son los números de alarmas falsas (reportadas accidentalmente o por mal funcionamiento del equipo) que un servicio de supervisión de seguridad recibió en treinta días: 3, 6, 2, 4, 5, 8, 2, 5, 6, 3, 4, 7, 4, 6, 5, 5, 5, 4, 3, 7, 4, 4, 6, 3, 9, 5, 7, 4, 4 y 6. Elabore una distribución de frecuencias. 2.60 Estructure un histograma de la distribución obtenida en el ejercicio anterior. 2.61 Las siguientes son las presiones sanguíneas sistólicas de veinte pacientes hospitalizados: 165, 135, 151, 153, 155, 182, 142, 158, 146, 149, 124, 162, 173, 204, 159, 130, 177, 162, 141 y 156. Elabore una representación gráfica de tronco y hoja con hojas de unidades. 2.62 En una encuesta, se preguntó a las personas si (1) terminaron el bachillerato; (2) terminaron la universidad; (3) tienen estudios de posgrado. Explique en dónde podrían surgir las dificultades. 2.6 REFERENCIAS Se puede encontrar información acerca de las gráficas estadísticas en CLEVELAND, W. S., The Elements ofGraphing Data. Monterey, Calif.: Wadsworth Advanced Books and Software, 1985. SCHMID, C. F., Statistical Graphics: Design Principies and Practices. Nueva York: John Wiley & Sons, Inc., 1983. TUFrE, E. R., The Visual Display of Quantitative lnformation, Chesshire, Conn.: Graphics Press, 1985. y cierta información de interés referente a la historia de la representación gráfica de los datos estadísticos aparece en un artículo de E. Royston en PEARSON, E. S. y KENDALL, M. G., editores, Studies in the History of Statistics and Probability. Nueva York: Hafner Press, 1970. SEC. 2.6 I REFERENCIAS 35 Se pueden encontrar estudios sobre lo que no se debe hacer en la presentación de datos estadísticos en CAMPBELL, S. K., F/aws and Fallacies in Statistical Thinking. Englewood Cliffs, N. J.: Prentice-HaU, Inc., 1974. HUFF, D., How to Lie with Statistics. Nueva York: W. W. Norton & Company, Inc., 1954. REICHMAN, Wd., Use andAbuse ofStatistics. Nueva York: Penguin Books, 1971. Se encuentran útiles referencias a listas de las categorías estándar en HAUSER, P.M. y LEONARD, W. R., Govemment Statisticsfor Business Use, segunda edición, Nueva York: John Wiley & Sons, Inc., 1956. Para obtener información acerca del análisis exploratorio de datos y las representaciones gráficas de.tronco y hoja en particular, véase. HARTWIG, F. y DEARING, 8. E., Exploratory Data Analysis. Beverly Hills, Calif.: Sage Publications, Inc., 1979. HOAGLIN, D. C., MOSTELLER, F. y TuKEY, J. W., Understanding Robustand Exploratory Data Analysis. Nueva York: John Wiley & Sons, lnc., 1983. KOOPMANS, L. H., An Introduction to Contemporary Statistics. Boston: uuxbury Press, 1981. TUKEY, J. W., Exploratory Data Analysis. Reading, Mass.: Addison-Wesley Publishing Company, Inc., 1977. VELLEMAN, P. F. y HoAGLIN, D. C., Applications, Basics, and Computing for Exploratory DataAnalysis. North Scituate, Mass.: Duxbury Press, 1980. 36 CAP. 2 I RESUMEN DE DATOS: DISTRIBUCION DE LA FRECUENCIA RESUMEN DE DATOS: MEDIDAS DE TENDENCIA 3.1 Poblaciones y muestras 38 3.2 La media 39 3.3 La media ponderada 43 3.4 La mediana 47 3.5 Otros fractiles * 50 3.6 La moda 55 3.7 La descripción de datos agrupados* 58 3.8 Nota técnica (sumatorias) 64 3.9 Revisión de términos clave 65 3.10 Ejercicios de revisión 66 3.11 Referencias 68 Cuando describimos un conjunto de datos, no tratamos de expresar ni demasiado ni muy poco. Dependiendo de los fines que deben satisfacer, las descripciones estadísticas pueden ser breves o elaboradas. En ocasiones, los datos se presentan en su forma original y se permite que hablen por sí mismos. Otras veces, éstos se presentan como distribución de la frecuencia o bien como gráficas. No obstante, la mayoría de las veces se deben describir mediante uno o dos números cuidadosamente seleccionados. A menudo es necesario resumir los datos por medio de un número único, que describe a su modo el conjunto entero. El tipo de número que seleccionamos depende exactamente de la característica particular que queremos describir. Tal vez en un estudio nos interese el valor que sólo el 25% de los datos excede; en otro, en el valor que excede el 10% inferior de los datos: y en otro más, en un valor que describa en cierta forma el centro o punto medio de los datos. Las medidas estadísticas que describen tales características se conocen como medidas de localización o de tendencia; entre éstas, las que describen el centro o punto medio de los datos se llaman medidas de localización central. En las secciones 3.2, 3.3, 3.4 y 3.6, presentamos cuatro de las medidas de localización central más empleadas; en las secciones 3.5 y 3.7, que son opcionales, se analizan medidas de localización distintas de la localización central y la descripción de los datos agrupados. 3.1 POBLACIONES Y MUESTRAS Antes de estudiar descripciones estadístícas particulares, permítanos hacer la siguiente diferencia: Si un conjunto de datos consta de todas las observaciones concebibles (o hipotéticamente) posibles de un fenómeno determinado, lo llamamos una población; si un conjunto de datos consiste sólo en una parte de estas observaciones, se le conoce como una muestra. Aquí, agregamos la frase "hipotéticamente posibles" para tomar las precauciones necesarias en cuanto a dichas situaciones evidentemente hipotéticas como cuando observamos los resultados (caras o cruces) de 12 lanzamientos de una moneda al aire como una muestra del número potencialmente infinito de lanzamientos de una moneda al aire, cuando observamos los pesos de todos los carneros (del pasado, el presente y el futuro) de 30 días de edad criados en un rancho determinado o cuando observamos cuatro determinaciones del contenido de uranio de un mineral como una muestra de las muchas determinaciones que de modo concebible se podrían hacer. De hecho, observamos Jos resultados de un experimento como una muestra de lo que podríamos obtener si repitiéramos el experimento una y otra vez. Originalmente, la estadística manejaba la descripción de poblaciones humanas, contabilidades de censo y actividades similares (véase página 5), pero conforme su alcance se tornó más amplio, el término "población" cobró la más vasta connotación de sus orígenes. Ya sea que parezca extraño o no referirse como poblaciones a las alturas de todos los árboles de un bosque o las velocidades de todos los automóviles que pasan 38 CAP. 3 I RESUMEN DE DA TOS: MEDIDAS DE TENDENCIA por un punto de revisión, esto es ajeno al punto en cuestión; en estadística, "población" es un término técnico que cuenta con un significado propio. · A pesar de que somos libres de designar cualquier grupo de artículos como una población, lo que se hace en la práctica depende del contexto en el que se deben considerar los artículos. Por ejemplo, suponga que se nos ofrece un lote de 400 losetas cerámicas, que podemos comprar o no dependiendo de su dureza. Si medimos el esfuerzo de ruptura de 20 de estas losetas para estimar la fuerza de ruptura promedio de todas las piezas, estas 20 medidas son una muestra de la población que consiste del esfuerzo de ruptura de las 400 losetas. Sin embargo, en otro contexto, si consideramos la celebración de un contrato a largo plazo para la entrega de decenas de miles de dichas losetas, observaríamos los esfuerzos de ruptura de las 400 piezas originales sólo como muestra. De modo similar, podemos observar como una población o una muestra las cifras completas de un año reciente, considerando los intervalos entre las solicitudes y los mandatos de las demandas de divorcio del Condado de San Diego. Si sólo nos interesaran el Condado de San Diego y ese año particular, observaríamos los datos como úna población; por otro lado, observaríamos_Ios datos como una muestra si deseáramos generalizar el tiempo que se requiere para el mandato de divorcio en todo Estados Unidos, en algún otro condado o en algún otro año. Como la hemos aplicado aquí, la palabra "muestra" tiene en gran medida el mismo significado que en el lenguaje coloquial. Un periódico considera que las actitudes de 150 lectores hacia una fianza escolar propuesta son una muestra de las actitudes de todos sus lectores hacia la fianza. Un consumidor consid.era un paquete de dulces Mrs. See como una muestra del producto de la empresa. Más tarde, debemos usar la palabra "muestra" sólo para ~eferirnos a datos que pueden servir razonablemente como la base para generalizar acerca de las poblaciones de su origen; en este sentido más técnico, muchos conjuntos de datos que por lo regular se conocen como muestras no lo son en absoluto. En este capítulo y el capítulo 4, debemos describir las cosas estadísticamente sin hacer ninguna generalización. No obstante, para referencia futura, aún aquí es importante distinguir entre poblaciones y muestras. Así, debemos utilizar distintos símbolos dependiendo de lo que se describa, poblaciones o muestras. 3.2 LAMEDI~ La medida más popular de la tendencia central es lo que el lego llama un "promedio" y lo que los estadistas llaman media aritmética o solamente una media. t Esta se define como sigue: La media den números es la suma de los mismos dividida ~ntre n. tEl término "media aritmética" se utiliza principalmente para distinguir la media de la media geométrica o la media armónica, otros dos tipos de promedios que se usan sólo en situaciones muy especiales (véanse los ejercicios 3.17 y 3.18}. SEC. 3.2 I LA MEDIA 39 Es correcto usar el término "promedio" y en su momento, lo debemos aplicar, pero en la estadística existen otros tipos de promedios y no podemos darnos el lujo de hablar vagamente cuando es latente cualquier riesgo de ambigüedad. EJEMPLO Durante los 12 meses de 1990, un departamento de policía registró 4, 3, 5, 5, 10, 8, 9, 6, 3, 4, 8 y 7 asaltos a mano armada. Obtenga la media, expresamente, el número promedio de asaltos a mano armada por mes. Solución El total para los 12 meses es de 4 + 3 + 5 + 5 + 10 + 8 + 9 + 6 + 3 + 4 + 8 + 7 = 72 y por tanto 72 media=-= 6 12 EJEMPLO El gerente de un supermercado, quien desea estudiar la "concurrencia" a su tienda, encuentra que 295, 1002, 941, 768 y 1283 personas entraron a la tienda durante los pasados cinco días. Obtenga la media de personas que entró al supermercado durante estos cinco días. Solución El total de personas que entró al supermercado durante los cinco días anteriores es de 295 + 1002 + 941+768 + 1283 =4289. Dado que 4289 =857.8, ésta es la media (o el 5 promedio) de personas que entró a la tienda por día. Ya que debemos tener la ocasión de calcular las medias de muchos conjuntos diferentes de datos simples, será conveniente contar con una fórmula sencilla que siempre se pueda aplicar. Esto implica que representemos las cifras a promediar con algún símbolo general, como x, y o z; el número de valores de una muestra, el tamaño de la muestra, usualmente es representado con la letra n. Seleccionando la letra x, podemos referirnos a los n valores de una muestra como x 1, x 2,. •., y x,, (que se leen como "x subuno", "x sub-dos",. .., y "x sub-n"), y se expresan como media de la muestra X¡ + X2 + X3 + · · · + X 11 n Esta fórmula se podrá aplicar a cualquier conjunto de datos muestrales, pero se puede hacer más compacta asignando a la media de la muestra el símbolo X: (que se lee "x barra") y usando la notación L. El símbolo Les sigma mayúscula, la letra griega equivalente a la S. En esta notación, consideramos L x como "la suma de las x's" (esto es, L x = x1 + x2 + ... + Xn ), y se,puede expresar como - l:x Mediade la muestra x=~- n Si nos referimos a las medidas como y's o z's, expresamos su media como y o z. En la no establece explícitamente qué valores de x se suman; fórmula para x el término sin emiJargo, comprendamos que L x siempre se refiere a la suma de todas las x' s que u 40 CAP. 3 I RESUMEN DE DATOS: MEDIDAS DE TENDENCIA se consideran en una situación determinada. Adviértase que en la nota técnica de la sección 3.8 se analiza con mayor detalle la notación de ~igma. El número de valores de una población, el tamaño de la población, por lo general se expresa como N. La media de la población de N artículos se define de la misma manera. Es la suma de N artículos, xi + x2 + X3 + ... XN, o I: x, dividida entre N. Asignando el símbolo µ (mu, la letra griega para la m minúscula), expresamos Mediade la población LX µ=N 1 con el recordatorio de que I: x ahora es la suma de todos los valores N de x que constituyen la población. t Así mismo, para diferenciar entre las descripciones de poblaciones y las descripciones de muestras, no usamos símbolos distintos tales como µ y x, sino que nos referimos a la descripción de una población como un parámetro y a una descripción de una muestra cómo un valor estadístico. Generalmente, los parámetros se expresan por medio de letras griegas. ' Para ilustrar la terminología y notaciones que presentamos en esta sección, suponga que nos interesamos en la vida media de un lote de producción de N 40,000 focos. Es evidente que no podemos probar todos los focos para que ninguno dejara de usarse o venderse, de modo que tomamos una muestra, calculamos x y usamos esta cantidad para estimarµ. Sin= 5 y los focos de la muestra duran, 967, 949, 940, 952 y 922 horas, tenemos = 967 + 949 + 940 + 952 + 922 i =----------5 946 horas Si estas vidas constituyen una muestra en el sentido técnico (es decir, un conjunto de datos del que se pueden hacer generalizaciones válidas), podemos estimar que la vida, µ de los 40,000 focos es de 946 horas. En el caso de datos no negativos, la media no sólo describe el punto medio de un conjunto de datos, sino que también establece un límite sobre su tamaño. Si multiplicamos por n ambos lados de la ecuación · x = ~ x , se deriva que I: x = n · x, por tanto, n ningún valor de x puede ser mayor que n · X. EJEMPLO Si el salario anual medio pagado a los tres ejecutivos principales de una empresa es de $156,000, ¿es posible que uno de ellos reciba $500,000? Solución Dado que n = 3 y x = $156,000, tenemos que I:x = 3 · 156,000 = $468,000 y es imposible que cualquiera de los ejecutivos gane más de esa cantidad. tEn los casos en que el tamaño de la población es ilimitado, como lo estudiamos en la sección 3.1, no se puede definir de esta manera la media de la población. La media de una población infinita se comenta en las referencias de la sección 3 .11. SEC. 3.2 I LA MEDIA 41 EJEMPLO Si nueve alumnos de bachillerato promediaron 41 en la parte verbal de la prueba PSAT/NMSQT, ¿cuántos de ellos como máximo pueden haber promediado 65 o más? Solución Ya que n =9 y x =41, tenemos que I.x =9·41 =369 y puesto que 65 entra en 369 cinco veces (369 =5 · 65 + 44), se deriva que a lo sumo cinco de los nueve estudiantes debachillerato pueden haber promediado 65 o más. La popularidad de la media como una medida del "punto medio" o "centro" de un conjunto de datos no es una coincidencia. Siempre que usamos un número único para decribir algún aspecto de un conjunto de datos, hay ciertos requerimientos o características deseables, que debemos recordar. Aparte del hecho de que la media es una medida simple y común, las siguientes son algunas propiedades que es importante considerar: Se puede calcular para cualquier conjunto de datos, luego siempre existe. Un conjunto de datos numéricos tiene una y sólo una media, entonces ésta siempre es única. Lleva a un tratamiento estadístico más a fondo; como veremos, por ejemplo, las medias de varios conjuntos de datos siempre se pueden combinar en una media general de todos los datos. Es relativamente confiable en el sentido de que las medias de muchas muestras obtenidas a partir de la misma población usualmente no fluctúan o varían tanto como otras medidas estadísticas utilizadas para estimar la media de una población. La última de estas propiedades es de esencial importancia para la inferencia estadística y la estudiaremos más detalladamente en el capítulo l O. Hay otra propiedad de la media que, en apariencia, parece deseable: Toma en cuenta todos los artículos de un conjunto de datos. No obstante, las muestras a veces contienen valores muy bajos o muy altos que son tan ajenos al cuerpo principal de los datos, que es cuestionable la conveniencia de incluirlos en una muestra. Tales valores pueden ser consecuencia del azar o de graves errores en el registro de los datos, errores de cálculo considerables, mal funcionamiento del equipo u otras fuentes identificables de contaminación. En cualquier caso, cuando se promedian dichos valores con los otros valores, pueden afectar la media en un grado tal que es discutible si en'realidad ofrece una descripción útil del "punto medio" de los datos. EJEMPLO Solución Refiriéndonos a la ilustración acerca de los focos de la página 41, suponga que se registra el segundo valor incorrectamente como 499 en vez de 949. Encuentre el error que esto originaría en el cálculo de la vida media de los cinco focos. La media de 967, 499, 940, 952 y 922 es .X = 967 + 499 + 940 + 952 + 922 = 5 42 CAP. 3 I RESUMEN DE DATOS: MEDIDAS DE TENDENCIA 856 y esto difiere de 946, la media que obtuvimos en la página 41, por 946 - 856 = 90 horas. EJEMPLO Solución Las edades de seis estudiantes que asistieron a una investigación de campo de geología son 18, 19, 20, 17, 19 y 18 años y la edad del profesor que los acompañó es de 50 años. Obtenga la edad media de estas siete personas. La media es .X= 18 + 19 + 20 + 17 + 19 + 18 + 50 7 = 23 pero cualquier aseveración en el sentido de que la edad media del grupo es 23 años se podría malinterpretar. Bien podríamos inferir erróneamente que todas las personas que asistieron a la investigación de campo tienen poco más de veinte años. Para evitar la posibilidad de confundirse con una media afectada por un valor muy bajo o muy alto, en ocasiones encontramos que es preferible describir el punto medio o el centro de un conjunto de datos con una medida estadística diferente de la media; quizá, con una mediana, que analizaremos en la sección 3.4. 3.3 LA MEDIA PONDERADA Cuando calculamos un promedio, podemos estar cometiendo un grave error si contemplamos el hecho de que no todas las cantidades tienen la misma importancia en relación con el fenómeno que se describe. Considere, por ejemplo, la siguiente información sobre el porcentaje de unidades de residencia habitadas por sus propietarios en tres ciudades de California en 1980: Porcentaje de residencias habitadas por sus propietarios Los Angeles Sacramento San José . d . L a me d rn e estos tres porcentajes es 40.3 56.4 62.1 40.3 + 56.4 + 62.1 ----·--·---3 = 52.9, pero no podemos indicar con certeza que ésta sea la tasa promedio de residencias habitadas por sus propietarios para las tres ciudades. Las tres cifras no tienen la misma importancia porque existen considerables diferencias en el tamaño de las tres ciudades. Para dar cantidades de las que se promedia su grado de importancia pertinente, es necesario asignarles pesos o valores relativos (importancia relativa) y luego calcular una media ponderada. En general, la media ponderada, .iw de un conjunto de números, SEC. 3.3 I LA MEDIA PONDERADA 43 y x., cuya importancia relativa se expresa numéricamente por medio de un conjunto de números correspondientes, wi. wi, w3, .•• , y w., se obtiene mediante la fórmula: xi. Xi, X3, ... Iw·x ¿-;- Media ponderada Aquí, I.w · x es la suma de los productos obtenidos de la multiplicación de cada x por el valor relativo correspondiente y I.w es simplemente la suma de los valores relativos. Nótese que cuando todos los valores relativos son iguales, la fórmula de la media ponderada se reduce a la fórmula de la media ordinaria (aritmética). EJEMPLO Solución Considerando que habían 1,135,000 residencias en Los Angeles, 113,000 en Sacramento y 210,000 en San José, utilice estas cifras y los porcentajes del texto anterior para determinar la tasa (porcentaje) promedio de residencias habitadas por sus propietarios para las tres ciudades. Sustituyendo Xi =40.3, Xi= 56.4, X3 mula para Xw, obtenemos iw = =62.1, w1 =1, 135, wi =113 y w3 =210 en la fór- (1,135)(40.3) + (113)(56.4) + (210)(62.1) 1,135 + 113 + 210 65,154.7 1,458 = 44.7 Nótese que el valor que obtuvimos para .iw es mucho menor que el de x, 44.7 en comparación con 52.9 y esto es consecuencia por completo del gran tamaño de Los Angeles y su baja tasa de ocupación por los propietarios. Una aplicación especial de la fórmula de la media ponderada tiene lugar cuando debemos obtener la media total o media general de k conjuntos de datos que tienen las medias de Xi. .ii, .i3, ... , y Xk y consisten en ni. ni, nJ, ... , y nk medidas u observaciones. El resultado se obtiene por medio de Media general o gran media de los datos combinados = X = n 1.i 1 + ni.Xi + · · · + nkik ~~~~~~~~~~ n 1 +ni+···+ nk donde los valores relativos son los tamaños de los respectivos conjuntos de datos, el numerador es el total de todas las medidas u observaciones y el denominador es el número total de artículos de los datos combinados. EJEMPLO 44 CAP. 3 I En una clase de biología hay 20 alumnos de primer grado, 18 de segundo y 12 de tercero. Si los estudiantes de primer grado promediaron 68 en un examen, los de segundo RESUMEN DE DATOS: MEDIDAS DE TENDENCIA J• grado promediaron 75 y los de tercero promediaron 86, obtenga la calificación media de toda la clase. Solución Sustituyendo n1=20, n2 = 18, n 3 = 12,x1=68,x2 = 75 y X3 = 86 eri la fórmula de la media general de los datos combinados, tenemos .x- = 20·68+18·75+12·86 20 + 18 + 12 ------------ 3,742 50 = 74.84 o 75 redondeando al entero más cercano. EJERCICIOS 3.1 3.2 3.3 Suponga que se nos proporciona información completa acerca de los gastos de viaje que los administradores del equipo de asesoría de computación de una empresa cargaron a sus cuentas de gastos durante 1990. Ilustre cada situación en la que estos datos se considerarían como (a) una población (b) una muestra Los resultados de la elección final de un condado demostraron que tres candidatos a una oficina recibieron 14,276, 10,210 y 2,873 votos. Indique una oficina que estos candidatos podrían buscar, de modo que estas cifras constituyeran (a) una población; (b) una muestra. Suponga que contamos con la información completa acerca del número de devoluciones de compras de cada una de 23 tiendas departamentales. Ilustre cada situación en la que estos datos se considerarían como (a) una población; (b) una muestra. 3.4 Suponga que acabamos de obtener los resultados de un cuestionario aplicado a 848 alumnos de una universidad particular. Indique una situación en la que éstos se considerarían como (a) una población; (b) una muestra. 3.5 Las siguientes son las edades de treinta personas designadas para rendir juramento: 42, 45, 51, 39, 32, 61, 27, 62, 53,51,48,40,34,37,28,58,55,43,29,39,40,22,58,28, 31, 31, 52, 44, 38 y 36 años. Obtenga su edad media. 3.6 Los siguientes son los números de perros callejeros capturados o devueltos de un asilo para animales de la ciudad en veinte días laborales: 4, 6, 8, 4, 2, 6, 4, 3, 4, 9, 5, 8, 5, 3, 5, 7, 6, 3, 8 y 6. Obtenga la media. 3.7 En un retén, se citó a doce conductores por exceder el límite de velocidad por 8, 11, 14, 6, 8, 10, 20, 11, 13, 18, 9 y 15 millas por hora. (a) ¿Por cuántas millas, en promedio, excedieron estos conductores el límite de velocidad? (b) Si un conductor que excede el límite de velocidad por menos de 15 millas por hora recibe una multa de $60 y los demás de $88, obtenga la media de las multas que estos conductores deberían pagar. 3.8 En su toma de posesión, los diez primeros presidentes de Estados Unidos tenían 57, 61, 57, 57, 58, 57, 61, 54, 68 y 51 años. Obtenga la media de las edades de esos presidentes en su toma de posesión. 3.9 Como parte de una tarea del laboratorio de nutrición, quince estudiantes determinaron el número de calorías de una porción de lasagna. Obtuvieron los valores 329, 335, 347,318,322,330,351,362,315,342,346,353,316, 327 y 333. (a) Obtenga la media. (b) Sustraiga 300 a cada valor y luego obtenga la media de los números obtenidos. Sume 300 al resultado. ¿Esto sugiere una simplificación en el cálculo de..._ una media? 3.10 Un puente está diseñado para soportar una carga máxima de 75,000 kilogramos. ¿Está sobrecargado si soporta 18 vehículos con un peso medio de 2,315 kilogramos? 3.11 Un elevador de un edificio de oficinas está diseñado para soportar una carga máxima de 1,000 kilogramos. ¿Está sobrecargado si lleva a nueve mujer~s con un peso medio SEC. 3.3 / LA MEDIA PONDERADA 45 (a) Obtenga la media geométrica de 0.8 y 3.2. (b) Obtenga la media geométrica de 1, 2, 8 y 16. (c) Durante una epidemia de gripe, se reportaron 12 casos en el primer día, 18 en el segundo y 48 en el tercero. Del primero al segundo día, el número de casos se multiplicó por : ~, y del segundo al tercer día, el número de casos se multiplicó por i~. Obtenga la media geométrica de estas dos tasas de crecimiento y (suponiendo que el patrón de crecimiento continúe) pronostique los números de casos que se registrarán en el cuarto y el quinto día. de 61.5 kilogramos y cinco hombres con un peso medio de 87 kilogramos? 3.12 Un dependiente fracasó en uno de diez intentos de venta en la última hora. El valor medio de los intentos de venta fue de $7 .20 y los nueve intentos restantes tuvieron los valores siguientes: $4.80, $7.10, $7.90, $9.55, $4.45, $5. 72, $7 .54, $8.34 y $9. 70. ¿Cuál es el valor del intento de venta fracasado? 3.13 Medidas cuidadosas revelan que las cantidades reales de café en seis tarros de cuatro onzas de café instantáneo son 4.02, 3.98, 4.01, 4.05, 3.97 y 4.03 onzas. (a) Obtenga el contenido medio de café de estos seis tarros. b) ¿Cuál sería el error al calcular el contenido medio de café de los seis tarros si registrara incorrectamente el cuarto valor como 4.50 en vez de 4.05? 3.14 El peso medio de los 45 jugadores de un equipo de futbol' americano es de 215 libras. Si ninguno de los jugadores pesa menos de 170 libras, ¿cuántos de ellos, como máximo, pueden pesar 250 libras o más? 3.15 Se puede generalizar el argumento de los ejemplos de la página 41. Para cualquier conjunto de datos no negativos con la media x, la fracción de los datos que son mayores o iguales que el valor positivo k no puede exceder xlk. Utilice este resultado, conocido como teorema de Markov, para responder a las preguntas siguientes: (a) Si el peso adulto medio de una raza de perros es de 35 libras, ¿qué fracción, como máximo, puede tener un peso mayor de 40 libras? (b) Si los árboles de cítricos de un huerto tienen un diámetro medio de 16.0 centímetros, ¿qué fracción de los árboles, como máximo, puede tener un diámetro de 24 centímetros o más? 3.16 Los registros demuestran que en Phoenix, Arizona, la temperatura normal diaria máxima para cada mes es de 65, 69, 74, 84, 93, 102, 105, 102, 98, 88, 74 y 66 grados Fahrenheit. Verifique que la media de estas cifras sea 85 y comente acerca de la aseveración de que la temperatura normal diaria promedio en Phoenix es muy agradable, 85 grados. 3.17 La media geométrica de n números positivos es la ni•ima raíz de su producto. Por ejemplo, la media geométrica de 3 y 12 es 3.18 números. El cálculo requerido es~. La media armó¡_, = V2i6 = 6 La media geométrica se usa principalmente para promediar razones, tasas de variación e índices económicos. 46 CAP. 3 I RESUMEN DE DATOS: MEDIDAS DE TENDENCIA 1/x nica se usa para manejar frecuencias musicales y algunas otras situaciones especiales. Por ejemplo, si un mensajero conduce 10 millas en una vía rápida a 60 millas por hora y las siguientes l Omillas después de la vía rápida las conduce a 30 millas por hora, su velocidad promedio no es de 45 millas por hora. Habrá conducido un total de 20 millas en 30 minutos, de modo que su velocidad promedio correcta es de 40 millas por hora. (a) Verifique que la media armónica de 60 y 30 sea40, de manera que sea el "promedio" apropiado para este ejemplo. (b) Si un inversionista compra $18,000 del capital de una compañía a $45 por acción y luego compra $18,000 del capital a $36 por acción, obtenga el precio promedio que el inversionisfa ha pagado por acción. Verifique que este precio sea la media armónica de $45 y $36. (c) Si una pastelería compra $36 de un ingrediente a 60 centavos la libra, $36 a 72 centavos la libra y $36 a 90 centavos la libra, ¿cuál es el costo promedio por libra? 3.19 Un profesor cuenta el examen final de un curso como el triple de cada uno de los tres exámenes de una hora. ¿Cuál es la calificación promedio de un estudiante que obtuvo las calificaciones 72, 86 y 80 en los tres exámenes de una hora y 90 en el examen final? 3.20 En un año reciente, los salarios promedio de los profesores de educación básica en tres ciudades fueron de $28,300, $34,500 y $31,000. Considerando que había 800, 640 y 450 profesores de educación básica en estas ciudades, obtenga el salario promedio de todc;>s los profesores de educación b.ásica de las tres ciudades. 3.21 Una encuesta muestra) conducida por una organización de salud pública lanzó los datos siguientes sobre el número promedio de veces que personas de varios grupos de edades acuden al dentista: La media geométrica de 2, 3 y 36 es V'(2)(3)(36) La media armónica den números, xi. x2, ... , y x. se define como n dividida entre la suma de los recíprocos de los n Número de personas de la muestra Grupo de edad Menores de 6 años 6-24 25-64 65 años y mayores Total 55 112 145 ¿Cuál es la media de todas las personas de la muestra? Número medio de visitas 3.22 0.6 1.9 1.8 1.5 88 En una temporada reciente, los cinco mejores bateadores de un equipo de beisbol amateur tuvieron promedios de bateo de 0.381, 0.367, 0.321, 0.312 y 0.293. Si estos jugadores tuvieron, respectivamente, 223, 180, 274, 125 y 191 bateos, obtenga su promedio de bateo combinado. 400 3.4 LA MEDIANA Para evitar la posibilidad de dejarse llevar por valores muy bajos o muy altos, en ocasiones describimos el "punto medio" o "centro" de un conjunto de datos con medidas estadísticas diferentes de la media. Una de éstas, la mediana den valores, requiere que se acomoden los datos de acuerdo con su tamaño y se define como sigue: La mediana es el valor del artículo medio cuando n es non y la media de los dos artículos medios cuando n es par. En cualquier caso, cuando no hay dos valores iguales, la mediana se ve excedida por tantos valores como ésta exceda. Cuando algunos de los valores son iguales, éste puede no ser el caso. EJEMPLO En un mes reciente, un departamento estatal de caza y pesca registró 53, 31, 67, 53 y 36 infracciones de caza o pesca en cinco regiones distintas. Obtenga la mediana del número de infracciones de estos meses. Solución La mediana no es 67, el tercer artículo (o medio), porque las cifras se deben ordenar primero de acuerdo con su tamaño: Así, tenemos 31 36 53 53 67 y se puede apreciar que la mediana es 53. Nótese que en este ejemplo hay dos 53's entre los datos y que no nos referimos a ninguno de éstos como la mediana; la mediana es un número y no necesariamente una medida u observación particular. EJEMPLO Solución En algunas áreas, las personas citadas por infracciones de tránsito menores pueden asistir a una clase sobre manejo defensivo en vez de pagar una multa. Obtenga la mediana de asistencia si a 12 de esas clases asistieron 40, 32, 37, 30, 24, 40, 38, 35, 40, 28, 32 y 37 personas. Ordenando estas cifras según su tamaño, tenemos SEC. 3.4 / LA MEDIANA 47 24 28 30 32 32 35 37 37 38 40 40 40 y encontramos que la mediana es 35 + 37 = 36, expresamente, la media de los dos va2 lores más cercanos al punto medio. En el ejemplo anterior, algunos de los valores eran iguales, pero esto no afecta la mediana, que excede seis de los valores y es excedida por otros seis. No obstante, en el ejemplo siguiente, la situación es bastante distinta: EJEMPLO Solución En el tercer hoyo de cierto campo de golf, nueve golfistas registraron las calificaciones 4, 3, 4, 5, 4, 3, 3, 4 y 3. Obtenga la mediana. Ordenando estas cifras de acuerdo con su tamaño, tenemos 3 3 3 3 4 4 4 4 5 y se puede apreciar que la mediana, el quinto valor, es 4. Esta vez, la mediana excede cuatro de los valores pero sólo uno la excede y sería erróneo considerarla como la "mediana" de las calificaciones; ésta no es excedida tantas veces como excede otros valores. El símbolo que usamos para la mediana den valores muestrales X1, xi, X3, ••• , y Xn es x(y por tanto, yo zsi nos referimos a los valores de y's o z's). El símbolox se lee como "x tilde". Si un conjunto de datos constituye una población, expresamos su mediana como ji Así, tenemos un símbolo para la mediana, pero no una fórmula; sólo hay una fórmula para la posición mediana. Refiriéndonos de nuevo a los datos ordenados según su tamaño, usualmente disponiéndolos de bajos a altos, podemos expresar Posición mediana La mediana es el valor del n ; 1 ésimo artículo. 1 . un entero y d a ia pos1c1on euando n es non, -n +2-es . . , a la med"iana; cuando n es par, " ; 1 es el punto medio entre dos enteros y la mediana es la medía de los valores de los artículos correspondientes. EJEMPLO Solución Encuentre la posición mediana para (a) n = 15 y (b) n Con los datos ordenados de acuerdo con su tamaño (y contándolos a partir de cualquier extremo) n+l (a) : -2-(b) 48 =45. n+1 15+1 =- 2 - = 8, de modo que la mediana es el valor del 8!! artículo; 45 + 1= ~~-- = - -- 2 2 CAP. 3 I RESUMEN DE DATOS: MEDIDAS DE TENDENCIA 23, de manera que la mediana es el valor del 23º artículo. EJEMPLO Solución Encuentre la posición mediana para (a) n = 20 y (b) n = 48. Con los datos ordenados de acuerdo con su tamaño (y contándolos a partir de cualquier . extremo) n + 1 20 + 1 (a) . -2- = · -2- - = 10.5, de modo que la mediana es la media de los valores del 1()!? y el 11 2 artículos; 48-+-1 = 24.5, de manera que la me d"iana es la me dºta de los va1ores n+ ·1 = (b) 2 2 del 242 y 25 2 artículos. · '' la para l a pos1c10n · ·' me dºiana y no una 1or'' E s importante recordar que n-+-1es una 1ormu 2 mula para la mediana como tal. La determinación de una mediana a veces se puede simplificar, particularmente en el caso de conjuntos numerosos de datos, utilizando la agrupación de una representación gráfica de tronco y hoja. EJEMPLO Los siguientes son los números de pasajeros de 50 viajes de un transbordador: 61, 52, 65,84,35,57,58,95,82,64,50,53, 103,40,62, 77, 78,66,60,41,58,92,51,65, 71, 75,89,37,54,67,59, 79,80, 73,49, 71,97,62,68,53,43,80, 75, 70,45,91,50,64, 56 y 86. Elabore una gráfica de tronco y hoja con hojas de un dígito y utilícelo para obtener la mediana. Solución Elaborando primero la gráfica de tronco y hoja, tenemos 3 4 5 5 2 6 7 8 9 10 7 o 7 4 5 3 7 5 8 2 2 9 3 8 4 1 o 5 3 2 5 6 9 o 9 o o 6 8 3 1 5 4 7 5 9 2 3 8 o 6 4 o 7 50 +-1 = 25.5 y d'1ecmueve . . , med"1ana es . d e los valores caen en los Y a que la pos1c1on 2 tres primeros troncos, debemos encontrar la media del 6!! y el 7 2 yalor del cuarto tronco (contando de bajos a altos). Ordenando las hojas del cuarto tronco según su tamaño, obtenemos O, 1, 2, 2, 4, 4, 5, 5, 6, 7 y 8, de manera que la 6ª y la 7ª hoja son 4 y 5 y la me- . diana es 64 + 65 2 = 64.5. Además de la mediana y la media, hay otras medidas de localización central (véase, por ejemplo, la amplitud media, o rango medio descrita en el ejercicio 3.36 y el cuartil medio que definimos en la página 54). Cada una de estas medidas describe el "punto medio" o "centro" de un conjunto de datos a su manera particular y no debería ser sorprendente que sus valores puedan no ser los mismos. Por ejemplo, en el caso en SEC. 3.4 / LA MEDIANA 49 el que siete estudiantes leyeron 16, 10, 14, 13, 20, 11 y 17 de los libros que se les asignaron, la mediana es 14 y la media es ~~+_l_O~~_2-~2_+ 20 +_1_1+_17__ l_O_I = 14.4 7 7 (redondeada a un decimal). La mediana es un promedio en el sentido en que divide los datos en dos partes de modo que, a menos de que haya valores iguales, hay tantos valores por debajo de la mediana como por encima de ésta. Por otro lado, la media es un promedio en el sentido de que si se sustituye cada valor de un conjunto de datos con algún número k mientras que el total permanece sin cambios, este número k tendrá que ser la media. Esto se deriva directamente de la relación n ·.X=~ x. La mediana comparte algunas, mas no todas las propiedades de la media, que mencionamos en la página 42. Al igual que la media, la mediana siempre existe y es única para cualquier conjunto de datos y su obtención es bastante sencilla una vez que se han ordenado los datos de acuerdo con su tamaño, pero ordenar un conjunto de datos manualmente puede ser una tarea muy tediosa. A diferencia de la media, las medianas de varios conjuntos de datos por lo regular no se pueden combinar en una mediana general de todos los datos y en problemas de inferencia estadística, la mediana usualmente es menos confiable que la media. Esto significa que las medianas de muchas muestras derivadas de la misma población por lo general variarán en mayor grado que las medias muestrales correspondientes (véanse los ejercicios 3.33 de Ja página 56 y 10.53 de Ja página 267). Además, en algunas situaciones puede ser preferible usar Ja mediana en lugar de Ja media porque ésta no se ve afectada con tanta facilidad por los valores extremos (muy bajos o muy altos). Por ejemplo, en la página41 demostramos que la media de 967, 949, 940, 952 y 922 (las vidas de cinco focos) es 946 y en la página 42 demostramos que si 949 se confunde como 499, la media se convierte en 856. Como consecuencia, el error es 946 - 856 = 90. Si hubiéramos usado la mediana en vez de la media, habríamos obtenido 949 y 940 y el error sólo habría sido 949 - 940 =9. Por último, se puede usar la media para definir el punto medio de un número de objetos, propiedades o cualidades que se pueden clasificar, específicamente cuando manejamos datos ordinales. Por ejemplo, podríamos clasificar un número de tareas de acuerdo con su dificultad y luego describir el punto medio (o la mediana) como la tarea de dificultad "promedio"; así mismo, podríamos clasificar muestras de chocolate según su consistencia y posteriormente describir el punto medio (o la mediana) como la muestra que tiene la consistencia "promedio". Ya que no se usaron números, no se puede calcular la media para estas situaciones. 3.5 OTROS FRACTILES* La mediana no es más que uno de muchos fractiles que dividen los datos en dos o más partes, tan iguales como sea posible. Entre éstos, también encontramos los cuartiles, deciles y percentiles, que pretenden dividir los datos en cuatro, diez y cien partes. Has- 50 CAP. 3 / RESUMEN DE DATOS: MEDIDAS DE TENDENCIA ta hace poco, los fractiles se manejaban principalmente para distribuciones de conjuntos numerosos de datos y en este sentido los estudiaremos en la sección 3.7. En esta sección, nos ocuparemos sobre todo de un problema que surgió en un análisis exploratorio de datos; en el análisis preliminar de conjuntos de datos relativamente pequeños. El problema yace en dividir tales datos en cuatro partes casi iguales, donde decimos "casi iguales" porque no hay manera en que se pueda dividir un conjunto de datos en cuatro partes iguales, digamos, en el caso den= 27 o n = 33. Las medidas estadísticas disefiadas para este propósito se han conocido tradicionalm-ente como los tres cuartiles, Qi. Q2 y Q3 y no hay ningún argumento acerca de Q2, que es tan sólo la mediana. Por otro lado, la definición de Q1 y Q3 da una pauta considerable para la arbitrariedad. Las siguientes son algunas propiedades deseables que querríamos que tuvieran los cuartiles Q1 y Q3: l. Q1 es excedido tres veces por tantos valores como excede y es la otra posibilidad para Q3. 2. Hay tantos valores menores que Q1 como los hay entre Q1 y Q2, entre Q2 y Q3, y mayores que Q3. 3. La mitad de los datos caen entre Q1 y Q3. Aquí, se supone que no hay dos valores iguales; de otra manera, el orden debeóa cambiar como lo indicamos en la página 53. Para ilustrar esto, considere las siguientes lecturas de temperatura alta en doce ciudades europeas en un día de junio: 90, 75, 86, 77, 85, 72, 78, 79, 94, 82, 74 y 93 grados. Ordenando estas cifras de acuerdo con su tamaño, tenemos 72 74 75 77 78 79 82 85 86 90 93 94 y se puede apreciar que las líneas punteadas de la parte superior de la figura 3 .1 dividen los datos en cuatro partes iguales. Si determinamos que los puntos centrales entre 75 y 77, 79 y 82, y 86 y 90 sean los tres cuartiles, tenemos 75 + 77 Q¡ =-2-- = 76, º -J = 79 + 82 2 = 80.5 , y Q3 = 86 + 90 2 = 88. Es evidente que Q2 =80.5 también es la mediana y se puede verificar con facilidad que se satisfacen las tres propiedades de los cuartiles antes mencionadas. FIGURA 3.1 Cuartiles. SEC. 3.5 I OTROS FRACTILES 51 Todo funcionó muy bien porque 12, el tamaño de la muestra, resultó ser un múltiplo de 4. No obstante, ¿qué podemos hacer cuando éste no es el caso? Suponga, por ejemplo, que la ciudad en que la temperatura fue de 77 grados no emitió su informe correspondiente, de modo que sólo nos quedan los siguientes once números ordenados según su tamaño: 72 74 75 78 79 82 85 86 90 93 94 La mediana o Q2 ahora es 82, ¿pero qué podemos hacer en relación con las otras dos líneas divisorias? Si se piensa que la segunda de las tres propiedades que se mencionan en la página 51 es la más considerable, las líneas divisorias se pueden trazar como en la parte inferior de la figura 3.1, de manera que Q1=75, Q2 = 82 y Q3 = 90. Hay dos valores menores que Q1, dos valores entre Q1 y Q2, dos valores entre Q2 y Q3 y dos valores mayores que Q3, pero Q1 es excedido cuatro veces por tantos valores como excede y sólo cinco de los once valores caen entre Q1 y Q3. A este procedimiento de la obtención de cuartiles se le puede dar una definición simple. Suponiendo que no haya dos valores iguales (pero, vea el párrafo posterior al siguiente ejemplo) expresamos que El cuartil i1'ferior es la mediana de todos los valores menores que la mediana del conjunto completo de datos. El cuartil superior es la mediana de todos los valores mayores que la mediana del conjunto completo de datos. EJEMPLO Solución Las siguientes son las calificaciones de nueve estudiantes en una prueba de historia: 86, 82, 73, 94, 88, 66, 79, 90 y 74. Obtenga la mediana y los dos cuartiles. Para n =9, la posición mediana es 9 + 1 = 5. El cuartil inferior es la mediana de los 2 cuatro valores por debajo de la mediana y el cuartil superior es la mediana de los cuatro valores por encima de la mediana. Ordenando los datos de acuerdo con su tamaño, tenemos 66 73 74 79 82 86 88 90 94 . ~ . 73 . que 1a me d"tana es 82 , e 1cuart1·1o m1enor y se pue de apreciar til superior es 88 +2 90 + 74 2 = 73.5, y e1cuar- -- 89 . Si alguno de los valores son iguales, modificamos la definición de cuartiles sustituyendo "menores que la mediana" con "a la izquierda de la posición mediana" "y" "mayores que la mediana" con "a la derecha de la posición mediana". Por ejemplo, los nueve golfistas del ejemplo de la página 48 obtuvieron los golpes 3 3 3 3 4 4 4 4 5 en el tercer hoyo de un campo. El cuartil inferior, la media del segundo y el tercer valores, es 3. La mediana, el quinto valor, es 4. El cuartil superior, la media del segundo y el tercer valores a partir de la derecha, es 4. 52 CAP. 3 I RESUMEN DE DATOS: MEDIDAS DE TENDENCIA En los ejercicios se presentan otras definiciones de los cuartiles. En el análisis exploratorio de datos observamos el proceso de la obtención de los valores que dividen un conjunto de datos en cuatro partes de una manera distinta; como un proceso de doblamiento. En relación con el primero de nuestros dos ejemplos, en el que el tamaño de la muestra fue doce, suponga que en la parte superior de la figura 3.1 o de la figura 3.2 doblamos la página a lo largo de la línea punteada de la izquierda, a lo largo de la línea punteada de la derecha y luegó a lo largo de la línea punteada de en medio. Si hacemos esto, se traslaparán las cuatro partes en que hemos dividido los datos. Si lo hacemos para nuestro segundo ejemplo, donde el tamaño de la muestra fue once, las cuatro partes no se traslaparán si doblamos la página a lo largo de las líneas punteadas de la parte inferior de la figura 3.1. Sin embargo, se traslaparán si movemos las líneas punteadas como en la parte inferior de la figura 3.2. Las nuevas líneas divisorias de la izquierda y la derecha se encuentran en los puntos centrales entre 75 y 78, y 86 y 90 y podríamos expresar que Q¡ = 75 + 78 2 = 76.5 y Q3 = 86 + 90 2 = 88. En realidad, en el análisis exploratorio de datos, nos referimos a estos dos valores como los puntos esenciales; el punto esencial inferior es 76.5 y el punto esencial superior es 88. Esta terminología refleja el proceso de doblaIµiento, que usamos para dividir los datos en cuatro partes. Habiendo presentado el concepto de un punto esencial por medio de un ejemplo, ahora demos una definición formal. Suponiendo que no haya dos valores iguales (pero, vea la figura siguiente) expresamos que El punto esencial inferior es la mediana de todos los valores menores o iguales que la mediana del conjunto completo de datos; el punto esencial superior es la mediana de todos los valores mayores o iguales que la mediana del conjunto completo de datos. En la práctica, primero encontramos la posición de un punto esencial y luego contamos la misma cantidad de sitios a partir del otro extremo para encontrar la posición del otro punto esencial. EJEMPLO Las siguientes son las lecturas de presión de nueve personas después de haber efectua- FIGURA 3.2 Puntos esenciales. SEC. 3.5 I OTROS FRACTILES 53 do ejercicios con esfuerzo: 104, 100, 98, l ll, 91, 94, 103, 96y 108. Obtenga la mediana y los dos puntos esenciales. ·~ S oluciun 9 +-t = 5. A s1,' 1a pos1c1on P aran =9 , 1a pos1c1 . "ón me d"iana es .. , de1 punto esencia . l"in.ee 2 . es 5- +- t = 3, y e1 punto esencia . 1 superior . es e1 tercer va1or a partir . de1 otro extrenor 2 mo. Ordenando los datos según su tamaño tenemos 91 94 96 98 100 103 104 108 111 y se puede apreciar que el punto esencial inferior es 96, la mediana es 100 y el punto esencial superior es 104. Así mismo, si imaginamos líneas punteadas a través de estos valores como en la figura 3.2, encontraremos que, de hecho, las cuatro partes se traslaparán. Si algunos de los valores son iguales, tal vez debamos modificar la definición de los puntos esenciales sustituyendo "menores o iguales que la mediana" con "a la izquierda de la posición mediana o en ésta" y "mayores o iguales que la mediana" con "a la derecha de la posición mediana o en ésta". De otro modo, el procedimiento es exactamente el mismo. Por citar un caso, en el ejemplo de la página 48, los nueve golfistas obtuvieron las calificaciones 3 3 3 3 4 4 4 4 5 en el tercer hoyo de cierto campo. Ya que el tamaño de la muestra es el mismo que en el ejemplo anterior, encontramos que el punto esencial inferior, es 3, la mediana; el quinto valor es 4; y el punto esencial superior, el tercer valor a partir de la derecha, es 4. En la práctica, los cuartiles y puntos esenciales a menudo se usan alternativamente. Los cuartiles o puntos esenciales no pretenden describir el "punto medio" o "centro" de un conjunto de datos y los hemos presentado aquí principalmente porque, al igual que la mediana, son fractil~s y se determinan más o menos de la misma manera. El cuartil medio, Qi + Q3 , se ha usado, en su ocasión, como una medida de localiza2 ción central y es probable que la media de los dos puntos esenciales se pueda usar en la misma forma. La información proporcionada por la mediana, los dos cuartiles y los valores inferiores y superiores a veces se presenta en forma de una representación gráfica de re- 1 1 1 1 1 1 1 1 1 1 1 t 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 ~ ~ ro n t Valor inferior ~ t ~ ~ oo ~ t Mediana ~ ~ ~ t 03 oo ~ ~ t Valor superior Representación gráfica de recuadro y sección para los datos sobre las calificaciones en la prueba de historia. FIGURA 3.3 54 CAP. 3 / RESUMEN DE DATOS: MEDIDAS DE TENDENCIA ~ cuadro y sección, a menudo llamada simplemente gráfica de recuadro. Dicha gráfica aparece en la figura 3.3 ilustrando los datos de las calificaciones en la prueba de historia de las páginas 53 y 54. En la práctica, a veces se usan los dos puntos esenciales en lugar de los dos cuartiles. En ocasiones, se altera esta cifra con otras características de los datos, pero la forma simple que aquí presentamos se adecua a la mayoría de los propósitos. 3.6 LA MODA Otra medida que en ocasiones se usa para describir el "punto medio" o "centro" de un conjunto de datos es la moda, que se define simplemente como el valor que ocurre con la mayor frecuencia y más de una vez. Sus dos ventajas principales son que no requiere de cálculos, sólo de conteo y que se puede determinar al igual para datos cualitativos que para datos nominales. EJEMPLO A las 20 juntas de una academia de bailes tradicionales asistieron 26, 25, 28, 23, 25, 24, 24, 21, 23, 26, 28, 26, 24, 32, 25, 27, 24, 23, 24 y 22 de sus miembros. Obtenga la moda. Solución Entre los veinte números, 21, 22, 27 y 32 ocurren una vez cada uno; 28 ocurre dos veces; 23, 25 y 26 ocurren tres veces cada uno; y 24 ocurre cinco veces. Así, 24 es la asistencia modal. Del mismo modo, si más personas que visitan California desean ir a Disneylandia más que a ningún otro centro turístico, decimos que Disneylandia es su selección modal. Además del hecho de que la moda rara vez es útil para la inferencia estadística, presenta también la desventaja de que no puede existir (que es el caso cuando no hay dos valores iguales) o que no puede ser única. EJEMPLO Una muestra de los registros de un departamento de vehículos automotores demuestra que 18 conductores de un grupo de edad determinado recibieron 3, 2, O, O, 2, 3, 3, 1, O, 1, O, 3, 4, O, 3, 2, 3 y Oinfracciones de tránsito durante los pasados tres años. Encuentre la moda. Solución Como se puede ver, el número 4 ocurre una vez, el número 1 ocurre dos veces, el número 2 ocurre tres veces y los números Oy 3 ocurren seis veces cada uno. Así, tenemos las dos modas O y 3. Una dificultad adicional de la moda es que se comporta erráticamente cuando se redondean los valores de los datos (véase el ejercicio 3.51, página 58). Además de las que hemos mencionado, hay muchas medidas de localización central, y por lo menos una más, la amplitud media, se presenta en el ejercicio 3.36. El "promedio" particular que ~e debe usar en una situación determinada puede depender de muchos factores (véase la sección 7.3, por ejemplo) y la selección puede ser difícil. Ya que la selección de descripciones estadísticas a menudo contiene un elemento de arbitrariedad, hay quienes piensan que se puede usar la magia de la estadística para pro- SEC. 3.6 I LA MODA 55 bar casi cualquier cosa. De hecho, un famoso estadista británico del siglo XIX dijo que hay tres clases de mentiras: los engaños, las mentiras mal intencionadas y la estadística, y los ejercicios 3.35 y 3.36 de ésta y la siguiente página describen una situación en la que bien se justificaría esta crítica. EJERCICIOS 3.23 Encuentre Ja posición mediana para (a) n = 25; (b) n =32. 3.24 Encuentre la posición mediana para (a) n 37; (b) n = 64. 92, 86, 109, 102, 92, 353, 78, 74, 102, 106, 95 y 91 por ciento de sus cuotas de ventas. Calcule la media y la mediana de estos porcentajes e indique cuál de las dos medidas da una mejor idea del rendimiento "promedio" de estos vendedores. = 3.25 En quince días, un restaurante sirvió desayunos a 40, 52, 55, 38, 40, 48, 56, 56, 60, 37, 58, 63, 46, 50 y 61 clientes. Obtenga Ja mediana. 3.26 En 1991, doce vendedores de autos usados vendieron 58, 70, 85, 42, 64, 46, 66, 89, 44, 93, 58 y 79 autos usados. Obtenga Ja mediana. 3.27 Veinte fallas de energía duraron 18, 125, 44, 96, 31, 26, 80,49, 125,63,45, 33,89, 12, 103, 75,40, 80,61 y28 minutos. Obtenga Ja mediana. 3.28 Otenga el número mediano de infracciones de tránsito de Jos 18 conductores del ejemplo de la página 55. 3.29 En diecinueve páginas de un informe, un mecanógrafo cometió O, O, 1, 2, O, 3, 1, O, O, O, O, 1, O, O, 4, 1, O, Oy 2 errores. Encuentre (a) Ja media; (b) Ja mediana. 3.30 Para verificar Ja aseveración de que Ja media por Jo general es más confiable que la mediana (expresamente, que está sujeta a menores fluctuaciones posibles), un estudiante condujo un experimento consistente en 12 lanzamientos de tres dados. Los siguientes son sus resultados: 2, 4 y 6; 5, 3 y 5; 4, 5 y 3; 5, 2 y 3; 6, 1y5;3, 2 y 1; 3, l y 4; 5, 5 y 2; 3, 3 y 4; 1, 6 y 2; 3, 3 y 3; y 4, 5 y 3. (a) Calcule las doce medianas y las doce medias. (b) Agrupe las medianas y medias obtenidas en Ja parte (a) en distribuciones separadas que tengan las clases 1.5-2.5, 2.5-3.5, 3.5-4.5 y 4.5-5.5. (Nótese que no habrá ambigüedades ya que las medianas de tres números enteros y las medias de tres números enteros no pueden equivaler a 2.5, 3.5 ni 4.5.) (c) Elabore histogramas de las dos distribuciones obtenidas en Ja parte (b) y explique cómo ilustran Ja aseveración de que Ja media generalmente es más confiable que la mediana. 3.34 Vuelva a hacer el ejercicio anterior con sus propios datos lanzando en repetidas ocasiones tres dados (o un dado tres veces) y elaborando las distribuciones correspondientes de las medianas y medias. (Si no dispone de ningún dado, simule el experimento mentalmente, usando una computadora o sacando pedazos de papel de un sombrero.) 3.35 Un servicio de pruebas de consumo obtuvo las siguientes millas por galón en cinco recorridos de prueba realizados con cada uno de tres automóviles compactos: Los siguientes valores son Jos tiempos en minutos de veinticinco juegos de Ja National Basketball Association (NBA): 138 142 121 139 142 142 159 128 143 146 113 157 142 158 123 126 140 164 140 130 135 157 155 118 137 (a) Obtenga la mediana directamente ordenando los datos de acuerdo con su tamaño. (b) Obtenga Ja mediana elaborando primero una gráfica de tronco y hoja. 3.31 Utilice la gráfica de tronco y hoja de la página 16 para encontrar Ja mediana de las calificaciones que veinte estudiantes obtuvieron en una prueba de coordinación física. 3.32 En cierto mes, quince vendedores alcanzaron 107, 90, 80, 56 3.33 CAP. 3 / RESUMEN DE DATOS: MEDIDAS DE TENDENCIA Automóvil A: 27.9 30.4 30.6 31.4 31. 7 Autom6vil B: 31.2 28. 7 31.3 28. 7 31.3 Automóvil C: 28.6 29.1 28.5 32.1 29. 7 (a) Si Jos fabricantes del automóvil A quieren anunciar que su carro obtuvo el mejor rendimiento en esta prueba, ¿cuál de Jos "promedios" estudiados en este texto se podrían usar para sustentar su aseveración? -(b) Si los fabricantes del automóvil B quieren anunciar que su carro obtuvo el mejor rendimiento en esta prueba, ¿cuál de los "promedios" estudiados en este texto se podrían usar para sustentar su aseveración? es una fracción entre Oy 1. Encuentre el fractil correspondiente a p como sigue: Calcule pn. Si no es un entero, utilice el siguiente entero más alto para la posición del l';mo fractil; si es un entero, use la media de los valores de las posiciones pn y pn + 1 como el l';mo fractil. 3.36 Suponga que los fabricantes del automóvil C contratan a un estadista sin escrúpulos y le dan instrucciones de que encuentre algún tipo de "promedio" que demuestre que su automóvil obtuvo el mejor rendimiento en la prueba. Demuestre que la amplitud media, la media de los valores inferiores y superiores, servirá para sus propósitos. = Por ejemplo, si quisiera que el fractil p 0.6 en una lista con n = 103, encontraría pn = 61.8 y usaría el valor de la posición 62. Si quisiera que el fractil p = 0.6 en una lista con n = 11 O, encontraría pn = 66 y utilizaría los valores de las posiciones 66 y 67. Los fractiles a menudo se expresan como percentiles, por ejemplo, el fractil 0.6 se conoce como el 60" percentil. Encuentre el 6()!! percentil para las duraciones de los juegos de la NBA del ejercicio 3.30. *3.37 Los registros de la librería de una universidad grande demostraron que veintidós estudiantes de último año de filosofía revisaron estos números de libros durante el año académico. 62 88 75 66 52 73 35 65 103 76 40 51 69 68 72 48 82 54 79 42 *3.44 Algunos estadistas y algunos programas de computación utilizan la interpolación para determinar la posición de los cuartiles y otros fractiles. Esta técnica comienza por obtener la posición del fractil correspondiente a p como p(n + 1 ). Por ejemplo, para encontrar la posición del cuartil inferior de 30 valores, sustituimos p = 0.25 y n = 30 para obtener 0.25(30 + 1) = 7 .75. Esto significa que debemos apartamos tres cuartos de la distancia entre el séptimo y el octavo valor. Si estos valores son 146 y 148, entonces el cuartil inferior es 50 38 (a) Encuentre la mediana. (b) Encuentre los dos puntos esenciales. *3.38 En un estudio de la capacidad de frenado de un automóvil con un nuevo sistema de frenos, veintiún conductores que viajaban a treinta millas por hora pudieron frenar en las distancias siguientes, expresadas en pies: 69 61 67 66 58 58 65 56 58 70 74 70 68 80 75 72 70 146 46 61 68 *3.45 Use los resultados de los ejercicios 3.27 y 3.42 para elaborar una representación gráfica de recuadro y sección para las duraciones de las fallas eléctricas. *3.39 Encuentre los dos puntos esenciales de las duraciones de los partidos de la NBA del ejercicio 3.30. *3.46 *3.40 Si se ordenan n valores muestrales de acuerdo con su tamaño, encuentre las posiciones de la mediana, los dos puntos esenciales y los cuartiles: (a) cuando n = 40; (b) cuando n 41; (c) cuando n 42; (d) cuando n 43. = = = *3.41 Encuentre los cuartiles superiores e inferiores de las duraciones de los partidos de la NBA del ejercicio 3.30. *3.42 Encuentre los cuartiles y puntos esenciales de los datos de las fallas de energía del ejercicio 3.27. *3.43 En este problema, daremos un procedimiento para obtener fractiles o percentiles generales. Supongamos que p 146) = 147.5 Una universidad tuvo 8, 3, 20, 5, 2, 8, 14, 2, 6, 10, 7 y 15 solicitantes para doce puestos distintos de profesores. Encuentre los puntos esenciales y obtenga también los cuartiles usando la técnica del ejercicio 3.43. Entonces, use el método de la interpolación para obtener los cuartiles. 55 (a) Encuentre la mediana. (b) Encuentre los dos puntos esenciales. 3 + 4 (148 - Use los resultados de los ejercicios 3.30 y 3.39 para elaborar una representación gráfica de recuadro y sección para los partidos de la NBA. 3.47 Los siguientes son los números de días que diecisiete personas se anticiparon para comprar localidades para un evento deportivo: 7, 3, 4, 12, 18, 3, 8, 14, 6, 16, 7, 6, 11, 7, 9, 5 y 2. Encuentre la moda. 3.48 En cincuenta días, éstos fueron los números de estudiantes ausentes en una clase de álgebra: 1 1 3 o o o 2 6 o o 1 o 1 1 3 o 4 o o 1 1 3 2 5 o o o o 4 1 o 1 o 1 o o 1 3 1 2 Encuentre la moda. SEC. 3.6 / 1 o o o 1 1 2 3 2 LA MODA 57 3.49 Encuentre la moda (si existe) de cada uno de los siguientes conjuntos de lecturas de presión sanguínea: w1~1~1~1~1~1~1~1~1~1~ 144; (b) 146, 149, 146, 141, 146, 149, 147, 147, 149, 149, 145; (c) 167, 151, 175, 144, 152, 148, 156, 169, 143, 177, 161. 3.50 Se preguntó a treinta personas cuál es su color favorito. Estas son sus respuestas: rojo azul verde azul azul azul azul café blanco azul azul verde verde rojo rojo verde verde morado azul rojo azul rojo naranja rojo amarillo rojo amarillo amarillo azul azul ¿Cuál es su selección modal? 3.51 Las siguiente cifras son las cantidades, de harina, en libras que se utilizan diariamente en una pastelería, para veinte días calendario consecutivos: 440 514 611 664 677 481 690 707 671 488 483 554 638 572 514 623 631 570 484 612 (a) Encuentre Ja media, Ja mediana y la moda para este conjunto de valores. (b) Redondee Jos veinte valores a las diez libras más cercanas. Entonces, de nuevo, dé Ja media, Ja mediana y la moda. (c) Redondee los veinte valores a las cien libras más cercanas. Entonces, de nuevo, dé Ja media, Ja mediana y la moda. (d) Señale una conclusión acerca del efecto de Ja media, Ja mediana y Ja moda. 3.7 LA DESCRIPCION DE LOS DATOS AGRUPADOS* En el pasado, se prestaba atención considerable a la descripción de los datos agrupados porque generalmente era conveniente agrupar los datos antes de calcular varias descripciones estadísticas. Este ya no es el caso, puesto que ahora los cálculos necesarios se pueden efectuar en cuestión de segundos usando computadoras o aun calculadoras de bolsillo. No obstante, dedicaremos esta sección y la sección 4.4 a la descripción de los datos agrupados porque algunos datos (por ejemplo, cifras gubernamentales publicadas) están disponibles sólo en forma de distribuciones de la frecuencia. Como ya hemos visto, la agrupación de los datos implica cierta pérdida de información. Cada artículo pierde su identidad, por así decirlo; sólo sabemos cuántos artículos hay en cada clase, de modo que debemos estar satisfechos con las aproximaciones. Para determinar la media, por lo regular podemos obtener una buena aproximación asignando a cada artículo que cae en una clase el valor de la marca de la clase correspondiente. Por ejemplo, para calcular la media de los datos agrupados de la emisión de óxidos de azufre de la página 22, manejamos los tres valores de la primera clase como si todos fueran 6.95, los diez valores de la segunda clase como si todos fueran 10.95, ... y los dos valores que caen en la séptima clase como si todos fueran 30.95. Est~ procedimiento usualmente es bastante satisfactorio, ya que los errores que se introducen así en los cálculos tenderán a "promediarse". Para dar una fórmula general para la media de una distribución con k clases, anotemos las marcas de las clases sucesivas como xi. x2, .•• y Xk y las frecuencias de las clases correspondientes comof1,J2, ... , y Ji. Entonces, la aproximación de la suma de todas las medidas se realiza por medio de 58 CAP. 3 I RESUMEN DE DATOS: MEDIDAS DE TENDENCIA y la media de la distribución se obtiene mediante Media delos _ Ix·f X=--- datos agrupados n Aquí, n es el tamaño de la muestra.Ji +/2 + ... +fk y para expresar una fórmula correspondiente para la media de una población sustituimos µ con x y N con n. EJEMPLO Calcule la media de la distribución de los datos de la emisión de óxidos de azufre de la página 22. Solución Para obtener I: x ·f, efectuamos los cálculos que aparecen en la tabla siguiente, donde la primera columna contiene las marcas de la clase, la segunda columna se copia de la distribución original y la tercera columna contiene los productos x · f: Marca de. clase Frecuencia X f x·f 6.95 10.95 14.95 18.95 22.95 26.95 30.95 3 10 14 25 17 9 2 20.85 109.50 209.30 473.75 390.15 242.55 61.90 80 1,508.00 Entonces, la sustitución de la fórmula da como resultado x= 1,508.00 80 = 18.85 Para verificar el error de agrupación, específicamente, el error en que se incurre al reemplazar cada valor de una clase por una marca de la clase, refirámonos a la impresión por computadora de la figura 3.4, que demuestra que la media de los datos no agrupados originales es 18.896. Así, el error es de sólo 18.85 - 18.896 =- 0.046, que es muy bajo. Una vez que hemos agrupado un conjunto de datos, aún podemos determinar la mayoría de las otras medidas estadísticas aparte de la media, pero tenemos que hacer suposiciones especiales o modificar las definiciones. Por ejemplo, definimos la mediana de una distribución de la manera siguiente: La mediana de una distribución es tal que la mitad del área total de los rectángulos del histograma de la distribución cae a su izquierda y la otra mitad cae a su derecha. Esta definición, que ilustramos por medio de la figura 3.5, es igual que la suposición de que los valores de la clase que contiene la mediana de los datos agrupados están distribuidos equitativamente -es decir, dispersados en forma regular- a través de la clase. SEC. 3.7 / LA DESCRIPCION DE LOS DATOS AGRUPADOS 59 MTB > DATC°S) DATOS) DATOS) DATOS) DATOS) DATOS) DATOS) DATOS> MTB > CONJUNTO Cl 15.8 22.7 26 .8 19.1 18.5 14.4 8.3 25. 9 26 .4 9.8 22.7 15.2 23 .e 29 .6 21.9 10.5 MEDIA Cl MEDIA = MTB > STAN Cl DESVIACION :a ESTANDAR 11.2 14. 7 2e.5 26 .6 ·2e .1 17.0 22.3 27 .5 17 .3 6.2 18 .0 22 .9 24.6 19.4 12.3 15.9 23 .9 17 .5 11.0 28.4 16.2 20.8 13.3 18 .1 24.8 26 .1 20. 9 21.4 18.S 24.3 11.8 17. 9 18. 7 12.8 15.5 19.2 7.7 22.5 19.3 9.4 13.9 28.6 19.4 21.6 13.5 24.6 20.0 24.1 9. 0 17.6 16.7 16. 9 23 .5 18 .4 25.7 20.1 13.2 23. 7 1". 7 19.0 14.5 18.1 31.8 28.5 18.896 5 .6565 FIGURA 3.4 lmpresi6n por computadora de la media de los datos de la emisi6n de 6xidos de azufre. Para encontrar la línea divisoria entre las dos mitades de un histograma (cada una de las cuales representa n 2. de los elementos agrupados) debemos contar n 2. de los elementos comenzando por cualquier extremo de la distribución. El ejemplo siguiente ilustra cómo se hace esto: EJEMPLO Solución Obtenga la mediana de la distribución de los datos de la emisión de óxidos de azufre. Ya que ~= ° 8 2 = 40, debemos contar 40 de los elementos empezando por cualquie1 extremo. Empezando por la parte inferior de la distribución (esto es, empezando con los valores más bajos), encontramos que 3 + 10 + 14 =27 de los valores caen en las pri- FIGURA 3.5 60 CAP. 3 / La mediana de la distribuci6n de los datos de la emisi6n de 6xidos de azufre. RESUMEN DE DATOS: MEDIDAS DE TENDENCIA = meras tres clases y que 3 + 10 + 14 + 25 52 de los valores caen en las primeras cuatro clases. Por tanto, debemos contar 40 - 27 13 valores más, además de los 27 valores que caen en las tres primeras clases. Con base en la suposición de que 25 valores de las cuatro clases están distribuidos en forma regular a través de la clase, podemos hacer esto sumando del intervalo de la clase de 4 a 16.95, la frontera inferior de las cuatro clases. Así, tenemos = n x= 16.95 13 + 25 ·4 = 19.03 para la mediana de la distribución. En general, si L es la limitacióin inferior de la clase en que debe caer la mediana, fes la frecuencia, e es el intervalo de la clase y j es el número de artículos que aún nos faltan cuando obtenemos L, entonces la mediana de la distribución se obtiene por medio de Mediana de los datos "'grupa dos X= L +-·e j f Si lo preferimos, podemos encontrar la mediana de una distribución comenzando por contar desde el otro extremo (comenzando con los valores más altos) y sustrayendo una fracción adecuada del intervalo de la clase a la frontera superior de la clase en que debe caer la mediana. EJEMPLO Use este planteamiento alternativo para encontrar la mediana de la distribución de los datos de la emisión de óxidos de azufre. Solución Dado que 2 + 9 + 17 =28 de los valores deben caer sobre 20.95, necesitamos 40 - 28 =12 de los 25 valores que caen en la clase siguiente para obtener la mediana, y expresamos que 12 .X= 20.95 - 25 ·4 = 19.03 Es evidente que el resultado es el mismo. Nótese que se puede obtener la mediana de una distribución sin importar que todos los intervalos de la clase sean iguales; de hecho, por lo general, se puede encontrar aún si alguna o ambas clases de la parte superior o la inferior de una distribución son abiertas (véase el ejercicio 3.52). También podemos usar el método por el que encontramos la mediana de una distribución para determinar otros fractiles. Por ejemplo, se definen los tres cuartiles (que pretenden dividir un conjunto de datos en cuatro partes más o menos iguales) para los datos agrupados de modo que 25% del área total de los rectángulos del histograma cae del lado izquierdo de Qi, 25% cae entre Q1 y Q2, 25% cae entre Q2 y QJ y 25% cae a la derecha de Q3 • En forma similar, se definen los nueve deciles (que pretenden dividir un conjunto de datos en diez partes más o menos iguales) para los datos agrupados de modo que 10% del área total de los rectángulos del histograma cae a la izquierda de Di, 10% cae entre Di y D2,··· y 10% cae del lado derecho de D9. Y finalmente, se definen SEC. 3.7 I LA DESCRIPCION DE LOS DATOS AGRUPADOS 61 los noventa y nueve percentiles (que pretenden dividirun conjunto de datos en cien partes más o menos iguales) para los datos agrupados de modo que 1% del área total de los rectángulos del histograma cae del lado izquierdo de Pi. 1% cae entre P1 y P2, ... y 1% cae a la derecha de P99. Nótese que Q2, Ds y P5o son iguales a la mediana y que P2s equivale a Q1 y P1s equivale a Q3. Véase también el ejercicio 3.43 de la página 57. EJEMPLO Encuentre Qi y Q3 para la distribución de los datos de la emisión de óxidos de azufre. Solución Para encontrar Qi. debemos contar ªP = 20 de los artículos comenzando por la parte inferior de la distribución. Puesto que hay 3 + 10 =13 valores en las dos primeras clases, debemos contar 20 - 13 =7 de los 14 valores de la tercera clase para obtener Q1 y tenemos Ql = 12.95 7 14 + --· 4 = 14.95 Para encontrar Q3, debemos contar 20 de los artículos iniciando por el otro extremo de la distribución. Ya que 2 + 9 = 11 de los valores caen en las dos clases de la parte superior de la distribución, debemos contar 20 - 11 =9 de los 17 valores de la clase siguiente para obtener Q3 y tenemos Q3 = 24.95 - 9 Tf 4 = 22.s3 EJEMPLO Encuentre Ds y P2 para la distribución de los datos de la emisión de óxidos de azufre. Solución Contando 80(0.20) =16 de los artículos empezando con los valores más altos, tenemos D8 5 = 24.95 - 17 ·4 = 23.77 Y contando 80(0.02) = 1.6 de los artículos comenzando con los valores más bajos, tenemos P2 1.6 = 4.95 + 3 .4 = 7.08 Nótese que cuando determinamos un fractil de una distribución, el número de artículos que contamos y la cantidadj de la fórmula de la página 61 no necesita ser un número entero. EJERCICIOS *3.52 Determine, para cada una de las siguientes distribuciones, si es posible enq:mtrar la media y/o la mediana: (a) Calificación Frecuencia 40-49 50-59 60-69 70-79 80-89 62 5 18 27 15 6 CAP. 3 / RESUMEN DE DATOS: MEDIDAS DE TENDENCIA (b) IQ Frecuencia Menos de90 90- 99 100-109 110-119 Más de 119 3 14 22 19 7 (c) Peso Frecuencia lOOomenos 41 13 8 3 1 101-110 111-120 121-130 131-140 •3.58 Refiriéndonos a Ja distribución del ejercicio 3.56, encuentre (a) Jos deciles D3 y I>,; (b) Jos percentiles Ps y P9s. •3.59 Obtenga Ja media de Ja siguiente distribución de edades de Jos miembros de un sindicato: Edad(años) *3.53 Encuentre Ja media de Ja siguiente distribución de las calificaciones que obtuvieron 500 estudiantes en un examen de geografía: 15-19 20-24 25-29 30-34 35-39 40-44 45-49 50-54 Número de Calificación estudiantes 10-24 25-39 40-54 55-69 70-84 85-99 44 70 92 147 115 32 *3.54 Refiriéndonos a Ja distribución del ejercicio anterior, encuentre (a) Ja mediana; (b) Jos cuartiles Q1 y QJ. *3.55 Refiriéndonos a Ja distribución del ejercicio 3.53, encuentre (a) Jos deciies D1 y D9; (b) Jos percentiles Ps y P9s. *3.56 Encuentre la media de Ja siguiente distribución de Jos porcentajes de Jos estudiantes que pertenecen a un grupo étnico determinad_o ~n una muestra de 50 escuelas primarias: Porcentaje Número de escuelas O- 4 5- 9 10-14 15-19 20-24 18 15 9 7 1 1 Frecuencia 16 35 44 27 17 8 2 •3.60 Refiriéndonos a Ja distribución del ejercicio anterior, encuentre (a) Ja mediana; (b) Jos cuartiles Q1 y QJ. •3.61 Refiriéndonos a la distribución del ejercicio 3.59, encuentre Jos dos fractiles que dividen Ja distribución en tres partes iguales. •3.62 Encuentre Ja media de Ja distribución obtenida en el ejercicio 2.22 de Ja página 26 para Jos pesos de las 50 ratas. También, use un programa de computación o una calculadora para encontrar Ja media de Jos datos originales (no agrupados) y Juego determine el tamaño del error de agrupación. •3.63 Encuentre Ja media de Ja distribución obtenida en el ejercicio 2.27 de la página 26 para Jos rendimientos obtenidos con 40 tanques llenos de gasolina. También, use un programa de computación o una calculadora para encontrar la media de Jos datos originales (no agrupados) y Juego determine el tamaño del error de agrupación. •3.64 Suponga que se han agrupado Jos valores de Jos datos en una distribución con el intervalo de Ja clase c. Se garantiza que el error de agrupación en el cálculo de Ja media no puede ser mayor que c. Compare, para cada uno de Jos dos ejercicios anteriores, el error de agrupación con el intervalo de Ja clase. *3.57 Refiriéndonos a Ja distribución del ejercicio anterior, encuentre (a) la mediana; (b) Jos cuartiles Q1 y QJ. SEC. 3.7 I LA DESCRIPCION DE LOS DATOS AGRUPADOS 63 3.8 NOTA TECNICA (SUMATORIAS) En la notación que presentamos en la página 40, I x no nos indica cuáles ni cuántos valores de x debemos sumar. Se maneja esto con la notación más explícita n LX¡= x1 + x 2 + ··· + Xn i= 1 donde es evidente que estamos sumando lasx's cuyos subíndices, i, son 1, 2, ... y n. No estamos usando la notación más explícita en este texto para simplificar la apariencia general de las fórmulas, suponiendo que en cada caso es evidente a qué x' s nos estamos refiriendo y cuántas hay. Usando la notación I, también tendremos la ocasión para escribir expresiones tales como Ix2, I.xy, Ix'l, ... , que representan (más explícitamente) las sumas n " 2_ L. X¡ - 2 X¡ + Xz2 + X 32 + ··· + Xn2 i= 1 m L xjyj = X1Y1 + X2Y2 + ... + XmYm j= 1 n L x? f; = xU 1 + x~ f 2 + ··· + x; fn i= 1 Trabajando con dos subíndices, también tendremos la ocasión de evaluar dobles sumatorias como 3 4 3 L L X¡i = L (x i + x2i + x3i + x4i) 1 j=l i=l j=l + Xz¡ + X31 + X4¡ + X¡z + X22 + X32 + X42 + X13 + X23 + X33 + X43 =X¡¡ Para verificar algunas de las fórmulas que implican sumatorias que se mencionan pero que no se prueban en el texto, el lector tendrá necesidad de las reglas siguientes: n Regla A: L n (X¡± y¡)= i= 1 Reglas para las sumatorias ReglaB: L k·x¡ = LX¡± L y¡ i= 1 i-:;o;: 1 n k· i= 1 IX¡ i= 1 n Regla C: L k = k •n i= 1 La primera de estas reglas establece que la sumato1ia de la suma (o diferencia) de dos términos equivale a la suma (o diferencia) de las sumatorias individuales y se puede generalizar a la suma o diferencia de más de dos términos. La segunda regla establece que podemos, por así decirlo, factorizar una constante de una sumatoria y la tercera regla 64 CAP. 3 I RESUMEN DE DATOS: MEDIDAS DE TENDENCIA 1 establece que la sumatoria de una constante simplemente es n veces esa constante. Todas estas reglas se pueden probar escribiendo por completo lo que cada sumatoria representa. EJERCICIOS 3.65 Escriba por completo cada una de las siguientes expresiones; es decir, sin signos de sumatoria: (d) i= 1 (e) L xf; i= 1 i=3 3 4 L x¡y¡; (f) i= 1 3.66 (b) 3.69 L (xj +Y)· I L I x'f · ¡;. i=l 4 (b) X¡; I x'f. i= 1 Considerando quexu = 3,x12 = 1,x13 =-2,X14 = 2,x21 = 1, = 4, X23 = -2, X24 = 5, X31 = 3, X32 = -1, X33 = 2 y X34 = 3, encuentre X22 5 (a) (d) i=l 3.70 f¡; 5 I ¡;; 4 j= 1 X¡• Considerandoquex1=-2,x2=3,x3=1 yx4 = 4, encuentre (a) Escriba cada una de las siguientes expresiones sin signos de sumatoria y simplifique si es posible: L i=l i=l 7 5 5 (c) X¡; 5 L xj.fj; j= 1 (b) ¿y¡; L i=l 8 6 (a) LX¡; (c) 5 (a) 3 (X¡+ J); (a) (3y); (b) i= 1 ¿ xij por separado paraj = 1, 2, 3 y 4; i= 1 4 4 (b) ¿ j=l 4 (c) 3.71 4 ¿ X; + L1 (2x). i= 1 3 + Xsfs + x6f6; (e) 3x 1 + 3x 2 + 3x 3 + 3x4 + 3x 5 + 3x 6; (f) (x 1 - y¡) + (x 2 - Y2) + (x3 - y3) + (x4 - y4); (g) (w 1 - 5) + (w 2· - 5) + (w 3 - 5); (h) a 1b 1c 1 + a 2b 2c 2 + a 3b 3c 3 + a4b4c4 . Considerando que x, = 1, x2 = 3, X3 = 5, X4 = 7, xs = 9,j; = 1,fi = 5,h = 10,_'4 = 3 y fs = 2, encuentre 4 ¿ ¿ xij usando i= 1j=1 Escriba como sumatorias cada una de las siguientes expresiones: (c) xif1 + X2f2 + X3f3 + X4f4 (d) yf + y~ + y~ + y¡ + y~; En relación con el ejercicio anterior, evalúe la doble sumatoria, (a) los resultados de la parte (a) de ese ejercicio; (b) los resultados de la parte (b) de ese ejercicio. (a) z 1 +z 2 +z 3 +z 4 ; (b) X6 + X7 + Xg + X9 + X¡o +X¡¡; 3.68 xij por separado para i = 1, 2 y 3. j=I j= 3.67 ¿ n 3.72 Demuestre que ¿ (x - .X) = O para cualquier conjunto i= 1 de x's cuya media sea x. 3.73 ¿Es cierto, en términos generales, que Ct x;y ¡t = xf? (Sugerencia: Verifique si la ecuación es verdadera para n = 2.) 3.9 REVISION DE TERMINOS CLAVE (con referencia de página a sus definiciones) Amplitud media, 57 •Cuartiles 50 Cuartil inferior, 52 *Cuartil medio, 54 * Deciles, 50 Doblamiento, 53 SEC. 3.9 I LISTA TERMINOS CLAVE 65 Doble sumatoria, 64 *Error de agrupación, 59 * Fractiles, 50 Gráfica de recuadro, 55 *Interpolación, 51 Media, 39 Media aritmética, 39 Media armónica, 46 Media geométrica, 46 Media general, 44 Mediana, 47 Medidas de localización, 38 Medidas de localización central, 38 Moda, 55 Muestra, 38 Notación de sumatoria, 40 Parámetro, 41 * Percentiles, 50 Población, 38 Posición mediana, 48 Puntos esenciales, 53 Punto esencial inferior, 53 Punto esencial superior, 53 Representación gráfica de recuadro y sección, 54, 55 Tamaño de la muestra, 40 Tamaño de la población, 41 Teorema de Markov, 46 3.10 EJERCICIOS DE REVISION 3.74 Las siguientes son las clasificaciones de televidentes estimadas para dieciséis partidos de futbol profesional: 1.46 1.82 1.32 1.21 1.58 1.36 1.88 1.76 1.32 1.86 1.39 1.63 l. 72 1.55 1.66 1.57 Obtenga la mediana y Ja moda para estos valores. *3.75 Encuentre Jos puntos esenciales para las clasificaciones de televidentes del problema anterior. 3.76 En una venta de beneficencia, una organización de servicios vendió 120 libros con un precio medio de $2.10, 80 pasteles con un precio medio de $2.75 y 50 artesanías con un precio medio de $4.55. Encuentre el importe del total de las ventas y del precio medio por artículo vendido. •3.77 La siguiente es Ja distribución del número de días que llovió en Seattle en 60 meses: •3.78 En relación con el ejercicio 3.77, encuentre (a) Ja mediana de Ja distribución; (b) Jos cuartiles de Ja distribución. *3.79 Refiriéndonos al ejercicio 3.77, encuentre el 60!! percentil de la distribución. 3.80 Un productor de comerciales de televisión sabe exactamente 'uánto dinero se gastó en Ja producción de cada uno de diez comerciales de un minuto. Dé un ejemplo de un problema en el que estos datos se considerarían como (a) una población; (b) una muestra. 3.81 Encuentre Ja posición mediana para (a) n=31; (b) n = 80. 3.82 Las siguientes son las ganancias de 1990, en miles de dólares de diez vendedoras industriales: Número de días 5-7 8-10 11-13 14-16 17-19 20-22 30.5 25.8 20.4 23.2 33.0 26.4 28.8 27.3 5 9 12 18 13 3 Calcule la media. 66 28.2 32.5 Frecuencia CAP. 3 I RESUMEN DE DATOS: MEDIDAS DE TENDENCIA (a) Encuentre Ja mediana de estas ganancias. (b) Encuentre la media de estas ganancias. •3.83 Con base en los datos del problema anterior, encuentre Jos puntos esenciales de las ganancias de 1990 de estas vendedoras. 3.84 En un día de clases, un estudiante obtuvo 78 de califica- ción en la primera prueba, 83 en la segunda prueba y 88 en la final. El profesor considera que la segunda prueba es del doble de importancia que la primera y que la prueba final es tres veces más importante que la segunda prueba. ¿Cuál es la calificación media ponderada de las tres pruebas del estudiante? 3.85 Durante las tres semanas anteriores a Navidad, doce personas hicieron compras, en promedio, en 5.75 tiendas de ropa. ¿Es posible que por lo menos siete de estas personas hayan hecho compras en diez o más tiendas? 3.86 Se preguntó a veinte electores registrados si se consideraban demócratas, republicanos o independientes. Use las respuestas siguientes para determinar su selección modal: Demócrata Independiente Independiente Independiente Republicano Demócrata Republicano Demócrata Demócrata Independiente Demócrata Independiente Republicano Independiente Demócrata Independiente Repúblicano Independiente Independiente Demócrata •3.87 Considerando una muestra de 23 observaciones, encuentre las posiciones de la mediana y los dos puntos esenciales. •3.88 Considerando una muestra de 24 observaciones, encuentre las posiciones de la mediana y los dos puntos esenciales. 3.89 Los siguientes valores son las retenciones porcentuales de azufre de 42 áreas de vertientes del noroeste de Estados Unidos, registrados en 1989: 18.3 60.6 57.4 17.8 53.7 42.0 47.8 31.7 37.0 41.9 19.0 44.2 37.6 39.8 19.3 34.3 38.0 51.0 32.4 54.7 56.2 66.2 21.8 42.1 33.0 45.3 33.2 48.8 59.6 49.7 43.2 53.9 33.2 41.7 25.9 43.0 43.5 39.0 24.3 28.2 42.2 45.7 Elabore una gráfica de tronco y hoja y úsela para encontrar la mediana de estos datos. 3.9J) Los siguientes son los números de pasajeros de 46 autobuses con vista panorámica en Boston, Massachusetts: Número de personas Frecuencia 15 o menos 16-20 21 25 26-30 31-35 3640 5 8 11 13 6 3 Si es posible, encuentre la media y la mediana. •3.91 Refiriéndonos a la distribución del ejercicio anterior, encuentre, si es posible, (a) el cuartil inferior; (b) el cuartil superior; (c) el 40!! percentil; (d) el 80!! percentil. 3.92 Considerando que x1 = 3, x2 = 5, X3 = -2, X4 = 1, xs = 3, X6 = -4, X1 = 2 y Xs = 4, encuentre & 6 (b) LX¡. (a) LX¡; j::::: i= 1 3 3.93 Si el salario medio de todos los empleados de sexo masculino de la compañía A excede el de todos los empleados de sexo masculino de la compañía By el salario medio de todos los empleados de sexo femenino de la compañía A es mayor que el de todos los empleados de sexo femenino de la compañía B, ¿se deduce que el salario medio de todos los empleados de la compañía A excede el de todos los empleados de la compañía B? Explique su respuesta. 3.94 Los promedios de bateo de beisbol se obtienen dividiendo el número de hits de un jugador entre su número de veces al bat, expresando el resultado como un_a-clfra de tres decimales. Por ejemplo, un jugador con 30 hits y 100 veces al bat tiene un promedio de bateo de 0.300. Estos son algunos de los valores de la temporada de béisbol de 1990: Jugador Liga George Brett Willie McGee Willie McGee Eddie Murray Americana Americana Nacional Nacional Hits Veces albat 179 31 168 184 544 113 501 558 George Brett tuvo el promedio de bateo más alto de la Liga Americana y Willie McGee tuvo el promedio más alto de bateo de la Liga Nacional. No obstante, McGee jugó en ambas ligas. Demuestre que Eddie Murray tuvo el promedio de bateo general más alto, aun cuando no fue el inejor de su liga. SEC. 3.10 I EJERCICIOS DE REVISION - 67 3.11 REFERENCIAS Se presentan estudios informales de la ética implícita en la selección entre promedios y otras cuestiones éticas de la estadística en general en HooKE, R., How to Tell the Liarsfrom the Statisticians. Nueva York: Marce! Dekker, Inc., 1983. HuFF, D., How to Lie with Statistics. Nueva York: W. W. Norton & Company, lnc., 1954. Para mayor información acerca del uso y la interpretación de los puntos esenciales, léanse los libros sobre el análisis exploratorio de datos al que hacemos referencia en la página 36. La simplificación de los cálculos de los datos agrupados por medio del uso de la "codificación" se analiza en el apéndice C de HAMBURG, M., Basic Statistics: A Modem Approach. Nueva York: Harcourt Brace, Jovanovich, Inc., 1974. Un estudio de la media de una población infinita aparece en la página 187 de NETER, J., WASSERMAN, W. y WHITMORE, G., Applied Statistics, segunda edición. Boston: Allyn and Bacon, Inc., 1982. 68 CAP. 3 / RESUMEN DE DATOS: MEDIDAS DE TENDENCIA RESUMEN DE DATOS: MEDIDAS DE VARIACION 4.1 La amplitud 70 4.2 La varianza y la desviación estándar 71 4.3 Aplicaciones de la desviación estándar 74 4.4 La descripción de los datos agrupados 4.5 Algunas descripciones adicionales 4.6 Revisión de términos clave 86 4.7 Ejercicios de revisión 86 4.8 Referencias 88 * * 82 81 En la mayoría de los conjuntos de datos, no todos los valores son iguales. El grado en el que varían es de suma importancia en la estadística. Considere los ejemplos que se dan a continuación: En un hospital en el que se toma tres veces al día la presión sanguínea de cada paciente, la del paciente A es de 72, 76 y 74, mientras que la del paciente Bes de 72, 91 y 59. La lectura de presión media de los dos pacientes es la misma, 74, pero observe la diferencia de la variabilidad. En tanto que la presión del paciente A es estable, la del paciente B fluctúa en gran medid~. Un supermercado almacena ciertas bolsas de una libra de nueces mixtas, que en promedio contienen 12 almendras por bolsa. Si todas las bolsas contienen cualquier cantidad de 1O a 14 almendras, el producto es consistente y satisfactorio, pero la situación es bastante distinta si algunas de las bolsas no tienen almendras mientras que otras tienen 20 o más. Considere a un jugador de basquetbol que ha anotado 22, 26 y 24 puntos en sus tres primeros juegos. Un compañero de equipo ha anotado 41, 13 y 18 puntos en los mismos juegos. Ambos jugadores tienen el mismo promedio, 24, pero el primer jugador es más consistente. La medida de la variabilidad es de especial importancia para la inferencia estadística. Suponga, por ejemplo, que tenemos una moneda ligeramente doblada y nos preguntamos si las probabilidades de cara o cruz aún son de cincuenta-cincuenta. ¿Qué sucede si lanzamos la moneda al aire 100 veces y obtenemos 28 caras y 72 cruces? ¿La disminución de caras -de sólo 28, cuando podríamos haber esperado 50- implica que el conteo no es "justo"? Para responder a tales preguntas debemos tener alguna idea acerca de la magnitud de las fluctuaciones o variaciones consecuencia de cuando al azar se lanzan monedas 100 veces al aire. Necesitamos valorar el grado en el que los datos están dispersos; las medidas que esta información proporcionará se conocen como medidas de variación. En las secciones 4.1 a 4.3 presentamos las medidas de variación más comunes y algunas de sus aplicaciones especiales. En las secciones 4.4 y 4.5, que son opcionales, se estudia la medida de la variación de los datos agrupados y algunas descripciones estadísticas distintas de las medidas de localización y variación. 4.1 LA AMPLITUD Para presentar una manera simple de medir la variabilidad, refirámonos al primero de los tres ejemplos anteriores, en el que la presión sanguínea del paciente A varió de 72 a 76 mientras que la del paciente B varió de 59 a 91. Estos valores extremos (más bajos y más altos) indican la variabilidad de los dos conjuntos de datos y obtenemos casi la misma información si-tomamos las diferencias entre los extremos respectivos. Así, demos la siguiente definición: La amplitud de un conjunto de datos es el valor mayor menos el valor menor. Para el paciente A del ejemplo anterior, tenemos una amplitud de 76 - 72 = 4 y para el paciente B tenemos una amplitud de 91 - 59 =32. Así mismo, para los datos de la emi- 70 CAP. 4 I RESUMEN DE DATOS: MEDIDAS DE VARIACION sión de óxidos de azufre de la página 22, el valor más bajo es 6.2, el más alto es 31.8 y la amplitud es 31.8 - 6.2 = 25.6; y para las vidas de los cinco focos de la página 41, el valor más bajo es 1}22, el más alto es 967 y la amplitud es 967...., 922 = 45. Es fácil calcular y comprender la amplitud y hay una curiosidad natural por los valores mínimos y máximos. No obstante, por lo general, ésta no es una medida de variación útil. Su principal desventaja es que no nos indica nada acerca de la dispersión de los valores que caen entre los dos extremos. Cada uno de los siguientes conjuntos de datos Conjunto J: 5, 20, 20, 20, 20, 20, 20, 20 Conjunto 2: 5, 5, 5, 5, 20, 20, 20, 20 Conjunto3: 5, 7, 9,12,15,17,19,20 tiene una amplitud de 20- 5 = 15, pero en cada caso la dispersión es por completo distinta. Así, la amplitud se usa principalmente como una referencia de variabilidad "rápida y fácil", por ejemplo, en el control de calidad industrial para mantener una supervisión rigurosa de las materias primas o algunos productos mediante la observación y graficación de la amplitud de muestras pequeñas tomadas con intervalos de tiempo ,regulares. Mientras que la amplitud comprende todos los valores de una muestra, una medida de variación similar comprende (más o menos) el 50% medio. Esta es la amplitud entre cuartiles, Q3 -Qi. donde Q1 y Q3 se pueden definir de varias maneras para datos no agrupados o agrupados como en las secciones 3.5 y 3.7. Por ejemplo, para las nueve calificaciones de la prueba de historia de la página 52, podríamos usar Q1-Q1 = 89 - 73.5 = 15.5 y para la distribución de los datos de la emisión de óxido de azufre podríamos usar los valores de Q1 y Q1 de la página 62 y escribir 22.83 - 14.95 = 7 .88. Algunos estadistas tam,bién usan la amplitud semi-intercuartílica, i (Q1 -Q1), que en ocasiones se conoce como la desviación entre cuartiles. 4.2 LA VARIANZA Y LA DESVIACION ESTANDAR Para definir la desviación estándar, que por mucho es la medida de variación usada con mayor frecuencia, observemos que la dispersión de un conjunto de datos es pequeña si los valores se acumulan estrechamente alrededor de su media; y que es amplia si los valores se acumulan en forma esparcida alrededor de su media. Por tanto, parecería razonable medir la variación de un conjunto de datos en los términos de las cantidades por las que se desvían los valores de su media. Si un conjunto de números, xi, x 2 , x 3 , ... y x,,, que constituye una muestra, tiene la media x, las diferencias x1-X'.x2 -x, x1x, ... y x,, -x se conocen como las desviaciones de la media y esto sugiere quepodríamos usar su promedio (específicamente.su media) como una medida de la variación de la muestra. Por desgracia, esto no resultaÍá. A menos de que todas las x's sean iguales, algunas de las desviaciones serán positivas, algunas serán negativas y como se le pidió al lector que lo demostrara en el ejercicio 3.72 de la página 66, la suma de las desviaciones de la media, :r(x -x), y por tanto también su media, siempre serán de cero. Ya que en realidad nos interesa la magnitud de las desviaciones y no si son positivas o negativas, simplemente podríamos ignorar los signos y definir una medida de SEC. 4.2 / LA VARIANZA Y LA DESVIACION ESTANDAR 71 variación en términos de los valores absolutos de las desviaciones de la media. De hecho, si sumamos las desviaciones de la media como si todas fueran positivas o cero y dividimos entre n, obtenemos la medida estadística conocida como la desviación media. Esta medida tiene un atractivo intuitivo, pero como consecuencia de los valores absolutos, lleva a serias dificultades teóricas en los problemas de inferencia y rara vez se usa. Un planteamiento alternativo consiste en trabajar con los cuadrados de las desviaciones de la media, pues esto también eliminará el efecto de los signos. Los cuadrados de los números reales no pueden ser ñegativos; de hecho, todos los cuadrados de las desviaciones de una media son positivos a menos de que un valor coincida con la media. Entonces, si promediamos las desviaciones cuadráticas de la media y sacamos la raíz cuadrada del resultado (para compensar el hecho de que las desviaciones se elevan al cuadrado) tenemos JL.<x n-x)2 y así es como tradicionalmente se solía definir la desviación estándar. La expresión en forma literal de lo que aquí hemos hecho en forma matemática, se llama también la desviación cuadrática media. Es común que se modifique esta fórmula dividiendo la suma de las desviaciones cuadráticas de la media entren - 1 en vez de n. Siguiendo esta práctica, que explicaremos a continuación, definamos la desviación estándar de la muestra, expresada con unas, como Desviaci6n estándar de la muestra s= JL.<x- x)2 n-1 y su cuadrado, la varianza de la muestra, como 2 '[,(x - x)2 s ==---n- 1 Varianza de la muestra Estas fórmulas para la desviación estándar y la varianza se aplican a las muestras, pero si sustituimos µ por x-y N por n, obtenemos fórmulas análogas para la desviación estándar y la varianza de una población. Se ha tomado en una práctica generalizada designar a la desviación estándar de la población con la notación a (sigma, la letra griega para las minúscula) cuando se divide entre N y la notación S cuando se divide entre N - 1. Así, para CJ, escribimos Desviación estándar de la población Por lo regular, el propósito de calcular la estadística de una muestra (como la media, la desviación estándar o la varianza) es estimar el parámetro de la población correspondiente. Si en realidad tomáramos muchas muestras de una población que tiene la media y, calculáramos las medias de la muestrax, y luego promediáramos todas estas es- 72 CAP.4 I RESUMENDEDATOS:MEDIDASDEVARIACION timaciones de µ, encontrarfamos que su promedio se aproxima mucho a µ. Sin embargo, si calculáramos la varianza de cada muestra por medio de la fórmula L (x - x) 2 , n y luego promediáramos todas estas estimaciones supuestas de <i, tal vez encontraríamos que su promedio es menor que a 2 • Teóricamente, se puede demostrar que podemos compensar esto dividiendo entren - 1 en vez den en la fórmula para s2. Se dice que los estimadores que tienen la propiedad deseable de qu~us valores en promedio equivalgan a la cantidad que se supone que estiman son no sesgadÓs; de otro modo, se dice que son sesgados. De esta manera, decimos que x es un estimador no sesgac;to de la media de la poblaciónµ y que s2 es un estimador no sesgado de la varianza de la población a 2 • De aquf no se desprende que s sea también un estimador no sesgado de a, pero cuando n es alta, el sesgo es reducido y por lo general se puede ignorar. Cuando calculamos la desviación estándar de la muestra usando la fórmula por la que se define, debemos (1) encontrar x, (2) determinar las n desviacione!¡ de la media x -x, (3) elevar el cuadrado estas desviaciones, (4) sumar todas las desviaciones cuadráticas, (5) dividir entren - 1; y (6) sacar la raíz cuadrada del resultado obtenido en el paso 5. En la práctica real, esta fórmula se usa rara vez, pero aquí, enfatizaremos lo que en realidad se mide con O' y s. EJEMPLO Solución En seis domingos consecutivos, un operador de grúa recibió 9, 7, 11, 10, 13 y 7 llamadas de servicio. Calcule s. Calculando primero la media, obtenemos - 9 + 7 + 11 X= . + 10 + 13 + 7 6 57 =6 = 9.5 y el trabajo requerido para encontrar I: (x -'X)2 se puede ordenar como en la tabla siguiente: X 9 7 11 10 13 7 Entonces, dividiendo entre 6 - '¡ x-x (x - x)2 -0.5 -2.5 1.5 0.5 3.5 -2.5 0.25 6.25 2.25 0.25 12.25 6.25 o.o 27.50 =5 y sacando la raíz cuadrada, tenemos s= ~=./55 =2.3 redondeado a un decimal. Nótese que en la tabla anterior el total de la columna central es cero; ya que éste siempre debe ser el caso, proporciona una revisión de los cálculos. Fue fácil calcular s en este ejemplo porque los datos eran números enteros y la media era exactamente de un decimal. De otro modo, los cálculos requeridos por la fórmu- SEC. 4.2 I LA VARIANZA Y LA DESVIACION ESTANDAR 73 la que define s pueden ser muy tediosos y a menos de que obtengamos s directamente con una calculadora para estadística o una computadora, es útil calcular la fórmula Fórmula para calcular la desviación estándar de una muestra EJEMPLO Solución s= rs:: ...¡-;:=¡ donde Sxx = L x2 - (L x) 2 n Use esta fórmula de cálculo paras para volver a trabajar con el ejemplo anterior. Primero calculamos l: x y l: x 2 , obteniendo Luego, sustituyendo l: x X2 9 7 11 10 13 7 81 49 121 100 169 49 57 569 = 57 y l: x 2 =569 con n =6, encontramos que s Esto nos da X XX = 569 - (S?) . [2750 s = ...¡~ = 6 2 = 27 •50 .J5.5 = 2.3, concordando con el resultado antes obtenido. También se puede usar la fórmula paras para obtener cr; se debe reemplazar el denominador n - 1 por N. 4.3 APLICACIONES DE LA DESVIACION ESTANDAR En capítulos posteriores, se usarán las desviaciones estándar de la muestra principalmente para estimar las desviaciones estándar de la población en problemas de inferencia. Para familiarizarse más con lo que en realidad mide la desviación estándar, dedicaremos esta sección a algunas aplicaciones. En el argumento que llevó a la definición de la desviación estándar, observamos que la dispersión de un conjunto de datos es pequeña si los valores se acumulan estrechamente alrededor de su media y es amplia silos valores se acumulan en forma esparcida alrededor de su media. De modo correspondiente, ahora podemos decir que si la 74 CAP. 4 I RESUMEN DE DATOS: MEDIDAS DE VARIACION desviación estándar de un conjunto de datos es pequeña, los valores se concentran cerca de la media y si la desviación estándar es amplia, los valores se acumulan en forma esparcida alrededor de la media. Esta idea se expresa más formalmente por medio del teorema siguiente, conocido como el teorema de Chebyshev por el matemático ruso P. L. Chebyshev (1821-1894): Teorema de Chebyshev Para cualquier conjunto de datos (de una población o una muestra) y cualquier constante k mayor que 1, el porcentaje de los datos que debe caer dentro de k desviaciones estándar de cualquier lado de la media es de por lo menos 1 1-- k2 . 1 Así, podemos estar seguros de que, como mínimo, 1 - 22 = 3 4' o 75% de los va- lores de cualquier conjunto de datos debe caer dentro de las dos desviaciones estándar de cualquier lado de la media; por lo menos 1 - 3\ = ~· o 88.9% debe caer dentro de las tres desviaciones estándar de cualquier lado de la media; y que como mínimo 1 24 1 - 52 = 25 , o 96% debe caer dentro de las cinco desviaciones estándar de cualquier lado de la media. Aquí, arbitrariamente establecemos que k =2, 3 y 5. EJEMPLO Solución Si todas las latas de una libra de café llenadas por un procesador de alimentos tienen un peso medio de 16.00 onzas con una desviación estándar de 0.02 onzas, ¿qué porcentaje de las latas, como mínimo, debe contener entre 15.80 y 16.20 onzas de café? Ya que k desviaciones estándar o k(0.02) equivale a 16.20 -16.00 = 16.00 -15.80 = 0.20 tenemos que k(0.02) =0.20 y k = 0·20 = 10. De acuerdo con el teorema de Chebys0.02 . 1 hev, se denva que porlo menos 1 - 102 = 0.99, o 99% de las latas debe contener entre 15.80 y 16.20 onzas de café. El teorema de Chebyshev se aplica a cualquier tipo de datos, pero sólo nos indica "por lo menos qué porcentaje" debe caer entre ciertos límites. Para casi todos los datos, el porcentaje real de datos que cae entre los límites es bastante mayor que el que especifica el teorema de Chebyshev. Para las distribuciones que tienen la forma general de la sección de corte de una campana (véase la figura 4.1), podemos hacer la siguiente aseveración que es mucho más firme: (1) alrededor del 68% de los valores caerán dentro de una desviación estándar de la media, esto es, x -s y x + s; SEC. 4.3 I APLICACIONES DE LA DESVIACION ESTANDAR 75 FIGURA 4.1 Distribución acampanada. (2) aproximadamente 95% de los valores caerán dentro de dos desviaciones estándar de la media, es decir que x - 2s y x + 2s; (3) alrededor del 99.7% de los valores caerán dentro de tres desviaciones estándar de la media, esto es, entre x - 3s y x + 3s. En ocasiones, nos referimos a este resultado como la regla empírica, supuestamente porque esos porcentajes se observan en la práctica. En realidad, se trata de un resultado teórico basado en la distribución normal, la cual estudiaremos en el capítulo 9 (en particular, véase el ejercicio 9.12 de la página 224). EJEMPLO Use los valores deiy s que se dan en la impresión por computadora de la figura 3.4 para determinar qué porcentaje de los datos de la emisión de óxidos de azufre de la página 22 en realidad cae dentro de una desviación estándar de la media, dentro de dos desviaciones estándar de la media y dentro de tres desviaciones estándar de la media. Solución Puesto quei= 18.896 y s = 5.6565, primero tendremos que determinar el porcentaje de los datos que cae entre 18.896 - 5.6565 = 13.2395 y 18.896 + 5.6565 = 24.5525. Contando 14 valores menores que 13.2395 y 14 valores mayores que 24.5525, encon52 tramos que 80 - 28 = 52 valores y por tanto, - · 100% = 65% de los datos cae entre los 80 dos límites. De modo similar, encontramos que ;~ · 100% = 97.5% de los datos cae 80 dentro de dos desviaciones estándar de la media y que . 80 · 100% = 100% de los datos cae dentro de tres desviaciones estándar de la media. Los resultados que hemos obtenido aquí no son exactamente 68, 95 y 99.7%, pero sería lógico señalar que son "aproximadamente 68%" "aproximadamente 95%" y "aproximadamente 99.7%". Del mismo modo, la figura 2.2 de la página 28 demuestra que la distribución de los datos tiene la forma de una campana en cierto modo cortada, así que en realidad no podemos esperar resultados perfectos. 76 CAP. 4 I RESUMEN DE DATOS: MEDIDAS DE VARIACION En la página 70 dimos ejemplos en los que fue importante el conocimiento acerca de la variabilidad de los datos. Este también es el caso cuando queremos comparar números que pertenecen a diferentes conjuntos de datos. fara ilustrar esto, suponga que el examen final de un curso de francés consta de dos partes, vocabulario y gramática, y que cierta alumna promedió 66 puntos en la parte de vocabulario y 80 en la parte de gramática. A primera vista, parecería que la estudiante presentó un resultado mucho mejor en gramática que en vocabulario, pero suponga que todos los estudiantes de la clase promediaron 51 puntos en la parte de vocabulario con una desviación estándar de 12 y 72 puntos en la parte de gramática, con una desviación estándar de 16. Así, podemos sostener que el promedio de esta estudiante en la parte de vocabulario es de 66 - 51 . . . = 1.25 desv1ac10nes estándar sobre el promedio de la clase, en tanto que su 12 calificación en la parte de gramática es de sólo SO - 72 = 0.50 desviaciones estándar 16 sobre el promedio de la clase. Mientras que no se pueden comparar en forma significativa las calificaciones originales, es posible hacerlo con estas nuevas calificaciones, expresadas en términos de desviaciones estándar. Es evidente que en comparación con el resto de la clase, dicha estudiante tiene una calificación mucho más alta en su dominio del vocabulario francés que en su conocimiento de la gramática francesa. Lo que aquí hemos hecho consiste en convertir las calificaciones en unidades estándar o valores de la z. En general, si x es una medida perteneciente a un conjunto de datos que tiene la mediax (oµ) y la desviación estándar s (o cr), entonces su valor en unidades estándar, expresado con la z, es Fórmula para converti1 a unidades estándard X-X z=-s o x-µ z=-u dependiendo de que los datos constituyan una muestra o una población. En estas unidades, z nos indica cuántas desviaciones estándar un valor cae por encima o por debajo de la media del conjunto de datos al que pertenece. En capítulos posteriores se usarán con frecuencia unidades estándar. EJEMPLO Solución Los modelos con dos años de antigüedad de cierta marca de automóvil se han estado vendiendo, en promedio, a $7 ,860 con una desviación estándar de $820, en tanto que los modelos con tres años de antigüedad de la misma marca de automóvil se han estado vendiendo, en promedio, a $6,400, con una desviación estándar de $960. ¿Un modelo con dos años de antigüedad valuado en $6,960 es una mejor oferta que un modelo con tres años de antigüedad valuado en $5,400, sin tomar en cuenta todas las demás consideraciones? Convirtiendo ambos precios en unidades estándar, obtenemos 6,960 - 7,860 = -1 10 820 . para el automóvil con dos años de antigüedad y 5,400 - 6,400 960 = - 1 04 . SEC. 4.3 I APLICACIONES DE LA DESVIACION ESTANDAR 77 para el automóvil con tres años de antigüedad. Aunque el modelo con dos años de antigüedad está valuado en $900 por debajo del promedio y que el modelo con tres años de antigüedad está valuado en $1,000 por debajo del promedio, el primero está valuado relativamente por debajo de los automóviles de la misma marca y por tanto, es una mayor oferta. Una desventaja de la desviación estándar como una medida de variación es que depende de las unidades de medida. Por ejemplo, los pesos de ciertos objetos pueden tener una desviación estándar de 0.1 onzas o 2,835 miligramos, que es lo mismo, pero ningún valor nos indica en realidad si refleja una variación muy alta o una variación muy baja. Si estamos pesando los huevos de aves pequeñas, ninguna cifra reflejaría una vari"ación importante, pero éste no sería el caso si pesamos costales de papas de 100 libras. Lo que necesitamos en una situación como ésta es una medida de variación relativa, como el coeficiente de variación Coeficiente de variación V=~·l00% x º V=~·l00% o ~ que expresa la desviación estándar como up porcentaje de lo que se mide, por lo menos, en promedio. EJEMPLO Solución Varias m~didas del diámetro de un rodamiento de balas tomadas con un micrómetro tuvieron una media de 2.49 mm y una desviación estándar de O.O 12 m,m y varias medidas dela longi~d de un resorte sin estirar tomadas con otro micrómetro tuvieron una media de 0.75 pul~das con una-Oesviación estándar de 0.002 pulgadas. ¿Cuál de los dos micrómetros e~ relativamente más preeiso? Calculando los dos coeficientes de· variación, obtenemos 0.012 o 2.49 . 100% o = 0.48% y 0 ·002 • 100% 0.75 o = o. 27%o Así, las medidas de longitud del resorte son relativamente variables y esto significa que (!l segundo micrómetro es más preciso. Ambos coeficientes de variación son menores del 1%, de modo que ambos micrómetros califican como altamente precisos. EJERCICIOS 4.1 Los siguientes son los tiempos de respuesta de una alarma de humo después de liberar humo desde una fuente fija: 12, 9, 11, 7, 9, 14, 6y10 segundos. Encuentre la amplitud. 4.2 Los siguientes números son las producciones (en cajas por acre) de pasas durante un periodo de diez años en California. 715 965 825 895 640 900 790 700 915 945 Encuentre la amplitud. 78 CAP. 4 I RESUMEN DE DATOS: MEDIDAS DE VARIACION 4.3 Los siguientes son los precios al cierre de dos acciones en cinco viernes consecutivos: Capital A: Capital B: 15~ 22~ 151 22 16~ 16~ 21~ 22~ 15j 22¡ Encuentre la amplitud de cada acción. 4.4 Veinticinco empleados de una cadena de moteles, habiendo estudiado un curso de primeros auxilios, obtuvie- ron estas calificaciones en una prueba practicada después del curso: 17 17 16 16 17 19 12 19 17 16 14 15 18 18 14 20 15 15 17 18 4.14 Cada una de las listas siguientes contiene un número igual de artículos. Además, cada lista contiene sólo dos valores diferentes. Encuentre Ja desviación estándar para cada lista. ¿Puede relacionar esta desviación estándar con la diferencia entre los valores? Para este ejercicio, será en cierto modo más fácil usar la fórmula que define s. (a) 16, 16, 20, 20. (b) 100, 100, 100,200,200,200. (c) 60,60,60,60,80,80,80,80. 4.15 Cada una de las listas siguientes contiene sólo un valor que es diferente del resto. Encuentre Ja desviación estándar para cada lista. ¿Puede relacionar esta desviación es- . tándar con Ja diferencia entre Jos valores? 17 16 16 13 17 Encuentre la amplitud. Encuentre los puntos esenciales de los datos anteriores. Interpretando los puntos esenciales como cuartiles, obtenga la amplitud entre cuartiles. ¿Debería ser sorprendente que la amplitud entre cuartiles es menor que la mitad de la amplitud? 4.6 .Encuentre la amplitud de las distancias de frenado del ejercicio 3.38 de la página 57. *4.7 . Encuentre la amplitud entre cuartiles de las distancias de frenado del ejercicio 3.38 de la página 57. 4.8 El ejemplo de la página 49 da Jos números de pasajeros de 50 viajes de un transbordador. Encuentre Ja amplitud. *4.9 Encuentre Jos dos puntos esenciales del ejemplo del transbordador de Ja página 49. Interpretando estos puntos esenciales como cuartiles, encuentre la amplitud semi-intercuartílica. 4.10 En einco intentos, una persona requirió de 12, 18, 14, 11 y 15 minutos para cambiar el aceite de una marca particular de automóvil. Calcule Ja desviación estándar de esta muestra usando (a) Ja fórmula que defines; (b) Ja fórmula para calcular s. ~1 Cuatro compras de frijoles refritos en bolsas con Ja leyenda "una libra" contenían 16.2, 15.9, 15.8 y 16. l onzas. Calcule s usando (a) la fórmula que defines; (b) la fórmula para calcular s. 4.12 Los números de casos de equipaje con destino equivocado registrados durante seis semanas consecutivas en un pequeño aeropuerto fueron 13, 8, 15, 11, 3 y 10. Obtenga la varianza de estas cifras usando (a) La fórmula por la que se define s2; (b) La fórmula para calcular s2. 4.13 En cuatro días una persona requirió de 37, 32, 35 y 41 minutos para conducir a su trabajo. (a) Use la fórmula de cálculo que defines para calcular la desviación estándar de estos datos. (b) Sustraiga 30 a cada cifra y luego use Ja fórmula de cálculo de s para calcular la desviación estándar. ¿Qué regla general sugiere esto para simplificar el cálculo de s? (a) 6, 6, 6, 10. (b) 6, 10, 10, 10. (c) 20, 20, 20, 20, 30. 4.16 Se ha aseverado que en el caso de las muestras de tamaño n = 4, la amplitud difícilmente debería ser del doble de la desviación estándar. Verifique esta aseveración refiriéndose a Jos datos siguientes, que representan los números de cirugías de emergencia practicadas en un hospital en cuatro días: 3, 6, 2 y 6. 4.17 Se ha aseverado que en el caso de las muestras de tamaño n = 1O, la amplitud difícilmente debería ser del triple de la desviación estándar. Verifique esta aseveración refiriéndose a los datos siguientes, que representan las emisiones de diez automóviles: 18 20 4.18 21 22 16 29 24 19 28 25 Si sumamos la misma constante e a cada artículo de un conjunto de datos, la media y la mediana del nuevo conjunto equivalen a Ja media y la mediana del conjunto original más Ja constante e, mientras que Ja amplitud y la desviación estándar permanecen sin cambios. (a) Verifique que para una muestra consistente en los valores -3, 4, 1, 5, 3, 4 y O Ja media es 2, Ja mediana es 3, Ja amplitud es 8 y Ja desviación estándar es JS. y que después de que sumamos 3 a cada valor la media se coiwierte en 5 y Ja mediana en 6, pero Ja amplitud aún es de 8 y Ja desviación estándar todavía es de (b) Encuentre la desviación estándar de los datos del ejercicio 4.4 después de sustraer 10 a cada valor. JS. 4.19 Si multiplicamos cada artículo de un conjunto de datos por la misma constante positiva b, Ja media, la mediana, la amplitud y Ja desviación estándar del nuevo conjunto equivalen a Ja media, la mediana, Ja amplitud y la desviación estándar del conjunto original multiplicadas por b. (a) Refiriéndonos a los siete valores muestrales de la parte (a) del ejercicio anterior, demuestre que si se SEC. 4.3 I APLICACIONES DE LA DESVIACION ESTANDAR 79 multiplica cada valor por 2, la media se convierte en 4, la mediana en 6, la amplitud en 16 y la desviación estándar enfo = 2J8. (b) Durante cuatro paradas en los pits, el encargado de cambiar las llantas delanteras de un automóvil de carreras cambió una llanta delantera derecha en l0.8, 12.0, l0.5y10.7 segundos. Calcule la desviación estándar multiplicando primero cada cifra por 10, susttayendo 110, determinando s para las cifras resultantes y dividiendo luego entre 10. nada debe tener un contenido de tiamina de entre 0.245 y 0.275 miligramos? ¿Qué podemos señalar acerca de este porcentaje si se puede suponer que la distribución del contenido de tiamina de las rebanadas de pan es acampanada? ~.26 ~ 50 46 55 64 59 60 48 54 62 59 ·57 61 4.20 De acuerdo con el teorema de Chebyshev, ¿qué podemos afirmar acerca de la proporción de cualquier coµjunto de datos que debe caer dentro de k desviaciones estándar de la media cuando (a) k= 6; (b)k= 12? 4.21 De acuerdo con el teorema de Chebyshev, ¿qué podemos afirmar acerca del porcentaje de cualquier conjunto de datos que debe caer dentro de k desviaciones estándar de la media cuando (a) k=4; 4.22 De acuerdo con el teorema de Chebyshev, ¿qué podemos afirmar acerca del porcentaje de cualquier conjunto de datos que debe caer dentro de k desviaciones estándar de cualquier lado de la media cuando · (a) k= 5; 4.23 Los registros de una aerolínea demuestran que sus vuelos entre dos ciudades llegan, en promedio, 5.4 minutos tarde con una desviación estándar de l.4 minutos. ¿Por lo menos, qué porcentaje de estos vuelos entre las dos ciudades llegan con cualquier tiempo entre (a) 2.6 y 8.2 minutos de rettaso; (b) l.6 minutos de anticipación y 12.4 minutos de retraso? 4.24 Un estudio del valor nutritivo de cierta marca de pan revela que, en promedio, una rebanada contiene 0.260 miligramos de tiamina (vitamina B 1) con una desviación estándar de 0.005 miligramos. De acuerdo con el teorema de Chebyshev, ¿entre qué valores se debe encontrar el contenido de tiamina de 35 (a) por lo menos 36 de todas las rebanadas de este pan; 80 (b) por lo menos 81 de todas las rebanadas ae este pan? 4.25 Refiriéndonos al ejercicio anterior, ¿como mínimo, qué porcentaje de estas rebanadas de la marca de pan determi- 80 CAP.4 I RESUMENDEDATOS:MEDIDASDEVARIACION 64 55 59 66 61 50 46 59 62 56 59 67 62 56 52. 56 56 62 43 67 61 76 59 ·74 51 45 55 49 63 52 63 59 57 52 78 62 60 61 53 64 61 52 55 65 57 58 60 49 41 57 57 60 68 58 73 60 52 47 66 63 71 65 58 58 57 64 60 61 63 63 63 65 53 62 66 64 51 43 69 59 48 53 58 55 63 58 53 42 61 60 53 63 58 54 60 61 64 65 56 47 51 62 66 56 64 67 55 54 (a) Use un paquete de computaCión para determinar xy s para estos datos. (b) Utilice los resultados de (a) para obtener los porcentajes de los valores de los datos que caen dentro de una, dos y tres desviaciones estándar de la media. Compare estos porcentajes con los porcentajes esparados de acuerdo con la página 76. (El ejercicio 2.25 indica que es razonable que la distribución de estos valores sea acampanada.) (b) k=9? (b) k= 8; (c) k= 10; (d) k=20? Los datos siguientes son los números de los clientes a los que se les sirvió almuerzo en 120 dias hábiles. Estos datos se dieron en el ejercicio 2.25 de la página 26. 4.27 En una ciudad del sureste, los supermercados cobran, en promedio, $3.67 por libra de sirloin (con una desviación estándar de $0.40), $1.12 por libra de muslo de pollo (con una desviación estándar de $0.11) y $8.18 por libra de pierna de ternera (con una desviación estándar de $0.92). Si un supermercado de esta ciudad cobra $3.59 por libra de sirloin, $1.09 por libra de muslo de pollo y $7.69 por libra de pierna de ternera, ¿cuál de los tres articulos es el ,más barato, hablando en u~ sentido relativo? 4.28 Entre dos hombres sujetos a una dieta de reducción de peso, el primero pertenece a un tipo de edad/cuerpo para el cual el peso medio es de 145 libras con una desviación estándar de 15 libras. El segundo pertenece a un tipo de edad/cuerpo para el cual el peso medio es de 165 libras con upa desviación estándar de '20 li6ras. ¿Quién tiene un sobrepeso más grave para su tipo de edad/cuerpo, si sus pesos respectivos son de 178 y 204 libras? 4.29 Un técnico de laboratorio estudió medidas recientes tomadas con dos instrumentos distintos. El primero midió el diámetro de un rodamiento de balas y obtuvo una me- Pollo: día de 4.96 mm con una desviación estándar de 0.022 mm. El segundo midió el diámetro de una varilla metálica y obtuvo una media de 6.48 mm con una desviación estándar de 0.032 mm. ¿Cuál de los dos instrumentos fue relativamente más preciso? 4.30 4.31 Bistec: La presión sanguínea de un paciente se midió diariamente durante varias semanas. Estas medidas tuvieron una media de 188 con una desviación estándar de 14.2. También se tomó a diario la presión de un segundo paciente, obteniéndose un promedio de 136 con una desviación estándar de 8.6 La presión sanguínea de ¿qué paciente es relativamente más variable? 46 51 39 30 55 43 48 54 65 36 40 53 41 33 64 25 50 32 30 44 41 46 41 46 36 28 53 37 35 47 23 37 Calcule los dos coeficientes de variación para determinar el artículo para el que el número de órdenes es relativamente más variable. *4.32 Una medida alternativa de la variación relativa es el coe· ficiente de variación de cuartiles, que se define como Q3 Q3 - Q1 • 100% donde Q1 y Q3 son los cuartiles interior y + Q¡ superior. Use los resultados del ejercicio 4. 7 de la página 79 para obtener el coeficiente de variación de cuartiles para la distancia de frenado del ejercicio 3.38 de la página57. En dieciséis días, un restaurante tuvo los siguientes números de órdenes de pollo y bistec: 4.4 LA DESCRIPCION DE LOS DATOS AGRUPADOS* Para determinar la desviación estándar de una distribución, hacemos la misma aproximación que en la página 58, a cada valor que cae en una clase asignamos el valor de la marca de la clase correspondiente. Determinando de nuevo que xi, x2•••• y Xt repre· sentan las marcas de la clase y queji,/z, ... , y fisimbolizan las frecuencias de la clase co· rrespondiente, entonces la suma de todas las medidas u observaciones se expresa como y la suma de sus cuadrados se representa como xif1 + x~f2 + xU3 + · · · + xf Ík = L x 2 • f La fórmula para x y la fónnula para calcular s se pueden expresar como - Ix·f x=--- n y S "" = ~ L. x2 • f - (L x • f)2 n Entonces Para obtener las fórmulas correspondientes ax y Su para una población, reemplazamos n por N; entonces en la fórmula paras, sustituimos n - l con N. EJEMPLO Obtenga la media y la desviación estándar de la siguiente distribución, dando las cantidades de tiempo que 80 estudiantes de universidad dedicaron a actividades de esparcimiento durante una semana escolar típica: SEC. 4.4 I LA DESCRIPCION DE LOS DATOS AGRUPADOS 81 Solución Para obtener I: x · fy I: x 2 Horas Frecuencia 10-14 15-19 20-24 25-29 30-34 35-39 8 28 27 12 4 1 f. efectuamos los cálculos de la tabla siguiente • Marca de la clase Frecuencia X x2 J x·f x2 ·f 12 17 22 27 32 37 144 289 484 729 1,024 1,369 8 28 27 12 4 1 96 476 594 324 128 37 1,152 8,092 13,068 8,748 4,096 1,369 80 1,655 36,525 Entonces, la sustitución en las fórmulas da como resultado :X = l,:i 5 = 20.6875 o x = 20.69 redondeado a dos decimales y Sxx = 36,525 - (1,655) 2 80 = 2287.19 y entonces s= )22 ~~· 19 = 5.38 4.5 ALGUNAS DESCRIPCIONES ADICIONALES* Hasta ahora, hemos estudiado sólo descripciones estadísticas conocidas por lo regular como medidas de localización o medidas de variación. En realidad, el número de maneras en que se pueden describir los datos estadísticos es ilimitado y los estadistas continuamente desarrollan nuevos métodos de descripción de características de datos numéricos que son de interés en problemas particulares. En esta ocasión consideraremos escuetamente el problema de la descripción de la forma general de una distribución. Aunque las distribuciones de la frecuencia pueden tener casi cualquier contorno o forma, la mayoría de las distribuciones que encontramos en la práctica se pueden describir muy bien por medio de una u otra forma de pocos tipos estándar. Entre éstas, destaca en importancia la distribución acampanada simétrica, que ha sido aptamente descrita y que presentamos en la parte superior de la figura 4.2; es simétrica cerca de 82 CAP. 4 I RESUMEN DE DATOS: MEDIDAS DE VARIACJON FIGURA 4.2 Distribuciones acampanadas. la línea vertical punteada. Las otras dos distribuciones de la figura 4.2 también pueden, siendo imaginativos, interpretarse como de forma acampanada, pero no son simétricas. Se dice que las distribuciones como éstas que tienen una "cola" de uno u otro lado, son sesgadas; si la cola se halla del lado izquierdo, se dice que son negativamente sesga.. das y si la cola se encuentra del lado derecho se dice que son positivamente sesgadas. Las distribuciones de las rentas o los salarios a menudo son positivamente sesgadas como resultado de la presencia de algunos valores relativamente altos que no están compensados por valores bajos correspondientes. Los conceptos de simetría y sesgo se aplican a cualquier tipo de datos, no sólo a las distribuciones. Es evidente que para un conjunto cuantioso de datos, sólo podemos agrupar los datos y trazar y estudiar un histograma, pero si eso no es suficiente, podemos usar cualquiera de varias medidas de sesgo estadísticas. Una medida de relativa facilidad se basa en el hecho de que cuando hay una simetría perfecta como en la distribución de la parte superior de la figura 4.2, la media y la mediana coincidirán; cuando hay un sesgo positivo y algunos de los valores altos _no están compensados con valores bajos correspondientes, la media será mayor que la mediana (véase ia figura 4.3); y cuando hay sesgo negativo y algunos de los valores bajos no están compensados con valores altos correspondientes la media será menor que la mediana. Se puede usar esta relación entre la media y la mediana para definir una medida de sesgo relativamente simple. Se llama el coeficiente de asimetria de Pearson y se obtiene mediante Coeficiente de asimetría dePearson SK = 3(media - mediana) desviación estándar SEC. 4.5 / ALGUNAS DESCRIPCIONES ADICIONALES 83 FIGURA 4.3 La media y la mediana de una distribución positivamente asimétrica. Para una distribución perfectamente simétrica, el valor de SK es Oy en general, sus valores deben caer entre -3 y 3. (La división entre la desviación estándar hace que SK sea independiente de la escala de medidas.) EJEMPLO Solución Use los resultados obtenidos en las páginas 58-60 y 62,junto con S = 5.55, para encontrar el coeficiente de asimetria de Pearson para la distribución de los datos de la emisión de óxidos de azufre. Sustituyendo x = 18.85, x = 19.03 y s = 5.55 en la fórmula, obtenemos SK = 3(18.8~-~5 19.03) = -O.Ol Ya que este valor es tan cercano a cero, podemos decir que la distribución es casi simétrica. También se puede apreciar esto en el histograma de la figura 2.2 de la página 28. Además de las distribuciones que hemos estudiado en esta sección, otras dos distribuciones que se encuentran algunas veces en la práctica son las distribuciones en FIGURA 4.4 Distribuciones en forma de J inversa y en forma de U. 84 CAP. 4 / RESUMEN DE DATOS: MEDIDAS DE VARIACION forma de J inversa y en forma de U, que presentamos en la figura4.4. Como se puede apreciar en esta figura los nombres de estas distribuciones literalmente describen su forma. En los ejercicios 4.44 y 4.46 de ésta y la siguiente página 'Se pueden encontrar ejemplos de estas distribuciones. Nótese que la distribución en forma de U tiene dos picos, de ahí que con frecuencia se le describa como bimodal; las distribuciones de un pico se conocen como unimodales. Las representaciones gráficas de recuadro que-presentamos en la sección 3.5, también pueden ser útiles para describir di~tribuci~nes. EJERCICIOS *4.33 En una fábrica, el tiempo que una máquina no está operando en horas de trabajo es resultado de una falla o descompostura conocida como un tiempo perdido. La siguiente distribución presenta una muestra de la duración de los tiempos perdidos de cierta máquina: Tiempo perdido (minutos) Frecuencia O- 9 10-19 20-29 30-39 40-49 2 15 17 13 3 *4.37 Utilice los resultados del ejercicio 3.53, la parte (a) del ejercicio 3.54 y el ejercicio anterior para calcular el coeficiente de asimetría de Pearson para la distribución de las calificaciones del ejercicio 3.53. Comente sobre la simetría o asimetría de los datos. *4.39 Elabore una representación gráfica de recuadro para los datos del ejercicio anterior y comente sobre la simetría o asimetría de los datos. Encuentre i y para la siguiente distribución de las ganancias semanales de 125 asalariados. Observe que las marcas de la clase son $124.995, $134.995, $144.995 y así sucesivamente. Estos cálculos serán en cierto modo más fáciles si usted suma a estas cifras $0.005, teniendo $125, $135, $145 y así en forma consecutiva. Esta acción tendrá el efecto de aumentar medio centavo en promedio, a cada valor de la lista. Ganancias semanales (dólares) Frecuencia 120.00--129.99 130.00-139.99 140.00-149.99 150.00-159.99 160.00-169.99 170.00-179.99 180.00-189.99 *4.36 Encuentre s para la distribución de las calificaciones cfut ejercicio 3.53 de la página 63. *4.38 En una muestra de 30 intervalos de tres minutos un restaurante de comida rápida sirvió a 4, 5, 5, 8, 7, 3, 5, 6, 9, 5, 6, 5, 4, 7, 3, 5, 10, 6, 4, 5, 6, 9, 4, 5, 3, 8, 6, 7, 4 y 5 clientes. Calcule el coeficiente de asimetría de Pearson y comente acerca del sesgo o asimetría de estos datos. Obtenga (a) la media y la mediana; (b) la desviación estándar. 4.34 *4.35 Calcule el coeficiente de asimetría de Pearson para la distribución del ejercicio anterior y comente sobre la simetría o sesgo de los datos. 9 20 36 30 15 11 4 4.40 Trace una gráfica de recuadro para los datos del ejercicio 3.37 de la página 57 y comente sobre su simetría o sesgo. *4.41 Trace una gráfica de recuadro para los datos del ejercicio 3.38 de la página 57 y comente acerca de la simetría o sesgo de las distancias de frenado. *4.42 Trace una gráfica de recuadro para los datos del ejercicio 3.28 de la página 56 y comente sobre su simetría o sesgo. *4.43 Trace una gráfica de recuadro para los datos de la NBA del ejercicio 3.30 de la página 56 y comente acerca de su simetría o sesgo. *4.44 Los siguientes son los números de 6's obtenidos en 50 lanzamientos de cuatro dados: 0,0,1, O, O, O, 2, O, O, 1, O, O, O, O, 1, 1, O, 1, 2, O, O, 1, O, O, O, 1, 1, O, 1, O, O, 1, 2, 1, O, O, 3, 1, 1, O, O, O, O, 1, 2, 1, O, O, 1 y l. Elabore una distribución de la frecuencia y un histograma y comente sobre la forma general de los datos. SEC. 4.5 I ALGUNAS DESCRIPCIONES ADICIONALES 85 *4.45 Trace una gráfica de recuadro para los datos del ejercicio anterior. ¿Qué características de la gráfica de recuadro sugieren que los datos tienen una forma en cierto modo inusual? *4.46 Si se lanza una moneda cinco veces seguidas, el resultado se puede representar con una secuencia de C's y X's, donde C representa las caras y X las,cruces. Habiendo obtenido tal secuencia de C's y X's, entonces podemos verificar después de cada lanzamiento sucesivo si el número de caras excede el número de cruces. Por ejemplo, para la secuencia CCXXC, en el primer lanzamiento obtenemos cara, en el segundo también, pero no en el tercero, tampo- co en el cuarto, mas de nuevo obtenemos cara en el quinto lanzamiento; obtuvimos tres caras en total. En realidad, repitiendo este "experimento" sesenta veces, obtuvimos XXCCC, XCCXX, ... y XXXCX y encontramos que teníamos cara 1, 1, 5, O, O, 5, O, 1, 2, O, 1, O, 5, 1, O, O, 5, O, O, O, O, 1, O, O, 5, O, 2, O, 1, O, 5, 5, O, 5, 4, 3, 5, O, 5, O, 1, 5, O, 1, 5, 3, 1, 5, 5, 1, 2, 4, 2, 3, O, 5, 5, O, Oy Oveces. Elabore una distribución de la frecuencia y un histograma y comente sobre la forma general de los datos. *4.47 Trace una gráfica de recuadro para los datos del ejercicio anterior. ¿Qué característica de la gráfica de recuadro sugiere que los datos tienen una forma muy inusual? 4.6 REVISION DE TERMINOS CLAVE (Con referencia de página a sus definiciones) Amplitud, 70 Amplitud entre cuartiles, 71 Amplitud semi-intercuartílica, 71 Bimodal, 85 *Coeficiente de asimetría de Pearson, 83 Coeficiente de variación, 78 *Coeficiente de variación de cuartiles, 81 Desviación cuadrática media, 72 Desviación de la media, 71 Desviación entre cuartiles, 71 Desviación estándar, 71 Desviación estándar de la muestra, 72 Desviación estándar de la población, 72 Desviación media, 72 Distribución acampanada, 82 *Distribución en forma de J inversa, 85 *Distribución en forma de U, 85 *Distribución negativamente sesgada, 83 *Distribución positivamente sesgada, 83 *Distribución sesgada, 83 , Estimador no sesgado, 73 Estimador sesgado, 73 *Medidas de sesgo, 83 Medidas de variación, 70 Medida de variación relativa, 78 Regla empírica, 76 Teorema de Chebyshev, 75 Unidades estándar, 77 Unimodal, 85 Valores de la z, 77 Varianza, 72 Varianza de la muestra, 72 4.7 EJERCICIOS DE REVISION 4.48 Encuentre la desviación estándar para un conjunto de datos para el que n = 15, :E :X= 202 y :Ex= 3,452. 4.49 Los importes de las compras de los clientes de un supermercado particular correspondientes a un sábado por la 86 CAP.4 I RESUMEN DE DATOS: MEDIDAS DE VARIACION mailana entre 8:00 a.m. y el mediodía tuvieron una media de $56.42 y una desviación estándar de $12.40. ¿Qué porcentaje de los importes, como mínimo, debe caer entre $37.82 y $75.02? *4.50 La siguiente es la distribución de los tamaños de una muestra de 60 pedidos recibidos por un negocio de venta de semillas por correo; Tamaño del pedido Número de pedidos $ 0.00-$ 19.99 $ 20.00-$ 39.99 $ 40.00-$ 59.99 $ 60.00-$ 79.99 $ 80.00-$ 99.99 $100.00-$119.99 6 16 12 11 8 7 Total Obtenga (a) la media; (b) la desviación estándar. *4.56 Calcule el coeficiente de asimetría de Pearson para la distribución del ejercicio anterior y comente sobre la simetría o sesgo de los datos. 4.57 Para cierta variedad de focos, un foco que dura 1,020 horas tiene un valor estándar de z = 2. Ya que las vidas de estos focos tienen un coeficiente de variación del 14%, encuentre la media y la desviación estándar de las vidas. 4.58 ¿Qué podemos afirmar, de acuerdo con el teorema de Chebyshev, acerca del porcentaje de cualquier conjunto de <laios que debe caer dentro de k desviaciones estándar de cua!quier lado de la media cuando 60 Calcule (a) los cuartiles Q1 y Q3; (b) la amplitud entre cuartiles; (c) el coeficiente de variación de cuartiles. •4.51 4.52 4.53 4.54 Los siguientes son los números de alarmas falsas que registró un departamento de bomberos en diecisiete semanas consecutivas: 8, 3, 12, 5, 6, 12, 6, 3, 4, 11, 8, 7, 5, 6, 8, 8 y 4. Elabore una gráfica de recuadro y comente sobre la simetría o sesgo de estos datos. Una encuesta de 218 familias de Massachusetts indicó que la desviación estándar del número de botellas retornables vacías que tenían a la mano era de 14.6. ¿Cuál es la media de los datos de la muestra si el coeficiente de variación fue 74%? Calcule el para la población que consiste en los enteros 1, 2, 3, 4 y 5. ¿Su cálculo respalda la aseveración de que para una población que consiste en los primeros k enteros po.. 1 . k2 - 1 s1t1vos a vananza es - - - ? 12 Un supervisor de control de calidad examinó 15 embalajes de tejas de cerámica, cada una con 144 tejas. Los números de tejas rotas de estas cajas fueron 2, 5, 3, 4, 2, O, 1, 5, 7, 3, O, 2, 2, 4 y 3. Calcules para estos datos. •4.55 La siguiente es la distribución del número de errores cometidos por 200 estudiantes de alemán en una prueba de opción múltiple de vocabulario: Número de errores Número de estudiantes 6-10 11-15 16-20 21-25 26-30 12 73 52 39 24 Total (a) k= 6; (b) k= 8; (c) k= 15? 4.59 Los siguientes son los números de accidentes que ocurrieron enjulio de 1990 en una población determinada en dieciocho cruceros sin flechas de vuelta a la izquierda: 8, 29, 31, 14, 35, 28, 12, 18, 22, 13, 6, 32, '/, 10, 26, 22, 32 y 25. Encuentre (a) la mediana; (b) Q1 y Q3. 4.60 Use los resultados del ejercicio anterior para trazar una representación gráfica de recuadro para los datos de los accidentes. 4.61 Para un grupo numeroso de estudiantes, la calificación media en una prueba de sucesos históricos es de 160 puntos, con una desviación estándar de 22 puntos. ¿Qué porcentaje de las calificaciones, como mínimo, debe caer entre (a) 127 y 193 puntos; (b) 116 y 204 puntos; (c) 105 y 215 puntos? 4.62 Si un conjunto de medidas tiene la media.X= 48 y la desviación estándar s = 12, convierta cada una de las cantidades siguientes en unidades estándar: (a) 54; (b) 72; (c) 78. 4.63 Encuentre la varianza de los datos de la muestra del ejercicio 4.59. 4.64. Explique por qué es imposible tener n = 10, ~ x = 40, Lx-2 = 140 para un conjunto de datos determinado. 200 SEC. 4.7 I EJERCICIOS DE REVISION 87 4.8 REFERENCIAS En la mayoría de los libros de texto de estadística matemática se puede encontrar una prueba de que la división entren - 1 hace de la varianza de la muestra un estimador no sesgado de la varianza de la población; por ejemplo, en FREUND, J. E., Mathematical Statistics, quinta edición. Englewood Cliffs, N. J.: Prentice-Hall, Inc., 1987. Un estimador no sesgado de la desviación estándar de la población, cr aparece en las páginas 62-63 de JOHNSON, N. L., y KOTZ, S., Distributions in Statistics: Continuous Univariate Distributions. Boston: Houghton Miffiin, 1970. Para encontrar información adicional acerca del uso y la interpretación de las representaciones gráficas de recuadro léanse los libros sobre el análisis exploratorio de datos que se mencionan en la página 36. Cierta información sobre el efecto de la agrupación en el cáculo de varias descripcioP..es estadísticas se puede encontrar en algunos de los libros de estadística más antiguos; por ejemplo, en MILLS, F. G, Introduction to Statistics. Nueva York: Holt, Rinehart and Winston, 1956. 88 CAP. 4 / RESUMEN DE DATOS: MEDIDAS DE VARIACION