Subido por Adolfo collazos

IIIB Secundaria

Anuncio
Capítulo
1
Estadística
descriptiva
Contenidos:
1.1
Terminología y variables estadísticas
1.2. Datos cuantitativos discretos
1.3. Datos cuantitativos continuos
1.4. Medidas de tendencia central
1.5. Medidas de dispersión
1.6. Diagrama de caja y bigotes
1.7. Curvas de frecuencias acumuladas
1.8. Desviación estándar
2
EL PROBLEMA DE LAS ARVEJAS
Un agricultor desea investigar el efecto de un nuevo fertilizante orgánico en sus cultivos
de arvejas. Él tiene la esperanza de mejorar el rendimiento de los cultivos mediante el uso
de los fertilizantes. Es así que estableció un pequeño jardín que se subdivide en dos
parcelas iguales y plantó muchos guisantes. Ambas parcelas fueron tratadas de la misma
forma excepto por el uso del fertilizante en uno, pero no en el otro.
Todos los otros factores tales como el riego fueron
normales.
Una muestra aleatoria de vainas fue cosechada de cada
parcela al mismo tiempo, y el número de guisantes en
cada vaina fue contado. Los resultados fueron:
Sin fertilizante
4 6 5 6 5 6 4 6 4 9 5 3 6 8 5 4 6 8 6 5 6 7 4 6 5 2 8 6 5
6 5 5 5 4 4 4 6 7 5 6 7 5 5 6 4 8 5 3 7 5 3 6 4 7 5 6 5 7
5 7 6 7 5 4 7 5 5 5 6 6 5 6 7 5 8 6 8 6 7 6 6 3 7 6 8 3 3
4 4 7 6 5 6 4 5 7 3 7 7 6 7 7 4 6 6 5 6 7 6 3 4 6 6 3 7 6
7 6 8 6 6 6 6 4 7 6 6 5 3 8 6 7 6 8 6 7 6 6 6 8 4 4 8 6 6
2 6 5 7 3
Con fertilizante
6 7 7 4 9 5 5 5 8 9 8 9 7 7 5 8 7 6 6 7 9 7
7 7 8
9 3 7
4 8 5 10 8 6 7 6 7 5 6 8 7 9 4 4 9 6 8 5 8 7
7 4 7
8 10 6
10 7 7 7 9 7 7 8 6 8 6 8 7 4 8 6 8 7 3 8 7 6 9 7 6 9 7 6 8 3 9 5 7 6 8
7 9 7 8 4 8 7 7 7 6 6 8 6 3 8 5 8 7 6 7 4 9 6 6 6 8 4 7 8 9 7 7 4 7 5 7
4 7 6 4 6 7 7 6 7 8 7 6 6 7 8 6 7 10 5 13 4 7 7
Para que usted considere:
¿Se puede establecer claramente el problema que el agricultor quiere resolver?
¿Cómo el agricultor ha tratado de hacer una comparación justa?
¿Cómo podría el agricultor asegurarse de que su selección es al azar?
¿Cuál es la mejor forma de organizar estos datos?
¿Cuáles son los métodos más adecuados para mostrar esta información?
¿Hay resultados anormalmente altos o bajos y cómo deben ser tratados?
3
¿Cómo podemos indicar el tamaño más típico de las vainas de arvejas?
¿Cómo podemos indicar la propagación de posibles tamaños típicos?
¿Cuál es la mejor manera de mostrar 'el tamaño de la vaina típica' y la propagación?
¿Se puede hacer una conclusión satisfactoria?
1.1. TERMINOLOGÍA Y VARIABLES ESTADÍSTICAS
ORIGEN Y SIGNIFICADO DE LA ESTADÍSTICA
En sus orígenes históricos, la Estadística estuvo ligada a cuestiones de Estado (recuentos,
censos, etc.) y de ahí proviene su nombre. Hoy en día está presente en todos los ámbitos
humanos, tanto individuales como colectivos.
La Estadística surge ante la necesidad de poder tratar y comprender conjuntos numerosos
de datos. Los estudios estadísticos, en la actualidad, impregnan numerosos ámbitos:
sanidad, mundo empresarial, medios de comunicación, etc.
Definición: La Estadística es la ciencia que se ocupa de la recogida de datos, su
organización y análisis; así como de las predicciones que, a partir de estos datos, pueden
hacerse.
El método estadístico: El proceso de investigación estadística (o investigación) incluye
los siguientes pasos:
Paso 1:
Examinar un problema que puede resolverse utilizando datos y
planteando las preguntas correctas.
Paso 2:
Recolección de datos.
Paso 3:
Organizar los datos.
Paso 4:
Resumir y mostrar los datos.
Paso 5:
Analizando los datos, haciendo una conclusión en la forma de una
conjetura.
Paso 6:
Escribir un informe.
4
Podemos distinguir entre dos clases de Estadística:
La Estadística descriptiva se ocupa de tomar los datos de un conjunto, organizarlos en
tablas o en representaciones gráficas y del cálculo de unos números que nos informen
de manera global del conjunto estudiado.
La Estadística inferencial trata sobre la elaboración de conclusiones para la población,
partiendo de los resultados de una muestra y del grado de fiabilidad de estas
conclusiones.
CONCEPTOS BÁSICOS EN UN ESTUDIO ESTADÍSTICO.
•
Población.- Es el conjunto formado por todos los elementos que existen para el
estudio de un determinado fenómeno.
•
Individuo u objeto.- Es cada elemento de la población.
•
Muestra.- Un subconjunto de la población de la que queremos recopilar
información. Es importante elegir una muestra al azar para evitar sesgos en los
resultados.
•
Tamaño de la muestra.- Es el número de individuos que componen la muestra.
•
Encuesta.- La recopilación de información de una muestra.
•
Datos (dato singular).- Información sobre individuos en una población.
•
Parámetro.- Una cantidad numérica que mide algún aspecto de una población.
•
Estadístico.- Una cantidad calculada a partir de los datos recopilados de una
muestra. Generalmente se usa para estimar un parámetro de población.
CENSO Y MUESTRA
Los dos tipos de recolección de datos son por censo o muestra.
Un censo es un método que involucra recolectar los datos de todos y cada uno de los
individuos de toda la población.
Los individuos de una población pueden ser personas u objetos. Un censo es detallado y
preciso pero es costoso, consume bastante tiempo y a menudo es poco práctico.
Una muestra es un método que consiste en recolectar datos sobre una parte de la
población solamente.
Una muestra es más barato y más rápido que un censo, pero no es tan detallado ni tan
preciso. Las conclusiones extraídas de las muestras siempre implican algún error. Una
5
muestra debe reflejar verdaderamente las características de toda la población. Por lo
tanto, debe ser imparcial y lo suficientemente grande.
Una muestra sesgada es aquella en que los datos han sido injustamente influenciados
por el proceso de recopilación y no es verdaderamente representativa de toda la
población.
VARIABLES ESTADÍSTICAS
Hay dos tipos de variables que comúnmente trabajamos:
•
Una variable categórica o cualitativa, es aquella que describe una determinada
cualidad o característica. Se pueden dividir en categorías.
Ejemplos de variables categóricas son:
➢ Modos de llegar a la escuela: las categorías podrían ser tren, autobús, coche y a pie.
➢ Color de ojos: las categorías podrían ser azules, marrón, avellana, verde y gris.
•
Una variable cuantitativa es aquella que tiene un valor numérico y a menudo se llama
variable numérica. La información recogida es llamada data numérica.
Pueden ser de dos tipos:
Variable discreta: toma valores de números exactos y es a menudo un resultado de
conteo.
Son ejemplos de variables cuantitativas discretas:
➢ El número de personas en un hogar: la variable puede tomar los valores 1, 2, 3,...
➢ La puntuación de 30 en una prueba: la variable puede tomar los valores 0, 1, 2, 3,...,
30.
Variable continua: toma valores numéricos dentro de un cierto rango continuo. Por lo
general es el resultado de la medición.
Son ejemplos de variables cuantitativas continuas:
➢ El peso de los recién La variable puede tomar cualquier valor positivo en la recta
numérica, pero es probable que sean valores en el intervalo
nacidos:
de 0,5 kg a 7 kg.
➢ Las alturas de los La variable se mide en centímetros. Un estudiante cuya
alumnos de año 10: altura se registra como 145 cm podría tener altura exacta o
cualquier altura entre 144:5 y 145:5 cm.
6
EJEMPLO COMPLETO:
Se desea realizar un estudio sobre el número de hijos por familia en la provincia de
Huaral.
-
Población: familias de Huaral.
-
Individuo: cada una de las familias.
-
Muestra: elegimos una muestra aleatoria (al azar) de 1000 familias distribuidas por
toda la provincia.
-
Tamaño de la muestra: 1000
-
Variable: número de hijos. Es una variable cuantitativa y discreta.
EJERCICIO 1.1A
1. Clasifica las siguientes variables estadísticas:
a) El tiempo tomado para viajar a la escuela
b) El número de primos que tiene una persona
c) La intención de voto en la siguiente elección
d) El número de autos en un estacionamiento
e) La velocidad de autos en una parte estrecha de una
pista
f) Tipo favorito de manzanas
g) Lugar o ciudad donde una persona ha nacido
h) El peso de niños de 3 años de edad.
2. Escribe las posibles categorías para las siguientes variables categóricas:
a) Género
b) Alineación favorita de fútbol
c) Color de cabello
d) Tipo de aceite usado en un carro
7
GRÁFICOS ESTADÍSTICOS
Las tablas estadísticas muestran la información de forma esquemática y están preparadas
para cálculos posteriores. La misma información estadística puede mostrarse de forma
global y más expresiva, utilizando los gráficos estadísticos. Los gráficos poseen un fuerte
poder de comunicación de los resultados de un estudio estadístico.
Detallamos, a continuación, los principales gráficos que permiten describir variables
cualitativas:
a) Diagrama de barras
Consiste en dibujar un rectángulo por cada uno de los valores de la variable (xi), de
modo que las bases sean todas iguales, y la altura de cada rectángulo puede ser la
frecuencia absoluta fi o la frecuencia relativa hi.
Gráfico de barras vertical
Ejemplo de diagrama da barra vertical:
Gráfico de barras horizontal
8
Observación:
Dos variables en consideración están generalmente unidas por ser una dependiente de
otra. Por ejemplo:
El costo total de una cena depende del número de invitados presente.
Nosotros decimos que: El costo total de una cena es la variable dependiente, y
El número de invitados presente es la variable independiente.
En general, cuando nosotros dibujamos
gráficos que involucran dos variables, la
variable independiente es ubicada en el eje
horizontal y la variable dependiente es
ubicada en el eje vertical. Una excepción a
esto es cuando dibujamos un gráfico de
barras horizontal.
b) Diagrama de sectores
Consiste en dividir un círculo en sectores circulares, uno para cada x i . El ángulo de cada
sector será proporcional a la frecuencia y se calcula con una regla de tres simple.
ALUMNOS DE UNA UNIVERSIDAD SEGÚN
LA CARRERA QUE SIGUEN
TOTAL: 2880 ALUMNOS
Ingeniería: 30%
Derecho:
13%
Educación: 12%
Periodismo: 20%
Economía: 25%
c) Pictograma
Consiste en realizar dibujos alusivos a la distribución que se desea representar. En
muchas ocasiones son gráficos poco precisos, aunque fáciles de interpretar a simple
vista.
9
EJERCICIOS DE AFIANZAMIENTO
1. Para cada una de las siguientes investigaciones posibles, clasifica la variable como
categórica, cuantitativa discreta o cuantitativa continua:
a) El número de hojas en un tallo de una rosa.
b) El número de horas de luz cada día de invierno.
c) La cantidad de lluvia en cada mes del año.
d) Los motivos por los que la gente utiliza
transporte público.
e) Las distancias de frenado de coches a una
velocidad de 80 km/h.
2. Estime si un censo o un muestreo serían utilizados para estas investigaciones:
a) Las razones de la gente por las que usa taxi.
b) Las alturas de los basquetbolistas en una escuela
particular
c) Encontrar el porcentaje de personas que sufren
de asma en una ciudad
d) Encontrar el país de origen de los inmigrantes
e) La cantidad de luz natural en cada mes donde
usted vive.
3. Para cada una de las siguientes investigaciones posibles, clasifica la variable como
categórica, cuantitativa discreta o cuantitativa continua:
a) El número de goles anotados cada semana por
un equipo de hockey
b) Los pesos de los miembros de un equipo de
baloncesto
c) La estación de TV más popular
d) El número de gatitos en cada camada
e) El número de pan rollos comprados cada semana
por una familia
10
1.2. ERRORES Y MÉTODOS DE MUESTREO
ERRORES DE MUESTREO
En un censo es la forma más precisa de investigar una población de interés. Sin embargo,
en la mayoría de las situaciones es poco práctico o imposible obtener datos de toda la
población. En su lugar, podemos realizar una encuesta de una muestra bien elegida de
la población.
Cuando recopilamos datos para estimar una característica de una población, es casi
seguro que nuestra estimación será diferente de la característica real de la población. Esta
diferencia se conoce como error.
Hay cuatro categorías principales de error: error de muestreo, error de medición, error
de cobertura y error de falta de respuesta.
El error de muestreo ocurre cuando una característica de una muestra difiere de la de
toda la población. Este error es aleatorio y ocurrirá incluso para muestras que estén bien
elegidas para evitar sesgos.
El error de medición se refiere a inexactitudes en la medición en la etapa de recopilación
de datos. Por ejemplo, cuando registramos la altura de una persona al centímetro más
cercano, la altura registrada es ligeramente diferente de la altura exacta de la persona.
El error de medición también puede surgir de
la forma en que se formulan las preguntas de
la
encuesta.
La
pregunta
puede
estar
redactada para que el encuestado responda
de cierta manera. "¿Apoyas la peligrosa
práctica del ciclismo sin casco?" invita al
demandado a responder "no", ya que la
pregunta contiene el juicio de que conducir
sin casco es peligroso. Para evitar este tipo de error, las preguntas deben estar redactadas
con claridad y en un tono neutro.
Los errores de cobertura ocurren cuando una muestra no refleja realmente la población
sobre la que estamos tratando de encontrar información.
11
Para evitar errores de cobertura, las muestras deben ser lo suficientemente grandes e
imparciales.
Por ejemplo, suponga que está interesado en la salud de las abejas en una isla en
particular.
•
Si solo recopila datos de 10 abejas, no obtendrá una idea confiable de la salud de
todas las abejas en la isla.
•
Si solo recopila datos de una colmena de abejas en particular, es posible que la
muestra no sea representativa de todas las abejas de la isla. Por ejemplo, la colmena
que elija puede estar estresada y preparándose para enjambrar, mientras que las
colmenas vecinas pueden estar saludables. Por lo tanto, la muestra sería una muestra
sesgada y no sería confiable para sacar conclusiones sobre toda la población.
Los errores de falta de respuesta ocurren cuando un gran número de personas
seleccionadas para una encuesta deciden no responder.
Por ejemplo:
• Es menos probable que las personas mayores que no están familiarizadas con la
tecnología completen una encuesta en línea. Esto significa que las personas mayores
estarán infrarrepresentadas en la encuesta.
• En las encuestas sobre la satisfacción del cliente, es más probable que las personas
respondan si no están satisfechas.
EJERCICIO 1.2A:
1. Se ha desarrollado un nuevo medicamento llamado Cobrasyl para el tratamiento de
la presión arterial alta en humanos. Un derivado del veneno de cobra, puede reducir
la presión arterial a un nivel aceptable. Antes de su lanzamiento, un equipo de
investigación trató a 7 pacientes con hipertensión arterial con el medicamento y en 5
casos redujo su presión arterial a un nivel aceptable. ¿Cree que esta muestra se puede
utilizar para sacar conclusiones fiables sobre la eficacia del fármaco para todos los
pacientes? Explica tu respuesta.
12
2. Se encuestaron 50 personas en un centro comercial de Toronto. Se descubrió que 20
de ellos habían asistido a un partido de hockey sobre hielo el año pasado. A partir de
esta encuesta, se concluyó que "el 40% de las personas que viven en Canadá han
estado en un partido de hockey sobre hielo el año pasado". Dé dos razones por las
que esta conclusión no es confiable.
3. Se emplea una agencia de votación para investigar la intención de voto de los
residentes en un electorado en particular. A partir de los datos recopilados, quieren
predecir el resultado de las elecciones para ese electorado en las próximas elecciones.
Explique por qué cada una de las siguientes situaciones puede producir una muestra
sesgada:
a) Se encuesta a una selección aleatoria de personas en el gran complejo comercial
local entre la 1 pm y las 3 pm en un día laborable.
b) Se encuesta a los miembros del club de golf local.
c) Se encuesta a una muestra aleatoria de personas en la estación de tren local entre
las 7 am y las 9 am.
d) Se realiza una visita puerta a puerta, encuestando a cada votante en una calle en
particular.
13
4. Jennifer quiere estimar el peso promedio de
2000 ovejas en su granja. Selecciona una
muestra de 10 ovejas y las pesa.
Explique por qué este enfoque puede producir:
a) Error de cobertura
b) Error de medición.
5. El gobierno ha publicado una nueva propuesta para trasladar la financiación de la
educación a la salud. Un periodista quiere comprender los sentimientos del público
sobre esta propuesta. Ella hace a 100 personas la pregunta "¿Apoya los recortes a la
educación propuestos por el Gobierno?".
a) Explique por qué esta encuesta puede producir un error de medición.
b) ¿Cómo podría redactarse la pregunta para que los sentimientos del público sobre
la propuesta se midan con mayor precisión?
14
6. Jack es dueño de 800 manzanos. Para determinar cuántas manzanas están
produciendo los árboles, instruye a sus cuatro hijos para que cada uno cuente las
manzanas de 200 árboles.
a) Explique por qué no habrá error de muestreo en este proceso.
b) Dos de los hijos solo cuentan las manzanas que están en el árbol, mientras que los
otros dos hijos también cuentan las manzanas en el suelo debajo del árbol. ¿Qué
tipo de error es éste?
7. Una empresa de encuestas está interesada en saber si las personas se sienten con
exceso de trabajo en sus trabajos. Envían una encuesta por correo a 5000 trabajadores
y les piden que la envíen por correo.
a) Explique por qué esta encuesta puede producir un error de falta de respuesta
significativo.
b) ¿Cuáles serían las ventajas y desventajas de realizar la encuesta en línea en lugar
de por correo?
15
8. Una organización deportiva nacional tiene más de 300 000 miembros. Se invita a todos
los miembros a completar una encuesta en línea sobre la estructura de gestión de la
organización. Solo el 16% de los miembros respondió.
a) ¿Cree que es probable que el error de falta de respuesta en esta situación produzca
una muestra sesgada? Explica tu respuesta.
b) ¿Un error de falta de respuesta tan alto invalida necesariamente los resultados de
la encuesta? Analice su respuesta.
DISCUSIÓN
•
¿Por qué cree que las empresas ofrecen incentivos
para que las personas completen sus encuestas?
•
¿Cuál de los siguientes incentivos para completar una
encuesta sería más efectivo?
a) La oportunidad de ganar un premio como se
muestra al lado
b) Un descuento garantizado o un código
promocional para que el participante lo utilice en su próxima compra.
•
¿Es ético ofrecer una compensación monetaria por completar una encuesta?
16
MÉTODOS DE MUESTREO
En general, la mejor manera de evitar sesgos al seleccionar una muestra es asegurarse de
que la muestra se seleccione al azar. Esto significa que cada miembro de la población
tiene las mismas posibilidades de ser seleccionado en la muestra.
Examinaremos cinco métodos de muestreo:
•
muestreo aleatorio simple
• muestreo sistemático
muestreo estratificado
muestreo por conveniencia
muestreo por cuotas
MUESTREO ALEATORIO SIMPLE
Suponga que se deben muestrear 3 estudiantes de una
clase de 30 estudiantes. Los nombres de todos los
estudiantes de la clase se colocan en un barril y se extraen
3 nombres del barril.
Tenga en cuenta que:
•
1
Cada estudiante tiene la misma probabilidad (10) de ser
seleccionado.
•
Cada grupo de 3 estudiantes tiene la misma
probabilidad de ser seleccionado como cualquier otro.
Por ejemplo, la selección {Bruce, Jane, Sean} es tan probable que ocurra como {Jane,
Peter, Vanessa}.
Este tipo de muestreo se denomina muestreo aleatorio simple.
Para una muestra aleatoria simple de tamaño n de una población:
• Cada miembro de la población tiene la misma probabilidad de ser
seleccionado en la muestra.
• Cada grupo de miembros de la población tenía la misma posibilidad de
ser seleccionado como cualquier otro grupo de n miembros.
En lugar de sacar nombres de un barril, suele ser más práctico numerar a los miembros
de la población y utilizar un generador de números aleatorios para seleccionar la muestra.
Puede usar su calculadora para generar
números aleatorios. En este caso, los
estudiantes 8º, 12º y 25º serían seleccionados
para la muestra.
17
MUESTREO SISTEMÁTICO
En el muestreo sistemático, la muestra se crea seleccionando miembros de la población
a intervalos regulares. Por ejemplo, una empresa de
contabilidad puede querer tomar muestras de los
archivos de sus clientes. Eligen un archivo inicial del
1 al 10 (por ejemplo, 3) y luego seleccionan cada
décimo
archivo
después
de
eso.
Entonces,
seleccionarían el tercer archivo, luego el 13°, 23°, 33°,
y así sucesivamente.
El muestreo sistemático es útil cuando no todos los miembros de la población están
disponibles para el muestreo al mismo tiempo. Un ejemplo de esto es el muestreo de
automóviles que pasan por una intersección particular durante el día.
EJEMPLO 1:
La dirección de una tienda de una gran ciudad desea averiguar si a los clientes potenciales
les gusta el aspecto de un producto nuevo. Deciden muestrear al 5% de los clientes
utilizando una muestra sistemática. Muestre cómo se seleccionaría esta muestra.
5
1
5% =
=
200 20
Por lo tanto, cada 20° cliente será muestreado.
Se selecciona un cliente inicial de 1 a 20. En este caso, éste es el cliente 7.
Por lo tanto, la tienda seleccionaría el séptimo cliente, luego el 27°, 47°, 67°, y así
sucesivamente.
MUESTREO DE CONVENIENCIA
En muchas situaciones, se elige a las personas simplemente porque son más fáciles de
seleccionar o porque tienen más probabilidades de responder.
Por ejemplo, considere a un investigador que realiza una encuesta sobre cuestiones
ambientales. El investigador decide pararse en un centro comercial peatonal y preguntar
a la gente que pasa. Es más fácil para el investigador preguntar a las personas que están:
•
caminando más cerca de ellos
•
caminando lentamente
•
sin estar ya en una conversación o usando su teléfono.
Estos tipos de muestras se conocen como muestras de conveniencia porque son
convenientes para el experimentador.
18
DISCUSIÓN
¿Cree que las muestras de conveniencia a menudo estarán sesgadas?
Discuta cualquier posible sesgo si el investigador en el centro comercial estuviera
estudiando
• el uso de Internet móvil
• las relaciones personales
• los medios sociales
• los problemas de salud mental.
MUESTREO ESTRATIFICADO Y MUESTREO POR CUOTAS
El muestreo estratificado y el muestreo por cuotas son útiles cuando la población se
puede dividir en subgrupos y usted quiere asegurarse de que cada subgrupo esté
representado de manera justa en la muestra.
Por ejemplo, una escuela puede querer conocer las opiniones de sus estudiantes sobre
qué organizaciones benéficas debería apoyar
en la carrera de diversión escolar. Para
asegurarse de que cada nivel de año esté
representado de manera justa, el número de
estudiantes muestreados de cada nivel de año
debe ser proporcional a la fracción del número
total de estudiantes que representa ese nivel
de año.
EJEMPLO 2:
En nuestra escuela hay 137 estudiantes en el año 8, 152 en el año 9, 174 en el año 10, 168
en el año 11 y 121 en el año 12. Se necesita una muestra de 50 estudiantes. ¿Cuántos
deben seleccionarse al azar de cada año?
Número total de estudiantes en la escuela = 137 + 152 + 174 + 168 + 121 = 752
número de estudiantes del año 8=
137
752
× 50 ≈ 9
152
número de estudiantes del año 9= 752 × 50 ≈ 10
número de estudiantes del año 10=
174
752
× 50 ≈ 12
168
número de estudiantes del año 11= 752 × 50 ≈ 11
número de estudiantes del año 12=
121
752
× 50 ≈ 8
Debemos seleccionar 9 estudiantes del año 8, 10 del año 9, 12 del año 10, 11 del año 11
y 8 del año 12.
19
Idealmente, quisiéramos que los individuos de cada estrato ser seleccionados al azar para
minimizar el sesgo. Si esto se puede hacer, la muestra es una muestra estratificada. De
lo contrario, si los individuos son seleccionados específicamente por el experimentador
(como en una muestra de conveniencia), entonces la muestra es una muestra por cuotas.
EJERCICIO 1.2B:
1. Utilice su calculadora para seleccionar una
muestra aleatoria de:
a) 6 números diferentes entre 5 y 25 inclusive
b) 10 números diferentes entre 1 y 25 inclusive
Es posible que deba generar
números aleatorios
adicionales si un número
aparece más de una vez.
c) 6 números diferentes entre 1 y 45 inclusive
d) 5 números diferentes entre 100 y 499 inclusive.
2. Una fábrica de chocolate produce 80 000 bloques de chocolate al día. Hoy, el operador
de la fábrica quiere tomar muestras del 2% de los bloques para realizar pruebas de
calidad. Utiliza una muestra sistemática, a partir del bloque 17.
a) Enumere los primeros cinco bloques a muestrear.
b) Encuentre el tamaño total de la muestra.
20
3. Una exposición canina anual tiene un promedio de 3540 visitantes. El gerente de
catering está realizando una encuesta para investigar la proporción de visitantes que
gastarán más de 20 € en comida y bebida en la feria. Decide encuestar a las primeras
40 personas a través de la puerta.
a) Identifique el método de muestreo utilizado.
b) Discuta cualquier problema con el método de muestreo.
c) Sugerir un mejor método de muestreo que incluya un tamaño de muestra
adecuado y que represente mejor a la población.
4. Un administrador de biblioteca está interesado en la cantidad de personas que usan
la biblioteca cada día. Decide realizar un conteo cada 28 días durante un año, a partir
del próximo lunes.
a) ¿Qué tipo de método de muestreo es este?
b) ¿Cuántos días habrá en su muestra?
c) Explique por qué la muestra puede estar sesgada.
21
5. Un club deportivo quiere hacerles a sus miembros algunas preguntas sobre la casa
club. El club tiene 80 miembros de tenis, 60 miembros de bolos y 20 miembros de
croquet.
a) ¿Cuántos socios tiene el club en total?
b) El club decide utilizar una muestra de 40. ¿Cuántos miembros de cada deporte
deben incluirse en la muestra?
6. Una gran tienda minorista tiene 10 gerentes departamentales, 24 supervisores, 65
personal de ventas senior, 98 empleados de ventas junior y 28 empacadores de
estantes. El director de la empresa desea entrevistar a una muestra de 30 empleados
para conocer su opinión sobre los procedimientos operativos. ¿Cuántos de cada grupo
deberían seleccionarse para la muestra?
7. Mona quiere evaluar las opiniones de sus compañeros sobre el diseño del anuario de
la escuela. Ella usa su propia clase en el hogar como muestra.
a) Explique por qué la muestra de Mona es una muestra de conveniencia.
b) ¿De qué manera estará sesgada la muestra de Mona?
c) Sugerir un método de muestreo más apropiado que Mona debería utilizar.
22
8. Luciano es consejero escolar. Quiere crear conciencia sobre el acoso cibernético de
los estudiantes con los padres de los estudiantes. Luciano, por lo tanto, quiere saber
si los estudiantes de la escuela han discutido el tema con sus padres.
a) Explique por qué podría no ser práctico para Luciano usar una muestra aleatoria
simple o una muestra sistemática.
b) Luciano quiere asegurarse de que cada género esté representado adecuadamente
en su muestra. ¿Debería utilizar una muestra estratificada, por muestreo o por
cuotas?
9. A los 200 estudiantes de los años 11 y 12 de una escuela secundaria se les preguntó
si alguna vez habían fumado un cigarrillo o no. Las respuestas recibidas fueron:
nnnny nnnyn ynnnn yynyy ynyny ynnyn nyynn yynyn
ynynn nyynn ynnyn yynyy nnyyy yyyyy nnnyy nnyny
yynny nnnyy ynyyn nynnn ynyyn nnyny ynyyy ynnnn
yyyyn yynnn nynyn yyyny ynnyy nnnnn nynnn yynny
nyynn yynyn ynynn nyyyn ynnyy nyyny nnyny ynnnn
a) ¿Por qué se considera ser un censo?
b) Encuentre la proporción real de todos los estudiantes que dijeron que habían
fumado.
23
c) Discutir la validez y utilidad de los siguientes métodos de muestreo que podrían
haberse utilizado para estimar la proporción en b:
i.
Muestrear las primeras cinco respuestas
ii.
Muestrear las primeras diez respuestas
iii.
Muestrear cada segunda respuesta
iv.
Muestrear el cuarto miembro de cada grupo de
cinco
v.
Seleccionar aleatoriamente 30 números del 1 al
200 y elegir la respuesta correspondiente a ese
número
vi.
Muestrear el 20% de los alumnos del año 11 y
el 20% de los alumnos del año 12.
d) ¿Hay alguno de los métodos en c ejemplos de muestreo aleatorio simple, muestreo
sistemático, muestreo estratificado o muestreo por cuotas?
24
DISCUSIÓN
El denominado referéndum "Brexit" de 2016 para determinar si el Reino Unido seguirá
formando parte de la Unión Europea es uno de los referendos democráticos más
controvertidos de la historia reciente.
1. ¿Fue el referéndum un censo o una muestra?
2. ¿Qué errores de muestreo pueden haber estado presentes? ¿De qué manera podría
haber estado sesgada la muestra? En el referéndum se contaron
3. 33 551 983 votos y se decidió por mayoría simple del 51,9% al 48,1% que el Reino
Unido se marcharía. Esto se muestra en el primer gráfico circular.
Votos del referéndum del
Brexit
Permanecer;
48.10%
Visión más amplia del
referéndum sobre el "Brexit"
No en el
registro
electoral;
18099999
No votó;
12948018
Salir;
51.90%
Permanecer;
16141241
Salir;
17410742
En el segundo gráfico circular tomamos una visión más amplia para incluir aquellos que
no votaron y los que no están en el censo electoral.
a) ¿Cree que la salida del Reino Unido de la Unión Europea puede considerarse "la
voluntad del pueblo"?
b) ¿Cree que es buena idea tener un referéndum no obligatorio que puede llevarse con
solo una mayoría simple?
25
1.3. DATOS CUANTITATIVOS DISCRETOS
DATOS DISCRETOS SIMPLES: ORGANIZACIÓN
El primer paso de cualquier estudio estadístico es recoger los datos. Normalmente se
suele llevar a cabo a través de encuestas o entrevistas, según la población a estudiar, su
tamaño, el tiempo de que dispongamos, etc.
Una vez que tenemos los datos recogidos, pasamos a hacer el recuento: se cuenta el
número de veces que aparece cada valor de la variable a estudiar. Cuando hay una gran
cantidad de datos, es más fácil interpretarlos si están organizados en una tabla de
frecuencia o expuestos en un gráfico estadístico.
La frecuencia absoluta (fi) de un valor de datos es la cantidad de veces que ocurre ese
valor en el conjunto de datos. Muchas veces es denominada simplemente frecuencia.
La frecuencia relativa (hi) de un valor de datos es la frecuencia dividida por la cantidad
total de valores grabados. Esta indica la proporción de resultados que toman ese valor.
EJEMPLO 1:
Preguntamos a 40 alumnos el número de miembros de su familia, y sus respuestas fueron
los siguientes:
3 3 4 4 4 4 5 5 5 6 6 6 6 6 6 6 7 7 7 7
7 7 7 7 7 7 7 8 8 8 8 8 8 8 8 9 9 9 9 9
N° de miembros
por familia xi
3
4
5
6
7
8
9
Total
Frecuencia
fi
2
4
3
7
11
8
5
40
Frecuencia
relativa (hi)
0.050
0.100
0.075
0.175
0.275
0.200
0.125
1.00
VISUALIZACIÓN DE DATOS
Los datos discretos cuantitativos se muestran usando un gráfico de columnas. Para este
gráfico:
•
El rango de valores de datos está en el eje horizontal
•
La frecuencia de los valores de datos está en el eje vertical
•
Los anchos de columna son iguales y la altura de columna representa la frecuencia
•
Hay espacios entre columnas para indicar que los datos son discretos.
26
También podría utilizarse un diagrama de columnas de puntos para mostrar los
resultados.
La moda de un conjunto de datos es el valor que ocurre con mayor frecuencia. En un
gráfico de columna, la moda tendrá la columna más alta. En este caso, la moda es 7
miembros por familia.
Para construir una tabla estadística completa tenemos que calcular:
•
Frecuencia absoluta acumulada (Fi) de cada valor xi : es la suma de todas las
frecuencias absolutas correspondientes a los valores anteriores a xi y a la suya
propia. No tiene sentido para variables cualitativas.
•
Frecuencia relativa acumulada (Hi) de cada valor xi : es la suma de todas las
frecuencias relativas correspondientes a los valores anteriores a xi y a la suya
propia. No tiene sentido para variables cualitativas.
EJEMPLO 2:
Preguntamos a 20 alumnos el número de miembros de su familia, y sus respuestas
fueron:
3, 5, 4, 3, 5, 6, 8, 3, 3, 5, 7, 5, 6, 5, 4, 4, 7, 4, 5, 3
La tabla de frecuencias es la siguiente.
Miembros
por familia xi
3
Frecuencia
absoluta fi
5
Frecuencia
acumulada Fi
5
Frecuencia
relativa hi
0,25
Frec. relativa
acumulada Hi
0,25
4
4
9
0,20
0,45
5
6
15
0,30
0,75
6
2
17
0,10
0,85
7
2
19
0,10
0,95
8
1
20
0,05
1
20
1
27
DESCRIBIENDO LA DISTRIBUCION DE UN CONJUNTO DE DATOS
Muchos conjuntos de datos muestran simetría o
simetría parcial sobre la moda.
Si colocamos una curva sobre el gráfico de columnas,
y vemos que esta curva muestra simetría, entonces
tenemos una distribución simétrica de los datos.
Al comparar los datos de arvejas en una vaina sin
fertilizante con la distribución simétrica, podemos
ver que se ha "estirado" en el lado izquierdo o
negativo de la moda. Decimos entonces que los
datos están sesgados negativamente.
Las descripciones que usamos son:
Los valores atípicos
Los valores atípicos son valores
de entre los datos que son
mucho más grandes o mucho
más pequeños que el cuerpo
general de datos.
Los valores atípicos aparecen
separados del cuerpo de datos
en un gráfico de columna.
Por ejemplo, supongamos que
el agricultor en el problema de
apertura encontró una vaina sin fertilizante que contenía 13 guisantes. El valor 13 se
consideraría un valor atípico ya que es mucho más grande que los otros datos en la
muestra.
Si bien el conocimiento de los valores atípicos no es examinable, puede ser útil para
proyectos basados en estadísticas.
28
EJEMPLO 3:
30 niños asistieron a un programa de vacaciones en la biblioteca. Sus grados escolares
fueron:
8
7
6
7
7
7
9
7
7 11 8 10 8
8
9
10
7
7
8
8
8
8
7
6
6
6
6
9
6
9
a) Registre esta información en una tabla de frecuencias. Incluye una columna para la
frecuencia relativa.
Grado (xi)
Frecuencia (fi)
Frecuencia
relativa (hi)
6
7
8
9
10
11
Total
b) Construya un gráfico de columnas para mostrar los datos.
c) ¿Cuál es el grado escolar modal de los niños?
______________________
d) Describe la forma de la distribución. ¿Hay algún atípico?
__________________________________________________________________________________________
e) ¿Qué porcentaje de niños estaba en 8° grado o menos?
______________________
f) ¿Qué porcentaje de niños estaba por encima del 9° grado?
____________________
29
EJEMPLO 4:
Se preguntó a una muestra aleatoria de personas "¿Cuántas veces comiste en un
restaurante la semana pasada?" Se utilizó un gráfico de columnas para mostrar los
resultados.
a) ¿Cuántas personas fueron encuestadas?
________________________________
b) Encuentra la moda de los datos.
________________________________
c) ¿Cuántas personas encuestadas no comieron en un restaurante en toda la semana
pasada?
______________________________________________________________________________________
d) ¿Qué porcentaje de personas encuestadas comió en un restaurante más de tres
veces la semana pasada?
______________________________________________________________________________________
e) Describe la distribución de los datos.
______________________________________________________________________________________
30
EJERCICIO 1.3A:
1. En la última temporada de fútbol, los “Cremas”
anotaron los siguientes números de goles en
cada partido:
2 0 1 4 0 1 2 1 1 0 3 1
3 0 1 1 6 2 1 3 1 2 0 2
a) ¿Cuál es la variable que
está
siendo
considerada aquí?
___________________________________________
b) Explica por qué los datos son discretos.
______________________________________________________________________________________
c) Construye una tabla de frecuencias para organizar los datos. Incluye una columna
de frecuencia relativa.
N° de goles (xi)
Frecuencia (fi)
Frec. Relativa (hi)
d) Dibuje un gráfico de columnas para mostrar los datos.
e) ¿Cuál es la puntuación modal del equipo?
______________________
f) Describe la distribución de los datos. ¿Hay algún atípico?
______________________________________________________________________________________
g) ¿En qué porcentaje de juegos no anotaron los “Cremas”?
______________________
31
2. El colegio Los Álamos se enorgullece del comportamiento
de sus estudiantes. Sin embargo, de vez en cuando hacen
cosas que no deberían, y como resultado de esto son
sancionados. Un maestro de la escuela registra el número
de estudiantes sancionados cada semana durante el año:
0 2 1 5 0 1 4 2 3 1 4 3 0 2 9 2 1 5 0 3
6 4 2 1 5 1 0 2 1 4 3 1 2 0 4 3 2 1 2 3
a) Construye un gráfico de columnas para mostrar los
datos.
b) ¿Cuál es el número modal de estudiantes sancionados en una semana?
_________________________________________________________________________________
c) Describa la distribución de los datos, incluida la presencia de valores atípicos.
_________________________________________________________________________________
d) ¿En qué porcentaje de semanas fueron detenidos más de 4 estudiantes?
_________________________________________________________________________________
32
3. Mientras miraba la televisión, Joan registró la cantidad de comerciales en cada
descanso. Ella obtuvo estos resultados:
5 7 6 4 6 5 6 7 5 8 7 6 9 8 7 6 6
9 6 7 6 4 7 5 8 7 6 8 7 8 5 6 9 7
a) Construya una tabla de frecuencia para organizar los datos.
N° de comerciales (xi)
Frecuencia
(fi)
b) Dibuja un gráfico de columna para mostrar los datos.
c) Encuentra la moda de los datos.
__________________________
d) Describe la distribución de los datos. ¿Hay algún atípico?
_________________________________________________________________________________
e) ¿Qué porcentaje de pausas contenía al menos 6 comerciales?
_________________________________________________________________________________
33
4. Tenga en cuenta la cantidad de arvejas en una vaina con fertilizante en el problema
de apertura.
a) Construya una tabla de frecuencia para organizar los datos.
N° de arvejas
por vaina (xi)
Frecuencia (fi)
b) Dibuja un gráfico de columna para mostrar los datos.
c) Describa completamente la distribución de los datos.
______________________________________________________________________________________
d) ¿Hay evidencia que sugiera que el fertilizante aumenta la cantidad de arvejas en
cada cápsula?
______________________________________________________________________________________
e) ¿Es razonable decir que usar el fertilizante aumentará las ganancias del agricultor?
______________________________________________________________________________________
34
DATOS DISCRETOS AGRUPADOS
Un jardín de infantes local está preocupado por la cantidad de vehículos que pasan
entre las 8:45 a.m. y las 9:00 a.m.
Por más de 30 días consecutivos de la semana registraron los siguientes datos:
27, 30, 17, 13, 46, 23, 40, 28, 38, 24, 23, 22, 18, 29, 16,
35, 24, 18, 24, 44, 32, 52, 31, 39, 32, 9, 41, 38, 24, 32
En situaciones como esta, hay muchos valores de
N° de carros
Frecuencia
0a9
1
10 a 19
5
20 a 29
10
30 a 39
9
40 a 49
4
utilizamos
50 a 59
1
intervalos de clase de ancho 10. La tabla de
Total
30
datos diferentes con frecuencias muy bajas. Esto
hace que sea difícil estudiar la distribución de
datos.
Es
estadísticamente
más
significativo
agrupar los datos en intervalos de clase y luego
comparar la frecuencia de cada clase.
Para
los
datos
proporcionados,
frecuencias se muestra en el lado opuesto.
Vemos que la clase modal, o clase con
la frecuencia más alta, es de 20 a 29
automóviles.
Podemos construir un gráfico de
columnas
para
datos
discretos
agrupados de la misma manera que
antes.
35
EJEMPLO 5:
A una selección de empresas se les preguntó cuántos empleados tenían. Se construyó
un gráfico de columna para mostrar los resultados.
a) ¿Cuántas empresas fueron encuestadas?
_____________________________________________
b) Encuentra la clase modal.
_____________________________________________
c) Describa la distribución de los datos.
__________________________________________________________________________________________
d) ¿Qué porcentaje de empresas encuestadas tenía menos de 30 empleados?
__________________________________________________________________________________________
e) ¿Puede determinar la mayor cantidad de empleados que tenía un negocio?
__________________________________________________________________________________________
36
EJEMPLO 6:
1. Arthur toma el tren a la escuela desde una concurrida estación de tren. En el transcurso
de 30 días, él cuenta el número de personas esperando en la estación cuando llega el
tren.
17 25 32 19 45 30 22 15 38 8
21 29 37 25 42 35 19 31 26 7
22 11 27 44 24 22 32 18 40 29
a) Construya una tabla de recuento y frecuencia para esta información usando intervalos
de clase 0 - 9, 10 - 19, ....,40 - 49.
N° de personas
esperando (xi)
Frecuencia
(fi)
Frec.
Relativa (hi)
b) ¿En cuántos días había menos de 10 personas en la estación?
_______________
c) ¿En qué porcentaje de días había al menos 30 personas en la estación?______________
d) Dibuje un gráfico de columna para mostrar los datos y luego encuentre la clase modal
de los datos.
37
1.4. DATOS CUANTITATIVOS CONTINUOS
Cuando medimos datos que son continuos, no podemos escribir un valor exacto. En
cambio, escribimos una aproximación que es tan precisa como el dispositivo de medición.
Como no hay dos valores de datos exactamente iguales, no tiene sentido hablar de la
frecuencia de valores particulares. En su lugar, agrupamos los datos en intervalos de clase
de igual ancho. Entonces podemos hablar de la frecuencia de cada intervalo de clase.
Un tipo especial de gráfico llamado histograma de frecuencia o solo histograma se usa
para mostrar datos agrupados continuos. Esto es similar a un gráfico de columnas, pero
las "columnas" se unen y los valores en los bordes de la columna indican los límites de
cada intervalo de clase.
La clase modal, o clase de valores que aparece con mayor frecuencia, es fácil de identificar
a partir de un histograma de frecuencia.
Como regla general, utilizamos aproximadamente √𝑛 clases para un conjunto de datos
de n individuos. Para conjuntos de datos muy grandes usamos más clases en lugar de
menos.
EJEMPLO 1:
Los pesos en kilogramos de los paquetes enviados desde una oficina de correos, en un
día determinado, fueron:
2.9, 4.0, 1.6, 3.5, 2.9, 3.4, 3.2, 5.2, 4.6, 3.1, 2.8, 3.7, 4.9, 3.4, 1.3, 2.5, 2.2
Organiza los datos usando una tabla de frecuencias y un gráfico.
Los datos son continuos ya que el peso podría ser cualquier valor entre 0.1 kg hasta 6 kg.
El peso más bajo registrado es de 1.3 kg y el más alto es de 5.2 kg por lo que utilizaremos
los intervalos de clase de 1 kg. El intervalo de clase [2 – 3) incluye todos los pesos de 2 kg
hasta, pero no incluyendo, 3 kg.
38
Peso (kg)
Frecuencia
[1, 2)
2
[2, 3)
5
[3, 4)
6
[4, 5)
3
[5, 6)
1
EJEMPLO 2:
Una muestra de 20 langostas jóvenes fue seleccionada al azar de un tanque que
contenía varios cientos. La longitud de cada langosta se midió en cm, y los resultados
fueron:
4.9 5.6 7.2 6.7 3.1 4.6 6.0 5.0 3.7 7.3
6.0 5.4 4.2 6.6 4.7 5.8 4.4 3.6 4.2 5.4
Organice los datos usando una tabla de frecuencias y, por lo tanto, grafique los datos.
La variable "la longitud de una langosta" es
continua a pesar de que las longitudes se han
redondeado al milímetro más cercano. La
longitud más corta es de 3.1 cm y la más larga es
de 7.3 cm, por lo que utilizaremos intervalos de
clase de 1 cm de ancho.
Longitud (l cm)
Frecuencia
3≤𝑙<4
4≤𝑙<5
5≤𝑙<6
6≤𝑙<7
7≤𝑙<8
3
6
5
4
2
39
EJEMPLO 3:
Un grupo de 25 jóvenes atletas participaron en una competencia de lanzamiento de
jabalina. Lograron las siguientes distancias en
metros:
a) Elija intervalos de clase adecuados para
agrupar los datos.
b) Organice los datos en una tabla de frecuencias.
Distancia (m)
Conteo
Frecuencia
c) Dibuje un histograma de frecuencia para mostrar los datos y escriba la clase
modal.
d) ¿Qué porcentaje de atletas arrojó la jabalina 30 m o más?
40
EJEMPLO 4:
1. Un inspector de plantas toma una muestra
aleatoria de plántulas de seis meses de un
vivero y mide sus alturas. Los resultados se
muestran en la tabla.
a) Representa los datos en un histograma
de frecuencia.
Altura (h mm)
Frecuencia
300 ≤ ℎ < 325
325 ≤ ℎ < 350
350 ≤ ℎ < 375
375 ≤ ℎ < 400
400 ≤ ℎ < 425
425 ≤ ℎ < 450
12
18
42
28
14
6
b) ¿Cuántas de las plántulas son de 400 mm o más?
c) ¿Qué porcentaje de plántulas tiene entre 350 y 400 mm?
d) El número total de plántulas en el vivero es 1462. Estime el número de plántulas
que miden:
i) Menos de 400 mm
ii) entre 375 y 425 mm
41
EJERCICIO 1.4A:
1. A continuación, se da una tabla de frecuencia para las alturas de un equipo de
voleibol.
a) Explica por qué la 'altura' es una variable
continua.
Altura (h cm)
170 ≤ 𝐻 < 175
175 ≤ 𝐻 < 180
180 ≤ 𝐻 < 185
185 ≤ 𝐻 < 190
190 ≤ 𝐻 < 195
195 ≤ 𝐻 < 200
200 ≤ 𝐻 < 205
Frecuencia
1
8
9
11
9
3
3
b) Construya un histograma de frecuencia para los datos. Marque y etiquete
cuidadosamente los ejes e incluya un encabezado para el gráfico.
c) ¿Cuál es la clase modal? Explica lo que esto significa.
d) Describe la distribución de los datos.
42
2. Para los siguientes datos, indique si se debe usar un histograma de frecuencia o un
gráfico de columna, y dibuje el gráfico apropiado.
a) El número de fósforos en 30 cajas de fósforos:
N° de fósforos
por caja
47
49
50
51
52
53
55
Frecuencia
1
1
9
12
4
2
1
b) Las alturas de 25 jugadores de hockey (al cm más cercano)
Alturas (h cm)
[120, 130)
[130, 140)
[140, 150)
[150, 160)
[160, 170)
Frecuencia
1
2
7
14
1
43
3. Una escuela ha realizado una encuesta de 60 estudiantes para investigar el tiempo
que les toma viajar a la escuela. Los siguientes datos dan los tiempos de viaje al minuto
más cercano.
a) ¿El tiempo de viaje es una variable discreta o continua?
______________________________________________________________________________________
b) Construya una tabla de frecuencia para los datos utilizando intervalos de clases
0 ≤ 𝑡 < 10, 10 ≤ 𝑡 < 20, … , 40 ≤ 𝑡 < 50.
Tiempo de viaje (min) Frecuencia
Total
c) Luego, dibuje un histograma para mostrar los datos y cuál es el tiempo de viaje
modal.
44
4. Los pesos, en gramos, de 50 ratas de laboratorio están dados en la siguiente lista:
a) Elija intervalos de clase adecuados para agrupar
los datos.
b) Organice los datos en una tabla de frecuencias.
Peso (g)
Frecuencia
c) Dibuje un histograma de frecuencia para mostrar los datos y luego responda qué
porcentaje de las ratas pesan menos de 200 gramos.
45
EJERCICIOS DE AFIANZAMIENTO:
1. Al averiguar el estado civil entre 300 personas de Lima, se obtuvo los siguientes
datos: Completa la tabla de distribución.
Estado civil
Casadas
fi
hi
hi%
84
0,28
28%
Solteras
42%
Viudas
12%
Separadas
Total
300
2. Completa la tabla, sabiendo que f4=5 y que hubo el doble de participantes en vóley
que en fútbol.
Deporte
fi
hi
Vóley
Básquet
0,30
Natación
Fútbol
0,10
3. Completa la tabla de frecuencias:
Nº de mozos por
restaurante (xi)
3
fi
3
4
6
5
6
16
7
14
8
9
hi
0,05
Fi
Hi
0,17
19
0.32
0.58
49
0.12
4
56
0.07
Total:
a) ¿Cuántos restaurantes tienen más de 5 mozos?
____________
b) ¿Qué porcentaje de los restaurantes tienen menos de 6 mozos? ____________
c) ¿Cuántos restaurantes fueron encuestados?
____________
46
2. Un concejo municipal hace una encuesta del número de casas por calle en un
suburbio.
a) Construya una tabla de frecuencia para esta información usando los intervalos de
clase 0 - 9, 10 - 19, ...., 50 - 59.
N° de casas (xi)
Frecuencia
(fi)
Frec.
Relativa (hi)
b) Luego, dibuje un gráfico de columna para visualizar los datos.
c) Anote la clase modal.
____________________
d) ¿Qué porcentaje de las calles contiene al menos 20 casas?
____________________
47
4. Entre los alumnos de una escuela averiguamos mediante una encuesta la cantidad
de horas diarias que ven televisión, las respuestas fueron las siguientes:
0
3
2
2
4
2
1
3
2
5
2
0
3
3
5
3
4
1
2
4
3
2
0
2
4
1
2
1
1
5
4
2
3
2
4
3
4
5
3
5
1
2
3
2
5
3
2
3
2
4
a. Organiza la información en una tabla de
distribución de frecuencias:
b. ¿Cuál es el tamaño de la muestra?
_______
c. ¿Cuál es la mayor frecuencia?
_______
d. ¿Qué n° de horas es la más frecuente?
_______
e. ¿Qué porcentaje de alumnos ven 4 horas de Tv?
_______
5. Los gastos realizados en soles por un grupo de clientes en un centro comercial
fueron verificados y se obtuvieron los siguientes resultados:
Monto
gastado S/.
[0 -
xi
fi
hi
Fi
Hi
20
30
60
0.25
0.85
0.10
-
140]
Total
200
a) Una persona se considera buen cliente si tiene un gasto mayor de S/ 100. Qué %
de clientes está considerado en esa categoría.______________________________
48
6. La siguiente tabla muestra algunos datos de un estudio estadístico. Complétalos
INTERVALO
xi
fi
[152 -
156
3
[
164
-
Fi
5
[168 -
9
-
10
-
14
-
17
-
19
-
26
-
31
7. Muchas de las personas que invierten en bolsa lo hacen para conseguir beneficios
rápidos, por ello el tiempo en que mantienen las acciones es relativamente breve.
Preguntada una muestra de 40 inversores habituales sobre el tiempo en meses que
han mantenido sus últimas inversiones se recogieron los siguientes datos:
10
11
12
7
11
6
11
8
9
7
9
13
12
8
10
10
11
10
9
11
12
8
13
11
12
7
8
10
10
10
9
9
12
11
11
12
7
6
8
9
Construye una tabla de frecuencias que recoja adecuadamente esta información.
Nº de
meses (xi)
fi
hi
Fi
Hi
49
8. El gobierno municipal desea saber si el número medio de hijos por familia ha
descendido respecto a la década anterior. Para ello ha encuestado a 50 familias
respecto al número de hijos y ha obtenido los siguientes datos:
2 4 2 3 1 2 4 2 3 0 2 2 2 3 2 6 2 3 2 2 3 2 3 3 4
3 3 4 5 2 0 3 2 1 2 3 2 2 3 1 4 2 3 2 4 3 3 2 2 1
a. Construye la tabla de frecuencias a partir de estos datos.
Valores
observados (xi)
fi
hi
Fi
Hi
b. ¿Cuántas familias tienen exactamente tres hijos?
____________
c. ¿Qué porcentaje de familias tienen exactamente 3 hijos?
____________
d. ¿Qué porcentaje de las familias tienen más de dos hijos?
____________
e. ¿Cuál es el número de familia que tiene 2 hijos o menos?
____________
f. ¿Qué proporción de familias tienen 4 hijos?
____________
g. ¿Qué proporción de familias tienen a lo más 4 hijos?
____________
50
9. Una determinada especie de mamíferos tiene en cada parto un número variable de
hijos. Se observa que las camadas de 35 familias durante un año han sido las que se
recogen en la tabla adjunta:
Número de hijos
0
1
2
3
4
5
6
7
Número de familias
2
3
10
10
5
0
5
0
Elabora una tabla estadística completa con todos los tipos de frecuencias existentes.
10. Se ha realizado un test de habilidad numérica a los alumnos de una clase. Los
resultados obtenidos son:
Puntos
Nº de
alumnos
[10, 15) [15, 20) [20, 25) [25, 30) [30, 35) [35, 40) [40, 45) [45, 50)
4
6
6
10
Representa los datos mediante un histograma
8
10
3
3
51
1.5. MEDIDAS DE TENDENCIA CENTRAL
Podemos obtener una mejor comprensión de un conjunto de datos si podemos ubicar su
centro, y también obtener una indicación de su propagación o dispersión. Saber uno de
estos sin el otro a menudo es de poca utilidad.
Hay tres estadísticos que se utilizan para medir el centro de un conjunto de datos. Estos
son la moda, la mediana y la media aritmética.
LA MODA (Mo)
Para datos numéricos discretos, la moda es el valor que ocurre más frecuentemente en
el conjunto de datos. Para los datos numéricos continuos, no podemos hablar de una
moda de esta manera porque no hay dos valores será exactamente iguales. Por el
contrario, hablamos de una clase modal, que es la clase o grupo que se presenta con
más frecuencia.
EJEMPLO 1:
Consideremos los siguientes datos:
10, 13, 11, 8, 9, 10, 13, 8, 10, 14, 11, 12
Ordenando los datos:
8, 8, 9, 10, 10, 10, 11, 11, 12, 13, 13, 14
Notamos que el dato con mayor repetición es 10.
Mo = 10
LA MEDIANA (Me)
La mediana es el valor medio de un conjunto ordenado de datos, el cual se obtiene
mediante el listado de los datos desde el menor al mayor valor.
La mediana divide los datos en dos mitades. La primera mitad de los datos es menor o
igual a la mediana y la otra mitad es mayor o igual a ella.
Por ejemplo, si la nota mediana de una prueba es 16 puntos entonces sabemos que la
mitad de la clase alcanzó una nota igual o inferior a 16 y la otra mitad alcanzó una nota
mayor o igual a 16.
Para un número impar de datos, la mediana es uno de los valores de datos originales.
52
Para un número par de datos, la mediana es el promedio de los dos valores medios y
por lo tanto quizá no esté en el conjunto de datos original.
Si hay “n” datos, listados en orden desde el más
𝑛+1 o
pequeño al más grande, la mediana es el (
dato.
2
)
EJEMPLO 2:
Si n=13,
13+1
2
= 7, entonces la mediana es el 7° término de la lista de los datos
ordenados.
Si n=14,
14+1
2
= 7.5, entonces la mediana es el promedio del 7° y 8° término de la lista
de datos ordenados.
EJEMPLO 3:
El número de productos defectuosos devueltos a una tienda de productos eléctricos
durante un período de 21 días es:
3 4 4 9 8 8 6 4 7 9 1 3 5 3 5 9 8 6 3 7 1
Para estos datos, hallar la mediana:
21+1
Como n = 21, 2 = 11
El conjunto de datos ordenados es:
1 1 3 3 3 3 4 4 4 5 5 6 6 7 7 8 8 8 9 9 9
11° valor
Mediana = 5 productos defectuosos.
EJEMPLO 4:
Para los datos de productos defectuosos en el ejemplo 2, ¿cuál sería la mediana si el
día 22 el número de productos defectuosos es 9?
Como n = 22,
22+1
2
= 11,5
El conjunto de datos ordenados es:
1 1 3 3 3 3 4 4 4 5 5 6 6 7 7 8 8 8 9 9 9 9
2 valores centrales
Mediana =
5+6
2
= 5,5 productos defectuosos.
53
̅)
LA MEDIA ARITMÉTICA (𝒙
La media aritmética de los datos es el nombre estadístico del promedio aritmético.
𝒎𝒆𝒅𝒊𝒂 =
𝒔𝒖𝒎𝒂 𝒅𝒆 𝒕𝒐𝒅𝒐𝒔 𝒍𝒐𝒔 𝒗𝒂𝒍𝒐𝒓𝒆𝒔 𝒅𝒆 𝒍𝒐𝒔 𝒅𝒂𝒕𝒐𝒔
𝒆𝒍 𝒏ú𝒎𝒆𝒓𝒐 𝒅𝒆 𝒅𝒂𝒕𝒐𝒔
La media nos da un número único que indica un centro del conjunto de datos. Por lo
general, no es un miembro del conjunto de datos. Por ejemplo, un puntaje promedio de
una prueba es de 73 puntos, esto nos dice que hay varias notas por debajo de 73 y varias
por encima. El puntaje 73 está en el centro, pero no necesariamente significa que uno de
los estudiantes obtuvo un 73.
Denotamos la media para una población completa con el símbolo 𝝁, que leemos como
"mu". Sin embargo, en muchos casos no tenemos datos de toda la población, por lo que
el valor exacto de 𝝁 es desconocido. En cambio, obtenemos datos de una muestra de la
̅ como una aproximación para 𝝁.
población y usamos la media de la muestra, 𝒙,
Supongamos que 𝒙 es una variable numérica y hay n valores de datos en la muestra.
Dejamos que 𝒙𝒊 sea el i-ésimo dato de la muestra de valores {𝒙𝟏 , 𝒙𝟐 , 𝒙𝟑 , … , 𝒙𝒏 }.
La media de la muestra es:
Donde ∑𝒏𝒊=𝟏 𝒙𝒊 es la suma de todos los “n” datos de la muestra, 𝒙𝟏 + 𝒙𝟐 + 𝒙𝟑 + ⋯ + 𝒙𝒏 .
EJEMPLO 5:
El número de pequeños aviones volando en una remota pista de aterrizaje durante un
período de 15 días es:
5 7 0 3 4 6 4 0 5 3 6 9 4 2 8.
Para este conjunto de datos, encontrar la media aritmética:
̅=
𝒙
𝟓+𝟕+𝟎+𝟑+𝟒+𝟔+𝟒+𝟎+𝟓+𝟑+𝟔+𝟗+𝟒+𝟐+𝟖
𝟏𝟓
𝟔𝟔
= 𝟏𝟓 = 𝟒, 𝟒 Aviones
54
EJERCICIO 1.5A:
1. Considera los siguientes conjuntos de datos:
Conjunto A: 5, 6, 6, 7, 7, 7, 8, 8, 9, 10, 12
Conjunto B: 5, 6, 6, 7, 7, 7, 8, 8, 9, 10, 20
a) Hallar la media aritmética tanto del conjunto A y B.
b) Hallar la mediana tanto del conjunto A y B.
c) Explica por qué la media aritmética del conjunto de datos A es menor que la
media del conjunto de datos B.
d) Explica por qué la mediana del conjunto de datos A es igual a la mediana del
conjunto de datos B.
55
2. La suma de 7 puntajes es 63. ¿Cuál es su media aritmética?
3. Los precios de venta de 9 casas son:
$158 000, $290 000, $290 000, $1 100 000,
$900 000, $395 000, $925 000, $420 000, $760 000
a) Encuentre la media, mediana y moda de los precios de venta.
56
b) Explica por qué la moda es una medida insatisfactoria de representatividad en
este caso.
c) ¿Es la mediana una medida satisfactoria de representatividad de este conjunto de
datos?
4. Durante un safari en el interior, Bill condujo un promedio de 262 km por día durante
un período de 12 días. ¿Qué distancia recorrió Bill en total durante el safari?
5. Hacia el final de la temporada, un jugador de vóley había jugado 14 partidos y había
lanzado un promedio de 16.5 puntos por juego. En los dos partidos finales de la
temporada lanzó 21 puntos y 24 puntos. Encuentra el nuevo promedio del voleibolista.
57
6. Encuentra a dado que 3, 0, a, a, 4, a, 6, a, y 3 tienen una media de 4.
7. Durante el período completo de evaluación, Almendra alcanzó un promedio 35 de 40
puntos en sus exámenes de matemáticas. Sin embargo, al verificar sus archivos, solo
pudo encontrar 7 de las 8 pruebas. Para ellos, obtuvo 29, 36, 32, 38, 35, 34 y 39.
¿Cuántas puntos de los 40 obtuvo en la octava prueba?
8. Una muestra de 10 mediciones tiene una media de 15.7 y una muestra de 20
mediciones tiene una media de 14.3. Encuentra la media de las 30 medidas.
58
9. La media y la mediana de un conjunto de 9 medidas son ambas 12. Siete de las
medidas son 7, 9, 11, 13, 14, 17 y 19. Halla las otras dos medidas.
10. Jana tomó siete pruebas de ortografía, cada una con doce palabras, pero solo pudo
encontrar los resultados de cinco de ellas. Estos fueron 9, 5, 7, 9 y 10. Le pidió a su
maestra los otros dos resultados y la maestra dijo que la moda de sus puntajes era 9
y el promedio era 8. Dado que Jana sabe que su peor resultado fue un 5, encuentra
los dos resultados faltantes.
59
DATOS EN TABLAS DE FRECUENCIAS:
Cuando los mismos datos aparecen varias
veces, a menudo resumimos los datos en
forma de tabla.
Valor de
los datos
(xi)
Frecuencia
(fi)
Producto
(fi.xi)
3
1
1x3=3
4
1
1x4=4
5
3
3 x 5 = 15
6
7
7 x 6 = 42
7
15
15 x 7 = 105
8
8
8 x 8 = 64
9
5
5 x 9 = 45
Total
∑ 𝒇 = 𝟒𝟎
∑ 𝒇𝒊 . 𝒙𝒊 = 𝟐𝟕𝟖
Considere los datos en la tabla dada:
Podemos encontrar las medidas de
tendencia central directamente desde la
tabla.
La moda (Mo)
El valor 7 tiene la frecuencia más alta. La
moda es por lo tanto 7:
𝑴𝒐 = 𝟕
̅)
La media aritmética (𝒙
Agregar una columna 'Producto' a la tabla ayuda a agregar todas las puntuaciones. Por
ejemplo, hay 15 datos de valor 7 y estos sumados equivale a 15 x 7 = 105.
La media aritmética es el cociente de la suma de los productos de cada variable (𝒙𝒊 ) por
su frecuencia absoluta (𝒇𝒊 ) entre el total de frecuencias (n):
Donde: 𝑛 = ∑𝑘𝑖=1 𝑓𝑖 es el número total de datos, y k es el número de los diferentes
valores de los datos.
̅=
Esta fórmula se suele abreviar como 𝒙
En este caso la media es:
̅=
𝒙
∑ 𝒇𝒙 𝟐𝟕𝟖
=
= 𝟔. 𝟗𝟓
∑𝒇
𝟒𝟎
̅ = 𝟔. 𝟗𝟓
𝒙
∑ 𝒇𝒙
∑𝒇
60
La mediana (Me)
Dado que:
𝑛+1
2
=
40+1
2
= 20.5, la mediana es el promedio de los valores de los datos 20° y 21°.
En la tabla, los números en negrita nos muestran los valores acumulados, o la frecuencia
acumulada.
Podemos ver que los valores de los datos 20° y 21° (en orden) son ambos 7s.
Por lo tanto:
𝑴𝒆 =
𝟕+𝟕
𝟐
=𝟕
Valor de
los datos
Frecuencia
3
1
1 ← 1 número es 3
4
1
2 ← 2 números son 4 o menos
5
3
5 ← 5 números son 5 o menos
6
7
12 ← 12 números son 6 o menos
7
15
27 ← 27 números son 7 o menos
8
8
35 ← 35 números son 8 o menos
9
5
40 ← 40 números son 9 o menos
Total
40
Frecuencia acumulada
61
EJEMPLO 6:
La siguiente tabla muestra el número de aces servidos por los jugadores de tenis en sus
primeros juegos de un torneo
N° de aces
1
2
3
4
5
6
Frecuencia
4
11
18
13
7
2
Determinar:
̅=
a) 𝒙
a) media aritmética
b) mediana
c) moda
N° de aces
Frecuencia
(fi)
Producto (fi.xi)
Frecuencia
acumulada
1
4
4
4
2
11
22
15
3
18
54
33
4
13
52
46
5
7
35
53
6
2
12
55
Total
∑ 𝒇 = 𝟓𝟓
∑ 𝒇𝒊 . 𝒙𝒊 = 𝟏𝟕𝟗
∑ 𝒇𝒊 .𝒙𝒊
∑𝒇
𝟏𝟕𝟗
= 𝟓𝟓 ≈ 𝟑. 𝟐𝟓 𝒂𝒄𝒆𝒔
b) n= 55, entonces
55+1
2
= 28°
Según la frecuencia acumulativa el dato 3 se encuentra desde la posición 16° hasta
la posición 33°, por lo tanto, la mediana es el número 3: Me= 3
c) La más alta frecuencia es 18 que le corresponde al número 3. Entonces Mo= 3.
62
EJEMPLO 7:
La tabla al lado muestra los resultados cuando 3
monedas se lanzaron simultáneamente 30 veces.
Calcula:
a) La moda
b) mediana
c) media.
EJEMPLO 8:
Se encuestó a las familias de una escuela en
Australia y se registró el número de niños en
cada familia. Los resultados de la encuesta se
muestran al lado.
a) Usando tecnología, calcule:
i) Media aritmética
iii) Mediana
ii) Moda
N° de caras
Frecuencia
0
4
1
12
2
11
3
3
Total
30
N° de niños
Frecuencia
1
5
2
28
3
15
4
8
5
2
6
1
Total
59
b) La familia australiana promedio tiene 2.2 hijos. ¿Cómo se compara esta escuela
con el promedio nacional?
c) El conjunto de datos está sesgado. ¿La asimetría es positiva o negativa?
d) ¿Cómo ha afectado la asimetría de los datos a las medidas de tendencia central?
63
EJERCICIO 1.5B:
1. La siguiente tabla de frecuencias registra el número de
llamadas realizadas en un día por 50 adolescentes.
a) Para estos datos, encuentre lo siguiente:
i) Media aritmética
ii) Moda
iii) Mediana
N° de
llamadas
0
Frecuencia
5
1
8
2
13
3
8
4
6
5
3
6
3
7
2
8
1
11
1
b) Construya un gráfico de columna para los datos y muestre la posición de la media,
la mediana y el modo en el eje horizontal.
c) Describa la distribución de los datos.
d) ¿Por qué la media es más grande que la mediana para esta información?
64
2. Una compañía afirma que sus cajas de fósforos
contienen, en promedio, 50 unidades por caja. Al
hacer una encuesta, la Sociedad de Protección al
Consumidor registró los siguientes resultados:
a) Usar tecnología para calcular:
i) La moda
ii) La mediana
iii) La media
N° de fósforos
Frecuencia
por caja
47
5
48
4
49
11
50
6
51
3
52
1
Total
30
b) ¿Los resultados de esta encuesta respaldan el reclamo contra la compañía?
c) En un tribunal que ve casos sobre "publicidad falsa", la compañía ganó su caso
contra la Sociedad de Protección al Consumidor. ¿Cómo crees que lo hicieron?
65
3. Considere el problema de apertura del capítulo.
a) Use una tabla de frecuencia para los datos Sin fertilizante para encontrar:
i) La media
ii) La moda
iii) La mediana
de guisantes por vaina.
b) Use una tabla de frecuencia para los datos Con fertilizante para encontrar:
i) La media
ii) La moda
iii) La mediana
de guisantes por vaina.
c) ¿Cuál de las medidas de tendencia central es apropiada para usar en un informe
sobre estos datos?
d) ¿La aplicación de fertilizantes mejoró significativamente la cantidad de guisantes
por vaina?
66
DATOS AGRUPADOS EN INTERVALOS DE CLASE
Cuando la información se ha reunido en intervalos de clase o simplemente clases, usamos
el valor intermedio o marca de clase para representar todas las puntuaciones dentro de
ese intervalo.
Estamos asumiendo que los puntajes dentro de cada clase están distribuidos
uniformemente a lo largo de ese intervalo. La media calculada es una aproximación del
valor verdadero, y no podemos hacer mejor que esto sin conocer cada valor de datos
individual.
EJEMPLO 9:
Estima la media de las siguientes estaturas registradas al cm más cercano.
Estatura
[145 – 150) [145 – 150) [145 – 150) [145 – 150) [145 – 150) [145 – 150) [145 – 150)
(cm)
Frecuencia
4
8
10
6
4
6
2
(fi)
Observa cómo calculamos la media aritmética con datos agrupados.
Variable
estadística
Estatura (cm)
Marca de
clase
xi = (a + b)/2
Frecuencia
(fi)
xi.fi
[145 – 150)
147.5
4
590
[150 – 155)
152.5
8
1220
[155 – 160)
157.5
10
1575
[160 – 165)
162.5
6
975
[165 – 170)
167.5
4
670
[170 – 175)
172.5
6
1035
[175 – 180]
177.5
2
355
Total
40
∑ 𝒙𝒊 . 𝒇𝒊 = 6420
En este caso, debemos obtener la marca de clase (xi) como valor representativo. Cada
marca de clase se multiplica por su frecuencia absoluta y la suma de estos productos se
divide entre el total de datos:
̅=
𝒙
∑ 𝒙𝒊 . 𝒇𝒊 𝟔𝟒𝟐𝟎
=
= 𝟏𝟔𝟎. 𝟓
𝒏
𝟒𝟎
La estatura media de los alumnos de esta sección es 160,5 cm.
67
EJERCICIO 1.5C:
1. 50 estudiantes han rendido una prueba de matemáticas. En la siguiente tabla se
muestran los resultados. Halle el puntaje promedio.
Puntaje
0–9
10 – 19
20 – 29
30 – 39
40 – 49
Frecuencia
2
5
7
27
9
2. La tabla muestra las ventas de gasolina en un día por varias estaciones de servicio de
la ciudad.
a) ¿Cuántas
estaciones
de
participaron en la encuesta?
servicio
Petróleo vendido,
L (litros)
2000 ≤ 𝐿 < 3000
3000 ≤ 𝐿 < 4000
4000 ≤ 𝐿 < 5000
5000 ≤ 𝐿 < 6000
6000 ≤ 𝐿 < 7000
7000 ≤ 𝐿 < 8000
Frecuencia
4
4
9
14
23
16
b) Estime la cantidad total de gasolina vendida por el día por las estaciones de
servicio.
c) Encuentre las ventas promedio aproximadas de gasolina del día.
68
3. A continuación, se muestra un registro de la cantidad de puntos que Chloe anotó en
sus partidos de baloncesto.
a) Encuentra la media de puntos por partido.
b) Estime la media agrupando los datos en los intervalos:
i) 0 - 4, 5 - 9, 10 - 14, 15 - 19
N° de puntos por
partido
ii) 0 - 3, 4 - 7, 8 - 11, 12 - 15, 16 - 19
Frecuencia
N° de puntos por
partido
Frecuencia
c) Comente sobre la precisión de sus respuestas de a y b.
4. La tabla muestra los tamaños de los bloques de
tierra en una calle suburbana.
Usa la tecnología para estimar el tamaño promedio
del bloque de tierra.
Tamaños de
tierra (m2)
[500, 600)
[600, 700)
[700, 800)
[800, 900)
[900,1000)
Frecuencia
5
11
23
14
9
69
5. El siguiente gráfico de barras muestra el número de personas en una selección de las
familias.
10
8
6
Number of
families 4
2
0
3
4
5
6
7
8
Number of people in a family
9
10
(a) ¿Cuántas familias están representadas?
_______
(b) Escriba la moda de la distribución.
_______
(c) Encontrar -aproximar al número entero más cercano- el número de personas
promedio en una familia.
6. Este histograma de frecuencia ilustra los
resultados de una prueba de aptitud
dada a un grupo de personas que
buscan puestos en una empresa.
a) ¿Cuántas personas rindieron la
prueba?
b) Estime la puntuación media de la
prueba.
c) ¿Qué fracción de las personas obtuvo menos de 100 en la prueba?
d) Si al 20% superior de las personas se le ofrecen puestos en la empresa, calcule la
marca mínima requerida.
70
7. La tabla muestra los puntajes en una competencia:
Puntaje
N° de competidores
10
1
20
2
30
5
40
k
50
3
La media aritmética es 34. Halla el valor de k.
8. Una caja contiene 100 tarjetas. Cada tarjeta tiene un número entre 1 y 6 escrito en ella.
La siguiente tabla muestra las frecuencias para cada número.
Número
Frecuencia
(a)
(b)
1
26
Calcula el valor de k.
Halla la mediana.
2
10
3
20
4
k
5
29
6
11
71
EJERCICIOS DE AFIANZAMIENTO (SIN CALCULADORA):
1. La media aritmética de los siguientes diez números listados es 5.5.
4, 3, a, 8, 7, 3, 9, 5, 8, 3
a. halla el valor de a.
b. halla la mediana de los diez números.
2. Encuentra x si 5, 9, 11, 12, 13, 14, 17 y x tienen una media de 12.
3. La siguiente tabla muestra las alturas y pesos de cinco chicos de 16 años.
(a)
Halla
i. La altura promedio;
ii. El peso promedio.
Nombre
Blake
Jorge
Chin
Ravi
Derek
Altura
182 cm
173 cm
162 cm
178 cm
190 cm
Peso
73 kg
68 kg
60 kg
66 kg
75 kg
72
4. Dada la siguiente distribución de frecuencia, encontrar
(a) La mediana;
Número (x)
1
2
3
4
5
6
(b)
Frecuencia (f )
5
9
16
18
20
7
La media.
5. La tabla a continuación muestra las calificaciones obtenidas en una prueba por un
grupo de estudiantes.
Puntaje
N° de estudiantes
1
5
2
10
3
p
4
6
5
2
La mediana es 3 y la moda es 2. Halla los dos posibles valores de p.
73
EJERCICIOS DE AFIANZAMIENTO (CON CALCULADORA):
1. Encontrar:
i) La media aritmética
ii) La mediana
Para cada uno de los siguientes conjuntos de datos:
iii) La moda
a) 8, 8, 8, 10, 11, 11, 12, 12, 16, 20, 20, 24
b) 7.9, 8.5, 9.1, 9.2, 9.9, 10.0, 11.1, 11.2, 11.2, 12.6, 12.9
c) 427, 423, 415, 405, 445, 433, 442, 415, 435, 448, 429, 427, 403, 430, 446, 440, 425,
424, 419, 428, 441
2. Kylie lanzó una pelota de béisbol 50 veces. Las velocidades de sus lanzamientos se
muestran en la tabla. Usa la tecnología para estimar la velocidad media de sus
lanzamientos.
Velocidad (km/h)
Frecuencia
80 ≤ 𝑣 < 85
8
85 ≤ 𝑣 < 90
14
90 ≤ 𝑣 < 95
22
95 ≤ 𝑣 < 100
6
74
3. Se convocaron a 80 estudiantes para integrar la preselección de voleibol del instituto
SISE. Sus estaturas, clasificadas, se presentan en la siguiente tabla:
a) Calcule la estatura promedio
b) ¿Cuál es la estatura máxima de la primera
mitad de los estudiantes?
c) ¿Cuál es la estatura que más se presenta
entre los estudiantes?
Estaturas
(en cm)
[156 – 160>
[160 – 164>
[164 – 168>
[168 – 172>
[172 – 176]
TOTAL
Nº de
estudiantes
28
22
15
8
7
80
4. De enero a septiembre, el número medio de accidentes por mes fue de 630. De
octubre a diciembre, la media fue de 810 accidentes por mes. ¿Cuál fue el número
promedio de accidentes por mes durante todo el año?
5. En una conferencia de 100 matemáticos hay 72 hombres y 28 mujeres. Los hombres
tienen una altura media de 1,79 m y las mujeres tienen una altura promedio de 1,62
m. encontrar la altura media de los 100 matemáticos.
75
6. El histograma siguiente representa las edades de 270 personas en un pueblo.
(a)
Utilice el histograma para completar la siguiente tabla.
Rango de edad
Frecuencia
Marca de clase
0 ≤ edad < 20
40
10
20 ≤ edad < 40
40 ≤ edad < 60
60 ≤ edad < 80
80 ≤ edad ≤100
(b)
Luego, calcule una estimación de la edad media.
76
1.6. MEDIDAS DE DISPERSIÓN
Conocer las medidas de tendencia central puede ser muy útil, pero para tener una imagen
más precisa del conjunto de datos necesitamos conocer su dispersión.
Por ejemplo, la siguiente lista:
2, 3, 4, 5, 6, 7, 8, 9, 10
Tiene un valor promedio de 6 y también la lista:
4, 5, 5, 6, 6, 6, 7, 7, 8
Sin embargo, el primer grupo de datos es más disperso
que el segundo grupo.
La dispersión de un conjunto de datos es comúnmente medida a través de:
El rango
Rango intercuartil
La varianza
Desviación estándar
EL RANGO
El rango es la diferencia entre el valor máximo de datos (más grande) y el valor mínimo
de datos (más pequeño).
Rango = máximo valor de datos - mínimo valor de datos
EJEMPLO 1:
Halla el rango del conjunto de datos: 5, 3, 8, 4, 9, 7, 5, 6, 2, 3, 6, 8, 4
Rango= 9 – 2= 7
LOS CUARTILES SUPERIORES E INFERIORES Y EL RANGO INTERCUARTIL
La mediana divide un conjunto ordenado de datos en dos mitades, y estas mitades se
dividen por la mitad otra vez por los cuartiles.
El valor medio de la primera mitad se llama cuartil inferior. Una cuarta parte o 25%, de
los datos tienen valores inferiores o iguales que el cuartil inferior. El 75% de los datos
tiene valores mayores o iguales que el cuartil inferior.
El valor medio de la segunda mitad se llama cuartil superior. Una cuarta parte o 25%, de
los datos tienen valores mayores o iguales que el cuartil superior. El 75% de los datos
tiene valores inferiores o iguales que el cuartil superior.
El rango intercuartil es el rango de la mitad central (50%) de los datos.
Rango Intercuartil = Cuartil superior – Cuartil inferior
El conjunto de datos
Así, el conjunto de datos se divide en cuartos por el cuartil inferior (Q1), la mediana (Q2)
y el cuartil superior (Q3).
Así, el rango intercuartil se define por:
IQR= Q3 – Q1
77
EJEMPLO 2:
Para el conjunto de los datos: 7, 3, 4, 2, 5, 6, 7, 5, 5, 9, 3, 8, 3, 5, 6. Halla:
a) La mediana
b) Cuartil inferior
c) Cuartil superior
d) Rango intercuartil
El conjunto ordenado de los datos es:
2 3 3 3 4 5 5 5 5 6 6 7 7 8 9 (15 datos)
a) Como n=15,
𝑛+1
2
La mediana = 8° puntuación = 5
=8
b) Como la mediana es un valor de los datos, omitimos este valor en la lista y dividimos
los restantes en dos partes:
2 3 3 3 4 5 5
5 6 6 7 7 8 9
Inferior
Superior
Q1 = mediana de la mitad inferior = 3
c) Q3 = mediana de la mitad superior= 7
d) IQR = Q3 – Q1 = 7 – 3 = 4
EJEMPLO 3:
Para el conjunto de los datos: 6, 10, 7, 8, 13, 7, 10, 8, 1, 7, 5, 4, 9, 4, 2, 5, 9, 6, 3, 2
Halla:
a) La mediana
c) El cuartil superior
b) El cuartil inferior
d) El rango intercuartil
1 2 2 3 4 4 5 5 6 6 7 7 7 8 8 9 9 10 10 13 (20 datos)
a) Como n = 20,
Mediana=
𝑛+1
2
= 10.5
10° 𝑣𝑎𝑙𝑜𝑟 + 11°𝑣𝑎𝑙𝑜𝑟
2
=
6+7
2
= 6.5
b) Como la mediana no es un dato de la lista, directamente dividimos los datos en dos
partes:
Inferior
Superior
1 2 2 3 4 4 5 5 6 6
7 7 7 8 8 9 9 10 10 13
Q1= 4
Q3= 8.5
c) IQR= Q3 – Q1= 8.5 – 4 = 4.5
Nota: Algunos paquetes de computadora (por ejemplo, MS Excel) calculan los cuartiles
de una manera diferente de este ejemplo.
78
EJERCICIO 1.6A:
1. Para cada uno de los siguientes conjuntos de datos, asegúrate primero de ordenarlos
y luego halla:
i) La mediana
ii) El primer y tercer cuartil
iii) El rango
iv) El rango intercuartil
a) 2, 3, 3, 3, 4, 4, 4, 5, 5, 5, 5, 6, 6, 6, 6, 6, 7, 7, 8, 8, 8, 9, 9
b) 10, 12, 15, 12, 24, 18, 19, 18, 18, 15, 16, 20, 21, 17, 18, 16, 22, 14
c) 21.8, 22.4, 23.5, 23.5, 24.6, 24.9, 25, 25.3, 26.1, 26.4, 29.5
79
2. Los tiempos gastados (en minutos) por 20 personas esperando en una cola en un
banco por un cajero fueron:
a) Encuentre el tiempo mediano de espera y
los cuartiles superior e inferior.
b) Encuentre el rango y el rango intercuartil de los tiempos de espera.
c) Complete las siguientes declaraciones:
i) "el 50% de los tiempos de espera fueron superiores a ______ minutos".
ii) "el 75% de los tiempos de espera fueron menos de ______ minutos".
iii) "El tiempo de espera mínimo fue de ______ minutos y el tiempo máximo de
espera fue de ______ minutos. Los tiempos de espera se extendieron por ______
minutos".
80
3. Para el conjunto de datos dado, encuentre usando la tecnología:
a) El mínimo valor=
b) El máximo valor=
c) La mediana=
d) El cuartil inferior=
e) El cuartil superior=
f) El rango=
a) El rango intercuartil=
4. Las alturas de 20 niños de 10 años de edad fueron registradas en cm:
109 111 113 114 114 118 119 122 122 124
124 126 128 129 129 131 132 135 138 138
a) Usando tecnología, halla la:
i) La altura mediana
ii) Los cuartiles inferior y superior de los datos.
b) Completa las siguientes frases:
i) "La mitad de los niños no tienen más de _______ cm de altura".
ii) "El 75% de los niños no tienen más de _______ cm de altura".
c) Halla:
i) rango
ii) rango intercuartil
d) Complete: "El 50% intermedio de los niños tiene alturas repartidas _______ cm."
81
1.7. DIAGRAMA DE CAJA Y BIGOTES
Un diagrama de caja y bigote es una representación visual de algunos de los
estadísticos descriptivos de un conjunto de datos. Esto muestra:
El valor mínimo
El tercer cuartil (Q3)
El primer cuartil (Q1)
El máximo valor
La mediana (Q2)
La caja rectangular representa la mitad central del conjunto de datos.
El bigote inferior representa el 25% de los datos con valores más pequeños.
El bigote superior representa el 25% de los datos con valores mayores.
INTERPRETACIÓN DE UN DIAGRAMA DE CAJA Y BIGOTES
Un conjunto de datos con una distribución
simétrica tendrá un diagrama de caja
simétrico.
Los bigotes de la gráfica de caja tienen la
misma longitud y la línea mediana está en
el centro de la caja.
Un conjunto de datos que está sesgado
positivamente tendrá un diagrama de caja
sesgado positivamente.
El bigote derecho es más largo que el
bigote izquierdo y la línea mediana está a la
izquierda del cuadro.
82
EJEMPLO 1:
a) El diagrama de caja dado resume los puntos anotados por un equipo de
vóley. Escribe el valor de:
i.
La mediana
ii. El máximo valor
iv.
El cuartil superior
v. El cuartil inferior
b) Calcula:
i. El rango
iii. El mínimo valor
ii. El rango intercuartil
EJEMPLO 2:
El diagrama de caja que se muestra resume los puntos anotados por un equipo
de baloncesto. Completa las siguientes afirmaciones sobre sus resultados:
a) La anotación más alta fue ……… puntos
b) La anotación más baja fue.……… puntos
c) La mitad de los puntajes fue mayor o igual que……….. puntos
d) El 25% superior de las puntuaciones fue al menos ……….puntos
e) La mitad central de las puntuaciones está entre ……… y ………. Puntos.
f) Halla el rango del conjunto de datos
g) Halla el rango intercuartil del conjunto de datos
83
EJEMPLO 3:
Para el conjunto de datos:
5 1 6 8 1 7 4 5 6 11 3 4 4 2 5 5
a) Halla los 5 números que resumen los datos
b) Dibuja el diagrama de caja
c) Halla:
i) el rango
ii) el rango intercuartil
d) Halla el porcentaje de los datos menores que 4
84
EJERCICIO 1.7A:
1. Para los siguientes conjuntos de datos:
i. Halla los 5 números que resumen los datos
ii. Dibuja un diagrama de caja
iii. Halla el rango
iv. Halla el rango intercuartil
a) 5, 5, 10, 9, 4, 2, 8, 6, 5, 8, 6, 7, 9, 6, 10, 3, 11
b) 7, 0, 4, 6, 8, 8, 9, 5, 6, 8, 8, 8, 9, 8, 1, 8, 3, 7, 2, 7, 4, 5, 9, 4
2. Un conjunto de datos es
18 , 18 , 19 , 19 , 20 , 22 , 22 , 23 , 27 , 28 , 28 , 31 , 34 , 34 , 36.
A continuación se muestra el diagram de caja y bigote para estos datos.
(a)
Escribe a continuación los valores de A, B, C, D y E.
A = ......
B = ......
(b) Halla el rango intercuartil
C= ......
D = ......
E = ......
85
VALORES ATÍPICOS
Hemos visto que los valores atípicos son datos extraordinarios que están separados del
cuerpo principal de los datos.
Sin embargo, hasta ahora hemos identificado valores atípicos de manera bastante
informal al observar los datos directamente o en un gráfico de columnas de los datos.
Una prueba de uso común para identificar valores atípicos implica el cálculo de los límites
superior e inferior:
Límite superior=cuartil superior + 1,5 × IQR
Cualquier dato mayor que el límite superior es un valor atípico.
Límite inferior=cuartil inferior - 1,5 × IQR
Cualquier dato menor que el límite inferior es un valor atípico.
Los valores atípicos se marcan con un asterisco en un diagrama de caja. Es posible tener
más de un valor atípico en cada extremo.
Cada bigote se extiende hasta el último valor que no es un valor atípico.
EJEMPLO 4:
Pruebe los siguientes datos para detectar valores atípicos. Por lo tanto, construya un
diagrama de caja para los datos.
3, 7, 8, 8, 5, 9, 10, 12, 14, 7, 1, 3, 8, 16, 8, 6, 9, 10, 13, 7
El conjunto de datos ordenados es:
1 3 3 5 6 7 7 7 8 8 8 8 9 9 10 10 12 13 14 16
Mín=1
Q1=6.5
Mediana=8
Q3=10
{n=20}
Máx=16
IQR= Q3 - Q1 = 3.5
Test para valores atípicos:
Límite superior
y
Límite inferior
= Cuartil superior + 1.5 x IQR
= Cuartil inferior - 1.5 x IQR
= 10 + 1.5 x 3.5
= 6.5 - 1.5 x 3.5
= 15.25
= 1.25
16 está por encima del límite superior, entonces éste es un valor atípico.
1 está por debajo del límite inferior, entonces éste es un valor atípico.
Cada bigote se dibuja
hasta el último valor
que no es un valor.
atípico
86
EJERCICIO 1.7B:
1. Un conjunto de datos tiene cuartil inferior=31.5, mediana=37, y cuartil superior=43.5.
a) Calcular el rango intercuartil para este conjunto de datos.
b) Calcular los límites que identifican valores atípicos
c) Los valores más pequeños del conjunto de datos son 13 y 20. Los valores más
grandes son 52 y 55. ¿Cuáles de estos son valores atípicos?
d) Dibuja un diagrama de caja del conjunto de datos.
2. James va a observar aves durante 25 días. El número de
pájaros que ve cada día es:
12, 5, 13, 16, 8, 10, 12, 18, 9, 11, 14, 14
22, 9, 10, 7, 9, 11, 13, 7, 10, 6, 13, 3, 8
a) Halla la mediana, el cuartil inferior, y el cuartil
superior del conjunto de datos.
b) Halla el rango intercuartil del conjunto de datos.
c) Halla los límites inferior y superior, y luego identifica
cualquier valor atípico.
d) Dibuja un diagrama de caja del conjunto de datos.
87
3. Emparejar cada gráfico con su diagrama de caja
88
DIAGRAMA DE CAJA PARALELOS
Los diagramas de caja paralelos nos permiten hacer una comparación visual de las
distribuciones de dos conjuntos de datos y su estadística descriptiva (mediana, rango y
rango intercuartil). Los diagramas de caja paralelos podrían ser horizontales o verticales.
EJEMPLO 5:
Un hospital está probando un nuevo medicamento anestésico y ha recopilado datos
sobre cuánto tiempo toman los medicamentos nuevos y viejos hagan efecto y el paciente
quede inconsciente. Se desea saber qué droga actúa más rápido y cuál es más confiable.
Tiempos de drogas anteriores:
8, 12, 9, 8, 16, 10, 14, 7, 5, 21,
13, 10, 8, 10, 11, 8, 11, 9, 11, 14
Nuevos tiempos de drogas:
8, 12, 7, 8, 12, 11, 9, 8, 10, 8,
10, 9, 12, 8, 8, 7, 10, 7, 9, 9
Prepare una gráfica de caja paralela para los conjuntos de datos y úsela para comparar
los dos fármacos en cuanto a velocidad y fiabilidad.
Para el medicamento viejo:
Min= 5
Q1 = 8
Me = 10
Q3 = 12.5
Max= 21
Para el medicamento nuevo:
Min= 7
Q1 = 8
Me= 9
Q3 = 10
Max = 12
Usando la mediana, 50% de los tiempos registrados del nuevo medicamento toman 9
segundos o menos, en comparación con 10 segundos para el medicamento anterior.
Concluimos que el nuevo medicamento es generalmente un poco más rápido.
Comparando la dispersión:
Rango del medicamento viejo=21 – 5 = 16 Rango del medicamento nuevo=12 – 7= 5
IQR = Q3 – Q1= 12.5 – 8 = 4.5
IQR = Q3 – Q1= 10 – 8 = 2
Los tiempos de los nuevos medicamentos están menos "extendidos" que los tiempos
correspondientes a las drogas anteriores. Son más predecibles o confiables.
89
EJERCICIO 1.7C:
1. Los diagramas de caja
siguientes
los
comparan
números
estudiantes
de
en
los
autobuses escolares A
y C durante un período de un mes.
a) Halla los 5 números que describen los datos.
b) Determina:
i. Rango
estudiantes .
ii. Rango intercuartil
para
cada
grupo
de
90
2. Dos clases han completado el mismo test. Los
diagramas de caja se han elaborado para resumir y
mostrar los resultados. Éstas se han elaborado en
paralelo de modo que los resultados se pueden
comparar.
a) En qué clase estuvo:
i.
La marca más alta
ii.
La marca más baja
iii.
¿Cuál tiene mayor dispersión de puntuaciones?
b) Halla:
i.
El rango de las puntuaciones en la clase B
ii.
El rango intercuartil en la clase B
c) ¿Si el 50% superior de la clase B aprobó el test, qué porcentaje de la clase A
aprobó?
d) Describe la distribución de marcas en:
i. Clase A
ii. Clase B.
e) Completa:
Los estudiantes en la clase……… generalmente alcanzaron puntuaciones más altas.
Las puntuaciones en la clase….…… fueron más variadas.
91
3. Las alturas (de centímetro en centímetro) de niños y niñas en una clase de 10 año en
Noruega son como sigue:
Chicos:
165 171 169 169 172 171 171 180 168 168 166 168 170 165 171 173 187
181 175 174 165 167 163 160 169 167 172 174 177 188 177 185 167 160
Chicas:
162 171 156 166 168 163 170 171 177 169 168 165 156 159 165 164 154
171 172 166 152 169 170 163 162 165 163 168 155 175 176 170 166
a) Halla los 5 números que describen los datos
b) Compara y comenta la distribución de los datos.
92
1.8. CURVAS DE FRECUENCIAS ACUMULADAS
A veces, además de encontrar la mediana, es útil
conocer la cantidad o proporción de puntuaciones que
se encuentran por encima o por debajo de un valor
particular. En tales situaciones, podemos construir una
tabla de distribución de frecuencia acumulativa y
usar un gráfico llamado gráfico de frecuencia
acumulada para representar los datos.
PERCENTILES
Un percentil es el puntaje por debajo del cual se
encuentra un cierto porcentaje de los datos.
Por ejemplo:
• El percentil 85 es el puntaje por debajo del cual se encuentra el 85% de los datos.
•
Si su puntaje en una prueba es el percentil 95, entonces el 95% de la clase obtuvo
una calificación menor que usted.
Note que:
• El cuartil inferior (Q1) es el percentil 25
•
La mediana (Q2) es el percentil 50
•
El cuartil superior (Q3) es el percentil 75.
Un gráfico de frecuencia acumulada proporciona una forma conveniente de encontrar
percentiles.
EJEMPLO 1:
Los datos mostrados dan los pesos de 80 jugadores de
básquetbol.
a) Construye una tabla de distribución de frecuencias
acumuladas.
b) Representa los datos en un gráfico de frecuencia
acumulativa.
c) Usa tu grafico para estimar:
i. Peso mediano
ii. Número de hombres que pesan menos 83 kg.
iii. Número de hombres que pesan más que 92 kg.
Peso (w kg)
65 ≤ 𝑤 < 70
70 ≤ 𝑤 < 75
75 ≤ 𝑤 < 80
80 ≤ 𝑤 < 85
85 ≤ 𝑤 < 90
90 ≤ 𝑤 < 95
95 ≤ 𝑤 < 100
100 ≤ 𝑤 < 105
105 ≤ 𝑤 < 110
110 ≤ 𝑤 < 115
Frecuencia
1
2
8
16
21
19
8
3
1
1
93
a)
Peso (w kg)
Frecuencia
65 ≤ 𝑤 < 70
1
Frecuencia
acumulativa
1
70 ≤ 𝑤 < 75
2
3
75 ≤ 𝑤 < 80
8
11
80 ≤ 𝑤 < 85
16
27
85 ≤ 𝑤 < 90
21
48
90 ≤ 𝑤 < 95
19
67
95 ≤ 𝑤 < 100
8
75
100 ≤ 𝑤 < 105
3
78
105 ≤ 𝑤 < 110
1
79
110 ≤ 𝑤 < 115
1
80
11 jugadores pesan menos
que 80 kg
75 jugadores pesan menos
que 105 kg
b)
c)
i.
La mediana es el promedio
de 40° y 41° pesos, esto es
40.5. Leyendo esto en el
gráfico, la mediana es
aproximadamente 88 kg.
ii.
Hay 20 hombres que pesan
menos que 83 kg.
iii.
Hay 80 – 56= 24 hombres
que pesan más que 92 kg.
94
EJEMPLO 2:
Los puntajes de examen de un grupo de estudiantes se
muestran en la tabla. Dibuja un gráfico de frecuencia
acumulativo para los datos y úsalo para encontrar:
Puntaje (x)
10 ≤ 𝑥 < 20
20 ≤ 𝑥 < 30
30 ≤ 𝑥 < 40
40 ≤ 𝑥 < 50
50 ≤ 𝑥 < 60
60 ≤ 𝑥 < 70
70 ≤ 𝑥 < 80
80 ≤ 𝑥 < 90
90 ≤ 𝑥 < 100
f
2
5
7
21
36
40
27
9
3
a) El puntaje mediano del examen
____________________
b) ¿Cuántos estudiantes obtuvieron menos de 65 puntos?
____________________
c) ¿Cuántos estudiantes obtuvieron entre 50 y 70 puntos?
____________________
d) ¿Cuántos estudiantes fallaron, dado que la nota de aprobación fue 45?
____________________
e) Halle el puntaje de crédito, dado que el 16% superior de los estudiantes recibió
créditos.
____________________
95
EJEMPLO 3:
Un botánico ha medido las alturas de 60 plántulas y ha presentado sus hallazgos en el
gráfico de frecuencia acumulado a continuación.
a) ¿Cuántas plántulas tienen
alturas de 5 cm o menos?
b) ¿Qué porcentaje de plántulas
son más altas que 8 cm?
c) Encuentra la altura media.
d) Encuentre el rango intercuartil para las alturas.
e) Complete: "El 90% de las plántulas son más cortas que _______"
96
EJEMPLO 4:
Hay 120 profesores en una escuela. Las edades son representadas por una curva de
frecuencia acumulativa.
130
120
110
100
Cumulative frequency
90
80
70
60
50
40
30
20
10
0
0
5
10 15 20 25 30 35 40 45 50 55 60 65 70 75
Age
(b)
Escribe la edad mediana.
(c)
Halla el rango intercuartil de las edades.
(d)
Dado que el profesor más joven tiene 21 años, y el mayor tiene 72
años, representa la información en un diagrama de caja y bigotes
usando la escala.
0
5
10 15 20 25 30 35 40 45 50 55 60 65 70 75
Age
97
EJERCICIO 1.8A:
1. La tabla muestra la vida útil de una muestra de
bombillas de luz eléctrica.
Dibuje un gráfico de frecuencia acumulativo para
los datos y utilícelo para estimar:
Vida (horas)
0 ≤ 𝑙 < 500
500 ≤ 𝑙 < 1000
1000 ≤ 𝑙 < 2000
2000 ≤ 𝑙 < 3000
3000 ≤ 𝑙 < 4000
4000 ≤ 𝑙 < 5000
a) La vida mediana de una bombilla
b) El porcentaje de bombillas con una vida útil de 2700 horas o menos
c) El número de bombillas que tuvo una vida entre 1500 y 2500 horas.
N° de
bombillas
5
17
46
79
27
4
98
2. Los resultados del examen para 100 niños se muestran en el siguiente diagrama:
(a)
(i) Halla el rango de los resultados:
(ii) Halla el rango intercuartil:
(iii) Escribe la mediana.
(b)
Los resultados de examen de 100 niñas se muestran en el siguiente
diagrama:
100
number of girls cumulative frequency
90
80
70
60
50
40
30
20
10
0
(c)
10
20
30
(i)
Escribe la mediana:
(ii)
Halla el rango intercuartil:
40
50
60
exam results
70
80
90
100
Escribir el conjunto de resultados que son más dispersos y dé una razón para
su respuesta.
99
3. La siguiente tabla resume las distancias que una pelota de
béisbol alcanzó tras ser arrojado por un número de
diferentes estudiantes.
Dibujar un gráfico de frecuencia acumulada de los datos y
utilizarla para hallar:
Distancia (m)
Frec.
30 ≤ 𝑑 < 40
7
40 ≤ 𝑑 < 50
17
50 ≤ 𝑑 < 60
28
60 ≤ 𝑑 < 70
15
70 ≤ 𝑑 < 80
13
80 ≤ 𝑑 < 90
4
a) La distancia mediana lanzada por los estudiantes
b) El número de estudiantes que lanzó la bola menos de 45 m
c) El número de estudiantes que lanzó la bola entre 55 y 70 m.
d) Si sólo se consideraron para mayor entrenamiento a estudiantes que lanzaron la
bola más allá de 55 m, ¿cuántos alumnos fueron considerados?
100
4. Se midió la longitud del cabello en cm a una muestra aleatoria de 200 mujeres. Los
resultados se muestran en la curva de frecuencia acumulativa.
200
Cumulative frequency
175
150
125
100
75
50
25
0
0
5
10 15 20 25 30 35 40 45 50
length (cm)
(e)
Escribe la longitud mediana de cabello de la muestra
(f)
Halla el rango intercuartil de las longitudes registradas.
(g)
Dado que la longitud más corta fue de 6 cm y la más larga de 47 cm,
dibujar y etiquetar un diagrama de caja y bigotes para los datos en la
cuadrícula mostrada.
0
5
10 15 20 25 30 35 40 45 50
length (cm)
101
5. El siguiente gráfico de frecuencia acumulativa muestra el rendimiento de 80
competidores en una carrera de fondo.
Encontrar:
a) La hora del cuartil inferior
____________________
b) La mediana
____________________
c) El cuartil superior
____________________
d) El rango intercuartil
____________________
e) Una estimación del percentil 40.
____________________
102
6. Los siguientes datos muestran la longitud de 30 truchas capturadas en un lago durante
una competencia de pesca. Las mediciones se redondearon al siguiente centímetro.
31 38 34 40 24 33 30 36 38 32 35 32 36 27 35
40 34 37 44 38 36 34 33 31 38 35 36 33 33 28
a) Construya una tabla de frecuencia acumulativa para longitudes de trucha, x cm,
usando los intervalos 24 ≤ 𝑥 < 27, 27 ≤ 𝑥 < 30, y así sucesivamente.
Longitud (cm)
fi
Fi
b) Dibuje un gráfico de frecuencia acumulada para los datos.
c) Luego, estime la longitud mediana.
_________________________
d) Usa los datos originales para encontrar su mediana y compara tu respuesta con c.
Comenta tus resultados.
103
1.9. VARIANZA Y DESVIACIÓN ESTÁNDAR
El problema con el uso del rango y el IQR como medidas de dispersión o dispersión de
puntajes es que ambos solo usan dos valores en su cálculo. Algunos conjuntos de datos
tienen sus características de propagación ocultas cuando se cita solamente el rango o IQR,
por lo que necesitamos una mejor forma de describir la dispersión.
Necesitamos considerar medidas alternativas de dispersión que tengan en cuenta todos
los valores de un conjunto de datos. Por lo tanto, recurrimos a la varianza y la desviación
estándar.
VARIANZA POBLACIONAL
La varianza poblacional de un conjunto de datos {𝒙𝟏 , 𝒙𝟐 , 𝒙𝟑 , … , 𝒙𝒏 } es
Donde 𝜇 es la media poblacional y
n es el tamaño de la muestra.
Podemos observar que si los valores de los datos 𝑥𝑖 están situados en torno a la media 𝜇,
entonces los valores (𝑥𝑖 − 𝜇)2 serán muy pequeños, y entonces la varianza será pequeña.
La desviación estándar es la raíz cuadrada de la varianza.
La desviación estándar poblacional de un conjunto de datos {𝒙𝟏 , 𝒙𝟐 , 𝒙𝟑 , … , 𝒙𝒏 } es
Note en esta fórmula que:
•
•
(𝒙 − 𝝁)𝟐 es una medida de cuán lejos 𝒙𝒊 se desvía de 𝝁.
Si ∑𝒏𝒊=𝟏(𝒙 − 𝝁)𝟐 es pequeño, indicará que la mayoría de los valores de datos están
cerca de 𝝁.
•
Dividir por n indica en promedio, qué tan lejos están los datos de la media.
•
La raíz cuadrada se usa para corregir las unidades.
104
La raíz cuadrada en la desviación estándar se usa para corregir las unidades. Por ejemplo,
si 𝒙𝒊 es el peso de un estudiante en kg, la varianza 𝝈𝟐 es o estaría en kg², y 𝝈 estaría en
kg. La desviación estándar es una medida de propagación no resistente. Esto se debe a
su dependencia de la media y a que los valores extremos de los datos darán valores
grandes para (𝒙𝒊 − 𝝁)𝟐. Solo es una medida útil si la distribución es aproximadamente
simétrica.
El IQR y los percentiles son herramientas más apropiadas para medir el diferencial si la
distribución está considerablemente sesgada.
INVESTIGACIÓN 1:
Se elige un grupo de 5 estudiantes de cada una de las tres escuelas para evaluar su
capacidad de resolver acertijos. Cada uno de los 15 estudiantes recibe una serie de
acertijos y dos horas para resolver todos los que puedan individualmente.
Los resultados fueron:
Escuela A:
7, 7, 7, 7, 7
Escuela B:
5, 6, 7, 8, 9
Escuela C:
3, 5, 7, 9, 11
Qué hacer:
1. Muestre que la media y la mediana de cada escuela son 7.
105
̅ = 𝟕 para cada grupo, complete una tabla como la siguiente, para
2. Dado que la media 𝒙
cada escuela:
Escuela A
Puntaje (𝒙𝒊 )
̅
Desviación 𝒙 − 𝒙
̅)𝟐
Cuadrado de la desviación (𝒙 − 𝒙
7
7
7
7
7
Suma
Escuela B
Puntaje (𝒙𝒊 )
̅
Desviación 𝒙 − 𝒙
̅)𝟐
Cuadrado de la desviación (𝒙 − 𝒙
5
6
7
8
9
Suma
Escuela C
Puntaje (𝒙𝒊 )
̅
Desviación 𝒙 − 𝒙
̅)𝟐
Cuadrado de la desviación (𝒙 − 𝒙
3
5
7
9
11
Suma
∑(𝒙−𝒙
̅)𝟐
3. Calcula la desviación estándar √
𝑛
para cada grupo.
Verifique que sus resultados coincidan con la siguiente tabla:
Escuela
Media
A
B
C
7
7
7
Desviación
estándar
106
4. Use la tabla de arriba para comparar las actuaciones de las diferentes escuelas.
5. Un grupo de 5 estudiantes de un nivel de año más alto en la escuela C reciben la misma
prueba. Cada uno puntúa 2 más que los estudiantes en el grupo de menor año, por lo
que sus puntajes son: 5, 7, 9, 11, 13.
a) Encuentre la media y la desviación estándar para este conjunto.
b) Comente sobre el efecto de agregar 2 a cada miembro de un conjunto de datos.
6. Un grupo de 5 maestros de B decide mostrarles a sus alumnos cuán listos son, así que
completan el doble de acertijos que cada uno de sus alumnos, por lo que sus puntajes
son: 10, 12, 14, 16, 18.
a) Encuentre la media y la desviación estándar para este conjunto.
b) Comente sobre el efecto de doblar cada miembro de un conjunto de datos.
107
En este curso solo se espera que utilice la tecnología para calcular la varianza y la
desviación estándar. Sin embargo, presentamos ambos métodos en el siguiente ejemplo
para ayudarlo a comprender mejor las desviaciones estándar.
EJEMPLO 1:
Calcula la desviación estándar del conjunto de datos siguientes: 2, 5, 4, 6, 7, 5, 6.
𝝁=
2+5+4+6+7+5+6
=5
7
𝝈=√
∑(𝒙 − 𝒙
̅) 𝟐
16
= √ ≈ 1.51
𝑛
7
Puntaje
(𝒙𝒊 )
2
4
5
5
6
6
7
35
𝒙 − 𝝁 (𝒙 − 𝝁)𝟐
-3
-1
0
0
1
1
2
9
1
0
0
1
1
4
16
En las capturas de pantalla, puede ver que cerca de la desviación estándar de la población
o, hay una estadística 𝒔 con un valor similar. Técnicamente, si tenemos datos que son una
muestra de una población grande, la desviación estándar de la muestra 𝒔 proporciona
una mejor estimación de la desviación estándar de la población real que si usamos la
fórmula para 𝝈 en la muestra. Sin embargo, esto está más allá del alcance de este curso.
En este curso se espera que calcule todas las desviaciones estándar como si fueran
poblaciones. Lo importante es que reconozca que existen las dos estadísticas y que está
utilizando la correcta.
108
EJERCICIO 1.9A:
1. Use la tecnología para encontrar la desviación estándar de los siguientes conjuntos de
datos:
a) 5, 8, 6, 9, 6, 6, 4, 7
b) 22, 19, 28, 20, 15, 27, 23, 26, 32, 26, 21, 30
2. Una compañía registró el siguiente consumo semanal de gasolina (en litros) por parte
de sus vendedores:
62, 40, 52, 48, 64, 55, 44, 75, 40, 68, 60, 42, 70, 49, 56
Use la tecnología para hallar la media y la desviación estándar de estos datos.
3. Los pesos de un grupo de pollos de cocina en kilogramos son:
1.5, 1.8, 1.7, 1.4, 1.7, 1.8, 2.0, 1.5, 1.6, 1.6, 1.9, 1.7, 1.4, 1.7, 1.8, 2.0
Use la tecnología para encontrar la media y la desviación estándar de los pesos.
4. Las alturas en cm de siete futbolistas juveniles son: 179, 164, 159, 171, 168, 168, 174.
a) Encuentre la media y la desviación estándar para este grupo.
b) Cuando se midió un año después, cada futbolista había crecido exactamente 5 cm.
Encuentra la nueva media y la desviación estándar.
c) Comenta tus resultados en términos generales.
109
5. Los pesos de diez pavos jóvenes al 0.1 kg más cercano son:
0.8, 1.1, 1.2, 0.9, 1.2, 1.2, 0.9, 0.7, 1.0, 1.1
a) Encuentra la media y la desviación estándar para los pesos de los pavos.
b) Después de haber sido alimentados con una dieta especial durante un mes, el peso
de los pavos se duplicó. Encuentra la nueva media y la desviación estándar.
c) Comenta tus resultados
6. La siguiente tabla muestra la disminución en los niveles de colesterol en 6 voluntarios
después de una prueba de dos semanas de dieta especial y ejercicio.
Voluntario
Decrecimiento en
colesterol
A
B
C
D
E
F
0.8
0.6
0.7
0.8
0.4
2.8
a) Encuentre la desviación estándar de los datos.
b) ¿Cuál de los valores es un valor atípico?
c) Vuelva a calcular la desviación estándar con el valor atípico eliminado.
d) Discutir el efecto de un valor extremo en la desviación estándar.
110
7. Una empresa emplea 8 trabajadores. Los siguientes datos muestran los años de
experiencia de cada trabajador
1 , 7 , 9 , 15 , 9 , 17 , 15 , 5
a) Calcule la varianza.
b) Si contratamos un trabajador con 8 años de experiencia. ¿Cómo afecta la desviación
estándar?
c) Si un trabajador con 15 años de experiencia, sustituye a otro con 7 años de
experiencia, obtenga las medidas de tendencia central y luego indique la más
representativa
8. La media de la población es 𝑥1 , 𝑥2 , … , 𝑥25 es m. Dado que ∑25
𝑖=1 𝑥𝑖 = 300
2
∑25
𝑖=1(𝑥𝑖 − 𝑚) = 625, halla:
(a) El valor de m;
(b) La desviación estándar.
111
DESVIACIÓN ESTÁNDAR PARA DATOS AGRUPADOS
Para datos continuos, o datos que han sido agrupados en clases, nosotros usamos el valor
intermedio o marca de clase para representar todos los datos de este intervalo.
EJEMPLO 2:
Use la tecnología para estimar la desviación estándar para esta
distribución de puntajes de examen:
Para estimar la desviación estándar de los datos ya agrupados,
los valores intermedios del intervalo se utilizan para
representar todos los datos en ese intervalo.
Luego usamos la tecnología para estimar la desviación
estándar.
Puntaje
0–9
10 – 19
20 – 29
30 – 39
40 – 49
50 – 59
60 – 69
70 – 79
80 – 89
90 – 99
Marca de
clase
4.5
14.5
24.5
34.5
44.5
54.5
64.5
74.5
84.5
94.5
Frecuencia
1
1
2
4
11
16
24
13
6
2
La desviación estándar es s≈ 16.8
Puntaje
Frecuencia
0–9
10 – 19
20 – 29
30 – 39
40 – 49
50 – 59
60 – 69
70 – 79
80 – 89
90 – 99
1
1
2
4
11
16
24
13
6
2
112
EJERCICIO 1.9B:
1. A los trabajadores de una fábrica se les preguntó cuántos hijos tenían. Los resultados
se muestran en la tabla de abajo.
N° de niños
Frecuencia
0
14
1
18
2
13
3
5
4
3
5
2
6
2
7
1
Encuentra la media y la desviación estándar de los datos.
2. Las edades de los jugadores de squash en el Junior National Squash Championship se
detallan a continuación.
Edad
Frecuencia
11
2
12
1
13
4
14
5
15
6
16
4
17
2
18
1
Encuentra la media y la desviación estándar de los datos.
3. Se midieron las longitudes de 30 bebés de 12 días elegidos al azar y se obtuvieron los
siguientes datos:
Longitud (cm) [40, 42) [42, 44) [44, 46) [46, 48) [48, 50) [50, 52) [52, 54)
Frecuencia
1
1
3
7
11
5
2
Estime la longitud media y la desviación estándar de las longitudes.
113
4. Las horas trabajadas la semana pasada por 40 empleados de una fábrica local de ropa
fueron las siguientes:
38 40 46 32 41 39 44 38 40 42 38 40 43 41
47 36 38 39 34 40 48 30 49 40 40 43 45 36
35 39 42 44 48 36 38 42 46 38 39 40
a) Calcule la media y la desviación estándar para estos datos.
b) Ahora agrupe los datos en las clases 30-33, 34-37, y así sucesivamente.
Calcule la media y la desviación estándar usando estos grupos.
Examine cualquier diferencia en los dos conjuntos de respuestas.
c) Dibuje un gráfico de frecuencia acumulada para los datos y determine su rango
intercuartil.
d) Represente esta información en un diagrama de caja.
114
5. Una encuesta de tráfico realizada por el departamento de
carreteras reveló que los siguientes números de vehículos
pasaron por una intersección suburbana en intervalos de 15
minutos durante el día.
a) Estime la media y la desviación estándar para los datos.
b) Dibuje un gráfico de frecuencia acumulativa de los datos
y determine su rango intercuartil.
N° de
vehículos
1–5
Frecuencia
4
6 – 10
16
11 – 15
22
16 – 20
28
21 – 25
14
26 – 30
9
31 – 35
5
36 – 40
2
115
COMPARANDO LA DISPERSIÓN DE DOS CONJUNTOS DE DATOS
Hemos visto cómo la media de dos conjuntos de datos es una comparación útil de sus
centros. Para comparar la dispersión de dos conjuntos de datos, podemos usar sus
desviaciones estándar.
EJEMPLO 1:
Los siguientes resultados de exámenes fueron grabados por dos clases de estudiantes
que estudian español:
Clase A: 64 69 74 67 78 88 76 90 89 84 83 87 78 80 95 75 55 78 81
Clase B: 94 90 88 81 86 96 92 93 88 72 94 61 87 90 97 95 77 77 82 90
Compare los resultados de las dos clases, incluida su dispersión.
Media
Clase A
Clase B
78.5
86.5
Desviación
estándar
9.63
8.92
La clase B tiene una media mayor que la clase A, lo que
indica que los alumnos de la clase B generalmente
obtuvieron mejores resultados en el examen.
La clase A tiene una desviación estándar más alta que
la clase B, lo que indica que los resultados en la clase A
fueron más dispersos.
116
EJERCICIO 1.9C:
1. Los gráficos de columna muestran dos distribuciones:
a) Al observar los gráficos, ¿qué distribución parece tener una distribución más
amplia?
b) Encuentra la media de cada muestra.
c) Encuentra la desviación estándar de cada muestra. Comenta tus respuestas
2. La cantidad de puntos anotados por Andrew y Brad en los últimos 8 partidos de
baloncesto se muestran a continuación.
Puntos de Andrew
Puntos de Brad
23
9
17
29
31
41
25
26
25
14
19
44
28
38
32
43
a) Halla la media y la desviación estándar del número de puntos anotados por cada
jugador.
b) ¿Cuál de los dos jugadores es más consistente?
117
3. Dos entrenadores de béisbol comparan el número
de carreras anotadas por sus equipos en sus últimos
diez partidos:
Rockets 0 10 1 9 11 0 8
Bullets 4 3 4 1 4 11 7
5 6 7
6 12 5
a) Mostrar que cada equipo tiene la misma media
y rango de carreras anotadas.
b) ¿Qué rendimiento del equipo sospecha que es más variable durante el período?
c) Verifique su respuesta en b encontrando la desviación estándar para cada
distribución.
d) ¿El rango o la desviación estándar dan una mejor indicación de la variabilidad?
4. Un fabricante de refrescos emplea un estadístico para el control de calidad. Él necesita
verificar que cada bote contenga 375 ml de bebida, pero se da cuenta de que la
máquina que llena las latas variará levemente en cada entrega.
a) ¿Esperarías que la desviación estándar para toda la producción sea la misma para
un día que para una semana? Explica tu respuesta.
b) Si se toman muestras de 125 latas al día, qué medida se usaría para:
i) Verificar que un promedio de 375 ml de bebida vaya a cada lata
ii) Verificar la variabilidad del volumen de bebida que entra en cada lata?
c) ¿Cuál es la importancia de una baja desviación estándar en este caso?
118
1.10. TRANSFORMACIÓN DE DATOS
En esta investigación exploraremos los efectos de transformar un conjunto de datos en
su media y desviación estándar.
Usaremos este conjunto de datos como base:
4 2 3 3 5 2 9 7 3 5
2 1 5 3 6 6 3 3 6 7
Qué hacer:
1. Calcule la media y la desviación estándar de la población para el conjunto de datos.
2. a) Suponga que sumamos 5 a cada valor de datos. Calcule la desviación estándar
media y poblacional para el nuevo conjunto de datos.
b) ¿Qué espera que suceda con la media y la desviación estándar si k se suma a cada
valor en un conjunto de datos?
c) Verifique su respuesta:
(i) sumando 11 a cada valor de datos
(ii) restando 3 de cada valor de datos.
119
3. a) Suponga que multiplicamos cada valor en el conjunto de datos original por 4.
Calcula la media y la desviación estándar de la población para el nuevo conjunto de
datos.
b) ¿Qué espera que suceda con la media y la desviación estándar si cada valor en un
conjunto de datos se multiplica por a?
c) Verifique su respuesta:
(i) multiplicando cada valor por 9
(ii) dividiendo cada valor por 4
4. Suponga que un conjunto de datos {𝑥𝑖 } tiene una media 𝜇 y una desviación estándar
𝜎. Escriba la desviación estándar y media del conjunto de datos:
a){𝒂𝒙𝒊 }
b) {𝒙𝒊 + 𝒌}
c) {𝒂𝒙𝒊 + 𝒌}
120
EJERCICIOS DE REPASO 1A (SIN CALCULADORA):
1.
Completa el siguiente cuadro y determina el intervalo modal, la mediana.
Intervalos
10 – 14
14 – 18
18 – 22
22 – 26
26 – 30
30 – 34
2.
fi
hi
Fi
6
16
0,24
10
45
50
Para el conjunto de datos
(a)
(b)
(c)
3.
Marcas
de clase
12
16
20
24
28
32
Total
{8, 4, 2, 10, 2, 5, 9, 12, 2, 6}
Calcula la media aritmética;
Halle la moda;
Halle la mediana.
En los siguientes datos ordenados, la media aritmética es 6 y la mediana es 5.
2, b, 3, a, 6, 9, 10, 12
Halla:
(a) El valor de a;
(b) El valor de b.
121
4.
La tabla de abajo muestra el número de niños en 50 familias.
Número de
niños
1
2
3
4
5
6
(a)
(b)
5.
Frecuencia
3
m
12
p
5
2
T
Frecuencia
acumulada
3
22
34
q
48
50
Escribe el valor de T.
Halla los valores de m, p y q.
La siguiente tabla muestra las calificaciones de matemáticas obtenidas por
los estudiantes
Puntaje
Frecuencia
1
0
El puntaje promedio es 4.6.
a) Halla el valor de k.
b) Escribe la moda.
2
4
3
6
4
k
5
8
6
6
7
6
122
6.
La siguiente tabla muestra la distribución de edades de profesores del
colegio El Álamo.
Edades
20 ≤ x < 30
30 ≤ x < 40
40 ≤ x < 50
50 ≤ x < 60
60 ≤ x < 70
(a)
(b)
Frecuencias
5
4
3
2
3
Calcula un estimado de la edad promedio.
En la siguiente cuadrícula, construye un histograma para representar estos
datos.
123
7.
Tres enteros positivos a, b y c, donde a < b < c, son tales que su media es 11, su
media es 9 y su rango es de 10. Encuentra el valor de “a”
8.
La población a continuación se enumera en orden ascendente.
5, 6, 7, 7, 9, 9, r, s, 10, 13, 13, t
La mediana de la población es 9.5. El cuartil superior, Q3 es 13.
(a) Anote el valor de
(i) r;
(ii) s.
(b) la media de la población es de 10. Encontrar el valor de t.
9.
Deje que a, b, c y d sean enteros tales que a < b, b < c y c = d.
• La moda de estos cuatro números es 11.
• El rango de estos cuatro números es 8.
• La media de estos cuatro números es 8.
Calcular el valor de cada uno de los números enteros a, b, c, d.
124
10. El diagrama de caja y bigotes que se muestra a continuación representa los
puntos recibidas por 32 estudiantes en el IB.
(a) Anote el valor del puntaje mediano.
(b)
Escriba el valor del cuartil superior.
(c)
Calcular el número de estudiantes que recibieron un puntaje mayor que 6
11. El peso en kilogramos de 12 estudiantes en una clase son los siguientes.
63 76 99 65 63 51 52 95 63 71 65 83
(a)
Estima la moda.
(b)
Calcula
i.
El peso promedio;
ii.
(c)
La mediana
Si un estudiante deja la clase, el peso promedio de los 11 alumnos
restantes es de 70 kg.
Halla el peso del alumno que dejó la clase.
125
12. El gráfico de abajo muestra la frecuencia acumulativa de los ingresos anuales
de 200 personas.
200
180
160
140
120
100
Cumulative
frequency 80
60
40
20
0
0
5000
10 000
15 000
20 000
25 000
Annual income in British pounds
30 000
Usa la gráfica para estimar
a) El número de personas que ganaron menos de 5000 libras británicas por
año.
b) El salario mediano del grupo de 200 personas.
c) Los ingresos más bajos del 20% más rico de este grupo.
35 000
126
13. En una carrera a campo traviesa, se registraron los tiempos (en minutos) de 160
competidores como sigue:
Tiempo
Frecuencia
(min)
Dibujar un gráfico de frecuencia acumulada de los
20 ≤ 𝑡 < 25
18
datos y utilícelo para hallar:
25 ≤ 𝑡 < 30
45
30 ≤ 𝑡 < 35
37
35 ≤ 𝑡 < 40
33
40 ≤ 𝑡 < 45
19
45 ≤ 𝑡 < 50
8
b) La mediana del tiempo
c) El número aproximado de competidores cuyo tiempo no fue más que 32
minutos.
d) El tiempo aproximado en que los 40 corredores más rápidos completaron la
carrera.
127
14. El gráfico de frecuencia acumulada abajo muestra los resultados del examen de 80
estudiantes.
80
70
60
cumulative
frequency
50
40
30
20
10
0
10
20
30
40
50
scores
60
A partir del gráfico hallar:
(a)
El valor de la mediana;
(b)
El rango intercuartil
(c)
El 35° percentil;
(d)
El porcentaje de estudiantes que anotaron 50 o más en este examen.
128
15.
Las cuatro poblaciones A, B, C y D son del mismo tamaño y tienen el mismo rango.
Los histogramas de frecuencia para las cuatro poblaciones se indican a continuación.
(a)
Cada uno de los tres diagramas de caja y bigotes abajo corresponde a
una de las cuatro poblaciones. Escriba la letra de la población correcta en
cada parcela.
......
(b)
......
......
Cada uno de los tres diagramas de frecuencia acumulativa siguiente
corresponde a una de las cuatro poblaciones. Escriba la letra de la
población correcta debajo de cada esquema.
129
16. Las alturas de 200 estudiantes se registran en la tabla siguiente.
(a)
Anote el grupo modal.
(b)
Calcular una estimación de la media
(c)
La curva de frecuencia acumulativa de estos datos se dibuja a
continuación.
Altura (h) en cm
140 ≤ h < 150
150 ≤ h < 160
160 ≤ h < 170
170 ≤ h < 180
180 ≤ h < 190
190 ≤ h < 200
200 ≤ h < 210
Frecuencia
2
28
63
74
20
11
2
200
180
number of students
160
140
120
100
80
60
40
20
0
140
150
160
170
180
height in cm
190
200
(d)
Escribe la altura mediana
(e)
El tercer cuartil es 177.3 cm. Calcula el rango intercuartil
(f)
Halla el porcentaje de estudiantes con alturas menores que 165 cm.
210
130
17. El número de horas que un futbolista profesional entrena cada día en el mes
de junio se representa en el siguiente histograma
10
9
8
number of days
7
6
5
4
3
2
1
0
1
2
3
4
5
7
6
number of hours
8
9
10
(a)
Escribe el número modal de horas de entrenamiento cada día.
(b)
Calcula el número promedio de horas que él entrena a diario.
131
18.
La curva de frecuencia acumulativa a continuación muestra los punatjes obtenidos
en un examen por un grupo de 200 estudiantes.
200
190
180
170
160
150
140
Number
of
130
students
120
110
100
90
80
70
60
50
40
30
20
10
0
10
20
30
40
50
60
Mark obtained
70
80
90
100
132
(a) Use la curva de frecuencia acumulativa para completar la siguiente tabla de
frecuencia.
Puntos (x)
0 ≤ x < 20
N° de
estudiantes
22
20 ≤ x < 40 40 ≤ x < 60 60 ≤ x < 80 80 ≤ x <100
20
(b)
Cuarenta por ciento de los estudiantes no aprueban. Encontrar el puntaje de
aprobación.
19.
Un estudiante mide los diámetros de 80 conchas de caracol. Sus resultados se
muestran en el siguiente gráfico de frecuencia acumulada. El cuartil inferior (LQ) es
de 14 mm y está marcado claramente en el gráfico.
90
Cumulative frequency
80
70
60
50
40
30
20
10
0
5
0
(a)
(b)
10
15
LQ = 14
20
25
30
35
40
Diameter (mm)
En el gráfico, marque claramente de la misma manera y anote el valor
de
(i)
La mediana;
(ii)
El cuartil superior.
Escriba el rango intercuartílico.
45
133
20. Un biólogo marino registra como distribución de frecuencias a las longitudes
(L), medidas de centímetro en centímetro, de 100 caballas. Los resultados se
dan en la tabla a continuación.
Long. de caballas
(L cm)
27 < L ≤ 29
29 < L ≤ 31
31 < L ≤ 33
33 < L ≤ 35
35 < L ≤ 37
37 < L ≤ 39
39 < L ≤ 41
41 < L ≤ 43
Número de
caballas
2
4
8
21
30
18
12
5
100
(a)
Completa la tabla con las frecuencias acumuladas
(b)
Dibuja una curva de frecuencia acumulada.
(c)
Usa la curva de frecuencia acumulada para hallar y estimar al
centímetro más cercano:
i. La longitud mediana de caballas
ii. El rango intercuartil de las longitudes de caballa.
134
EJERCICIOS DE REPASO 1B (CON CALCULADORA):
1.
Encuentre el rango, el cuartil inferior, el cuartil superior y la desviación
estándar para los siguientes datos: 120, 118, 132, 127, 135, 116, 122, 128.
2.
Un pastelero dice vender un promedio de 30 confites por bolsa. Los
resultados de una encuesta de bolsas se muestran en la tabla a continuación.
N° de confites
Frecuencia
27
23
28
29
29
41
30
37
31
22
32
32
a) Halla la media y la desviación estándar para estos datos.
b) ¿Está justificado el reclamo del confitero?
3.
Considere la siguiente distribución de datos agrupados continuos:
Puntaje (x)
Frecuencia
0 ≤ 𝑥 < 10
1
10 ≤ 𝑥 < 20 20 ≤ 𝑥 < 30 30 ≤ 𝑥 < 40 40 ≤ 𝑥 < 50
13
27
17
2
a) Estime:
i) mediana
ii) rango intercuartil
iii) media
iv) desviación estándar.
135
4.
En una escuela con 125 chicas, cada estudiante se prueba para ver cuántos
ejercicios de abdominales puede hacer en un minuto. Los resultados se dan
en la tabla a continuación.
N° de
abdominales
15
16
17
18
19
20
N° de estudiantes
11
21
33
q
18
8
N° acumulado de
estudiantes
11
32
p
99
117
125
(a) (i) Escribe el valor de p.
(ii) encontrar el valor de p
(b) Encontrar la mediana del número de abdominales.
(c) Encontrar el número promedio de abdominales.
136
5.
Un millar de candidatos se presentaron a un examen. La distribución de
puntajes alcanzados es mostrada en la siguiente tabla de frecuencias
agrupadas.
Puntos
1–10
Nº de
candidatos
15
11–20 21–30 31–40 41–50 51–60 61–70 71–80 81–90 91–100
50
100
170
260
220
90
45
30
20
(a) Completa la tabla, que presenta los datos anteriores como una distribución de
frecuencia acumulativa.
Puntos
Nº de
candidatos
≤10
≤20
15
65
≤30
≤40
≤50
≤60
≤70
≤80
905
(b) Dibujar un gráfico de frecuencia acumulativa de la distribución.
≤90
≤100
137
(c) Utilice el gráfico para contestar las siguientes partes (i)–(iii),
(i) Estima la mediana.
(ii) Los candidatos que anotaron menos de 35 estaban obligados a retomar el examen.
¿Cuántos candidatos tuvieron que retomar?
(iii) Al 15% de alumnado que ha conseguido la más alta puntuación ha recibido una
distinción. Encontrar la puntuación por encima de la cual se ha logrado una
distinción.
6.
El siguiente diagrama representa las longitudes en cm, de 80 plantas
cultivadas en un laboratorio.
20
15
frequency
10
5
0
0
10
20
30
40
50
60
length (cm)
70
80
90
100
(a) ¿cuántas plantas tiene longitudes en cm entre
(i) 50 y 60?
(ii) 70 y 90?
(b) Calcule las estimaciones de la media y la desviación estándar de la
longitud de las plantas.
138
(c) Explique qué característica del diagrama indica que la mediana es diferente de
la media.
(d) El siguiente es un extracto de la tabla de frecuencia acumulativa.
Longitud en
cm
Menos que
.
50
60
70
80
.
Frecuencia
acumulada
.
22
32
48
62
.
Utilice la información de la tabla para calcular la mediana. Dar su respuesta a dos
cifras significativas.
139
Una empresa de taxi tiene 200 taxis. La curva de frecuencia acumulativa
siguiente muestra las tarifas en dólares ($) tomadas por los taxis en una
mañana en particular.
200
180
160
140
120
Number of cabs
7.
100
80
60
40
20
10
20
30
40
50
Fares ($)
60
70
80
140
(a) Utilice la curva para estimar
(i)
La tarifa mediana;
(ii)
El número de taxis en los que la tarifa tomada es de $35 o menos.
La compañía cobra 55 centavos por kilómetro para la distancia recorrida. No hay
otros cargos. Utilice la curva para responder a la siguiente.
(b) En esa mañana, 40% de los taxis viajan menos de a km. Encuentra el valor
de a.
(c) ¿Qué porcentaje de los taxis viajan más de 90 km en esa mañana?
141
8.
Se realiza una encuesta para encontrar los tiempos de espera de 100 clientes
en un supermercado.
(a) Calcule una estimación de la media de los
Tiempo de Número
Fi
tiempos de espera, utilizando una
espera
de
aproximación adecuada para representar a
(segundos) clientes
cada intervalo.
0–30
5
30– 60
15
60– 90
33
90 –120
21
120–150
11
150–180
7
180–210
5
210–240
3
(b) Construya una tabla de frecuencia acumulativa para estos datos.
142
(c) Dibuje un gráfico de frecuencia acumulada, utilizando una escala de 1 cm
cada 20 segundos de tiempo de espera para el eje horizontal y 1 cm por cada
10 clientes para el eje vertical.
(d) Utilice el gráfico de frecuencia acumulada para encontrar las estimaciones de
la mediana y los cuartiles inferiores y superiores.
143
9.
Un supermercado registra la cantidad de dinero d gastado por los clientes en
su tienda durante un periodo de alta demanda. Los resultados son los
siguientes:
Dinero en $ (d)
0–20
20–40
40–60
N° de clientes (n)
24
16
22
60–80 80–100 100–120 120–140
40
18
10
4
(a) Encuentre una estimación de la cantidad media de dinero gastado por los clientes,
dando su respuesta al dólar más cercano ($).
(b) Complete la siguiente tabla de frecuencia acumulativa y utilícela para dibujar un
gráfico de frecuencia acumulada. Utilice una escala de 2 cm para representar a $20
en el eje horizontal y 2 cm para representar a 20 clientes en el eje vertical.
Dinero en $ (d)
<20
<40
N° de clientes (n)
24
40
<60
<80
< 100
< 120
< 140
144
(c)
El tiempo t (minutos), pasado por los clientes en la tienda puede representarse por
la ecuación:
2
t = 2d 3 + 3.
(i)
Utilice esta ecuación y su respuesta en la parte (a) para estimar el tiempo
medio en minutos gastado por los clientes en la tienda.
(ii)
Utilice la ecuación y la gráfica de frecuencia acumulada para estimar el
número de clientes que pasaron más de 37 minutos en la tienda.
10. La siguiente tabla representa los pesos, W, en gramos, de 80 paquetes de
cacahuates tostados.
Peso (W)
N° de
paquetes
80<W≤ 85 85 <W≤ 90 90<W≤95 95<W≤100 100<W≤105 105<W≤110 110<W≤115
5
10
15
26
13
7
a) Utilice el punto medio de cada intervalo para encontrar una estimación de la
desviación estándar de los pesos.
4
145
b) Completar la siguiente tabla de frecuencia acumulativa para los datos anteriores.
Peso (W)
W<85
W<90
Número de
paquetes
5
15
W<95
W<100
W<105
W<110
W<115
80
El gráfico de frecuencia acumulativa de la distribución se muestra más abajo, con una
escala de 2 cm para 10 paquetes en el eje vertical y 2 cm de 5 gramos en el eje
horizontal.
80
70
60
50
Number
of
packets
40
30
20
10
80
85
90
95
100
Weight (grams)
105
110
115
146
c) Utilice el gráfico
(i) estimar la mediana;
(ii) el cuartil superior (es decir, el tercer cuartil). (Dar sus respuestas para el
gramo más cercano)
d) Dados W1, W2, ..., W80 los pesos individuales de los paquetes y ̅̅̅̅
𝑊 su
media aritmética. Cuál es el valor de la suma:
(W1 – W ) + (W2 – W ) + (W3 – W ) + ... + (W79 – W ) + (W80 – W ) ?
147
EJERCICIOS DE REPASO 1C:
1. Clasifique los siguientes datos como continuos categóricos, cuantitativos discretos o
cuantitativos:
a) La cantidad de páginas en un periódico diario
_______________________
b) La temperatura máxima diaria en la ciudad
_______________________
c) El fabricante de un televisor
_______________________
d) El código de fútbol preferido
_______________________
e) E la posición tomada por un jugador en un campo de lacrosse_____________________
f) El tiempo que lleva correr un kilómetro
_______________________
g) La longitud de los pies de las personas
_______________________
h) La cantidad de goles disparados por un jugador de fútbol
_______________________
i) El costo de una bicicleta.
_______________________
2. Se encuestó una muestra de farolas para los siguientes datos. Clasifique los datos
como categóricos, cuantitativos discretos o cuantitativos continuos:
a) El diámetro de la farola medido a 1 metro de su base
______________________
b) El material del que está hecha la farola
______________________
c) La ubicación de la farola (interior, exterior, norte, sur, este u oeste)__________________
d) La altura de la farola
______________________
e) El tiempo transcurrido desde la última inspección
______________________
f) El número de inspecciones desde la instalación
______________________
g) El estado de la farola (muy bueno, bueno, regular, insatisfactorio).__________________
148
3. Los datos a continuación son la longitud, en metros, de los yates que compiten en
una regata.
a) Produce un histograma de frecuencia de los datos.
b) Encuentra la:
i) mediana
ii) el rango de las longitudes de los yates.
c) Comente sobre la asimetría de los datos.
149
4. El gráfico de columnas muestra los
puntajes de 20 estudiantes que
rindieron una prueba.
a) Describe la distribución de los
datos.
b) ¿Qué porcentaje de los estudiantes obtuvo 13 o más calificaciones?
c) ¿Qué porcentaje de los estudiantes obtuvo menos de 5 puntos?
d) Explica por qué no podemos mostrar los datos en este gráfico en un diagrama de
caja y bigotes.
5. Encuentra a dado que el conjunto de datos 2, a, 5, 4, 1, 2, 3, 5 tiene una media de 3.
6. Dibuja un diagrama de caja y bigotes para los datos:
11, 12, 12, 13, 14, 14, 15, 15, 15, 16, 17, 17, 18.
150
7. Los datos a continuación son las distancias en metros que Taylor arrojó una pelota de
béisbol:
a) Determine el valor más alto y más bajo para el conjunto de datos.
b) Determine:
i) la media
ii) la mediana.
c) Elija entre 6 y 12 grupos en los que se puedan colocar todos los valores de datos.
d) Prepare una tabla de distribución de frecuencia.
e) Dibuje un histograma de frecuencia para los datos.
151
8. Considere este conjunto de datos:
19, 7, 22, 15, 14, 10, 8, 28, 14, 18, 31, 13, 18, 19, 11, 3, 15, 16, 19, 14
a) Encuentra el resumen de 5 números estadísticos para los datos.
b) Encuentra el rango y IQR de los datos.
c) Dibuja un diagrama de caja del conjunto de datos.
9. Encuentra, usando tu calculadora, la media y la desviación estándar de estos conjuntos
de datos:
a) 117, 129, 105, 124, 123, 128, 131, 124, 123, 125, 108
b) 6.1, 5.6, 7.2, 8.3, 6.6, 8.4, 7.7, 6.2
152
10. 120 personas contrajeron tos ferina en un brote. Se registraron los tiempos para que
se recuperen y los resultados se usaron para producir el gráfico de frecuencia
acumulativa que se muestra.
Estimar:
a) La mediana
b) El rango intercuartil.
153
11. Las ganancias diarias de una tienda en los últimos 20 días, en libras, son:
324 336 348 375 352 356 366 358 346 353
329 311 375 365 353 376 336 343 368 331
a) Halla:
i) La mediana
ii) el cuartil inferior
iii) el cuartil superior.
b) Encuentre el rango intercuartil del conjunto de datos.
c) Encuentra la media y la desviación estándar de las ganancias diarias.
154
12. Esta curva de frecuencia acumulativa muestra el tiempo que tardan 200 estudiantes
en viajar a la escuela en autobús.
a) Estime
cuántos
de
los
estudiantes pasaron entre 10
y 20 minutos viajando a la
escuela.
b) 30% de los estudiantes pasaron más de m minutos viajando a la escuela.
Estime el valor de m.
155
13. El tiempo de reproducción, en minutos, de CD en una tienda se muestra al lado.
a) Estime la media y la desviación estándar
del tiempo de reproducción.
Tiempo de
reproducción (min)
30 ≤ 𝑥 < 35
35 ≤ 𝑥 < 40
40 ≤ 𝑥 < 45
45 ≤ 𝑥 < 50
50 ≤ 𝑥 < 55
55 ≤ 𝑥 < 60
60 ≤ 𝑥 < 65
b) Dibuje un histograma para presentar esta información.
c) Comenta sobre la forma de la distribución.
N° de CDs
5
13
17
29
27
18
7
156
14. En un examen los siguientes resultados fueron obtenidos por un grupo de
estudiantes. Dibuja el gráfico de frecuencia acumulativa de los datos y úsalo para
hallar:
Puntuaciones
10 ≤ 𝑥 < 20
20 ≤ 𝑥 < 30
30 ≤ 𝑥 < 40
40 ≤ 𝑥 < 50
50 ≤ 𝑥 < 60
60 ≤ 𝑥 < 70
70 ≤ 𝑥 < 80
80 ≤ 𝑥 < 90
90 ≤ 𝑥 < 100
Frec.
2
6
4
8
12
27
34
18
9
a) La puntuación mediana del examen
b) ¿Cuántos estudiantes puntuaron menos que 75 puntos?
c) ¿Cuántos estudiantes puntuaron entre 60 y 80 puntos?
d) ¿Cuántos fallaron, dado que la puntuación para pasar fue de 55?
e) La puntuación para alcanzar un crédito, dada quo el 16% de los estudiantes
alcanzaron créditos.
Descargar