Estadística descriptiva

Anuncio
UNIDAD
1
Estadística descriptiva
Objetivos
Al finalizar la unidad, el alumno:
•
•
•
•
explicará el concepto de estadística y otros relacionados (muestra, población, estadístico, parámetro,
etcétera)
describirá lasdiferentestécnicas para seleccionar una
muestra
calculará las principales medidas centrales y de dispersión de un conjunto de datos no agrupados, ya
sea muestrales o poblacionales
dado un gran conjunto dedatos, utilizaráy construirá
las clases de frecuencia y sus gráficos para analizar la
distribución de dichos datos
Introducción
A
lo largo de su existencia el ser humano ha llevado a cabo análisisde una gran cantidad
de datoso información, referentes a los problemas o actividades de sus comunidades. Por
ejemplo, desde comienzos de la civilización se hacían representaciones gráficas y otros
símbolos en pieles, rocas, palos de madera y paredes de cuevas para contar el número
de personas, animales o cosas. Hacia el año 3000 a. C., los babilonios usaban pequeñas
tablillas de arcilla para recopilar datos sobre la producción agrícola y los géneros
vendidos o cambiados mediante el trueque. Mucho antes de construir las pirámides, los
egipcios analizaban los datos de la población y la renta del país.
Otro ejemplo de recopilación y análisis de datos es el del imperio romano, cuyo
primer gobierno, al verse en la necesidad de mantener control sobresus esclavosy riquezas,
recopiló datossobre la población, superficie y renta de todos losterritorios bajo su control.
Siguiendo con la historia de la recopilación de datos, a mediados del primer
milenio, por el gran crecimiento de las poblaciones y para poder tener control sobre éstas,
se comenzaron a efectuar censos poblacionales, como los de la Edad Media en Europa.
Por ejemplo, los reyes caloringios1 Pipino el Brevey Carlomagno ordenaron hacer estudios
minuciosos de las propiedades de la Iglesia en los años 758 y 762, respectivamente.
Conforme pasaba el tiempo, la recopilación y análisis de datos comenzaban a tener
otro fin además de los censos y conocimiento de diferentes propiedades. Por ejemplo, en
Inglaterra a principiosdel siglo XVI se realizó el registro de nacimientosy defunciones, con
el cual en 1662 apareció el primer estudio de datospoblacionales, titulado Observationson
theLondon Billsof Mortality (“Comentarios sobre las partidas de defunción en Londres”).
Un estudio similar sobre la tasa de mortalidad en la ciudad de Breslau, en Alemania,
realizado en 1691, fue utilizado por el astrónomo inglés Edmund Halley como base para
la primera tabla de mortalidad. En el siglo XIX, con la generalización del método científico
para estudiar todos los fenómenos de las ciencias naturales y sociales, los investigadores
aceptaron la necesidad de reducir la información a valores numéricos para evitar la
ambigüedad de las descripciones verbales.
1.1 Estadística
Como se explicó, el ser humano tuvo la necesidad de crear una ciencia que redujera la
información a valores numéricos para la mejor interpretación de los fenómenos; se le
llamó estadística.
Definición 1.1
La estadística es una rama de las matemáticas aplicadas que proporciona métodos para reunir,
organizar, analizar e interpretar información, y usarla para obtener diversas conclusiones que
ayuden a tomar decisiones en la solución de problemas y en el diseño de experimentos.
1
Carolingia también llamada Carlovingia, fue una dinastía de reyes francos que gobernaron un vasto territorio de Europa Occidental desde el siglo VII hasta el siglo X d. C.; su nombre fue tomado de su más renombrado
miembro, Carlomagno.
20
Actualmentelaestadísticaesun método efectivo paradescribir con precisión losvalores
de datoseconómicos, políticos, sociales, psicológicos, biológicoso físicos, y una herramienta para
relacionar y analizar dichos datos. Por esta razón, la estadística se divide en diferentes
ramas, entre las más aplicadas y que analizaremos están la estadística descriptiva y la
inferencial.
La primera de ellas se aborda en la presente unidad y será descrita más adelante,
mientras que la segunda será estudiada en las unidades 9 y 10. Por ahora se verán dos
conceptos fundamentales en el estudio de la estadística.
1.2 Población y muestra
La materia prima de la estadística son los conjuntos de números obtenidos al contar o
medir elementos. Por tanto, al recopilar datos estadísticos se debe tener especial cuidado
para garantizar que la información sea completa y correcta; de este modo, el primer paso
es determinar qué información y en qué cantidad se ha de reunir. Por ejemplo, en un
censo es importante obtener el número de habitantes de forma completa y exacta; de
la misma manera, cuando un físico quiere contar el número de colisiones por segundo
entre las moléculas de un gas, debe empezar por determinar con precisión la naturaleza
de los objetos a contar. Dado que la naturaleza de los fenómenos en estudio es muy
variada, es necesario proporcionar una serie de definiciones referentes a los conjuntos de
datos que se han de estudiar.
Definición 1.2
La población es el conjunto que incluye el total de elementos o datos cuyo conocimiento es de
interés particular.
Cada uno de los elementos que intervienen en la definición de población es un
individuo u objeto; se denominaron de esta manera, ya que originalmente el campo de
actuación de la estadística fue el demográfico.
Dado que la información disponible consta frecuentemente de una porción o
subconjunto de la población, introducimos un segundo concepto, el de muestra de una
población.
Definición 1.3
La muestra es cualquier subconjunto de la población.
Ejemplo 1
1. Si el conjunto de datos de interés está constituido por todos los promedios de un grupo
de estudiantes de licenciatura de una universidad, cada uno de los estudiantes será
un individuo estadístico, mientras que el conjunto de todos estos estudiantes será
la población y una muestra podría ser el conjunto de todos los estudiantes del tercer
cuatrimestre de ingeniería.
2. Si el conjunto de datos de interés está constituido por todos los promediosde los grupos
de licenciatura, cada uno de los grupos será un individuo estadístico, mientras que el
conjunto de todos estos grupos será la población y una muestra podría ser el conjunto
de todos los grupos del tercer cuatrimestre de ingeniería.
21
3. Si se está estudiando el resultado de ciertos experimentos químicos, cada uno de
esos experimentos será un individuo estadístico y el conjunto de todos los posibles
experimentos en esas condiciones será la población, mientras que una muestra podría
ser un conjunto de resultados experimentales posibles en ciertas condiciones.
Más adelante se verá que el problema de muestreo no es tan simple, porque este
concepto tiene mayor importancia dentro de la estadística inferencial; se profundizará
en él en su momento.
1.2.1 Caracteres y variables estadísticas
Cuando se definió el concepto población, se mencionaron sus elementos, también
llamados individuos; además, en el ejemplo 1 se observó que éstos pueden ser descritos
por una o varias de sus propiedades o características.
Definición 1.4
El caracter de un elemento, individuo u objeto es cualquier característica por medio de la cual se
Ejemplo 2
1. Si los individuos son personas, el sexo, el estado civil, el número de hermanos o su
estatura son caracteres.
2. Si el individuo es una reacción química, el tiempo de reacción, la cantidad de producto
obtenido o si éste es ácido o básico, son caracteres que pueden analizarse.
Un caracter es cuantitativo si es posible medirlo numéricamente o cualitativo si
no admite medición. Por ejemplo, el número de hermanos y la estatura son caracteres
cuantitativos, mientras que el sexo y el estado civil son caracteres cualitativos.
Los distintos valores que puede tomar un caracter cuantitativo configuran una
variable estadística. Las variables estadísticas se clasifican en discretasy continuas.
Definición 1.5
Una variable estadística es discreta sólo cuando permite valores aislados, como números enteros.
Por ejemplo, la variable número dehermanostoma losvalores0, 1, 2, 3, 4 y 5. Este tipo
de variables se caracterizan por obtenerse mediante un proceso de conteo (ver semejanza
con las variables aleatorias discretas en la unidad 5).
Definición 1.6
Una variable estadística es continua cuando admite todos los valores de un intervalo.
Por ejemplo, la variable estatura, en cierta población estadística, toma cualquier
valor en el intervalo 158-205 cm. Otro más es la temperatura de una persona. Este tipo
22
de variables se caracteriza por obtenerse mediante mediciones (ver semejanzas con las
variables aleatorias continuas en la unidad 7).
Las variable cualitativas pueden ser nominales si se trata de categorias (sexo, raza,
etc.) y ordinales si implican orden (clase social, grado de preferencia).
1.2.2 Estadística descriptiva
Como ya se dijo, la estadística se divide en varias ramas, una de ellas es la estadística
descriptiva. Después de haber estudiado los conceptos de población y muestra es posible
definirla.
Definición 1.7
La estadística descriptiva es la parte de la estadística que organiza, resume y analiza la totalidad
de elementos de una población o muestra.
Su finalidad es obtener información, organizarla, resumirla y analizarla, lo necesario
para que pueda ser interpretada fácil y rápidamente y, por tanto, pueda utilizarse
eficazmente.
El proceso quesigue la estadística descriptivaparael estudio de unacierta población
o muestra consta de los siguientes pasos:
1. Selección de caracteres factibles de ser estudiados.
2. Mediante encuesta o medición, obtención del valor de cada elemento en los
caracteres seleccionados.
3. Obtención de números que sintetizan los aspectos más relevantes de una
distribución estadística (más adelante a dichos números los llamaremos
parámetrospara el caso de la población y estadísticosen las muestras).
4. Elaboración de tablas de frecuencias, mediante la adecuada clasificación de los
individuos dentro de cada carácter (esto lo estudiaremos más adelante en el
tema “Clases de frecuencias”).
5. Representación gráfica de los resultados (elaboración de gráficas estadísticas, a
las que llamaremos histogramas).
1.3 Tipos de muestreo
Losespecialistasen estadística se enfrentan a un complejo problemacuando, por ejemplo,
toman una muestra para un sondeo de opinión o una encuesta electoral; seleccionar una
muestra capaz de representar con exactitud las preferencias del total de la población no
es tarea fácil, para tal efecto existen diferentes tipos de muestreo, los más conocidos se
mencionan enseguida.
Muestreo aleatorio simple
Este tipo de muestreo se caracteriza porque cualquier elemento de la población en estudio
tiene la misma posibilidad de ser seleccionado.
23
Por ejemplo, de la población estudiantil de una universidad se puede seleccionar
una muestra aleatoria de 50 estudiantes para aplicar una encuesta y obtener cierto tipo
de información. En estos casos, existen distintos métodos para respetar la aleatoriedad,
el más común es asignarle un número diferente a cada estudiante y luego, con la ayuda
de una tabla de números aleatorios, elegir un bloque de tamaño 50 de ésta y realizar las
entrevistas a los alumnos seleccionados.
Muestreo estratificado
En este tipo de muestreo se divide la población en grupos que no se traslapen –es decir,
que no tengan elementos en común– y se procede a realizar un muestreo aleatorio simple
en cada uno de los grupos.
Por ejemplo, la población estudiantil de una universidad se puede dividir en grupos
formados por diferentes especialidades (ingeniería industrial, ingeniería en sistemas,
administración, etc.) y después de cada una de ellas se procede a seleccionar una muestra
aleatoria para llevar a cabo una entrevista y obtener la información deseada.
Además de los dos tipos de muestreo mencionados, existe el muestreo sistemático
y el muestreo por conglomerados. El problema de muestreo es más complejo de lo que
parece; para un estudio más detallado del tema, el estudiante puede consultar el libro
Elementosdemuestreo, de Richard L. Scheaffer y William Mendenhall, de Grupo Editorial
Iberoamérica.
1.3.1 Uso de tablas de números aleatorios
Como se mencionó, las muestras aleatorias se pueden obtener a partir de una tabla de
números aleatorios. Se supone que se tiene una población de mil individuos y se quiere
hacer un muestreo de diez de ellos. En este caso, primero se asigna un número del 000
al 999 a cada miembro de la población y luego se elige de la tabla de números aleatorios
un punto de arranque y se hace el recorrido hasta obtener el tamaño de la muestra de
diez. Debido a que el tamaño de la población es mil, de los números que aparecen en la
tabla se consideran sólo sus tres últimas cifras. Por ejemplo, sean los siguientes números
aleatorios elegidos de una tabla.
9173061
7392108
4757975
8122135
1321499
0746897
0015542
0195093
7996818
0559605
Al elegir sus tres últimas cifras se obtienen los números que formarán la muestra:
061, 897, 108, 542, 975, 093, 135, 818, 499 y 605. Después se procede a seleccionar de la
población a los individuos que les corresponden estos números.
De forma similar que en el caso de las mil personas, primero se asigna un número
a cada elemento de la población desde 000 hasta 649 y posteriormente se elige un bloque
de números aleatorios donde las tres primeras cifras sean menores a 649.
24
1.4 Parámetros y estadísticos
Los números que sintetizan los aspectos más relevantes de una distribución estadística
pueden obtenerse tanto de una población como de una muestra y por consiguiente deben
clasificarse: los primeros, obtenidos de la población, reciben el nombre de parámetrosy los
obtenidos de una muestra se llaman estadísticos o estimadores.
Los parámetros y estadísticos más comunes de la estadística descriptiva que se
estudiarán en esta unidad se dividen, a su vez, en dos tipos:
1. Medidascentrales: media, mediana, moda, media geométrica, media armónica,
media ponderada.
2. Medidas de dispersión: rango, varianza, desviación estándar, error estándar,
coeficiente de variación, percentiles, rango intercuartil.
1.5 Medidas centrales
Si el conjunto de datos numéricos de una muestra de tamaño n (o población de tamaño N)
esde la forma x1, x2,. . ., xn (o para la población x1, x2,. . ., xN), nos podemos preguntar por las
características del conjunto de números que son de interés. En está sección se estudiarán
los métodos para describir su localización y, en particular, el centro de los datos.
1.5.1 La media
Cuando una persona tiene en sus manos un conjunto de datos para analizarlos,
generalmente calcula, en primera instancia, un promedio de éstos. Por ejemplo, dicha
persona tiene las cantidades mensuales que ha ganado en los últimos seis meses (10 800,
9 700, 11 100, 8 950, 9 750 y 10 500) y desea conocer el valor que representa su salario
promedio. En este caso, obtendrá su ingreso promedio al sumar las cantidades y dividir
entre el número de meses que trabajó
10 800 + 9 700 + 11 100 + 8 950 + 9 750 + 10 500
————————————————————————————————————= 10 133.33
6
El sueldo promedio es $10 133.33.
Como el caso anterior, existe una infinidad de problemas o casos prácticos en los
que de un conjunto de datos se quiere conocer un valor central que refleje la influencia
que tiene cada uno de los datos en él. La medida central más propicia para tales fines se
define a continuación.
Definición 1.8
x1, x2,..., xn, la media muestral (promedio aritmético)
o estadístico media del conjunto es el estadístico que representa el promedio de los datos
simbolizado por x(x barra), y se calcula
x
x1 x2
xn
n
1
ni
n
xi
1
25
De forma similar se define el parámetro media para las poblacionesfinitas.
Definición 1.9
Dado el conjunto de datos poblacionales x , x ,. . ., x , se llama media poblacional o parámetro
1 2
N
media del conjunto al parámetro representado por (miu o mu), y se calcula
x1 x2
xN
N
Ejemplo 3
1 N
xi
Ni 1
Un fabricante de pistones toma una muestra aleatoria de 20 de éstos, para medir su
diámetro interno promedio. Con la información que el fabricante obtuvo dada en
centímetros, se calcula su diámetro medio
10.1
10.1
9.8
9.7
10.3
9.9
10.0
9.9
10.2
10.1
9.9
9.9
10.1
10.3
9.8
9.7
9.9
10.0
10.0
9.8
Como se trata de una muestra, se calcula su estadístico
x=
1
[10.1 + 10.1 + 9.8 + 9.7 + 10.3 + 9.9 + 10 + 9.9 + 10.2 + 10.1 + 9.9 +
20
9.9 + 10.1 + 10.3 + 9.8 + 9.7 + 9.9 + 10 + 10 + 9.8] = 9.975
La mediarepresenta el valor promedio de todaslasobservacionesy por consiguiente
cada uno de los datos influye de igual manera en el resultado; en ocasiones, cuando se
tienen pocos datos que se alejan considerablemente del resto, el valor promedio encontrado no refleja la realidad del caso.
Ejemplo 4
Se quiere calcular el sueldo promedio de los trabajadores de una fábrica, eligiendo
aleatoriamente a diez de ellos, con las siguientes cantidades:
Dato
x1
x2
x3
x4
x5
x6
x7
x8
x9
x10
Sueldo 2 000 2 200 2 500 2 200 1 800 25 000 2 400 2 300 2 800 2 400
Se calcula el sueldo promedio, y se tiene
x=
1
[2 000 + 2 200 + 2 500 + 2 200 + 1 800 + 25 000 + 2 400 + 2 300 + 2 800 + 2 400] = 4 560
10
donde el estadístico no refleja la realidad de los datos, puesto que el sueldo de 25 000 es
mucho mayor a los demás e influye considerablemente en el valor promedio.
1.5.2 La mediana
Por lo expuesto al final de la subsección esnecesario presentar otro tipo de medida central en
la que valoresmuy extremosos, con respecto al resto, no tengan una influencia tan marcada
como en la media. A dicha medida se le conoce, debido a su naturaleza, como mediana.
Definición 1.10
La mediana de un conjunto de datos es el valor medio de los datos cuando éstos se han ordenado
en forma no decreciente en cuanto a su magnitud.
26
Cálculo de la mediana
Dado el conjunto de datosmuestrales x1, x2,. . ., xn, la mediana muestral o estadístico mediana
del conjunto se representa por x(x tilde) y se obtiene ordenando primero en forma no
decreciente estos n datos, los que se renombrarán según su posición por medio de tildes
de la siguiente forma
x1
x2
xn
Posteriormente se localiza el punto medio de los datos ordenados, con dos casos:
1. Cuando la cantidad de observaciones es impar, el valor medio del
ordenamiento
es el dato que se encuentre en la posición (n + 1)/ 2.
2. Cuando la cantidad de datos es par, de tal manera que resultan dos datos
medios localizados en las posiciones n/ 2 y n/ 2 + 1, la mediana se considera el
promedio de éstos.
Finalmente, se puede resumir el cálculo de la mediana con las siguientes fórmulas
xn
1,
cuando la cantidad de datos es impar
2
x
xn
xn
2
2
1
, cuando la cantidad de datos es par
2
De forma similar se define el parámetro mediana.
Dado el conjunto de datos poblacionales x1, x2,. . ., xN, la mediana poblacional o
parámetro mediana del conjunto es el parámetro representando por , y se calcula
xN
1 ,cuando la cantidad de datos es impar
2
xN
xN
2
2
1
, cuando la cantidad de datos es par
2
Ejemplo 5
Dado el conjunto muestral de datos del ejemplo anterior, referente al sueldo promedio,
se calcula su mediana.
La siguiente tabla muestra el conjunto de los diez datos
Dato
x1
x2
x3
x4
x5
x6
x7
x8
x9
x10
Sueldo 2 000 2 200 2 500 2 200 1 800 25 000 2 400 2 300 2 800 2 400
Ordenando los sueldos de menor a mayor y renombrándolos se obtiene
Dato original
Sueldo
Dato
ordenado
x5
x1
x2
x4
x8
x7
x10
x3
x9
x6
1 800 2 000 2 200 2 200 2 300 2 400 2 400 2 500 2 800 25 000
~x1
~x2
~x3
~x4
~x5
~x6
~x7
~x8
~x9
~x10
27
La cantidad de datos es diez y éste es un número par, por consiguiente la mediana
muestral se encuentra con el promedio de los datos ordenados en las posiciones n/ 2 y
n/ 2 + 1. Es decir, en las posiciones 10/ 2 = 5 y 10/ 2 + 1 = 6
x
x5 x6
2 300 2 400
2
2
2 350
En la mediana se puede observar que el valor $25 000, el cual sobresalía con
respecto a todos los demás, a diferencia de la media, no influye en el resultado de la
mediana. Puesto que si en lugar de $25 000 se elige $5 000 o $100 000, el sueldo medio
de los diez trabajadores seguirá siendo $2 350. Por lo cual se dice que la mediana es una
medida central insensible de los datos.
1.5.3 La moda
Para algunos estudios es necesario encontrar el valor central de un conjunto de datos,
en donde la medida de interés está basada en la repetición de éstos; por tanto, ninguna
de las dos medidas analizadas es conveniente en este caso. Debido a su naturaleza, a esta
medida se le da el nombre de moda y se define a continuación.
Definición 1.11
La moda de un conjunto de datos es el valor que se presenta en su distribución con mayor
frecuencia.
La moda se simboliza por Mo para las muestras y para las poblaciones.
Ejemplo 6
En la siguiente lista se muestran lascalificaciones de 20 exámenesdelingüística.
de lingüística.
ingüística. Secalcula
Se calcula
la calificación que más se repite, es decir, la moda de la distribución de las calificaciones.
5
8
9
9
8
10
9
5
10
5
6
5
10
10
8
9
7
9
5
9
Después del conteo de los datos, se tiene
cinco datos con valor 5
un dato con valor 6 y otro con valor 7
tres datos con valor 8
seis datos con valor 9
cuatro datos con valor 10
Por tanto, la moda es igual a 9; ya que es la calificación de mayor frecuencia.
Al calcular la moda es posible observar que es una medida completamente opuesta
a la mediana en cuanto a su sensibilidad. Por ejemplo, si en el caso de las calificaciones un
alumno con calificación 9 hubiese obtenido 5, la moda cambiaría a 5 (serían seis5 y cinco
9). Así que con la sola alteración de un dato cambia completamente la moda, por tanto,
se dice que ésta es sumamente sensible.
28
La moda también presenta los siguientes dos problemas:
1. La moda puede no existir. Por ejemplo, se tienen las siguientes series de datos:
6, 7, 34, 4, 8
6, 3, 8, 9, 3, 8, 6 y 9
En ambas series de datos la frecuencia es la misma, es decir, no tienen moda.
A los conjuntos de datos como los anteriores se les llama amodales o sin moda.
2. La moda puede no ser única. Por ejemplo, se tiene la siguiente serie de datos
6, 7, 9, 4, 8, 6, 6, 8, 9, 6, 8, 6, 9, 3, 9 y 9
En esta serie están los valores 6 y 9 como los de mayor frecuencia, ambos
se repiten cinco veces. Al conjunto de datos que tiene más de una moda se le
ll ama
multimodal; bimodal si son dos modas, y trimodal si son tres, etcétera.
1.5.4 Otros valores medios
Ya se han analizado los tres valores centrales más conocidos y utilizados en la estadística
descriptiva. El primero de ellos fue el definido en la sección 1.5.1 como una media
aritmética, sin embargo, existen distribuciones de datos para las cuales esta medida no es
muy propicia, por lo que se definen y utilizan otro tipo de medidas centrales, la mediana
y la moda. A continuación se verán otros tipos de promedios que son de utilidad en la
estadística descriptiva.
Valor geométrico o media geométrica
La media geométrica de los datos x1, x2,. . ., xn se simboliza por MG y está definida como
la raíz n-ésima del producto de las n mediciones.
MG
Ejemplo 7
x1 x2
xn
Se calcula la media geométrica de 20 calificaciones de exámenes psicológicos
MG
Observación
n
20
5
8
9
9
8
10
9
5
10
5
6
5
10
10
8
9
7
9
5
9
5 8 9 9 8 10 9 5 10 5 6 5 10 10 8 9 7 9 5 9
7.5446868
De la definición de media geométrica se deduce que ésta no se puede aplicar cuando
algún dato valecero o la cantidad de datos es par y existe una cantidad impar negativa.
29
Valor medio armónico o media armónica
La media armónica de los datos x1, x2,. . ., xn se simboliza por MA y está definida como el
recíproco de la media aritmética de los recíprocos.
MA
1
1
ni
n
1
x
1 i
1 1
n x1
1
1
x2
n
1
x1
1
xn
1
x2
1
xn
La principal aplicación de ésta es promediar las variaciones respecto del tiempo, es
decir, cuando la misma distancia se recorre a diferentes tiempos.
Ejemplo 8
Si se viaja de una ciudad a otra recorriendo los primeros 100 km a 80 kmph, los siguientes
100 km a 100 kmph y finalmente otros 100 km a 120 kmph, se calcula la velocidad media
utilizando la mediaarmónica y se compara con las medias aritmética y geométrica.
1
MA
x
1
3
MG
Observación
1 1
1
1
3 80
100
120
80 100 120
3
80 100 120
97.2973
300
3
100
98.6485
Para tomar la decisión de qué media parece la más correcta, se calcula la velocidad
promedio
Velocidad promedio
distancia total recorrida
tiempo total
La distancia total recorrida es igual a 100 + 100 + 100 = 300 km.
El tiempo total de recorrido es
100 100 100
80 100 120
3.0833 h.
Ahora se compara con la distancia total real recorrida las distancias que recorrería
el automóvil con cada una de las velocidades promedio calculadas
Media aritmética: 3.0833 100 = 308.33 km
Media geométrica: 3.0833 98.6485 = 304.166 km
Media armónica: 3.0833 97.2973 =300 km
(Nótese que el mejor resultado se obtiene con la media armónica).
30
Valor medio ponderado o media ponderada
Para los casos en que cada dato tiene una importancia relativa en su distribución –la cual
se denomina peso–, la media correspondiente más apropiada se obtiene sumando los
productos de cada dato por su peso, llamando a dicha medida media ponderada.
Definición 1.12
En un conjunto de datos x , x ,. . ., x se llama pesos o ponderaciones respectivas de estos
1 2
n
datos a las cantidades w , w ,. . ., w que cumplen
1 2
n
a)
b)
wi [0,1] , para todo valor de i
w1 + w2 + . . . + wn = 1
La media ponderada del conjunto de datos x1, x2,. . ., xn, con pesos respectivos w1,
w2,. . ., wn, se simboliza por MP y se calcula con la siguiente fórmula:
n
MP
wi xi
i
Ejemplo 9
Se calcula la calificación promedio de un estudiante. La calificación está ponderada de la
siguiente forma: 10% tareas, 40% del primer examen bimestral y 50% del examen final.
Las calificaciones del estudiante son 8, 9 y 4, respectivamente.
La calificación está ponderada, por tanto
MP = 0.1
Nota
1
8 + 0.4 9 + 0.5
4 = 6.4
En el caso de poblaciones, los parámetros correspondientes se calculan con las mismas
formulas cambiando n por N.
Al analizar un conjunto de datos surge una duda: ¿tener las medidas centrales es
suficiente para conocer su distribución? Después de estudiar la siguiente sección esto
quedará claro.
Ejercicio 1
1. Calcula la media, mediana y moda del siguiente conjunto de datos
145
150
165
155
155
145
150
140
145
150
160
175
150
160
2. Calcula la media y mediana de los tiempos de llegada de seis aviones que aterrizan
en un aeropuerto. Los tiempos (en minutos) son
3.5
4.2
2.9
3.8
4.0
2.8
31
3. Calcula la media geométrica del conjunto de datos del ejercicio anterior.
4. Calcula la media armónica del viaje redondo que realiza un chofer de una línea de
camiones cuya ruta es de 520 km, si de ida lo recorrió por una autopista a 101 kmph
y de regreso por otra a velocidad promedio de 75 kmph.
5. En una muestra de 100 pistones se encontró que 55 tenían un diámetro interno
de 10.5 cm, 25 de 10.0 y el restante de 10.75. Utiliza las frecuencias relativas de los
pistones para calcular la media ponderada de su diámetro interno.
1.6 Medidas de dispersión
Para un análisis más completo de la distribución de los datos, el estudio de sus medidas
centrales no es suficiente, puesto que en diferentes conjuntos de datos puede haber
medidas centrales iguales, por tanto, no se tendría conocimiento de la forma de su
distribución.
Por ejemplo, se tienen dos conjunto de datos, uno contiene los valores 20, 12, 15,
16, 13 y 14, y el segundo 5, 0, 50, 17, 8 y 10; se calcula su media.
Como se puede verificar en ambos casos se obtiene 15. Pero si se representan los
valores en una recta, es notable que las observaciones del segundo conjunto tienen una
distribución (variación) mucho mayor.
Por tanto, es necesario realizar un estudio de la distribución de los datos con
respecto a su valor central, es decir, se necesita un valor que indique una medida para
comparar las dispersiones de datos entre diferentes conjuntos; estas medidas son valores
de dispersión o variabilidad del conjunto de datos.
1.6.1 Rango
Es el primer valor que nos muestra cómo están distribuidos (dispersos) los datos. El rango
de las observaciones está simbolizado por r para la muestra y R para la población.
El rango es una medida de variación de los datos que lo único que muestra es el tamaño
o longitud del intervalo en el que los datos se encuentran distribuidos y es:
Definición 1.13
El rango es igual a el valor mayor menos el valor menor de los datos.
32
Por ejemplo, para los datos muestrales de los dos conjuntosde datos anteriores
• en el primer conjunto su rango vale r1 = 20 – 12 = 8, es decir, los datos de este
conjunto están distribuidos a lo largo de un intervalo de longitud 8
• en el segundo conjunto su rango vale, r2 = 50 – 0 = 50, es decir, los datos de este
conjunto están distribuidos a lo largo de un intervalo de longitud 50
Los elementos del segundo conjunto tienen una separación mayor entre ellos, pero
el resultado no muestra el comportamiento de los datos con respecto a su media.
1.6.2 Varianza y desviación estándar
Otra medida de dispersión de los datos que está relacionada directamente con la media del
conjunto es la varianza.
Definición 1.14
Se llama varianza de un conjunto de datos al promedio de los cuadrados de las desviaciones de
cada uno de los datos con respecto a su valor medio.
Si se tienen n datosmuestrales, x1, x2,. . ., xn con valor medio igual a x , loscuadrados
de las desviaciones de cada uno de los datos con respecto a su valor medio serán (x1 x)2,
(x2 x)2, etcétera.
Al igual que en los valores medios, la varianza puede definirse con respecto a la
muestra o a la población.
Respecto a la muestra
Definición 1.15
La varianza muestral o estadístico varianza del conjunto de datos x , x ,. . ., x , se representa
1 2
n
2
por s
datos con respecto a x, y se calcula
s2
1
ni
n
(xi
x)2
1
Sobre la definición anterior podemos decir que denota la intención de una medida
variacional de un conjunto de datos, sólo que más adelante (unidades 9 y 10) se verá que
es conveniente definir el estadístico varianza dividiendo entre n – 1 en lugar de n. Para
distinguirlas, se les asignan nombres diferentes, los cuales se justificarán hasta la unidad
9, cuando se analice el tema “Estimadores puntuales”. Mientras tanto se define
La varianza sesgada como
s2n
1
ni
n
(xi
1
x)2
33
1
2
La varianza insesgada como sn 1
n
n 1i
(xi
x)2
1
Pero, ¿por qué dos definiciones diferentes en lugar de una? Porque la varianza
sesgada refleja perfectamente el significado de una medida de dispersión y por consiguiente
tiene una gran aplicación en el estudio de las probabilidades. Mientras que la varianza
insesgada, es más propicia para los cálculos estadísticos y se emplea generalmente para
las muestras.
Respecto a la población
De forma similar para poblacionesfinitas se define el parámetro varianza poblacional, el
cual está representado por 2.
Dado el conjunto de datos poblacionales x1, x2,. . ., xn, con valor medio , se define
la varianza poblacional
Varianza poblacional
*
1 N
(xi
Ni 1
2
)2
La varianza se calcula con los cuadrados de las desviaciones y, por tanto, no está en
las mismas unidades que los datos. Por consiguiente, se introduce una nueva medida de
dispersión de la siguiente forma:
Definición 1.16
Se llama desviación estándar de un conjunto de datos a la raíz cuadrada positiva de la varianza,
es decir
2
Ejemplo 10
o
s
s2
Se calcula la varianza insesgada y la desviación estándar de cada uno de losdos conjuntos
de la sección 1.6:
Primer conjunto: 20, 12, 15, 16, 13 y 14. Anteriormente se encontró que x = 15.
s2n
1
1
n 1i
n
( xi
x)2
1
1
(20 15)2 (12 15)2 (15 15)2 (16 15)2 (13 15)2 (14 15)2
6 1
1
25 9 0 1 4 1
5
8
La desviación estándar es sn – 1 = 8 2.8284.
*
En las unidades 5 y 7 se presenta una definición más general, la cual se puede aplicar tanto a poblaciones
finitas como infinitas.
34
Segundo conjunto: 5, 0, 50, 17, 8 y 10. Anteriormente se encontró que x = 15.
s2n
1
1
n
( xi
n 1i
1
6 1
x)2
1
(5 15)2 (0 15)2 (50 15)2 (1
17 15)2 (8 15)2 (10 15)2
1
100 225 1225 4 49 25
5
325.6
La desviación estándar es sn – 1 = 325.6 18.0444 .
Cálculo de las varianzas
Para los cálculos se acostumbra emplear otra representación equivalente a la de varianza,
determinada por las siguientes fórmulas:
Varianza sesgada
Varianza insesgada
Ejemplo 11
s2n
n
1
ni
s2n
x2i
x2
1
n
1
1
n 1i
x2i
1
n
n 1
x2
Se calcula la varianza insesgada para los conjuntos de datos del ejemplo 10, empleando
las últimas fórmulas para la varianza, y se verifica que coincidan los resultados.
Primer conjunto: 20, 12, 15, 16, 13 y 14.
s2n
1
1
n
n 1i
x2i
1
n
n 1
x2
1
202 122 152 162 132 142
6 1
1
400 144 225 256 169 196
5
6
6 1
(15)2
6
225 278 270 8
5
Segundo conjunto: 5, 0, 50, 17, 8 y 10.
s2n
1
1
n 1i
n
x2i
1
n 2
x
n 1
1
52
6 1
1
25 0 2500 289 64 100
5
02
502 172
82 102
6
(15)2
6 1
6
225 595.6 270 325.6
6
5
En los cálculos anteriores se observa que en ambos casos coinciden los resultados
con los del ejemplo 10.
35
Ejercicio 2
1. Calcula el rango y la varianza insesgada del siguiente conjunto de datos:
145
150
165
155
155
145
150
140
145
150
160
175
150
160
2. Calcula la desviación estándar de los tiempos de llegada de ocho aviones que
aterrizan en un aeropuerto. Los tiempos en minutos son 3.5, 4.2, 2.9, 3.8, 4.0 y 2.8.
3. En los envases de leche, la cantidad de líquido no es siempre un litro, por lo que se
toma una muestra de diez envases, y se obtienen los siguientes valores:
0.95
1.01
0.97
0.95
1.0
0.97
0.95
1.01
0.95
0.98
Calcula la varianza.
1.7 Clases de frecuencia
Hasta ahora se ha trabajado sólo con muestras o poblaciones menores de 30 elementos,
cuyos cálculos no han sido tan laboriosos; pero qué pasa cuando la cantidad de datos es
considerable o éstos provienen de mediciones que hagan más laborioso el cálculo de sus
medidascentraleso devariación. Ademásdelo anterior, puedeser quesólo necesitemosun
resumen más compacto del conjunto de datos o incluso tener una representación gráfica
del comportamiento de su distribución, por lo que siendo un conjunto con gran cantidad
de datos (por ejemplo, 200) visualizarlos todos, para poder estudiar su distribución, no
es factible, por consiguiente, es necesario emplear alguna otra estrategia de análisis.
El problema mencionado se puede resolver fácilmente distribuyendo los datos por
medio de intervalos, lo que da origen a la siguiente definición:
Definición 1.17
Dado un conjunto de datos, se llama intervalos de clase o clases de frecuencia o simplemente
clases a los intervalos que por parejas son ajenos o disjuntos y contienen todos los datos del
conjunto.
Una pareja de intervalos son disjuntos si no tienen elementos en común. Con
respecto a la cantidad de intervalos de clase, se pide que no sea una cantidad excesiva
o insuficiente. No existe una regla determinante para obtener la cantidad de intervalos
cuando se tienen n datos. Algunos especialistas en estadística emplean el entero más
cercano a la raíz de n, otros el entero más cercano a log(n), o bien la llamada regla de
Sturges, en la cual se toma como el tamaño de la muestra el entero más cercano a
3.3logn + 1 con n cantidad de datos correspondientes a las observaciones. Para efectos
de este libro, se empleará una cantidad de intervalos que, dependiendo del valor de n, se
encuentre entre cinco y veinte.
Nota
Con respecto a los intervalos de clase, no es un requisito que sean de igual longitud, sin
embargo, aquí habrá restricción a clases de igual longitud.
36
1.7.1 Construcción de clases de frecuencia
Para la construcción de los intervalos de clase o clases de frecuencia existen diferentes
técnicas, al igual que en la elección de la cantidad de clases no existe un método
determinante o una fórmula general. Lo único que debe respetarse es:
• un mismo dato no debe de pertenecer a dos intervalos diferentes
• todos los datos deben de estar distribuidos en los intervalos formados
Aquí se construirán los intervalos de clase de un conjunto de datos {x1, x2,. . ., xn}, de
acuerdo con los siguientes puntos:
1. Se calcula el rango del conjunto de datos.
2. Se divide el rango entre la cantidad de clases o intervalos que queremos tener y
el valor calculado será la longitud decada una de éstas en lasque se distribuirán
los datos.
3. Para formar lasclaseso intervalosseconsideran cerradoslosextremosizquierdos
de los intervalosy losderechos se consideran abiertos, tomando a la última clase
en ambos extremos cerrada.
Ejemplo 12
Dado un conjunto de datosdonde el valor máspequeño es5 y el másgrande75. Construye
diez intervalos de clase para dicho conjunto de datos.
El rango del conjunto es: r = 75 – 5 = 70. Como queremos tener diez intervalos de
clase dividimos el rango 70 entre diez y obtenemos siete. Este valor será la longitud de
cada una de las clasesde frecuencia. Por tanto, las diez clases son
[5,12), [12,19), [19,26), [26,33), [33,40), [40,47), [47,54), [54,61), [61,68), [68,75]
Recuérdese que un intervalo de la forma [26,33) indica que se consideran todos los
valores que están entre 26 y 33, incluyendo el 26 y excluyendo el 33.
1.7.2 Frecuencias relativas
Empleamos la construcción de losintervalos de clase para estudiar de forma simplificada
la distribución de los datos, por tanto, después de construir los intervalos de clase,
contamos la cantidad de datos que caen en cada uno. A dicha cantidad se le llama
frecuencia de la clase o frecuencia de clase o frecuencia absoluta y se simboliza por fi , donde i
representa el número de la clase y
n
fi
i
n
1
Definición 1.18
Se llama frecuencia relativa de una clase i al cociente de la cantidad de datos que se encuentran
en ésta con respecto del total de datos en el conjunto y se simboliza por
fr
donde
n representa la cantidad total de datos.
fi
n
37
Ejemplo 13
Se consideran lascalificaciones (con escala de cero a 100) de 80 estudiantes en la materia
física experimental, se distribuyen en siete clasesde frecuenciasy se calculan las frecuencias
relativasde las clases:
30
68
88
100
30
36
86
76
98
30
89
99
96 100
100 68
45
69
38
79
78
98
89
94
68
30
88
46
89
81
94
80
99
40
100
67
45
58
30
89
35
58
90
67
78
100 100
78 98
65 60
68
100
69
70
86
76
83
69
78
85
79
77
68
52
89
56
45
98
91
100
68
84
67
69
46
79
85
78
48
Lo primero es construir las siete clases de frecuencia, encontrando el valor más
grande 100 y el más pequeño 30, por tanto, el rango vale r = 100 – 30 = 70.
Como se piden siete clases de frecuencias, se divide 70 entre siete y el resultado es
diez. Es decir, la longitud de las clases de frecuencia será de diez unidades.
El primer intervalo es [30, 40), es decir, todos los datos que sean mayores o iguales
a 30 pero menores a 40; los datos son 30, 38, 30, 30, 30, 35, 36 y 30, ocho en total.
Este proceso de conteo se continúa hasta llegar a la última clase.
Al realizar el conteo de elementos por clase se recomienda que los datos contados
se marquen para evitar una equivocación. Por ejemplo, después del primer conteo la tabla
queda de la siguiente forma
30
88
96
100
45
38
78
89
68
88
68
100
100
68
69
79
98
94
30
46
30
86
85
89
94
99
100
45
30
35
36
76
78
81
80
40
67
58
89
58
98
90
100 100
68
70
83
85
68
56
30
67
78
98
100
86
69
79
52
45
89
78
65
60
69
76
78
77
89
98
99
91
100
48
68
84
67
69
46
79
Finalmente, secalculan lasfrecuenciasrelativaspor clase, dividiendo lasfrecuencias
entre la cantidad total de datos, en este caso 80, y se obtiene
38
Tanto en estadísticacomo en probabilidad tieneun interésparticular laacumulación
de frecuencias, por lo que se definen dos nuevas medidas en las clases de frecuencia:
frecuencia acumulada y la frecuencia relativa acumulada.
Definición 1.19
Se llama frecuencia acumulada a la función que representa la suma de las frecuencias por clase,
y se simboliza por F .
i
Definición 1.20
Se llama frecuencia relativa acumulada a la función que representa la suma de las frecuencias
relativas por clase y se simboliza por F .
r
Cálculo de las frecuencias acumuladas
Dado un conjunto con n datos, se divide en m intervalos de clase con frecuencias
f1, f2, . . ., fm, tales que f1 + f 2 + . . . + fm = n (cantidad total de datos).
Bajo estas condiciones la frecuencia acumulada está dada por
xi
x
i
1
F(x)
fi
Mientras que para el caso de la frecuencia relativa acumulada, las frecuencias
relativas por clase son
f1 f2
f
, ,..., m ;
n n
n
se cumple
f1
n
f2
n
fm
n
1 y, por tanto, se tiene
Frecuencia relativa acumulada de una clase i es el cociente de la frecuencia acumulada de clase
i entre la cantidad total de datos n, es decir
Fr
Fi
n
Debido a que en las frecuencias por clase no es de interés el valor de cada elemento
sino sólo la cantidad de estos en la clase, se acostumbra realizar el conteo por medio de
las barras como antiguamente se llevaba a cabo; es decir, se pone una barra vertical por
elemento contado y cada vez que se llega a cuatro barras la quinta se coloca en diagonal.
Por ejemplo, para contar ocho elementos:
39
Con esta forma de conteo se puede construir, a partir de la tabla 1.1, una tabla
similar que contenga las frecuencias acumuladas
1.7.3 Media, mediana y moda en clases de frecuencia
Al igual que se realizó con un conjunto de datos del cual se obtuvieron sus medidas
centrales y de desviación, éstas se pueden obtener para lasclasesde frecuencia empleando
los puntos medios de las clases y sus frecuencias de clase.
Definición 1.21
Sea k el número de clases, x el punto medio de la i-ésima clase y f la frecuencia de la i-ésima
i
i
clase, entonces el valor de la media aritmética se calcula con la fórmula
k
x
i
fi xi
1 n
Otro valor promedio importante es la mediana (Md ), que divide la distribución en
dos áreas iguales; numéricamente se compara con la media aritmética x.
Se puede obtener el cálculo de la mediana con la siguiente fórmula:
donde
Md
n
C
2
L l
f
L = límite inferior de clase mediana
l = longitud del intervalo de clase mediana
n
= mitad de las observaciones
2
C = frecuencia acumulada anterior a la clase mediana
f = frecuencia del intervalo de clase mediana
40
La clase mediana esel intervalo que incluye la mitad de lasobservaciones; esposible
definirla al calcular la frecuencia acumulada F.
Ejemplo 14
Con los datos del ejemplo 13, se calcula la mediana Md.
El intervalo de clase mediana es [70, 80), ya que F5 = 46 incluye a la mitad de las observaciones n/ 2 = 80/ 2 = 40; l = 80 – 70 = 10.
Md
L
n
C
2
l
f
70 10
40 34
12
70 10
6
12
70
5 75
El valor promedio moda (Mo ), que se comparará con los valores numéricos de la
media aritmética x y la mediana Md, se calcula con la fórmula:
donde
Mo
L l
L = límite inferior de la clase modal
l = longitud del intervalo de clase modal
d1= diferencia en frecuencia del intervalo de clase modal
d1
d1 d2
con el anterior
d2= diferencia en frecuencia del intervalo de clase modal
con el posterior
La clase modal es el intervalo que tiene en su frecuencia el número mayor.
Ejemplo 15
Con los datos del ejemplo 13, se calcula el valor promedio moda (Mo ).
El intervalo de clase modal es [90, 100] ya que la mayor frecuencia está en F7 = 19 con
L = 90, l = 10, d1 = 19 – 15 = 4 y d2 = 19 – 0 = 19.
Mo
L l
d1
d1 d2
90 10
4
19 4
90 10
4
23
90 10(..1739) 90 1.739
91.74 92
1.7.4 Varianza en clases de frecuencia
De forma similar a la media de clasesde frecuencia se pueden definir lasvarianzassesgada
e insesgada de las clases de frecuencia.
Definición 1.22
Si f y x son la frecuencia y el punto medio de la i-ésima clase, respectivamente, y
i
i
de las frecuencias, entonces la varianza sesgada s2 se calcula con la fórmula
k
s2
1
ni
fi (xi
1
x)2
n es la suma
41
Definición 1.23
La varianza insesgada s2 se calcula con la fórmula
s2
1
n 1i
k
fi (xi
x)2
1
La desviación estándar por clasesdefrecuencia seguirá siendo la raíz cuadrada positiva
de la varianza correspondiente.
Nota
La media y varianza por clases de frecuencia generalmente se emplean para observar la
distribución de datosmuestrales, pero en caso de querer definir estas medidas para datos
poblacionales se realiza de forma similar, sustituyendo la n por N, x por y spor , como
se hizo en las secciones 1.5 y 1.6.
Ejemplo 16
Se calcula la varianza sesgada de las clases de frecuencia con los datos del ejemplo 13.
Para realizar los cálculos más fácilmente se utilizará la
a tabla 1.2, tan sólo introduciendo algunas columnas:
La suma de la quinta columna dividida entre 80 corresponde al valor promedio de
la media aritmética.
x
5 770
80
72.125 72
Por la definición de varianza sesgada se tiene
s2
1
(30 640) 382.984 383
80
Mientras que la desviación estándar correspondiente es
s
s2
383 19.57
42
Ejercicio 3
1. En la siguiente tabla se dan los tiempos de llegada en minutos de 60 aviones a un
aeropuerto.
2.6
3.9
4.5
4.0
3.7
3.2
5.7
4.3
3.8
3.6
4.7
6.1
6.0
5.0
4.5
6.2
3.4
2.9
3.6
4.1
2.5
2.8
3.2
3.1
4.6
5.2
6.1
4.5
4.1
3.8
7.2
3.4
7.9
3.6
3.6
4.8
5.2
6.3
8.2
5.3
3.9
4.6
4.5
5.7
4.8
6.9
6.3
2.6
2.5
6.8
8.0
5.6
3.9
4.6
4.8
5.9
6.2
3.2
4.5
5.0
a) distribuye los datos en cinco clases de frecuencia
b) calcula su media y varianza sesgada por medio de las clases anteriores
2. Una máquina despachadora de refrescos de un centro comercial parece estar
fallando, puesto que el encargado ha recibido varias quejas en la última semana; él
decide registrar la cantidad de contenido en 40 vasos despachados por dicha
máquina y dividirlos en tres clases de igual longitud, si 70% o más de los refrescos
despachados se encuentra en la clase media, el encargado seguirá trabajando con la
máquina, en caso contrario la mandará reparar. Los valores(en mililitros) medidosson:
245.6 236.9 240.7 235.9 247.8 246.5 230.8 250.6 248.0 247.4
238.6 240.0 246.9 258.9 245.6 248.5 246.8 245.6 247.8 256.0
243.0 243.3 240.6 250.2 249.6 243.8 246.9 247.8 243.0 246.4
230.5 228.9 235.7 248.9 248.9 245.7 240.8 246.8 246.2 250.0
a) divide los valores en tres clases de frecuencia de igual longitud, calcula sus
frecuencias relativas e indica si el encargado tendrá que reparar la máquina o no
b) calcula la cantidad de líquido promedio que despacha la máquina, empleando
las clases de frecuencia del inciso anterior
3. Si en el ejercicio anterior, además de la consideración del porcentaje, se toma en
cuenta la desviación estándar de las clases de frecuencia, por medio del criterio
“la máquina se reparará en caso de que la desviación estándar sea mayor a seis”,
determina si el fabricante, según los datos observados, tendrá que reparar la
máquina.
4. Se estudió el tiempo de vida de 90 personas con SIDA y se anotó su duración en
meses, y se obtuvo
34.0
28.5
18.0
34.9
25.8
16.9
15.8
19.0
11.5
25.9
38.9
34.0
16.8
27.8
24.6
22.8
16.8
39.0
42.0
48.0
34.8
33.0
23.9
27.5
35.8
36.9
26.7
26.8
26.5
34.7
35.9
25.8
24.8
45.8
18.9
35.8
35.8
46.9
36.8
35.9
52.0
33.6
24.8
25.9
26.8
26.8
29.4
37.8
35.9
10.8
25.8
35.8
26.8
25.7
26.9
27.9
38.5
35.8
30.2
28.6
33.1
34.7
45.9
56.8
45.8
25.8
50.2
42.9
46.8
48.9
47.5
48.2
42.5
40.8
27.9
24.8
46.8
40.7
18.9
22.0
29.5
31.9
48.2
34.8
47.2
27.0
39.8
45.8
40.4
38.2
Ordena en diez clases de frecuencia y calcula la media y varianza de los datos.
43
1.8 Gráficas
Las gráficas a las que se hace referencia en estadística descriptiva deben mostrar la
distribución de las frecuencias o frecuencias acumuladas del conjunto de datos, con lo
cual se podrá entender e interpretar fácilmente su comportamiento.
Por tanto, es necesario introducir un nuevo método gráfico para la interpretación
de datos, entre los gráficos más comunes están
• diagrama de barras
• polígono de frecuencias
• diagrama circular o de pastel
1.8.1 Diagrama de barras
Uno de los gráficos que más se emplean para representar un conjunto de datos es el
diagrama de barras, donde se grafican una serie de rectángulos sobre un sistema de
referencia. Cuando se construyen los rectángulos con sus bases sobre cada uno de los
intervalos de clase y con sus alturas las frecuencias correspondientes de clase, el gráfico
se llama histograma.
Definición 1.24
Un histograma
La construcción de histogramas comienza prácticamente igual que en las clases de
frecuencia:
1. Se construyen los intervalos de clase.
2. Se encuentra el punto medio de cada intervalo de clase.
3. En el plano cartesiano, en el eje de las abscisas, se distribuirán los puntos
medios de las clases de frecuencia, mientras que en el eje de las ordenadas
se distribuirán las frecuencias de los datos. Finalmente, se construye el
histograma graficando una barra por cada clase, y cuyo centro será el punto
medio de ésta, de tal manera que la altura de la barra es la frecuencia o frecuencia relativa y la base de los rectángulos está definida por los límites de
cada clase.
Para facilitar la construcción de un histograma es recomendable emplear sólo
intervalos de clase de igual longitud, ya que en dado caso las frecuencias de las clases se
grafican de manera proporcional a las alturas de los rectángulos y además es mucho más
fácil comparar lasdiferenciasentrefrecuenciascuando losrectángulostienen lamismabase.
Ejemplo 17
Se construye un histograma para las clases de frecuencia y la frecuencia acumulada del
ejemplo 13.
44
Empleando la tabla 1.2:
Se grafican los puntos medios de los intervalos (tercera columna) y se trazan los
rectángulos con sus bases iguales a la longitud de la clase y con las alturas correspondientes a su frecuencia, como se muestra en las siguientes figuras:
f
F (x)
80
19
15
61
12
46
8
7
4
34
0
25
35
45
55
65
75
85
95
105
19
15
8
0
a)
Nota
25
35
45
55
65
75
85
95
105
b)
Para las frecuencias relativas el histograma es el mismo, sólo se divide cada frecuencia
entre el total de datos.
Modelos de distribución de datos
Los histogramas no sólo nos ayudan a ubicar el centro y visualizar la variabilidad de los
datos, sino también la forma en que se distribuyen; por tanto, los podemos clasificar en
• simétricos
• sesgados hacia la izquierda o la derecha
• multimodales
45
Histogramas simétricos
Presentan la distribución en forma de campana, es decir, la mitad izquierda es una imagen
reflejada de la mitad derecha. Como muestra la figura 1.2a, se cumple x = Md = Mo.
Histogramas sesgados
Presentan unadistribución en la quealgunade lascolasestá másalargadaen comparación
con la otra. Se llaman sesgados a la derecha o positivamente sesgados si la cola derecha es la
que está más alargada. Como lo muestra la figura 1.2b, se cumple Mo < Md < x. Se les
llama sesgados a la izquierda o negativamente cuando la cola izquierda es la más alargada.
Como lo muestra la figura 1.2c, se cumple x < Md < Mo.
Histogramas multimodales
Tienen en su distribución más de un pico (ver figura 1.2d). En caso de dos picos bimodal,
en caso de tres, trimodal etcétera.
Ejemplo 18
a)
b)
c)
d)
Retomando losdatos del ejemplo 13 y comparando losvalores promedio calculados x =
72, Md = 75, Mo = 92, el modelo asociado con las80 calificacionesde física experimental
es sesgado a la izquierda.
46
1.8.2 Polígono de frecuencias
En ciertasáreas de estudio se requiere que las representaciones gráficas de la distribución
de las frecuencias de datos sean hechas por líneas en lugar de barras. Por ejemplo, al
realizar un estudio sobre lospronósticosde algún evento se visualiza mejor la distribución
de susfrecuenciasy sustendenciassi se unen suspuntosmedioscon segmentosrectilíneos
en lugar de trazar barras.
Definición 1.25
Un polígono de frecuencias
uniendo por líneas los puntos medios de cada intervalo, donde x es el punto medio de clase i y f
i
i
.
su frecuencia. Debido a su forma también se le suele llamar
Construcción de un gráfico poligonal
1. Se crean los intervalos de clase.
2. Se encuentra el punto medio de cada intervalo de clase.
3. En el plano cartesiano, en el eje de las abscisas, se distribuirán los puntos
medios de las clases de frecuencia, mientras que en el eje de las ordenadas se
distribuirán las frecuencias de los datos. Finalmente, se construye el gráfico
poligonal uniendo los puntos obtenidos.
Ejemplo 19
Se construye un polígono de frecuencias para las clases del ejemplo 13. Por medio de la
tabla 1.4, si se grafican los puntos obtenidos de la tercera y la cuarta columnas:
f
19
15
12
8
7
4
0
35
45
55
65
75
85
95
Los polígonos de frecuencia se emplean frecuentemente en el estudio de las series
de tiempo, pues es común querer conocer la tendencia de la distribución de los datos
con respecto al tiempo. Además, en ciertas situaciones, cuando se quieren comparar las
distribucionesde doso másconjuntosde datos, esmejor hacerlo por medio de lospolígonos
de frecuencias que mediante las barras, puesto que los primeros se pueden sobreponer y
realizar una observación mucho mejor, lo que no es aplicable con los histogramas.
47
Definición 1.26
A los polígonos de frecuencia que se elaboran con las frecuencias acumuladas o las frecuencias
relativas acumuladas se les llama ojivas.
Ejemplo 20
Se construye la ojiva para las frecuencias relativas acumuladas del ejemplo 13.
1
0.7625
0.5750
0.4250
0.2375
0.1875
0.10
0
1
2
3
4
5
6
7
1.8.3 Diagrama circular o de pastel
Otro tipo de representación gráfica de la distribución de datos muy empleado, cuando
se quieren ilustrar las proporciones de los datos de tal forma que llamen la atención, son
los diagramas circulares.
Definición 1.28
Un diagrama circular
frecuencias relativas del conjunto de datos. Por su forma también se le suele llamar diagrama de pastel.
Construcción de un diagrama circular
1. Se crean los intervalos de clase.
2. Se calculan las frecuencias relativas por clase.
3. A partir del centro de un círculo se trazan sectores proporcionales al área que
representen la frecuencia relativa por clase.
Ejemplo 21
Se construye un diagrama circular que representela distribución por clasesde frecuencias
relativas para las estaturas (en centímetros) de la siguiente muestra de 50 personas.
48
Como son 50 datos y se van a distribuir en siete clases, primero se calcula el rango
del conjunto r = 186.4 – 158.4 = 28
Se quieren obtener sieteclases, por tanto, se divide el rango 28 entre siete y el resultado
es cuatro. Este valor será la longitud de cada una de las clasesdefrecuencia. Es decir
[158.4,162.4), [162.4,166.4), [166.4,170.4), [170.4,174.4),
[174.4,178.4), [178.4,182.4), [182.4,186.4)
Para obtener el área que representa la frecuencia relativa en el digrama circular, se
multiplica la frecuencia relativa por 360°.
Clase
Intervalo
i
i
1
[158.4, 162.4)
2
0.04
2
[162.4, 166.4)
5
0.10
3
[166.4, 170.4)
8
0.16
4
[170.4, 174.4)
12
0.24
5
[174.4, 178.4)
12
0.24
6
[178.4, 182.4)
9
0.18
7
[182.4, 186.4]
2
0.04
12
24%
12
24%
8
16%
5
10%
Conteo
9
18%
Frecuencia Frecuencia
fi
relativa
24%
24%
16%
10%
4% 4%
18%
2 2
4% 4%
a)
b)
Con el avance de la informática y la creación de software, han aumentado las
representaciones gráficas para las distribuciones de los datos; en esta unidad sólo se han
ilustrado algunas de ellas. A continuación se mencionan otros tipos de diagramas:
•
•
•
•
•
•
anillos
superficies
cotizaciones
cilíndricas
cónicas
piramidales
Todaséstas se pueden encontrar en software estadístico para computadora.
49
Ejercicio 4
1. Con los datos del ejercicio 3, numeral 1, traza los gráficos de barras y poligonal para
las frecuencias señaladas.
2. Con los datos del ejercicio 3, numeral 2, construye un diagrama de pastel que
represente las proporciones mencionadas.
Ejercicios propuestos
1. Calculalamedia, mediana, moday varianzainsesgadadel siguienteconjunto dedatos
18
19
18
16
11
10
26
18
20
22
24
19
18
11
16
20
2. Calcula las frecuencias relativas de los datos del ejercicio anterior.
3. Calcula la media geométrica del conjunto de datos del ejercicio 1.
4. Calcula la media geométrica de las edades (en años) de ocho personas: 20, 23, 24,
22, 19, 22, 25 y 27.
5. Calcula la media armónica del viaje redondo que realizó una persona de México a
Querétaro (210 km), si de ida lo recorrió a una velocidad de 130 kmph y de regreso
a 110 kmph.
6. Si una persona viajó 400 km en cuatro tramosde 100 km cada uno, con velocidades
de 100, 130, 90 y 110 kmph, respectivamente, calcula con base en la media armónica
la velocidad media con la que realizó el viaje.
7. Los siguientes datosmuestran los diámetrosinternosen centímetros de 20 pistones,
calcula su diámetro interno medio y su desviación estándar.
12.1
11.9
12.2
11.7
11.9
12.4
12.1
12.0
11.6
13.0
12.8
11.8
12.4
12.3
11.9
12.2
11.9
12.1 12.2
11.9
8. Ciertos fabricantes de llantas quieren saber la duración promedio de su producto
según el uso de diferentes conductores, para lo cual se toma una muestra aleatoria
de 100 de sus compradores, loscualesreportaron la duración de sus llantasen milesde
kilómetros
55.3
59.5
60.0
48.6
59.1
63.5
56.3
55.0
53.7
52.8
50.5
56.7
60.8
67.6
68.0
64.4
58.0
49.9
65.4
47.9
45.2
68.1
56.5
50.5
51.2
55.9
61.8
73.0
65.3
60.0
56.6
57.3
49.9
69.5
50.2
52.1
56.7
56.2
52.9
55.0
49.8
51.4
56.8
60.1
56.7
55.9
55.2
65.0
54.8
50.2
56.7
67.0
58.8
57.9
49.9
50.6
58.6
54.8
53.8
52.0
52.8
51.9
61.0
62.5
64.2
67.1
59.9
58.1
56.7
54.0
56.3
53.9
52.0
52.9
51.9
56.0
58.1
52.0
57.0
56.1
49.9
61.0
62.5
51.8
50.1
50.8
60.2
57.8
53.2
51.8
60.1
60.9
56.8
48.0
58.9
57.6
59.7
60.7
63.6
65.3
Con estos datos, calcula la duración promedio de las llantas y su varianza
insesgada, dividiendo el conjunto de datos en diez clases de frecuencias.
50
9. Con base en los datos del ejercicio anterior traza un histograma para las clases de
frecuencias encontradas.
10. Haciendo uso de las fórmulas respectivas, encuentra la mediana y la moda de la
duración de las llantas del ejercicio 8 y compáralas con la media encontrada. Obtén
también el tipo de modelo asociado.
11. En la siguiente tabla se muestran loserrores tipográficos por página que comete una
secretaria en 100 páginas.
0
2
3
2
1
5
2
1
6
3
1
5
6
2
3
2
2
2
4
5
5
3
2
6
7
1
3
7
2
3
4
4
5
8
1
3
4
7
3
8
10
0
5
3
2
4
4
6
7
8
9
2
4
6
2
3
4
7
6
4
5
4
6
7
7
2
1
3
8
2
4
5
6
2
7
2
5
5
1
8
3
4
7
8
2
8
1
3
4
4
3
5
6
2
4
2
6
8
1
7
a) divide a los datos en ocho clases de frecuencia y calcula la media por clases
b) calcula la varianza de clase
12. Traza un histograma del ejercicio anterior.
13. La siguiente lista muestra las calificaciones de los alumnos de dos grupos de 30
alumnos, cada uno. Determina la calificación promedio por grupo, su varianza
insesgada y qué grupo tiene calificaciones más homogéneas.
Grupo 1
Grupo 2
8
8
3
5
10
9
4
7
1
3
8
9
7
7
7
2
3
8
8
9
7
8
4
5
6
6
10
6
3
8
10
10
8
0
0
2
8
4
1
4
8
5
2
10
10
10
9
8
9
2
3
3
1
1
2
4
8
6
3
8
Autoevaluación
Indica la respuesta correcta.
1. La Bolsa Mexicana de Valores ha tenido diferentes alzas y bajas en puntos
porcentuales durante la primer quincena de junio de 2000
51
Calcula el porcentaje medio obtenido en dicha quincena
a)
b)
c)
d)
3.8
15
1.5
0.38
2. Los precios del barril de petróleo crudo exportado por México durante 16 días del
año 2000 fueron
31.5
31.0
32.0
32.5
32.5
31.2
30.5
31.5
32.0
31.5
31.0
30.9
31.8
30.6
32.0
32.0
Considerando estos precios, calcula la desviación estándar muestral de la
variabilidad de los precios en esos 16 días
a)
b)
c)
d)
1.3456
0.6237
0.3053
0.4672
3. Calcula la moda de los precios del petróleo del ejercicio anterior
a)
b)
c)
d)
31.5
32.0
32.5
31.0
4. Calcula la media de los precios del petróleo del ejercicio 2. Asimismo, calcula
mediana, moda y media geométrica de dichos precios y determina cuál de estas
medidas es más próxima al valor medio
a) mediana
b) moda
c) media geométrica
5. Un chofer de una línea de camiones viajó 1 000 km en cuatro tramos de 250 km
cada uno, con velocidades de 90, 80, 95 y 85 kmph, respectivamente. Calcula, con
base en la media armónica, la velocidad media con la que realizó el viaje
a)
b)
c)
d)
87.14 kmph
89.4 kmph
85 kmph
87.5 kmph
52
6. Los siguientes datos muestran los sueldos de 90 personas elegidas aleatoriamente.
Ordena los datos en diez clases de frecuencia de igual longitud y calcula media
aritmética x, mediana Md y moda Mo
La distribución es
a)
b)
c)
d)
sesgada a la derecha
simétrica
sesgada a la izquierda
bimodal
7. Calcula la desviación estándar del ejercicio anterior
a)
b)
c)
d)
23.45
18.93
12.16
15.34
8. En la siguiente lista se muestran lascalificacionesde losalumnos, de cuatro muestras
de diez alumnos, cada una. Por medio de su varianza insesgada, determina qué
muestra resultó más homogénea en sus calificaciones.
Muestra 1
8
5
2
10
10
9
4
7
1
3
Muestra 2
1
2
4
8
6
10
10
8
8
9
Muestra 3
7
8
4
5
6
10
9
8
9
2
Muestra 4
10
10
9
8
9
2
8
4
8
6
a) muestra 1
b) muestra 2
c) muestra 3
d) muestra 4
9. Indica cuál de los siguientes incisos define mejor el concepto de estadística
descriptiva
a) parte de la estadística que sirve para obtener inferencias de la población a partir
de los datos muestrales
b) parte
arte de la estadística que sirve para llevar a cabo losdiseñosde
los diseños de experimentos y
poder tomar una decisión
c) parte de la estadística que sirve para describir la totalidad de elementosde
elementos de una
población o muestra
d) partedelaestadísticaquesirveparaestimar
parte de la estadística que sirve para estimar losparámetrosdeunapoblación
losparámetros de una población con
base en un muestreo aleatorio
53
Respuestas de los ejercicios
Ejercicio 1
1. media = 153.214; mediana = 150; moda = 150
2. media = 3.533; mediana = 3.65
3. 3.492
4. 86.08
5. 10.425
Ejercicio 2
1. rango = 35; varianza = 86.95
2. 0.5785
3. 0.00063
Ejercicio 3
1.
a) [2.50, 3.64), [3.64, 4.78), [4.78, 5.92), [5.92, 7.06), [7.06, 8.20]
b) media 4.704; varianza 1.922
2.
a) [228.9, 238.9), [238.9, 248.9), [248.9, 258.9]; frecuencias relativas: f1 = 0.175,
f 2 = 0.625, f 3 = 0.200; se tendrá que reparar la máquina
b) 244.15
3. desviación estándar = 6.12; se tendrá que reparar la máquina
4. [10.8, 15.4),, [15.4, 20.0),, [20.0, 24.6),, [24.6, 29.2),, [29.2, 33.8),, [33.8, 38.4),, [38.4, 43.0),,
[43.0, 47.6),, [47.6, 52.2),, [52.2, 56.8];; media
media=
= 33.14; varianza
varianzasesgada=
varianzasesgada
sesgada = 91.84
54
Ejercicio 4
1.
20
20
16
16
12
12
8
8
4
4
0
0
3.07
4.21
5.35
6.49
7.63
3.07
4.21
5.35
6.49
7.63
2.
Respuestas de los ejercicios propuestos
1. media = 17.875; mediana = 18; moda = 18; varianza insesgada = 19.7167
2.
Frecuencia
10
11
16
18
19
20
22
24
26
Valor
1
16
2
16
2
16
4
16
2
16
2
16
1
16
1
16
1
16
3. media geométrica = 17.3014
4. media geométrica = 22.6196
5. media armónica = 119.1667
6. media armónica = 105.5567
7. media = 12.12; desviación estándar = 0.3443
8. rango = 28; longitud de clase = 2.8. Las clases y sus puntos medios se muestran en
la tabla. Media = 56.212; varianza insesgada = 61.263
55
9.
1
[45.0, 47.8)
46.4
1
2
[47.8, 50.6)
49.2
13
3
[50.6, 53.4)
52.0
17
4
[53.4, 56.2)
54.8
14
5
[56.2, 59.0)
57.6
23
6
[59.0, 61.8)
60.4
14
7
[61.8, 64.6)
63.2
7
8
[64.6, 67.4)
66.0
6
9
[67.4, 70.2)
68.8
4
10
[70.2, 73.0]
71.6
1
25
20
15
10
5
0
46.4 49.2
52
54.8 57.6 60.4 63.2
66
68.8 71.6
10. mediana = 56.7; modelo asociado asimétrico positivo
11. rango = 10; longitud de clase = 1.25. Las clases y sus puntos medios se muestran en
la tabla. Media = 4.225; varianza insesgada = 5.564
56
12.
21
19
15
14
11
10
8
2
0
0.625 1.875 3.125 4.375 5.625 6.875 8.125 9.375
13. grupo 1: media = 6.3 y varianza insesgada = 6.1896
grupo 2: media = 5.3 y varianza insesgada = 12.355
el grupo más homogéneo fue el 1
Respuestas de la autoevaluación
1. d)
2. b)
3. b)
4. c)
5. a)
6. a)
7. d)
8. c)
9. c)
Descargar