Subido por HerZios HerZios

Material base - estadistica básica

Anuncio
Pamplona
Universidad de
Centro de Educación Virtual y a Distancia
Programas de Educación a Distancia
Estadística Básica
Yolanda Gallardo de Parada
Aurora Inés Gáfaro Rojas
Sandra Patricia Valero Ortega
Formando Colombianos de Bien
Álvaro González Joves
Rector
María Eugenia Velasco Espitia
Decana Facultad de Estudios Avanzados, Virtuales, a Distancia y Semiescolarizados
Luis Armando Portilla Granados
Director Centro de Educación Virtual y a Distancia
Tabla de Contenido
Presentación
Introducción
UNIDAD 1: Generalidades de la Estadística
Núcleos Temáticos y Problemáticos
Proceso de Información
1.1. DEFINICIÓN
1.1.1 Importancia
1.1.2 Población
1.1.3 Muestra
1.1.4 Métodos de Selección de una Muestra al Azar
1.1.5 Unidad Estadística
1.2
ESTADÍSTICA DESCRIPTIVA – DISTRIBUCIÓN DE FRECUENCIAS
1.2.1 Recolección de Datos
1.2.2 Intervalos
1.2.3 Amplitud
1.2.4 Frecuencia de Clase o Frecuencia Absoluta
1.2.5 Marca de Clase (X)
1.2.6 Frecuencia Relativa (Fr)
1.2.7 Frecuencia Acumulada (Fa)
1.2.8 Frecuencia Relativa Acumulada (Fra)
Proceso de Comprensión y Análisis
UNIDAD 2: Medidas de Tendencia Central
Núcleos Temáticos y Problemáticos
Proceso de Información
2.1
PRIMER CASO: CUANDO LOS DATOS NO ESTÁN AGRUPADOS
2.1.1 Media Aritmética
2.1.2 Mediana
2.1.3 Moda
2.2
SEGUNDO CASO: CUANDO LOS DATOS ESTÁN AGRUPADOS
2.2.1 Media Aritmética
2.2.2 Mediana
2.2.3 Moda
Proceso de Comprensión y Análisis
UNIDAD 3: Medidas de Dispersión
Núcleos Temáticos y Problemáticos
Proceso de Información
3.1
DESVIACIÓN ESTÁNDAR O TÍPICA
3.2
VARIANZA
3.3
COEFICIENTE DE VARIACIÓN
Proceso de Comprensión y Análisis
UNIDAD 4: Medidas de Ubicación
Núcleos Temáticos y Problemáticos
Proceso de Información
4.1
CUARTILES, PERCENTILES Y DECILES
4.2
DIAGRAMAS DE CAJA
Proceso de Comprensión y Análisis
UNIDAD 5: Presentación de la Información
Núcleos Temáticos y Problemáticos
Proceso de Información
5.1
HISTOGRAMA
5.2
POLÍGONOS DE FRECUENCIA
5.3
OJIVAS
5.4
BARRAS
5.4.1 Barras Verticales
5.4.2 Barras Horizontales
Proceso de Comprensión y Análisis
ANEXO: Tablas
BIBLIOGRAFÍA GENERAL
1
Estadística Básica
Presentación
La educación superior se ha convertido hoy día en prioridad para el gobierno
Nacional y para las universidades públicas, brindando oportunidades de superación
y desarrollo personal y social, sin que la población tenga que abandonar su región
para merecer de este servicio educativo; prueba de ello es el espíritu de las
actuales políticas educativas que se refleja en el proyecto de decreto Estándares
de Calidad en Programas Académicos de Educación Superior a Distancia de la
Presidencia de la República, el cual define:
“Que la Educación Superior a
Distancia es aquella que se caracteriza por diseñar ambientes de aprendizaje en
los cuales se hace uso de mediaciones pedagógicas que permiten crear una
ruptura espacio temporal en las relaciones inmediatas entre la institución de
Educación Superior y el estudiante, el profesor y el estudiante, y los estudiantes
entre sí”.
La Educación Superior a Distancia ofrece esta cobertura y oportunidad educativa
ya que su modelo está pensado para satisfacer las necesidades de toda nuestra
población, en especial de los sectores menos favorecidos y para quienes las
oportunidades se ven disminuidas por su situación económica y social, con
actividades flexibles acordes a las posibilidades de los estudiantes.
La Universidad de Pamplona gestora de la educación y promotora de llevar
servicios con calidad a las diferentes regiones, y el Centro de Educación Virtual y a
Distancia de la Universidad de Pamplona, presentan los siguientes materiales de
apoyo con los contenidos esperados para cada programa y les saluda como parte
integral de nuestra comunidad universitaria e invita a su participación activa para
trabajar en equipo en pro del aseguramiento de la calidad de la educación superior
y el fortalecimiento permanente de nuestra Universidad, para contribuir
colectivamente a la construcción del país que queremos; apuntando siempre hacia
el cumplimiento de nuestra visión y misión como reza en el nuevo Estatuto
Orgánico:
Misión:
Formar profesionales integrales que sean agentes generadores de
cambios, promotores de la paz, la dignidad humana y el desarrollo nacional.
Visión: La Universidad de Pamplona al finalizar la primera década del siglo XXI,
deberá ser el primer centro de Educación Superior del Oriente Colombiano.
Luis Armando Portilla Granados. Director CEVDUP
UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia
2
Estadística Básica
Introducción
La importancia que tiene la matemática en el desarrollo de los procesos
intelectuales del hombre es notoria a través de su historia. Fue así como en la
antigüedad el pensamiento matemático contribuyó a resolver problemas en tareas
económicas y constructoras de diferentes pueblos, dio la base para revelar tos
misterios del mundo, es decir, dar explicaciones razonables para alcanzar la verdad
de los fenómenos que lo suceden. Contrariamente a los griegos, los hombres de la
edad media utilizaron el contenido matemático como una simple rutina para
disciplinar la mente. Sin embargo, a partir de los trabajos de Galileo, la
matemática en la edad moderna ayudó a buscar explicaciones concretas de
problemas que se daban en ingeniería, construcción y otras actividades prácticas
del hombre.
Por tal motivo, gracias al medio, las personas están rodeadas constantemente por
un conjunto de experiencias, que manejan y manipulan de una manera
sorprendente. Es decir, en cierta forma se está efectuando una serie de
operaciones: recoge, organiza, analiza e interpreta esas informaciones mediante
unas representaciones significativas para él y así se obtiene una serie de
conclusiones razonables.
Esta información que de cierta manera se manipula, se debe matematizar. Es
decir, seguir un procedimiento para poder tabular la información, presentarla y así
hacer el análisis respectivo para dar las conclusiones pertinentes al estudio que se
está realizando.
La Estadística es utilizada en casi todas las ramas de la ciencia moderna, así como
en muchos otros campos de la actividad humana. Como dijo Salomón Fabricant
“todo el mundo parece hoy coincidir en que la Estadística puede ser útil para
comprender, evaluar y controlar el funcionamiento de la sociedad”. En nuestra
sociedad, el progreso puede medirse mediante diversos índices numéricos, la
estadística se utiliza para describir, manipular e interpretar estos números.
Aún cuando los tipos de problemas a los cuales puede aplicarse la Estadística como
herramienta fundamental para el análisis e interpretación de resultados son
bastante heterogéneos, en muchos casos los pasos de una investigación
estadística son los siguientes:
UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia
Estadística Básica
3
Primera etapa: formulación del problema. Para investigar con éxito un problema
dado, primero se tienen que crear conceptos precisos, formular preguntas claras e
imponer limitaciones adecuadas al problema, tomando en cuenta el tiempo, dinero
disponible y la habilidad de los investigadores.
Segunda etapa: diseño del experimento. Nuestro deseo es obtener un máximo de
información empleando un mínimo de costo y tiempo. Esto implica, entre otras
cosas, que se debe determinar el tamaño de la muestra o la cantidad y tipo de
datos que resolverán más eficientemente el problema. A la vez este tamaño será
afectado por el método empleado para la selección de la muestra representativa.
Con respecto a la representatividad de la muestra, se debe observar que no es
fácil obtener selecciones que sean completamente aleatorias. Existe el peligro de
que una selección pueda ser preferida en alguna forma. Se han propuesto varios
métodos para vencer esta dificultad y se han usado en la práctica. Se considera
este punto dentro del desarrollo del módulo.
Tercera etapa: experimentación o recolección de datos. En general, ésta es la
parte que más tiempo consume en toda investigación que sea realizada, ésta debe
sujetarse a reglas estrictas. De hecho, cuanto menos opiniones impongamos,
serán mejores los resultados.
Cuarta etapa: tabulación y formulación de la respuesta. Al aplicar el método
estadístico antes mencionado, se obtienen conclusiones a partir de la muestra,
acerca de la población correspondiente. Es decir, se va a inferir sobre la muestra y
se trata de sacar conclusiones para la población. Es esta etapa la que le da el
objetivo final a la estadística, puesto que se van a tomar decisiones con base en
los resultados obtenidos en el estudio descriptivo de la muestra.
No existe una fórmula mágica ni única en estadística que tome en cuenta todas las
situaciones prácticas concebibles. Por lo cual es necesario adquirir conocimientos
generales de los métodos más importantes para hacer inferencias. En cada caso
práctico debe situarse con cuidado la naturaleza del problema específico, para
estar seguros de que será escogido el método más apropiado.
Con el apoyo del computador los cálculos matemáticos se hacen más fáciles, por lo
tanto se recomienda utilizar e integrar un software apropiado para tal fin. En la
actualidad existen varios paquetes estadísticos sencillos de manejar, tales como el
Statgraphics, Sas, Minitab, Spss.
De común acuerdo con su Tutor se pueden desarrollar los ejercicios propuestos al
final de cada tema, se puede utilizar calculadora y computador para facilidad de los
cálculos.
UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia
4
Estadística Básica
UNIDAD 1: Generalidades de la
Estadística
Núcleos Temáticos y Problemáticos
•
•
Definición
Estadística Descriptiva – Distribución de Frecuencias
Proceso de Información
1.1
DEFINICIÓN
Al evolucionar las ciencias, pierden sus rasgos primitivos, se transforman, dividen y
aún cambian de nombre. Como ciencia que es, la estadística ha sufrido igual
proceso y para comprender su estado actual y su campo de actividades se necesita
conocer algo de su historia. Se considera fundador de la estadística a Godofredo
AchenwalL profesor y economista alemán (1719 - 1772) quien, siendo profesor
de la universidad de Leipzig, escribió sobre el descubrimiento de una nueva ciencia
que ¡lamo estadística (palabra derivada de Staat que significa gobierno) y que
definió como “el conocimiento profundo de la situación respectiva y comparativa
de cada estado”
Achenwaü y sus seguidores estructuraron los métodos
estadísticos que se orientaron a investigar, medir y comparar las riquezas de las
naciones Lo anterior no significa que antes de los estudios de Godofredo
Achenwaü, los estados no hubiesen efectuado inventarios de sus riquezas; estos
invéntanos o censos se efectuaron desde la antigüedad. Se sabe que 2000 a 2500
años antes de Cristo, los chinos y los egipcios efectuaron censos que eran simples
inventarios elementales Desde su creación la estadística se ha enriquecido
continuamente con los aportes de matemáticos, filósofos y científicos.
Además, en un principio se consideraba que la función de ¡a estadística era la
descripción de las características de un grupo, de observar y describir el hecho En
su origen la estadística era histórica: hoy en día, la estadística, además de ser
descriptiva, es analítica, considerándose esta última como la función más
UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia
5
Estadística Básica
importante que realiza, ya que permite obtener conclusiones para un grupo mayor,
denominado población, partiendo de una investigación realizada en un grupo
menor, denominado muestra.
Las siguientes son unas definiciones que ayudan a determinar el sentido de la
estadística:
Dicaonano de Webster “una rama de las matemáticas que trata de la recopilación,
el análisis, la interpretación y la presentación de una gran cantidad de datos
numéricos.'
Kendall y Stuart “la estadística es la rama del método científico que traía de los
datos reunidos al contar o medir las propiedades de alguna población”.
Fraser “la estadística trata con métodos para obtener conclusiones a partir de los
resultados de los experimentos o procesos."
Al unir estas definiciones, se puede notar que a partir de la recopilación de datos
se pueden hacer inferencias con respecto a resultados de experimentos. Es decir a
partir de un conjunto de métodos, normas, reglas y de principios para observar,
agrupar, describir, cuantificar y analizar el comportamiento de un grupo.
Es entonces, un campo parcial de la Matemática aplicada a un conjunto de objetos
que se asignan valores numéricos y luego estos se siguen elaborando
matemáticamente.
Matemáticamente los procedimientos estadísticos están muy desarrollados y
asegurados en el plano de la teoría, por ejemplo, mediante la indicación de
ámbitos dentro de los cuales puede suponerse o rechazarse una hipótesis. Se
acostumbran a distinguir dos clases de Estadística, la descriptiva y la de inferencia.
1.1.1
Importancia
La teoría general de la estadística es aplicable a cualquier campo científico en el
cual se hacen observaciones el estudio y aplicación de los métodos estadísticos son
necesarios en todos (los campos del saber, sean estos de nivel técnico o
científico). Es obvio que en cada campo se aplican o desarrollan procedimientos
específicos, como aplicaciones particulares a variantes de la teoría general. Las
primeras aplicaciones de la estadística fueron los asuntos de gobierno, luego las
utilizaron las compañías de seguros y los empresarios de juegos de azar, después
siguieron los comerciantes, los industriales, los educadores, etc.
UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia
6
Estadística Básica
Es por tanto que las técnicas estadísticas se utilizan en casi todos los aspectos de
la vida:
•
Se diseñan encuestas para recoger información y así poder predecir algún
suceso.
•
Los experimentos que se hacen para determinar el método apropiado para
curar cierta enfermedad.
•
La duración, intensidad, extensión de las lluvias, tormentas o granizos, las
Temperaturas, la intensidad y dirección del viento son variables aleatorias.
1.1.2
Población
Es el conjunto de elementos que se toma de referencia para el estudio que se
desea investigar la ocurrencia de una característica o propiedad. Los elementos
que integran la población pueden pertenecer a personas, objetos o cosas. Según
sea el tamaño, la población puede considerarse como finita o infinita.
Es población finita cuando el número de elementos que la componen es limitado;
infinita cuando consta de infinitos elementos.
Ejemplo
La población consistente en todas las tuercas producidas por una fábrica en un día
específico, los estudiantes matriculados en un colegio, son poblaciones finitas;
mientras que la determinada por todos los posibles resultados (caras, cruces) de
sucesivas tiradas de una moneda, las personas que hoy y en el futuro subscriban
un seguro de vida, las piezas fabricadas por una máquina, son poblaciones
infinitas, cantidad de carros que transitan por un peaje en un tiempo determinado
es finita pero si no se especifica este tiempo es entonces infinita.
1.1.3
Muestra
Se considera como muestra el subconjunto de elementos que pertenecen a la
población objetivo sobre los cuales se recogerá la información necesaria, para
tomar una decisión válida relativa a la población de estudio. Si una muestra es
representativa de una población es posible inferir importantes conclusiones sobre
la población a partir del análisis de la muestra.
Las muestras pueden ser de dos tipos: probabilística o al azar, cuando cada uno
de los elementos tiene la misma probabilidad de ser escogido y no probalística
cuando se seleccionan los datos con determinado criterio o conveniencia del
UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia
7
Estadística Básica
investigador; en estos casos, algunas unidades tienen mayor posibilidad que otras
de ser seleccionadas, por tal razón no se puede determina la validez, ni la
confianza que merecen dichos resultados.
1.1.4
Métodos de Selección de una Muestra al Azar
La clave de un procedimiento de muestreo es garantizar que la muestra sea
representativa de la población, este muestreo puede ser probabilística o
intencional Es probabilística cuando todos los elementos de la población tienen la
misma posibilidad de ser elegidos.
En cambio, intencional, es cuando el
investigador selecciona bajo un criterio la muestra.
La selección de esta muestra probabilística se puede realizar por medio de los
siguientes métodos:
Azar Simple
Este método de selección permite que todos los elementos que constituyen la
población tengan la misma posibilidad de ser incluidos en la muestra. Este método
es de gran importancia cuando la población no es grande o siendo grande, este se
concentra en un área pequeña. También cuando las características que” se
investiga presentan poca variabilidad o cuando la población facilita su enumeración
para su selección.
Ejemplo: en la fabrica T&T hay mil personas trabajando, 600 de las cuales son
obreros, 250 son técnicos y 150 son profesionales Si se quiere seleccionar una
muestra aleatoria simple de 200 personas, en este caso, la probabilidad de
selección de cada persona es:
n
200
P=
N
=
1000
= 0.2
Lo cual indica que el 20% de los obreros corresponden a 120 de los técnicos 50 y
30 profesionales.
Por Estratos
Para el muestreo estratificado se divide la población en vanos grupos o estratos
con el fin de dar representatividad a los distintos factores que integran la población
del estudio, la condición de la estratificación es la presencia en cada estrato de las
características que conforman la población.
UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia
8
Estadística Básica
Este procesó de estratificación requiere que la población sea dividida en grupos
homogéneos donde cada elemento tiene una característica tal que no le permite
pertenecer a otro estrato.
Para la selección de los elementos o unidades representantes de cada estrato se
utiliza el método del muestreo aleatorio o al azar. Dentro de este muestreo
encontramos casos tres especiales:
•
Muestras de igual tamaño. En este tipo de muestreo debe seleccionarse un
número igual de elementos en cada grupo mediante procedimiento al azar.
•
Muestreo proporcional. En este tipo el tamaño de muestra por estrato se
escoge de tal forma que sea proporcional al tamaño poblacional del mismo.
•
Afinación óptima. Este método utiliza la mejor subdivisión posible de una
muestra total, repartición en todos los estratos, considerando tanto la variación
como el tamaño de cada estrato además se tiene en cuota el costo de la
investigación.
Ejemplo: en el caso de la fabrica T&T se puede argumentar que obreros, técnicos
y profesionales son importantes para establecer comparaciones y se decide
escoger 80 de cada estrato. En este caso las probabilidades de selección serían,
por estrato, las siguientes:
Obreros
Técnicos
Profesionales
80/600= 0,133
80/250= 0,32
80/150= 0,53
Donde se puede apreciar que la probabilidad de selección no es igual para todas
las personas, sino que depende del estrato en que éstas se encuentran y así un
obrero tiene menor posibilidad de ser seleccionado que un profesional,
simplemente porque estos últimos son menores.
Por Conglomerado
Existen situaciones donde ni el muestreo aleatorio simple ni el estratificado son
aplicables, ya que no se dispone de una lista con el numero de elementos de la
población ni en los posibles estratos. En estos casos típicamente los elementos de
la población se encuentran de manera natural agrupados en conglomerados, cuyo
número si se conoce.
Por ejemplo la población se distribuye en provincias, los habitantes de una ciudad
en barrios, etc. Si se supone que cada uno de estos conglomerados es una
muestra representativa de la población total respecto a la variable que se estudia,
UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia
9
Estadística Básica
se puede seleccionar algunos de estos conglomerados al azar y dentro de ellos,
analizar todos sus elementos o una muestra aleatoria simple.
Ejemplo: se desea tomar una muestra de la población colombiana para estudiar la
proporción de personas que están de acuerdo con la relaciones prematrimoniales;
si se supone que la edad y el sexo pueden influir en la opinión, se debería tomar
una muestra donde estas características sean las mismas que en la población base,
lo que implica una muestra estratificada.
Sistematizada
Una forma práctica para seleccionar la muestra es hacerla en forma sistemática,
escogiendo una muestra de cada intervalo, donde el intervalo se calcula así: K=
N/n; donde N es el tamaño de la población y n el de la muestra.
Ejemplo: si se quiere tomar una muestra de 500 viviendas en un barrio que tiene
2000 viviendas, el intervalo de selección será: K= 2000 / 500 = 4.
Para iniciar el proceso de selección sistemática se escoge al azar un número entre
1 y 4, a partir del número seleccionado y cada 4 viviendas se hace una escogencia,
hasta completar la muestra.
1.1.5
Unidad Estadística
Una vez identificada la población y la muestra, se ubica la unidad estadística, o sea
el objeto de la medición. La unidad estadística es el elemento del universo que
reporta la información (observación) y sobre el cual se realiza un determinado
estudio (análisis).
Dato
Hace referencia a la observación particular, es decir, la información relacionada
con las características de cosas existentes que pueden ser recogidos, anotados u
observados
Variables
Es una dimensión o una característica de una unidad de análisis, dimensión que
adopta la forma de una clasificación. Una variable se puede representar por un
símbolo X, Y, Z, V, x, h etc. que puede tomar un conjunto prefijado de valores;
dichas variables pueden ser:
UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia
10
Estadística Básica
•
Nominal: a veces conviene extender la noción de variable a entidades no
numéricas: es decir que relacionan un carácter, un nombre, una cualidad. Por
ejemplo, el color C de un arco iris es una variable que puede tomar los valores
rojo, anaranjado, amarillo, verde, azul, violeta y rosado. Puede ser posible
sustituir tales variables por entidades numéricas de la siguiente manera:
denotando el rojo como 1, el anaranjado como 2 etc.
•
Ordinal: le asigna valores numéricos a los sujetos, de tal forma que los valores
más altos se le asignan a los individuos que tienen más de la característica que
se mide.
Esto hace que necesariamente satisfaga la característica de
diferenciación pero en adición introduce la posibilidad de ordenamiento.
Por ejemplo, en una competencia ciclística se tiene en cuenta los cinco
primeros puestos para la premiación.
•
Intervalo: en adición a la clasificación y ordenamiento se introduce la
posibilidad de establecer el ordenamiento con intervalos iguales.
Por ejemplo, la medición de la temperatura la cual se puede hacer por medio
de un termómetro en grados Fahrenheit.
•
Variable Continua: es la variable que puede tomar cualquier valor entre dos
valores dados. La estatura H de una persona que puede ser 1.62 cm, 1.65 cm,
1.80.
•
Variable Discreta: es la variable que solo puede tomar un determinado número
de valores enteros. El número N de hijos en una familia puede ser O, 1, 2, 3.
1.2
ESTADÍSTICA DESCRIPTIVA - DISTRIBUCIÓN DE FRECUENCIAS
La distribución de frecuencias o tabla de frecuencia, es la disposición tabular de los
datos por clases junto con las correspondientes frecuencias de clase. Para la
elaboración de esta distribución si los datos son cuantitativos, hay que tener en
cuenta los siguientes pasos:
1.2.1
Recolección de Datos
Es la base para cualquier estudio estadístico, es la toma de datos u observaciones;
estos se llevan a cabo mediante la recopilación de los mismos sin ninguna
ordenación de acuerdo a lo que se está investigando.
UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia
11
Estadística Básica
Por ejemplo la empresa “Cuero Lindo” recopiló la información resultante de
encuestar 60 establecimientos pequeños, para estudiar sus ventas semanales en
miles de pesos, los resultados son:
40
22
28
19
24
28
17
33
28
35
20
11
26
24
33
23
31
34
10
20
22
28
29
39
26
28
25
22
18
10
21
14
29
15
19
25
18
30
29
34
11
17
27
25
29
13
23
21
16
29
21
16
20
34
38
37
32
26
24
18
Después de tener dicha información, se procede a ordenarla; es decir, colocar los
datos numéricos en orden creciente o decreciente. Existe un tipo de ordenación y
se hacen generalmente en una tabla de distribución de frecuencias. Para ello se
debe encontrar inicialmente el rango de la distribución; que es la diferencia entre
el mayor y el menor dato obtenido. Así:
R = Dm - dm, donde
R = rango
Dm = dato mayor
dm = dato menor
R= 40 - 10 = 30
1.2.2
Intervalos
Al resumir grandes colecciones de datos es útil distribuidos en clases o categorías;
en cuanto al número de clases el investigador es autónomo para escoger el
número de intervalos para trabajar, sin embargo existe una fórmula que se utiliza
como base o guía para indicar la cantidad de intervalos que se van a crear en la
tabla de frecuencias. Esta fórmula esta determinada por:
m = 1 + 3.33 log n;
donde
m = 1 + 3.33 log 60 = 6.92
m = número de intervalos
n = tamaño de la muestra
Lo cual indica que se puede aproximar a 6 o 7 intervalos. En este caso se toman 6
intervalos, pero se agregan dos más que son: el intervalo menor que el dato
menor y el intervalo mayor que el dato mayor; esto cuando se utiliza un programa
de computador.
UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia
12
Estadística Básica
1.2.3
Amplitud
El rango nos ayuda a determinar la amplitud o el tamaño de cada clase, siendo
esta una constante para cada intervalo. La amplitud indica la distancia que debe
tener cada clase.
La amplitud se puede determinar como el cociente entre el rango y el número de
intervalos.
A = R / m; donde A = amplitud
A = 30 / 6 = 5 miles de pesos
Para formar los intervalos de clase, si es utilizando un programa estadístico, se
parte del dato menor 10 y se le suma la amplitud, así, 10 + 5=15. Entonces el
primer grupo esta comprendido entre 10 y 15 miles de pesos.
El siguiente grupo será: 15 + 5 = 20, donde el intervalo estará entre 15 y 20
miles de pesos. En forma similar se crean los demás intervalos, incluyendo los
intervalos menores a 10 miles de pesos y mayores a 40 miles de pesos.
NÚMERO DE CLASES
1
2
3
4
5
6
INTERVALOS
- 10
10 - 15
15 - 20
20 - 25
25 - 30
30 - 35
35 - 40
40 -
Otra manera de formar los intervalos de clase es tomar un dato como medida de
referencia, por ejemplo 5 (que indica $5000) o el dato menor y sumarle el valor
de la amplitud:
NÚMERO DE
INTERVALOS
INTERVALOS
1
5 - 10
2
10 - 15
3
15 - 20
4
20 - 25
5
25 - 30
6
30 - 35
7
35 - 40
UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia
13
Estadística Básica
1.2.4
Frecuencia de Clase o Frecuencia Absoluta
Se determina el número de individuos que pertenecen a cada clase. Como cada
clase está formada por un intervalo, entonces se debe tomar como un intervalo
abierto a izquierda y cerrado a derecha. Esto quiere decir, por ejemplo: que para
hacer el conteo para determinar las frecuencias correspondientes al intervalo 20 25, van a estar los valores 21, 22, 23, 24 y 25. De igual manera los valores que
van a estar entre 25 - 30 son 26, 27, 28, 29 y 30.
Teniendo esto en cuenta, podemos utilizar el siguiente cuadro para realizar el
conteo:
Número de
Establecimientos
Intervalos
5 - 10
10 - 15
15 - 20
20 - 25
25 - 30
30 - 35
35 - 40
F
/
/////
////////////
/////////////
//////////////
////////
////
TOTAL
2
5
12
14
15
8
4
60
Esta frecuencia significa; por ejemplo: que 12 establecimientos tienen ventas
semanales entre $15000 y $20000; las mayores ventas están entre $25000 y
$30000, las menores ventas presentadas son de $10000, etc.
1.2.5
Marca de Clase (X)
Es el punto medio del intervalo de clase y se obtiene promediando el limite inferior
y superior de cada clase.
Intervalos
5 - 10
10 - 15
15 - 20
20 - 25
25 - 30
30 - 35
35 - 40
X
7,5
12,5
17,5
22,5
27,5
32,5
37,5
UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia
14
Estadística Básica
X=
5+10
2
= 7,5
Miles de pesos; esto quiere decir que el promedio del primer intervalo es de
$7500.
Otra manera de hallar la amplitud de un intervalo es encontrar la diferencia común
entre marcas de clase sucesivas. Por ejemplo: 32,5 - 27,5 = 5 miles de pesos.
1.2.6
Frecuencia Relativa (Fr)
Es su frecuencia dividida por la frecuencia total de todas las clases y se expresa
generalmente como un porcentaje.
F
Fr = 
n
La frecuencia relativa del primer intervalo es 0.0333. Este valor se obtuvo de la
relación entre 2/60 = 0.0333; significa que el 3.33% de los establecimientos tienen
ventas menores de $10000. Este porcentaje se obtiene al multiplicar por 100 el
resultado obtenido.
De igual manera, la frecuencia relativa del segundo intervalo es de 0.0833, que
significa que el 8.33% de los establecimientos tienen ventas entre $10000 a
$15000.
1.2.7
Frecuencia Acumulada (Fa)
Es la acumulación ascendente o descendente (de la primera a la última clase o
viceversa) de frecuencias absolutas. La frecuencia acumulada descendente se
obtiene de la siguiente manera:
•
•
•
La primera frecuencia acumulada corresponde a la primera frecuencia absoluta.
La segunda acumulada se obtiene sumando las dos primeras absolutas, es
decir, 2+5 = 7.
La tercera acumulada se obtiene de sumar 7 + 12 = 19 y así sucesivamente.
La frecuencia acumulada ascendente se obtiene así: se inicia por la frecuencia
absoluta del último intervalo; en este caso 4. La siguiente es sumar esta
frecuencia acumulada con la anterior: 4+8 = 12. La que sigue sería 4 + 8 = 12 y
así sucesivamente.
UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia
15
Estadística Básica
Intervalos
F
5 - 10
10 - 15
15 - 20
20 - 25
25 - 30
30 - 35
35 - 40
2
5
12
14
15
8
4
Fa
2
7
19
33
48
56
60
60
58
53
41
27
12
4
El significado de este cuadro es el siguiente: si tomamos el tercer grupo
descendente, su frecuencia acumulada, significa que 19 establecimientos tienen
ventas semanales entre $10000 y $20000 o inferiores a $20000. Y si tomamos el
segundo grupo ascendente, quiere decir que 12 establecimientos tienen ventas
semanales entre $30000 y $40000 o mayores a $30000.
1.2.8
Frecuencia Relativa Acumulada (Fra)
Es la acumulación sucesiva en forma ascendente o descendente de frecuencias
relativas. La primera frecuencia relativa acumulada corresponde a la primera
frecuencia relativa. La segunda, se obtiene sumando las dos primeras frecuencias
relativas, es decir, 0,0333 + 0,0833 = 0,1167 y así sucesivamente. La frecuencia
relativa acumulada ascendente se obtiene así: se inicia por la frecuencia relativa
del último intervalo; en este caso 0,0667. La siguiente es sumar esta frecuencia
acumulada con la anterior 0,0667 + 0,1333 = 0,2 y así sucesivamente.
Intervalo
Fr
5 – 10
10 - 15
15 - 20
20 - 25
25 - 30
30 - 35
35 - 40
0.0333
0.0833
0.2
0.2333
0.25
0.1333
0.0667
Fra
0.0333
0.1167
0.3167
0.55
0.8
0.9333
1
1
0.9666
0.8833
0.6833
0.45
0.2
0.0667
Si tomamos el grupo 5 descendente su acumulado es de 0.8, cuyo significado es
que el 80% de los establecimientos tienen ventas semanales menores a $30000; si
tomamos el grupo 4 ascendente su acumulado será del 0,6833, esto significa que
el 68.33% de los establecimientos tienen ventas mayores a $20000 mil pesos.
UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia
16
Estadística Básica
Intervalo
F
Fr
5 - 10
10 - 15
15 - 20
20 - 25
25 - 30
30 - 35
35 - 40
Total
2
5
12
14
15
8
4
60
0,0333
0,0833
0,2
0,2333
0,25
0,1333
0,0667
1,00
Fa
2
7
19
33
48
56
60
Fra
60
58
53
41
27
12
4
0,0333
0,1167
0,3167
0,55
0,8
0,9333
1
1
0,9666
0,8833
0,6833
0,45
0,2
0,0667
La tabla presenta el resumen de la clasificación de los 60 establecimientos
analizados por los investigadores de la empresa Cuero Lindo, esto significa que se
ha organizado la información.
Proceso de Comprensión y Análisis
•
Decir de las siguientes variables cuáles son continuas y cuáles son discretas
−
−
−
−
La altura de las personas
La medida de la cantidad de lluvia caída en una localidad en un mes
La edad de las personas, en años cumplidos
El número de alumnos de cada curso de un colegio
•
Por qué es útil la estadística en el campo para el cual se está preparando.
•
“La Estadística estudia el comportamiento de fenómenos colectivos y nunca de
una observación individual” comentar este principio.
•
Clasificar a que tipo de estadística pertenecen los siguientes ítems:
−
−
−
−
−
Realizar un inventario
Determinar la demanda de un producto
La posibilidad que llueva en una ciudad determinada
El porcentaje de desempleo en una ciudad específica
El promedio de las acciones vendidas en la bolsa de valores en una empresa en
un mes determinado
El aumento del índice de precios al consumidor en un mes específico
El aumento del costo de vida en un mes específico
El número de accidentes ocurridos en una ciudad determinada
Las ventas de un almacén en un mes determinado
−
−
−
−
UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia
17
Estadística Básica
−
El aumento de costos de producción con respecto al mismo mes del año
anterior.
•
Dar un ejemplo donde se aplique la estadística en los siguientes campos:
−
−
−
−
−
−
−
−
−
Agricultura
Biología
Negocios
Química
Comunicaciones
Finanzas
Economía
Educación
Electrónica
•
Responder a los siguientes enunciados:
−
−
−
¿Qué significan las variaciones en los precios de los artículos al consumidor?
¿Cree que cualquier investigación requiere información estadística?
¿Cuáles son las funciones del Departamento Administrativo Nacional de
Estadística (DANE)?
•
Las calificaciones finales de 80 estudiantes son:
−
−
−
−
−
−
−
−
−
68
84
75
82
68
90
62
88
93
60
73
88
79
73
93
76
71
59
85
75
61
65
75
87
−
−
−
−
−
−
−
Educación
Electrónica
Medicina
Física
Mercadeo
Ciencias políticas
Psicología
Medicina
Física
78
66
72
63
78
95
62
74
82
75
94
77
69
74
68
60
79
60
95
75
61
89
78
96
83
71
79
62
67
97
78
85
57
73
80
65
75
71
65
76
88
78
62
76
53
74
86
67
Mercadeo
Ciencias políticas
Psicología
Ingeniería
Administración
Producción
Sociología
77
85
75
76
63
72
81
73
Hallar:
−
−
−
−
−
−
−
La calificación más alta
La calificación más baja
El rango
Las cinco notas más altas
Las cinco notas más bajas
La décima nota de mayor a menor
La tabla de frecuencias utilizando 7 intervalos
UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia
18
Estadística Básica
−
−
−
−
−
−
•
Comprobar que la amplitud de los intervalos es de 6.29
El número de estudiantes de 79 o más
El número de estudiantes con calificaciones por debajo de 71
El porcentaje de estudiantes con calificaciones mayores de 65 pero no
superiores a 85.
Cuál es el significado del 91.25%?
Cuál es el significado del 33.75%?
En una empresa se investigó una muestra de 56 empleados para determinar su
salario mensual en miles de pesos. Los resultados fueron los siguientes:
987
1173
1330
1331
1240
984
1055
1176
1233
1024
1000
932
1234
1104
1233
985
1079
1032
1358
1324
1343
1248
1093
1690
1229
614
918
1202
944
1310
1262
1385
1022
1067
759
1105
824
956
1252
1404
1203
1024
1243
1185
816
972
1415
827
905
1109
1157
1220
1381
1303
1209
1490
−
Crear la tabla de frecuencias con siete intervalos y comprobar que su amplitud
es de 153.71 e interpretar cada uno de los siguientes valores en la
clasificación:
X4
Fr6
Fa2
F5
Fra 4
n
Fa 3
Fra 5
Fr 2
•
Responder:
−
−
−
−
¿Cuántos empleados tienen un salario inferior a $1'382.000?
¿Qué porcentaje de empleados tienen un salario superior a $1'228.000?
¿Cuántos empleados tienen un salario entre $921.000 y $1'075.000?
¿Qué porcentaje de empleados tienen un salario entre $1'228.000 y
$1'382.000?
•
En la tabla que sigue se recogen los pesos de 40 estudiantes varones de una
universidad con precisión de 1 Kilo, construir una distribución de frecuencias
con 5 intervalos y establecer las conclusiones más importantes.
69
82
75
66
72
84
73
80
62
63
86
72
74
69
71
67
78
88
73
71
73
81
67
75
79
99
76
78
70
77
70
72
73
82
67
64
68
74
76
72
UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia
19
Estadística Básica
•
La siguiente tabla muestra una distribución de frecuencia de los salarios
semanales de 65 empleados de la empresa P & R.
SALARIOS
$250.000 - $260.000
$260.000 - $270.000
$270.00 - $280.000
$280.000 - $290.000
$290.000 - $300.000
$300.000 - $310.000
$310.000 - $320.000
Total
NÚMERO DE EMPLEADOS
8
10
16
14
10
5
2
65
Determinar de la tabla de frecuencias:
−
−
−
−
−
−
−
−
El límite inferior de la sexta clase.
El límite superior de la cuarta clase.
La marca de clase o punto medio de la tercera clase.
La anchura del quinto intervalo de clase.
La frecuencia de la tercera clase.
El intervalo de clase con máxima frecuencia.
El porcentaje de empleados que cobran menos o igual de $280.000 a la
semana.
El porcentaje de empleados que cobran igual o menos de $300.000 pero al
menos $260.000 por semana.
•
Si las marcas de clase en una distribución de frecuencias de pesos de
estudiantes son 128, 137, 146, 155, 164, 173 y 182 libras. Hallar:
−
−
La anchura del intervalo de clase.
Los límites de clase, suponiendo que los pesos se midieron con 1 libra de
precisión.
•
La menor de 150 medidas es 5,18 m y la mayor 7.44 m.
−
−
Determinar un conjunto apropiado de intervalos de clase.
Marcas de clase que puedan usarse para formar la distribución de frecuencia
de esas medidas.
•
La siguiente tabla muestra una distribución de frecuencias de las vidas medias
de 400 válvulas de radio probadas en la empresa L & M.
UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia
20
Estadística Básica
VIDA MEDIA (Horas)
300 - 400
400 - 500
500 - 600
600 - 700
700 - 800
800 - 900
900 - 1000
1000 - 1100
1100 - 1200
Total
NÚMERO DE TUBOS
14
46
58
76
68
62
48
22
6
400
Determinar de la tabla de frecuencias:
−
−
−
−
−
−
−
−
−
El límite superior de la quinta clase.
El límite inferior de la octava clase.
La marca de clase de la séptima clase.
La anchura de intervalos de clase.
La frecuencia de la cuarta clase.
La frecuencia relativa de la sexta clase.
Porcentaje de tubos cuya vida media no pasa de 600 horas.
Porcentaje de tubos cuya vida media es mayor de 900 horas.
Porcentaje de tubos cuya vida media es de al menos 501 horas, pero menor o
igual que 1000 horas.
•
Los diámetros internos de los tubos fabricados por una empresa se miden con
precisión de milésima de pulgada. Si las marcas de clase de una distribución
de frecuencias de esos diámetros vienen dadas por 0.321, 0.324, 0.327, 0.33,
0.333 y 0.336. Hallar la anchura del intervalo de clase y los límites de clase.
•
La tabla adjunta muestra los diámetros en centímetros de una muestra de 60
bolas de cojinete manufacturadas por una fábrica. Construir una distribución
de frecuencias con intervalos de clase apropiados y establecer las conclusiones
respectivas.
1.738
1.735
1.736
1.739
1.728
1.733
1.738
1.735
1.736
1.735
1.729
1.731
1.735
1.735
1.738
1.730
1.729
1.727
1.744
1.735
1.743
1.726
1.724
1.745
1.725
1.732
1.727
1.734
1.732
1.729
1.740
1.737
1.733
1.736
1.733
1.730
1.735
1.732
1.737
1.734
1.736
1.728
1.742
1.742
1.734
1.739
1.735
1.736
1.731
1.730
1.741
1.737
1.736
1.740
1.732
1.734
1.732
1.741
1.746
1.740
UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia
21
Estadística Básica
UNIDAD 2: Medidas de Tendencia
Central
Núcleos Temáticos y Problemáticos
•
•
Primer Caso: Cuando los Datos no Están Agrupados
Segundo Caso: Cuando los Datos Están Agrupados
Proceso de Información
Las medidas de centralización son valores que tienden a situarse en el centro del
conjunto de datos ordenados según su magnitud. Las medidas de centralización
más usadas son: Media aritmética, mediana y moda.
La media aritmética es la medida de tendencia central más conocida, es fácil de
calcular, de gran estabilidad en el muestreo; se puede aplicar a variables de
intervalos ya sean discretos o continuos. Esta medida se define como la suma de
todos los valores observados dividido por el número de observaciones, es decir
encontrar el promedio de los datos en estudio.
La mediana se define como la medida de tendencia central que divide a cualquier
distribución en dos partes iguales. Esta medida se puede aplicar a variables de
intervalos (discretas y continuas) y variables ordinales.
La moda de una distribución se define como el valor que presenta la mayor
frecuencia, se usa con variables de intervalos nominales y ordinales.
Es
comúnmente utilizada como una medida de popularidad que refleja la tendencia de
una opinión.
UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia
22
Estadística Básica
2.1
PRIMER CASO: CUANDO LOS DATOS NO ESTÁN AGRUPADOS
2.1.1
Media Aritmética
La media aritmética de un conjunto de n números x1, x2, X3..., Xn, se representa
por x y se define como:
n
X=
X1 + X2 + X3 + ……Xn
=
∑xi
i=1
n
n
Cuando los números x1, x2, x3,....xn, aparecen f1, f2, f3,..... fn veces,
respectivamente, es decir, que sus frecuencias respectivas son f1, f2, f3,....fn, la
media aritmética se puede calcular del modo siguiente:
n
X=
f1X1 +f2X2 + f3X3 + ....+fnXn
=
f1+f2+f3+………+fn
∑fixi
i=1
n
∑ fi
i=1
En ocasiones, a cada uno de los números x1, x2, x3,....xn, se les asigna un peso
determinado w1, w2, w3,....wn. En estos casos, se acostumbra a calcular la media
aritmética ponderada del modo siguiente:
n
X=
w1x1 +w2x2 + w3x3 + ....+wnnn ∑wixi
w1+w2+w3+…..+wn
i=1
n
∑ wi
i=1
Ejemplo
•
Hallar la media aritmética del puntaje obtenido por 5 estudiantes en una
prueba: 6, 4, 3, 7, 8.
6+4+3+7+8
28
x =  =  =5,6
5
5
•
Este es el puntaje promedio de los 5
estudiantes
Hallar la media aritmética de los siguientes datos que representan las edades
de 10 niños. 6, 6, 6, 4, 4, 4, 4, 3, 3, 7.
UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia
23
Estadística Básica
3*6+4*4+2*3+1*7
47
x= =  = 4,7
3+4+2+1
10
El promedio de edad de los 10 niños es de 4 años, 7meses ó de 5años.
•
Un estudiante ha obtenido las calificaciones siguientes:
Asignatura
Historia
Química
Física
Matemática
Biología
Geología
Dibujo
Idioma
filosofía
Nota
8
7
3
6
5
6
5
7
4
Peso
1
3
3
3
3
2
2
2
1
Calculando su nota media ponderada:
1*8 + 3*7 + 3*3 + 3*6 + 3*5 + 2*6 + 2*5 + 2*7 + 1*4
X=
1+3+3+3+3+2+2+2+1
111
X=
= 5,55
20
Por lo tanto el promedio de las notas del estudiante es de 5,55
2.1.2
Mediana
La mediana es una serie de datos ordenados en orden de magnitud, es el valor
medio si el número de datos es impar o bien la media aritmética de los valores
medios si el número de datos es par.
Ejemplo
•
Hallar la mediana de los siguientes datos que corresponden a la venta de leche
en un expendio durante los últimos 7 días:
UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia
24
Estadística Básica
27800
43850
27800
43850
54300
60500
54300
60800
54350
54350
73200
60500
60800
73200
Md = 54350. El precio de la venta de leche que se encuentra en la mitad de los
precios es de $54350.
•
Hallar el valor de la mediana para los siguientes puntajes de las pruebas
ICFES: 304, 283,332, 344;295, 339.
283
295
Md =
304
332
304+332
339
344
= 318
2
El puntaje de las pruebas que se encuentra en la mitad es de 318.
2.1.3
Moda
La moda no puede ser única e incluso puede no existir.
Ejemplo
•
En una encuesta realizada sobre los deportes que se practican en un grado
determinado de un Colegio de Varones, se presentan los siguientes resultados:
Deporte
Basket
Fútbol
Voleibol
Otros
Nº de Alumnos
10
18
5
4
La moda en este caso es el Fútbol, puesto que la mayoría de los alumnos lo
prefieren.
•
Se le ha preguntado a un grupo de personas acerca del color preferido por
ellas y se obtuvo lo siguiente:
UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia
25
Estadística Básica
Color
Blanco
Gris
Azul
Negro
Rojo
Morado
Café
Vinotinto
Numero de Personas
4
8
9
4
3
2
8
8
Lo cual indica que los colores que pueden estar de moda son el gris, café y
vinotinto.
•
Hallar la moda de los números 2, 3, 4, 5, 6, 7, 8; como ningún número se
repite más que los otros, por consiguiente no hay moda.
2.2
SEGUNDO CASO: CUANDO LOS DATOS ESTÁN AGRUPADOS
2.2.1
Media Aritmética
n
X=
∑ xi f i
i=1
n
Ejemplo
•
Hallar la media aritmética de las ventas de los sesenta establecimientos:
Intervalos
5 - 10
10 - 15
15 - 20
20 - 25
25 - 30
30 - 35
35 - 40
40 Total
F
2
5
12
14
15
8
4
0
60
X
7.5
12.5
17.5
22.5
27.5
32.5
37.5
X*F
15
62.5
210
315
412.5
260
150
0
1425
UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia
26
Estadística Básica
X=
1425
= 23,7 = 24
60
Las ventas promedio de los sesenta establecimientos son de $24000.
•
Hallar el valor promedio para la distribución correspondiente a las notas
obtenidas por 40 estudiantes en una prueba estadística:
Intervalos
10 - 19.6
19.6 - 29.2
29.2 - 38.8
38.8 - 48.4
48.4 - 58
58 - 67.6
Total
X=
F
10
3
7
7
5
8
40
X
14.8
24.4
34
43.6
53.2
62.8
X*F
148
73.2
238
305.2
266
502.4
1532.8
1532.8
40
= 38.3 = 38
El puntaje promedio de los 40 alumnos es de 38.
2.2.2
Mediana
Para hallarla cuando los datos están agrupados se siguen los siguientes pasos:
•
•
•
Ubicar el intervalo donde quede la frecuencia correspondiente a la mitad del
tamaño de la muestra.
Encontrar el valor del límite real inferior del intervalo dónde está.
Aplicar la siguiente fórmula:
Md = li +
n _ ∑Fa
2
F n/2
A; donde:
li :es el límite real inferior donde está la F n/2
∑Fa es la sumatoria de frecuencias anteriores
a n/2
F n/2 es la frecuencia donde está n/2
A es la amplitud del intervalo
UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia
27
Estadística Básica
Ejemplo
•
Encontrar la mediana de las ventas de los sesenta establecimientos:
Intervalos
5 - 10
10 – 15
15 – 20
20 - 25
25 - 30
30 - 35
35 - 40
TOTAL
F
2
5
12
14
15
8
4
60
$24.000 corresponde a la venta que está en la mitad.
•
Encontrar la mediana de la distribución correspondiente a las notas obtenidas
por 40 estudiantes en una prueba estadística
Intervalos
10 - 19.6
19.6 - 29.2
29.2 - 38.8
38.8 - 48.4
48.4 - 58
58 – 67.6
Total
F
10
3
7
7
5
8
40
La nota que está en la mitad en esta distribución es Moda.
2.2.3
Moda
Se debe ubicar el intervalo donde esté la mayor frecuencia, y después se aplica la
siguiente fórmula:
•
Li es el límite real inferior donde está la moda.
•
, 1es la diferencia entre la frecuencia modal y la frecuencia inmediatamente
anterior.
UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia
28
Estadística Básica
•
2 es la diferencia entre la frecuencia modal y la frecuencia inmediatamente
posterior.
•
A es la amplitud del intervalo.
Ejemplo
•
Encontrar la moda de las ventas de los sesenta establecimientos:
Intervalos
5 - 10
10 - 15
15 - 20
20 - 25
25 - 30
30 - 35
35 - 40
Total
•
F
2
5
12
14
15
8
4
60
Encontrar la moda de la distribución correspondiente a las notas obtenidas por
40 estudiantes
Intervalo
10-19.6
19.6-29.2
29.2-38.8
38.8-48.4
48.4-58
58-67.6
Total
F
10
3
7
7
5
8
40
Proceso de Comprensión y Análisis
•
Supóngase que en un viaje, un automovilista hace las siguientes compras de
gasolina. 10 galones a $2500 c/u, 8 galones a $2550 c/u, 15 galones a $2600
c/u y 12 galones $2480 c/u. Cuál sería el costo medio por galón?.
•
La siguiente tabla muestra los salarios mensuales en miles de pesos de 144
empleados de una empresa:
UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia
29
Estadística Básica
Salarios
540 - 607
607 - 674
674 - 741
741 - 808
808 - 875
875 - 942
942 - 1009
1009 - 1076
Total
F
6
19
36
24
26
19
10
4
144
−
Encontrar la media, la moda y la mediana.
•
Diez medidas del diámetro de un cilindro fueron anotadas por un científico
como 3.88, 4.09, 3.92, 3.97, 4.02, 3.95, 3.98, 4.03, 3.92 y 4.06 centímetros;
hallar la media aritmética de tales medidas.
•
De entre 100 números: 20 son cuatros, 40 son cincos, 30 son seis y los
restantes sietes. Hallar la media aritmética, la media y la moda.
•
De los 80 empleados de una empresa, 60 cobran $7000 a la hora y el resto
$4000 a la hora. Hallar cuánto cobran la media por hora.
•
Usar la distribución de frecuencias para hallar la altura media, la altura que
más se repite y la altura que se encuentra en la mitad de 100 estudiantes.
Altura (m)
1.60 - 1.63
1.63 - 1.66
1.66 - 1.69
1.69 - 1.72
1.72 - 1.75
Total
•
F
5
18
42
27
8
100
Hallar la media, mediana y moda de los pesos de 40 estudiantes de la siguiente
tabla:
PESO (Lb)
118 - 126
126 – 134
134 – 142
142 – 150
150 - 158
158 - 166
166 - 174
Total
F
3
5
9
12
5
4
2
40
UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia
30
Estadística Básica
•
Los tipos de reacción de un individuo ante diversos estímulos, medidos por un
psicólogo, fueron: 0.53, 0.46, 0.5, 0.49, 0.52, 0.53, 0.44 y 0.55 segundos
respectivamente. Determinar su tiempo medio de reacción.
•
La siguiente tabla muestra la distribución de cargas máximas en toneladas
cortas que soportan los cables producidos en cierta fábrica. Determinar la
carga máxima media, la carga máxima que se repite y la carga que más se
repite.
Carga Máxima
(Toneladas Cortas)
9.3 - 9.7
9.7 - 10.1
10.1 - 10.5
10.5 - 10.9
10.9 - 11.3
11.3 - 11.7
11.7 - 12.1
Total
F
2
5
12
17
14
6
4
60
•
La siguiente tabla muestra el número de bodas en Colombia para hombres y
mujeres de distintos grupos de edad durante 1984.
−
Hallar la media, mediana y moda tanto para hombres como para mujeres,
estableciendo las respectivas conclusiones.
Edad
(años)
15 - 19
19 - 23
23 - 27
27 - 31
31 - 35
35 - 39
39 - 43
43 - 47
47 - 51
Hombres
(Miles)
121
2.441
5.930
6.587
11.788
9.049
8.749
5.786
2.581
Mujeres
(Miles)
481
4.184
6.952
7.193
11.893
9.022
8.171
4.654
1.524
UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia
31
Estadística Básica
UNIDAD 3: Medidas de Dispersión
Núcleos Temáticos y Problemáticos
•
•
•
Desviación Estándar o Típica
Varianza
Coeficiente de Variación
Proceso de Información
Las medidas de dispersión o variación dan idea de la separación de los datos
numéricos alrededor de una medida de centralización. Las medidas de dispersión
más utilizadas son:
3.1
DESVIACIÓN ESTÁNDAR O TÍPICA
Indica que tan dispersos están los datos con respecto a la media aritmética. Si los
datos no están agrupados, la desviación estándar de una serie de números n. X1,
x2, x3,.....xn está determinada por:
Si los datos están agrupados, la desviación estándar viene dada por:
Las anteriores fórmulas se utilizan cuando se trabaja con la población.
UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia
32
Estadística Básica
Si los datos están agrupados, la desviación estándar viene dada por:
Las anteriores fórmulas se utilizan cuando se trabaja con la muestra.
Ejemplo
•
Hallar la desviación estándar del puntaje obtenido por 4 estudiantes en una
prueba: 6 4, 3, 7. 8.
X=
•
5.6
Hallar la desviación estándar de las edades de 10 niños: 6, 6, 6, 4, 4, 4, 4, 3,
3, 7.
UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia
33
Estadística Básica
•
Hallar la desviación estándar de las ventas de los sesenta establecimientos x =
24.
Intervalos
5 – 10
10 - 15
15 - 20
20 - 25
25 - 30
30 - 35
35 - 40
Total
3.2
F
2
5
12
14
15
8
4
60
X
7.5
12.5
17.5
22.5
27.5
32.5
37.5
(X-x)2 F
544.5
661.25
507
31.5
183.75
578
729
3235
VARIANZA
Esta es la medida de variación más importante, ya que se obtiene a partir de la
media aritmética de una distribución. La varianza señala la distancia promedio de
cualquier observación en el conjunto de datos. La varianza de un conjunto de
datos se define como el cuadrado de la desviación típica.
La varianza es una medida de dispersión, en la cual, las unidades son los
cuadrados de las unidades de los datos, es decir, pesos cuadrados, personas
cuadradas, etc., y por esto no son expresiones fáciles de interpretar.
Si los datos no están agrupados, la varianza de una serie de números n: x1, x2,
x3........ Xn está determinada por:
Si los datos están agrupados, la varianza viene dada por:
UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia
34
Estadística Básica
Ejemplo
•
Hallar la varianza del puntaje de 5 estudiantes: 6, 4, 3, 7, 8.
•
Hallar la varianza de las edades de 10 niños: 6, 6, 6, 4, 4, 4, 4, 3, 3. 7.
X = 4.7
18.1
S2 =  = 1.81
10
•
Hallar la varianza de las ventas de los sesenta establecimientos: X = 24
Intervalos
5 – 10
10 – 15
15 – 20
20 – 25
25 – 30
30 - 35
35 - 40
Total
F
2
5
12
14
15
8
4
60
X
7.5
12.5
17.5
22.5
27.5
32.5
37.5
(X-x)2 F
544.5
661.25
507
31.5
183.75
578
729
3235
UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia
35
Estadística Básica
3235
S2 =  = 53.9
60
3.3
COEFICIENTE DE VARIACIÓN
Esta medida relaciona la desviación estándar y la media, para expresar la variación
de la desviación con respecto a la media aritmética. Este coeficiente de variación
se acostumbra expresarlo en porcentaje.
S
La fórmula que se utiliza es: cv =  * 100
X
El coeficiente de variación es una medida muy utilizada en control de calidad. Para
estos casos, generalmente existen especificaciones que limitan el coeficiente de
variación. También nos sirve para determinar la homogeneidad de la información,
es decir, si el coeficiente de variación es pequeño la información es homogénea y
si el coeficiente de variación es grande la información es heterogénea.
Ejemplo
•
Hallar el coeficiente de variación de 6, 4, 3, 7, 8
X = 5.6 S = 1.34
Cv = 23.9%
Este porcentaje indica cómo se distribuye la desviación estándar con respecto a
la media a través de los datos.
•
Hallar el coeficiente de variación de las ventas de los sesenta establecimientos
y obtener conclusiones.
X = 24
S = 7.3
7.3
Cv =  *100
24
Cv = 30.42%. De aquí se puede decir que las ventas de los sesenta
establecimientos son homogéneas.
UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia
36
Estadística Básica
•
Si el trabajador A produce por hora 40 tornillos en promedio, con desviación de
5 tornillos y el trabajador B produce 180 tornillos en promedio con desviación
de 15, ¿cuál de los trabajadores presenta menor variabilidad?
5
CVA =  *100 = 12.5% para el operador A
40
15
CVB =  *100 = 9.4% Para el operador B
180
Esto significa que el operador B, quien tiene mayor desviación en la producción,
presenta menor variación, porque la media de producción para el operador B es
mucho mayor que la del operador A.
Proceso de Comprensión y Análisis
•
Hallar la desviación estándar y la varianza de los puntos obtenidos asignados a
8 niños en un juego: 12, 6, 7, 3, 15, 10 18 y 5.
•
Hallar la desviación estándar y la varianza en la compra de cremas dentales:
$9.345, $3.850, $8.235, $8.000, $9.578, $8.560, $9.234, y 18.456.
•
Hallar la desviación estándar de las alturas de los estudiantes de acuerdo a la
siguiente tabla:
Altura (m)
1.60 – 1.63
1.63 – 1.66
1.66 – 1.69
1.69 – 1.72
1.72 – 1.75
Total
•
F
5
18
42
27
8
100
Hallar la desviación estándar de la distribución de salarios de la siguiente tabla:
SALARIOS
$250.000 - $260.000
$260.000 - $270.000
$270.000 - $280.000
$280.000 - $290.000
NÚM. EMPLEADOS
8
10
16
14
UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia
37
Estadística Básica
SALARIOS
$290.000 - $300.000
$300.000 - $310.000
$310.000 - $320.000
Total
•
NÚM. EMPLEADOS
10
5
2
65
La siguiente tabla muestra los cocientes de inteligencia (lQ) de 480 niños de
una escuela elemental. Hallar la desviación estándar:
F
4
9
16
28
45
66
85
72
54
38
27
18
11
5
2
X
70
74
78
82
86
90
94
98
102
106
110
114
118
122
126
•
Un fabricante de tubos de televisión produce dos tipos de tubos A y B, que
tienen vidas medias respectivas: xA = 1495 horas y xB = 1875 horas y
desviación típica de SA = 280 horas y SB = 310 horas. ¿Qué tipo de tubo tiene
mayor dispersión?
•
En un examen final de Estadística, la puntuación media de 150 estudiantes fue
de 78 y la desviación estándar 8. En Álgebra la media fue de 73 y la
desviación estándar 7.6. ¿En qué materia fue mayor la dispersión?.
•
Hallar la desviación estándar y el coeficiente de variación para los datos de la
siguiente tabla:
Carga Máxima
(Toneladas Cortas)
9.3 - 9.7
9.7 – 10.1
10.1 - 10.5
10.5 - 10.9
F
2
5
12
17
UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia
38
Estadística Básica
Carga Máxima
(Toneladas Cortas)
10.9 - 11.3
11.3 - 11.7
11.7 - 12.1
Total
F
14
6
4
60
UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia
39
Estadística Básica
UNIDAD 4: Medidas de Ubicación
Núcleos Temáticos y Problemáticos
•
•
Cuartiles, Percentiles y Deciles
Diagramas de Caja
Proceso de Información
4.1
CUARTILES, PERCENTILES, DECILES
Si un conjunto de datos está ordenado por magnitud, el valor central que divide al
conjunto en dos mitades iguales, es la mediana.
Extendiendo esa idea, se puede pensar en aquellos valores que dividen al conjunto
en cuatro partes iguales, (cuartiles) esos valores denotados Q1 Q2 y Q3, llamados
primer, segundo y tercer cuartil respectivamente. El Q2 coincide con la mediana.
Análogamente, los valores que dividen a los datos en 10 partes iguales se llaman
deciles y se denotan por D1 D2,...D9. El D5 coincide con la mediana.
Y los valores que dividen a los datos en 100 partes iguales se llaman percentiles,
denotados por P1 P2,.....P99. El P50 coincide con la mediana.
UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia
40
Estadística Básica
Si los datos no están agrupados, se deben ordenar en forma ascendente o
descendente y ubicar el dato que esté en la posición n * p :donde,
q
q = 4, 10, 100
p = Número a la ubicación al que se desea referir
n = Total de datos
Ejemplo
•
Con los siguientes datos ubicar el que corresponde a:
−
−
−
Al primer cuartil
Al tercer decil
Al percentil 80
12
3
n*p
8
4
5
5
10
6
11
8
4
10
6
11
3
12
8*1
Q1 =  = = 2
q
4
El dato que está en el primer cuartil es 4, ya que está en la segunda posición.
n*p
8*3
D3 =  =  = 2.4 ≈ 2
q
10
El dato que está en el tercer decil es 4, ya que está en la segunda posición.
P80
n*p
8 * 80
=  =  = 6.4 ≈ 6
q
100
El dato que está en el percentil 80 es 10, ya que este valor está en la sexta
posición.
Cuando los datos están agrupados, utilizamos la misma fórmula de la mediana y
reemplazamos donde esté n/2 por n * p; el límite inferior es donde está la F (n*p)/q
q
UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia
41
Estadística Básica
Donde U hace referencia a la medida de ubicación, li es
el limite inferior donde está F(n*p)/q
Ejemplo
•
En las ventas de los sesenta establecimientos encontrar:
−
−
−
El primer, segundo y tercer cuartil
El primer, quinto y el sexto decil
El percentil doce, cincuenta y ochenta
Para encontrar estas medidas, primero hay que encontrar
intervalo correspondiente a esta posición.
n*p
para ubicar el
q
El Primer, Segundo y Tercer Cuartil
Intervalos
5 - 10
10 - 15
15 - 20
20 - 25
25 - 30
30 - 35
35 - 40
Total
F
2
5
12
14
15
8
4
60
n = 60
p=1
q=4
n*p = 60*1 = 15
q
4
Li= 15
∑Fa = 7
F (n*p)/q = 12
A=5
De donde el 25% de las ventas de los 60
establecimientos es de $18000 o menos.
Intervalo
5 - 10
10 - 15
15 - 20
20 - 25
25 - 30
30 - 35
35 - 40
Total
F
2
5
12
14
15
8
4
60
n = 60
p=2
q=4
n*p = 60*2 = 30
q
4
Li= 20
∑Fa = 19
F (n*p)/q = 14
A=5
UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia
42
Estadística Básica
Donde el 50% de las ventas de los 60
establecimientos es de $24000 o menos.
Intervalos
5 - 10
10 - 15
15 - 20
20 - 25
25 - 30
30 - 35
35 - 40
Total
F
2
5
12
14
15
8
4
60
n = 60
p=3
q=4
n*p = 60*3 = 45
q
4
Li= 25
∑Fa = 33
F (n*p)/q = 15
A=5
Por lo tanto el 75% de las ventas de los 60
establecimientos es de $29000 o menos
El Primer, Quinto y el Sexto Decil
Intervalos
5 - 10
10 - 15
15 - 20
20 - 25
25 - 30
30 - 35
35 - 40
Total
F
2
5
12
14
15
8
4
60
n = 60
p=1
q = 10
n*p = 60*1 = 6
q
10
Li= 10
∑Fa = 2
F (n*p)/q = 5
A=5
El 10% de las ventas es de $9000 o menos.
UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia
43
Estadística Básica
Intervalos
5 – 10
10 - 15
15 - 20
20 - 25
25 - 30
30 - 35
35 - 40
Total
F
2
5
12
14
15
8
4
60
n = 60
p=5
q = 10
n*p = 60*5 = 30
q
10
Li= 20
∑Fa = 19
F (n*p)/q = 14
A=5
El 50% de las ventas es de $24000 o
menos
Intervalos
5 - 10
10 - 15
15 - 20
20 - 25
25 - 30
30 - 35
35 - 40
Total
F
2
5
12
14
15
8
4
60
n = 60
p=6
q = 10
n*p = 60*6 = 36
q
10
Li= 25
∑Fa = 33
F (n*p)/q = 15
A=5
Y el 60% de las ventas es de $26000 o menos.
El Percentil Doce, Cincuenta y Ochenta
Intervalo
5 - 10
10 - 15
15 - 20
20 - 25
25 - 30
30 - 35
35 - 40
Total
F
2
5
12
14
15
8
4
60
n = 60
p = 12
q = 100
n*p = 60*12 = 7.2 = 7
q
100
Li= 10
∑Fa = 2
F (n*p)/q = 5
A=5
UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia
44
Estadística Básica
P12= 10+
60*12
 -2
100

5
5 = 15.2 ≈ 15
Por lo tanto el 12% de las ventas de los sesenta establecimientos es de $15000 o
menos.
Intervalos
5 - 10
10 - 15
15 - 20
20 - 25
25 - 30
30 - 35
35 - 40
Total
P50= 20+
F
2
5
12
14
15
8
4
60
n = 60
p = 50
q = 100
n*p = 60*50 = 30
q
100
Li= 20
∑Fa = 19
F (n*p)/q = 14
A=5
60*50
 -19
5 = 23.9 ≈ 24
100

14
El 50% de las ventas de los sesenta establecimientos es de $24000 o menos.
Intervalo
5 - 10
10 - 15
15 - 20
20 - 25
25 - 30
30 - 35
35 - 40
Total
F
2
5
12
14
15
8
4
60
n = 60
p = 80
q = 100
n*p = 60*80 = 48
q
100
Li= 25
∑Fa = 33
F (n*p)/q = 15
A=5
Y el 80% de los establecimientos tienen ventas
de $30.000 o menos.
UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia
45
Estadística Básica
4.2
DIAGRAMAS DE CAJA
Es una representación del diagrama de una distribución construida para mostrar
sus características principales y señalar los posibles datos atípicos, es decir,
aquellas observaciones que parecen ser distintas de las demás. Su principal
utilidad es para depurar información puesto que se pueden eliminar los datos de
mayor variación en los extremos. Un diagrama de caja se construye así:
•
Ordenar los datos de la muestra y obtener el valor mínimo, el máximo y los tres
cuartiles Q1, Q2, Q3, localizándolos en una recta numérica utilizando una escala
adecuada.
•
Dibujar un rectángulo cuyos extremos son Q1 y Q3.
•
Calcular unos limites admisibles superior e inferior que van a servir para
identificar los valores atípicos. Estos límites se calculan con :
Li = Q1-1.5
Q3 – Q1

2
Li = Q3 +1.5
Q3 – Q1

2
•
Considerar como valores atípicos los situados fuera del intervalo (li, Ls).
•
Dibujar una línea que vaya desde cada extremo del rectángulo central hasta el
valor más alejado no atípico, es decir, que está dentro del intervalo (li, ls).
•
Identificar todos los datos que están fuera del intervalo (li, ls) marcándolos
como atípicos.
Ejemplo: Los siguientes datos muestran el número de días con aire contaminado
en 2001 y 2002 en varias ciudades colombianas:
A
B
C
D
E
F
G
H
I
2001
248
208
113
128
106
118
60
79
55
2002
221
171
131
89
101
33
63
56
UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia
46
Estadística Básica
2001
47
88
47
58
82
33
J
K
L
M
N
O
2002
54
55
69
59
48
16
Construir el diagrama de cajas correspondiente a la tabla dada.
Para 2001
El primer paso es ordenar la información de mayor a menor:
33 47 47 55 58 60 79 82 88 106 113 118 128 208 248
Luego se encuentran los tres cuartiles:
15*1
Q1 = = 3.75 ≈ 4
4
15*2
Q2 = = 7.5 ≈ 8
4
El 25% de ciudades tienen 55 días o menos de
contaminación o el 25% de las ciudades de EEUU
tienen entre 33 y 55 días de contaminación.
El 50% de ciudades tienen 82 días o menos de
contaminación
15*3
Q3 =  = 11.25 ≈ 11
4
El 75% de ciudades tienen 113 días o
menos de contaminación.
Por tanto los límites admisibles son:
Li = 55 – 1,5
Ls = 113 + 1,5
113 – 55

2
113 - 55

2
= 11,5
= 156,5
UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia
47
Estadística Básica
Como todos los valores son superiores al límite inferior, la línea inferior del
diagrama de caja deberá llegar hasta el valor mínimo y no hay atípicos en esta
dirección.
2001
Este diagrama de caja, muestra que la mayor parte de las observaciones son
menores que 113 y que el extremo superior de 248 está muy alejado del grupo
principal de datos. Se ve con claridad la amplitud de los datos, que es la longitud
del diagrama completo (248 - 33 = 215).
Para 2002
16 33 48 54 55 56 59 63 69 89 101 131 171 221
14*1
Q1= = 3.75 ≈ 4
4
14*2
Q2= = 7
4
El 25% de ciudades tienen 55
días o menos de contaminación.
El 25% de ciudades tienen 59 días
o menos de contaminación.
14*3
Q3= = 10.5 ≈ 11
4
El 25% de ciudades tienen 101
días o menos de contaminación.
Li = 55 – 1,5
Ls = 101 + 1,5
101 - 55

2
101 - 55

2
= 20.5
= 135.5
UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia
48
Estadística Básica
2002
Estos diagramas de caja son muy eficaces cuando ellos se comparan conjuntos de
datos.
2001
2002
Nótese como los datos tienden a concentrarse más y más hacia el extremo inferior
de la escala, excepto el extremo alto, el cual permaneció alto durante los dos años.
Proceso de Comprensión y Análisis
•
En la siguiente tabla que relaciona las alturas de 100 estudiantes, determinar el
primer, el segundo y tercer cuartil y realizar el gráfico correspondiente:
Altura (m)
1.60 - 1.63
1.63 - 1.66
1.66 - 1.69
1.69 - 1.72
1.72 - 1.75
Total
•
F
5
18
42
27
8
100
Hallar en la siguiente tabla para los salarios en miles de pesos de 144
empleados de una empresa:
UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia
49
Estadística Básica
−
−
−
El primer cuartil
El quinto y octavo decil
El percentil 10 y el percentil 45
Salario
540 - 607
607 - 674
674 - 741
741 - 808
808 - 875
875 – 942
942 - 1009
1009 - 1076
Total
•
F
6
19
36
24
26
19
10
4
144
Encontrar el primer, segundo y tercer cuartil de la siguiente tabla que relaciona
los pesos de 40 personas y realizar el gráfico correspondiente:
Peso (Lb)
118 - 126
126 - 134
134 - 142
142 - 150
150 - 158
158 - 166
166 – 174
Total
F
3
5
9
12
5
4
2
40
•
Las siguientes son diez medidas del diámetro de un cilindro: 3.88, 4.09, 3.92,
3.97, 4.02 3.95, 3.98, 4.03, 3.92 y 4.06 centímetros. Hallar:
−
−
−
El primer y tercer cuartil
El cuarto, el sexto y noveno decil
El percentil 48 y el percentil 10
•
La siguiente tabla muestra una distribución de frecuencias de las vidas medias
de 400 válvulas de radio probadas en la empresa L & M.
Encontrar:
−
−
−
El primer, segundo, tercer cuartil y su respectiva gráfica
El segundo, cuarto y sexto decil.
El cincuenta percentil.
UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia
50
Estadística Básica
Vida Media
300 – 400
400 - 500
500 - 600
600 - 700
700 - 800
800 - 900
900 - 1000
1000 - 1100
1100 - 1200
Total
Número
de Tubos
14
46
58
76
68
62
48
22
6
400
UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia
51
Estadística Básica
UNIDAD 5: Presentación de la
Información
Núcleos Temáticos y Problemáticos
•
•
•
•
Histograma
Polígonos de Frecuencia
Ojivas
Barras
Proceso de Información
Una gráfica estadística es aquella en la cual se presentan los datos estadísticos en
términos de magnitudes, para interpretarlos en forma visual.
Presentar la información de la tabla de frecuencias por medio de gráficas sirve
para reforzar las conclusiones que se determinan de esta tabla. Estas gráficas se
pueden utilizar para:
•
•
Evaluar resultados de un proceso.
Presentar resultados de una investigación.
Para la elaboración de un gráfico hay que tener en cuenta:
•
Título: indica la descripción del contenido de la gráfica, es decir, indica el
fenómeno de estudio. Por ejemplo, Producción de café en Colombia en el
período 1995 - 1997.
•
Diagrama: es empleado para representar los datos mostrados en una gráfica;
los diagramas pueden ser de varios tipos: líneas, barras, dimensiones y
símbolos.
UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia
52
Estadística Básica
•
Escala: se aplica para saber la dimensión del fenómeno graficado. Se debe
identificar en los ejes X y Y de un sistema de coordenadas. Las magnitudes en
la ordenada o eje “Y” y las clasificaciones de los datos en las abscisas o eje
“X”.
Existen varios tipos de gráficas para representar los datos estadísticos y al mismo
tiempo sirven para reforzar las conclusiones dadas en la tabla de frecuencias.
5.1
HISTOGRAMA
Sirve para representar gráficamente una distribución de frecuencias. El gráfico se
diseña trazando los intervalos sobre el eje X y las frecuencias absolutas sobre el
eje Y. A partir del intervalo se traza la altura respectiva dada por la frecuencia
absoluta.
La empresa Cuero Lindo ha recopilado información sobre las ventas en miles de
pesos de 60 almacenes. Estos datos son:
VENTAS PARA SESENTA ESTABLECIMIENTOS
(Miles de pesos)
Intervalo
5 - 10
10 - 15
15 - 20
20 - 25
25 - 30
30 - 35
35 - 40
40 Total
F
2
5
12
14
15
8
4
0
60
UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia
53
Estadística Básica
Las ventas más frecuentes de los sesenta establecimientos están entre $25000 y
$30000; $20000 y $25000. Y la menos frecuente está en $10000.
5.2
POLÍGONOS DE FRECUENCIAS
Es una curva que se traza a partir de los puntos medios de cada clase de amplitud;
estos se unen por medio de una línea recta, la cual se diseña con base en los
datos del histograma.
UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia
54
Estadística Básica
5.3
OJIVAS
Es el gráfico de una distribución de frecuencias acumuladas (relativa, absoluta)
descendente o ascendente. Esta gráfica indica la forma como crece la información
a través de los intervalos, se puede utilizar como medición de las variaciones de
los grupos. El punto donde se cortan las dos ojivas es el punto central de la
distribución es decir la mitad de la información.
5.4
BARRAS
Sirven básicamente para establecer las diferencias entre grupos individuales y
pueden ser de dos tipos:
5.4.1
Barras Verticales
Se emplean para presentar datos clasificados cronológica o cuantitativamente:
UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia
55
Estadística Básica
Ejemplo: en la siguiente tabla se encuentra la información correspondiente a las
ventas anuales de la empresa “El Retorno” durante el período de 1987 - 1996
(en millones de pesos).
Años
1987
1988
1989
1990
1991
1992
1993
1994
1995
1996
5.4.2
Ventas
6
9
15
30
50
80
110
150
130
100
Barras Horizontales
Se emplean para dar datos clasificados geográfica y cualitativamente, indican la
importancia de un atributo con respecto a los demás.
Ejemplo: la siguiente información nos indica el número de profesionales egresados
de distintas carreras en la ciudad de Bogotá en 2002:
Carrera
Ciencias Sociales
Administración
Ingenierías
derecho
Número de profesionales
1100
800
500
700
UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia
56
Estadística Básica
Segmentada
Ejemplo: presenta una comparación de la magnitud relativa de ventas dentro de
cada departamento y de las ventas totales por departamentos. La siguiente
información corresponde a las ventas por departamentos al contado y a crédito en
un almacén, se presenta en miles de pesos.
Departamento
Hombres
Mujeres
Niños
Electrodomésticos
Contado
200
180
150
300
Crédito
120
110
90
210
Total
320
290
240
510
Agrupada
Muestra las ventas por departamento en una empresa al contado y a crédito y
permite hacer comparaciones entre departamentos y al interior de cada uno.
UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia
57
Estadística Básica
Las Gráficas de barras horizontales pueden presentarse de dos formas:
Circular o de Tortas
Se utiliza para representar las variables y sirve para hacer notar las diferencias en
las proporciones o porcentajes. Es efectiva para permitir las comparaciones
cuando los segmentos son relativamente grandes. El proceso para realizar el
diagrama consiste en una regla de tres para:
Conocer el ángulo de cada sector, entonces se debe relacionar los 360° que tiene
una circunferencia con el tamaño de la muestra y con cada una de sus frecuencias
absolutas.
360° → n
x
Fi
Así por ejemplo:
360° → 60
x
2
360°*2
x =  = 12°
60
360° → 60
x
5
5
360°*3
x =  = 18°
60
Donde 60 es la muestra de las ventas de los
establecimientos; 2 es la frecuencia absoluta
del primer intervalo.
Donde 60 es la muestra de las ventas de los
establecimientos; 5 es la frecuencia absoluta del
segundo intervalo.
UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia
58
Estadística Básica
Y para conocer el porcentaje que corresponde a cada parte, relacionando 100%
con el tamaño de la muestra con la frecuencia absoluta. 100°
n
y
Fi
Así, por ejemplo:
100%
y
60
2
Donde 60 es la muestra de las ventas de los establecimientos;
2 es la frecuencia absoluta del primer intervalo.
100*2
y=  = 3.3 ≈ 3%
60
Esto quiere decir que el 3% de los establecimientos
tienen ventas entre $5000 y $10000.
Tallo y Hojas
Se puede tener un cuadro más informativo que la tabla de recolección de datos si
se hace un listado diferente.
Se tienen los porcentajes invertidos por 15 industrias manufactureras en el control
de contaminación de Colombia en 2001:
UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia
59
Estadística Básica
17
17
03
02
04
02
07
04
04
04
14
10
08
03
01
Para elaborar el diagrama de Tallos y Hojas hay que seguir los siguientes pasos:
El dígito de la extrema izquierda de cada valor es el punto de partida adecuado
para clasificar los datos en dos grupos. El O y 1 se usa para formar el tallo y se
escribe en columna vertical. A continuación se escribe el segundo dígito como si
fuera una hoja en el renglón adecuado del tallo, a la derecha de la barra vertical.
O
1
3,2,4,2,7,4,4,4,8,3,1
7,7,4,0
Ya que la mayor parte de las observaciones tienen el cero como primer dígito, se
puede alargar el tallo a dos categorías de O y dos de 1; en la que los segundos
dígitos del O al 4 quedarán en el renglón superior y los dígitos del 5 al 9 en el
inferior. Como es fácil de ordenar las observaciones en cualquier renglón, también
se puede presentar la gráfica ordenada de tallo y hojas.
O
O
1
1
1,2,2,3,3,4,4,4,4
7,8
0,4
7,7
Ahora se ve con facilidad que las observaciones van de 01 a 17, que nueve de las
15 observaciones son de 4 o menos.
Con el ejemplo que se ha venido trabajando; se puede elaborar este diagrama de
tallos y hojas. En los siguientes datos los resultados son obtenidos en miles de
pesos:
40
22
28
19
24
28
17
33
28
35
20
11
26
24
33
23
31
34
10
20
22
28
29
39
26
28
25
22
18
10
21
14
29
15
19
25
18
30
29
34
11
17
27
25
29
13
23
21
16
29
21
16
20
34
38
37
32
26
24
18
UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia
60
Estadística Básica
Presentación de los Datos en Forma de Tallo y Hojas
10,0,1,1,3,4
15,6,6,7,7,8,8,8,9,9
20,0,0,1,1,1,,2,2,2,3,3,4,4,4
25,5,5,6,6,6,7,8,8,8,8,8,9,9,9,9,9
30,1,2,3,3,4,4,4
38,9
4O
4
Las presentaciones de tallo y hoja de más de dos dígitos se pueden elaborar de
diversos modos. Los siguientes datos muestran el número de días con aire
contaminado en el 2001 en varias ciudades de Colombia:
Ciudad
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
2001
248
208
113
128
106
118
60
79
55
47
88
47
58
82
33
Para construir una gráfica de tallo y hojas con los datos del 2001, los dígitos de las
centenas y decenas formarán el tallo y las unidades serán las hojas.
03
04
05
06
07
08
09
10
3
7.7
5.8
0
9
28
6
11 3.8
12 8
13
14
15
16
17
18
19
20 8
21
22
23
24 8
UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia
61
Estadística Básica
Como esta gráfica es muy dispersa:
centenas y las hojas los demás dígitos
0
0
1
1
2
2
hay que hacer que el tallo contenga las
33,47,47
55,58,60,79,82,88
06,13,18,28
08,48
Proceso de Comprensión y Análisis
•
La siguiente tabla muestra la población de alguna ciudad (en millones) en los
años de 1882 – 2002. Representar estos datos en un diagrama de barras.
AÑO
1882
1892
1902
1912
1922
1932
1942
1952
1962
1972
1982
1992
2002
•
POBLACIÓN
(Millones)
31.4
39.8
50.2
62.9
76
92
105.7
122.8
131.7
151.1
179.3
203.3
226.5
La siguiente tabla muestra el número de sacos de trigo y maíz en la
cooperativa PQR durante los años de 1992 – 2002:
AÑO
1992
1993
1994
1995
1996
NÚMERO DE SACOS DE
TRIGO
200
185
225
250
240
NÚMERO DE
SACOS DE MAIZ
75
90
100
85
80
UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia
62
Estadística Básica
AÑO
1997
1998
1999
2000
2001
2002
NÚMERO DE SACOS DE
TRIGO
195
210
225
250
230
235
NÚMERO DE
SACOS DE MAIZ
110
110
105
95
110
100
Con referencia a la gráfica, determinar el año o años durante los cuales:
−
−
−
−
−
−
La producción de trigo fue mínima.
La de maíz fue máxima.
Se dio el mayor descenso en la producción de trigo.
Decreció la producción de maíz respecto al año anterior y creció la de trigo.
Se produjo idéntica cantidad de trigo
La producción conjunta de trigo y maíz fue máxima.
•
Las áreas de algunos departamentos de Colombia (en miles de millas
cuadradas) se recogen en la siguiente tabla. Representar estos datos en un
gráfico de tortas y determinar las conclusiones más relevantes.
DEPARTAMENTO
Cundinamarca
Antioquia
Armenia
Amazonas
Meta
Chocó
Norte de Santander
Total
•
ÁREA (miles de millas
cuadradas)
11.7
10.4
1.9
9.4
3.3
6.9
7.9
51.5
En la siguiente tabla, se ven los números (en millones) de estudiantes de
enseñanza elemental, media y superior en Colombia. Representar los datos,
usando gráficos de barras y determinar algunas conclusiones.
AÑO
1982
1987
1992
1997
2002
ELEMENTAL
32.4
35.5
37.1
33.8
30.6
MEDIA
10.2
13
14.7
15.7
14.6
SUPERIOR
3.6
5.7
7.4
9.7
10.2
UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia
63
Estadística Básica
•
•
La siguiente tabla muestra el estado civil de hombres y mujeres (de más de 18
años) en Colombia en 2001. Representar los datos mediante dos gráficos
circulares y un gráfico de diseño propio.
ESTADO CIVIL
HOMBRES
(% total)
MUJERES
(% total)
Soltero
Casado
Viudo
Divorciado
25.1
66.7
2.4
5.8
18.4
61.3
12.4
7.9
Una fábrica de gaseosa proyecta lanzar al mercado un nuevo sabor, para lo
cual se realiza un test de aceptación de dicho sabor, en una muestra de 32
personas. Se utiliza una escala de 30 para medir el grado de aceptación. Los
puntos obtenidos fueron los siguientes:
19
24
28
30
24
19
27
19
26
18
22
26
31
19
17
27
18
21
19
28
17
32
21
21
22
31
22
24
21
26
24
26
Realizar la representación del esquema de tallos y hojas de esta información.
•
Un artículo de revista titulado Amargo Panorama, habla acerca del café
colombiano y muestra un gráfico de este tipo:
UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia
64
Estadística Básica
¿Qué se puede decir de este gráfico?.
•
En la sección de actualidad de una revista, hay un titular sobre “Los Derechos
Humanos: una tortura”. Y muestra entre otras los siguientes gráficos:
UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia
65
Estadística Básica
De acuerdo a estas gráficas responder:
−
−
−
¿Qué porcentaje de quejas están concluidas?
¿Qué significado tiene el valor 3794 en el gráfico de estado de las quejas?
¿Qué interpretación le puede dar al gráfico “quiénes se quejan”?
UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia
66
Estadística Básica
ANEXO: Tablas
UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia
Estadística Básica
67
UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia
68
Estadística Básica
BIBLIOGRAFÍA GENERAL
BERNAL V. Miguel. Estadística Descriptiva: J. Elaboración y Presentación de
Datos Universidad de Pamplona, 1987.
GALLARDO, Yolanda.
Pamplona. 1997.
Estadística:
Programa de Sicología Universidad de
MARTÍNEZ BENCARDINO, Ciro. Estadística Comercial. Bogotá: Norma, 1981.
MORENO GARZÓN, Adonay. Serie aprender a investigar:
información. Cali: ICFES, 1995.
Recolección de la
PARZEN, Emmanuel. Teoría Moderna de Probabilidades y sus Aplicaciones México:
LIMUSA, 1991.
PEÑA SÁNCHEZ, Damel. Estadística Modelos y Métodos I. Fundamentos. Madrid:
Alianza editorial, 1986.
PORTUS GOVINDEN. Lincoyán. Curso Práctico de Estadística. Bogotá: McGRAW
- Hill, 1986.
SPIEGEL Murria R. Estadística. Madrid: McGraw Hill, 1993.
UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia
Descargar