Subido por Fernanda Digiuni

Lectura 1

Anuncio
Módulo 1:
1 ESTADISTICA: DEFINICIÓN
Definición: "Es el conjunto de métodos y técnicas que permiten determinar, de una
muestra debidamente representativa de una población, los valores estadísticos, a fin
de poder inferir sobre los parámetros poblacionales con un cierto grado de bondad"
Esta definición comprende tanto a la estadística descriptiva como a la estadística
inferencial. Mark Berenson y David Levine1, definen Estadística descriptiva como “ El
conjunto de métodos que incluyen la recolección, presentación y caracterización de
un conjunto de datos con el fin de describir apropiadamente sus características”.
Mientras que a la estadística inferencial la definen como “ Conjunto de métodos que
hacen posible la estimación de una característica de la población o la toma de una
decisión referente a una población basándose solo en los resultados de una muestra”.
La comprensión de estas definiciones se ve facilitada si se aclaran convenientemente
algunos términos de las mismas.
1.1 POBLACIÓN:
¿Que se entiende por población?
Definición: "El conjunto de datos cuantificable pertenecientes al sistema en estudio
constituye la población."
Esto implica que si el sistema en estudio es la producción agrícola ganadera de la
Provincia de Córdoba, entonces el mismo estará constituido por todos los
establecimientos agropecuarios de la Provincia. Si en cambio se pretende estudiar la
edad promedio de los estudiantes de la Universidad Empresarial Siglo 21, la población
estará conformada por todos los estudiantes de esa Institución. Si se presenta en un
Estudio Publicitario, la necesidad de plantear una campaña para promover la venta
de un nuevo perfume en la ciudad de Córdoba, la población a estudiar estará
constituida por todas las mujeres de dicha ciudad en condiciones de seleccionar y
elegir un perfume. Si se pretendiere realizar un estudio sobre la calidad de los tomates
producidos en las quintas de los alrededores de la ciudad, entonces todas las quintas
con producción de tomates próxima a la ciudad de Córdoba se constituirán en la
población.
Pudiere ser de importancia para un nuevo gobierno provincial prever el
comportamiento de los contribuyentes a las obligaciones impositivas, en caso de
reducir el monto de los impuestos, en este caso la población estará constituida por
todos los contribuyentes
A fin de poder tomar las medidas más adecuadas será necesario contar con la mayor
información posible, si los datos informativos con los que contamos provienen del
estudio de toda la población, no sería necesario realizar ninguna inferencia, decimos
que se ha efectuado un censo de la población. Pero en ese caso dicha mayor
1
Estadística Básica en Administración pág.2
Materia: HERRAMIENTAS MATEMÁTICAS III (ESTADÍSTICA I)
Profesor: MARIO MARÍN
-1-
exactitud va acompañada por un mayor costo y tiempo que evidentemente encarece el
proceso. Es decir, los resultados que puede entregarnos un censo tienen el carácter
de ser exactos, pero los costos que determinan los mismos pueden no justificar
dicha exactitud cuando, con muestras debidamente seleccionadas se determinan
esos valores con un cierto grado de error que se puede regular y que más adelante
veremos.
Por otra parte en algunas situaciones particulares el censo se presenta impracticable o
puede no ser conveniente. Piense el lector que si el estudio se refiriere al
comportamiento de las abejas en un colmenar, la población tendría el carácter de
infinita y por lo tanto sería imposible censarla.
Supongamos que se desata una epidemia en la población y debemos analizar la
respuesta a un cierto medicamento. Pretender estudiar la respuesta de toda la
población a la nueva droga llevaría un tiempo enorme tal que al cumplirse tal vez no
tendría sentido la aplicación del medicamento.
Una Empresa automotriz recibe de una Autopartista una partida de 500 pernos de
pistón, Recepción debe decidir su aceptación. Dentro de los ensayos a realizar sobre
las piezas, además de dimensiones y dureza se debe efectuar un ensayo de tracción
para el cual sería necesario destruir la pieza, en este caso sería entonces imposible
ensayar todas ellas. Por otro lado, si el verificar las dimensiones constituyere otro
ensayo a realizar, genera en la cantidad de pernos verificados un efecto particular
sobre el operario que lo realiza, lo cuál lo lleva a cometer errores, en algunos casos
superiores a los que se cometerían efectuando un muestreo. Tendríamos también
que tener en cuenta el costo de mano de obra que representa la verificación de esos
elementos.
Esto que hemos expresado nos lleva a la necesidad de poder tomar decisiones en
base a las inferencias que sobre una población podemos hacer de resultas del análisis
y estudio de una muestra de la misma.
1.2 MUESTRA:
De acuerdo a lo visto en el ítem anterior, estudiar el comportamiento de una población
a través de un censo, se torna en la mayoría de los casos impracticable, es por esa
razón que el análisis se efectúa por medio de una muestra que esté constituida por
una parte de todos los valores poblacionales.
Definición: “Una muestra estará constituida por un subconjunto de la población ."
Cada uno de los elementos que forman parte de la muestra se denominan
observación.
MUESTRA DEBIDAMENTE REPRESENTATIVA
Si bien es cierto que una muestra está constituida por elementos pertenecientes a la
población, tendremos que comprender que no todo subconjunto de la población se
constituye en una muestra debidamente representativa. Vale tal vez recordar que en
1936 en vísperas a las elecciones presidenciales de EE.UU., la encuestadora
LITERARY DIGEST pronosticó el triunfo del candidato Republicano con un apreciable
Materia: HERRAMIENTAS MATEMÁTICAS III (ESTADÍSTICA I)
Profesor: MARIO MARÍN
-2-
margen por sobre su opositor Rooselvet. El pronóstico se basaba sobre los resultados
de una encuesta hecha sobre una muestra de dos millones de habitantes. No
obstante el triunfo fue del candidato demócrata y el error en la inferencia se debía a
que los encuestados fueron
seleccionados entre los poseedores de automóviles y
abonados telefónicos. En esos momentos los que estaban mejor posicionados para
poseer automóvil y líneas telefónicas
correspondían a la clase media y alta, en su
mayoría con tendencias republicanas, pero el triunfó quedó en manos de Rooselvet
apoyados por la masa poblacional de menores recursos.
Definición: Una muestra se dice que es debidamente representativa de una población
cuando presenta sus mismas características.
Presentar las mismas características que la población implica que, si el 20% de la
población cumple con una determinada propiedad, se espera que el 20% de la
muestra cumpla con esa misma propiedad.
Esto permite disminuir los errores que se cometen cuando se efectúa la inferencia de
los parámetros poblacionales a partir de los valores determinados en la muestra.
1.3. VALORES ESTADÍSTICOS
El estudio realizado sobre una muestra nos permite determinar valores cuyas
características nos referiremos más adelante y a los cuales
se los denomina
estimadores pudiendo también tomar el nombre de valores estadísticos, mediante
los cuales se podrá efectuar
una correcta estimación
sobre los
valores de la
población.
Por otra parte, los valores propios de la población toman el nombre de Parámetros.
Si se pretendiere determinar el salario de los empleados metalúrgicos del País,
tomaríamos una muestra constituida por operarios de distintas empresas y distintas
provincias y siempre proporcional al número de operarios de cada lugar, el salario
promedio obtenido en la muestra se denomina estadístico, mientras que el salario
promedio de toda la población obrera metalúrgica se constituye en parámetro
1.4. PARÁMETROS
Definición: Los valores en estudio, que en la muestra toman el nombre de
Estadísticos, en la población se los denominan Parámetros.
Definición: Se define como bondad al margen de seguridad con que se realiza la
inferencia de acuerdo a los estudios realizados sobre la o las muestras.
Aseverar que tal político ganará las próximas elecciones presidenciales no tiene peso
como información si no se lo acompaña con un grado de seguridad. Indicar que las
encuestas los dan ganador por tal cantidad de puntos, solo es tomado en cuenta
cuando se acompaña esa información con una determinada seguridad.
Materia: HERRAMIENTAS MATEMÁTICAS III (ESTADÍSTICA I)
Profesor: MARIO MARÍN
-3-
2. Variable, Datos
Debemos tener en cuenta que la Estadística basa su aplicación en el estudio y análisis
de números los que se denominan Datos. Si dichos datos son obtenidos a través de
una muestra, se los llama observaciones, las que deben
responder a una
determinada característica que es la que tenemos
en estudio, puede ser la
producción avícola en la provincia, la inversión de dinero en publicidad en los distintos
medios durante el año 1998, o
a la cantidad de precipitaciones en el sur de la
provincia, la concurrencia a un Centro Comercial, las temperaturas máximas diarias
durante el mes de marzo en una determinada localidad,
el número de alumnos
ingresados en cada una de las Universidades de la provincia. De Córdoba en el
corriente año, cada una de estas toma el nombre de Variable. En definitiva cada vez
que nos aboquemos a un estudio estadístico debemos de tener en cuenta que dicho
estudio corresponde a una Variable, y que de ésta se tendrán Datos y los que
corresponden a Observaciones realizadas. Mediante la aplicación de métodos y
técnicas estadísticas se estudian estas observaciones y se determinan los
estadísticos.
2.1
TIPO DE VARIABLE
En una fábrica de automotores puede considerarse necesario determinar el número de
automóviles de cada modelo producidos durante el último trimestre, a fin de poder
compararlo con las unidades producidas durante el mismo período del año anterior y
poder prever la producción para los futuras períodos. Al Ministerio de Agricultura y
Ganadería, le será imprescindible definir la cantidad de hectáreas sembradas de maíz
en todo el País y en condiciones de ser levantadas en la próxima cosecha. En la
localidad de Embalse de Río Tercero, se tienen piletas en donde se efectúa la cría de
pejerreyes y por lo tanto le será de suma importancia definir, para cada período del
proceso el tamaño promedio de los peces. Para una planta generadora de energía
eléctrica, le es necesario determinar los picos de consumo de energía durante el día y
el consumo durante las diferentes épocas del año. Puede ser deseable
para la
Secretaría de Cultura de la Municipalidad de la ciudad de Córdoba, definir el grado de
calidad que poseen los Artistas Plásticos, para lo cuál será necesario valorizar las
obras de cada uno de ellos. Observará el lector que el tipo de dato de cada una de las
incógnitas en estudio puede tener características diferentes. En el estudio de la
producción de automóviles, la cantidad de unidades producidas es un número entero
definido, no es así en el caso de querer determinar la longitud de los peces que se
crían en Embalse, ya que la exactitud de la misma dependerá del instrumento con que
se realice el proceso. En el caso de pretender determinar el grado de calidad de los
maestros plásticos de Córdoba, no hay la menor duda en que, la definición de la
misma dependerá del criterio experiencia y capacidad de quien realice la valorización
de cada obra. Es decir será necesario efectuar una clasificación de los tipos de datos:
Discretos
Cuantitativos
Continuos
Tipos de Datos
Cualitativos
Nominales
Jerarquizados
Materia: HERRAMIENTAS MATEMÁTICAS III (ESTADÍSTICA I)
Profesor: MARIO MARÍN
-4-
Discretos: Se dice que un valor es discreto cuando es el resultado de un conteo.
Número de televisores por hogar
Cantidad de alumnos aprobados o reprobados en una evaluación
Número de habitantes por médicos en una localidad; etc.
Tómense éstos como modelos de datos discretos
Continuos: Se dice que una variable es del tipo continuo cuando asume
valores dentro de un intervalo de números reales.
Las alturas de los alumnos de un curso
La longitud de peces en un lago
El volumen de precipitaciones anuales etc.
Es decir en definitiva, cuando el valor del dato u observación se mide en un intervalo,
decimos que es del tipo continuo
Nominales: Cuando los valores que adopta la variable en estudio puede ser
clasificada de acuerdo a categorías, tal como lo sería el responder a una encuesta
efectuada al personal de una Empresa automotriz y en la cual se plantea la situación
de cada uno en cuanto a su estado civil. Sabemos que en este caso se tendrían las
categorías de:
Soltero
casado
viudo
divorciado
O el caso de realizar un estudio en un club social, en donde nos encontraremos con
que sus asociados se encuentran categorizados por edad según:
Infantiles
cadetes
mayores
En estos casos en donde los datos se pueden agrupar por categorías es necesario
introducir, a fin de poder realizar su estudio, una
cierta codificación. De cualquier
manera no se podrán hacer estudios matemáticos entre categorías.
Jerarquizados:
Este tipo de dato se presenta cuando es necesario otorgarle a la
variable una cierta jerarquía de orden. Supongamos tener que estudiar el grado de
calidad de las obras expuestas por un cierto número de plásticos de Córdoba a fin de
asignar los correspondientes premios. A tal efecto será necesario acudir al juicio de
un perito que permita definir el grado de categoría de cada uno de los participantes,
esto implica que en el proceso de jerarquizar las obras de cada uno influirá el
criterio de quién realiza el estudio, tal vez de ser otro el que efectúe el análisis pudiere
modificar dicho orden. Como conclusión entonces no podrá en este tipo de variable
asegurar la exactitud del cálculo
2.2. VALORES ESTADÍSTICOS
Materia: HERRAMIENTAS MATEMÁTICAS III (ESTADÍSTICA I)
Profesor: MARIO MARÍN
-5-
Al definir los objetivos de la Estadística, expresábamos la necesidad de poder inferir
sobre las características de la población, a través del análisis y estudio de la muestra.
Todos los valores que se determinan en la muestra se denominan estadísticos,
mientras que los valores propios de la población se denominan parámetros. Además
los valores estadísticos se pueden clasificar de acuerdo a sus características de la
siguiente manera:
Media
Mediana
De tendencia
central o posición
Moda
Valores
estadísticos
Rango
De dispersión
Desvío medio
Varianza
Desviación estándar
Coeficiente de variación
SERIE SIMPLE
A los efectos de preparar un Congreso Internacional en una zona del Sur del País, se
ha solicitado el registro de las temperaturas mínimas de los últimos once días del mes
de julio del año anterior, obteniendo como respuesta los siguientes datos:
-2
0
1
-1
-3
-1
-2
-2
1
0
-2
La primera operación a realizar par el estudio de esa muestra es la de ordenar las
observaciones de menor a mayor.
El conjunto de observaciones ordenadas de menor a mayor se denomina Serie
Simple.
-3
-2
-2
-2
-2
-1
-1
0
0
1
1
En este caso, la variable en estudio está dada por las temperaturas y cada una de las
observaciones corresponderá a un nuevo valor adoptado por la incógnita.
x = temperatura
n = número de observaciones = 11
La Serie simple se puede expresar como:
x1
x2
x3
x4 . . . . . . . . . . . . . . . . . . . . . . . . . . .xn
Materia: HERRAMIENTAS MATEMÁTICAS III (ESTADÍSTICA I)
Profesor: MARIO MARÍN
-6-
donde:
x1= -3
y
xn = 1
Con todos los valores que adopta la variable en estudio se genera una distribución,
denominada Distribución de la Variable en estudio
2-3. MEDIA
Se define como media aritmética o promedio de una distribución al cociente entre la
suma de todas las observaciones dividido el número total de ellas:
Es conveniente aclarar que la media poblacional se define como:
x1 + x2 + x3 + . . . . + xN
µ = -------------------------------N
N tamaño de la población
Cuya denotación general es
N
∑ xi
µ=
1
N
Mientras que en la muestra el estadístico x corresponde a la media de la muestra.
x1 + x2 + . . . . . . . + xn
x
=
-------------------------------n
n es el número de observaciones.
Se denota como:
n
∑x
i
x=
1
n
El siguiente diagrama representa la analogía entre la media poblacional para una
población y la media muestral para una muestra:
Materia: HERRAMIENTAS MATEMÁTICAS III (ESTADÍSTICA I)
Profesor: MARIO MARÍN
-7-
Población
µ
Muestra
Tamaño: N
x
Tamaño: n
En nuestro caso:
-3+(-2)+(-2)+(-2)+(-2)+(-1)+(-1)+0+0+1+1
x
= ------------------------------------------------------ = -1
11
Dentro de los valores estadísticos de posición central la media es el de mayor
representatividad, pero debemos tener presente que a su ves es el más sensible a
los valores extremos de la distribución
Los valores extremos de la distribución pueden influir en el valor de la media y de esa
manera hacerle perder su condición de referente, tenga Ud. en cuenta el siguiente
ejemplo: En una Empresa con 9 operarios que ganan cada uno de ellos la cantidad de
$1000 mensuales, y con un Gerente general cuyo sueldo es de $10.000, el sueldo
promedio para esa distribución será:
1000 + 1000 + 1000 + . . . . + 10000
19.000
µ = ---------------------------------------------- = ------------10
10
µ = $ 1900
Esto estaría indicando que el sueldo promedio de los empleados de la empresa es de
$1900, cifra esta que de ninguna manera representa la realidad.
Recordar
Población
MEDIA
µ
Muestra
x
Cantidad de elementos
N
n
2.4. MEDIANA
Se define como Mediana de una distribución, al valor
distribución
que ocupa el punto medio de la
Ocupar el punto medio de la distribución implica que la mediana deja a la izquierda la
misma cantidad de valores que a la derecha. Todos los valores que se encuentran a la
izquierda son menores o eventualmente iguales a él, mientras que los valores que se
ubican a la derecha serán mayores o eventualmente iguales a él.
Materia: HERRAMIENTAS MATEMÁTICAS III (ESTADÍSTICA I)
Profesor: MARIO MARÍN
-8-
Continuando con el ejemplo referido a las temperaturas en una localidad del Sur:
-3
x1
-2
x2
-2
x3
-2
x4
-2
x5
-1
x6
-1
x7
0
x8
0
x9
1
x10
1
x11
Me = x6 = -1
Teniendo presente que el número de observaciones n = 11
el valor que ocupa el
lugar central de la distribución corresponderá a x6 y por lo tanto la mediana toma el
valor de -1.
Cuando el número de componentes de la distribución es impar, la mediana está
perfectamente definida, pero para el caso de que n sea par, no se tiene un único valor
central, en este caso la mediana estará dada por el promedio de los dos valores
centrales. Suponiendo que se le quitara el último valor a la distribución de
temperaturas que estamos analizando, el número de observaciones n = 10 y los dos
valores centrales serían x5 y x6.
-3
x1
-2
x2
-2
x3
-2
x4
-2
x5
-1
x6
-1
x7
0
x8
0
x9
1
x10
x5 + x 6
Se tendría en este caso que Me = ------------2
Podemos generalizar el valor de la mediana para una distribución de n valores
teniendo en cuenta que el número de observaciones sea par o impar:
Si n es impar Me = x i
Mediana
Si n es par
donde i = (n+1)/2
x(n/2) + x(n/2 +1)
Me = -----------------2
Para determinar el valor de la mediana de una serie simple o distribución de
frecuencia es necesario tener en cuenta el número de observaciones, si n es impar, la
mediana pertenece a la distribución y esta dada por el valor que ocupa el punto
central de la misma. En el caso de que n sea impar, el valor de la mediana esta dado
por el promedio de los dos valores centrales, esto implica que puede pertenecer a la
distribución solo en el caso de que los valores centrales sean iguales:
a) 4
b) 2
6
10
6
18
8
20
Me = 6
Me = 14
Materia: HERRAMIENTAS MATEMÁTICAS III (ESTADÍSTICA I)
Profesor: MARIO MARÍN
-9-
c) 4,3 5,8
d) 2
3
e) 3,5 4,7
6,2
3
6,8
7,2
6
7,3
8,5
9
9,6
9,6
10
12,5
Me = 6,7
Me = 3
Me = 7,3
Observe el lector que a diferencia de la media o promedio la cuál se ve influenciada
por los valores extremos, según ya vimos, no ocurre lo mismo con la mediana la cuál
se presenta como insensible a los valores extremos y por lo tanto describe con mayor
exactitud las distribuciones en donde los valores extremos son sensibles .Son ejemplo
de este tipo de distribuciones:
a) los ingresos personales
b) Las retribuciones generales en una empresa
c) Gastos domésticos
d) Ingresos netos por hogar, etc.
No obstante todo esto las propiedades que presenta la media y que veremos
más adelante la hace más atractiva para su utilización.
2.5. MODA
Se define como Moda de una distribución al valor que más veces se repite.
En nuestro caso -2 se repite
en cuatro oportunidades y por lo tanto éste valor se
constituye en moda de la distribución.
Mo = -2
Con respecto a este valor es necesario aclarar que si en una distribución se tiene más
de un valor con el mismo máximo de repeticiones, cada uno de ellos se constituirá en
una nueva moda, es decir que una distribución puede tener más de una moda. En
caso de tener dos modas se la denomina bimodal y en caso de tres trimodal, etc.
Así mismo si se presentare el caso en que todos los valores de la distribución tienen
el mismo número de repeticiones, diremos que dicha distribución no tiene moda.
FRECUENCIA
Dada una distribución se define como Frecuencia de un valor, al número de veces que
el mismo se repite.
Ejemplo:
En la distribución correspondiente a las temperaturas mínimos tomadas en una
localidad del Sur del País durante los últimos 10 días, defina para cada valor su
frecuencia:
-2
-2
-4
-1
-1
-1
0
-3
-2
-1
para
-4 su f = 1
-3 su f = 1
-2 su f = 3
-1 su f = 4
0 su f = 1
Materia: HERRAMIENTAS MATEMÁTICAS III (ESTADÍSTICA I)
Profesor: MARIO MARÍN
- 10 -
∑f = 10
Tenga en cuenta que la suma de todas las frecuencias es igual al número total de
observaciones.
2.6. DISTRIBUCIÓN DE FRECUENCIA
En la mayoría de los casos nos encontraremos con una cantidad de observaciones n
que superan los 20, por lo tanto pretender operar con una serie simple se tornaría
engorroso, en estos casos será conveniente seleccionar los valores de acuerdo a una
determinada clase y determinar de cada una de ellas su frecuencia, de allí que es
común encontrar a este tipo de distribución como Distribución de intervalos, a los
efectos de facilitar el aprendizaje del alumno subdividiremos este tipo de distribución
en dos grupos:
1) cuando la amplitud de intervalo es igual a 1
2) cuando la amplitud del intervalo de clase toma un valor mayor a 1
Caso a analizar
Supongamos tener que estudiar el número de accidentes que se producen en una
playa de estacionamiento durante los últimos 50 días. Los datos relevados son los
siguientes
3
0
4
4
5
6
4
3
4
6
4
2
2
5
4
1
1
2
4
3
4
3
3
2
2
6
2
2
5
4
7
0
4
3
5
1
3
1
4
4
5
3
4
4
6
4
1
7
7
4
Es observable que trabajar con todos los valores como lo presenta la serie simple
sería por demás engorroso si no se dispusiera de una computadora, pero si
clasificamos los valores, en este caso de acuerdo a su valor numérico y para cada
uno de ellos determinamos su frecuencia, podríamos confeccionar una tabla de las
siguientes características:
Tabla 1.1
Clase
xi
fi
1
0
2
2
1
5
3
2
7
4
3
8
5
4
16
6
5
5
7
6
4
8
7
3
Materia: HERRAMIENTAS MATEMÁTICAS III (ESTADÍSTICA I)
Profesor: MARIO MARÍN
- 11 -
∑f =
i
50
i
Si ahora
analizamos
la tabla de esta manera, se simplifica enormemente la
determinación de la media ya que en lugar de efectuar la
suma de todas las
observaciones, efectuaremos el producto de cada valor por su frecuencia y la suma de
estos productos lo dividiremos por el número total de observaciones.
8
∑ ( Xi . fi )
1
x =
8
∑ fi
1
Nota: Debemos tener presente que estamos frente a una muestra
A los efectos de facilitar los cálculos, generemos en la tabla una nueva columna
conteniendo los productos de xi * fi.
Tabla 1.2
Clase
xi
fi
xi * fi
1
0
2
0
2
1
5
5
3
2
7
14
4
3
8
24
5
4
16
64
6
5
5
25
7
6
4
24
8
7
3
21
50
177
De esta manera podemos calcular la media como:
n
∑ ( xi. fi )
i =1
x=
= 177 / 50 = 3,54
n
El valor de la media o promedio de la distribución es de
x = 3, 54
2.7. FRECUENCIA RELATIVA
Definición: Se define como frecuencia relativa de un valor y se expresa como fri, al
cociente entre su frecuencia y la suma de todas las frecuencias (la suma de todas las
frecuencias es igual al número de elementos de la distribución).
fri =
fi
∑f
=
i
Materia: HERRAMIENTAS MATEMÁTICAS III (ESTADÍSTICA I)
Profesor: MARIO MARÍN
- 12 -
∑fi = n
por lo tanto también se puede expresar
∑fi
fr i = --------n
Podemos ampliar la tabla de frecuencias con una nueva columna que contenga la fr de
cada clase:
Tabla 1-3
Clase
xi
fi
xi * fi
fri
1
0
2
0
0,04
2
1
5
5
0,1
3
2
7
14
0,14
4
3
8
24
0,16
5
4
16
64
0,32
6
5
5
25
0,1
7
6
4
24
0,08
8
7
3
21
0,06
50
177
1
Propiedad:
La sumas de todas las frecuencias relativas
clases de una distribución es igual a 12:
correspondientes a los valores
∑ fri = fr1 + fr2 + fr3 . . . . . . . . + fr n
Tener en cuenta:
El concepto de frecuencia relativa, la media de una distribución poblacional también se
puede expresar como:
∑(xi . fi)
µ = -------------- = ∑(xi . fi/∑fi )
∑fi
2
es decir
Demostración
∑ fri = fr1 + fr2 + fr3 . . . . . . . . + fr n
f1
f2
f3
= --- + --- + ---- +
∑fi
∑fi
∑fi
fn
∑fi
+ --- = ------- = 1
∑fi
∑fi
Materia: HERRAMIENTAS MATEMÁTICAS III (ESTADÍSTICA I)
Profesor: MARIO MARÍN
- 13 -
µ = ∑(xi. fri)
2.8
FRECUENCIA ACUMULADA
Se define como frecuencia acumulada de una clase (por ejemplo i) y se la denota
como fai, a la suma de su frecuencia y la suma de las frecuencias de los valores que
le anteceden.
Analicemos la tabla 1.3 de la página anterior,(correspondía al número de accidentes
que se produjeron durante los últimos 50 días en una playa de estacionamiento),
teniendo en cuenta la definición de frecuencia acumulada tendremos:
Tabla 1.4
Clase
xi
fi
xi * fi
fri
fai
1
0
2
0
0,04
2
2
1
5
5
0,1
7
3
2
7
14
0,14
14
4
3
8
24
0,16
22
5
4
16
64
0,32
38
6
5
5
25
0,1
43
7
6
4
24
0,08
47
8
7
3
21
0,06
50
50
177
1
Cuáles son las bondades que nos brinda la frecuencia acumulada:
a) Nos indica con su lectura el número de valores pertenecientes a la distribución
que se ubican a la izquierda de cada uno de ellos. Si se quiere saber cuantos
días se registraron menos de 2 accidentes, se tendrá la frecuencia acumulada
del 1, es decir 7, lo que implica que de los 50 días analizados solo en 7 de ellos
se tuvieron menos de dos accidentes diarios, pero con valores menores o iguales
a 2 se tuvieron 14, quiere decir que, de los 50 días, en 14 de ellos se tuvieron 2 o
menos de 2 accidentes diarios, este análisis indica también que, del total de días
analizados, 7 de ellos tuvieron exactamente 2 accidentes diarios.
b) Más adelante cuando efectuemos su graficación Ud. podrá visualizar con mayor
claridad esta propiedad.
c) También nos permite determinar rápidamente el valor de la mediana. Analizando
nuestro caso, el número de observaciones es par, por lo que la mediana será el
promedio de los dos valores centrales, el x n/2 y el x (n/2 + 1). . Para determinar el
valor que ocupa la posición n/2 ( en este caso 50/2 =25, el x 25 , nos ubicamos en
la columna correspondiente a frecuencia acumuladas y determinamos a cual de
las clases le corresponde la menor frecuencia acumulada que contiene a n/2,
en este caso le corresponde a la quinta clase, cuyo valor es el 4, desde la x 23 ,
hasta la x38 le corresponden 4, por lo tanto la Me = 4
Materia: HERRAMIENTAS MATEMÁTICAS III (ESTADÍSTICA I)
Profesor: MARIO MARÍN
- 14 -
2.9 FRECUENCIA DESACUMULADA
Se define como frecuencia desacumulada de un valor, fds de una distribución, a la
diferencia entre el número total de observaciones y su frecuencia acumulada.
Es decir que para un valor cualquiera se verifica que:
fdsi = n - fai
Analicemos la Tabla 1.5 a la cual se le creo una nueva columna conteniendo la
frecuencia desacumulada, aplicando su definición
Tabla 1.5
Clase
xi
fi
xi * fi
fri
fai
fds
1
0
2
0
0,04
2
48
2
1
5
5
0,1
7
43
3
2
7
14
0,14
14
36
4
3
8
24
0,16
22
28
5
4
16
64
0,32
38
12
6
5
5
25
0,1
43
7
7
6
4
24
0,08
47
3
8
7
3
21
0,06
50
0
50
177
1
De la definición se desprende que:
fai + fdsi = n
Bien podemos decir que la frecuencia desacumulada es el complemento a n de la
acumulada, es decir que para cada uno de los valores nos indica cuantos tenemos a la
derecha de él. La frecuencia desacumulada del valor de x=2, nos indica que
la
distribución posee 36 observaciones mayores que ese valor. También podríamos
valernos de este parámetro para la determinación de la mediana, dejamos para que
Ud. efectúe el análisis correspondiente a esa situación Analizaremos más adelante el
diagrama representativo de ambas frecuencias correspondientes a una distribución
DISTRIBUCIÓN DE FRECUENCIAS PARA DATOS NOMINALES
Consideremos las ventas de los distintos tipos de sabor de gaseosas realizadas en el
Bar de una Universidad durante un día de concurrencia normal del alumnado.
Colas
Naranja
Limón
Tónicas
Agua c/gas
Agua s/gas
Jugos
55
63
72
44
15
18
33
En este caso no tiene sentido determinar el valor de la media de la distribución,
téngase en cuenta que las clases están dadas por los distintos tipos de bebidas, luego
tiene sentido decir que la más vendidas son las bebidas de limón, siguiéndole en
Materia: HERRAMIENTAS MATEMÁTICAS III (ESTADÍSTICA I)
Profesor: MARIO MARÍN
- 15 -
importancia las de naranja, es decir el valor de tendencia central que utilizaremos en
casos como estos le corresponde a la Moda. Sí sería conveniente generar una tabla
de frecuencias y determinar los porcentajes de cada uno de los sabores.
Tabla 1.6
xi
Agua c/gas
Agua s/gas
Jugos
Tónicas
Colas
Naranjas
Limón
fi
15
18
33
44
55
63
72
fri
0,05
0,06
0,11
0,1467
0,1833
0,21
0,24
∑ fi = 300
fi%
5
6
11
14,67
18,33
21
24
∑ fi% = 100
3-0 DIAGRAMAS
El poder graficar los valores estadísticos nos permite realizar una lectura rápida de la
distribución y sacar conclusiones inmediatas de la misma.
Sería suficiente abrir una hoja de cálculo para observar la cantidad variada de gráficos
con que puede ser representada una distribución: Diagramas de: Líneas, Barras,
Barras acumuladas, de Sectores o circular, Diagramas x-y, de Bastones etc. En este
texto haremos referencia a los diagramas: Circular, de Bastones e Histogramas y a
una combinación de los gráficos de Bastones, Barras y x-y Dispersión.
Ejercicio
Supongamos tener para analizar las notas obtenidas por 20 alumnos de una división
en la asignatura de Estadística:
9
7
6
6
6
5
3
4
5
5
8
7
8
7
7
6
5
6
4
10
Generaremos una distribución de frecuencias complementándola con: Frecuencias
relativas, Frecuencia acumulada y por último Frecuencia desacumulada.
Tabla 1.7
Xi
fi
fr i
fa
fds
3
1
0,05
1
19
4
2
0,1
3
17
5
4
0,2
7
13
6
5
0,25
12
8
7
4
0,2
16
4
8
2
0,1
18
2
9
1
0,05
19
1
10
1
0,05
20
0
20
1
Toda vez que se presenta una tabla tal como la 3.1, la primera pregunta que surge es,
“que se debe graficar” debe de tenerse siempre en cuenta que cada vez que se
Materia: HERRAMIENTAS MATEMÁTICAS III (ESTADÍSTICA I)
Profesor: MARIO MARÍN
- 16 -
habla de graficar estamos deseando volcar en forma gráfica una cierta relación. En la
presente situación, la variable en estudio es la calificación, por lo cual se podría
graficar la relación:
Calificación y frecuencia Calificación y
frecuencia relativa Calificación y
frecuencia acumulada Calificación y
frecuencia desacumulada
3.1
Diagrama de bastones:
Llevaremos en el eje de las abscisas las calificaciones y en el eje de las ordenadas las
frecuencias y representamos mediante un segmento centrado en cada una de las
calificaciones su correspondiente frecuencia; tendremos nuestro primer diagrama.
Cada uno de los bastones corresponde a la frecuencia de cada calificación y toma el
nombre de densidad de frecuencia entendiéndose como tal al cociente:
fi
dfi = ---es decir frecuencia por unidad de intervalo de clase
Δx
Gráfico 1.1
Diagrama de Bastones
6
frecuencia
5
4
3
2
1
0
3
4
5
6
7
8
9
10
calificaciones
3.2
DIAGRAMA DE SECTORES
Para este gráfico debemos tener presente que el ángulo central del círculo es de 360º
y que cada una de las clases estará dada por un sector cuyo ángulo será proporcional
a su frecuencia:
Supongamos la calificación de 3 cuya frecuencia es 1 tendremos que:
20 (suma de todas las frecuencias) ------------------------ 360º
a 1 (frecuencia del 3)
----------------------- α1 = 360º. 1 / 20 = 18º
Materia: HERRAMIENTAS MATEMÁTICAS III (ESTADÍSTICA I)
Profesor: MARIO MARÍN
- 17 -
Analicemos la calificación del 4 cuya frecuencia es 2:
Si a 20 (frecuencia total) ---------------------------- 360º
A
2 (frecuencia del 4) ---------------------------- α2 = 360º. 2 /20 = 36º
Repitamos el procedimiento para el 5 el cuál tiene frecuencia 4
Si a 20 le corresponde ----------------------------360º
A 4
---------------------------- α4 = 360º. 4/20 = 72º
Debe tenerse en cuenta que en todos los casos la operación que nos permite
determinar el ángulo de cada sector está dado por el producto entre 360º y el cociente
de la frecuencia de la calificación en estudio y la suma de todas las frecuencias (N),
cociente éste que según ya vimos corresponde a la frecuencia relativa (fri = f / N), es
decir que el ángulo correspondiente a un determinado sector está dado por el producto
entre 360º y su frecuencia relativa:
αi = 360º. fri
Gráfico 1.2
Diagrama de Sectores
9
10
3
4
8
5
7
6
En realidad es más interesante plantear este mismo diagrama pero expresado en
porcentajes, para lo cuál el análisis es muy similar al anterior. Al total de
observaciones, 20 en este caso, le corresponderá el 100% y por lo tanto para
cualquiera de las observaciones con frecuencia fi le corresponde será:
Si a 20 --------------------------- 100%
fi --------------------------- %i = 100. fi / 20
Nuevamente nos encontramos con que el porcentaje correspondiente a cada una de
las calificaciones estará dado por el producto entre 100 y la frecuencia relativa
correspondiente a cada una de ellas. El gráfico tiene la misma estructura anterior.
Materia: HERRAMIENTAS MATEMÁTICAS III (ESTADÍSTICA I)
Profesor: MARIO MARÍN
- 18 -
Gráfico 1.3
Diagrama de Sectores Calificaciones
en porcentajes
9
5%
10
5%
3
5%
4
10%
8
10%
5
20%
7
20%
6
25%
3.2-HISTOGRAMA DE FRECUENCIAS:
Éste es otro de los diagramas de gran utilización para el cuál es necesario considerar
un sistema de ejes cartesianos ortogonales, debiendo
representar en el eje de las
abscisas las calificaciones y en el de las ordenadas la frecuencia, las clases están
dadas por las calificaciones. El intervalo entre dos clases sucesivas se denomina
“amplitud de intervalo”, en este caso es la unidad y se la expresa como Δx = 1. Si
consideramos el diagrama de bastones y a partir del extremo inferior de cada uno de
ellos llevamos tanto a izquierda como a derecha la mitad del intervalo, en nuestro
caso 1 / 2 = 0,5 y levantamos las ordenadas correspondientes, nos encontramos con
un diagrama de barras sin discontinuidades al que denominaremos Histograma, en
este caso de Histograma de Frecuencias.
Gráfico 1.4
Materia: HERRAMIENTAS MATEMÁTICAS III (ESTADÍSTICA I)
Profesor: MARIO MARÍN
- 19 -
Frecuencia
Histograma de Frecuencias
6
5
4
3
2
1
0
0
1
2
3
4
5
6
7
8
9 10 11
Calificaciones
La superficie encerrada por cada una de las barras está dada por el producto entre la
base Δx por la altura que según ya vimos estaba dada por la densidad de frecuencia.
dfi = fi /Δx por lo tanto:
Si = Δx. dfi = Δx. fi / Δx = fi
Cada una de ellas tendrá un valor igual a su frecuencia y el área total del diagrama
será entonces la suma de todas las frecuencias e igual a N.
∑Si = ∑ fi = N
3.4 - POLÍGONO DE FRECUENCIAS
Si se unen los puntos medios superiores de cada una de las barras del histograma y
se considera cero las frecuencias de las clases adyacentes a los extremos de la
distribución, se formará con el eje de las abscisas un polígono denominado, en este
caso, como Polígono de Frecuencias:
Gráfico 1.5. Polígono de frecuencias
Materia: HERRAMIENTAS MATEMÁTICAS III (ESTADÍSTICA I)
Profesor: MARIO MARÍN
- 20 -
6
5
fi
4
3
2
1
0
2
3
4
5
6
7
8
9
10
11
xi
El área encerrada por el polígono de frecuencias es igual al área encerrada por el
histograma de frecuencias.
Consideremos la barra del histograma correspondiente al valor de la variable x = 6.
Observamos que mientras que la superficie del triángulo superior de la barra que
pertenece al histograma no pertenece al polígono, la superficie del triángulo inferior no
perteneciente al histograma si pertenece ahora al polígono, como las superficies de
ambos triángulos son iguales3, lo son también las superficies del polígono y del
histograma de frecuencias.
3.5 - HISTOGRAMA DE FRECUENCIAS RELATIVAS
Si en el eje de ordenadas se representan a las frecuencia relativas en lugar de las
frecuencias, se obtiene el Histograma
de
Frecuencias Relativas que tendrá las
mismas características que el diagrama de frecuencias ya que fr i = fi / N, es decir que
se divide a los valores de la ordenada por un valor constante N y por lo tanto
gráficamente representa un cambio de escalas.
En este caso la altura de cada barra esta dada por la densidad de frecuencia relativa
dfri = fri / Δx
y por lo tanto al igual que en el diagrama anterior, la superficie encerrada por cada
una de las barras del Histograma será igual a su frecuencia relativa:
Si = Δx. fri / Δx = fri
De tal manera que el área encerrada por el Histograma de frecuencias relativas será
ahora igual a la suma de todas las frecuencias relativas y por tal razón igual a 1:
∑ Si = ∑ fri = 1
Gráfico 1.6
3
Dos triángulos rectángulos en A y A’ con los ángulos α y α’ iguales por opuestos por el vértice, β y β’
alternos internos entre paralelas y el lado 11’ = 22’= Δx / 2 por lo tanto son iguales.
Materia: HERRAMIENTAS MATEMÁTICAS III (ESTADÍSTICA I)
Profesor: MARIO MARÍN
- 21 -
Histograma de Frecuencia Relativas
0,3
0,25
fr
0,2
0,15
0,1
0,05
0
2
3
4
5
6
7
8
9
10
11
x
3.6 – POLÍGONO DE FRECUENCIAS RELATIVAS
De la misma manera en que definimos al polígono de frecuencias, se define también al
polígono de frecuencias relativas. Tanto la superficie encerrada por el polígono de
frecuencias relativas como el del Histograma de esas mismas frecuencias son iguales
a 1.
Gráfico 1.7
Materia: HERRAMIENTAS MATEMÁTICAS III (ESTADÍSTICA I)
Profesor: MARIO MARÍN
- 22 -
Histograma y Polígono de Frecuencias Relativas
0,3
0,25
0,2
0,15
0,1
0,05
0
2
3
4
5
6
7
8
9
10
11
3.7 FRECUENCIA ACUMULADA
Supongamos analizar el número de accidentes de trabajo que se producen
diariamente en una empresa metalúrgica local, para lo cuál se han considerado los
detectados durante los últimos veinte días.
5
4
6
3
4
5
3
7
3
4
2
0
2
1
3
4
2
5
6
1
Confeccionaremos una tabla de frecuencias:
Tabla 1.8
xi
fi
fai
0
1
1
1
2
3
2
3
6
3
4
10
4
4
14
5
3
17
6
2
19
7
1
20
∑fi = 20
Para confeccionar el gráfico de frecuencias acumuladas llevaremos sobre el eje de las
abscisas los valores observados y en el eje de las ordenadas las frecuencias
acumuladas.
Para el primer valor de la distribución cero, la frecuencia acumulada vale 1, este valor
se mantendrá constante hasta 1 en donde la frecuencia acumulada toma el valor de 3,
se mantiene constante hasta el valor observado de 2 en donde la fa adopta el valor de
Materia: HERRAMIENTAS MATEMÁTICAS III (ESTADÍSTICA I)
Profesor: MARIO MARÍN
- 23 -
6 y así sucesivamente hasta el valor de 7 en donde fa toma el valor de 20 y se
mantiene constante con este valor. Siga esto en el gráfico 1.8.
Gráfico 1.8
frecuencia acumulada
FRECUENCIA ACUMULADA
22
20
18
16
14
12
10
8
6
4
2
0
0
1
2
3
4
5
6
7
8
9
OBSERVACIONES
Observe el lector con que claridad este diagrama le entrega información. Por ejemplo
analizando la observación 4, el punto inferior de la barra indica que menores a 4
accidentes diarios se han producido en 10 oportunidades mientras que el punto
superior
indica que en 14 oportunidades se han producido 4 o menos accidentes
diarios. De igual manera en 17 oportunidades se produjeron menos de 6 accidentes en
un día y que en solo 2 oportunidades se produjeron 6 accidentes.
De igual manera podemos graficar la frecuencia desacumulada conjuntamente con la
acumulada tal como lo muestra el Gráfico 1.8 denominado comúnmente como gráfico
de escalones. Debe tenerse en cuenta que para cualquier valor observado la suma de
la frecuencia acumulada y la desacumulada es igual al número total de observaciones.
fa + fds = n
Materia: HERRAMIENTAS MATEMÁTICAS III (ESTADÍSTICA I)
Profesor: MARIO MARÍN
- 24 -
frecuencia
Gráfico 1.9
22
20
18
16
14
12
10
8
6
4
2
0
Frecuencia acumulada
Frecuencia
desacumulada
0
1
2
3
4
5
6
7
8
9
observaciones
La intersección de ambas gráficas debe de verificarse para fa = fds = n/2.
En el punto de intersección ambas frecuencias son iguales por lo que podemos decir
que:
fa + fds = fa + fa = n
por lo que
2 fa = n
y
fa = n / 2
RELACIÓN ENTRE MEDIA, MEDIANA Y MODA
Cuando nos referimos al histograma de frecuencias relativas decíamos que el área
encerrada por cada una de las barras nos entregaba el valor de la frecuencia relativa
del valor correspondiente a dicha barra... Si este concepto lo extendemos a toda la
distribución podemos asegurar que considerando un determinado intervalo de las
observaciones el área encerrada por el histograma en dicho intervalo será igual a su
frecuencia relativa, valor que según ya vimos multiplicada por 100 nos entrega el
porcentaje de observaciones comprendidas en ese intervalo. Además demostramos
que la superficie encerrada por el histograma de frecuencias relativas era igual a la
superficie del polígono de fr. Simplificando, el área encerrada por el polígono de
frecuencias relativa es igual a 1 y esto implica también que encierra el 100% de las
observaciones.
Analicemos las distribuciones correspondientes a las calificaciones obtenidas por tres
divisiones que denominaremos como A, B y C en la asignatura de Estadística:
Materia: HERRAMIENTAS MATEMÁTICAS III (ESTADÍSTICA I)
Profesor: MARIO MARÍN
- 25 -
Tabla 1.9
A
B
C
xi
fi
fi
fi
1
6
0
0
2
8
1
0
3
5
2
1
4
4
4
1
5
3
5
2
6
2
6
4
7
1
5
5
8
1
4
7
9
0
2
5
10
0
1
2
30
30
27
Las tres distribuciones tienen características distintas, veamos:
A)
µ =.∑ (xi.fi) / N
= 3,1667
Me = (x15 + x16) / 2 = 3
Mo = 2
B)
µ =.∑ (xi.fi) / N = 6
Me = x16 = 6
C)
Mo = 6
µ = ∑ (xi.fi) / N = 7,296
Me = x14 = 8
Mo = 8
Si graficamos los histogramas y polígonos de las frecuencias relativas de cada una de
las distribuciones relativas suavizando convenientemente los lados del polígono, nos
encontraremos con los siguientes gráficos:
Materia: HERRAMIENTAS MATEMÁTICAS III (ESTADÍSTICA I)
Profesor: MARIO MARÍN
- 26 -
Gráfico 1.10 (División A)
frecuencia relativa
Histograma y polígono de frecuencias
relativas
0,3
0,25
0,2
0,15
0,1
0,05
0
1
2
3
4
5
6
7
8
9
10
observaciones
Grafico 1.11 (División B)
Histograma y polígono de frecuencias
relativas
0,25
0,2
0,15
0,1
0,05
0
1
2
3
4
5
6
7
8
9
10 11
obs e r vacione s
Grafico 1.12 (División C)
Histograma y polígono de frecuencias
relativas
0,3
0,25
0,2
0,15
0,1
0,05
0
1
2
3
4
5
6
7
8
9
10 11
observaciones
Materia: HERRAMIENTAS MATEMÁTICAS III (ESTADÍSTICA I)
Profesor: MARIO MARÍN
- 27 -
En el caso de la división B se observa una cierta simetría respecto a un eje vertical
coincidente con la mediana la moda y la media, decimos entonces que la distribución
es del tipo Normal, y que en ese caso coinciden los tres valores µ; Me y Mo.
En el A la distribución se presenta en forma asimétrica y en este caso decimos que
corresponde a una asimétrica derecha asignándosele un signo positivo. A su vez, la
observación de mayor ordenada le corresponderá a la moda y la media tendrá que
dividir al área total en dos áreas iguales, de acuerdo a su gráfica y a sus valores se
observa que la media tiene un valor mayor a la mediana y que a su vez ésta se ubica
entre la media y la moda.
Al analizar la última distribución C observamos que la misma es asimétrica, tiene sesgo
izquierdo y se le asigna signo negativo. Nuevamente la moda queda definida por
correspóndele a la abscisa de mayor ordenada, la mediana Me si bien en este caso
coincidiría con el valor de la moda, la media se ubica a la izquierda de la moda, no
olvidemos que la distribución pivotea en ese punto . La mediana se ubica en general
entre la media y la moda aunque en este caso por tratar con variable discreta, la Me
coincide con la Mo.
En toda distribución sesgada ya sea a la derecha o a la izquierda, el segmento
comprendido por la media y la mediana es aproximadamente un tercio del segmento
comprendida entre la media y la moda.
Una distribución puede ser:
Simétrica
Distribución
µ = Me = Mo
Derecha µ < Me < = Mo
Asimétrica
Izquierda µ > Me > = Mo
3.2 DISTRIBUCIÓN DE INTERVALOS DE CLASE
En una unidad militar de entrenamiento para futuros oficiales, se han determinado los
tiempos que tardan los integrantes de un pelotón en cruzar la pista de combate. Estos
valores expresados en minutos son los siguientes:
3,1
3,4
3,6
3,6
3,6
3,7
3,7
3,8
3,8
3,9
3,9
4
4
4,1
4,2
4,2
4,3
4,3
4,
4,5
4,6
El jefe de pelotón necesita realizar un estudio estadístico sobre estos tiempos a los
efectos de determinar:
a- Qué proporción de hombres tardan menos de 3,5’ en cruzar la pista de
combate
b- Qué proporción de los hombres del pelotón tardan menos de 4’ en cruzar la
pista
En casos como el presentado, donde el número de observaciones es mayor a 20 y la
variable en estudio es del tipo continua, se hace necesario definir como clases a
intervalos
y determinar como frecuencia de cada uno de ellos al número de
observaciones que
contienen. En este caso la distribución toma el nombre de
distribución de intervalos de clase.
Para generar una distribución de intervalos de clase debe tener en cuenta:
a) La cantidad de intervalos: La determinación del número de intervalos, a los que
llamaremos como k está relacionada con el número de observaciones n.
Mientras que algunos operadores definen:
Materia: HERRAMIENTAS MATEMÁTICAS III (ESTADÍSTICA I)
Profesor: MARIO MARÍN
- 28 -
k= n
Otros deciden optar por la expresión:
k = 1+ log2(n)
Pero en general se puede definir el valor de k teniendo en cuenta que:
5 <= k <= 15
Es decir que el número de intervalos debe estar comprendido entre 5 y 15. Una
cantidad menor de intervalos da lugar a una distribución con información insuficiente.
Por otro lado una cantidad mayor a 15 intervalos genera una distribución que resulta
engorroso operar.
Para el caso
que tenemos en estudio y teniendo en cuenta que n = 21, la raíz
cuadrada de 21 es de 4,58 y considerando la última condición, adoptaremos para k el
valor de 5, k = 5.
b) La amplitud de intervalo Δ x para la cuál adoptaremos la expresión:
Δx =
xN −x1
k
Para nuestro caso:
Δx =
4,6 −3,1
= 0,3
5
c) No puede haber un intervalo con frecuencia cero, si esa situación se
presentare, será necesario modificar la cantidad de intervalos o la amplitud de
intervalo.
d) Al definir los límites de los intervalos debe tenerse en cuenta la posibilidad
que uno de ellos puede ser cerrado y el otro abierto:
e) Es conveniente que todos los intervalos tengan el mismo tamaño y cuando
esto no sea posible, los intervalos de diferente amplitud deben ubicarse en los
extremos
f) No es conveniente que las observaciones coincidan con los límites de los
intervalos, de esta manera desaparece la duda en cuanto a la pertenencia de una
observación a un intervalo o a su adyacente.
En este caso particular, teniendo en cuenta que todas las observaciones tienen un
solo decimal, y que el menor es 3,1, adoptaremos como inicio de la distribución el
valor de 3,09, de esta manera nos aseguramos que
la primera observación quede
contenida en el primer intervalo, y además como la amplitud de intervalo es de 0,3, en
ningún caso una observación coincidirá con los límites.
3,09
3,39
3,69
3,99
4,29
4,6
[`---------------)[--------------)[-----------------)[-----------------)[--------------------]
Materia: HERRAMIENTAS MATEMÁTICAS III (ESTADÍSTICA I)
Profesor: MARIO MARÍN
- 29 -
Podemos ahora confeccionar la tabla de distribución de intervalos de clase, teniendo
en cuenta que, a los efectos de referenciar a cada intervalo, definiremos al punto
medio de cada uno de ellos como el valor representativo e igual a la semisuma de sus
límites, toma el nombre de marca de clase y se lo denota como x mi.
3,09
3,39
3,69
3,99
4,29
4,6
[`---------------)[--------------)[-----------------)[-----------------)[-------------------]
3,24
3.2
3,54
3,84
3,14
3,44
DETERMINACIÓN DE LA MEDIA
Para determinar la media de la distribución consideramos que todos los valores
pertenecientes a cada intervalo están uniformemente distribuidos en dicho intervalo,
de esta manera la suma de todos ellos estará dada por el producto entre la marca de
clase por la frecuencia de ese intervalo.
µ=
∑ ( x * fi )
mi
N
Para su determinación creamos una nueva columna conteniendo los productos de
xmi*fi:
Tabla 1.10
Li
3,09
3,39
3,69
3,99
4,29
µ=
ls
3,39
3,69
3,99
4,29
4,6
fi
1
4
6
5
5
21
xmi
3,24
3,54
3,84
4,14
4,445
xmi * fi
3,24
14,16
23,04
20,7
22,225
83,365
83,365
= 3,9697’
21
Esto nos indica que el tiempo promedio empleado por los integrantes del pelotón para
cruzar la pista de combate es de 3,9697’
HISTOGRAMA DE FRECUENCIA
Para confeccionar el Histograma y Polígono de frecuencias debemos tener presente
que las frecuencias de los intervalos adyacentes a los extremos de nuestra distribución
son nulas, además se representa en el eje horizontal las marcas de clase.
Materia: HERRAMIENTAS MATEMÁTICAS III (ESTADÍSTICA I)
Profesor: MARIO MARÍN
- 30 -
Gráfico 1.13
7
6
5
f
4
3
2
1
0
2,94
3,24
3,54
3,84
4,14
4,445
4,74
x
3.3 DETERMINACIÓN DE LA MEDIANA
La mediana tendrá que estar ubicada en el intervalo
cuya menor frecuencia
acumulada contiene a la observación X (n/2), es por lo tanto conveniente determinar las
columnas que contengan a las frecuencias acumuladas y desacumuladas.
Li
2,79
3,09
3,39
3,69
3,99
4,29
4,6
ls
3,09
3,39
3,69
3,99
4,29
4,6
4,39
Tabla 1. 11
fi
xmi
0
2,94
1
3,24
4
3,54
6
3,84
5
4,14
5
4,445
0
4,74
Xmi * fi
0
3,24
14,16
23,04
20,7
22,225
0
fai
0
1
5
11
16
21
21
fdsi
21
20
16
10
5
0
0
De acuerdo a la tabla, la mediana se ubica en el intervalo [3,69 ; 3,99) al que
denominaremos intervalo medial, y para el cuál la frecuencia acumulada es de 11 y
por lo tanto contiene a los valores correspondientes a x 10 y x11, pero faltaría
determinar el valor que más se aproxime al real.
Para la determinación de la mediana en una distribución de intervalos de clase
tendremos dos métodos:
a) Método gráfico
Tracemos los diagramas correspondientes a la frecuencia acumulada:
Materia: HERRAMIENTAS MATEMÁTICAS III (ESTADÍSTICA I)
Profesor: MARIO MARÍN
- 31 -
Analizando dicho diagrama podemos observar que de los 21 integrantes del pelotón
solo 5 de ellos cruzan la pista en menos de 3,54’, es decir que, mediante análisis del
diagrama podemos reconstruir la tabla.
Gráfico 1.14
25
20
fa
15
10
5
0
2,94
3,24
3,54
3,84
4,14
4,445
4,74
x
Combinemos en un mismo diagrama, las representaciones de frecuencia acumulada y
desacumulada. Este gráfico toma el nombre de Ojiva.
Gráfico 1.15
25
20
fa - fds
15
10
5
0
2
2,5
3
3,5
4
4,5
5
-5
x
Como ambas frecuencias se representan en el eje vertical, en el punto intersección
ambas son iguales y como su suma
Fa + frds = N
Materia: HERRAMIENTAS MATEMÁTICAS III (ESTADÍSTICA I)
Profesor: MARIO MARÍN
- 32 -
Debe verificarse que el valor de esas frecuencias, en ese punto es igual a N/2.
Como la mediana es el valor que ocupa el punto medio, la abscisa correspondiente al
punto intersección tendrá su valor. Por lo tanto las coordenadas del punto intersección
serán (Me; n/2).
b) Método Analítico
Analizaremos el intervalo medial:
Gráfico 1.16
12
12
10
10
8
6
4
2
0
3
,69
3,69
3, 99
Me 3,99
Δx
Li
Ls
Al iniciar el intervalo 3,69 su frecuencia acumulada tiene el valor de 5 (que
denominaremos frecuencia acumulada inferior y la denotaremos como
fai). De la
misma manera al finalizar ese intervalo (x = 3,69) su frecuencia acumulada es de 11 (a
la denominaremos frecuencia acumulada superior y la denotaremos como fas). Esa
variación de frecuencia acumulada de 5 a 11 es justamente la frecuencia
correspondiente al intervalo medial (fm = 6). Además como el total de observaciones
es de 21, N/2 = 10,5.
Consideremos los triángulos 123 y 12’3’ ambos rectángulos en 2 y 2’ respectivamente.
Esos triángulos son semejantes y por lo tanto sus lados homólogos son
proporcionales.
2–3
---------- =
2’ – 3’
1-2
------------1 – 2’
Si reemplazamos tendremos:
fm
Δx
Materia: HERRAMIENTAS MATEMÁTICAS III (ESTADÍSTICA I)
Profesor: MARIO MARÍN
- 33 -
------ ------(N/2 – fai)
=
--------Me –Li
Despejando Me tendremos:
Δx (N/2 – fai)
Me = Li + ----------------fm
En este caso particular, la Me = 3,69 + 0,3 *((10,5 - 5) / 6
Me = 3,965’
3.4- DETERMINACIÓN DE LA MODA
Se define como intervalo modal al intervalo de mayor frecuencia, en este caso
corresponderá a [3,69; 3,99) con frecuencia 6, coincide con el medial, pero bien podría
no coincidir, para la determinación de la moda, consideremos en el histograma de
frecuencia, el intervalo modal y los intervalos adyacentes.
Gráfico 1.17
7
6
5
f
4
3
2
1
0
3,54
3,84
4,14
x
Li
Ls
Si definimos a d1 = (frecuencia del intervalo modal) – (frecuencia del intervalo que le
antecede):
di = 6-4 = 2
y como d2 = (frecuencia del intervalo modal) – (menos la frecuencia del intervalo que
le sucede):
d2 = 6-5 = 1
Como li se define al inicio del intervalo modal (3,69), el valor de la moda de una
distribución de intervalos de clase esta dada por la expresión:
Materia: HERRAMIENTAS MATEMÁTICAS III (ESTADÍSTICA I)
Profesor: MARIO MARÍN
- 34 -
Mo = Li + Δx. ( d1/(d1+d2) )
En este caso tendremos:
Mo = 3,69 + 0,3 (2 / ( 2+1) ) = 3,89’
Conclusiones:
En una distribución de intervalos de clase, la moda se encuentra siempre ubicada en
el intervalo modal, pero desplazada hacia el intervalo adyacente de mayor frecuencia.
Los valores determinados para la media, mediana y moda, indican que la distribución
tiene un leve sesgo derecho:
µ = 3,9697’
Media
Mediana
Moda
Me = 3,965’
Mo = 3,89’
µ > Me > Mo
4- VALORES DE DISPERSIÓN
¿Son suficientes los valores de posición central para determinar las características de
una distribución? Para responder a esta pregunta observemos la siguiente situación:
Tenemos tres distribuciones que presenten la misma media, la misma moda y la
misma mediana pero no obstante ello las tres son distintas.
Pueden
tenerse dos distribuciones
mismo número de elementos o también
conformadas por los mismos elementos y no obstante ello ambas son distintas.
Tabla 1. 12
X1
0
1
2
3
4
5
6
7
8
F1
0
3
4
7
5
4
2
1
0
26
X2
0
1
2
3
4
5
6
7
8
F2
0
6
8
4
3
2
2
1
0
26
Materia: HERRAMIENTAS MATEMÁTICAS III (ESTADÍSTICA I)
Profesor: MARIO MARÍN
- 35 -
Gráfico 1.19
8
7
6
5
4
3
2
1
0
0
2
4
6
8
10
Gráfico 1.20
9
8
7
6
5
4
3
2
1
0
0
1
2
3
4
5
6
7
8
9
Es necesario entonces considerar valores que nos determinen que tán cuan dispersos
están. Estos valores se denominan valores de dispersión:
4.1 RANGO O AMPLITUD
Definición
La diferencia entre los valores extremos de una distribución se denomina Alcance o
Rango y se lo denota como R
Si definimos a xn como el mayor valor observado y a x1 como el más pequeño,
entonces:
R = xn – x1
Materia: HERRAMIENTAS MATEMÁTICAS III (ESTADÍSTICA I)
Profesor: MARIO MARÍN
- 36 -
Si bien, una vez ordenados todos los valores, el cálculo de la amplitud o recorrido es
simple e inmediata, no nos brinda ninguna información sobre las características de los
valores intermedios. Veamos las siguientes distribuciones:
A)
0
1
1
2
4
6
8
10
12
14
B)
50
50,1
50,2
50,3
50,5
50,6
50,7
50,8
60
64
En la distribución A
R = 14 – 0 = 14
En la distribución B
R = 64 – 50 = 14
Ambas tienen el mismo número de elementos, el mismo alcance, no obstante ello son
distintas, es decir que el Rango o Amplitud de una distribución
nos entrega una
información limitada.
4.2 DESVÍO MEDIO
Para determinar el grado de dispersión de los valores de la distribución, debemos
definir con respecto a que punto de referencia se toman las distancias, el punto de
referencia más utilizado es la media de la de la distribución
Considerando el ejercicio de pag. 39 (Los tiempos que los integrantes de un pelotón
tardan en cruzar la pista de combate), la distribución de intervalos la representábamos
como:
3,09
3,39
3,69
3,99
4,29
[`---------------)[--------------)[-----------------)[-----------------)[-------------------]
3,24
3,54
3,84
3,14
3,44
4,6
d1
µ = 3,9697
d2
En el primer intervalo se encuentra una sola observación, la cuál consideramos
coincidente con la marca de clase, luego su distancia respecto a la media será:
es
d1 = xm1 - µ
La dispersión de los valores ubicados en el segundo intervalo, en este caso son 4 y
habiendo considerado que los mismos se encuentran uniformemente distribuidos en
dicho intervalo, la dispersión respecto a la media estará dada por el producto de la
distancia de la marca de clase por el número de observaciones
d2 = xm2 - µ
Materia: HERRAMIENTAS MATEMÁTICAS III (ESTADÍSTICA I)
Profesor: MARIO MARÍN
- 37 -
Podríamos intentar considerar como un valor representativo de la dispersión de los
valores respecto a la media, al promedio de los desvíos medios:
pdm =
∑ ( x − µ ). fi
mi
N
Pero nos encontramos con que la suma de todos los desvíos es nula y siempre lo
serán por considerar como punto de referencia a la media. Todas las distancias de las
marcas de clase que se ubiquen a la izquierda de la media serán negativas, mientras
que las distancias de los que se ubiquen a la derecha serán positivas. El problema
radica en anular los signos negativos, para ello podemos:
a) considerar los desvíos absolutos medios, de esta manera
no se tendría ningún
desvío negativo y la suma de los desvíos absolutos medios sería distinta de cero,
salvo el caso en que todas las observaciones sean iguales. La expresión matemática
quedaría como:
DM =
∑ x − µ . fi
mi
N
Esta expresión se define como Desvío medio (Promedio de los desvíos absolutos
medios).
En nuestro caso en estudio conformaremos la tabla correspondiente a la distribución
de intervalos pero incluiremos una nueva columna conteniendo los desvíos absolutos
medias.
Tabla 1. 13
Li
ls
fi
xmi
Xmi * fi
fai
fdsi
!xi - media!.fi
2,79
0
0
2,94
0
0
21
0,000
3,09
3,39
1
3,24
3,24
1
20
0,730
3,39
3,69
4
3,54
14,16
5
16
1,719
3,69
3,99
6
3,84
23,04
11
10
0,779
3,99
4,29
5
4,14
20,7
16
5
0,851
4,29
4,6
5
4,445
22,225
21
0
2,376
4,6
4,99
0
4,74
0
21
0
0,000
21
83,365
6,455
Aplicando la fórmula correspondiente, el desvío medio será:
6,455
DM = -----------------21
DM = 0,3074’
Materia: HERRAMIENTAS MATEMÁTICAS III (ESTADÍSTICA I)
Profesor: MARIO MARÍN
- 38 -
4.3 VARIANZA
Otra forma de obtener todos los desvíos positivos, sería elevándolos al cuadrado es
decir:
∑ (x − µ ) . f
pdmc =
2
mi
i
N
Esta expresión que definimos como: el promedio de los desvíos cuadráticos medios y
se denomina Varianza.
Es conveniente entonces considerar una nueva columna conteniendo la suma de los
desvíos cuadráticos medios tal como la tabla:
Tabla 1. 14
Li
ls
fi
xmi
2,79
0
0
3,09
3,39
1
3,39
3,69
3,69
3,99
2
Xmi * fi
fai
fdsi
2,94
0
0
21
0,000
0
3,24
3,24
1
20
0,730
0,53255244
4
3,54
14,16
5
16
1,719
0,73878118
3,99
6
3,84
23,04
11
10
0,779
0,10102891
4,29
5
4,14
20,7
16
5
0,851
0,14490505
4,29
4,6
5
4,445
22,225
21
0
2,376
1,12925624
4,6
4,99
0
4,74
0
21
0
0,000
21
83,365
!xi -media!.fi (xi-media) .fi
6,455
0
2,647
Var(x) =2,647 / 21 = 0,126 minutos al cuadrado
También se la denota como:
σ 2 = 0,126 min utoscuadrados
4.4 DESVIACIÓN ESTANDAR
La Varianza es un valor que determina un cierto grado de dispersión, pero en relación
a lo que nosotros buscábamos, nos encontramos con que no tenemos el promedio de
los desvíos medios, si no que contamos con el promedio de los desvíos cuadráticos
medios. Una aproximación estaría obteniendo la raíz cuadrada de la varianza:
( xi −µ ) fi
σ = ∑
2
N
O abreviando
σ = Var ( x) =
σ = 0,126 = 0,3549’
Materia: HERRAMIENTAS MATEMÁTICAS III (ESTADÍSTICA I)
Profesor: MARIO MARÍN
- 39 -
frecuencia
Definimos a la desviación estándar como la raíz cuadrada de la varianza y
prácticamente entrega el grado de dispersión de los valores de una distribución con
respecto a la media.
Para dos distribuciones con la misma media, tendrá más dispersión aquella que tiene
una mayor desviación estándar, tal como lo indica la gráfica
Gráfico 1.21
Desvío estándar = 2
Desvío estándar =0,5
Desvío estándar =1
x
4.4 COEFICIENTE DE VARIACIÓN
En muchas oportunidades es conveniente comparar distribuciones de distinta media o
de distinto tipo, por ejemplo si analizamos alturas y peso de los alumnos de un curso
de una Universidad, los valores de posición central y de dispersión de una de ellas
estarán dados en metros o centímetros, pero los de la otra serán en Kg. , luego en
principio sería incorrecto pretender comparar las dispersiones de esas distribuciones,
a fin de poder comparar se opera con el Coeficiente de Variación, que esta dado por el
cociente entre el desviación estándar de la distribución y su media, expresada de
manera porcentual:
CV =
σ
µ
. 100%
Como tanto la desviación estándar y la media tienen las mismas unidades, al dividirlas
se simplifican y nos queda un coeficiente, es adimensional. Por otra parte el CV
entrega la proporción de la desviación estándar respecto de la media. En el caso que
nos ocupa el:
CV =
0,3549
3,9697'
.100 = 8,94
CV = 8,94%
Supongamos que se realiza el estudio de altura y peso de los alumnos de un curso, y
que los resultados arrojados son:
Materia: HERRAMIENTAS MATEMÁTICAS III (ESTADÍSTICA I)
Profesor: MARIO MARÍN
- 40 -
Desviación estándar
Del Peso
Altura
σ = 10Kg
Media
71 k.o.
CV
14,08%
σ = 6cm
168 cm
3,57%
Estos últimos valores del CV indican que, la distribución correspondiente a la altura
tiene menos dispersión que la correspondiente a los pesos.
4.5
CUARTILES Y PERCENTILES
En muchas ocasiones es necesario contar con una subdivisión de los datos en
determinadas fracciones, llamados en de manera
general como fractiles. De esta
manera una fracción o proporción de datos caen en un fractil o por debajo de éste. De
acuerdo al número de subdivisiones los fractiles toman un nombre determinado, así
estas pueden ser:
a) en 10 partes. En este caso cada una de esas partes toman el nombre de
decil
b) en cuatro partes: En ese caso cada una de ellas toma el nombre de cuartil
c) en cambio si la subdivisión es en 100 partes, se la denomina a cada una de
ella como centil.
El alcance interfractil, dada por la diferencia entre dos fractiles constituye una medida
de dispersión entre ellos.
En general los fractiles más utilizados lo constituyen los cuartiles y percentiles.
Subdividir a los datos en cuatro fractiles implica que el 50% de los datos están por
debajo del segundo cuartil y el 75% de las observaciones están por debajo del tercer
cuartil, representados gráficamente implica:
X1
Q1
Q2
Q3
Xn
Una cuarta parte de las observaciones se encuentran por debajo de Q1, como que
también ½ están por debajo de Q2. Entre Q3 y Q1 se concentra el 50% de las
observaciones. Es necesario aclarar que Q1 como Q2 y Q3 son los puntos fractiles,
por debajo de cada uno de ellos se encuentran los porcentajes los correspondientes
porcentajes de datos.
Cuando el número de valores no es lo suficientemente grande la determinación exacta
de los cuartiles puede ser complicada, ya que es factible que el valor del cuartil quede
entre observaciones, de cualquier manera en general podemos decir que la
determinación de cada cuartil quede satisfecha con las expresiones:
La determinación de los cuartiles para datos no agrupados están dadas por las
expresiones:
Q1 = X (1 / 4 N +1 / 4)
Q2 = X (1 / 2 N +1 / 2)
Q3 = X (3 / 4 N +1 / 4)
Observe que el valor del segundo cuartil corresponde al valor de la mediana. Si
recordamos que, el área encerrada por el polígono de frecuencias era igual al número
Materia: HERRAMIENTAS MATEMÁTICAS III (ESTADÍSTICA I)
Profesor: MARIO MARÍN
- 41 -
de observaciones, sería lógico suponer entonces que en un diagrama correspondiente
al polígono de frecuencias suavizado, las superficies encerradas por dicho diagrama
serán proporcionales al número de observaciones correspondientes a la misma. Con
este concepto definimos los cuartiles gráficamente según gráfico 1.22.
Gráfico 1.22
Q1
Q2
Q3
Se define como Rango Intercuartil o propagación media a la diferencia:
R I = Q3 – Q1
Percentiles: De la misma manera en que la distribución en estudio la podemos dividir
en cuatro partes, en el caso de hacerlo en 100 cada una de ellos tomará el nombre de
percentil, un percentil z cualquiera es un valor tal que z por ciento de las
observaciones quedan a su izquierda mientras que (100 - z) porcientos de los
valores quedan a su derecha. El percentil 80 está dejando a su izquierda el 80% de los
valores de la distribución, es decir todos aquellos menores a el, y por lo tanto el 20%
de la distribución lo superan, es decir quedan a su derecha.
Gráfico 1.23
fdp
xi
µ
80
Materia: HERRAMIENTAS MATEMÁTICAS III (ESTADÍSTICA I)
Profesor: MARIO MARÍN
- 42 -
4.6 REGLA EMPÍRICA
Según vimos en el punto anterior, dada una distribución, el valor de su desviación
estándar nos indica el grado de dispersión de sus valores con respecto a la media,
pero es en realidad la Regla Empírica, quien relaciona a los dos parámetros : µ y σ con
el siguiente enunciado:
En el intervalo centrado en la media y tal que su origen izquierdo esté dado por la
media menos un desviación estándar y el derecho por la media más un desviación
estándar, se agrupa el 68 % de los valores de la distribución; En el intervalo
comprendido por la media menos dos desviaciones estándar y más dos desviacioness
se ubica el 95% de los valores de la distribución, por último en el intervalo
comprendido por la media menos tres desviaciones estándar y la media más tres
desvíos estándar se tendrá el 99,7%
de N (suele considerarse en muchas
oportunidades en este intervalo el 100% de N).
Debe de tener en cuenta que, entre el inicio de la gráfica y su fin, se encuentran
ubicados todos los valores de la distribución N.
Gráfico 1.24
fdp
µ - 3σ
µ - 2σ
µ -1σ
µ
µ+1σ
µ+2σ
µ+3σ xi
68% N
95%N
99,72% N
Resumen Regla Empírica
( µ ± 1σ ) se tiene el 68% de N
( µ ± 2σ ) se tiene el 95% de N
( µ ± 3σ ) se concentra el 100% de N
Materia: HERRAMIENTAS MATEMÁTICAS III (ESTADÍSTICA I)
Profesor: MARIO MARÍN
- 43 -
Descargar