Apuntes - Departamento de Matemática

Anuncio
UNIVERSIDAD DE ATACAMA
FACULTAD DE INGENIERÍA
Departamento de Matemática
ESTADÍSTICA DESCRIPTIVA
por
Dr. David Jorge Elal Olivero
COPIAPÓ - CHILE
2006
c 2006 by David Jorge Elal Olivero
Copyright Índice general
1. Introducción
1
1.1. Panorama General . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2. Distribución de la información y tipos de datos
1
3
2.1. Introducción a las tablas de frecuencias . . . . . . . . . . . . . . . . . . . . . . .
3
2.2. La naturaleza de los datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
2.3. Tabla de distribución y gráficos . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
2.3.1. Determinación del número de clases . . . . . . . . . . . . . . . . . . . . .
9
2.3.2. Determinación de la amplitud de cada clase . . . . . . . . . . . . . . . .
9
2.3.3. Construcción de la tabla de distribución de frecuencia
. . . . . . . . . . 11
2.3.4. Gráfico, histograma y polı́gono de frecuencia . . . . . . . . . . . . . . . . 13
2.3.5. Construcción de la tabla de distribución de frecuencia acumulada . . . . 16
2.3.6. Gráfico, Ojiva porcentual . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.3.7. Cálculo de percentiles
. . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3. Estudio de Parámetros de una Población
19
3.1. Medidas de tendencia central:promedio . . . . . . . . . . . . . . . . . . . . . . . 20
3.1.1. Propiedades del promedio y la varianza . . . . . . . . . . . . . . . . . . . 23
3.2. Medidas de tendencia central: mediana y otras cuantiles . . . . . . . . . . . . . . 26
3.3. Medidas de tendencia central: moda . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.4. Medidas de variabilidad: desviación estándar . . . . . . . . . . . . . . . . . . . . 29
3.5. Estandarización y coeficiente de variación . . . . . . . . . . . . . . . . . . . . . . 32
3.5.1. Estandarización . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.5.2. Coeficiente de variación
. . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.6. Introducción a los números ı́ndices
. . . . . . . . . . . . . . . . . . . . . . . . . 36
3.6.1. Indices de frecuencia y gravedad en prevención de riesgo . . . . . . . . . 38
4. Estadı́stica descriptiva bivariada
42
4.0.2. Distribución condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.0.3. Marca de clase . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.0.4. Distribución marginal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.0.5. Covarianza
Bibliografı́a
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
49
Capı́tulo 1
Introducción
1.1.
Panorama General
Definición 1.1 Estadı́stica es la ciencia que trata de los métodos y medios para recopilar,
organizar, presentar, analizar e interpretar datos estadı́sticos, con el objeto de tomar decisiones
mas eficaces.
El problema de describir, resumir y analizar datos de censos condujo a la creación de métodos
que, hasta hace poco, constituı́an casi todo lo que habı́a sobre el tema de la estadı́stica. Estos
métodos, que en un principio consistı́an sobre todo en la presentación de datos en forma de
tablas y diagramas, constituyen lo que ahora se denomina la estadı́stica descriptiva. Esta
comprende cualquier cosa que se haga con los datos y que este diseñada para resumirlos o
describirlos, sin tener que ir mas lejos, o sea, sin intentar deducir nada que escape de los datos
mismos. Por ejemplo un anuario informa que los accidentes en faenas mineras en chile, durante
el año 2004, fueron de 21.567 mientras que en el año 2005 fueron de 25.469 y se realizan los
cálculos necesarios para demostrar que hubo un incremento de los accidentes, en dicho perı́odo,
de un 18,09 %, este trabajo pertenece al campo de la estadı́stica descriptiva. Sin embargo, éste
no serı́a el caso si se utilizaran los datos para predecir el número de accidente, por ejemplo,
para el 2006.
A pesar que la estadı́stica descriptiva es una rama importante de la estadı́stica y se sigue utilizando ampliamente, la informacion estadı́stica suele emanar de muestras (de observaciones
hechas sólo en parte de un conjunto grande de elementos), y esto quiere decir que su análisis requerirá generalizaciones que van mas allá de los datos mismos. Como resultado, una
CAPÍTULO 1. INTRODUCCIÓN
caracterı́stica importante del reciente desarrollo de la estadı́stica ha sido el paso de métodos
meramente descriptivos a métodos que sirven para hacer generalizaciones, es decir el paso de
la estadı́stica descriptiva a los métodos de la estadı́stica inferencial .
En estos apuntes nos ocuparemos de desarrollar solamente aspectos de la estadı́stica descriptiva
Capı́tulo 2
Distribución de la información y tipos
de datos
2.1.
Introducción a las tablas de frecuencias
El poder resumir una gran masa de datos en forma utilizable siempre ha sido importante,
pero se ha multiplicado considerablemente en las últimas décadas. Esto se ha debido en parte
al desarrollo computacional que han hecho posible realizar en minutos lo que antes se tenı́a
que dejar de hacer debido a que se llevarı́a meses o años, y en parte por el torrente de datos
generados por el enfoque cada vez mas cuantitativo de las ciencias.
El método mas común de resumir datos consiste en presentarlos en forma condensada en tablas
o gráficas, y aquı́ la palabra clave es: Distribución
Definición 2.1 Una tabla compuesta de filas y columnas donde todos los datos de la población
en estudio se distribuyen según un criterio definido en las celdas generadas por la intersección
de las filas y culumnas se conoce con el nombre de Tabla de Frecuencias.
Para ilustrar la importancia de presentar una gran masa de datos en una tabla de frecuencia
analicemos los siguientes ejemplos
Ejemplo 2.1 Un sociólogo esta interesado en estudiar las edades de las personas de un determinado Pais que tienen un ingreso menor al mı́nimo. No nos pongamos en el caso de las
grandes dificultades que tendrı́a para recolectar la información, y para simplificar la situación,
CAPÍTULO 2. DISTRIBUCIÓN DE LA INFORMACIÓN Y TIPOS DE DATOS
supongamos que logra que un organismo gubernamental generosamente lo provea de gran información.
Con respecto a grandes conjuntos de datos, con frecuencia se pueden transmitir a menudo una
buena representación total y la información suficiente mediante la clasificación de los datos en
una tabla de fecuencia y el sociólogo descubre que la información que busca se presenta como
se indica para el año 2005
Cuadro 2.1: Personas con ingreso menor que el mı́nimo.
Edad
Número de personas
(en años)
(en miles)
Menores de 16
1.233
de 16 a 21
932
de 22 a 44
779
de 45 a 64
175
de 65 y mas
P
863
3.982
Esta tabla de frecuencia muestra como se distribuyen, aproximadamente, 4 millones de
personas de acuerdo a su edad. Observe que la clasificación se hace bajo un criterio (Edad)
que es una magnitud numérica, y por ejemplo la clase ”de 16 a 21 ” comprende los valores
16,17,18,19,20 y 21. Cada clase también puede abarcar un solo valor; como se ilustra en el
siguiente ejemplo.
Ejemplo 2.2 La tabla siguiente muestra la distribución del número de accidentes laborales de
un pais Z entre los años 2001 hasta 2005.
Observe que cada clase considera solo un valor asi la primera es solo el valor 2001, la segunda
2002, la tercera 2003, la cuarta 20004 y por último la quinta clase contempla solo el valor 2005
Por otra parte observe que el número de accidentes en el año 2005 disminuyó en un 4.17 %
respecto al año 2004, sin embargo El número de accidentes In Itinere aumentó en un 2,87 %
en el mismo perı́odo.
¿Cómo se calculan los ı́ndices (porcentajes) 4.17 % y 2,87 %? Desarróllelo
CAPÍTULO 2. DISTRIBUCIÓN DE LA INFORMACIÓN Y TIPOS DE DATOS
Cuadro 2.2: Accidentabilidad laboral
Año N◦ de accidentes Accidentes
Totales
Itinere
2001
2002
2003
486.109
671.004
801.416
5.196
5.933
6.918
2004
2005
P
821.458
787.182
7.339
7.550
3.567.169
32.936
En el siguiente ejemplo los datos se distribuyen, en la tabla de frecuencia, según un criterio de
acuerdo a si cumple o no ciertas condiciones dadas por una cualidad.
Ejemplo 2.3 La tabla de distribución siguiente muestra como se movilizan al trabajo los
obreros de la empresa XY
Cuadro 2.3: Medios de transporte de los obreros de la empresa XY
Medios de
Porcentaje
Transporte
%
En auto propio
42
Solo en tren
14
Solo en bus
32
Combina bus y tren
8
Caminando (generalmente)
P
4
100 %
Ejemplo 2.4 La siguiente tabla de frecuencia ilustra el nivel de colesterol en la sangre de
ciudadanos de la ciudad de Calama entre 25 a 34 años de edad, registrados durante el primer
semestre del año 2006.
.
CAPÍTULO 2. DISTRIBUCIÓN DE LA INFORMACIÓN Y TIPOS DE DATOS
Cuadro 2.4: Distribución de ciudadanos de La Serena según nivel de colesterol en la sangre.
Nivel de
frecuencia
mg
Colesterol( 100ml
)
f
80 - 119
13
120 - 159
150
160 - 199
442
200 - 239
299
240 - 279
115
280 - 319
34
320 - 359
9
360 - 399
P
5
1067
Convencidos de la importancia de distribuir la información en una tabla de frecuencia amerita
una construcción y análisis más detallada, situación que hemos reservado para tratarla mas
adelante. Sin embargo podemos rescatar, que en el análisis hecho de las tablas de frecuencia,
nos hemos enfrentado a diferentes tipos de datos (que representan números o cualidades) que
pasamos a precisar en la siguiente sección.
2.2.
La naturaleza de los datos
Algunos conjuntos de datos consisten en números y otros son no numéricos. Suelen utilizarse
los términos datos cuantitativos y datos cualitativos para distinguir entre estos dos tipos.
Definición 2.2 Los datos cuantitativos consisten en números que representan conteo o mediciones.
Los datos cualitativos (o categóricos o de atributos) se caracterizan por ser reconocidos por una
cualidad y son no numéricos
Ejemplo 2.5 De datos cuantitativos:
1. Número de hijos en familias
2. Número de accidentes ocurridos durante un determinado mes, en una empresa X
CAPÍTULO 2. DISTRIBUCIÓN DE LA INFORMACIÓN Y TIPOS DE DATOS
3. Sueldos de funcionarios de una determinada organización
4. Tiempo de vida útil de una maquinaria
5. Distancia recorrida por un móvil
Ejemplo 2.6 De datos cualitativas:
1. Estado Civil (soltero, casado, divorciado, viudo)
2. Género (masculino o femenino)
3. Religión
4. Color de los ojos
5. Marca de cigarrillos
Podemos describir con mayor detalle los datos cuantitativo distinguiendo entre los tipos discretos y continuos
Definición 2.3 Los datos discretos se obtienen de un número finito de posibles valores o bien
de un número de posibles valores que puede contarse. (Esto es el número de posible valores es
0, 1, 2, etc.)
Los datos continuos se obtienen de un número infinito de posibles valores que pueden asociarse
a puntos de una escala continua, de tal manera que no haya hueco e interrupciones
Ejemplo: Considerando el ejemplo de datos continuos, antes mencionado, se puede apreciar
que los casos 1 y 2 son datos discretos mientras que los casos 3,4 y 5 son datos continuos.
Hasta ahora hemos aprendido a distinguir las diferentes formas en que podrı́amos enfrentar
a un conjunto de datos. Para realizar un análisis o estudio descriptivo acusioso de ellos aprenderemos a continuación a construir tablas de distribuciones.
2.3.
Tabla de distribución y gráficos
En esta sección se analizará la forma de organizar un conjunto de datos, sin procesar, en
una tabla de distribución de frecuencia y como representar esta distribución de manera gráfica
CAPÍTULO 2. DISTRIBUCIÓN DE LA INFORMACIÓN Y TIPOS DE DATOS
en un histograma, un polı́gono de frecuencia, y una ojiva porcentual. Luego se resumirán y
presentarán otros tipos de información numérica en forma de gráfica de linea, de barras o de
algún otro tipo.
Cuando las observaciones se agrupan o condensan en tablas de distribución de frecuencia, el
proceso de análisis e interpretación de los datos se hace mucho más manejable y significativo. Al
clasificar la información en clases o intervalos la información inicial referente a las observaciones
que se disponı́a se pierde a través del proceso de agrupamiento, es decir, se está perdiendo
precisión de la información pero se está ganando en interpretación y comprobaremos que bien vale la pena, ya que lo que se gana, es mucho mas de lo que se pierde.
Los pasos a seguir para elaborar una tabla de distribución de frecuencia se explican mejor
utilizando un ejemplo.
Ejemplo 2.7 La siguiente tabla muestra los sueldos lı́quidos (en miles)de 120 ejecutivos de la
empresa X
1170 1207 1581 1277 1305 1472 1077 1319 1537 1849
1332 1418 1949 1403 1744 1532 1219
1471 1399 1041 1379
821
896
1558 1118 1533 1510 1760
1826 1309 1426 1288 1394 1545 1032 1289
1440 1421 1329 1407
718
1500 1671
695
803
1457 1449 1455 2051 1677
1119 1020 1400 1442 1593 1962 1263 1788 1501 1668
1352 1340 1459 1823 1451 1138 1592
982
1981 1091
1428 1603 1699 1237 1325 1590 1142 1425 1550
1470 1783 1618 1431 1557
896
913
1662 1591 1551 1612
1249 1419 2162 1373 1542 1631 1567 1221 1972 1714
949
1539 1634 1637 1649 1607 1640 1739 1540 2187
1752 1648 1978
640
1736 1222 1790 1188 2091 1829
Es importante tener presente los siguientes consideraciones para confeccionar una tabla de
frecuencia:
1. Seleccionar el número apropiado de clases o intervalo
2. Obtener la amplitud de cada clase o intervalo
CAPÍTULO 2. DISTRIBUCIÓN DE LA INFORMACIÓN Y TIPOS DE DATOS
3. Establecer los lı́mites de cada clase o intervalo para evitar los traslapes y asi impedir que
un dato pueda ser clasificado en dos o mas clases.
.
2.3.1.
Determinación del número de clases
Nos proponemos clasificar la información en una tabla de distribución de frecuencia, para ello
debemos primeramente ponernos de acuerdo en el número de clases o intervalos a utilizar. Sobre
este punto es importante que exista acuerdo entre el equipo que está realizando la investigación
y prevalecerá, por supuesto, las razones técnicas para decidirlo. Dado que este es un ejemplo
académico resolveremos esta situación recurriendo a la regla de Sturges que nos dice lo siguiente:
Si N representa el número de intervalos a encontrar, entonces la regla de Sturges propone
calcularlo ası́:
N = 1 + 3, 3 × log n
donde n es el número total de datos.
En nuestro caso n=120, luego N = 1 + 3, 3 × log120 = 1 + 3, 3 × 2, 0792 = 7, 86 ≈ 8
Ası́ el número de intervalos (o clases) es N = 8.
2.3.2.
Determinación de la amplitud de cada clase
Siguiendo las recomendaciones para confeccionar una tabla de frecuencia y en relación a
la amplitud que debe tener cada intervalo también es tratado entre el grupo interesado en
la investigación aunque es recomendable que todos tengan la misma amplitud. Siguiendo este
último argumento la amplitud de un intervalos, que sera igual para todos, se obtiene de la
siguiente manera:
1. Se selecciona el dato mayor y el dato menor
2. Si denotamos por a la amplitud del intervalo, entonces, a se calcula ası́:
a=
dato mayor - datos menor
8
CAPÍTULO 2. DISTRIBUCIÓN DE LA INFORMACIÓN Y TIPOS DE DATOS
En nuestro caso se tiene que el dato mayor es 2187 y el menor es 640, por lo tanto
a=
2187 − 640
= 193, 375
8
Observación 2.1 La verdad es que el valor 193, 375 es muy feo para considerarlo como una
amplitud de intervalo(aunque se puede trabajar con él), ya que se va a usar mucho para realizar
cálculos y sumarı́a bastante complejidad al problema. ¿Cómo resolver la situación?
Pareciera que una amplitud de 194, 195 ó 196, que están por sobre 193, 375, serı́an bastante
cómodo ya que son número entero y muy próximo a 193, 375. Es importante destacar, que
cualquiera de ellos que usemos, sus efectos serı́an realmente insignificante tanto en las diferencias
de los resultados como sus interpretaciones, recuerde que estamos perdiendo precisión pero
ganando en interpretación, aún ası́ es recomendable considerar el entero, superior, mas próximo
que en nuestro caso es 194. Veamos gráficamente la situación:
Se observa que la amplitud de cada clase se obtiene al dividir por 8 la diferencia “2187−640 =
1547” lo que resulta el número feo 193, 375 (observe que esta diferencia representa la longitud
del intervalo [640 2187]). Pero lo que queremos es que la amplitud sea el número bonito 194,
esto obliga a que la diferencia “?−? = 1552”. Esto nos lleva a aumentar en 5 unidades la
diferencia “2187 − 640 = 1547”. y por consiguente a ampliar en 5 unidades la longitud del
intervalo [640 2187]).
Observación 2.2
1. Si el aumento de la longitud del intervalo hubiese sido un número par,
por ejemplo 4, entonces se resta 2 unidades al lado izquierdo (640) y se suman 2 unidades
al lado derecho (2187)
2. En nuestro caso hay que aumentar en un número impar, que es 5, la longitud del intervalo
- en tal caso - se elige en forma arbitraria la distribución de 2 unidades a la izquierda
y 3 a la derecha o viceversa. Si la elección es restar 3 unidades a la izquierda y sumar
CAPÍTULO 2. DISTRIBUCIÓN DE LA INFORMACIÓN Y TIPOS DE DATOS
2 unidades a la derecha, el intervalo quedarı́a [637 2189]). y en tal caso se confirma la
amplitud a = 194, es decir:
a=
2.3.3.
2189 − 637
1552
=
= 194
8
8
Construcción de la tabla de distribución de frecuencia
Una vez que hemos determinado el número de clases ó intervalos y la amplitud de cada uno
de ellos la tabla de distribución de frecuencia quedarı́a:
Intervalos
frecuencia
-
(f)
637 − 831
831 − 1025
1025 − 1219
1219 − 1413
1413 − 1607
1607 − 1801
1801 − 1995
1995 − 2189
Para seleccionar los datos dentro de la tabla de distribución, ya confeccionada, podrı́amos
tener el problema de que un dato pueda estar en dos intervalos, por ejemplo ¿Dónde clasificarı́a
usted el dato 1219? como respuesta podrı́amos decir que estarı́a en el 3er intervalos ó en el 4to
intervalo. Para evitar esta ambigüedad consideraremos el intervalo [1025 1219[ es decir cerrado
en 1025 y abierto 1219 lo que implica que el extremo derecho no se considera en dicho intervalo.
Con esta aclaración la respuesta a la pregunta serı́a “El dato 1219 estarı́a en el 4to intervalo”.
Con esta consideración la tabla de distribución la podrı́amos presentar ası́:
CAPÍTULO 2. DISTRIBUCIÓN DE LA INFORMACIÓN Y TIPOS DE DATOS
Intervalos
frecuencia
-
(f)
[637 831[
[831 1025[
[1025 1219[
[1219 1413[
[1413 1607[
[1607 1801[
[1801 1995[
[1995 2189]
Ahora estamos en condiciones de completar la tabla de distribución de frecuencia clasificando
los datos en los respectivos intervalos y no estarı́amos expuestos a ningún tipo de problema.
Clasificados los datos la tabla quedarı́a:
Intervalos
frecuencia
-
(f)
637 − 831
5
831 − 1025
6
1025 − 1219
11
1219 − 1413
24
1413 − 1607
38
1607 − 1801
23
1801 − 1995
9
1995 − 2189
4
Observación 2.3 Haremos algunas interpretaciones de algunos datos de la tabla de frecuencia
como también combinando alguno de ellos.
1. El datos 24 significa que: “24 ejecutivos de la empresa tienen un sueldo lı́quido entre
$1.219.000 y $1.413.000”.
CAPÍTULO 2. DISTRIBUCIÓN DE LA INFORMACIÓN Y TIPOS DE DATOS
2. “11 ejecutivos de la empresa tienen un sueldo entre $1.2025.000 y $1.219.000”. Observe
también que el mismo número, es decir 11, de los ejecutivos tienen un sueldo inferior
$1.025.000
3. observe que 36 ejecutivos de la empresa tienen un sueldo lı́quido superior (o igual) a
$1.607.000
2.3.4.
Gráfico, histograma y polı́gono de frecuencia
Considerando la tabla de distribución de frecuencia, recién construı́da, podemos tener un
efecto visual de ella a través de un gráfico denominado histograma, que pasamos a mostrar:
La altura de los rectángulos del histograma muestran la frecuencia de ejecutivos mientras
que los extremos de la base de los rectángulos muestran donde flutúan los sueldos lı́quidos de
ellos.
Uniendo los puntos medios de las alturas de cada reactángulo se consigue un nuevo gráfico que
se denomina Polı́gono de frecuencia quedando como se muestra:
CAPÍTULO 2. DISTRIBUCIÓN DE LA INFORMACIÓN Y TIPOS DE DATOS
Observación 2.4 Para graficar el polı́gono de frecuencia se tomaron las siguientes consideraciones
1. Las lı́neas que unen los puntos de los techos de los rectángulos dan una aspecto tosco y se
ha preferido suavizarla dándole una forma mas acampanada.
2. Para cerrar la campana(polı́gono de frecuencia) se han considerados los puntos medios de
los intervalos (imaginarios) que no están contemplados en la tabla de frecuencia y que
son [443 637[ a la izquierda y [2189 2383[ a la derecha, siendo los puntos medios de cada
uno de ellos 540 y 2286 respectivamente.
La tabla de distribución de frecuencia se puede complementar agregando una nueva columna
que no es otra cosa que la columna de frecuencia pero expresada en porcentaje. Considerando
esta nueva columna se puede mostrar un histograma y su polı́gono de frecuencia y los gráficos
serı́an practicamente los mismos que hemos visto sólo que sufrirı́an un cambio de escala.
La tabla quedarı́a como se muestra a continuación:
CAPÍTULO 2. DISTRIBUCIÓN DE LA INFORMACIÓN Y TIPOS DE DATOS
Intervalos
frecuencia
frecuencia ( %)
-
(f)
relativa h
637 − 831
5
4,2
831 − 1025
6
5
1025 − 1219
11
9,1
1219 − 1413
24
20
1413 − 1607
38
31,7
1607 − 1801
23
19,2
1801 − 1995
9
7,5
1995 − 2189
P
4
3,3
120
100 %
El histograma con el polı́gono de frecuencia relativa quedarı́an ası́
CAPÍTULO 2. DISTRIBUCIÓN DE LA INFORMACIÓN Y TIPOS DE DATOS
2.3.5.
Construcción de la tabla de distribución de frecuencia acumulada
Ahora completaremos la tabla de distribución agregando dos nuevas columnas que se logran
acumulando las frecuencias y frecuencias relativas como se muestra a continuación:
Intervalos
frecuencia
-
frecuencia
frecuencia
frecuencia
relativa
acumulada
acumulada
-
f
h
F
relativa( %) H
637 − 831
5
4,2
5
4,2
831 − 1025
6
5
11
9,2
1025 − 1219
11
9,1
22
18,3
1219 − 1413
24
20
46
38,3
1413 − 1607
38
31,7
84
70
1607 − 1801
23
19,2
107
89,2
1801 − 1995
9
7,5
116
96,7
1995 − 2189
P
4
3,3
120
100
120
100 %
-
-
Observación 2.5 A continuación interpretaremos algunos datos de esta última tabla
1. El valor 46 ubicado en la 4a columna se interpreta como: “46 ejecutivos de la empresa
tienen un sueldo inferior a $1.413.000”.
2. El valor 89,2 ubicado en la 5a columna se interpreta como: “El 89,2 % de los ejecutivos,
de la empresa, tienen un sueldo inferior a $1.801.000”.
3. El valor 38,3 ubicado en la 5a columna se interpreta como: “El 38, 3 % de los ejecutivos
de la empresa tienen un sueldo inferior a inferior a $1.413.000
4. Observe que: “El 60, 8 % (obtenido de 70 % - 9, 2 %)de los ejecutivos de la empresa tienen
un sueldo entre $1.025.000 y $1.607.000
CAPÍTULO 2. DISTRIBUCIÓN DE LA INFORMACIÓN Y TIPOS DE DATOS
2.3.6.
Gráfico, Ojiva porcentual
La ojiva porcentual es un gráfico que se construye uniendo los puntos (831; 4,2), (1025; 9,2),
(1219; 18,3), (1413; 38,3), (1607;70), (1801; 89,2), (1995; 96,7), (2189; 100) y queda asi:
2.3.7.
Cálculo de percentiles
Aprovechando el gráfico de la ojiva porcentual creemos oportuno introducir el concepto de
percentil y sus derivados, aprovechamos, a la vez, de realizar algunos cálculos de ellos.
Definición 2.4 Dado un conjunto de datos perteneciente a una población y suponiendo ordenada de menor a mayor, se define el percentil(k), y se denota por Pk a aquel valor que deja a
su izquierda el k % de los datos y a su derecha (100-k) %
Ejemplo 2.8 Una vez ordenado los datos, P30 es el valor que deja a su izquierda el 30 % de
los datos y a su derecha el 70 %.
Resuelva el siguiente ejercicio
1. Encuentre P70 de los datos correspondientes a los sueldos de los 120 ejecutivos de la
empresa X (con solo observar la ojiva porcentual)
CAPÍTULO 2. DISTRIBUCIÓN DE LA INFORMACIÓN Y TIPOS DE DATOS
2. Encuentre P80 y P50 de los datos correspondientes a los sueldos de los 120 ejecutivos de
la empresa X, utilizando la siguiente fórmula:
Pk = liminf +
k
n
100
− Fa− a
f
donde
a) liminf : corresponde al extremo izquierdo del intervalo donde se encuentra el percentil
buscado Pk
b) Fa− : corresponde a la frecuencia acumulada hasta antes del intervalo donde se encuentra el percentil buscado Pk
c) f: corresponde a la frecuencia del intervalo donde se encuentra el percentil buscado
Pk
d ) a: representa la amplitud del intervalo donde se encuentra el percentil buscado Pk
Observación 2.6 ¿Cómo saber en que intervalo se encuentra Pk ?
Primero se calcula la siguiente expresión
k
n
100
como resultado nos dará un número que debemos ir comparándolo con la columna de la frecuencia acumulada y con el primer valor que supere al número nos detenemos en dicho valor y
observamos en que intervalo se encuentra el que nos dará precisamente el intervalo que andamos
buscando. Ası́ por ejemplo ¿ Dónde se encuentra el percentil P40 ?. Primero calculamos:
40
120 = 48
100
Recorriendo la columna de frecuencia acumulada vemos que el primer valor que supera al
número 48 es 84 el que se encuentra precisamente en el intervalo 1413 − 1607.
Capı́tulo 3
Estudio de Parámetros de una
Población
En estadı́stica es común usar los términos población y muestra. Estos términos son un centro
de atención en la estadı́stica, asi que los pasamos a precisar en la siguiente definición.
Definición 3.1 Una población es la colección completa de todos los elementos (puntajes, personas, mediciones, etc.)que se van a estudiar
Un Censo es la colección de datos de cada elemento de la población.
Una muestra es una porción, o parte de una población.
El estudio de una muestra de la población para proyectar resultados confiables a toda ella,
como hemos visto, corresponde a la estadı́stica inferencial.
Intimamente relacionado con los conceptos de población y muestra está el de parámetro
Definición 3.2 Un parámetro es una medición numérica que describe alguna caracterı́stica de
una población
Observación 3.1 Cuando la medición numérica describe alguna caracterı́stica de una muestra
de la población el parámetro toma el nombre de estadı́stico
Consideremos algunos ejemplos.
Ejemplo 3.1
1. Una encuesta aplicada a 348 dueñas de casa, en la ciudad de La Serena,
arrojó que 75 (21,55 %) de ellas tienen mas de dos hijos. Dado que la cifra 21,55 % se
basa en una muestra(no en toda la población) es un estadı́stico(no un parámetro)
CAPÍTULO 3. ESTUDIO DE PARÁMETROS DE UNA POBLACIÓN
2. Una encuesta aplicada a los 120 diputados de Chile muestra que 75 (62,5 %) de ellos
superan los 65 años de edad. La cifra 62,5 % serı́a un parámetro porque se basa en la
población de todos los diputados.
3. Una encuesta aplicada a los 258 funcionarios de la empresa XYZ arrojó que el sueldo promedio imponible era de $458.650. La cifra promedio serı́a entonces también un
parámetro.
4. Una encuesta aplicada a la cadena de empresas ABC entregó la siguiente información:
”De los 53.576 accidentes ocurridos durante el año 2005; 86 resultaron fatales”. Si definimos un indicador que mida la gravedad de los accidentes podrı́amos pensar en la expresión:
IL =
N◦ de Fallecidos
× 100000
Total de Accidentes
En tal caso tenemos que:
IL =
Observación 3.2
86
× 100000 = 162, 39
53.576
1. El ı́ndice IL: Se conoce como ı́ndice de letalidad y es un parámetro
ya que se calcula sobre el total de accidentados y por otra parte nos indica el número de
accidentes fatales por cada 100000 accidentados. En nuestro caso la cadena de empresas
ABC registra 162 accidentes fatales por cada 100000 accidentados. El ı́ndice de letalidad
es muy útil cuando se quiere conocer globalmente la gravedad (letalidad) que tienen los
accidentes en una determinada área.
86 por el factor 1000, por 10000, o por
2. Podrı́amos haber multiplicado la proporción 53.576
1000000 etc. y la interpretación seria fácilmente adaptable. Para fines comparativos con
el comportamiento de otras empresas es conveniente establecer acuerdos, para definir el
factor a utilizar.
3.1.
Medidas de tendencia central:promedio
Las medidas de tendencia central pueden describirse rı́gidamente como “promedios” en
el sentido de que son indicativas del “centro o alrededor del centro”. En realidad uno de los
parámetros, con esta caracterı́stica, que goza de mayor popularidad en la estadı́stica es la media
o Promedio
CAPÍTULO 3. ESTUDIO DE PARÁMETROS DE UNA POBLACIÓN
Definición 3.3 Sean x1 , x2 , x3 , ..., xn n datos reales, se define el promedio de los n datos, y se
denota por X, como
X=
P
xi
n
Observación: El promedio tiende a ubicarse alrededor del centro de los datos por lo que se le
conoce como una medida de tendencia central
Ejemplo 3.2 Considere el siguiente conjunto de datos
x1 = 2, x2 = 6, x3 = 4, x4 = 2, x5 = 2, x6 = 3, x7 = 4, x8 = 3, x9 = 2, x10 = 4
entonces
X=
P
xi
x1 + x2 + x3 + ... + x10
2 + 6 + 4 + ... + 4
32
=
=
=
= 3, 2
n
10
10
10
Observación 3.3 En ejemplo anterior se puede observar que realmente hay cuatro datos que
son el 2,3,4 y 6: ocurre que el 2 se repite 4 veces, el 3 se repite 2 veces, el 4 se repite 3 veces
y por último el 6 aparece solo una vez. Podriamos mostar mejor esta observación disponiendo
los datos en una tabla de frecuencia como se ilustra a continuación:
Tabla de frecuencia para cálculo del promedio
P
x
f
fx
2
4
8
3
2
6
4
3
12
6
1
6
10
32
Si sumamos los datos de la columna encabezada por fx nos da 32
Si sumamos los datos de la columna encabezada por f nos da 10
Ahora si realizamos el cuociente
32
10
= 3, 2 nos da el promedio ya conocido, situación que
podemos formalizar mediante la siguiente fórmula:
P
fx
32
X= P =
= 3, 2
f
10
CAPÍTULO 3. ESTUDIO DE PARÁMETROS DE UNA POBLACIÓN
Esta fórmula se conoce como Promedio para datos tabulados
Existe un concepto que generaliza al del promedio que se conoce como promedio ponderado y
en ocasiones es muy útil recurrir a él para realizar cálculos mas realistas.
Definición 3.4 Sean x1 , x2 , x3 , ..., xn n datos reales, se define el promedio ponderado de los n
datos, y se denota por Xp , como
Xp =
donde
P
pi = 1
X
xi ∗ pi
Ejemplo Un estudiante tiene las siguientes cuatro calificaciones en la asignatura de Estadı́stica 63, 39, 40 y un 50 en la escala de 1 a 100 y la nota de aprobación es un 50. La importancia
de los tópicos contemplado en cada prueba son distintos y el profesor, conciente de esto, tiene
la duda en elegir entre tres alternativas de ponderación que se ilustran en la siguiente tabla:
Tres alternativas de ponderación para cuatro notas en la asignatura de Estadı́stica
-
Alternativa1
Alternativa2 Alternativa3
Nota1
0, 25
0, 2
0, 3
Nota2
0, 25
0, 3
0, 2
Nota3
0, 25
0, 2
0, 2
Nota4
P
0, 25
0, 3
0, 3
1
1
1
Observe que la Alternativa1 corresponde al promedio normal en que cada nota tiene el
mismo peso o ponderación y el alumno estarı́a reprobando la asignatura con nota 48 como se
ilustra:
X
xi ∗ pi = x1 ∗ p1 + x2 ∗ p2 + x3 ∗ p3 + x4 ∗ p4 = 63 ∗ 0, 25 + 39 ∗ 0, 25 + 40 ∗ 0, 25 + 50 ∗ 0, 25 = 48
Bajo la Alternativa2 el estudiante también reprueba la asignatura con nota 47 y la pon-
deración dada le perjudica en relación a la alternativa1 (Promedio normal).
X
xi ∗ pi = x1 ∗ p1 + x2 ∗ p2 + x3 ∗ p3 + x4 ∗ p4 = 63 ∗ 0, 2 + 39 ∗ 0, 3 + 40 ∗ 0, 2 + 50 ∗ 0, 3 = 47
y por último bajo la alternativa3 el estudiante estarı́a aprobando la asignatura con nota 50,
ponderación que obviamente le favorecerı́a
X
xi ∗ pi = x1 ∗ p1 + x2 ∗ p2 + x3 ∗ p3 + x4 ∗ p4 = 63 ∗ 0, 3 + 39 ∗ 0, 2 + 40 ∗ 0, 2 + 50 ∗ 0, 3 = 50
CAPÍTULO 3. ESTUDIO DE PARÁMETROS DE UNA POBLACIÓN
Estrechamente relacionado con el promedio está el importante parámetro que se denomina
desviación estándar. Aunque no es una medida de tendencia central lo veremos a continuación
en un modo superficial dado el grado de acercamiento mencionado, sin embargo lo veremos con
mucho detalle cuando abordemos, mas adelante, las medidas de variabilidad.
Tenemos, por obligación, que pasar previamente por el concepto de varianza para comprender
el de desviación estándar.
Definición 3.5 Sean x1 , x2 , x3 , ..., xn n datos reales. Se define la Varianza de los datos, y se
denota por S 2 , como:
P
(xi − X)2
S =
n
2
Definición 3.6 Sean x1 , x2 , x3 , ..., xn n datos reales. Se define la Desviación estándar de los
datos como la raiz cuadrada de la varianza, y se denota por S: ası́
s
P
√
(xi − X)2
2
S= S =
n
3.1.1.
Propiedades del promedio y la varianza
Dado el acercamiento entre promedio y varianza mostraremos a continuación algunas propiedades
que los relacionan.
2
1. SX
= X2 − X
2
con X 2 =
x2i
n
P
2. x1 = k, x2 = k, x3 = k, ..., xn = k, k ∈ ℜ entonces
2
X = k y SX
=0
3. Si yi = axi + b, a ∈ ℜ, b ∈ ℜ entonces:
Y = aX + b
y
2
SY2 = a2 SX
Demostración:
CAPÍTULO 3. ESTUDIO DE PARÁMETROS DE UNA POBLACIÓN
1.
S
2
=
=
=
=
=
=
=
P
(xi − X)2
n
1X
(xi − X)2
n
1X 2
2
(xi − 2xi X + X )
n
X 2 i
1 hX 2 X
xi −
2xi X +
X )
n
P 2
P
2
xi
xi nX
− 2X
+
n
n
Pn 2
xi
2
2
− 2X + X
Pn 2
xi
2
−X
n
definiendo
X2
se tiene la propiedad señalada
=
x2i
n
P
S2 = X 2 − X
2. X =
1
n
P
xi =
1
n
por otra parte:
P 2
X 2 = n1
xi =
2
P
1
n
2
k = n1 nk = k
P
k 2 = n1 nk 2 = k 2
S 2 = X 2 − X = k2 − k2 = 0
3.
2
S2 = Y 2 − Y
1X 2
=
yi − (aX + b)2
n
1X
=
(axi + b)2 − (aX + b)2
n
1X 2 2
=
(a xi + 2abxi + b2 ) − (aX + b)2
nP
P
x2i
xi nb2
2
= a
+ 2ab
+
− (aX + b)2
n
n
n
2 2
2
2 2
= a X + 2abX + b − (a X + 2abX + b2 )
= a2 X 2 − a2 X
2
= a2 SX
2
CAPÍTULO 3. ESTUDIO DE PARÁMETROS DE UNA POBLACIÓN
En el siguiente ejemplo ocuparemos esta importante propiedad para calcular la desviación
estándar y aprovecharemos también de calcular este parámetro tabulando la información
Ejemplo 3.3 Considerando los datos del ejemplo 3.2 en la página 21 podemos calcular la
desviación estándar sabiendo que
2
X = 3, 2 y entonces X = 10, 24
por otra parte:
X2
=
1
x2i
= (22 + 62 + 42 + 22 + 22 + 32 + 42 + 32 + 22 + 42 ) = 11, 8
10
10
P
de esta manera
2
S 2 = X 2 − X = 11, 8 − 10, 24 = 1, 56
Por lo que la desviación estándar queda como:
q
p
2
S = X 2 − X = 1, 56 ≈ 1, 25
Aprovecharemos ahora el hecho de que muchos datos se repiten para calcular la desviación
estándar recurriendo a una tabla de frecuencia: Observe que:
Tabla de frecuencia para cálculo de la desviación estándar
P
2
S =
X2
x
f
fx
x2
f x2
2
4
8
4
16
3
2
6
9
18
4
3
12
16
48
6
1
6
36
36
-
10
32
-
118
P 2 P 2
2
fx
fx
118
32
−X = P
− P
=
−
= 11, 8 − 3, 22 = 11, 8 − 10, 24 = 1, 56
f
f
10
10
2
por lo que
S=
p
1, 56 ≈ 1, 25
CAPÍTULO 3. ESTUDIO DE PARÁMETROS DE UNA POBLACIÓN
Vamos a continuar con el estudio de otros parámetros, pero para seguir un orden vamos a
seguir con parámetros que tienen una caracterı́stica común y en particular aquellos conocidos
como de tendencia central como lo es el promedio (o media). Cabe hacer notar que la
desviación estándar no es una medida de tendencia central pero como tiene una gran relación
con el promedio se aprovechó la oportunidad para mostarlo, sin embargo, se volverá a retomar
esta medidad para estudiarla con mayor profundidad mas adelante por la importancia que ella
tiene.
3.2.
Medidas de tendencia central: mediana y otras cuantiles
Asi como el promedio tiende a ubicarse alrededor del centro de la información también existe
otro parámetro que tiene esta misma caracterı́stica y se llama mediana que pasamos a definir.
Definición 3.7 La mediana de un conjunto de datos es aquel valor (no necesariamente pertenece
al conjunto de los datos) que una vez ordenada la información se ubica de tal manera que deja
a su izquierda el 50 % de los datos y el otro 50 % a su derecha
Esta definición adolece de algunas debilidades y precisamente se presenta en el caso discreto,
que ha sido nuestro principal foco de atención, por lo que la reforzaremos con algunos ejemplos
para dicipar ambigüedades.
Antes de ejemplificar tomaremos en cuenta el siguiente consejo, teniendo presente que previamente se han ordenado los datos (ya sea de menor a mayor o viceversa)
Çuando el número de datos es impar (n impar), la mediana, es el valor del dato que está en la
mitad
Çuando el número de datos es par (n par), la mediana, es el valor que toma el promedio de los
dos datos centrales
Ejemplo 3.4 El número de accidentes, de la empresa Royal & Anderson, en los primeros 5
meses del año 2005 fueron respectivamente: 12,8,15,9,12.
La mediana no es 15, ya que previamente se debe ordenar la muestra (de menor → a mayor o
CAPÍTULO 3. ESTUDIO DE PARÁMETROS DE UNA POBLACIÓN
de mayor → a menor). Si se considera como criterio ordenarlo de menor a mayor se tiene:
8 9 12 12 15
y se puede apreciar que la mediana es 12. Observe que en este ejemplo hay dos datos 12, pero
como la mediana es un valor y no un dato, hay que tomar al 12 como un valor que toma la
mediana
Ejemplo 3.5 Si la información, dada en ejemplo anterior, es mas completa y se obtiene el
número total de accidentes por mes, del año 2005, de la empresa Royal & Anderson, la que se
ilustra en la siguiente tyabla
Distribución del número de accidentes de la empresa Royal & Anderson, durante el año 2005
Ene
Feb
Mar
12
8
15
Abr May
9
12
Jun
Jul
16
10
Ago Sep
9
7
Oct
8
Nov Dic
15
17
que al ordenar la información se tiene: 7 8 8 9 9 10 12 12 15 15 16
17
donde se observa que 10 y 12 son los datos centrales y asi le mediana serı́a
Mediana =
10 + 12
= 11
2
La mediana no es sino uno de los muchos cuantiles diferentes que dividen un conjunto de
datos en dos o mas partes iguales. También de importancia en la estadı́stica son los cuartiles,
quintiles y percentiles, pero como estos últimos se utilizan principalmente con respecto a grandes
masas de datos, los analizaremos en detalle en el próximo capı́tulo. Por tanto, mostraremos aqui
los tres cuartiles Q1 , Q2 , y Q3 . Para comprender mejor el concepto ordenamos la información
( de menor → a mayor) e imaginemos que se disponen en la siguiente recta
Observación 3.4 Considerando la ilustración anterior se tiene que:
1. El primer cuartil Q1 deja a su izquierda el 25 % de los datos y a su derecha el 75 %.
2. El segundo cuartil Q2 coincide con la mediana y deja a ambos lados el 50 % de los datos
CAPÍTULO 3. ESTUDIO DE PARÁMETROS DE UNA POBLACIÓN
3. El tercer cuartil Q3 deja a su izquierda el 75 % de los datos y a su derecha el 25 %
Ejemplo 3.6 Los que siguen son los números de minutos que una persona, en su camino al
trabajo, tuvo que esperar el bus en 14 dı́as de trabajo.
10, 2, 17, 6, 8, 3, 10, 2, 9, 5, 9 13, 1 y 10
Para encontrar los valores de Q1 , Q2 y Q3 debemos de ordenar los datos quedando asi:
1, 2, 2, 3, 5, 6, 8, 9, 9, 10, 10 10, 13 17
y se tiene que:
Mediana = Q2 =
3.3.
8+9
= 8, 5 Q1 = 3 y Q3 = 10
2
Medidas de tendencia central: moda
La moda es otra medida de tendencia central que a veces se utiliza para describir la “mitad”
de un conjunto de datos. Se define de la manera siguiente:
Definición 3.8 La moda es el valor que aparec con la mas alta frecuencia
En este sentido es el “mas común”de un conjunto de datos; sus dos ventajas principales son que
no requieren cálculos y que se puede determinar para datos cualitativos y cuantitativos. Por
otra parte al igual que la mediana, la moda no se encuentra afectada por los valores extremos
Ejemplo 3.7 Las temperatura, en grados celsius, durante las dos primeras semanas del mes
de marzo del 2006 en la ciudad de La Serena fueron:
25◦ , 28◦ , 27◦ , 25◦ , 26◦ , 27◦ , 25◦ , 26◦ , 27◦ , 25◦ , 27◦ , 22◦ , 27◦ y 27◦
Claramente la medición de mas alta frecuencia (se repite seis veces) es 27◦ y por lo tanto
corresponde a la moda.
Observación 3.5 No deja de ser importante la frecuencia presentada por la medición 25◦ que
se repite 4 veces como agregando una nueva moda en un segundo lugar de preferencia. En el
vaso de variables continuas no es extraño encontrar comportamiento bimodal (dos modas).
CAPÍTULO 3. ESTUDIO DE PARÁMETROS DE UNA POBLACIÓN
Ejemplo 3.8 Cuando se les pidió mencionaran al mejor equipo del futbol Chileno, 20 periodistas deportivos nombraron a los siguientes clubes:
Dep. La Serena, U. de Chile, Colo Colo, Dep. La Serena, U. Católica, Dep. La Serena, U. de
Chile, U. Católica, Dep. La Serena, Huachipato, Colo Colo, Dep. La Serena, Colo Colo, Colo
Colo, U. Católica, U. de Chile, U. de Chile, Dep. La Serena, Dep. La Serena, Colo Colo.
Dado que Cobrelos se repite con mayor frecuencia, 7 veces, entonces Cobreloa corresponde a la
moda.
Observación 3.6 La información dada por los 20 periodista del ejemplo anterior puede presentarse en una tabla de distribución como sigue:
Clubes
frecuencia
U. de Chile
4
U. Católica
3
Dep. La Serena
7
Colo Colo
5
Huachipato
1
20
3.4.
Medidas de variabilidad: desviación estándar
Una caracterı́stica importante de casi todos los tipos de datos es que los valores no son todos
iguales, y el grado al cual sean desiguales o varı́en entre ellos mismos es de importancia básica
en la estadı́stica. Una de las medidas mas populares e importante que miden variabilidad es la
desviación estándar, ya definida con anterioridad y lo que aprendimos solo fue calcularla sin
tener una clara interpretación de ella.
Para conocer mejor la desviación estándar, observe que la dispersión de un conjunto de datos es
pequeña si los valores se agrupan en forma cerrada junto a us media, y que es grande si los valores
se dispersan ampliamente en torno a su media. Para comprender mejor lo anterior consideremos
la siguiente tabla, donde se consideran las calificaciones de 4 alumnos en una determinada
asignatura y donde cada uno tiene 4 evaluaciones. Para simplificar la interpretación de la
CAPÍTULO 3. ESTUDIO DE PARÁMETROS DE UNA POBLACIÓN
Alumnos
A1
A2
A3
A4
nota1
50
60
90
100
nota2
50
40
10
0
nota3
50
40
80
100
nota4
P
50
60
20
0
200 200 200 200
desviación estándar hemos considerado que el promedio de los 4 alumnos es de 50 (verifı́quelo)
Si calculamos la desviación estándar de las calificaciones de los 4 alumnos, y las denotamos por
SA1 , SA2 , SA3 , SA4 tenemos que:
2
X A1 = 502 = 2500 y
2
X A1 =
502 + 502 + 502 + 502
= 2500
4
asi se tiene que la desviación estándar para las calificaciones del alumnoA1 está dada por:
q
2
2
SA1 = XA1
− X A1 = 0
Como era de esperar, al coincidir las cuatro calificaciones del alumno A1, las desviaciones de
cada una de ellas respecto al promedio es nula y es la razón por la cual la desviación estándar
es cero, podemos asegurar en este caso entonces que el promedio es un muy buen representante
de las 4 calificaciones por estar muy cerca de cada una de ellas.
Por otra parte, se tiene que:
2
XA2
602 + 402 + 402 + 602
10400
=
=
= 2600
4
4
por lo que la desviación estándar de las calificaciones del alumno A2 es:
q
√
√
2
2
SA2 = XA2
− X A2 = 2600 − 2500 = 100 = 10
Ahora
2
XA3
902 + 102 + 802 + 202
15000
=
=
= 3750
4
4
por lo que la desviación estándar de las calificaciones del alumno A3 es:
q
√
√
2
2
SA3 = XA3
− X A3 = 3750 − 2500 = 1250 ≈ 34,35
y por último
2
XA4
=
1002 + 02 + 1002 + 02
20000
=
= 5000
4
4
CAPÍTULO 3. ESTUDIO DE PARÁMETROS DE UNA POBLACIÓN
asi la desviación estándar de las calificaciones del alumno A4 es:
q
√
√
2
2
SA4 = XA4
− X A4 = 5000 − 2500 = 2500 = 50
En resumen podemos apreciar que en la medida en que las calificaciones de los alumnos se
alejan mas del promedio la desviación estándar aumenta y en consecuencia el promedio pierde
representatividad del conjunto de notas.
Observación 3.7 Lo anterior se resume en:
1. Mientras mas se alejan los datos del promedio mas aumenta la desviación estándar
2. Mientras mas aumenta la desviación estándar menos representativo es el promedio del
conjunto de datos
Para tener una una noción mas exacta de lo que mide en realidad una desviación estándar,
dedicaremos esta sección a algunas aplicaciones.
En el argumento que nos llevó a la definición de la desviación estándar, se observó que la dispersión de un conjunto de datos es pequeña si los valores se agrupan en torno al promedio y que es
grande si los se dispersan ampliamente en torno al promedio. En forma correspondiente, ahora
podemos decir que si la desviación estándar de un conjunto de datos es pequeña, los valores se
concentran en la proximidad del promedio y si es grande los valores se dispersan ampliamente
en torno al promedio.
Esta idea es expresada de manera formal por el siguiente teorema, llamado teorema de Chebyshev en honor al matemático ruso P. L. Chevyshev (1821 - 1894)
Teorema 3.1 teorema de Chebyshev
Para un conjunto de datos cualquiera y una constante k cualquiera pero mayor que uno, cuando
menos 1− k12 de los datos están dentro de k desviaciones estándar en uno u otro lado del promedio
Observación 3.8 Aplicaremos el teorema de Chevyshev para el caso en que k = 2 y k = 3
1. si k=2 se tiene que:
1−
1
1
1
3
= 1 − 2 = 1 − = = 0,75
2
x
2
4
4
La interpretación es la siguiente: “Podemos estar seguro de que aproximadamente el 75 %,
de los datos se encuentran dentro de dos desviaciones estándar en torno al promedio, es
decir se encuentran en el intervalo [X − 2S
X + 2S]
CAPÍTULO 3. ESTUDIO DE PARÁMETROS DE UNA POBLACIÓN
2. si k = 3 se tiene que:
1−
1
1
8
1
= 1 − 2 = 1 − = ≈ 0,89
2
x
3
9
9
La interpretación es la siguiente: “Podemos estar seguro de que aproximadamente el 89 %,
de los datos se encuentran dentro de tres desviaciones estándar en torno al promedio, es
decir se encuentran en el intervalo [X − 3S
X + 3S]
Observación 3.9 El teorema de chevyshev es válido para cualquier conjunto de datos, pero
si los datos tienden a distribuirse en forma simétrica alrededor del promedio, entonces la distribución de los porcentajes de dichos datos considerando una, dos y tres desviaciones estándar
quedan como muestra el siguiente gráfico:
3.5.
Estandarización y coeficiente de variación
Comenzaremos esta sección con un ilustrativo ejemplo que nos reforzará la importancia que
tienen los parámetros: Promedio y desviación estándar para luego presentar la estandarización
y finalizar con el coeficiente de variación.
Ejemplo 3.9 Supongamos que un estudiante es sometido a tres axámenes, en tres asignaturas
diferentes, y obtiene las siguientes calificaciones.
Notas(x)
Inglés
Matemática
Psicologı́a
80
65
75
Aparentemente podrı́a parecer que la mejor calificación del estudiante es la de inglés y la más
CAPÍTULO 3. ESTUDIO DE PARÁMETROS DE UNA POBLACIÓN
pobre la de matemáticas. Sin embrago, serı́a póco inteligente apresurarse a tal conclusión, pués
existen varias razones por la que las calificaciones puras pueden no ser comparables. Por ejemplo, puede que el examen de inglés haya sido muy fácil, con abundancia de calificaciones abultadas, mientras que el de matemática resultó demasiado difı́cil. O bien, que el examen de inglés
se ha calificado sobre un total de 100 puntos y el de matemática sobre 80 puntos etc.
Las calificaciones en sı́ suministran información sobre el número absoluto de puntos obtenidos,
pero ninguna indicación acerca de la bondad del rendimiento en comparación con el de los
demás. Supongamos que ahora se nos agrega una nueva información y nos dan el promedio de
las calificaciones de cada asignatura las que se reflejan en la siguiente tabla:
Inglés Matemática
Psicologı́a
Notas(x)
80
65
75
Promedio
85
55
60
Esta información adicional cambia considerablemente el panorama. Si observamos los promedios, podemos ver que las calificaciones en inglés fueron muy elevadas, pues los 80 puntos son
inferiores a la media. Es decir, el resultado mas pobre del estudiante es precisamente en inglés.
Un observador poco reflexivo podrı́a ahora deducir que la mejor calificación del estudiante es ls
de psicologı́a, puesto que está 15 puntos por encima del promedio, mientras que en matemática
sólo la ha superado en 10 puntos.
Ahora se nos agrega una nueva información que tiene que ver con la desviación estándar, la que
se exhibe en la siguiente tabla: Graficaremos la situación del alumno considerando la asignatura
Inglés
Matemática
Psicologı́a
Notas(x)
80
65
75
Promedio
85
55
60
Desviación estándar
10
5
15
de matemática y sociologı́a para confrontarlo y para ello vamos a anlizar toda la información,
es decir, consideraremos la nota, el promedio y la desviación estándar:
CAPÍTULO 3. ESTUDIO DE PARÁMETROS DE UNA POBLACIÓN
La desviación estándar muestra que la dispersión de los datos en las notas de psicologı́a fue de
15 puntos por lo que la calificación 75 se encuentra a una distancia de una desviación estándar
respecto al promedio y se puede deducir que aproximadamente existe un 16 % de alumnos sobre
dicha nota.
Por otra parte la desviación estándar de las notas de matemática es de 5 y la calificación 65
se encuentra a dos desviaciones estándar respecto al promedio por lo que sobre ella sólo hay
aproximadamente un 2,5 %, lo que habla de que debe ser una de las mejores notas del curso.
Podemos resumir enfatizando la importancia que tiene hacer un análisis considerando el comportamiento del promedio y la desviación estándar. Hemos cambiado radicalmente de opinión
al conocer los parámetros mencionados y la asignatura de matemática pasó a ser la mejor calificación del alumno y la de inglés la peor y antes de este conocimiento la opinión era todo lo
contrario.
CAPÍTULO 3. ESTUDIO DE PARÁMETROS DE UNA POBLACIÓN
3.5.1.
Estandarización
Hemos aprendido que las calificaciones, por si sola, no son comparables y todo pasa por
considerar el comportamiento del promedio y la desviación estándar. Una forma de establecer
un mecanismo que permita la comparación directa de las calificaciones, pasa por el concepto
de estandarización, que consiste en convertir las calificaciones originales en unas nuevas con la
importante propiedad de que éstas tienen promedio igual a cero y desviación estándar igual
a uno. Al estandarizar todas las calificaciones de cada asignatura entonces quedan en iguales
condiciones (igual promedio e igual desviación estándar) para ser comparadas.
Definición 3.9 Estandarizar el siguiente conjunto de datos reales x1 , x2 , x3 , ..., xn ,
consiste
en generar nuevos números reales z1 , z2 , z3 , ..., zn donde:
zi =
donde X
y
S
xi − X
S
es el promedio y la desviación estándar, de los datos
x1 , x2 , x3 , ..., xn ,
respectivamente.
Ejemplo 3.10 Considerando el ejemplo de las calificaciones del estudiante en las asignaturas
de inglés, matemática y psicologı́a y procediendo a la estandarización de cada una de sus notas
se tiene lo siguiente: .
Inglés
Matemática
Psicologı́a
Notas(x)
80
65
75
Promedio
85
55
60
Desviación estándar
10
5
15
Nota estandarizada z
80−85
10
= −0,5
65−55
5
=2
75−60
15
=1
Ahora se pueden comparar los datos estandarizados(z) y observamos que la mejor es matemática(z =
2) luego psicologı́a(z = 1) y último inglés(z = −0,5)
3.5.2.
Coeficiente de variación
El coeficiente de variación es una medición relativa de variación: Se expresa como un porcentaje antes que en términos de las unidades de los datos particulares.
CAPÍTULO 3. ESTUDIO DE PARÁMETROS DE UNA POBLACIÓN
El coeficiente de variación mide la dispersión en los datos relativo al promedio y se define de la
siguiente manera:
Definición 3.10 El coeficiente de variación se denota por CV , y se define como:
CV =
S
100 %
X
Como una medución relativa, el coeficiente de variación es particularmente útil al comparar la
variabilidad de dos o más series de datos que se expresan en distintas unidades de medición.
Ejemplo 3.11 Durante los meses pasados, un corredor promedió 12 km. por semana con una
desviación estándar de 2 km., mientras que otro corredor promedió 25 km. por semana con una
desviación estándar de 3 km.¿Cuál de los dos corredores es relativamente mas consistente en
sus hábitos de correr todas las semanas?
Solución
Sea CV1 y CV2 los coeficientes de variación del primer y segundo corredor rspectivamente,
entonces:
CV1 =
3
2
100 % = 16, 7 % y CV2 =
100 % = 12 %
12
25
Por lo tanto el segundo corredor es relativamente mas consistente en sus hábitos de correr todas
las semanas
3.6.
Introducción a los números ı́ndices
En esta sección se examinará, a nivel introductorio, un medio estadı́stico muy útil denominado ı́ndice. Muchos ı́ndices, tales como el indice de precios al consumidor, el de una bolsa
de valores y uno de indicadores económicos avanzados, compilados y publicados por gobiernos reciben considerable atención en los noticiarios de televisión y en las primeras planas de
periódicos.
Todos los paı́ses están preocupados por la variación de ciertos ı́ndices y la consideración de ellos
son determinantes, de una u otra manera, en tomas de decisiones.
Definición 3.11 Un número ı́ndice es una relación en porcentaje que mide el cambio de un
tiempo a otro en precio, cantidad, valor o algún otro elemento de interés
CAPÍTULO 3. ESTUDIO DE PARÁMETROS DE UNA POBLACIÓN
Observación 3.10 Ası́ como el promedio o cualquier otro promedio resume un conjunto de
valores, un número ı́ndice se utiliza para determinar la variación en porcentaje (o en 1000,
10000, 100000 ó 1000000 etc.) en una sola cifra, del precio, valor o cantidad de un conjunto
de datos estadı́sticos de un perı́odo a otro.
. Es importante destacar que existe una gran variedad de ı́ndices y muchos de ellos obedecen a
una estructura general y otros tienen un tratado especial. En estos apuntes veremos una forma
muy elemental, de este concepto, y que obedecen a una patrón de comportamiento y luego
veremos algunos ı́ndices especiales que están ya estandarizados y normados por el Sernageomin
basados en estándares internacionales.
Ejemplo 3.12 Suponga que el precio de un artı́culo cualquiera entre 1990 1995 fue como sigue:
.
Año
Precio
1990
400
1991
600
1992
550
1993
275
1994
350
1995
700
Para el cálculo de un ı́ndice se debe considerar un perı́odo base para fines comparativos. En el
caso del ejemplo consideraremos, como perı́odo base, el año 1990 y luego procederemos a calcular
el ı́ndice de variación de los años siguientes y finalemente estableceremos la comparaciones e
interpretación.
precio 1990
400
× 100 =
× 100 = 100
precio 1990
400
precio 1991
600
I91 =
× 100 =
× 100 = 150
precio 1990
400
precio 1995
550
I92 =
× 100 =
× 100 = 137,5
precio 1990
400
precio 1993
275
I93 =
× 100 =
× 100 = 68,75
precio 1990
400
precio 1994
350
I94 =
× 100 =
× 100 = 87,5
precio 1990
400
I90 =
CAPÍTULO 3. ESTUDIO DE PARÁMETROS DE UNA POBLACIÓN
700
precio 1995
× 100 =
× 100 = 175
precio 1990
400
Podemos resumir los cálculos hechos en una tabla como sigue: .
I95 =
Año
Precio
Indice
1990
400
100
1991
600
150
1992
550
137.5
1993
275
68.8
1994
350
87.5
1995
700
175
Observación 3.11 Podemos realizar la siguientes interpretaciones de los ı́ndices calculados en
el ejemplo: Ası́ para el perı́odo 1991 el ı́ndice 150 significa que el precio del artı́culo en estudio,
en este perı́odo, es el 50 % mayor que en el perı́odo 1990. El ı́ndice de precios para 1992 de
137.5 indica que el precio, en este perı́odo, es de 37.5 % mas alto que en el perı́odo 1990. Para
los perı́odos 1993 y 1994 los ı́ndices son respectivamente 68.8 y 87.5 quiere decir que el precio
del año 1993 fue el 31.2 % menor que el perı́odo base (1990) y que en el perı́odo 1994 fue el
12.5 % menor que en 1990.
Cuando se calcula un número ı́ndice la base puede permanecer fija, como en el caso del ejemplo,
en éste, el precio de cada perı́odo de la serie se comparó con el precio del perı́odo 1990 (base
fija).Otra forma de calcular los ı́ndices consiste en variar la base de un perı́odo a otro, cuando
este es el caso, se dice que los ı́ndices se calcularon con base variable.
Lo que hemos visto sobre, números ı́ndices, ha sido a nivel introductorio sin profundizar en otras
forma de generar indicadores. Nos proponemos ahora analizar, en particular, algunos ı́ndices
que han sido estandarizados y reconocidos por Sernageomin para establecer comparaciones con
estándares tanto nacionales como internacionales.
3.6.1.
Indices de frecuencia y gravedad en prevención de riesgo
Indice de frecuencia
Definición 3.12 LLamamos ı́ndice de frecuencia al número de accidentes con tiempo perdido
por millón de horas hombres de exposición al riesgo, entendiendo por
CAPÍTULO 3. ESTUDIO DE PARÁMETROS DE UNA POBLACIÓN
1. Accidente con tiempo perdido
Aquella lesión que hace perder al trabajador mas de una jornada de trabajo y los fatales.
2. Horas hombre de exposición al riesgo
Es el número total de hombres trabajando multiplicado por el número total de horas en
trabajo de todo el personal en el perı́odo considerado.
3. Factor 1000000
Es una constante para facilitar los cálculos.
Podemos resumir lo anterior en la siguiente fórmula:
IF =
N◦ accidentes con tiempo perdido
× 1000000
Total horas hombres
donde IF es el ı́ndice de frecuencia
Observación 3.12 En el análisis de este ı́ndice se debe dejar constancia que el cálculo de
las horas hombres debe ser lo mas exacto posible y regirse por las normas emanadas por el
Sernageomin.
Ejemplo 3.13 En una faena minera laboran 1000 trabajadores en jornadas de trabajo de 5 × 2
con 9 horas de trabajo diario.
En un mes ocurrieron 150 accidentes que se descomponen como sigue:
Tipo de accidentes
frecuencia (f)
con incapacidad laboral
1
con incapacidad parcial temporal
56
con incapacidad permanente parcial
9
sin tiempo perdido
P
84
150
Se pide calcular el ı́ndice de frecuencia
Solución
Cada trabajador está expuesto al riesgo 9 horas diarias y dado que labora en turnos de 5 × 2,
entonces hay 2 dı́as a la semana que descansa pr lo tanto en el mes no trabaja 8 dı́as, lo que
CAPÍTULO 3. ESTUDIO DE PARÁMETROS DE UNA POBLACIÓN
se desprende que durante el mes trabaja 22dı́as.
Por lo anterior podrı́amos asegurar que el número total de horas expuestas al riesgo por trabajador es de:
N◦ horas expuestas al riesgo por trabajador = 9 × 22 = 198 horas
Ahora si consideramos los 1000 trabajadores se tiene que:
N◦ total de horas expuestas al riesgo = 1000 × 198 = 198000 horas
Por otra parte el número total de accidentes con tiempo perdido es de 66. De esta manera el
ı́ndice de frecuencia es de:
IF =
66
× 1000000 = 333,33 ≈ 333
198000
Significa que por cada millón de horas hombres con exposición al riesgo, ocurrirán 333 accidentes con tiempo perdido.
Indice de gravedad
La importancia del ı́ndice de gravedad radica no solo en las consecuencias de las lesiones,
sino en el tiempo perdido y el mayor o menor costo que éstas acarrean. La forma mas práctica
de obtener el ı́ndice de gravedad es relacionar los dı́as perdidos debido a accidentes, con el
número total de horas hombres expuestas al riesgo.
Definición 3.13 El ı́ndice de gravedad es la relación que existe entre el total de dı́as perdidos
debido a los accidentes del trabajo y el total de horas hombres de exposición al riesgo, multiplicado por 1000000.
Si llamamos IG al ı́ndice de gravedad se tiene que:
IG =
N◦ de dı́as perdidos
× 1000000
Total horas hombres
Ejemplo 3.14 En una industria de 1500 trabajadores con jornada completa, se produjeron en
un mes 50 accidentes distribuidos como se muestra en la siguiente tabla:
CAPÍTULO 3. ESTUDIO DE PARÁMETROS DE UNA POBLACIÓN
N◦ de accidentes
incapacidad
dı́as perdidos
43
parcial temporal
500
6
permanente parcial
500
1
permanente total
6000
50
-
7000
P
Se pide calcular el ı́ndice de gravedad
Solución
Cada trabajador trabaja a tiempo completo y en la semana debe cumplir con 45 horas por lo
que el número de horas mensuales expuesto al riesgo es de:
N◦ horas expuestas al riesgo por trabajador = 45 × 4 = 180 horas
asi el total de horas hombres expuestas al riesgo es de
N◦ total de horas expuestas al riesgo = 180 × 1500 = 270000 horas
se tiene entonces que el ı́ndice de gravedad es de:
IG =
7000
× 1000000 = 25925, 925 ≈ 25926
270000
Significa que por cada millón de horas hombres expuestas al riesgo se pierden 25926 dı́as de
trabajo.
Capı́tulo 4
Estadı́stica descriptiva bivariada
Cuando los datos de una determinada población están relacionados con dos variables es muy
útil recurrir a una tabla de doble entrada para distribuir en ella todos los datos que cumplan
obviamente con los dos criterios definidos por las variables mencionadas. En general, una tabla
de doble entrada tiene la siguiente forma.
Tabla de doble entrada
Y
y1
y2 · · ·
yj
···
yn
P
X
x1
f11
f12
···
f1j
···
f1n
f1•
x2
..
.
f21
..
.
f22
..
.
···
..
.
f2j
..
.
···
..
.
f2n
..
.
f2•
..
.
xi
..
.
fi1
..
.
fi2
..
.
···
..
.
fij
..
.
···
..
.
fin
..
.
fi•
..
.
xm
P
fm1
fm2
···
fmi
···
fmn
fm•
f•1
f•2
···
f•i
···
f•n
f••
donde fij representa el número de observaciones (frecuencia) que cumplen la condición de
pertenecer a la clase xi y también a la clase yj
fi• =
n
X
fij = fi1 + fi2 = · · · + fin
m
X
fij = f1j + f2j + · · · + fmj
j=1
f•j =
i=1
CAPÍTULO 4. ESTADÍSTICA DESCRIPTIVA BIVARIADA
f•• =
m X
n
X
f ij =
i=1 j=1
m
X
fi• +
i=1
n
X
f•j
j=1
Recurriremos a un ejemplo para interpretar los valores que se encuentran en las celdas de
una tabla de doble entrada. Aprovecharemos, al mismo tiempo, de definir conceptos como:
Distribuciones marginales, distribuciones condicionales y covarianza:
Ejemplo 4.1 Considere la siguiente tabla de doble entrada que muestra a trabajadores de la
empresa W distribuidos según sus edades y años de experiencia.
Distribución de trabajadores de acuerdo a su edad (X) y años de experiencia(Y).
Años Exp. Y
0-5
5 - 10 10 - 15 15 - 20
20 - 25
Edad X
20 − 25
1
25 − 30
2
4
30 − 35
5
10
15
35 − 40
1
20
30
6
5
40 − 45
10
15
Responderemos las siguientes preguntas como una manera de ilustrar diferente definiciones
como también apreciar las bondades que tiene una tabla de doble entrada
1. Interpretar los siguientes valores f33 , f4• y f•3
2. Calcular la edad promedio y la desviación estándar de los trabajadores con una experiencia
entre 5 y 10 años.
3. El 25 % de los trabajadores con mas años de servicios recibirán un bono extra de $180000
pesos. Si Juan Pérez tiene 14 años de servicio. ¿Tiene derecho el Sr. Pérez al bono?.
Respuestas
1. f33 = 15; Significa que 15 trabajadores tienen entre 30 y 35 años de edad y entre 10 y 15
años de experiencia.
f4• = 51;Significa que 51 trabajadores tienen entre 35 y 40 años.
f•3 = 50; Significa que 50 trabajadores tienen entre 10 y 15 años de experiencia.
CAPÍTULO 4. ESTADÍSTICA DESCRIPTIVA BIVARIADA
4.0.2.
Distribución condicional
Vamos a introducir el concepto de distribución condicional, observe que la pregunta, del
ejercicio 2, condiciona la respuesta a aquellos trabajadores que tienen una experiencia entre 5
y 10 años. Esto nos lleva a extraer la información de la siguiente tabla condicionada:
Distribución condicional de la edad de los trabajadores
con años de experiencia entre 5 y 10 años.
4.0.3.
Edad
N◦ de trabajadores
X
fi2
20 − 25
1
25 − 30
4
30 − 35
10
35 − 40
20
40 − 45
P
6
41
Marca de clase
Para calcular el promedio y la desviación estándar debemos incorporar una nueva columna con las marcas de clase que corresponden a los puntos medios de las clases (o intervalos),
quedando de la siguiente manera:
Edad
Marca de clase
N◦ de trabajadores
X
xi
fi2
20 − 25
22, 5
1
25 − 30
27, 5
4
30 − 35
32, 5
10
35 − 40
37, 5
20
40 − 45
P
42, 5
6
41
CAPÍTULO 4. ESTADÍSTICA DESCRIPTIVA BIVARIADA
Edad
Marca de clase N◦ de trabajadores
X
xi
fi2
xi fi2
20 − 25
22, 5
1
22, 5
25 − 30
27, 5
4
110
30 − 35
32, 5
10
325
35 − 40
37, 5
20
750
40 − 45
P
42, 5
6
255
41
1462, 5
Hemos introducido la columna marca de clase con la finalidad de calcular un promedio (aproximado) para datos tabulados. Con el objeto de aclarar esto interpretaremos la marca de clase
37, 5 (que corresponde al intervalo 35 − 40) diciendo que: 20 trabajadores tienen una edad de
37, 5 años. Lo que quiere decir que la edad 37, 5 años se repite 20 veces. Asi, tenemos que:
P5
j=1 xi fi2
X/y ∈ [5, 10] = P5
j=1 fi
=
1462, 5
= 35, 67
41
donde la notación X/y ∈ [5, 10] se interpreta como el promedio de edad condicionado a los
valores de y entre 5 y 10, es decir a los trabajadores que tienen entre 5 y 10 años de servicio.
Buscaremos ahora la deviación estándar(datos tabulados), para ello completaremos la tabla
para realizar los cálculos necesarios:
Edad
M. de clase
N◦ de trab.
X
xi
fi2
xi fi2
x2i
x2i fi2
20 − 25
22, 5
1
22, 5
506, 25
506, 25
25 − 30
27, 5
4
110
756, 25
3025
30 − 35
32, 5
10
325
1056, 25
10562, 5
35 − 40
37, 5
20
750
1406, 25
28125
40 − 45
P
42, 5
6
255
1806, 25
10837, 5
41
1462, 5
53056, 25
Recuerde que:
2
S =
X2
P 2 P 2
2
fx
fx
53056, 25
1462, 5
−X = P
− P
=
−
= 21, 706
f
f
41
41
2
CAPÍTULO 4. ESTADÍSTICA DESCRIPTIVA BIVARIADA
Ası́, la desviación estándar será:
S=
4.0.4.
p
21, 706 = 4, 66
Distribución marginal
Observe que nos están preguntando por el percentil 75 (P75 )y la variable que se está considerando son los años de servicio de los trabajadores. Por esta razón vamos a construir una
tabla que se llama Tabla marginal, que pasamos a mostrar.
Distribución marginal de los años de servicio de los trabajadores
Años Exp.
N◦ de trabajadores Frec. Acumulada
Y
f•j
F•j
0−5
8
8
5 − 10
41
49
10 − 15
50
99
15 − 20
10
109
20 − 25
P
15
124
124
calculamos la expresión
75
124 = 93
100
comparamos el valor 93 con la columna de la frecuencia acumulada(F•j ), partiendo de la primera
celda, y con el primer valor que lo supere nos detenemos en dicho valor e inspeccionamos en
que intervalo se encuentra y concluimos que corresponde a 10 − 15. Conocido el intervalo donde
se encuentra el P75 , podemos aplicar la fórmula:
P75 = liminf +
75
n
100
− Fa− a
f
reemplazando los datos liminf = 10, n = 124, Fa− = 49, a = 5 y f = 50 tenemos que:
75
124 − 49 5
100
P75 = 10 +
= 14, 4
50
El señor Pérez por tener 14 años de servicio no logra ser beneficiado por el bono.
CAPÍTULO 4. ESTADÍSTICA DESCRIPTIVA BIVARIADA
4.0.5.
Covarianza
Cuando se trabaja con dos variables, un parámetro que permite decidir que tipo de asociación existe entre ellas, es la covarianza que se denota por Cov(X, Y ) y que pasamos a definir:
Definición 4.1
Cov(X, Y ) = XY − X Y
donde
XY =
P
xy
n
y
P P
x y
XY =
n n
n representa el total de casos (suma de las frecuencias)
Observación 4.1 De acuerdo al signo de Cov(X,Y) se distingue lo siguiente:
1. Si Cov(X, Y ) > 0, X e Y se relacionan en forma directamente proporcional
2. Si Cov(X, Y ) < 0, X e Y se relacionan en forma inversamente proporcional
3. Si Cov(X, Y ) = 0, No existe relación entre X e Y.
Ejemplo 4.2 Al calcular la Cov(X,Y) de la tabla de doble entrada del ejercicio en que la variable X representa la edad de los trabajadores y la variable Y representa los años de experiencia
de ellos, se tiene que:
La siguiente tabla marginal permite calcular X
Edad
M. de clase
N◦ de trab.
X
xi
fi•
xi fi•
20 − 25
22, 5
1
22, 5
25 − 30
27, 5
6
165
30 − 35
32, 5
30
975
35 − 40
37, 5
51
1912,5
40 − 45
P
42, 5
36
1530
124
4605
P
P
fx
xi fi•
4605
X= P = P
=
= 37, 137
f
fi•
124
CAPÍTULO 4. ESTADÍSTICA DESCRIPTIVA BIVARIADA
La siguiente tabla permite calcular Y
Años Exp.
M. de clase
N◦ de trabajadores
Y
yj
f•j
f•j yj
0−5
2,5
8
20
5 − 10
7,5
41
307,5
10 − 15
12,5
50
625
15 − 20
17,5
10
175
20 − 25
P
22,5
15
337,5
124
1465
P
P
fy
f•j yj
1465
Y = P = P
=
= 11, 814
f
f•j
124
La siguiente tabla permite calcular XY
yj
2,5
7,5 12,5 17,5 22,5
xi
22,5
0
1
0
0
0
27,5
2
4
0
0
0
32,5
5
10
15
0
0
37,5
1
20
30
0
0
42,5
0
6
5
10
15
XY =
Ası́:
P
xy
=
n
P
xyf
56200
Pi j ij =
= 453, 225
fij
124
Cov(X, Y ) = XY − X Y
= 453, 225 − 37, 137 ∗ 11, 814
= 14, 488 > 0
Podemos decir, que existe una relación directamente proporcional entre los años de experiencia
y la edad de los trabajadores.
Bibliografı́a
[1] MASON y LIND. “Estadı́stica para Administración y Economı́a”.
[2] TRIOLA, M. “Estadı́stica elemental”.
[3] BERENSON y LEVINE. “Estadı́stica básica en administración”.
[4] RUBILAR CORTES R. “Estadı́stica aplicada a la accidentabilidad”.
[5] AGUIRRE VERGARA, C. “Estadı́stica aplicada”.
[6] LEVIN Y RUBIN “Estadı́stica para administradores”.
[7] FREUND SMITH “Estadı́stica”.
Descargar