MODULO 02

Anuncio
MODULO 02
*. Los miembros de una cooperativa de viviendas tienen las siguientes edades:
42 60 60 38 60 63 21 66 56 57 51 57 44 45 35
30 35 47 53 49 50 49 38 45 28 41 47 42 53 32
54 38 40 63 48 33 35 61 47 41 55 53 27 20 21
42 21 39 39 34 45 39 28 54 33 35 43 48 48 27
53 30 29 53 38 52 54 27 27 43 28 63 41 23 58
56 59 60 40 24
Elabore una tabla de frecuencias y calcule la media y la desviación típica.
Para elaborar una tabla de frecuencias es condición imprescindible establecer una serie de clases o
categorías (intervalos) a las que vamos a adjudicar a cada uno de los ochenta miembros de la cooperativa. El
investigador puede seguir diferentes criterios en función del objetivo del estudio. Una tabla de frecuencias
elaborada a partir de estos datos podría ser la siguiente:
Edad
20-29
30-39
40-49
50-59
60-69
Total
n
14
17
22
18
9
80
Cálculo de la media:
Puede calcularse directamente sumando las edades de todos los miembros de la cooperativa y dividiendo por
el total que en este caso es ochenta, el resultado es una media de 43,29. También:
Edad
20-29
30-39
40-49
50-59
60-69
Total
x
xi
25
35
45
55
65
ni
14
17
22
18
9
80
xini
350
595
990
990
585
3510
3510
 43,875
80
, por tanto, podemos decir que la media es de casi 44 años.
Cálculo de la desviación típica:
Edad
xi
ni
xi  x
( xi  x) 2
( xi  x) 2 n
20-29
30-39
40-49
50-59
60-69
Total
25
35
45
55
65
14
17
22
18
9
80
-18,875
-8,875
1,125
11,125
21,125
356,2656
78,7656
1,2656
123,7656
446,2656
4987,71875
1339,01563
27,84375
2227,78125
4016,39063
12598,75
12598,75
 12,549
80
Sx =
La desviación típica es de 12,5 años
*. Explique las similitudes y diferencias de estas distribuciones:
Edad
20-29
n_
14
Edad
20-29
n__
43
30-39
40-49
50-59
60-69
Total
17
22
18
9
80
30-39
40-49
50-59
60-69
Total
---37
80
La media y la desviación típica de la primera distribución, ha sido calculada en el primer
Calculamos a continuación los mismos estadísticos para la segunda distribución.
Cálculo de la media:
x
Edad
xi
ni
xini
20-29
30-39
40-49
50-59
60-69
Total
25
35
45
55
65
43
37
80
1075
2405
3480
3480
 43,5
80
Cálculo de la desviación típica:
Edad
xi
ni
20-29
30-39
40-49
50-59
60-69
Total
Sx 
25
35
45
55
65

( xi  x) 2 n
N
43
37
80

xi  x
( xi  x) 2
( xi  x) 2 n
-18,875
-8,875
1,125
11,125
21,125
356,2656
78,7656
1,2656
123,7656
446.2656
15319,4219
16511,8281
31831,25
31831,25
 19,947
80
La similitud de ambas distribuciones radica fundamentalmente en que tienen la misma amplitud y casi el
mismo valor medio. La diferencia es que las frecuencias de la segunda se distribuyen en los intervalos
extremos dejando vacíos los del medio. Ello aparece perfectamente reflejado en la desviación típica de 19,9,
aproximadamente 20 años. 43 + 20 hacen 63, aproximadamente la mitad del último intervalo, 43 – 20 hacen
23, aproximadamente la mitad del primer intervalo. Recuérdese que la desviación típica es la raíz de la media
de las distancias al cuadrado, de cada uno de los elementos de la distribución respecto de la media aritmética.
*. Con el objetivo de ver la relación entre horas trabajadas en un taller y unidades producidas, se tomó una
muestra de ambas variables, obteniéndose los siguientes resultados:
X=horas de trabajo diarias Y=unidades producidas
X 60 60 60 62 62 73 73 74 74 74 75 78 78 80 80 82 82 84 84 84 84
Y 250 240 245 245 250 292 292 298 300 300 300 310 314 310 310 320 336 336 336 340 340
Se pide:
a) De la variable marginal 'horas de trabajo', calcular: Media, mediana, moda y varianza.
b) Determinar en ambas variables el rango intercuartílico. Agrupar la variable X en 5 intervalos e Y en 4
intervalos y representa gráficamente cada variable.
c) Calcular la recta de regresión de las unidades producidas sobre las horas de trabajo. ¿Cuál será la
predicción de unidades para 70 horas de trabajo?.
*. Sobre 16 individuos se estudian las siguientes características: el salario mensual (Y, en miles de pesetas),
los años de estudio (X1) y la edad (X2).
Y 200 200 300 250 175 150 150 300 300 150 175 200 175 100 150 350
X 1 17 12 17 17 13
8
8
17 12 12 12
8
8
11 13 13
X 2 28 40 32 32 36 40 30 36 34 34 36 36 40 28 30 40
Se pide:
a) Calcular las medias, medianas y moda de cada una de las variables. Representar gráficamente las tres de
forma individual.
b) ¿Cuál es el intervalo salarial donde se encuentra el 90% de los individuos?.
c) ¿Qué variable tiene mayor dispersión?.
d) Estimar el salario para una persona con 15 años de estudios. ¿Cuánto vale el coeficiente de correlación
lineal entre estas dos variables?.
Diagrama de Cajas y Bigotes
*. Considere los siguientes datos, correspondientes a
De este conjunto de datos tenemos que:
Me = 90.45
Q1 = 88.25
Rango intercuartílico = 92.2-88.25 = 3.95
Cercas interna inferior = 88.25 - 5.925 = 82.325
Cerca interna superior = 92.20 + 5.925 = 98.125
Cerca externa inferior = 82.325 - 5.925 = 76.40
Cerca externa superior = 98.125 + 5.925 = 104.05
Q3 = 92.2
*. de Proporción: si en una población de 2500 habitantes se diagnostican 150 casos de gripe aviar, entonces,
la proporción de enfermos es de 150/2500 = 0.06 (6%). El valor de una proporción puede variar así de 0 a 1, y
suele expresarse como un porcentaje.
*. de Razones. Al igual que en el caso anterior es una división, pero aquí el numerador no forma parte del
denominador como en le caso anterior, por la razón entre la población con gripe aviar y la sana es 150/2350
= 3/47 =0,064.
*. Consideremos una tabla estadística relativa a una variable continua, de la que nos dan los intervalos, las
marcas de clase ci, y las frecuencias absolutas ni.
Intervalo
00-02
02-04
04-06
06-08
08-10
ci
1
3
5
7
9
12
ni
2
1
4
3
2
Ni
2
3
7
10
12
64
nici
2
3
20
21
18
Para calcular la media podemos añadir una columna con las cantidades n ici. La suma de los términos de esa columna
dividida por n=12 es la media x  64 / 12  5.3 . La mediana es el valor de la variable que deja por debajo de sí a la
mitad de las n observaciones, es decir 6. Construimos la tabla de las frecuencias absolutas acumuladas, N i y vemos que
eso ocurre en la modalidad tercera, es decir, i=3, entonces, (li-1,li]= (4,6], que corresponde el intervalo en donde se
encuentra la mediana, entonces tenemos
Med  l i 1 
(n / 2)  N i 1
(12 / 2)  3
 ai  4 
 5.5  l i 1 , l i 
ni
4
Para el cálculo de la Moda, lo primero es encontrar los intervalos modales, buscando los máximos relativos en la columna
de las frecuencias absolutas, ni. Vemos que hay dos modas, correspondientes a las modalidades j=1, j=3. En el primer
intervalo modal, (l0,l1]=(0,2], la moda se calcula como
Moda  l i 1 
n i  n i 1
20
 ai  0 
 2  1.3
(n i  n i 1 )  (n i  n i 1 )
(2  0)  (2  1)
El segundo intervalo modal es (l2,l3]=(4,6], siendo la moda el punto perteneciente al mismo que se obtiene como:
Moda  l i 1 
n i  n i 1
4 1
 ai  4 
 2  5.5
(n i  n i 1 )  (n i  n i 1 )
(4  1)  (4  3)
En este caso, como se ve, la moda no toma un valor único, sino el conjunto, Moda = (1.3,5.5)
*. Dado el registro de estaturas de estudiantes, hallar los principales parámetros estadísticos analizados
Variable
Frecuencia Absoluta
Simple
Acumulada
Frecuencia Relativa
Simple
Acumulada
1,20
1
1
3,3 %
3,3 %
1,21
1,22
4
4
5
9
13,3 %
13,3 %
16,6 %
30,0 %
1,23
2
11
6,6 %
36,6 %
1,24
1,25
1,26
1,27
1,28
1,29
1
2
3
3
4
3
12
14
17
20
24
27
3,3 %
6,6 %
10,0 %
10,0 %
13,3 %
10,0 %
40,0 %
46,6 %
56,6 %
66,6 %
80,0 %
90,0 %
1,30
3
30
Media aritmética:
Xm 
Media geométrica:
30
10,0 %
100,0 %
1.20  4  1.21  4  1.22  4    1.30  3
 1.253
30
1.204  1.214    1.303  1.253
Mediana: 1,26, ya que por debajo está el 50% de los valores y por arriba el otro 50%.
Moda: Hay 3 valores que se repiten en 4 ocasiones: el 1,21, el 1,22 y el 1,28, por lo tanto esta seria cuenta con 3 modas
Buscar la media, la mediana y la moda de los siguientes números:
25 15 28 29 25 26 21 26
La media es 24.4
La mediana X[8/2+1/2] = X[4+1/2] = X[4.5] = 25.5
La Moda 25 y 26.
Buscar la media, la mediana y la moda de los siguientes números:
15 16 19 15 14 16 20 15 17
Media: 16.3
Mediana: 16
La moda: 15
*. En un estudio que se realizó en un asilo de ancianos, se tomó las edades de los ancianos que pueden caminar sin
dificultades. Buscar la media, la mediana y la moda de las siguientes edades, e indicar si es muestra o población. No
utilice la fórmula.
69 73 65 70 71 74 65 69 60 62
*. Se escogió un salón de clases de cuarto grado, con un total de 25 estudiantes, y se les pidió que calificaran del 1 al 5
un programa televisivo. (5 = Excelente 4 = Bueno 3 = Regular 4 = No muy bueno 1 = Fatal)
Estos fueron los resultados:
13341
22251
45153
51412
21235
Buscar la media, la moda y la mediana e indicar si es muestra o población
*. Dado el registro de estaturas de estudiantes, hallar los principales parámetros estadísticos analizados
Variable
Frecuencia Absoluta
Simple
Acumulada
Frecuencia Relativa
Simple
Acumulada
1,20
1
1
3,3 %
3,3 %
1,21
1,22
4
4
5
9
13,3 %
13,3 %
16,6 %
30,0 %
1,23
2
11
6,6 %
36,6 %
1,24
1,25
1,26
1,27
1,28
1,29
1,30
1
2
3
3
4
3
3
12
14
17
20
24
27
30
3,3 %
6,6 %
10,0 %
10,0 %
13,3 %
10,0 %
10,0 %
40,0 %
46,6 %
56,6 %
66,6 %
80,0 %
90,0 %
100,0 %
Media aritmética:
Xm 
Media geométrica:
30
1.20  4  1.21  4  1.22  4    1.30  3
 1.253
30
1.204  1.214    1.303  1.253
Mediana: 1,26, ya que por debajo está el 50% de los valores y por arriba el otro 50%.
Moda: Hay 3 valores que se repiten en 4 ocasiones: el 1,21, el 1,22 y el 1,28, por lo tanto esta seria cuenta con 3 modas
*. Dada la siguiente distribución en el número de hijos de cien familias, calcular sus cuartiles.
xi
0
1
2
3
4
5
ni
14
10
15
26
20
15
n=100
Ni
14
24
39
65
85
100
Solución:
Primer cuartil:
n/4=25, ni>n/4=39, luego Q1=2
Segundo cuartil: 2n/4=50, Primera Ni>2n/4=65, luego Q2=3
Tercer cuartil:
3n/4=75, Primera Ni>3n/4=85, luego Q3=4
* Grafique en escala normal (1:1), en escala desproporcionada (1:4) y haga comentarios
* Utilice gráfico de líneas, barras, tortas, y polígono de Frecuencias. Haga comentarios
Variación de La Inflación en Colombia entre 1995-2000
* Utilice gráfico de líneas, barras, tortas, y polígono de Frecuencias. Haga comentarios
Índice de Precios al Consumidor 1999-2001
Obtener índices estudiados de la información sobre el IPC
*. : Cantidad de cigarrillos consumidos por un fumador en una semana son
Lunes: 18
Martes: 21
Miércoles: 22
Jueves: 21
Viernes: 20
Domingo: 19
Sábado: 19
Entonces los parámetros estadísticos son
Media Aritmética = ____
Varianza: _____
Desviación Típica: ____
Etc. Halle todos los estudiados en el curso
*. Demuestre: La suma de las diferencias de los datos con respecto a la media aritmética es igual cero.
Demostración
pero
Como
Para la demostración anterior aplique un
*. Las calificaciones de un estudiante están conformadas por los siguientes factores: Un examen cuyo valor es
40% en el cual obtuvo una nota de 4.5, un trabajo de consulta con ponderación del 10% y calificación de 1.0,
una exposición equivalente al 15% con nota de 2.0, y por último una investigación con valor del 35% calificada
con 3.5. Entonces aplicando el concepto de media ponderada la nota definitiva es
entonces la nota definitiva es:
*. En el de los cigarrillos, consumidos por un fumador tenemos lunes 18, martes 21, miércoles 22, jueves 21,
viernes 20, sábado 19, y domingo 19. Obtenga la mediana y la moda
7. La tripulación de un avión, en su itinerario compra los siguientes galones de gasolina: Ciudad X 200
galones a 4000 pesos el galón, Ciudad Y 250 galones a 3500 pesos el galón, y Ciudad Z 300 galones a 3000
pesos el galón
¿Cuál es el costo promedio de la gasolina comprada?
*. Explique los conceptos y presente de Percentiles, cuarteles, quintiles, deciles, y centiles
*. Medimos la altura de los estudiantes en metros
Alumno
1
2
3
4
5
6
7
8
9
10
Estatura
1,25
1,28
1,27
1,21
1,22
1,29
1,30
1,24
1,27
1,29
Alumno
11
12
13
14
15
16
17
18
19
20
Estatura
1,23
1,26
1,30
1,21
1,28
1,30
1,22
1,25
1,20
1,28
Alumno
21
22
23
24
25
26
27
28
29
30
Estatura
1,21
1,29
1,26
1,22
1,28
1,27
1,26
1,23
1,222
1,21
En la frecuencia absoluta simple vemos que por solamente el alumno 19 tiene una estatura de 1,20 m, los alumnos que
tienen una estatura de 1,21 son los 4, 14, 21 y 30, luego son en total 4 y así sucesivamente. La frecuencia absoluta
acumulada es la suma de las frecuencias simples hasta esa fila en particular, observamos que debe terminar con el total de
individuos (alumnos).
Para la frecuencia relativa simple, n = 30 para este caso, por lo cual para el valor de estatura de 1,20 tenemos f= 1/30 que
expresado en forma porcentual es 3,3%, para la estatura de 1,21 tenemos f = 3/30 o 13,3% y así sucesivamente. La
frecuencia relativa acumulada es la suma de las frecuencias relativas simples hasta una fila en particular, así para la última
siempre deberá ser 100%
Variable
1,20
Frecuencia Absoluta
Simple
Acumulada
1
1
Frecuencia Relativa
Simple
Acumulada
3,3 %
3,3 %
1,21
4
5
13,3 %
16,6 %
1,22
1,23
4
2
9
11
13,3 %
6,6 %
30,0 %
36,6 %
1,24
1
12
3,3 %
40,0 %
1,25
1,26
1,27
1,28
1,29
1,30
2
3
3
4
3
3
14
17
20
24
27
30
6,6 %
10,0 %
10,0 %
13,3 %
10,0 %
10,0 %
46,6 %
56,6 %
66,6 %
80,0 %
90,0 %
100,0 %
*. Supongamos que medimos la estatura de los otros estudiantes con resultados,
Alumno
1
2
3
4
5
6
7
8
9
10
Estatura
1,15
1,48
1,57
1,71
1,92
1,39
1,40
1,64
1,77
1,49
Alumno
11
12
13
14
15
16
17
18
19
20
Estatura
1,53
1,16
1,60
1,81
1,98
1,20
1,42
1,45
1,20
1,98
Alumno
21
22
23
24
25
26
27
28
29
30
Agrupando
Rango
Variable
1,01 - 1,10
1,11 - 1,20
1,21 - 1,30
1,31 - 1,40
1,41 - 1,50
1,51 - 1,60
1,61 - 1,70
1,71 - 1,80
1,81 - 1,90
1,91 - 2,0
Frecuencia Absoluta
Simple
Acumulada
1
1
3
4
3
7
2
9
6
15
4
19
3
22
3
25
2
27
3
30
Frecuencia Relativa
Simple
Acumulada
3,3 %
3,3 %
10,0 %
13,3 %
10,0 %
23,3 %
6,6 %
30,0 %
20,0 %
50,0 %
13,3 %
63,3 %
10,0 %
73,3 %
10,0 %
83,3 %
6,6 %
90,0 %
10,0 %
100,0 %
Estatura
1,21
1,59
1,86
1,52
1,48
1,37
1,16
1,73
1,62
1,01
El número de intervalos en los que se agrupa la información es una decisión que debe tomar el analista, la regla es que
mientras más tramos se utilicen menos información se pierde, pero puede que menos representativa e informativa sea la
tabla, de todas maneras Sturges sugiere una forma de trabajar y consiste en obtener
*. Sobre un grupo de n=21 personas se realizan las siguientes observaciones de sus pesos, medidos en
kilogramos, 58, 42, 51, 54, 40, 39, 49, 56, 58, 57, 59, 63, 58, 66, 64, 70, 72, 71, 69, 70, 68
Solución, En primer lugar hay que observar que si denominamos X a la variable peso de cada persona esta es una variable
de tipo cuantitativa y continua. Por tanto a la hora de ser ordenados los resultados en una tabla estadística, esto se ha de
hacer agrupándolos en intervalos de longitud conveniente. Esto nos lleva a perder cierto grado de precisión. Para que la
pérdida de información no sea muy relevante usamos el criterio de utilizar k  n  21 intervalos (no son
demasiadas las observaciones). En este punto podemos tomar bien k=4 o bien k=5. Arbitrariamente se elige una de estas
dos posibilidades. Por vamos a tomar k=5. Lo siguiente es determinar la longitud de cada intervalo, ai para todo i=1, 2, 3,
4, 5. Lo más cómodo es tomar la misma longitud en todos los intervalos, ai=a (aunque esto no tiene por qué ser
necesariamente así), donde
l 0  x min  39
l 5  x max  72  A  l 5  l 0  72  39  33 a  A / 5  33/ 5  6.6
Entonces tomaremos k=5 intervalos de longitud a=6,6comenzando por l0=xmin=39 y terminando en l5=33:
i=1
i=2
i=3
i=4
i=5
Suma
Intervalo
li-1-li
39.0-45.6
45.6-52.2
52.2-58.8
58.8-65.4
65.4-72.0
Marca Clase
ci
42.3
48.9
55.5
62.1
68.7
f. a.
ni
3
2
6
3
7
21
f. r.
fi
0.1428
0.0952
0.2857
0.1428
0.3333
1
f. a. a.
Ni
3
5
11
14
21
f. r. a.
Fi
0.1428
0.2381
0.5238
0.6667
1.0000
Documentos relacionados
Descargar