Subido por Wilder Bustamante

Estadistica-con-minitab

Anuncio
Actividad 1: Estadística descriptiva + distribución binomial
ACTIVIDAD 1: Estadística descriptiva + distribución binomial
CASO 1-1: EVALUACIÓN DE UNA CLASE______________________________
Supongamos que trabajas como profesor en una universidad y te encuentras al final de un
semestre académico. En el archivo notas.mtw has guardado las calificaciones obtenidas por
cada uno de tus estudiantes en cada una de las tres pruebas que éstos han realizado.
1.
Calcular la nota media y la mediana obtenida por cada estudiante en el conjunto de las
tres pruebas:
Seleccionamos Calc > Row Statistics:
A continuación, para hallar la media por filas, rellenamos los campos como sigue:
A1 - 1
Estadística Aplicada con Minitab
Para hallar la mediana por filas, se procede de forma análoga con la opción Median de la
ventana anterior (guardaremos los resultados en la columna C7). El output resultante será:
Data Display
Row
Apellido
Nombre
Media
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
Arnau
Benítez
Boyer
Díez
Duart
García
Gómez
Gutierrez
López
Lucas
Méndez
Morales
Murcia
Neruda
Núñez
Pérez
Rojas
Rupèrez
Sáez
Sánchez
Segura
Solá
Tárrega
Tomás
Juan
Melisa
Mar
Joaquín
José
Andrés
Juan
Jenifer
Antonio
Tomás
Guillermo
Esteban
Bárbara
Amalia
Inma
Ricardo
Luis
Alberto
Núria
Miguel
Carlos
Isabel
Francisco
Josefa
8,60000
8,93333
6,93333
6,93333
5,00000
7,40000
9,66667
9,40000
7,03333
7,63333
5,70000
9,40000
9,26667
8,36667
8,40000
9,23333
7,83333
8,03333
7,13333
8,53333
9,70000
5,26667
6,76667
7,40000
2.
Mediana
9,3
8,6
5,9
6,9
4,8
7,8
9,8
9,2
7,1
6,8
4,9
9,4
9,5
8,1
9,0
10,0
7,9
7,9
7,9
8,1
9,7
5,1
6,0
8,8
Hallar el valor medio o esperado de la nota asociada al Test 1:
Seleccionamos Calc > Column Statistics
Rellenamos los campos como se muestra en la siguiente imagen, guardando el resultado en la
constante K1, cuyo valor se muestra en el output del programa:
Column Mean
Mean of Test1 = 8,0000
A1 - 2
Actividad 1: Estadística descriptiva + distribución binomial
CASO 1-2: COMPARACIÓN DE SALARIOS______________________________
El archivo salarios.mtw contiene los salarios anuales (en €) de los 11 trabajadores del
departamento de finanzas de una empresa, así como otra información relevante asociada
(número de años que lleva cada trabajador en la empresa, experiencia previa, años de
formación superior, edad, nº identificativo, y sexo).
Construir un histograma a partir de la variable que contiene los sueldos.
Seleccionamos Graph > Histogram y completamos los campos como sigue:
HISTOGRAMA DE SUELDOS
3
Frecuencia
1.
2
1
0
25000
27500
30000
32500
35000
37500
40000
42500
Sueldos
Observar que hay un “salto” bastante grande entre los 4 trabajadores mejor pagados y el resto.
A1 - 3
Estadística Aplicada con Minitab
2.
Construir dos histogramas, uno por cada sexo, de la variable sueldos, comentando el
resultado.
Seleccionamos Graph > Histogram y completamos los campos como sigue:
HISTOGRAMA SUELDOS MUJERES
Frecuencia
2
1
0
25000 27500 30000 32500 35000 37500 40000 42500
Sueldos M
HISTOGRAMA SUELDOS HOMBRES
Frecuencia
2
1
0
25000 27500 30000 32500 35000 37500 40000 42500
Sueldos H
Parece observarse que los sueldos de los hombres tienden a ser mas altos que los de las mujeres.
A1 - 4
Actividad 1: Estadística descriptiva + distribución binomial
3. Representar la variable sueldos mediante una gráfico de cajas (Boxplot). Hacer lo mismo
para cada sexo y comentar los resultados.
Seleccionamos Graph > Boxplot y completamos los campos como sigue:
BOXPLOT PARA SUELDOS
Sueldos
40000
35000
30000
25000
El gráfico anterior nos proporciona de forma visual bastante información. Por ejemplo, nos dice que la
mitad de los sueldos del departamento están comprendidos, aproximadamente, en el intervalo (29.000,
39.000), y también que la mitad de los salarios se sitúan por debajo de 33.000 €.
A1 - 5
Estadística Aplicada con Minitab
Seleccionamos Graph > Boxplot y completamos los campos como sigue:
BOXPLOT SUELDOS POR SEXO
Sueldos
40000
35000
30000
25000
1=M
0=H
Sexo N
Se aprecia en este último gráfico que la mediana asociada a los sueldos de los hombres es mayor que la
asociada a los sueldos de las mujeres en unos 7.000 €.
Es importante hacer notar aquí que, si bien parece haber indicios de diferencias entre los sueldos según
sexo, no se puede concluir nada en firme. Para ello sería necesario recurrir a técnicas más avanzadas,
como la regresión lineal múltiple, que nos proporcionasen resultados estadísticamente significativos.
A1 - 6
Actividad 1: Estadística descriptiva + distribución binomial
CASO 1-3: ANÁLISIS NUTRITIVO______________________________________
Pretendemos ahora realizar un análisis descriptivo sobre las propiedades nutritivas de 14
marcas diferentes de yogures. Para cada marca se ha evaluado su calidad nutritiva, el coste
de cada unidad, y el número de calorías. Los datos se encuentran guardados en el archivo
Yogurt.mtw .
A la hora de decidirnos por una determinada marca de yogurt, nos interesará escoger una
que proporcione suficientes calorías a un precio razonable. En principio, podríamos pensar
en escoger una marca cuyo precio se encuentre por debajo de la media.
1. Hallar los estadísticos descriptivos asociados a las variables coste y calorías.
Seleccionar Stat > Basic Statistics > Display Descriptive Statistics:
Los resultados se muestran a continuación:
Current worksheet: Yogurt.mtw
Descriptive Statistics
Variable
Coste en
Calorías
N
14
14
Mean
0,09357
170,9
Median
0,09000
175,0
TrMean
0,09333
170,8
Variable
Coste en
Calorías
Minimum
0,07000
90,0
Maximum
0,12000
253,0
Q1
0,07750
100,0
Q3
0,11000
240,0
StDev
0,01692
65,0
SE Mean
0,00452
17,4
A1 - 7
Estadística Aplicada con Minitab
2. Hallar, para cada nivel de calificación nutritiva, los estadísticos descriptivos asociados a
las variables coste y calorías. Comentar los resultados.
Seleccionar Stat > Basic Statistics > Display Descriptive Statistics:
Descriptive Statistics
Variable
Coste en
Calorías
Variable
Coste en
Calorías
Califica
Buena
Excelent
Muy buen
Pobre
Suficien
Buena
Excelent
Muy buen
Pobre
Suficien
N
4
3
2
2
3
4
3
2
2
3
Mean
0,09500
0,0967
0,09000
0,0950
0,0900
185,0
113,33
100,00
246,50
206,7
Median
0,09500
0,1100
0,09000
0,0950
0,0900
200,0
120,00
100,00
246,50
190,0
TrMean
0,09500
0,0967
0,09000
0,0950
0,0900
185,0
113,33
100,00
246,50
206,7
StDev
0,01291
0,0231
0,00000
0,0354
0,0200
75,1
11,55
0,00
9,19
28,9
Califica
Buena
Excelent
Muy buen
Pobre
Suficien
Buena
Excelent
Muy buen
Pobre
Suficien
SE Mean
0,00645
0,0133
0,00000
0,0250
0,0115
37,5
6,67
0,00
6,50
16,7
Minimum
0,08000
0,0700
0,09000
0,0700
0,0700
90,0
100,00
100,00
240,00
190,0
Maximum
0,11000
0,1100
0,09000
0,1200
0,1100
250,0
120,00
100,00
253,00
240,0
Q1
0,08250
0,0700
*
*
0,0700
107,5
100,00
*
*
190,0
Q3
0,10750
0,1100
*
*
0,1100
247,5
120,00
*
*
240,0
Observamos que las marcas calificadas nutricionalmente como pobres tienen un coste medio de 0,095 € ,
lo cual resulta superior a lo que deseamos gastar, por tanto las descartaremos.
Se aprecia también como aquellas marcas con una mejor calificación nutricional tienden a tener un
menor número de calorías.
A1 - 8
Actividad 1: Estadística descriptiva + distribución binomial
3. Crear una tabla de frecuencias y porcentajes para la variable calificación nutritiva. Sacar
conclusiones.
Seleccionar Stat > Tables > Tally :
Summary Statistics for Discrete Variables
Califica
Buena
Excelent
Muy buen
Pobre
Suficien
N=
Count CumCnt
4
4
3
7
2
9
2
11
3
14
14
Percent CumPct
28,57 28,57
21,43 50,00
14,29 64,29
14,29 78,57
21,43 100,00
Comprobamos que el 64% de las marcas fueron calificadas como buenas, muy buenas, o excelentes en
términos de valores nutritivos.
Aunque el coste de los yogures varía entre 0,07 y 0,12 € , la mitad de las marcas están por debajo de los
0,09 €. A la hora de seleccionar una de ellas, nos quedaríamos probablemente con la marca nº 8, dado
que está considerado como excelente, cuesta 0,07 € por unidad y, además, el número de calorías que
aporta (100) es inferior a la media (107,9).
A1 - 9
Estadística Aplicada con Minitab
CASO 1-4: TIPOS DE SANGRE________________________________________
Supongamos que trabajas como estadístico voluntario para la Cruz Roja. El coordinador del
centro te ha comentado que las reservas de sangre tipo O se están acabando y que, en base
a su experiencia, estima que necesitaréis unas 10 o 12 nuevas bolsas se sangre tipo O para
poder cubrir las necesidades de la próxima semana. Además, te informa de que dispone de
25 potenciales donantes (los cuales no mantienen ninguna relación de parentesco entre
ellos), y te pregunta si serán suficientes o si, por el contrario, debería seguir buscando más
donantes.
Viendo el historial clínico de tu centro, compruebas que 45 de cada 100 donantes tienen
sangre del tipo buscado, por lo que la probabilidad de que al elegir un donante al azar éste
tenga sangre de tipo O es de 0,45. Así pues, si denotamos por X al número de donantes ya
disponibles que tienen sangre de tipo O, tendremos que X seguirá una distribución binomial
con n = 25 pruebas y probabilidad de éxito p = 0,45.
1.
Para k = 0, 1, 2, …, 25 hallar la probabilidad de que X valga k, i.e., hallar P(X = k).
En primer lugar, generaremos una columna que contenga los números 1, 2, …, 25. Para ello
seleccionamos Calc > Make Patterned Data > Simple Set of Numbers :
A continuación pulsamos Calc > Probability Distributions > Binomial :
A1 - 10
Actividad 1: Estadística descriptiva + distribución binomial
Obtendremos el output que aparece a continuación, el cual nos proporciona la probabilidad de que la
variable aleatoria X tome cada uno de los valores posibles. Así, p.e., la probabilidad de que exactamente
11 de entre los 25 donantes tengan clase de tipo O será de 0,1583:
Data Display
2.
Row
k
P(X=k)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
0,000007
0,000065
0,000407
0,001830
0,006290
0,017155
0,038097
0,070133
0,108387
0,141889
0,158306
0,151110
0,123636
0,086705
0,052023
0,026603
0,011523
0,004190
0,001263
0,000310
0,000060
0,000009
0,000001
0,000000
0,000000
Estudiar, mediante un histograma, qué valores son los más probables:
Seleccionamos Graph > Plot :
A1 - 11
Estadística Aplicada con Minitab
Nube de puntos de probabilidad
vs. nº de sucesos
P(X=k)
0,15
0,10
0,05
0,00
0
5
10
15
20
25
k
En el gráfico anterior se aprecia claramente que los valores más probables son: X = 9, X = 10, X = 11,
X = 12 y X = 13.
3. Para k = 0, 1, 2, …, 25 hallar la probabilidad de que X valga a lo sumo k, i.e.: P(X <= k).
¿Cuál es la probabilidad de que entre los 25 donantes haya al menos 12 que tengan sangre
de tipo O?
Pulsamos Calc > Probability Distributions > Binomial :
A1 - 12
Actividad 1: Estadística descriptiva + distribución binomial
Data Display
Row
k
P(X=k)
P(X<=k)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
0,000007
0,000065
0,000407
0,001830
0,006290
0,017155
0,038097
0,070133
0,108387
0,141889
0,158306
0,151110
0,123636
0,086705
0,052023
0,026603
0,011523
0,004190
0,001263
0,000310
0,000060
0,000009
0,000001
0,000000
0,000000
0,00001
0,00007
0,00048
0,00231
0,00860
0,02575
0,06385
0,13398
0,24237
0,38426
0,54257
0,69368
0,81731
0,90402
0,95604
0,98264
0,99417
0,99836
0,99962
0,99993
0,99999
1,00000
1,00000
1,00000
1,00000
A partir de este último output podemos conocer la probabilidad de que el número de donantes con sangre
tipo O sea menor o igual que un determinado nº. Así, la probabilidad de que el número de donantes con
sangre tipo O sea igual o menor a 11 es de 0,5426.
Veamos, finalmente, cómo calcular la probabilidad de que al menos 12 de los 25 donantes tengan sangre
tipo O, i.e., P(X >= 12). Para hallar esta probabilidad, usaremos la siguiente propiedad: “la probabilidad
de un suceso más la de su opuesto es igual a 1”, o dicho de otra forma: “dado un suceso A de
probabilidad P(A), la probabilidad de que éste no ocurra será 1 – P(A)” .
Por tanto,
P(X >= 12) = 1 – P(X < 12) = 1 – P(X <= 11) = 1 – 0,5426 = 0,4574.
Esto nos dice que, en las condiciones actuales, la probabilidad de que consigamos cubrir con éxito las
necesidades de la próxima semana por lo que a sangre de tipo O se refiere será del orden de 0,46.
Conclusión: nuestro coordinador deberá seguir buscando nuevos donantes.
Siguiendo un razonamiento análogo al anterior podéis comprobar que con 35 donantes la probabilidad
de que cubramos nuestras necesidades de sangre tipo O, i.e.: P(X >= 12), será de 0,93, valor que ya es
bastante aceptable, pues significa que en 93 (aproximadamente) de cada 100 veces que estemos en una
situación como ésta, lograremos disponer de las bolsas necesarias.
A1 - 13
Descargar