texto de estadística computacional con r, excel, minitab y spss

Anuncio
UNIVERSIDAD NACIONAL DEL CALLAO
VICERECTORADO DE INVESTIGACIÓN
FACULTAD DE CIENCIAS ECONÓMICAS
TEXTO DE ESTADÍSTICA
COMPUTACIONAL CON R, EXCEL,
MINITAB Y SPSS
AUTOR:
JUAN FRANCISCO BAZÁN BACA
(Resolución Rectoral 1351-2008-R del 22-12-08)
01-12-08 al 30-11-10
CALLAO – PERÚ
2010
ÍNDICE
Pág.
INDICE
2
INTRODUCCIÓN
10
Capítulo 1. CONSTRUCCIÓN DE UNA BASE DE DATOS
11
1.1
Introducción
11
1.2
Definición de variables
13
1.3
Introducción de datos
27
1.4
Archivo de datos
30
1.5
Transformación de datos
39
1.6
Recodificación de datos
43
1.7
Manipulación de archivos
49
Capítulo 2. PRESENTACIÓN DE DATOS
50
2.1
Introducción
50
2.2
Cuadros estadísticos
50
2.3
Distribución de frecuencias
72
2.4
Gráficos estadísticos
87
2.5
Gráficos de variables cualitativas
89
2.6
Gráficos de frecuencias
98
2.7
Diagrama de tallos y hojas
112
Capitulo 3. MEDIDAS DE POSICIÓN
115
3.1
Introducción
115
3.2
Mediaaritmética
116
3.3
Mediana
120
3.4
Moda
124
3.5
Media geométrica
133
3.6
Media armónica
137
3.7
Los cuantiles: cuartiles, deciles y percentiles
140
Capítulo 4. MEDIDAS DE DISPERSIÓN Y FORMA
155
4.1
155
Introducción
2
4.2
Rango. Rango intercuartílico
156
4.3
Desviación media
158
4.4
La varianza
160
4.5
La desviación típica
166
4.6
El coeficiente de variación
167
4.7
El diagrama de cajas o boxplot
174
4.8
Medidas de forma de la distribución
182
Capítulo 5. CORRELACIÓN Y REGRESIÓN SIMPLE
190
5.1
Introducción
190
5.2
Diagrama de dispersión
191
5.3
Covarianza y coeficiente de correlación
196
5.4
Regresión lineal simple
200
5.5
Coeficiente de determinación
202
Capítulo 6. MODELOS DISCRETOS DE PROBABILIDAD
210
6.1
Introducción
210
6.2
Distribución binomial
211
6.3
Distribución Poisson
224
6.4
Distribución hipergeométrica
236
6.5
Distribución geométrica
246
Capítulo 7. MODELOS CONTINUOS DE PROBABILIDAD
258
7.1
Introducción
258
7.2
Distribución uniforme o rectangular
259
7.3
Distribución exponencial
269
7.4
Distribución normal
278
7.5
Distribución chi-cuadrado
288
7.6
Distribución T de student
295
REFERENCIAS BIBLIOGRÁFICAS
303
Anexo
304
3
ÍNDICE DE CUADROS Y FIGURAS
CUADROS
Pág.
1.1 Tabla de la masa corporal ideal
39
2.1 PBI por rama de la actividad económica, según año: 2000-07
55
2.2 Alumnos de estadística básica 09-A de la FCE-UNAC, por sexo, según hobby
58
2.3 Alumnos de estadística básica 09-A de la FCE-UNAC, por sexo, según
especialización y hobby
63
2.4 Alumnos de estadística básica 2009-A, de la FCE-UNAC, según hobby
73
2.5 Alumnos de estadística básica 2009-A, de la FCE-UNAC, según el número de
miembros en la familia
75
2.6 Pesos (Kg.) de los 60 alumnos de estadística básica 09-A UNAC
78
2.7 Distribución de frecuencias de los pesos de los alumnos de estadística básica
09-A FCE-UNAC
80
3.1 Resumen de los cuantiles calculados para los pesos (Kg.) de los alumnos de
estadística básica 09-A, FCE-UNAC, por la forma en que están los datos
150
3.2 Resumen de los percentiles calculados para los pesos (Kg.) de los alumnos de
estadística básica 09-A, de la FCE-UNAC, por programa usado
154
4.1 Resumen de las medidas de dispersión calculadas para los pesos (Kg.) de los
alumnos de estadística básica 09-A, de la FCE-UNAC, por programa usado
174
FIGURAS
1.1 Variables definidas en Excel
15
1.2 Variables definidas en Minitab
16
1.3 Editor de datos en SPSS
16
1.4 Definición del Tipo de variable
18
1.5 Cuadro de diálogo para definir Etiquetas de Valor
20
1.6 Cuadro de diálogo para Definir Valores Perdidos
21
1.7 Vista de Variables definidas en SPSS
23
1.8 Variables definidas en SPSS
24
1.9 Abriendo base de datos en R desde un block de notas
26
1.10
Base de datos en Excel
28
1.11
Base de Datos en MINITAB
28
1.12
Base de datos en SPSS
29
FIGURAS
Pág.
4
1.13
Base de datos en R
29
1.14
Ventana de archivamiento en Excel
30
1.15
Cuadro de diálogo para Guardar como, en Excel
31
1.16
Ventana de File (archivo), en Minitab
32
1.17
Cuadro de diálogo para Save Project As, en Minitab
33
1.18
Cuadro de diálogo para Guardar como, en SPSS
34
1.19
Cuadro de diálogo para Guardar área de trabajo, en R
35
1.20
Cálculo del imc en Excel
40
1.21
Cálculo de la talla_m en Minitab
41
1.22
Cálculo de la variable talla_m en SPSS
42
1.23
Tipos de recodificación en Minitab
43
1.24
Obtención de la Condición, recodificando el IMC en Minitab
44
1.25
Resultado de la Condición recodificando el IMC en Minitab
45
1.26
Obtención de la Condición, recodificando el IMC en SPSS
46
1.27
Recodificar Valores antiguos del IMC y nuevos de Condición en SPSS
47
1.28
Resultado de la Condición recodificando el IMC en SPSS
47
1.29
Resultado de la Condición recodificando el IMC en R
48
2.1 Estructura de un cuadro estadístico
51
2.2 Obtención de un cuadro bidimensional con SPSS
56
2.3 Mostrar en las casillas
57
2.4 Obtención de un cuadro bidimensional con Minitab
60
2.5 Escoger qué mostrar en las casillas con el Minitab
61
2.6 Cuadro tridimensional en SPSS
64
2.7 Creando tabla dinámica en Excel
65
2.8 Tabla dinámica para Sexo y Hobby en Excel
66
2.9 Tabla dinámica para Sexo y Hobby con porcentajes en Excel
67
2.10 Tabla dinámica para Sexo, Especialización y Hobby en Excel
67
2.11 Obtención de tablas de frecuencias en SPSS
73
2.12 Obtención de tabla de frecuencias en Excel
79
2.13 Argumentos de la función Frecuencia
80
2.14 Recodificación de la variable peso en Minitab
81
2.15 Variable peso recodificada en pesos (intervalos) con Minitab
82
2.16 Obtención de tabla de frecuencias en Minitab (variable pesos)
83
FIGURAS
Pág.
5
2.17 Recodificando la variable peso en SPSS
83
2.18 Recodificar Valores antiguos del peso y nuevos de pesos en SPSS
84
2.19 Resultado de la variable pesos, recodificando el peso en SPSS
85
2.20 Resultado de la variable pesos, recodificando el peso en R
86
2.21 Gráfico de sectores en Excel
90
2.22 Gráfico de sectores en SPSS
91
2.23 Gráfico de sectores en Minitab
91
2.24 Gráfico de sectores en R
92
2.25 Gráfico de barras de la variable hobby en Minitab
94
2.26 Datos de la variable hobby y clase en Excel
95
2.27 Herramientas del Análisis de datos en Excel
95
2.28 Obteniendo gráfico de Pareto en Excel
95
2.29 Gráfico de Pareto de la variable hobby en Excel
96
2.30 Gráfico de Pareto de la variable hobby en Minitab
97
2.31 Gráfico de barras de los miembros de la familia en Excel
98
2.32 Gráfico de barras de los miembros de la familia en SPSS
99
2.33 Gráfico de barras de los miembros de la familia en Minitab
100
2.34 Obteniendo el Histograma de peso en Excel
101
2.35 Histograma de frecuencia del peso en Excel
102
2.36 Obteniendo el histograma de peso en Minitab
103
2.37 Edición (en Binning) del histograma de peso en Minitab
104
2.38 Histograma de frecuencia del peso en Minitab
104
2.39 Histograma de frecuencia del peso en SPSS
105
2.40 Histograma de frecuencia del peso en R
106
2.41 Edición del histograma de densidad de peso en Minitab
108
2.42 Histograma de densidad de peso en Minitab
108
2.43 Datos para el Polígono de frecuencias y Ojiva del peso en Minitab
109
2.44 Scatterplot para el Polígono de frecuencias del peso en Minitab
110
2.45 Polígono de frecuencias del peso en Minitab
110
2.46 Scatterplot para la Ojiva del peso en Minitab
111
2.47 Ojiva del peso en Minitab
112
3.1 Cálculo de la media para datos agrupados en Excel
117
3.2 Cálculo de la media aritmética (PROMEDIO) en Excel
129
FIGURAS
Pág.
6
3.3 Resultados de la media aritmética, mediana y moda en Excel
129
3.4 Selección de la variable peso para calcular estadígrafos en Minitab
130
3.5 Selección de estadígrafos de posición a calcular en Minitab
130
3.6 Cálculo de estadígrafos de Tendencia central en SPSS
131
3.7 Cálculo de cuartiles en Excel
151
3.8 Resultado de cuartiles y percentiles en Excel
152
3.9 Cálculo de cuartiles y percentiles en SPSS
153
4.1 Medidas de dispersión obtenidas con Excel
169
4.2 Selección de estadígrafos de dispersión en Minitab
170
4.3 Cálculo de estadígrafos de dispersión en SPSS
171
4.4 Estructura del diagrama de cajas y bigotes (boxplot)
175
4.5 Ventana de diálogo para definir el boxplot de peso en Minitab
176
4.6 Diagrama de cajas y bigotes de la variable peso en Minitab
176
4.7 Efectuando Gráfico Múltiple de Boxplot para peso, por sexo
177
4.8 Boxplot del peso para hombres y mujeres en Minitab
178
4.9 Ventana de diálogo Explorar para definir el boxplot de peso en SPSS
179
4.10 Diagrama de cajas y bigotes de la variable peso en SPSS
179
4.11 Boxplot del peso para hombres y mujeres en SPSS
180
4.12 Diagrama de cajas y bigotes de la variable peso en R
181
4.13 Boxplot del peso para hombres y mujeres en R
182
4.14 Cálculo de la asimetría y curtosis en Excel
187
5.1 Definiendo el diagrama de dispersión en Excel
192
5.2 Diagrama de dispersión de la cantidad y precio en Excel
192
5.3 Definiendo el diagrama de dispersión en Minitab
193
5.4 Diagrama de dispersión de la cantidad y precio en Minitab
193
5.5 Creando el diagrama de dispersión en SPSS
194
5.6 Diagrama de dispersión de la cantidad y precio en SPSS
195
5.7 Diagrama de dispersión de la cantidad y precio en R
196
5.8 Aplicando Regresión en Excel
204
5.9 Resultado de la Regresión de cantidad y precio de muñecas en Excel
205
5.10 Aplicando Regresión en Minitab
205
5.11 Aplicando Regresión en SPSS
207
6.1 Cálculo de probabilidades para la distribución binomial en Excel
214
FIGURAS
Pág.
7
6.2 Solución del Ejemplo 6.2 en Excel
215
6.3 Probabilidad con la distribución binomial en Minitab
216
6.4 Probabilidad acumulada con la distribución binomial en Minitab
217
6.5 Probabilidad para varios valores con distribución binomial en Minitab
218
6.6 Cálculo de probabilidades con la distribución binomial en SPSS
220
6.7 Probabilidades acumuladas con la distribución binomial en SPSS
221
6.8 Cálculo de probabilidades para la distribución Poisson en Excel
227
6.9 Solución del Ejemplo 6.3 en Excel
228
6.10 Probabilidad con la distribución Poisson en Minitab
229
6.11 Probabilidad para varios valores con distribución Poisson en Minitab
230
6.12 Cálculo de probabilidades con la distribución Poisson en SPSS
231
6.13 Probabilidades acumuladas con la distribución Poisson en SPSS
232
6.14 Distribución de probabilidades Poisson del ejemplo 6.3 en SPSS
233
6.15 Cálculo de distribución hipergeométrica en Excel
238
6.16 Solución del Ejemplo 6.4 en Excel
239
6.17 Probabilidad con la distribución hipergeométrica en Minitab
240
6.18 Probabilidades con distribución hipergeométrica en Minitab
241
6.19 Cálculo de probabilidades con la distrib. hipergeométrica en SPSS
242
6.20 Probabilidades acumuladas con la distrib. hipergeométrica en SPSS
243
6.21 Distrib. de probabilidades hipergeométrica del ejemplo 6.4 en SPSS
243
6.22 Solución del Ejemplo 6.5 en Excel
248
6.23 Probabilidad con la distribución geométrica en Minitab
249
6.24 Probabilidades con distribución geométrica en Minitab
251
6.25 Cálculo de probabilidades con la distribución geométrica en SPSS
252
6.26 Probabilidades acumuladas con la distribución geométrica en SPSS
253
6.27 Distrib. de probabilidades geométrica del ejemplo 6.5 en SPSS
254
7.1 Probabilidad con la distribución uniforme en Minitab
261
7.2 Graficando probabilidades acumuladas para la uniforme en Minitab
263
7.3 Definiendo el área a sombrear para probabilidades acumuladas con la distribución uniforme en Minitab
263
7.4 Cálculo y gráfico de P(22 ≤ X ≤ 24) con la dist. uniforme en Minitab
264
7.5 Gráfico del inverso de probab. acum. Con la dist. uniforme en Minitab
265
7.6 Cálculo de las densidades f(x) con la distribución uniforme en SPSS
266
FIGURAS
Pág.
8
7.7 Probabilidades acumuladas con la distribución uniforme en SPSS
267
7.8 Densidades y probab. acumuladas con la distrib. uniforme en SPSS
267
7.9 Cálculo de probabilidades acumuladas con exponencial en Excel
271
7.10 Probabilidad acumulada con la distribución exponencial en Minitab
272
7.11 Graficando probabilidades acum. para la exponencial en Minitab
274
7.12 Cálculo de probab. acum. con la distribución exponencial en SPSS
276
7.13 Probabilidades acumuladas con la distrib. exponencial en SPSS
276
7.14 Cálculo de probabilidades acumuladas con la normal en Excel
281
7.15 Probabilidad acumulada con la distribución normal en Minitab
283
7.16 Graficando probabilidades acumuladas con la normal en Minitab
284
7.17 Cálculo de probab. acumuladas con la distribución normal en SPSS
286
7.18 Probabilidades acumuladas con la distribución normal en SPSS
287
7.19 Cálculo de probabilidades acumuladas con la chi-cuadrado en Excel
291
7.20 Gráfico de P(14.6 ≤ X ≤ 37.7) con la chi-cuadrado en Minitab
292
7.21 Cálculo de probab. acumuladas con la chi-cuadrado en SPSS
294
7.22 Cálculo de probabilidades acumuladas con la t en Excel
298
7.23 Gráfico de P(-1.316 ≤ X ≤ 2.060) con la t en Minitab
300
7.24 Cálculo de probab. acumuladas con la t en SPSS
301
9
INTRODUCCIÓN
La estadística ha desarrollado una serie de técnicas y procedimientos cuyas
aplicaciones procedimentales requieren de algunas herramientas de cálculo como
son las calculadoras programadas o los programas estadísticos desarrollados en
diferentes plataformas computacionales.
A fin de contribuir al proceso de enseñanza aprendizaje del instrumental
estadístico, hemos creído conveniente elaborar un “Texto de Estadística
computacional con R, Excel, Minitab y SPSS” que de manera sencilla y práctica
ayude a los estudiantes de la estadística a efectuar sus aplicaciones.
Las aplicaciones se desarrollan tanto en las versiones comerciales del Excel
2007, Minitab 15.0 English y SPSS 15.0 en español; como en la versión de uso
libre del programa R-2.11.1 cuya instalación se explica en la pág. 24.
El texto consta de siete capítulos. En el primero, se explica la Construcción
de una base de datos muy necesaria para procesar encuestas y otros cálculos. En el
capítulo 2, se describe la Presentación de datos a través de cuadros y gráficos.
En los capítulos tres, cuatro y cinco se presentan los indicadores de resumen
de los datos mediante las medidas de posición, dispersión y forma, así como el
análisis de correlación y regresión simple acompañadas del concepto, formas de
cálculo (con datos sin agrupar y agrupados), interpretación de resultados y
aplicaciones computacionales con cada uno de los programas.
En los capítulos seis y siete, se desarrollan los modelos discretos y continuos
de probabilidad, partiendo de una presentación sencilla de sus características,
acompañada de aplicaciones manuales y computacionales en cada programa.
Agradezco a nuestra querida UNAC por el continuo apoyo ofrecido para
alcanzar estos logros que permiten sistematizar conocimientos e incorporar temas
para la discusión en clases. El reconocimiento especial a los estudiantes de
economía de la FCE-UNAC, ya que gracias a su esfuerzo y comprensión en los
últimos años se han puesto en práctica los resultados de este modesto trabajo.
10
Capítulo 1. CONSTRUCCIÓN DE UNA BASE DE DATOS
“El hombre más feliz del mundo es aquel que sepa reconocer los méritos
de los demás y pueda alegrarse del bien ajeno como si fuera propio”
Johann Wolfgang von Goethe
CONTENIDO
1.1
1.2
1.3
1.4
1.5
1.6
1.7
Introducción.
Definición de variables.
Introducción de datos.
Archivo de datos.
Transformación de datos.
Recodificación de datos.
Manipulación de archivos.
1.1 INTRODUCCIÓN
Durante la fase de Elaboración de datos de una Encuesta, es necesario construir una
Base de Datos (BD) que facilite procesamiento electrónico de los mismos mediante la
obtención de cuadros, gráficos, indicadores estadísticos y relaciones entre variables en
las que esta interesado el investigador a partir de los propósitos de su investigación.
Una Base de Datos es un arreglo matricial cuyas columnas contienen los Campos (las
variables o preguntas del estudio) y las filas los Registros de datos (casos para el
SPSS correspondientes a cada unidad de investigación estudiada.
Para efectos de procesamiento en cualquiera de los programas que estamos trabajando
(R, Excel, Minitab y SPSS) es necesario que el programa reconozca las variables
consideradas y algunos detalles que se deben tomar en cuenta. Para abreviar esta parte
diseñaremos la base de datos inicialmente en Excel y de aquí veremos como se exporta
a R, Minitab y SPSS con sus particularidades especiales en el SPSS.
Para el presente trabajo, se usa el Cuestionario de “Características del Alumno” que se
muestra en la página siguiente, el mismo que fue aplicado a 60 alumnos del curso de
Estadística Básica, el semestre 2009-A, en la FCE-UNAC.
11
UNIVERSIDAD NACIONAL DEL CALLAO
FACULTAD DE CIENCIAS ECONÓMICAS
Asignatura: Estadística Básica
Profesor : Ingº Juan Francisco Bazán Baca
CARACTERÍSTICAS DEL ALUMNO
Nº…….........
Apellidos y Nombres: …………………………………………………………………….
1. Sexo: Masculino
1
Femenino
2. Edad: ….......
2
3. Peso (Kg.) …....... 4. Talla (cm.) ….......
5. Ingreso familiar mensual: S/.
……….
6. Nº de miembros en la familia: …… 7. Gastos de estudio medio mensual: S/. ……..
8. Créditos aprobados acumulados: ……
9. Promedio ponderado acumulado: ……..
10. ¿En que tipo de vivienda reside?
Casa independiente
1
Departamento en edificio
2
Quinta ………….
3
Otro ….............................
4
(Especifique)
11. Nº de dormitorios: ………..
12. Horas semanales de TV: ……..
13. Horas de estudio semanal fuera de clase: ………
14. Nº de libros leídos el 2008: …..
15. ¿Cuál es tu principal HOBBY?
Deportes
1
Música
2
Baile
TV/Cine
4
Otro …............................
3
5
(Especifique
16. Importancia de tus estudios:
Media
3
17. Importancia de tu físico:
Media
3
18. Colegio de procedencia:
Muy poca
1
Poca
2
Mucha
4
Muchísima
5
Muy poca
1
Poca
2
Mucha
4
Muchísima
5
Estatal
1
No Estatal
2
19. ¿En que desea especializarse? Teor. Económica
Callao, Abril de 2009
1 Gestión Empresarial
MUCHAS GRACIAS
12
2
1.2 DEFINICIÓN DE VARIABLES
Variable.- es una característica de interés observada en la población y que esta sujeta a
diferentes resultados o valores. Ejemplo: sexo, edad, peso, talla, ingreso, hobby, etc.
Tipos de Variables.- las variables pueden ser cualitativas o cuantitativas.
Variables cualitativas.- son aquellas que responden a una categoría, cualidad o
atributo observado en la unidad de investigación. Ejemplo: tipo de vivienda,
importancia de sus estudios, colegio de procedencia, especialización, etc.
La medición de las variables cualitativas puede ser Nominal (las cualidades
observadas no implican un orden particular. Ejemplo: Sexo, hobby, distrito de
residencia, etc.) y Ordinal (las cualidades observadas responden a un orden
determinado. Ejemplo: nivel educativo, calidad del servicio, etc.
Variables cuantitativas.- son aquellas cuyo resultado de la observación es un valor
numérico. Ejemplo: número de miembros en la familia, número de dormitorios, gastos
de estudio mensual, créditos aprobados, horas de estudio semanal, etc. Las variables
cuantitativas pueden ser discretas o continuas.
Variable cuantitativa discreta.- son aquellas que son el resultado del conteo y
asumen valores enteros. Ejemplo: edad (años cumplidos), número de libros leídos
el año anterior, número de perceptores de ingreso en el hogar, etc.
Variable cuantitativa continua.- son aquellas que son resultado de la medición y
pueden tomar cualquier valor dentro de un intervalo. Ejemplo: ingreso familiar,
gastos de estudio, promedio ponderado del alumno, etc.
La medición de variables cuantitativas puede ser Intervalo (cuando el cero y la escala
de medida son arbitrarios. Ejemplo: la temperatura, las notas o calificaciones en alguna
escala, etc.) y Razón (el valor cero indica la nulidad del estudio y el cociente de dos
valores tiene significado. Son la mayoría de variables cuantitativas. Ejemplo: peso,
talla, ingreso, etc.)
13
Para definir las Variables en una BD, se tiene que indicar en cada campo (columna) las
preguntas consideradas en el Cuestionario del estudio de manera abreviada.
a) En EXCEL
En una primera línea de la hoja de cálculo de Excel se específica el nombre de la
variable utilizando el menor número posible de caracteres, de modo que recoja el
sentido de la pregunta. Se recomienda empezar con el número de cuestionario
(nº_cuest) para identificar la unidad de análisis a la que corresponden los datos y
corregir los mismos ante cualquier error.
A continuación se definen las siguientes variables, en el mismo orden en que se han
formulado las preguntas en el Cuestionario, para facilitar posteriormente el ingreso de
los datos. Así tenemos las variables:
sexo (pregunta 1)
edad (pregunta 2)
peso (pregunta 3)
talla (pregunta 4)
ing.fam (pregunta 5: Ingreso familiar mensual: S/.)
mie.fam (pregunta 6: Nº de miembros en la familia)
g.estud (pregunta 7: Gastos de estudio medio mensual S/.)
cr.aprob (pregunta 8: Créditos aprobados acumulados)
prom.acum (pregunta 9: Promedio ponderado acumulado)
t.viv (pregunta 10: ¿En que tipo de vivienda reside?)
nº.dormit (pregunta 11: Nº de dormitorios)
horas.tv (pregunta 12: Horas semanales de TV)
hrs.estu (pregunta 13: Horas de estudio semanal fuera de clase)
lib.leidos (pregunta 14: Nº de libros leídos el 2008)
hobby (pregunta 15: ¿Cuál es tu principal hobby?)
imp.estudio (pregunta 16: Importancia de tus estudios)
imp.físico (pregunta 17: Importancia de tu físico)
14
col.proc (pregunta 18: Colegio de procedencia) y
especial (pregunta 19: ¿En que desea especializarse?)
Las variables han sido definidas en la línea 6, tal como se muestra en la Figura 1.1
Figura 1.1 Variables definidas en Excel
b) En MINITAB
Al iniciar el programa Minitab 15, aparecen dos hojas: una de Session (Sesión: donde
se muestran los resultados de tareas resueltas con el programa) y otra Worksheet
(Hoja de Trabajo: similar a la de Excel y SPSS donde se definen las variables y se
ingresa los datos). Las columnas aparecen definidas por la letra C y un dígito (que
indica la columna. Debajo de C1 hemos definido el nº_cuest (número de cuestionario),
debajo de C2 sexo y así sucesivamente hasta C20 especial (ver figura 1.2)
15
Figura 1.2 Variables definidas en Minitab
c) En SPSS
Al abrir el programa SPSS 15, aparecen dos hojas: una de Resultados 1 [Dokument
1] – Visor SPSS (donde aparecen los resultados de las tareas efectuadas con SPSS) y
otra Sin título [Conjunto_de_datos0] – Editor de datos SPSS (donde se definen las
variables y se ingresan los datos del estudio) donde vamos a definir la base de datos.
Figura 1.3 Editor de datos en SPSS
16
En la parte inferior del Editor de datos SPSS (ver figura 1.3) se observan dos vistas:
una Vista de datos (donde se ingresan los datos para cada una de las variables en
estudio) y otra Vista de variables (donde se definen las variables en estudio).
Justamente la fig. 1.3 muestra la Vista de variables, en cada fila se van definiendo las
variables en el mismo orden como aparecen en el cuestionario (o como el investigador
quiera definirlas para cálculos estadísticos particulares).
Para cada Variable (o característica en estudio) debemos indicar: nombre, tipo,
anchura, decimales, etiqueta, valores, perdidos, columnas, alineación y medida;
tomando en cuenta algunas de las recomendaciones que a continuación señalamos.
Nombre
El nombre de la variable debe comenzar con una letra del alfabeto español y luego
utilizar las combinaciones de letras, dígitos o símbolos que se estimen necesarias
de modo que con a lo más 64 caracteres juntos (sin espacio en blanco) resuman el
significado de la variable o toda una pregunta del cuestionario.
Si el cuestionario contiene un número grande de preguntas se recomienda definir
cada una de las variables (preguntas) de la siguiente manera: pgta_01, pgta_02,
…. , pgta_150 y en el momento de definir la etiqueta de la variable indicar la
pregunta formulada.
En general, al especificar del nombre de las variables se debe tener en cuenta:
Debe comenzar por una letra y los demás caracteres pueden ser letras, dígitos,
puntos o los símbolos #, @, _ o $.
El nombre de variable no puede terminar en punto.
El nombre de la variable debe ser único; no se aceptan duplicados.
No utilizar caracteres especiales (por ejemplo: !, ?, ' y *).
Hay palabras reservadas que no se pueden utilizar como nombres de variable;
estas son: ALL, AND, BY, EQ, GE, GT, LE, LT, NE, NOT, OR, TO, WITH.
Establecido el nombre de la variable, presionar Enter, inmediatamente el cursor se
ubica en Tipo (donde aparece automáticamente Numérico), con el que se
comienza indicar algunas especificaciones de la variable.
17
Tipo
Seleccionar el tipo de datos que se espera para la variable. En función del tipo
escogido se visualizan los valores de la variable y éstos estarán disponibles sólo
para aquellas operaciones que son esperables para los mismos.
Figura 1.4 Definición del Tipo de variable
Para definir, ubíquese en la casilla de Tipo, pulse el botón con los puntos
suspensivos después de la palabra Numérico y aparece el cuadro de diálogo
mostrado en la Figura 1.4, en el que se observa los tipos de variables siguientes:
Numérico.- define una variable cuyos valores son números, los mismos que
aparecen sin separadores cada tres posiciones.
Coma.- define una variable numérica cuyos valores se muestran con comas de
separación cada tres posiciones y con un punto como separador de la parte
decimal.
Punto.- define una variable numérica cuyos valores se muestran con puntos de
separación cada tres posiciones y con una coma como separador de la parte
decimal. El editor de datos acepta valores numéricos para este tipo de variables,
con o sin puntos, o en notación científica.
Notación científica.- define una variable numérica cuyos valores se muestran
con una E intercalada y un exponente con signo que representa una potencia de
base diez. El editor de datos acepta valores numéricos con o sin el exponente
para estas variables. El exponente puede ir precedido de E o D con un signo
18
opcional, o por el signo solamente. Por ejemplo, 123, 1,23E2, 1,23D2, 1,23E+2,
o incluso 1,23+2.
Fecha.- define una variable numérica cuyos valores se muestran en uno de los
diferentes formatos de fecha-calendario u hora-reloj. Seleccionar una plantilla de
la lista desplegable. Se puede introducir las fechas utilizando como
delimitadores: barras, guiones, puntos, comas o espacios en blanco. El rango de
siglo para los años de dos dígitos se toma de las opciones de configuración
(Menú Edición, Opciones, pestaña Datos)
Dólar.- define una variable numérica cuyos valores contienen un signo de dólar,
una coma para la separación de los decimales y múltiples puntos.
Moneda personalizada.- define una variable numérica cuyos valores se muestran
en uno de los formatos de moneda personalizados que se hayan definido
previamente en la pestaña Moneda del cuadro de diálogo Opciones del menú
Edición. Los caracteres definidos en la moneda personalizada no pueden
emplearse para la introducción de datos pero sí los mostrará el editor de datos.
Cadena.- define una variable cuyos valores no son numéricos; por lo tanto, no se
utilizan en los cálculos. También son conocidas como variables alfanuméricas.
Pueden contener diferentes caracteres hasta la longitud definida. Las letras
mayúsculas y las minúsculas son consideradas diferentes.
Anchura
Establecer el número máximo de caracteres que contienen los valores de la
variable. Automáticamente aparecen 8 caracteres.
Decimales
Determina el número de decimales para los valores de la variable. Si la variable es
tipo fecha o cadena, automáticamente aparecen 0 decimales y si es tipo numérica,
aparecen por defecto, 2 decimales.
Etiqueta
En este recuadro se indica el nombre completo de la variable o la pregunta
correspondiente formulada en el cuestionario hasta un máximo de 255 caracteres y
espacios en blanco. Se recomienda escribirla toda con mayúsculas, ya que esta
19
etiqueta es la que aparece en los cuadros de salida cuando se procesan algunos
resultados de interés y buscaremos de diferenciarlas de las etiquetas de valor.
Valores
En este recuadro por defecto, aparece Ninguno y sirve para asignar valores a los
resultados de variables de tipo cualitativo (Etiquetas de valor) o para definir los
rangos de variables cuantitativas transformadas con fines de procesamiento. Es
decir, que si una variable cualitativa responde a varias cualidades (categorías o
atributos) a cada una de ellas se le asigna un valor por lo general numérico,
pudiendo ser también alfabético.
Los valores los definimos así: estando ubicado en la casilla de Valores, pulsar el
botón con los puntos suspensivos después de la palabra Ninguno y aparece el
cuadro de diálogo mostrado en la Figura 1.5.
Para describir los valores de una variable de tipo cualitativo habrá que situar el
cursor en el recuadro Valor e introducir el número o letra correspondiente. A
continuación se pulsa el tabulador y el cursor se sitúa en el recuadro Etiqueta
donde se introduce la palabra o palabras que describen ese valor, luego pulsamos
Añadir; inmediatamente el cursos se ubica nuevamente en Valor y se repite el
proceso hasta que se define la etiqueta del último valor y se sale con Aceptar.
Figura 1.5 Cuadro de diálogo para definir Etiquetas de Valor
20
Se recomienda escribir las etiquetas de valor con mayúsculas y minúsculas (en el
ejemplo Hombre y Mujer) para que cuando se obtenga un cuadro con la variable
SEXO (con mayúsculas), se diferencie el nombre de la variable y sus categorías
componentes.
Perdidos
Son aquellos valores que no son considerados para realizar determinados cálculos
estadísticos. Existen dos tipos de valores perdidos:
Del sistema.- cualquier casilla en blanco de la matriz de datos.
Del usuario.- son aquellos que define el usuario por diferentes motivos, entre
los que podemos destacar aquellos que distorsionan los análisis estadísticos,
como por ejemplo cuando se han definido dos categorías de Sexo (1 = hombre
y 2 = mujer) pero por error de digitación se puede colocar cualquier otro valor.
Los valores perdidos los definimos así: estando ubicado en la casilla de
Perdidos, pulsar el botón con los puntos suspensivos después de la palabra
Ninguno y aparece el cuadro de diálogo mostrado en la Figura 1.6.
Figura 1.6 Cuadro de diálogo para Definir Valores Perdidos
Como se puede observar en la Figura 1.6, por defecto aparece No hay valores
perdidos; además existe la posibilidad que el usuario defina tres Valores
Perdidos Discretos o defina un Rango más un valor perdido discreto opcional
21
(un rango de valores perdidos definido por sus dos extremos junto con un solo
valor discreto individual). Se debe tener presente que sólo se pueden definir
rangos para variables de tipo numérico y que no se pueden definir valores
perdidos para variables de cadena larga (con más de 8 dígitos).
Columnas
Al igual que Anchura por defecto define un ancho de 8 para las Columnas de la
base de datos. De requerirse otro ancho, hay que definirlo ubicándose en la casilla
de Columnas y veremos que al extremo opuesto del 8 aparece un botón con un
triángulo hacia arriba para aumentar el ancho y otro triángulo hacia abajo para
disminuir dicho ancho de columna. También lo puede cambiar haciendo doble clic
en la correspondiente casilla de Columnas para la variable que esta definiendo y
digitar el ancho de columna deseado.
Alineación
Se tiene que escoger como van a estar alineados los valores en la base de datos,
por defecto aparece Derecha. Si quiere modificar la Alineación de valores para la
variable que esta definiendo, ubíquese en la correspondiente casilla de alineación
y haga clic en el botón que aparece al costado de Derecha e inmediatamente se
despliegan las tres posibles opciones de alineación Izquierda, Derecha y Centrado,
debiendo escoger la opción deseada haciendo clic sobre la palabra.
Medida
Indica el tipo de medición que le corresponde a la variable que estamos
definiendo, por defecto aparece Escala. Si quiere modificar la Medida para la
variable que esta definiendo, ubíquese en la correspondiente casilla de medida y
haga clic en el botón que aparece al costado de Escala e inmediatamente se
despliegan las tres posibles opciones de medida: Escala, Ordinal y Nominal,
debiendo escoger la opción deseada haciendo clic sobre la palabra.
Escala.- es utilizada para variables numéricas, como por ejemplo, las variables
edad, peso, talla, etc.
Nominal.- es utilizada para representar los valores de cualidades, atributos o
categorías sin un orden particular (por ejemplo, sexo; hobby, etc.). Las medidas
22
nominales pueden ser valores de cadena (alfanuméricos) o numéricos que
representen diferentes atributos (por ejemplo, 1 = Hombre, 2 = Mujer).
Ordinal.- es utilizada para establecer un determinado orden entre los valores de
la variable, por ejemplo, la variable Importancia de tus estudios con los valores
Muy poca, Poca, Media, Mucha y Muchísima. Las variables ordinales pueden
ser valores numéricos o de cadena (alfanuméricos) que representen diferentes
categorías (por ejemplo, 1 = Muy poca, 2 = Poca, 3 = Media, 4 = Mucha y 5 =
Muchísima).
Se recomienda utilizar valores numéricos para representar datos ordinales.
La Vista de variables para la base de datos Estadística Básica 09A, se presenta
en la Figura 1.7.
Figura 1.7. Vista de Variables definidas en SPSS
El encabezamiento para las variables definidas en la base de datos Estadística
Básica 09A, se observan en la Vista de datos y se presenta en la Figura 1.8.
Recordar que estas son las variables definidas a partir del cuestionario de
“Características del alumno” de Estadística Básica, del 09A, de la FCE-UNAC.
23
Figura 1.8. Variables definidas en SPSS
d) En R
El programa R es un paquete estadístico de libre uso, para cuya instalación se requiere
ingresar por internet a la página web:
http://www.r-project.org/
En el margen izquierdo escoger la opción CRAN, luego un país cuya web facilite la
instalación, por ejemplo Australia (http://cran.ms.unimelb.edu.au/ ).
En la página escogida, dentro de Download and Install R escoger Windows, luego
base, escoger la versión en la que se encuentra (que es única), por ejemplo Download
R 2.11.1 for Windows, a continuación en Abriendo R-2.11.1-win32.exe, escoger
Guardar archivo.
Una vez guardado el archivo, ejecutar la Instalación del programa la que al finalizar,
por defecto, deja en el escritorio para su ejecución el ícono:
Dando doble clic sobre el icono anterior, se inicia el programa R, el cursor por defecto
es el símbolo “ > ” indica que R esta listo para recibir y ejecutar un comando.
24
Según Paradis (2002) “R es un lenguaje orientado a objetos, …, lo cual significa que
los comandos escritos en el teclado son ejecutados directamente sin necesidad de
construir ejecutables. ….. La sintaxis de R es muy simple e intuitiva. Por ejemplo, una
regresión lineal se puede ejecutar con el comando lm(y~x). Para que una función sea
ejecutada en R debe estar siempre acompañada de paréntesis, inclusive en el caso que
no haya nada dentro de los mismos.”
Paradis, et.al., señala también que “Orientado a Objetos significa que las variables,
datos, funciones, resultados, etc., se guardan en la memoria activa del computador en
forma de objetos con un nombre específico. El usuario puede modificar o manipular
estos objetos con operadores (aritméticos, lógicos y comparativos) y funciones (que a
su vez son objetos)”.
Para tener una base de datos en una hoja de R, se tiene que hacer la lectura de la
misma por cualquiera de las siguientes maneras: desde un archivo con extensión *.txt,
desde un archivo de Excel con extensión csv, o mediante un copy/paste “clipboard”.
Caso 1.- Desde un archivo con extensión *.txt, como puede ser la base de datos
(Estadística básica 09-A.xls) trabajada en Excel y grabada con extensión *.txt o
copiar dicha base de datos de Excel, incluyendo los encabezados con el nombre de la
variable, a un block de notas y grabarla como Estadística básica 09-A.txt. Se procede
copiando en R la siguiente sintaxis:
> caso1=read.table(file.choose(),header=T)
Se esta pidiendo que cree el objeto caso1, como resultado de leer una tabla (read.table)
o base de datos. Al hacer enter, inmediatamente aparece la ventana de diálogo de la
Figura 1.9, solicitando la ruta correspondiente para escoger el archivo = file.choose()
con la base de datos (Estadística básica 09-A.txt) que se desea abrir. En la sintaxis,
header=T esta indicando que es verdadero (en inglés true = T) que la tabla a escoger
tiene encabezado (header) con el nombre de las variables (si no tiene encabezado,
header=F, de false = falso en inglés). Una vez escogida la base de datos, hacer clic en
Abrir y la base de datos queda almacenada en la hoja de R con la denominación del
objeto: caso1, el mismo que contiene 20 campos y 60 registros.
25
Figura 1.9 Abriendo base de datos en R desde un block de notas
Ha leído las variables de la base de datos de Estadística Básica 09A como un todo,
no reconoce a ninguna variable de manera independiente, para que ello ocurra
usamos el comando attach para unir las variables y reconozca a cada una de ellas
por el nombre que aparece en el encabezado. Escribir en R: > attach(caso1)
Si queremos editar los datos escribir: > fix(caso1)
También se puede leer la base de datos, en forma parecida a la anterior, sólo que
en vez de file.choose se debe colocar entre comillas la ruta que contiene el
archivo, así:
>
caso1=read.table("D:/Beatriz/UNAC/Investigación/Proyecto
8
computacional/Base de datos/ Estadística básica 09-A.txt ", header=T)
> attach(caso1)
26
Estadística
Caso 2.- Desde un archivo en Excel con extensión csv, en la que se ha definido los 20
campos (incluyendo los encabezados con el nombre de la variable) y los 60 registros,
se ha grabado como libro de Excel y como tipo CSV (delimitado por comas). La base
de datos se denomina Estadística Básica 09A-copia.csv. Se procede copiando en R la
siguiente sintaxis: > caso2=read.table(file.choose(),header=T,sep=",")
Al hacer enter, inmediatamente aparece una ventana de diálogo idéntica a la de la
Figura 1.9, solicitando la ruta correspondiente para escoger el archivo con separador
de comas (sep=”,”) aquí la base de datos (Estadística Básica 09A-copia.csv) que se
desea abrir. Una vez escogida la base de datos, hacer clic en Abrir y la base de datos
queda almacenada en R con la denominación del objeto: caso2, el mismo que contiene
20 campos y 60 registros idénticos a los del caso1. Es decir, que lo que cambia es la
forma de efectuar la lectura.
Para que el R junte y reconozca las variables escribir: > attach(caso2)
También se puede leer la base de datos, en forma parecida a la anterior, sólo que
en vez de file.choose se debe colocar entre comillas la ruta que contiene el
archivo, así:
>
caso2=read.csv("D:/Beatriz/UNAC/Investigación/Proyecto
8
Estadística
computacional/Base de datos/ Estadística Básica 09A-copia.csv ", header=T)
> attach(caso2)
Caso 3.- Mediante un copy/paste “clipboard” de un archivo en Excel, es la forma
más sencilla. En Excel sombrear el encabezado y los datos de la base de datos que
deseamos leer en R, escoger copiar (o Ctrl + C) y en R escribir:
> caso3=read.table("clipboard")
> attach(caso3)
1.3 INTRODUCCIÓN DE DATOS
Una vez que se ha aplicado la encuesta y se ha efectuado la crítica-codificación de
los cuestionarios, en la base de datos definida en el programa correspondiente, se
efectúa el ingreso de datos cuestionario por cuestionario, desde el número 1 (registro
1) hasta el último.
27
En el registro 1, se colocan los datos del alumno que aparecen en el cuestionario
número 1, en el mismo orden que se ha respondido, es decir: sexo = 1(hombre),
edad = 20 años, peso = 68 kg., talla = 169 cm., ingreso familiar = 3900, miembros
en la familia = 5, etc. Y del mismo modo todos los cuestionarios.
Figura 1.10 Base de datos en Excel
Figura 1.11 Base de Datos en MINITAB
28
Figura 1.12 Base de datos en SPSS
Para ver y corregir datos en R escribir: >fix(caso2). Al efectuar enter aparecen
los datos de la Figura 1.13. También con: > caso2 . Muestra los datos en la consola.
Figura 1.13 Base de datos en R
Las 20 variables trabajadas en los cuatro programas aparecen en las columnas y los
60 registros en filas. Es decir que la base de datos definida es una matriz de 60 x 20.
El Minitab, el SPSS y el R reconocen las variables por su nombre.
29
1.4 ARCHIVO DE DATOS
El archivamiento de datos se efectúa a través de los clásicos guardar, guardar como
y cerrar cuando se esta trabajando con una base de datos. Además de nuevo y abrir.
Figura 1.14 Ventana de archivamiento en Excel
a) Guardar y Guardar como.Guardar como: es el proceso inicial de almacenamiento en una unidad de disco
de una base de datos creada para volver a trabajar con ella en otro momento.
Guardar: es el archivamiento continuo que se hace sobre una base de datos ya
guardada y en la que se han efectuado cambios que se deben guardar antes de
cerrarla.
Para Guardar en EXCEL:
-
Hacer clic en el Botón de Office (el superior izquierdo, en la Figura 1.14) y
elegir Guardar como y aparece el cuadro de diálogo de la Figura 1.15.
-
Hacer clic sobre la flecha de la derecha en el recuadro Guardar en: y
seleccionar la unidad de disco y la carpeta donde se va a archivar la base de
datos (en este caso en el disco D y en la carpeta Base de datos).
-
En el recuadro Nombre de archivo, escribir el nombre que se desea poner a
la base de datos (en este caso Estadística Básica 09-A).
-
En el recuadro Guardar como tipo:, automáticamente aparece Libro de
Excel, si se desea cambiar el tipo, hacer clic sobre la flecha de la derecha y
seleccionar el tipo de guardado (en este caso CSV (delimitado por comas)
para usarlo al abrir la base de datos en R).
30
-
Por último, hacer clic sobre el botón Guardar.
Figura 1.15 Cuadro de diálogo para Guardar como, en Excel
Si se esta trabajando un archivo ya guardado y se hacen modificaciones, para
guardarlo con el mismo nombre, seleccionar la opción Guardar del Botón
Office (ver figura 1.14) que es la misma que aparece al lado derecho de este
Botón. También se puede utilizar la combinación de las teclas Ctrl + G.
Para Guardar en MINITAB:
-
Al hacer clic en el botón File (archivo) de la barra de menú se despliega la
ventana de la Figura 1.16, en la que se puede apreciar las opciones para un
Proyecto (Project) que es un conjunto de tareas que contiene hojas de trabajo
(worksheet), sesión (sesión), gráficos, etc. Y las opciones para una hoja de
trabajo (worksheet) que se pueden incorporar en un proyecto determinado.
Se observa entre otras las opciones New (nuevo), Open Project (abrir
proyecto), Save Project (guardar proyecto), Save Project As (guardar
proyecto como), Open Worksheet (abrir hoja de trabajo), Save Current
Woksheet (guardar hoja de trabajo corriente), Save Current Worksheet As
(guardar hoja de trabajo corriente como), etc.
31
Figura 1.16 Ventana de File (archivo), en Minitab
-
Hacer clic sobre la opción Save Project As (guardar proyecto como) y
aparece el cuadro de diálogo de la Figura 1.17.
-
Hacer clic sobre la flecha de la derecha en el recuadro Guardar en: y
seleccionar la unidad de disco y la carpeta donde se va a archivar la base de
datos (en este caso en el disco D y en la carpeta Base de datos).
-
En el recuadro Nombre:, escribir el nombre que se desea poner a la base de
datos (en este caso Estadística Básica 09-A).
-
En el recuadro Tipo: automáticamente aparece Minitab Project (*.MPJ) con
extensión MPJ, si se hubiese guardado como Worksheet (hoja de trabajo)
guarda con la extensión MTW.
-
Por último, hacer clic sobre el botón Guardar.
32
Figura 1.17 Cuadro de diálogo para Save Project As, en Minitab
Si se esta trabajando un archivo ya guardado y se hacen modificaciones, para
guardarlo con el mismo nombre, seleccionar la opción Save Project o Save
Current Worksheet (ver figura 1.16) que es idéntica al diskette que aparece en
la banda de opciones. También se puede guardar un proyecto utilizando la
combinación de las teclas Ctrl + S.
Para Guardar en SPSS:
-
Es similar al de los otros programas, cuyo guardado ya hemos visto. Estando
en el Editor de datos SPSS (Figura 1.13), hacer clic en el botón Archivo, se
despliega una ventana en la que se puede apreciar las opciones Nuevo, Abrir,
…., Cerrar, Guardar, Guardar como, etc.
-
Hacer clic sobre la opción Guardar como y aparece el cuadro de diálogo de
la Figura 1.18.
33
Figura 1.18 Cuadro de diálogo para Guardar como, en SPSS
-
Hacer clic sobre la flecha de la derecha en el recuadro Guardar en: y
seleccionar la unidad de disco y la carpeta donde se va a archivar la base de
datos (en este caso en el disco D y en la carpeta Base de datos).
-
En el recuadro Nombre:, escribir el nombre que se desea poner a la base de
datos (en este caso Estadística Básica 09-A).
-
En el recuadro Tipo: automáticamente aparece SPSS (*.sav) con extensión
sav para guardar datos en SPSS.
Nota.- cuando se archiva textos: como la hoja de Resultados 1 [Dokument
1] – Visor SPSS, donde aparecen los resultados de las tareas ejecutadas con
SPSS, se guarda con la extensión .spo; y si es sintaxis se guarda con la
extensión .sps.
-
Por último, hacer clic sobre el botón Guardar.
34
Para Guardar en R:
-
Hacer clic en el botón Archivo, se despliega una ventana en la que se puede
apreciar las opciones Interpretar código fuente R, Nuevo script, Abrir script,
etc.
-
Hacer clic sobre la opción Guardar área de trabajo (imagen) y aparece el
cuadro de diálogo de la Figura 1.19.
Figura 1.19 Cuadro de diálogo para Guardar área de trabajo en R
-
Hacer clic sobre la flecha de la derecha en el recuadro Guardar en: y
seleccionar la unidad de disco y la carpeta donde se va a archivar la base de
datos (en este caso en el disco D y en la carpeta Base de datos).
-
En el recuadro Nombre:, escribir el nombre que se desea poner a la base de
datos (en este caso Estadística Básica-09A).
-
En el recuadro Tipo: automáticamente aparece R images (*.RData) con
extensión Rdata para guardar datos en R.
-
Por último, hacer clic sobre el botón Guardar.
35
El archivo guardado en R contiene la base de datos como un objeto (aquí se
llama caso2) y otros objetos que se definan, los que al Abrir con Cargar área
de trabajo, se pueden visualizar desde la ventana Misc / Listar objetos y se
puede seguir trabajando con todos ellos y crear nuevos objetos. Las
modificaciones efectuadas se vuelven a guardar del modo descrito. Si desea
saber el contenido de la base de datos guardada escriba: > str(caso2)
b) Cerrar.Una vez que se termina de trabajar con un archivo, se guarda y se procede a salir
de éste así:
-
En Excel:
Elija el Botón de Office y luego la opción Cerrar. Cierra el libro y puede
seguir trabajando con el programa Excel.
Otra manera es utilizar el botón Cerrar ventana
x
de la barra de menú (no
el de la barra de título del libro, ya que cierra el programa Excel).
También se cierra el libro con la combinación de teclas: Ctrl + F4.
-
En MINITAB:
Elija el botón File (Archivo) de la barra de menú y luego la opción Close
Worksheet (Cerrar hoja de trabajo). Cierra la hoja de trabajo y puede seguir
usando el programa Minitab.
Otra manera es utilizar el botón Cerrar
x
de la barra de menú (no el de la
barra de título, ya que cierra el programa).
También se cierra la hoja de trabajo con la combinación de teclas: Ctrl + F4,
sale un cuadro de diálogo preguntando si queremos guardarla y escogemos
Si o No.
-
En SPSS:
Elija el botón Archivo de la barra de menú y luego la opción Salir,
inmediatamente sale la pregunta ¿Desea guardar el contenido del Visor de
resultados en resultados 1 [Dokument 1]? Al escoger Sí, indique la carpeta
36
correspondiente y al terminar de guardar, sale automáticamente del
programa. Si escoge No, sale del programa.
Otra manera es utilizar el botón Cerrar
x
de la barra de título, sale la misma
pregunta del párrafo anterior y procede del modo allí indicado.
-
En R:
Se recomienda previamente Guardar área de trabajo, luego elija el botón
Archivo de la barra de menú y luego la opción Salir, inmediatamente sale la
pregunta
Guardar imagen de área de trabajo? Escoger No y sale del
programa.
Otra manera es utilizar el botón Cerrar
x
de la barra de título, sale la misma
pregunta del párrafo anterior. Escoger No y sale del programa.
c) Nuevo.- para crear un nuevo archivo de trabajo, se debe proceder así:
En Excel:
Si ha ingresado al programa, automáticamente tiene un nuevo libro de trabajo; si
no, elija el Botón de Office y luego la opción Nuevo. Otra manera es utilizar la
combinación de teclas: Ctrl + U.
En MINITAB:
Si ha ingresado al programa, automáticamente tiene un Worksheet 1 (hoja de
trabajo 1) o si no, elija el botón File y luego la opción Nuevo. Otra manera es
utilizar la combinación de teclas: Ctrl + N.
En SPSS:
Si ha ingresado al programa, automáticamente tiene una hoja Sin título
[Conjunto_de_datos0] – Editor de datos SPSS (donde se definen las variables
y se ingresan los datos del estudio) donde vamos a definir la base de datos.
Si esta trabajando en SPSS, elija el botón File, luego la opción Nuevo y escoja
Datos, apareciendo una hoja Sin título 1 [Conjunto_de_datos1] – Editor de datos
SPSS.
37
En R:
Proceder conforme se ha indicado en el acápite 1.2 Definición de variables en R.
d) Abrir.- si tenemos un archivo de datos ya guardado y se desea abrir para trabajar
con él, se procede así:
En Excel:
Elija el Botón de Office y luego la opción
Abrir o la combinación de teclas:
Ctrl + A. En el cuadro de diálogo, seleccione la carpeta donde esta guardado el
archivo, ubique el nombre y tipo, luego haga clic en el botón Abrir.
En MINITAB:
Elija el botón File y luego la opción
teclas: Ctrl + O) u
Open Project (o la combinación de
Open Worksheet. En el cuadro de diálogo, seleccione la
carpeta donde esta guardado el archivo, ubique el nombre y tipo, luego haga clic
en el botón Abrir.
En SPSS:
Elija el botón File, luego la opción Abrir y escoja Datos. En el cuadro de
diálogo, seleccione la carpeta donde esta guardado el archivo, ubique el nombre
y tipo, luego haga clic en el botón Abrir.
En R:
Proceder conforme se ha indicado en el acápite 1.2 Definición de variables en R.
Nota.- en R también se puede definir una variable por separado como un objeto,
presentado como un vector, de tal manera que cada vez que se especifique el
programa reconoce sus valores. Por ejemplo, la variable peso de la base de datos
caso2, se ingresa así:
>peso=c(68,69, 63, 55, 57, 48, 50, …. , 67, 77, 53)
El programa R reconoce en el objeto peso, los pesos de los 60 alumnos.
38
1.5 TRANSFORMACIÓN DE DATOS
Muchas veces interesa crear nuevas variables a partir de una base de datos
determinada, para ello es necesario efectuar algunos cálculos utilizando las variables
de esa base de datos.
Por ejemplo, con la base de datos Estadística básica 09-A (EB-09A), en cualquiera
de los programas, se puede crear la variable IMC = Índice de Masa Corporal
(Kg./m2), con las variables peso (en kilos) y talla (en metros).
Para la Organización Mundial de la Salud (1995): “El IMC es una manera sencilla y
universalmente acordada para determinar si una persona tiene peso adecuado”. La
fórmula de cálculo propuesta por el estadístico belga L.A.J. Quetelet es:
peso
imc
talla
2
La OMS clasifica a las personas en función de su correspondiente IMC de la
siguiente manera:
Cuadro 1.1 Tabla de la masa corporal ideal
CONDICIÓN
IMC (Kg./m2)
1
Delgado (bajo peso)
Menos de 18.5
2
Normal (peso saludable)
3
Sobrepeso
25 – 30
4
Obeso
30 - 40
5
Obesidad morbida
18.5 – 25
40 y más
En la base de datos EB-09A el peso esta en Kg. y la talla está en cm. La talla debe
transformarse en una nueva variable, por ejemplo: talla_m = talla en metros, para
poder calcular la variable imc con los datos transformados de la siguiente manera:
En Excel:
Los resultados aparecen en la Figura 1.20, en la que aparece la base de datos EB09A con los datos de peso (columna D); talla en cm. (columna E); talla_m en
metros (columna U) obtenidos dividiendo cada dato de la columna E entre 100; imc
39
(columna V) calculado en la barra de formulas
, estando en V2
=D2/(U^2)
y copiado en todas las celdas de la columna V; y condición (columna W) que en el
siguiente acápite se ve como se ha determinado.
Figura 1.20 Cálculo del imc en Excel
En MINITAB:
Para transformar la talla en centímetros a metros (talla_m) se tiene que escoger de la
barra de menú la opción Calc, luego Calculator (calculadora) y aparece la ventana
de diálogo de la Figura 1.21. Definida en la hoja de cálculo la variable talla_m, en
Store result in variable (almacenar resultado en variable) escribir talla_m y en
Expression (expresión) escribir talla / 100, para terminar clic en OK y
automáticamente aparece el cálculo en la columna talla_m en la base de datos
Current data window (ver la Figura 1.21).
Para calcular el IMC, escoger nuevamente de la barra de menú Calc, Calculator y
se abre una ventana de diálogo similar a la de la Figura 1.20. En Store result in
variable seleccionar o escribir imc y en Expression escribir la fórmula de cálculo
peso / talla**2, para terminar clic en OK y automáticamente en la base de datos
(Current data window) aparecen los datos del IMC calculados (ver la Figura 1.24).
40
Figura 1.21 Cálculo de la talla_m en Minitab
En SPSS:
Para transformar la talla en centímetros, a metros (talla_m) se tiene que escoger de
la barra de menú la opción Transformar, Calcular variable y aparece la ventana
de diálogo Calcular variable de la Figura 1.22. En Variable de destino: escribir
talla_m. Haciendo clic en Tipo y etiqueta definir etiqueta (el nombre de la variable)
TALLA (m.) y el Tipo: numérica. En Expresión numérica: escribir talla / 100. Para
terminar el cálculo hacer clic en Aceptar y aparece la variable talla_m con sus
valores en la Vista de datos, del Editor de datos SPSS, ver la Figura 1.28.
Para calcular la variable IMC, nuevamente se escoge de la barra de menú la opción
Transformar, Calcular variable y aparece la ventana de diálogo Calcular variable,
similar a la de la Figura 1.22. En Variable de destino: escribir imc. Haciendo clic
en Tipo y etiqueta definir etiqueta INDICE DE MASA CORPORAL (Kg./m2) y el
Tipo: numérica. En Expresión numérica: escribir peso / talla**2. Para terminar el
cálculo hacer clic en Aceptar y aparece la variable imc con sus valores, en la Vista
de datos del Editor de datos SPSS, ver la Figura 1.28.
41
Figura 1.22 Cálculo de la variable talla_m en SPSS
En R:
Para transformar la talla en centímetros, a metros (talla_m) se tiene que escribir:
> talla_m=talla/100
> talla_m
[1] 1.69 1.72 1.70 1.73 1.67 1.52 1.52 1.56 1.54 1.71 1.60 1.76 1.64 1.71 1.54
[16] 1.77 1.69 1.71 1.70 1.79 1.77 1.65 1.71 1.58 1.55 1.60 1.59 1.52 1.75 1.65
[31] 1.75 1.57 1.77 1.65 1.49 1.64 1.64 1.60 1.61 1.69 1.50 1.68 1.72 1.50 1.56
[46] 1.74 1.75 1.68 1.65 1.52 1.72 1.73 1.56 1.55 1.50 1.60 1.68 1.72 1.78 1.57
Para calcular el IMC escribir la fórmula así:
> imc=peso/talla_m^2
> imc
Los objetos talla_m e imc creados no se almacenan en la hoja de R, si queremos que
ello ocurra y guardarlos, debemos hacer transformaciones dentro de caso2, así:
> caso2=transform(caso2, talla_m=talla/100)
> caso2=transform(caso2, imc=peso/talla_m^2)
Para unir las nuevas variables en caso 2, escribir: > attach(caso2)
42
1.6 RECODIFICACIÓN DE DATOS
En el acápite anterior se han efectuado algunos cálculos con los datos, creando
nuevas variables y se esta interesado en recodificar los mismos. Por ejemplo, para
definir la Condición del peso del alumno con la variable IMC obtenida, usando la
propuesta del Cuadro 1, se procede de la siguiente manera:
En Excel:
Estando en W2, la condición (columna W) se calcula en la barra de fórmulas con la
expresión lógica siguiente:
=SI(V2<18.5,"Delgado",SI(V2<25,"Normal",SI(V2<30,"Sobrepeso",SI(V2<40,"Ob
eso","Obesidad morbida")))).
Luego se hace una copia para los demás datos de la columna W, los resultados se
observan en la Figura 1.20.
En MINITAB:
De la barra de menú escoger la opción Data, luego Code (código) y Numeric to
text (numérico a texto) porque se desea recodificar valores numéricos en texto, ver
la Figura 1.23, también se puede apreciar otros tipos de recodificación.
Figura 1.23 Tipos de recodificación en Minitab
Haciendo clic en Numeric to Text aparece la ventana de diálogo de la Figura 1.24
(Code – Numeric to Text) para recodificar los datos numéricos en texto.
43
Figura 1.24 Obtención de la Condición, recodificando el IMC en Minitab
En Code data from columns: (código de datos desde las columnas) seleccionar de
las variables a la izquierda imc o escribirla. En Store couded data in columns:
(almacenar datos codificados en la columna) seleccionar de las variables de la
izquierda condición o escribirla.
A continuación en Original values (valores originales) se va definiendo uno a uno
los intervalos definidos en el Cuadro 1.1, separándolos por dos puntos (:) y en New
los nuevos valores en texto.
Observar que el primer intervalo es para imc menor de 18.5, en Original values: se
coloca desde un valor muy bajo, que aquí se ha tomado el 0, por eso se escribe 0 :
18.49 (de ser necesario se agregan más nueves en los decimales, para estar más
cerca a 18.5) y en New: Delgado. El siguiente intervalo va de 18.5 hasta antes de 25,
en Original values: se escribe 18.5 : 24.99 y en New: Normal. Así sucesivamente,
para el último intervalo de 40 a más, en Original values: se escribe 40 : 100 (o un
valor más alto para que no queden datos sin recodificar) y en New: Obesidad
mórbida. Para finalizar la recodificación hacer clic en OK y en la base de datos
(Current data window) aparecen los datos de condición (ver Figura 1.25).
44
Figura 1.25 Resultado de la Condición recodificando el IMC en Minitab
En SPSS:
De la barra de menú escoger la opción Transformar, luego hacer clic sobre
Recodificar en distintas variables (si se escoge Recodificar en las mismas
variables, se pierden los valores originales ya que son reemplazados por los
recodificados). Aparece la ventana de diálogo Recodificar en distintas variables de
la Figura 1.26.
Escogiendo de la lista de variables que aparecen al lado izquierdo, en Var.
numérica → Var. de resultado: ingresar la variable imc, inmediatamente aparece
imc→ ? En Variable de resultado, en Nombre: escribir condición, en Etiqueta:
escribir CONDICIÓN (del peso) y luego hacer clic en el botón Cambiar (si no hace
esto, la recodificación no se realiza después, asegurarse de ello), inmediatamente en
Var. numérica → Var. de resultado: se modifica por imc→ condición.
45
Figura 1.26 Obtención de la Condición, recodificando el IMC en SPSS
Luego, hacer clic en Valores antiguos y nuevos y aparece la ventana de diálogo
Recodificar en distintas variables: Valores antiguos y nuevos de la Figura 1.27.
A continuación, en Valor antiguo se va definiendo uno a uno los intervalos
definidos en el Cuadro 1.1, y en Valor nuevo los nuevos valores del intervalo.
Observar que el primer intervalo es para imc menor de 18.5, en Valor antiguo, en
Rango, MENOR hasta valor se escribe 18.49 (de ser necesario se agregan más
nueves en los decimales, para estar más cerca a 18.5) y en Valor nuevo, en Valor
escribir 1, luego hacer clic en añadir. El siguiente intervalo va de 18.5 hasta antes de
25, en Valor antiguo, en Rango: se escribe 18.5 hasta 24.99 y en Valor nuevo
escribir 2, luego hacer clic en añadir. Así sucesivamente, para el último intervalo de
40 a más, en Valor antiguo, RANGO, valor hasta MAYOR se escribe 40 y en Valor
nuevo, en Valor escribir 5, luego clic en añadir.
Para finalizar la recodificación, al hacer clic en Continuar regresa a la ventana de la
Figura 1.26.
Luego hacer clic en Aceptar y aparece la variable condición con sus valores del 1 al
5 en la Vista de datos del Editor de datos SPSS.
46
Figura 1.27 Recodificar Valores antiguos del IMC y nuevos de Condición en SPSS
A continuación, en la Vista de variables, del Editor de datos SPSS, a la variable
condición se le definen las Etiquetas de valor, en un cuadro de diálogo similar al de
la Figura 1.5. Para ello asignar los valores y etiquetas siguientes: 1, Delgado; 2,
Normal; 3, Sobrepeso; 4, Obeso; y 5, Obesidad mórbida.
Una vez que termina de añadir los valores y etiquetas hacer clic en Aceptar, en la
Vista de datos, del Editor de datos SPSS aparecen las etiquetas de condición que se
muestran en la Figura 1.28.
Figura 1.28 Resultado de la Condición recodificando el IMC en SPSS
47
En R:
Antes de crear la Condición, debemos crear los intervalos del Cuadro 1.1, así:
> caso2=transform(caso2,condi=cut(imc,breaks=c(0,18.4999, 24.9999,29.9999,
39.9999,max(imc))))
> table(condi)
condi
(0,18.5] (18.5,25] (25,28.7] (28.7,30]
4
49
7
0
(30,40]
0
En el resultado anterior, hay 4 alumnos con imc menor de 18.5 (delgados), 49
alumnos con imc entre 18.5 y 25 (normales) y 7 alumnos con imc entre 25 y 30 (con
sobrepeso); no hay alumnos obesos, ni con obesidad mórbida, por lo que vamos a
colocar las etiquetas correspondientes a Condición, de la siguiente manera:
> caso2=transform(caso2, Condición=factor(condi, labels=c("Delgado", "Normal",
"Sobrepeso")))
Luego escribimos: > attach(caso2) y después: > table(Condición)
Condición
Delgado
4
Normal Sobrepeso
49
7
Con la sintaxis: > fix(caso2) obtenemos la hoja del R, donde aparecen las etiquetas
de Condición que se muestran en la Figura 1.29.
Figura 1.29 Resultado de la Condición recodificando el IMC en R
48
1.7 MANIPULACIÓN DE ARCHIVOS
Para los programas Excel, Minitab y SPSS el proceso de agregar o quitar variables
(en columnas) y registros o casos (en filas) es similar, simplemente hay que insertar
filas o columnas si es necesario o copiar las variables y/o casos. Así mismo, la
selección de variables para generar nuevos archivos se puede efectuar abriendo
nuevas hojas de datos para trabajar con ellas situaciones particulares.
Veamos la selección de variables en R y la obtención de casos.. Estando en caso2, la
forma más sencilla es escribir en R: >attach(caso2) y al hacer enter quedan
reconocidas todas las variable con el nombre del encabezado. Otra forma es, como
las variables aparecen dentro del objeto caso2 en columna: el n_cuest (columna 1),
sexo (columna 2), edad (col. 3), peso (col. 4), hasta col.proc (col. 19) y especial (col.
20). Cada una de las variables es trabajada como un objeto y se definen así:
> peso=caso2[,4]
Se pide crear el objeto peso y que lo obtenga de la columna 4, del objeto caso2 (la
base de datos trabajada). Dentro del corchete de caso2, la primera componente
indica fila (registro) y la segunda columna (variable). Al dejar vacía la primera
componente reconoce sólo los valores de la variable. Si se quiere visualizar el
contenido del objeto creado, escribimos peso y al hacer enter aparecen los pesos.
> peso
[1] 68.0 69.0 63.0 55.0 57.0 48.0 50.0 50.0 44.0 60.0 52.6 80.0 52.0 67.0 46.0
[16] 80.0 64.0 64.0 63.0 72.0 65.0 47.0 70.0 50.0 53.0 66.0 57.0 50.5 80.0 55.0
[31] 88.0 55.0 75.0 64.5 50.0 49.0 54.0 46.5 49.0 70.0 48.0 60.0 75.0 55.0 51.0
[46] 72.0 68.0 68.0 55.0 59.0 65.0 66.0 51.0 53.0 45.0 52.0 53.0 67.0 77.0 53.0
También se puede crear varios objetos a la vez separándolos con punto y coma, así:
> talla=caso2[,5] ; ing.fam=caso2[,6] ; mie.fam=caso2[,7]
Si desea visualizar los 20 datos del alumno 4 (registrados en la fila 4) escribir:
> reg.4=caso2[4,]
enter y luego > reg.4 al hacer enter obtenemos:
nº_cuest sexo edad peso talla ing.fam mie.fam g.estud cr.aprob prom.acum
4
4
1
20 55
173
1200
5
60
42
t.viviend nº.dormit horas.tv hrs.estu lib.leídos hobby imp.estudio
4
1
3
3
4
4
imp.físico col.proc especial
4
4
2
2
49
4
4
12.4
Capítulo 2. PRESENTACIÓN DE DATOS
“El propósito de la estadística es descubrir métodos para condensar la
información relativa a un gran número de hechos relacionados, en cortas y
compendiosas expresiones adecuadas para su discusión”
Francis Galton
CONTENIDO
2.1
2.2
2.3
2.4
2.5
2.6
2.7
Introducción.
Cuadros estadísticos.
Distribución de frecuencias.
Gráficos estadísticos.
Gráficos de variables cualitativas.
Gráficos de frecuencias.
Diagrama de tallos y hojas.
2.1 INTRODUCCIÓN
Uno de los propósitos fundamentales de la estadística es la “reducción de datos”,
la misma que se puede efectuar mediante la presentación de datos de tres maneras:
cuadros o tablas estadísticas, gráficos y texto.
Se recomienda la aplicación de todas ellas; siendo primordial la construcción del
cuadro estadístico con los datos, para poder realizar la presentación gráfica y/o
textual que permita describir, establecer relaciones y/o explicar las variables en
estudio, contribuyendo así a la aplicación del método científico.
En este capítulo se desarrollan los temas relacionados a cuadros estadísticos,
tablas de frecuencias y algunas formas de presentación gráfica tanto para variables
cualitativas como cuantitativas.
2.2 CUADROS ESTADÍSTICOS
En la estadística, como ciencia de la observación, se emplean las tablas o cuadros
estadísticos para resumir la información estadística (datos) obtenida mediante
encuestas, experimentos, registros administrativos, etc.
a) Definición.- un cuadro estadístico es un arreglo matricial que contiene las
variables con sus correspondientes categorías y los datos observados de
50
manera concisa, reflejando la relación o comparación fácil entre las variables
en un estudio determinado.
b) Estructura.- las partes de un cuadro estadístico son: número, título,
encabezamiento, columna matriz, cuerpo y pie (notas, llamadas y fuente). La
ubicación de cada uno de ellos se puede apreciar en la Figura 2.1.
NÚMERO
TÍTULO
COLUMNA
ENCABEZAMIENTO
MATRIZ
PIE
CUERPO
NOTAS
LLAMADAS
FUENTE
Figura 2.1 Estructura de un cuadro estadístico
Número.- si en un estudio o investigación se presenta más de un cuadro hay
que enumerarlos para diferenciarlos. Si el cuadro es único, no es necesario
enumerar. El número se ubica en la parte superior izquierda o central.
Se recomienda anteponer la palabra Cuadro o Tabla y a continuación
colocar el número (sin la abreviatura Nº previa) que puede ser arábigo o
alfanumérico, seguido de un punto, para luego indicar el título.
Ejemplo: Cuadro 5. ; Cuadro B10. ; etc.
Título.- el título indica de manera clara y precisa el contenido del cuadro.
Se coloca en la parte superior a continuación del número. Para su
construcción debe responder a las cuatro preguntas siguientes:
- ¿Qué? Estamos observando (unidad de análisis, objeto, característica
principal, valores, elementos, etc.)
- ¿Cómo? Están clasificados los datos (variables en el Encabezamiento
precedidas de la palabra POR y variables en la columna matriz
precedidas de la palabra SEGÚN)
51
- ¿Cuándo? Se realizó la observación de los datos (período al que se
refieren los datos)
- ¿Dónde? Se realizó la observación de los datos (lugar geográfico)
Ejemplo.¿Qué? Producto Bruto Interno.
¿Cómo? Por Años, Según Rama de la Actividad Económica.
¿Cuándo? Del 2000 al 2007.
¿Dónde? Perú.
Ya se puede indicar el número y el título del cuadro de la siguiente manera:
CUADRO 2.1 PRODUCTO BRUTO INTERNO, POR RAMA DE LA
ACTIVIDAD ECONÓMICA, SEGÚN AÑO: 2000-07.
Observación:
- Hay una reciprocidad entre el título y lo que aparece después de él, pues
el ¿cómo? del título permite ubicar las variables en el encabezamiento y
en la columna matriz; y viceversa, observando las variables en el
encabezamiento y en la columna matriz se puede poner el título.
- Cuando en el título del cuadro no se indica el lugar de observación,
significa que corresponde al país.
- La ubicación de variables en el encabezamiento y en la columna matriz
es indistinto, depende del criterio del investigador, pudiendo ser éstas de
cualquiera de los tipos definidos.
- Si los años observados son consecutivos, se recomienda colocar 2000-07
y si sólo son dos años, indicar 2000 y 2007.
Encabezamiento.- es la parte del cuadro que contiene las variables que
aparecen en el título después de la preposición “POR” y sus
correspondientes categorías o rangos, generando las columnas del mismo.
Recomendaciones:
- Colocar en la primera línea qué se va observar y el POR, preferentemente
cuando se esta diseñando cuadros preliminares para un estudio.
- Indicar en forma breve y precisa las variables (con mayúsculas) y sus
categorías o rangos (con mayúscula y minúsculas).
52
- Escribir preferentemente en forma horizontal o en forma vertical letra por
letra de arriba hacia abajo.
- Según sea el caso, ordenar las columnas tomando en cuenta un
ordenamiento: natural, geográfico, importancia o alfabético.
- Si hay que indicar unidad de medida, colocarla con mayúsculas y
minúsculas encima del encabezamiento después del título o en su primera
línea (si todos los valores del cuerpo del cuadro van a representar lo
mismo) y/o en cada columna (si las unidades de medida son distintas).
Ejemplo.Para el Cuadro 2.1, antes indicado, el encabezamiento es:
Agricultura
P.B.I., POR RAMA DE LA ACTIVIDAD ECONÓMICA (Millones de nuevos soles)
Pesca Minería Industria Electicidad Construcción Comercio Servicios
Total
Columna Matriz.- es la parte del cuadro que contiene las variables que
aparecen en el título después de la palabra “SEGÚN” y sus correspondientes
categorías o rangos, generando las filas del mismo.
Recomendaciones:
- Indicar en forma breve y precisa las variables a la altura del
encabezamiento (con mayúsculas) y debajo sus categorías o rangos al
lado del cuerpo del cuadro (con mayúscula y minúsculas).
- Escribir preferentemente en forma horizontal. Si hay más de una
variable, diferenciar las categorías con subrayado y/o negrita.
- Según sea el caso, ordenar las columnas tomando en cuenta un
ordenamiento: natural, geográfico, importancia o alfabético.
- Si hay que indicar unidad de medida, colocarla en la fila correspondiente.
- Cada cierto número de filas dejar espacio en blanco para no cansar al
lector.
Cuerpo.- es la parte del cuadro formada por casillas o celdas (resultado de
la intersección de filas y columnas) donde aparecen los resultados de los
conteos efectuados con los datos recogidos.
Recomendaciones:
- Ninguna casilla debe quedar vacía, debe contener un valor o indicación.
53
- Usar algunos signos convencionales:
Resultado nulo o no existe el fenómeno (-).
Cifra aún no disponible (…).
Cantidad inferior a la mitad de la unidad adoptada: 0, 0.0, 0.00, etc.
Dato provisional (P).
Cifra estimada (E).
Cifra revisada (R).
Pie.- es la parte inferior del cuadro, donde se colocan las notas, llamadas y
la fuente de los datos. Es recomendable, no abusar en el uso de notas y
llamadas; así mismo ordenarlas alfabética y numéricamente.
Notas.- Son aclaraciones breves referidas a algún aspecto general del título
del cuadro o definición de alguna variable. Se efectúa colocando en el
margen izquierdo, de la primera línea del pie, la palabra Nota: detallando lo
que se desea aclarar.
Llamadas.- son aclaraciones específicas referidas a una fila o columna.
Según el INEI (2006) “La llamada se indica con una barra oblicua “/”
siendo antecedida por una letra o un número. Se ubica a la derecha de lo que
se desea aclarar”. Si la aclaración esta referida a una categoría textual, usar
un número; y si la aclaración se refiere a un rango o número, usar una letra.
Según el INEI (2006) “Las llamadas deben ubicarse al pie del cuadro,
inmediatamente después de la nota, si hubiera. Se ubica primero las
“llamadas-números” de menor a mayor y luego las “llamadas-letras” en
orden alfabético”.
Fuente.- cuando los datos son obtenidos de una fuente secundaria se
recomienda indicar al “dueño” de la información (principio de cortesía y
respeto al autor) bajo la forma de una ficha bibliográfica (autor o entidad,
año, título de la publicación, edición, editorial, páginas y lugar). Es
recomendable aun cuando se haya efectuado algunas elaboraciones, ya que
el usuario puede recurrir a la fuente primigenia para cualquier consulta.
54
Igualmente, si la información se ha obtenido de alguna página web y para
que el lector pueda recurrir a esa fuente, indicar los elementos centrales de
una referencia web (autor o entidad, año, título de la publicación, país,
fecha de consulta y la página web donde está disponible).
Si no se indica fuente, se asume que los datos son del autor (persona o
entidad) que los publica. En el caso de pertenecer a una entidad grande, se
indica el área de Elaboración (gerencia o dirección) para poder acudir
directamente a ellos de requerirse.
En caso de haber efectuado algunas modificaciones o reagrupamientos a la
información presentada por algún productor de información, se recomienda
indicar la Fuente y Elaboración.
El diseño del cuadro 2.1 propuesto en el ejemplo queda así:
CUADRO 2.1 P.B.I., POR RAMAS DE LA ACTIVIDAD ECONÓMICA, SEGÚN AÑOS: 2000 - 08
AÑOS
Agricultura
P.B.I., POR RAMAS DE LA ACTIVIDAD ECONÓMICA (MILLONES DE NUEVOS SOLES)
Pesca Minería Industria Electicidad Construcción Comercio Servicios
Total
2000
2001
2002
2003
2004
2005
2006
2007
Fuente: Instituto Nacional de Estadística e Informática.
Aspectos complementarios.Si el cuadro se extiende es recomendable hacerlo verticalmente y se debe
poner en la parte inferior derecha de la primera página la indicación
(Continúa …. . En la página siguiente se debe indicar el título del cuadro y
luego escribir a la izquierda …. Continuación), repetir el encabezamiento y
en la columna matriz continuar con las categorías o intervalos que siguen
hasta que se concluya el cuadro, en cuyo caso en la parte superior izquierda
se coloca …. Conclusión).
55
c) Tipos de cuadro.- según el número de variables que se presentan, los cuadros
pueden ser unidimensionales (se presenta una sola variable), bidimensionales
(se presentan dos variables) y multidimensionales (se presentan más de dos
variables).
d) Formas de obtención.Habiendo definido una base de datos, la forma más sencilla de obtener cuadros
estadísticos es con el SPSS, ya que tiene la ventaja de reconocer las etiquetas
(texto) para variables categóricas (codificadas numéricamente). Con los otros
programas también se obtiene cuadros, sólo que hay que efectuar previamente
recodificaciones de valores numéricos a texto.
Veamos la obtención de un cuadro bidimensional con las variables hobby (en
las filas) y sexo (en las columnas) con SPSS y luego con Minitab.
En SPSS:
De la barra de menú escoger Analizar → Estadísticos descriptivos → Tabla
de contingencia, aparece la ventana de diálogo de la Figura 2.2.
Figura 2.2 Obtención de un cuadro bidimensional con SPSS
56
Entre las variables que aparecen al lado izquierdo, hacer clic sobre la variable
HOBBY e ingresarla debajo del recuadro Filas haciendo clic en el botón
,
luego hacer clic sobre la variable SEXO e ingresarla debajo del recuadro
Columnas haciendo clic en el botón
.
Si hacemos clic en el botón Casillas se abre la ventana de diálogo de la Figura
2.3, en la que se escoge que debe aparecer en las casillas.
Figura 2.3 Mostrar en las casillas
Por defecto, en Frecuencias aparece un check en el recuadro
Observadas y
la tabla va mostrar en las Casillas, los resultados del conteo (número de casos).
En Porcentajes, los recuadros al costado de Fila, Columna y Total aparecen
sin check.
Si hacemos clic al costado de
Fila, el programa saca porcentaje sobre el total
de casos en cada fila, de modo tal que en el cuadro los totales de fila van a
sumar 100%. Del mismo modo, si hacemos clic al costado de
Columna, el
programa saca porcentaje sobre el total de casos en cada columna, de modo tal
que en el cuadro los totales de columna van a sumar 100%. Finalmente si
hacemos clic al costado de
Total, el programa saca porcentaje sobre el total
de casos, de modo tal que en el cuadro la suma de los porcentajes de todas las
casillas es el 100%.
57
Queda a criterio del investigador escoger lo que desea: sólo frecuencias
observadas (número de casos), sólo alguno de los porcentajes, o cualquier
combinación de frecuencias observadas y/o porcentajes (incluyendo los cuatro
a la vez, sólo que para el análisis hay que tener mucho cuidado).
Escogido lo que va aparecer en las casillas, hacer clic en Continuar, regresa a
la Figura 2.2, para terminar el cuadro hacer clic en Aceptar.
Veamos algunos resultados:
Si para las casillas escogemos sólo frecuencias
Observadas, el cuadro de
salida es el siguiente:
Tabla de contingencia HOBBY * SEXO
Recuento
HOBBY
Deportes
Mus ica
Baile
TV / Cine
Otros
Total
SEXO
Hombre
Mujer
14
1
14
13
1
3
4
8
0
2
33
27
Total
15
27
4
12
2
60
Haciendo doble clic sobre el cuadro de salida anterior se pueden hacer
algunos arreglos de presentación y copiarlo en Excel o Word. Pudiendo
presentarse así:
CUADRO 2.2 ALUMNOS DE ESTADÍSTICA BÁSICA, DE LA FCEUNAC, POR SEXO, SEGÚN HOBBY: 09-A
SEXO
HOBBY
Hombre
Mujer
Total
Deportes
14
1
15
Música
14
13
27
Baile
1
3
4
TV / Cine
4
8
12
Otros
0
2
2
Total
33
27
60
Fuente: Base de datos del curso de Estadística Básica
58
Si para las casillas escogemos frecuencias
hacemos clic en
Observadas y en porcentajes
Fila, el cuadro de salida es el siguiente:
Tabla de contingencia HOBBY * SEXO
HOBBY
Deportes
Recuento
% de HOBBY
Recuento
% de HOBBY
Recuento
% de HOBBY
Recuento
% de HOBBY
Recuento
% de HOBBY
Recuento
% de HOBBY
Musica
Baile
TV / Cine
Otros
Total
SEXO
Hombre
Mujer
14
1
93.3%
6.7%
14
13
51.9%
48.1%
1
3
25.0%
75.0%
4
8
33.3%
66.7%
0
2
.0%
100.0%
33
27
55.0%
45.0%
Total
15
100.0%
27
100.0%
4
100.0%
12
100.0%
2
100.0%
60
100.0%
Cuadro que también se puede editar. En cada casilla se aprecia el mismo
número de casos anterior, ahora acompañado del porcentaje sobre el total de
cada fila. Así, en la segunda fila hay 27 alumnos (100%) cuyo hobby es la
música, de los cuales 14 (51.9%) son hombres y 13 (48.1%) son mujeres.
Si para las casillas sólo se escoge en porcentajes
Columna, el cuadro de
salida es el siguiente:
Tabla de contingencia HOBBY * SEXO
% de SEXO
HOBBY
Total
Deportes
Mus ica
Baile
TV / Cine
Otros
SEXO
Hombre
Mujer
42.4%
3.7%
42.4%
48.1%
3.0%
11.1%
12.1%
29.6%
7.4%
100.0%
100.0%
Total
25.0%
45.0%
6.7%
20.0%
3.3%
100.0%
Sobre los mismos 60 alumnos, se puede apreciar que del total de hombres
(33 alumnos = 100.0%) el 42.4% gustan de los Deportes, otro 42.4%
Música, el 3.0% Baile y el 12.1% TV/Cine. Análisis similar se hace para
mujeres y para el total de alumnos.
59
Si para las casillas sólo se escoge en porcentajes
Total, el cuadro de
salida es el siguiente:
Tabla de contingencia HOBBY * SEXO
% del total
HOBBY
Total
Deportes
Mus ica
Baile
TV / Cine
Otros
SEXO
Hombre
Mujer
23.3%
1.7%
23.3%
21.7%
1.7%
5.0%
6.7%
13.3%
3.3%
55.0%
45.0%
Total
25.0%
45.0%
6.7%
20.0%
3.3%
100.0%
Aquí los porcentajes en cada Casilla, se obtienen haciendo a los 60 alumnos
como el 100%.
En Minitab:
De la barra de menú escoger Stat → Tables → Descriptive Statistics aparece
la ventana de diálogo de la Figura 2.4.
Figura 2.4 Obtención de un cuadro bidimensional con Minitab
De las variables que aparecen al lado izquierdo, hacer clic sobre la variable
hobby que va ir en las filas (rows) e ingresarla en el recuadro en blanco al
60
costado de For rows: haciendo clic en el botón Select, luego hacer clic sobre
la variable sexo que va ir en las columnas (columns) e ingresarla al costado de
For columns: haciendo clic en el botón Select.
Si hacemos clic en el botón Categorical variables… se abre la ventana de
diálogo de la Figura 2.5, en la que se escoge que debe aparecer en las casillas,
de manera similar al SPSS.
Figura 2.5 Escoger qué mostrar en las casillas con el Minitab
Por defecto, en Display aparece un check en el recuadro
Count y la tabla va
mostrar en las Casillas, los resultados del conteo (número de casos).
Si hacemos clic al costado de
Row percents, el programa saca porcentajes
sobre el total de casos en cada fila, de modo tal que en el cuadro los totales de
fila van a sumar 100%. Del mismo modo, si hacemos clic al costado de
Column percents, el programa saca porcentajes sobre el total de casos en cada
columna, de modo tal que en el cuadro los totales de columna van a sumar
100%. Finalmente si hacemos clic al costado de
Total percents, el programa
saca porcentaje sobre el total de casos, de modo tal que en el cuadro la suma de
los porcentajes de todas las casillas es el 100%.
Al igual que en el SPSS se tiene que escoger lo que se desea mostrar en las
casillas, escogido lo que va aparecer en las casillas, hacer clic en el botón OK,
regresa a la Figura 2.4, para terminar el cuadro hacer clic en OK.
Veamos algunos resultados:
Si para las casillas escogemos sólo frecuencias
es el siguiente:
61
Count, el cuadro de salida
Tabulated statistics: hobby, sexo
Rows: hobby
1
2
3
4
5
All
Columns: sexo
1
2
All
14
14
1
4
0
33
1
13
3
8
2
27
15
27
4
12
2
60
La tabla obtenida no presenta las etiquetas de las categorías de hobby, ni las
de sexo, por lo que es necesario tenerlas definidas (Ver acápite 1.6
Recodificación de datos en Minitab, Data → Code → Numeric to Text)
antes de sacar el cuadro, algo que no necesita el SPSS ya que las reconoce
automáticamente al definir las variables y sus valores.
Realizada la recodificación de datos para las variables sexo y hobby,
efectuando el proceso anterior obtenemos la siguiente tabla:
Tabulated statistics: hoby, sex
Rows: hoby
Columns: sex
Hombre
Mujer
All
1
14
14
0
4
33
3
1
13
2
8
27
4
15
27
2
12
60
Baile
Deportes
Música
Otros
TV/Cine
All
En la tabla anterior ya aparecen las etiquetas de hobby y sexo recodificadas,
pero la presentación no es muy estética, requiere de un trabajo previo en
Excel, lo que no es necesario para las tablas en SPSS (es mejor trabajarlas
con este programa).
Si para las casillas escogemos
Count y hacemos clic en
el cuadro de salida es el siguiente:
62
Row percents,
Tabulated statistics: hoby, sex
Rows: hoby
Columns: sex
Hombre
Mujer
All
Baile
1
25.00
3
75.00
4
100.00
Deportes
14
93.33
1
6.67
15
100.00
Música
14
51.85
13
48.15
27
100.00
Otros
0
0.00
2
100.00
2
100.00
4
33.33
8
66.67
12
100.00
33
27
60
TV/Cine
All
Cuadro que también se puede editar. En cada casilla se aprecia el mismo
número de casos anterior, ahora acompañado del porcentaje sobre el total de
cada fila. Así, en la tercera fila hay 27 alumnos (100%) cuyo hobby es la
música, de los cuales 14 (51.85%) son hombres y 13 (48.15%) son mujeres.
Veamos ahora rápidamente la obtención de un cuadro tridimensional con las
variables especial(ización) y hobby (en las filas) y sexo (en las columnas) con
SPSS y luego con Minitab.
En SPSS:
De la barra de menú escoger Analizar → Estadísticos descriptivos → Tabla
de contingencia, aparece la ventana de diálogo de la Figura 2.2.
Se ingresa la variable hobby en Filas, sexo en Columnas y especial en Capa
1 de 1. Si desea escoge Casillas para indicar que va aparecer en las mismas,
veamos sólo valores observados. La tabla es la que muestra la Figura 2.5.
La tabla se puede editar haciendo doble clic sobre ella en SPSS o copiarla en
Word y efectuar las modificaciones necesarias. El número y título son:
CUADRO 2.3 ALUMNOS DE ESTADÍSTICA BÁSICA, DE LA FCEUNAC, POR SEXO, SEGÚN ESPECIALIZACIÓN Y HOBBY: 09-A
63
Tabla de contingencia HOBBY * SEXO * ESPECIALIZACIÓN
Recuento
ESPECIALIZACIÓN
Teoría Económica
HOBBY
Gestión Empres arial
Total
HOBBY
Deportes
Musica
TV / Cine
Deportes
Musica
Baile
TV / Cine
Otros
Total
SEXO
Hombre
Mujer
5
0
3
3
0
2
8
5
9
1
11
10
1
3
4
6
0
2
25
22
Total
5
6
2
13
10
21
4
10
2
47
Figura 2.6 Cuadro tridimensional en SPSS
En Minitab:
De la barra de menú escoger Stat → Tables → Descriptive Statistics aparece
la ventana de diálogo de la Figura 2.4.
Con las variables recodificadas previamente, se ingresa la variable hoby en
For rows, sexo en For columns y especialización en For layers. Si desea
escoge Categorical variables para indicar que va aparecer en las casillas,
veamos sólo Counts (conteos), OK, OK y los resultados son los siguientes:
Tabulated statistics: hoby, sex, especialización
Results for especialización = Gestión Empresarial
Rows: hoby
Columns: sex
Hombre
Mujer
All
1
9
11
0
4
25
3
1
10
2
6
22
4
10
21
2
10
47
Baile
Deportes
Música
Otros
TV/Cine
All
Cell Contents:
Count
Results for especialización = Teoría Económica
Rows: hoby
Columns: sex
64
Baile
Deportes
Música
Otros
TV/Cine
All
Hombre
Mujer
All
0
5
3
0
0
8
0
0
3
0
2
5
0
5
6
0
2
13
Para obtener tablas en Excel es necesario recurrir a Tabla dinámica que se
encuentran el menú Insertar. Veamos el procedimiento para una tabla
bidimensional con las variables hobby en filas y sexo en columnas.
En las columnas A, B y C se ha copiado las variables sexo, hobby y especial
con las etiquetas de sus categorías, entre las filas 1 y 61, las mismas que están
en la base de datos de los alumnos de Estadística Básica 09-A del Anexo. Al
hacer clic en Tabla dinámica aparece la ventana de diálogo Crear tabla
dinámica que aparece en la Figura 2.7.
Figura 2.7 Creando tabla dinámica en Excel
En Seleccione los datos que desea analizar, marcar Seleccione una tabla o
rango e indicar en Tabla o rango: los valores a analizar sombreando los
datos de la hoja de cálculo desde A1 hastaC61 y automáticamente aparece lo
indicado en la Figura 2.7. En elija dónde desea colocar el informe de la tabla
dinámica, elegir Hoja de cálculo existente e indicar Ubicación: aquí celda E2.
Luego hacer clic en Aceptar y aparece una estructura de tabla.
65
A continuación,
arrastrar la variable HOBBY, que aparece en el lado
derecho, sobre el mensaje Coloque campos de fila aquí; del mismo modo
arrastrar la variable SEXO sobre el mensaje Coloque campos de columna
aquí. Al volver a arrastrar la variable SEXO sobre el Cuerpo del cuadro en
el mensaje Coloque datos aquí, se obtiene la tabla dinámica requerida con el
resultado de los conteos visto en las tablas anteriores (ver Figura 2.8).
Figura 2.8 Tabla dinámica para Sexo y Hobby en Excel
Para obtener porcentajes sobre las filas, las columnas o el total como en SPSS
y Minitab, se debe arrastrar nuevamente la variable de conteo (SEXO) en
el Cuerpo del cuadro, sobre el área de lo que fue el mensaje Coloque datos
aquí. En las filas aparece Cuenta de SEXO y Cuenta de SEXO2. Al hacer
doble clic sobre Cuenta de SEXO2, aparece la ventana de diálogo
Configuración de campo de valor, hacer clic en el botón Mostrar valores
como aparece Normal, hacer clic en la flecha de selección
y se puede
escoger el porcentajes sobre las filas, las columnas o el total, al escoger el %
de la columna y Aceptar, aparece el cuadro de la Figura 2.9.
66
Figura 2.9 Tabla dinámica para Sexo y Hobby con porcentajes en Excel
Si se quiere obtener un cuadro tridimensional arrastrar la variable
ESPECIALIZACIÓN en las filas sobre HOBBY y aparece la tabla dinámica de
la Figura 2.10, donde haciendo doble clic sobre Cuenta de SEXO2 se ha
escogido mostrar valores como % de la fila.
Figura 2.10 Tabla dinámica para Sexo, Especialización y Hobby en Excel
67
Se reafirma nuevamente que el SPSS arroja una mejor presentación.
Para obtener tablas con el programa R, primero se definen las variables como
objetos. Tal como se plantea en el acápite 1.7 Manipulación de archivos, leída
la base de datos como caso2, al escribir >attach(caso2) y efectuar enter, se
identifican las variables con el nombre en el encabezado. También se pueden
crear las variables como objetos, separándolos con punto y coma, así:
> hobby=caso2[,16] ; sexo=caso2[,2] ; especialización=caso2[,20]
La tabla bidimensional con la variable hobby en las filas y sexo en las
columnas, se obtiene así:
> table(hobby,sexo)
sexo
hobby
1
2
1 14
1
2 14 13
3
1
3
4
4
8
5
0
2
Resultado idéntico al del Minitab, es necesario definir las etiquetas de hoby
y sexo.
La tabla tridimensional con la variable especial (especialización) y hobby en
las filas y sexo en las columnas, se obtiene así:
> table(hobby,sexo,especial)
, , especial = 1
sexo
hobby
1
2
1
5
0
2
3
3
3
0
0
4
0
2
5
0
0
68
, , especial = 2
sexo
hobby
1
2
1
9
1
2 11 10
3
1
3
4
4
6
5
0
2
Vamos a definir en R las etiquetas de las categorías correspondientes a las
variables sexo, hobby y especialización de la siguiente manera:
> caso2=transform(caso2, sexo=factor(sexo, labels=c("Hombres","Mujeres")))
> caso2=transform(caso2, hobby=factor(hobby, labels=c("Deporte","Música",
"Baile", "TV/Cine","Otro")))
> caso2=transform(caso2, especial=factor(especial, labels=c("Teoría Económica",
"Gestión Empresarial")))
Para que se reconozcan las nuevas variables con sus etiquetas escribir:
> attach(caso2)
Obtenemos las tablas anteriores de la siguiente manera:
> t1=table(hobby,sexo)
> t1
sexo
hobby
Hombres Mujeres
Deporte
14
1
Música
14
13
Baile
1
3
TV/Cine
4
8
Otro
0
2
> prop.table(t1)
sexo
hobby
Hombres
Mujeres
Deporte 0.23333333 0.01666667
Música
0.23333333 0.21666667
69
Baile
0.01666667 0.05000000
TV/Cine 0.06666667 0.13333333
Otro
0.00000000 0.03333333
Sea t2 la tabla tridimensional:
> t2=table(hobby,sexo,especial)
> t2
, , especial = Teoría Económica
sexo
hobby
Hombres Mujeres
Deporte
5
0
Música
3
3
Baile
0
0
TV/Cine
0
2
Otro
0
0
, , especial = Gestión Empresarial
sexo
hobby
Hombres Mujeres
Deporte
9
1
Música
11
10
Baile
1
3
TV/Cine
4
6
Otro
0
2
> prop.table(t2)
, , especial = Teoría Económica
sexo
hobby
Hombres
Mujeres
70
Deporte 0.08333333 0.00000000
Música
0.05000000 0.05000000
Baile
0.00000000 0.00000000
TV/Cine 0.00000000 0.03333333
Otro
0.00000000 0.00000000
, , especial = Gestión Empresarial
sexo
hobby
Hombres
Mujeres
Deporte 0.15000000 0.01666667
Música
0.18333333 0.16666667
Baile
0.01666667 0.05000000
TV/Cine 0.06666667 0.10000000
Otro
0.00000000 0.03333333
Para conservar los valores originales en la base de datos caso2 y poner etiquetas,
se debe cambiar el nombre de la variable.
> caso2=transform(caso2, colegio.proc=factor(col.proc, labels=c("Estatal", "No
Estatal")))
> attach(caso2)
NOTA.- Un caso particular de los cuadros estadísticos son las denominadas
Tablas de Frecuencias (que veremos en el acápite siguiente) que son cuadros
unidimensionales, es decir, con una sola variable acompañada por lo general de
los resultados del conteo y porcentajes.
71
2.3 DISTRIBUCIÓN DE FRECUENCIAS
La información obtenida puede provenir de un censo o de una muestra. Los
resultados observados los podemos representar de la siguiente manera:
Las variables, con las últimas letras mayúsculas del alfabeto: X, Y, Z, etc. o
con algunas siglas que las abrevia el investigador o propias de algunas
disciplinas como en la economía: PBI (Producto Bruto Interno), M
(importaciones), etc.; en salud: IMC (Índice de Masa Corporal), etc.
Los subíndices, con las letras minúsculas: i, j, k, l, m, t, etc. representan
números enteros y sirven para diferenciar las unidades de análisis (U.A.) a
quienes corresponde el valor que toma la variable.
Con Xi representamos el valor de la variable X observado en laU.A. i-ésima.
Por ejemplo, si en la base de datos de los alumnos de Estadística Básica 09-A,
ver en el Anexo, X = Peso de los alumnos, entonces:
Xi = Peso del alumno i-ésimo de Estadística Básica 09-A; i = 1, 2, 3, …., 60.
X40 = 70 Kg., es el peso del alumno 40 o valor observado 40 de la variable.
Veamos las diferentes formas de presentación de datos.
DATOS SIN AGRUPAR:
Población: X1, X2, X3, …. , XN (N = tamaño de la población)
Muestra: X1, X2, X3, …. , Xn (n = tamaño de la muestra)
En la base de datos de los 60 alumnos de Estadística Básica 09-A, se tiene
información de 19 variables estudiadas, tanto cualitativas como cuantitativas.
DATOS AGRUPADOS:
a) Tabla de Frecuencia para Datos Cualitativos.- en este tipo de tablas se
indican los atributos o categorías de la variable, acompañadas del número (ni),
la proporción (hi), y/o el porcentaje (100 hi), de unidades de análisis (U.A.).
Su estructura es:
Nº de Clase Categoría de
(i)
la variable
1
Atributo 1
2
Atributo 2
….
….
k
Atributo k
Total
Nº de U.A.
(ni)
n1
n2
….
nk
n
U.A. = unidades de análisis.
72
Proporción
de U.A (hi)
h1
h2
….
hk
1
% de U.A.
(100 hi)
p1
p2
….
pk
100%
Tal como se presenta en el acápite anterior, veamos la obtención de una tabla
de frecuencias por ejemplo, para la variable hobby en SPSS: Analizar →
Estadísticos descriptivos → Frecuencias. Inmediatamente se abre la ventana
de diálogo de la Figura 2.11.
Figura 2.11 Obtención de tablas de frecuencias en SPSS
De las variables al lado izquierdo escogemos hobby, haciendo doble clic o clic
en el botón
la ingresamos en Variables, luego Aceptar y se obtiene los
resultados del Cuadro 2.4 editado en spss haciendo doble clic.
CUADRO 2.4 ALUMNOS DE ESTADÍSTICA BÁSICA 2009-A, DE LA
FCE-UNAC, SEGÚN HOBBY
HOBBY
Deportes
Musica
Baile
TV / Cine
Otros
Total
ALUMNOS
15
27
4
12
2
60
% DE
ALUMNOS
25.0
45.0
6.7
20.0
3.3
100.0
Un cuadro similar se puede obtener con el Minitab si se tiene previamente
etiquetadas las categorías de la variable hobby, de la siguiente manera: Stat →
Tables → Tally Individual Variables … Escoger la variable hobby y Select
73
para que ingrese en Variables. En display, por defecto aparece
Counts,
marcar también Percents, luego OK y aparecen los resultados del Cuadro 2.4.
Tally for Discrete Variables: hoby
hoby
Baile
Deportes
Música
Otros
TV/Cine
N=
Count
4
15
27
2
12
60
Percent
6.67
25.00
45.00
3.33
20.00
También en R, estando etiquetadas las categorías de la variable hobby,
attachada la base de datos y usando table obtenemos lo mismo, así:
> caso2=transform(caso2, hoby=factor(hobby, labels=c("Deporte", "Música",
"Baile", "TV/Cine","Otro")))
> attach(caso2)
> table(hoby)
hoby
Deporte
Música
15
27
Baile TV/Cine
4
Otro
12
2
b) Tabla de Frecuencias para Datos Cuantitativos Discretos.- la variable
discreta toma valores en un rango pequeño (por ejemplo: número de hijos,
número de dormitorios en la vivienda, etc.). Para su resumen en la presentación
se indican esos pocos valores de la variable
(Xi) acompañados de las
siguientes frecuencias en las columnas:
Frecuencias absolutas o repeticiones = ni = Nº de unidades de análisis
(U.A.) que toman el valor Xi (resultado del conteo).
Frecuencia relativa = (hi) = Proporción de U.A. que toman el valor Xi .
pi = 100 hi = Porcentaje de U.A. que toman el valor Xi .
Frecuencia absoluta acumulada o repeticiones acumuladas = Ni = Número
acumulado de U.A. que toman el valor Xi o menos.
Frecuencia relativa acumulada = Hi = la proporción acumulada de U.A. que
toman el valor Xi o menos.
Pi = 100 Hi = porcentaje acumulado U.A. que toman el valor Xi o menos.
74
La estructura general de este tipo de tablas es la que se muestra a continuación,
cuando se efectúan presentaciones reales de datos sólo se muestran algunos
elementos de esta estructura.
Clase
(i)
Valores
(X i)
Nº de
U.A.
(n i)
Proporc.
U.A.
(h i)
% U.A.
pi = 100 h i
Nº
Acum
U.A.
(N i)
Prop.
Acum.
U.A.
(H i)
% Acum.
U.A.
P i =100H i
1
2
….
k
X1
X2
….
Xk
n1
n2
….
nk
h1
h2
….
hk
p1
p2
….
pk
N1
N2
….
Nk =
n
H1
H2
….
Hk = 1
P1
P2
….
Total
n
1
100%
Donde: Ni = Ni - 1 + ni ,
hi = ni / n = Hi - Hi - 1 ,
Pk =
100%
Hi = Ni / n = Hi - 1 + hi
Tal como se presenta en el acápite anterior, veamos la obtención de una tabla
de frecuencias por ejemplo, para la variable número de miembros en la familia
mie.fam en SPSS: Analizar → Estadísticos descriptivos → Frecuencias.
Inmediatamente se abre la ventana de diálogo de la Figura 2.11.
De las variables al lado izquierdo escogemos mie.fam, haciendo doble clic o
clic en el botón
la ingresamos en Variables, luego Aceptar y se obtiene
los resultados del Cuadro 2.5 editado en spss haciendo doble clic.
CUADRO 2.5 ALUMNOS DE ESTADISTICA BASICA 2009-A, DE LA
FCE-UNAC, SEGÚN EL NÚMERO DE MIEMBROS EN LA FAMILIA
MIEMBROS EN
LA FAMILIA
2
3
4
5
6
7
8
9
Total
Alumnos
2
5
11
27
8
5
1
1
60
75
% de
Alumnos
3.3
8.3
18.3
45.0
13.3
8.3
1.7
1.7
100.0
Porcentaje
acumulado
3.3
11.7
30.0
75.0
88.3
96.7
98.3
100.0
Tabla que trabajada en Excel, queda con las frecuencias indicadas a
continuación:
Alumnos
(ni)
Proporción
alumnos
(hi)
Porcentaje
alumnos
(p i = 100 h i)
Nº acum.
alumnos
(Ni)
Prop. acum.
alumnos
(Hi)
2
3
4
2
5
11
0.033
0.083
0.183
3.3%
8.3%
18.3%
2
7
18
0.033
0.117
0.300
5
6
7
8
9
Total
27
8
5
1
1
60
0.450
0.133
0.083
0.017
0.017
1.000
45.0%
13.3%
8.3%
1.7%
1.7%
100.0
45
53
58
59
60
0.750
0.883
0.967
0.983
1.000
Miembros en la
Familia (X i)
En esta tabla se puede interpretar que:
n4 = 27, hay 27 alumnos con 5 miembros en su familia cada uno.
h3 = 0.183, 18.3% de los alumnos tienen 4 miembros en su familia cada uno.
N5 = 53, hay 53 alumnos con 6 o menos miembros en su familia cada uno.
H4 = 0.75, 75% de los alumnos tienen 5 o menos miembros en su familia cada
uno.
Un cuadro similar se puede obtener con el Minitab de la siguiente manera:
Staat → Tables → Tally Individual Variables … Escoger la variable
mie.fam y Select para que ingrese en Variables. En display, por defecto
aparece
Counts, marcar también Percents, Cumulative counts y
Cumulative percents, luego OK y aparecen los resultados del Cuadro 2.5, tal
como se aprecia a continuación:
Tally for Discrete Variables: mie.fam
mie.fam
2
3
4
5
6
7
8
9
N=
Count
2
5
11
27
8
5
1
1
60
CumCnt
2
7
18
45
53
58
59
60
Percent
3.33
8.33
18.33
45.00
13.33
8.33
1.67
1.67
CumPct
3.33
11.67
30.00
75.00
88.33
96.67
98.33
100.00
También en R, estando attachada la base de datos y usando table obtenemos lo
mismo, así:
76
> attach(caso2)
> table(mie.fam)
mie.fam
2
3
4
5
6
7
8
9
2
5 11 27
8
5
1
1
c) Tabla de Frecuencias con intervalos para Datos Cuantitativos.- en este
caso tanto la variable discreta como la continua toma valores en un rango
relativamente grande y para su resumen hay que construir intervalos de clase,
para lo cual se debe seguir los siguientes pasos:
Determinar el Rango (R) de la variable: como la diferencia entre el valor
máximo y mínimo de la variable.
R = Xmáx – Xmín = {X / Xmín ≤ X ≤ Xmáx}
Determinar el número de intervalos (k) con algún criterio del investigador
o usando fórmulas como la de Sturges: k = 1 + 3.32 log10 N = 1 + log 2 N
Tomar el valor de k redondeado (donde N es el número de observaciones
en la población y si es n número de observaciones en la muestra).
Hallar el ancho o amplitud (C) del intervalo: C = R/k,
Tomar el valor de C redondeado con un determinado número de decimales,
en función de las unidades de la variable.
Construir los k intervalos de clase, desde un límite inferior (LI) hasta un
límite superior (LS): LIi
-
LSi
Intervalo 1
:
[Xmín
-
Xmín + C)
Intervalo 2
:
[Xmín + C
-
Xmín + 2C)
Intervalo 3
:
[Xmín + 2C
-
Xmín + 3C)
Intervalo k – 1
:
[Xmín + (k – 2)C
-
Xmín + (k – 1)C)
Intervalo k
:
[Xmín + (k – 1)C
-
Xmín + kC]
…………..
Obtener las marcas de clase (Xi) como los valores representativos de la
clase, mediante la semisuma de los límites superior e inferior de la clase
correspondiente:
Xi
LI i
LSi
2
77
, i = 1, 2, …., k
En la presentación de la distribución de frecuencias de la variable X, se indican
los intervalos de clase [LIi - LSi), las marcas de clase (Xi) acompañadas de las
siguientes frecuencias en las columnas:
Frecuencias absolutas o repeticiones = ni = Nº de unidades de análisis
(U.A.) en el intervalo i (resultado del conteo).
Frecuencia relativa = (hi) = Proporción de U.A. en el intervalo i.
pi = 100 hi = Porcentaje de U.A. en el intervalo i.
Frecuencia absoluta acumulada o repeticiones acumuladas = Ni = Número
acumulado de U.A. hasta el límite superior i (LSi).
Frecuencia relativa acumulada = Hi = la proporción acumulada de U.A.
hasta el límite superior i (LSi).
Pi = 100 Hi = porcentaje acumulado U.A. hasta el límite superior i (LSi).
Su estructura es:
Clase Intervalo
(i)
LIi - LSi
1
2
….
k
LI1 -LS1
LI2 –LS2
….
LIk –LSk
Marca
clase
(X i)
Nº de
U.A.
(n i)
Proporc.
U.A.
(h i)
% U.A.
pi =
100 h i
#
Acum
U.A.
(N i)
Prop.
Acum.U.A.
(H i)
% Acu.
Pi =
X1
X2
….
Xk
n1
n2
….
nk
h1
h2
….
hk
p1
p2
….
pk
N1
N2
….
Nk = n
H1
H2
….
Hk = 1
P1
P2
….
n
1
100%
Total
100 H i
Pk =
100%
Donde: N1 = n1, Ni = Ni - 1 + ni , hi = ni / n , H1 = h1 , Hi = Ni / n = Hi - 1 + hi
Vamos a obtener una tabla de frecuencias, con k = 5 intervalos, para los pesos
de los alumnos de Estadística Básica 2009-A, cuyos datos aparecen en el
Anexo y de manera ordenada se muestran en el Cuadro 2.6 siguiente:
CUADRO 2.6. PESOS (Kg.) DE LOS 60 ALUMNOS DE ESTADISTICA BÁSICA 09-A UNAC
44
50
53
57
65
70
45
50
53
59
66
72
46
50
53
60
66
72
46.5
50.5
54
60
67
75
47
51
55
63
67
75
48
51
55
63
68
77
48
52
55
64
68
80
49
52
55
64
68
80
El rango de los pesos es R = Xmáx – Xmín = 88 – 44 = 44 Kg.
= {X / 44 ≤ X ≤ 88}
78
49
52.6
55
64.5
69
80
50
53
57
65
70
88
Por interés particular, se desean construir k = 5 intervalos.
Los intervalos son de igual amplitud, donde C = R/k = 44 / 5 = 8.8 Kg.
Los intervalos son cerrados por la izquierda y abiertos por la derecha: [44 –
52.8), [52.8 – 61.6), [61.6 – 70.4), [70.4 - 79.2) y [79.2 – 88.0]. El Excel toma
los intervalos abiertos por la izquierda y cerrados por la derecha: (LI - LS].
La tabla completa se ha obtenido en Excel, de la siguiente manera:
En la figura 2.12 se puede apreciar que en la hoja de cálculo de Excel, en la
columna A, se ha copiado los pesos de los 60 alumnos, ocupando las celdas
desde A3 hasta A62. Así mismo, en las columnas D y E se han definido los
límites inferior y superior de clase, ocupando desde la fila 12 a la 16.
Figura 2.12 Obtención de Tabla de Frecuencias en Excel
Para obtener las frecuencias absolutas (ni) en Excel, es necesario sombrear las
celdas donde se deposita el resultado automático de los conteos, que en este
caso es en la columna G, de la celda G12 a la G16, tal como se muestra en la
Figura 2.12. A continuación, con la opción de funciones
del Excel, escoger
dentro de Seleccionar una categoría →Estadísticas → Frecuencia y aparece
la ventana de diálogo de la Figura 2.13 solicitando los Argumentos de la
función Frecuencia: Datos (de la variable peso, que están ubicados de la celda
A3 hasta la A62) sombrear los datos o escribir A3:A62 y en Grupos (indicar
79
los límites superiores de los intervalos, que están en las celdas de E12 hasta
E16).
Figura 2.13 Argumentos de la función Frecuencia
Para terminar no usar Aceptar, sino la combinación de las teclas
MAYUSCULA + Ctrl + Enter, automáticamente aparece el resultado de los
conteos en las celdas de la columna de los ni con los valores 19, 15, 17, 5 y 4.
El resto de columnas se han obtenido usando las fórmulas indicadas en la
estructura general. Los resultados de este proceso se muestran en el cuadro
siguiente:
CUADRO 2.7 DISTRIBUCIÓN DE FRECUENCIAS DE LOS PESOS DE
LOS ALUMNOS DE ESTADÍSTICA BÁSICA 09-A FCE-UNAC
Clase
i
1
2
3
4
5
PESOS (Kg.)
LIi
44.0
52.8
61.6
70.4
79.2
LSi
52.8
61.6
70.4
79.2
88.0
Marca
Prop.
% de
Acum. Prop.Ac. % Acum.
Alum-nos
alumnos alumnos alumnos alumnos alumnos
clase
Xi
ni
hi
100hi
Ni
Hi
100 Hi
48.4
19
0.317
31.7%
19
0.317
31.7%
57.2
15
0.250
25.0%
34
0.567
56.7%
66.0
17
0.283
28.3%
51
0.850
85.0%
74.8
5
0.083
8.3%
56
0.933
93.3%
83.6
4
0.067
6.7%
60
1.000 100.0%
60
1.000 100.0%
En esta tabla se puede interpretar que:
n3 = 17, hay 17 alumnos que pesan entre 61.6 y 70.4 Kg. cada uno.
h2 = 0.250, el 25.0% de los alumnos pesan entre 52.8 y 61.6 Kg. cada uno.
80
N4 = 56, hay 56 alumnos que pesan menos de 79.2 Kg. cada uno.
H3 = 0.85, 85% de los alumnos pesan menos de 70.4Kg. cada uno.
Para obtener Tablas de frecuencias con el Minitab, el SPSS y el R, se tiene que
proceder con la recodificación de datos planteada en el acápite 1.6. Veamos:
En Minitab.De la barra de menú escoger la opción Data, luego Code (código) y Numeric
to text (numérico a texto) porque se desea recodificar valores numéricos en
texto (la denominación de los intervalos). Aparece la ventana de diálogo de la
Figura 2.14.
Figura 2.14 Recodificación de la variable peso en Minitab
En Code data from columns: (código de datos desde las columnas)
seleccionar de las variables a la izquierda peso o escribirla. En Store couded
data in columns: (almacenar datos codificados en la columna) seleccionar de
las variables de la izquierda pesos o escribirla.
A continuación en Original values (valores originales) se va definiendo uno a
uno los intervalos definidos en el Cuadro 2.7, separándolos por dos puntos (:) y
81
en New los nuevos valores en texto para representar los intervalos, tal como se
muestra en la Figura 2.14.
Para finalizar la recodificación hacer clic en OK y en la base de datos (Current
data window) aparecen los datos de pesos (ver Figura 2.15).
Figura 2.15 Variable peso recodificada en pesos (intervalos) con Minitab
Para obtener la tabla de frecuencias proceder de la siguiente manera: Stat →
Tables → Tally Individual Variables … Aparece la ventana de diálogo de la
Figura 2.16. Escoger la variable pesos y Select para que ingrese en Variables.
En display, por defecto aparece
Counts, marcar también Percents,
Cumulative Counts y Cumulative percents,
luego OK y aparecen los
resultados siguientes (similares a los del Cuadro 2.7):
Tally for Discrete Variables: pesos
pesos
44.0 - 52.8
52.8 - 61.6
61.6 - 70.4
Count
19
15
17
CumCnt
19
34
51
82
Percent
31.67
25.00
28.33
CumPct
31.67
56.67
85.00
70.4 - 79.2
79.2 - 88.0
N=
5
4
60
56
60
8.33
6.67
93.33
100.00
Figura 2.16 Obtención de Tabla de Frecuencias en Minitab (variable pesos)
En SPSS.De la barra de menú escoger la opción Transformar, luego hacer clic sobre
Recodificar en distintas variables. Aparece la ventana de diálogo Recodificar
en distintas variables de la Figura 2.17.
Figura 2.17 Recodificando la variable peso en SPSS
83
Escogiendo de la lista de variables que aparecen al lado izquierdo, en Var.
numérica → Var. de resultado: ingresar la variable peso, inmediatamente
aparece peso → ? En Variable de resultado, en Nombre: escribir pesos, en
Etiqueta: escribir PESO (Kg.) y luego hacer clic en el botón Cambiar (si no
hace esto, la recodificación no se realiza después), inmediatamente en Var.
numérica → Var. de resultado: se modifica por peso→ pesos.
Luego, hacer clic en Valores antiguos y nuevos y aparece la ventana de diálogo
Recodificar en distintas variables: Valores antiguos y nuevos de la Figura 2.18.
Figura 2.18 Recodificar Valores antiguos del peso y nuevos de pesos en SPSS
A continuación, en Valor antiguo se va definiendo uno a uno los intervalos
definidos en el Cuadro 2.7, y en Valor nuevo los nuevos valores del intervalo.
Observar que el primer intervalo es para peso entre 44.0 hasta antes de 52.8,
en Valor antiguo, en Rango: se escribe 44.0 hasta 52.79 (de ser necesario se
agregan más nueves en los decimales, para estar más cerca a 52.8) y en Valor
nuevo, en Valor escribir 1, luego hacer clic en añadir. El siguiente intervalo va
de 52.8 hasta antes de 61.6, en Valor antiguo, en Rango: se escribe 52.8 hasta
61.59 y en Valor nuevo escribir 2, luego hacer clic en añadir. Así
sucesivamente, el último intervalo va de 79.8 hasta 88.0, en Valor antiguo, en
84
Rango: se escribe 79.8 hasta 88.0 y en Valor nuevo, en Valor escribir 5, luego
clic en añadir.
Para finalizar la recodificación, al hacer clic en Continuar regresa a la ventana
de la Figura 2.17.
Luego hacer clic en Aceptar y aparece la variable pesos con sus valores del 1 al
5 en la Vista de datos del Editor de datos SPSS.
A continuación, en la Vista de variables, del Editor de datos SPSS, a la variable
pesos se le definen las Etiquetas de valor, en un cuadro de diálogo similar al
de la Figura 1.5. Para ello asignar los valores y etiquetas siguientes: 1, 44.0 –
52.8; 2, 52.8 – 61.6; 3, 61.6 – 70.4; 4, 70.4 – 79.2; y 5, 79.2 – 88.0.
Una vez que termina de añadir los valores y etiquetas hacer clic en Aceptar, en
la Vista de datos, del Editor de datos SPSS aparecen las etiquetas de condición
que se muestran en la Figura 2.14.
Figura 2.19 Resultado de la variable pesos, recodificando el peso en SPSS
Para obtener la tabla de frecuencias ejecutar: Analizar → Estadísticos
descriptivos → Frecuencias. Inmediatamente se abre la ventana de diálogo de
la Figura 2.11.
De las variables al lado izquierdo escogemos pesos, haciendo doble clic o clic
en el botón
la ingresamos en Variables, luego Aceptar y se obtiene los
mismos resultados del Cuadro 2.7 que se muestran a continuación:
85
PESO (Kg.)
PESO (Kg.)
44.0 - 52.8
52.8 - 61.6
61.6 - 70.4
70.4 - 79.2
79.2 - 88.0
Total
Frecuencia
19
15
17
5
4
60
Porcentaje
31.7
25.0
28.3
8.3
6.7
100.0
Porcentaje
acumulado
31.7
56.7
85.0
93.3
100.0
En R.Para crear los intervalos del Cuadro 2.7, estando en la base de datos caso 2, se
procede así:
> caso2=transform(caso2,pesos=cut(peso,breaks=c(43.99, 52.79, 61.59, 70.39,
79.19, 88.0)))
> attach(caso2)
Para visualizar la base de datos caso2 con los intervalos escribir:
> fix(caso2)
En el R Editor de datos aparece la variable pesos con los intervalos definidos,
tal como se muestra en la Figura 2.20.
Figura 2.20 Resultado de la variable pesos, recodificando el peso en R
86
Para obtener la tabla de frecuencias ejecutar:
> table(pesos)
pesos
(44,52.8] (52.8,61.6] (61.6,70.4]
19
15
(70.4,79.2]
17
(79.2,88]
5
4
Los resultados obtenidos son idénticos a los del Cuadro 2.7.
2.4 GRÁFICOS ESTADÍSTICOS
Es una forma de presentación de datos, cuya elaboración requiere necesariamente de
una tabla o cuadro estadístico y mediante el cual se busca que el lector de un golpe de
vista pueda destacar aspectos importantes de la(s) variable(s) en estudio, ya que como
dice el adagio popular “una imagen vale más que mil palabras”.
En esta parte vamos a desarrollar algunas formas de presentación gráfica básica, de tal
manera que permita descripciones importantes de las variables en estudio. En capítulos
posteriores se verá algunas otras formas gráficas propias de los tópicos tratados.
a) Definición.- para Correa y González (2002) “Un gráfico estadístico es una
representación visual de datos estadísticos.” o las distribuciones estadísticas
mediante figuras geométricas, reflejando la relación o comparación fácil entre
las variables en un estudio determinado.
b) Estructura.- las partes de un gráfico estadístico son: número, título, cuerpo,
leyenda y fuente.
Número.- si en un estudio se presenta más de un gráfico hay que
enumerarlos para diferenciarlos. Si el gráfico es único, no es necesario
enumerar. El número se ubica en la parte superior izquierda o central.
Se recomienda anteponer la palabra Gráfico y a continuación colocar el
número (sin la abreviatura Nº previa) que puede ser arábigo o alfanumérico,
seguido de un punto, para luego indicar el título.
Ejemplo: Gráfico 4. ; Gráfico A13. ; etc.
Título.- el título indica de manera clara y precisa el contenido del gráfico.
Se coloca en la parte superior a continuación del número. Su elaboración es
87
similar a la del cuadro a partir del que se construye, por ello ambos títulos
(del cuadro y del gráfico) son idénticos.
Ejemplo: Alumnos de Estadística básica 09-A, según su Hobby.
Cuerpo.- es la parte central del gráfico, representada por lo general en
forma rectangular (en una relación de 1.5 para el largo y como 1 para el
ancho) en la que con algunas representaciones geométricas, acompañadas de
datos y símbolos se busca establecer contrastes de las variables y sus
categorías a través de escalas apropiadas a las magnitudes en estudio.
Se recomienda colocar el título de los ejes, con el nombre de la variable o
sus categorías, indicando la unidad de medida si hubiera. Así mismo, se
debe buscar efectuar diferenciaciones entre los componentes del gráfico
bien mediante colores, tramas, sombreados, etc.
Leyenda.- son aclaraciones respecto a las partes componentes de un gráfico
expresadas a través de lo que representan ciertos colores, tramas, etc. y van
colocados por lo general al costado de gráfico con su indicación de lo que
representan.
Fuente.- al igual que los cuadros, es necesario indicar los elementos
esenciales que permitan identificar a los “dueños” de los gráficos e
información para cualquier consulta mediante una breve Ficha Bibliográfica
o Referencia Web, tal como se indica en la fuente de cuadros estadísticos.
En el caso de ser propio el gráfico, se recomienda indicar la Elaboración.
c) Tipos de gráficos.- al igual que los cuadros estadísticos, los gráficos pueden
ser unidimensionales, bidimensionales o pluridimensionales, según el número
de variables que se presenten.
d) Formas de obtención.- se va a presentar la obtención de estos gráficos
utilizando los programas Excel, Minitab, SPSS y R, los mismos que veremos
para variables cualitativas y cuantitativas, tal como se pase a detallar.
88
2.5 GRÁFICOS DE VARIABLES CUALITATIVAS
Entre los principales gráficos de variables cualitativas tenemos los gráficos de sectores,
el gráfico de barras y el gráfico de Pareto.
a) Gráfico de sectores.- llamado también pie o pastel, es muy apropiado para
representar las categorías de una variable cualitativa en una circunferencia con
particiones proporcionales al número de casos en cada categoría que se busca
representar.
Para efectuar las particiones en la circunferencia se establece la proporcionalidad
tomando en cuenta que los 360º de la circunferencia equivale al total de
observaciones realizadas o el 100% y se efectúa las equivalencias a cada categoría
en grados sexagesimales según el número de observaciones o porcentaje que le
corresponde mediante una regla de tres simple.
Tomemos como referencia la distribución de la variable hobby de los alumnos de
estadística básica 09-A, obtenida en el Cuadro 2.4 siguiente:
Nº DE
% DE
GRADOS
ALUMNOS
ALUMNOS
SEXAGESIMALES
Deportes
15
25.0
90
Música
27
45.0
162
Baile
4
6.7
24
TV/Cine
12
20.0
72
Otros
2
3.3
12
Total
60
100.0
360
HOBBY
Si a los 60 alumnos les corresponde una circunferencia de 360º, la
proporcionalidad que se guarda aquí es de 6º por cada alumno y de este modo a los
15 alumnos que les gusta el deporte les corresponde 15 x 6 = 90º, a los 27 que les
89
gusta la música 27 x 6 = 162º, a los 4 alumnos que les gusta el baile 4 x 6 = 24º, a
los 12 que les gusta TV/Cine 12 x 6 = 72º y a los 2 que les gusta Otros 2 x 6 = 12º.
Con estos datos es que los programas efectúan de modo automático la
representación del pie correspondiente. Veamos.
En Excel:
Seguir la secuencia siguiente: Insertar → Gráficos → Circular → Gráfico 2D,
escoger en Diseños de gráfico (diseño 1) → Seleccionar datos → Rango de datos
del gráfico: indicar las celdas donde se encuentran los datos → en Etiquetas del
eje horizontal (categoría) escoger Editar, en Rango de rótulos de eje: indicar las
celdas donde están los hobbies, Aceptar y para finalizar Aceptar y aparece título
del Gráfico, ponerle el número y el título, tal como se muestra a continuación:
Figura 2.21 Gráfico de sectores en Excel
En SPSS:
Siguiendo el procedimiento para obtener el cuadro 2.4 (Analizar → Estadísticos
descriptivos → Frecuencias) aparece la ventana de la Figura 2.11. Con la
variable hobby ya ingresada, escoger dentro de la opción
Tipo de
gráfico: Gráficos de sectores, en Valores del gráfico: marcar Porcentajes, luego
Continuar, para finalizar Aceptar y en la Ventana de resultados aparece el
gráfico de sectores, con doble clic se ha editado (Ver Figura 2.22).
90
Gráfico 2.1 % DE ALUMNOS DE ESTADÍSTICA BÁSICA 09-A, SEGÚN HOBBY
Deportes
Musica
Baile
TV / Cine
Otros
3,3
%
20,0%
25,0%
6,7%
45,0%
Figura 2.22 Gráfico de Sectores en SPSS
En Minitab:
En el menú escoger Graph → Pie Chart… Aparece la ventana de diálogo Pie
Chart, en Categorial variables: ingresar hoby de la lista de variables a la izquierda,
en Labels… poner número y título del gráfico, OK, y aparece el gráfico de
sectores que se muestra en la Figura 2.23.
Gráfico 2.1 % DE ALUMNOS DE ESTADÍSTICA BÁSICA 09-A, SEGÚN HOBBY
6.7%
20.0%
25.0%
3.3%
45.0%
Figura 2.23 Gráfico de Sectores en Minitab
91
Category
Baile
Deportes
Música
Otros
TV/Cine
En R:
Estando attachada la base de datos obtenemos lo mismo, así:
> attach(caso2)
> pie(table(hoby))
Aparece el gráfico siguiente:
Figura 2.24 Gráfico de Sectores en R
Como se puede apreciar, con sus propios matices, cada uno de los gráficos de
sectores es parecido, por lo que para los otros tipos de gráficos se explicará como
obtenerlos y presentaremos alguno de ellos.
b) Gráfico de barras.- es una representación rectangular en el plano cartesiano,
indicando en el eje de las abscisas (X) la variable con sus categorías y en el eje de
las ordenadas (Y) el número y/o el porcentaje de unidades de análisis que se
presenta.
Veamos la presentación de la variable hobby en gráfico de barras, tomando como
referencia los resultados del Cuadro 2.4.
92
En Excel:
Seguir la secuencia siguiente: Insertar → Gráficos → Columna → Columna en
2D, Columna agrupada, escoger (Estilo 2) → Seleccionar datos → en Rango de
datos del gráfico: indicar las celdas donde se encuentran los datos → en Etiquetas
del eje horizontal (categoría) escoger Editar, en Rango de rótulos de eje: indicar las
celdas donde están los hobbies, Aceptar y para finalizar Aceptar y aparece el
gráfico sin título; no olvidar ponerle el número y el título.
En Minitab:
En el menú escoger Graph → Bar Chart… → escoger Simple. Aparece la
ventana de diálogo Bar Chart – Counts of unique values, Simple. En Categorial
variables: ingresar hoby de la lista de variables a la izquierda, en Labels… poner
número y título del gráfico, OK, y aparece el gráfico de sectores que se muestra en
la Figura 2.25. Este gráfico ha sido editado poniendo la variable con mayúsculas,
colores, etc.
En SPSS:
Siguiendo el procedimiento para obtener el cuadro 2.4 (Analizar → Estadísticos
descriptivos → Frecuencias) aparece la ventana de la Figura 2.7. Con la variable
hobby ya ingresada, escoger dentro de la opción
Tipo de gráfico:
Gráficos de barras, en Valores del gráfico: marcar Porcentajes, luego
Continuar, para finalizar Aceptar y en la Ventana de resultados aparece el gráfico
de sectores, que se puede editar con doble clic.
En R:
Estando attachada la base de datos, se usa la función barplot así:
> attach(caso2)
> barplot(table(hoby), col=c(3,4,5,6,7), main="GRÁFICO 2.2 ALUMNOS E.B.09-A, SEGÚN HOBBY", xlab="HOBBY", ylab="Alumnos")
A continuación se muestra el gráfico de barra obtenido en Minitab, donde la
presentación parece ser “más representativa”.
93
Gráfico 2.2 ALUMNOS DE ESTADÍSTICA BÁSICA 09-A, SEGÚN HOBBY
30
27
25
Alumnos
20
15
15
12
10
5
4
2
0
Baile
Deportes
Música
HOBBY
Otros
TV/Cine
Figura 2.25 Gráfico de Barras de la variable Hobby en Minitab
c) Gráfico de Pareto.- es un gráfico muy utilizado cuando se quiere mostrar las
categorías más representativas de una variable cualitativa en forma de frecuencia
descendente, a fin de tomar algunas decisiones, como sucede en los controles de
calidad en los que por ejemplo se busca controlar los defectos más importantes (en
un 90 o 95%). Su elaboración se puede obtener con herramientas para el análisis
en Excel y de control de calidad que poseen el Minitab y el SPSS.
En Excel:
Procede sólo si los valores de la variable son numéricos, por lo que utilizaremos
las etiquetas numéricas para hobby (1, 2, 3, 4 y 5). Consideremos que los datos
para los 60 alumnos están en la columna A, entre A2 y A61; y las clases de hobby
(1, 2, 3, 4 y 5) en la columna D, entre D3 y D7, ver Figura 2.26.
Para obtener el gráfico de Pareto, se necesita herramientas para el Análisis
(versiones anteriores de Excel en el menú tenían la opción Herramientas), proceder
así: en la barra de menú Datos → Análisis de datos (ubicado en el extremo
superior derecho) y aparece la ventana de diálogo Análisis de datos de la Figura
2.27.
94
Figura 2.26 Datos de la variable hobby y clase en Excel
Figura 2.27 Herramientas del Análisis de datos en Excel
En la Figura 2.27, de Funciones para análisis escoger Histograma, luego Aceptar
y aparece la ventana de diálogo Histograma de la Figura 2.28.
Figura 2.28 Obteniendo gráfico de Pareto en Excel
95
En la parte de Entrada, de la Figura 2.28, en Rango de entrada: sombrear el área
de los datos de hobby de la Figura 2.26 (desde A3 hasta A62); en Rango de
clases: sombrear el área de CLASE de la Figura 2.26 (desde D3 hasta D7) y se
marca Rótulos si se utilizaran para los dos rangos anteriores.
En Opciones de salida, de la Figura 2.28, indicar donde queremos que salga el
resultado, si es en la misma hoja, marcar Rango de salida: y en el recuadro indicar
la celda a partir de donde queremos que salgan los resultados (H2 aquí); si es En
una hoja nueva: marcar y en el recuadro ponerle nombre; y por último si queremos
En un libro nuevo, marcarlo. Luego marcar Pareto (Histograma ordenado),
marcar Porcentaje acumulado y Crear gráfico. Para finalizar hacer clic en
Aceptar y aparecen los resultados de la Figura 2.29.
Figura 2.29 Gráfico de Pareto de la variable hobby en Excel
96
En Minitab:
En el menú escoger Stat → Quality Tools → Pareto Charts…. Aparece la
ventana de diálogo Pareto Chart . En Chart defects data in: ingresar hoby de la
lista de variables a la izquierda y para finalizar OK y muestra el gráfico.
En SPSS:
En el menú escoger Analizar → Control de calidad → Gráficos de Pareto →
escoger Simple, luego Definir. Aparece la ventana de diálogo Gráfico de Pareto
simple: Recuentos o sumas para grupos de casos.
En eje de categorías: ingresar la variable hobby que aparece en la lista de variables
a la izquierda, en Títulos… indicar el número y título del gráfico, luego
Continuar y finalmente Aceptar, aparece el gráfico de Pareto.
En la Figura 2.30, se muestra el gráfico de Pareto obtenido en Minitab y editado
en sus ejes y colores para las barras de las categorías de hobby.
Gráfico 2.3 Gráfico de Pareto de los alumnos de Estadística Básica 09-A, según Hobby
60
100
50
Alumnos
40
60
30
40
20
20
10
0
Hobby
Count
Percent
Cum %
Música
27
45.0
45.0
Deportes
15
25.0
70.0
TV/Cine
12
20.0
90.0
Baile
4
6.7
96.7
Other
2
3.3
100.0
Figura 2.30 Gráfico de Pareto de la variable Hobby en Minitab
97
0
Porcentaje
80
2.6 GRÁFICOS DE FRECUENCIAS
Entre los principales gráficos de variables cuantitativas tenemos los gráficos de barras,
histograma de frecuencias, polígono de frecuencia y la ojiva.
a) Gráfico de barras para Datos Cuantitativos Discretos.- se usa si la variable
discreta toma valores en un rango pequeño como el número de hijos. Es una
representación rectangular en el plano cartesiano, indicando en el eje de las
abscisas (X) la variable con sus pocos valores y en el eje de las ordenadas (Y) el
número y/o el porcentaje de unidades de análisis que se presenta. La gráfica de
barras se obtiene de manera similar al de la variable cualitativa. Veamos
como queda la presentación de la variable número de miembros en la familia en
gráfico de barras, tomando como referencia los resultados del Cuadro 2.5.
MIEMBROS EN
LA FAMILIA
2
3
4
5
6
7
8
9
Total
Alumnos
2
5
11
27
8
5
1
1
60
% de
Alumnos
3.3
8.3
18.3
45.0
13.3
8.3
1.7
1.7
100.0
Porcentaje
acumulado
3.3
11.7
30.0
75.0
88.3
96.7
98.3
100.0
Figura 2.31 Gráfico de barras de los Miembros de la familia en Excel
98
Gráfico 2.4 % DE ALUMNOS DE ESTADÍSTICA BÁSICA 09-A, SEGÚN
MIEMBROS EN LA FAMILIA
30
Alumnos
20
45,0%
10
18,3%
13,3%
8,3%
8,3%
3,3%
0
2
3
4
5
6
7
1,7%
1,7%
8
9
MIEMBROS EN LA FAMILIA
Figura 2.32 Gráfico de barras de los Miembros de la familia en SPSS
En términos estrictos, la variable número de miembros toma valores enteros y por
lo tanto su gráfico no debería ser una barra sino más bien una línea (“gráfico de
líneas”), el mismo que se puede obtener con el Minitab de la siguiente manera:
En el menú escoger Graph → Bar Chart… → escoger Simple. Aparece la
ventana de diálogo Bar Chart – Counts of unique values, Simple. En Categorial
variables: seleccionar mie.fam de la lista de variables a la izquierda.
A continuación escoja Chart Options… y marcar Show Y as Percent, OK. En
Labels… poner número y título del gráfico; luego seleccionar Data Labels y
marcar la opción Use y-value labels, OK. En Data View… deshabilitar Bars y
marcar Project lines, OK. Para finalizar hacer clic en OK y aparece el gráfico de
de la Figura 2.33 ya editado en el tipo de letra, tamaño de letra, disminución del
número de decimales, color de las líneas, etc.
99
Gráfico 2.4 % de Alumnos de Estadística Básica 09-A, según el Número de miembros en su familia
50
45.0
Percent
40
30
20
18.3
13.3
10
8.3
8.3
3.3
0
2
3
4
5
6
7
1.7
1.7
8
9
Miembros en la familia
Percent within all data.
Figura 2.33 Gráfico de barras de los Miembros de la familia en Minitab
b) Histograma de Frecuencias para Datos Cuantitativos en intervalos.- se usa si
la variable cuantitativa discreta o continua se presenta en intervalos. El Histograma
de Frecuencias es un conjunto de rectángulos (barras) en el plano cartesiano,
indicando en el eje de las abscisas (X) la variable con sus intervalos y en el eje de
las ordenadas (Y) las frecuencias absolutas, relativas o la densidad. La base de los
rectángulos es la amplitud del intervalo (pueden ser de igual o diferente amplitud)
y la altura la frecuencia (absoluta o relativa) o la densidad que alcanza en cada
intervalo.
Para intervalos de igual amplitud, veamos la presentación de la variable peso de
los alumnos de Estadística Básica mediante histograma de frecuencias, tomando
como referencia los resultados del Cuadro 2.7 siguientes:
Clase
1
2
3
4
5
LIi
44.0
52.8
61.6
70.4
79.2
LSi
52.8
61.6
70.4
79.2
88.0
Xi
48.4
57.2
66.0
74.8
83.6
100
ni
19
15
17
5
4
60
hi
0.317
0.250
0.283
0.083
0.067
1.000
En Excel:
El proceso es similar a la construcción del gráfico de Pareto antes visto, es decir,
que se requiere de herramientas para el análisis de datos.
Escoger en la barra de menú Datos → Análisis de datos (ubicado en el extremo
superior derecho) y aparece la ventana de diálogo Análisis de datos. De Funciones
para análisis escoger Histograma, luego Aceptar y aparece la ventana de diálogo
Histograma de la Figura 2.34.
Figura 2.34 Obteniendo el Histograma de peso en Excel
En la parte de Entrada, de la Figura 2.34, en Rango de entrada: sombrear el área
de los datos de peso de la Figura 2.12 (desde A3 hasta A62); en Rango de clases:
sombrear el área de LSi de la Figura 2.12 (desde E12 hasta E16) y se marca
Rótulos si se utilizaran para los dos rangos anteriores.
En Opciones de salida, de la Figura 2.34, indicar donde queremos que salga el
resultado, si es en la misma hoja, marcar Rango de salida: y en el recuadro indicar
la celda a partir de donde queremos que salgan los resultados (N2 aquí); si es En
una hoja nueva: marcar y en el recuadro ponerle nombre; y por último si queremos
En un libro nuevo, marcarlo. Luego marcar Crear gráfico. Para finalizar hacer
clic en Aceptar y aparecen los resultados del histograma.
101
En Excel se obtiene los resultados para los límites superiores de clase indicados y
los rectángulos del histograma separados, por lo que se tiene que editar haciendo
clic sobre los rectángulos y con botón derecho seleccionar Formato de serie de
datos y en la ventana de diálogo del mismo nombre escoger Opciones de series y
en Ancho del intervalo poner 0%. Al hacer clic en el botón Cerrar, los
rectángulos del histograma aparecen juntos. Se pone número y título del gráfico,
así como colores, etc. y se tiene los resultados del la Figura 2.35.
Figura 2.35 Histograma de frecuencia del peso en Excel
En Minitab:
Estando en la base de datos Estadística Básica 09-A.MPJ, seguir la secuencia
Graph → Histogram… → Simple → OK y aparece la ventana de diálogo
Histogram – Simple de la Figura2.36. En Graph variables: ingrese la variable peso
seleccionándola de las variables del lado izquierdo.
102
Figura 2.36 Obteniendo el Histograma de peso en Minitab
Haciendo clic en el botón Scale… luego en Y-Scale Type aparece marcado
automáticamente Frecuency, también se puede escoger Percent o Density
(densidad para intervalos de diferente amplitud) dejemos Frecuency, OK.
Hacer clic en el botón Labels… en Title: poner el número y título del gráfico, en
Data Labels escoger Use y-value labels, OK. Para finalizar OK y aparece un
histograma que debe ser editado para obtener los intervalos de clase deseados. Para
ello hacer doble clic sobre el histograma y aparece la ventana de diálogo Edit
Bars de la Figura 2.37donde ya se ha escogido Binning.
En la ventana de Binning, en Interval Type aparece automáticamente marcado
Midpoint, escoger Cutpoint.
Luego en Interval Definition escoger Midpoint/Cutpoint positions: en el
recuadro en blanco escribir el valor mínimo (44), dos puntos, el valor máximo
(88), diagonal, y el valor de la amplitud de clase C (8.8). Es decir, 44:88/8.8.
También se puede escribir los 6 puntos de corte (cutpoint) de los 5 intervalos
separados por un espacio en blanco: 44 52.8 61.6 70.4 79.2 88 y para finalizar
OK, e inmediatamente aparece el histograma de frecuencia de la Figura 2.38.
103
Figura 2.37 Edición (en Binning) del Histograma de peso en Minitab
GRÁFICO 2.6 HISTOGRAMA DEL PESO DE LOS ALUMNOS DE ESTADÍSTICA BÁSICA 09-A
20
19
17
15
Frequency
15
10
5
5
0
4
44.0
52.8
61.6
70.4
79.2
Peso (Kg.)
Figura 2.38 Histograma de frecuencias del peso en Minitab
104
88.0
En SPSS:
Seguir el procedimiento para obtener el cuadro 2.4 (Analizar → Estadísticos
descriptivos → Frecuencias) aparece la ventana de la Figura 2.11. Con la
variable peso ya ingresada, escoger dentro de la opción
Tipo de
gráfico: Histogramas, luego Continuar, para finalizar Aceptar y en la Ventana
de resultados aparece el histograma, que se puede editar haciendo doble clic sobre
el histograma dos veces y aparece la ventana de Propiedades. En intervalos,
dentro de Eje X marcar Personalizado, escoger Número de intervalos (e
indicarlos) o Ancho de intervalo (e indicarlo 8.8), Aplicar y luego Cerrar. Poner
número y título del gráfico, colores, etc. Y se tiene el histograma de la Figura 2.39.
Gráfico 2.6 HISTOGRAMA DEL PESO DE LOS ALUMNOS DE ESTADÍSTICA
BÁSICA 09-A
20
Alumnos
15
10
19
17
15
5
5
4
Media =59,87
Desviación típica =10,53
N =60
0
40
50
60
70
80
90
100
PESO (Kg)
Figura 2.39 Histograma de frecuencias del peso en SPSS
En R:
Estando attachada la base de datos, para que reconozca la variable peso, se escribe
la sintaxis sencilla siguiente:
105
hist(variable,
breaks=seq(mínimo,
máximo,
by=amplitud,
col=”color”,
labels=TRUE, main=”título del gráfico”, xlab=”título eje X”, ylab=”título eje Y”)
Donde: variable (datos para obtener el histograma), mínimo = valor mínimo de los
datos, máximo = valor máximo, amplitud = ancho de los intervalos, color =
colores (blanco = 0, 8, “White”; negro= 1, 9, “black”; rojo = 2, 10, “red”; verde =
3, 11, “green”; azul = 4, 12, “blue”; magenta = 5, 13; violeta =6, 14, “violet”;
amarillo = 7, 15, “yellow”; anaranjado = orange; purpura = purple; rosado =pink;
fucsia=”magenta”; gris=”gray”; etc.)
Para la variable peso en la base de datos caso2, el histograma se obtiene así:
> attach(caso2)
> hist(peso, breaks=seq(44,88,by=8.8), col="13", labels=TRUE, main="Gráfico
2.6 Histograma del Peso de los Alumnos", xlab="Peso(Kg.)", ylab="Alumnos")
Figura 2.40 Histograma de frecuencias del peso en R
106
Histograma de densidad.- se presenta, por lo general, para tablas con intervalos
de clase de diferente amplitud, situación que ocurre para algunas variables
económicas. En las columnas de frecuencias se agrega una de densidad (di) que se
obtiene dividiendo las frecuencias relativas entre la amplitud de clase. Es decir,
di = hi / Ci .
Las barras del histograma de densidad tienen por base la amplitud del intervalo y
por altura la densidad alcanzada. El área debajo del histograma de densidad es
k
igual a1. Area
k
di Ci
i 1
i 1
hi
Ci
Ci
k
hi
1.00
i 1
Si para la variable peso trabajada, se juntan los dos últimos intervalos y se hace los
conteos correspondientes, el Cuadro 2.7 se transforma en:
Clase
1
2
3
4
LIi
44.0
52.8
61.6
70.4
LSi
52.8
61.6
70.4
88.0
Xi
48.4
57.2
66.0
79.2
ni
hi
di
19
0.317 0.0360
15
0.250 0.0284
17
0.283 0.0322
9
0150 0.0085
60
1.000
El último intervalo, tiene el doble de amplitud que los otros tres y por lo tanto
mayor número de repeticiones (5 +4 = 9). Para contrarrestar el efecto del mayor
ancho del intervalo es que se representa la densidad en vez de la frecuencia.
El Minitab es el programa apropiado para obtener el histograma de densidad.
Vamos a efectuar el mismo procedimiento de la construcción del histograma de
frecuencias. Es decir, Graph → Histogram… → Simple → OK y aparece la
ventana de diálogo Histogram – Simple de la Figura2.36. En Graph variables:
ingresar la variable peso seleccionándola de las variables del lado izquierdo.
Haciendo clic en el botón Scale… luego en Y-Scale Type aparece marcado
automáticamente Frecuency, desactivarla y marcar Density, OK.
Hacer clic en el botón Labels… en Title: poner el número y título del gráfico, en
Data Labels escoger Use y-value labels, OK. Para finalizar OK y aparece un
histograma de densidad que debe ser editado para obtener los intervalos de clase
deseados. Para ello hacer doble clic sobre el histograma y aparece la ventana de
diálogo Edit Bars de la Figura 2.41 donde ya se ha escogido Binning.
107
Figura 2.41 Edición del Histograma de densidad de peso en Minitab
En la ventana de Binning, en Interval Type aparece marcado Midpoint, escoger
Cutpoint. Luego en Interval Definition escoger Midpoint/Cutpoint positions: en
el recuadro en blanco escribir los 5 puntos de corte (cutpoint) de los 4 intervalos
separados por un espacio en blanco: 44 52.8 61.6 70.4 88 y para finalizar OK, e
inmediatamente aparece el histograma de densidad de la Figura 2.42.
GRÁFICO 2.7 HISTOGRAMA DE DENSIDAD DEL PESO DE LOS ALUMNOS E.B. 09-A
0.04
0.0360
0.0322
Density
0.03
0.0284
0.02
0.01
0.00
0.0085
44.0
52.8
61.6
70.4
PESO (Kg.)
88.0
Figura 2.42 Histograma de densidad de peso en Minitab
108
c) Polígono de frecuencias.- es un gráfico de líneas que une los puntos medios
superiores de las barras del histograma, es decir, une los pares ordenados marcas
de clase y frecuencias absolutas o relativas, (Xi, ni) o (Xi, hi) con el fin de tener una
visión global de la distribución de frecuencias cuando son suavizadas.
Para efectuar la representación del polígono de frecuencias y la ojiva de la variable
peso, las trabajaremos en el Minitab, siendo necesario para ello definir en el
workshet (hoja de trabajo) los datos del Cuadro 2.7, en columnas nuevas: límite
superior (Lím.Sup.), Marca de clase, frecuencia relativa (Frec. relat.) y frecuencia
relativa acumulada (Frec. relat. acum.) en las que, para poder cerrar las gráficas, se
han agregado la primera y última clase con los valores que le corresponderían, tal
como se muestra en la Figura 2.43.
Figura 2.43 Datos para el Polígono de frecuencias y Ojiva del peso en Minitab
El procedimiento para construir el Polígono de frecuencias es el siguiente: Graph
→ Scatterplot → With Connect Line → OK, y aparece la ventana de diálogo de
la Figura 2.44.
De la lista de variables del lado izquierdo seleccionar Frec. relat. e ingresarla en Y
variables y Marca de clase en X variables, como se muestra en la Figura 2.44.
Hacer clic en Data View… y en Data display marcar Connect line, OK. Luego
escoger Labels en Tittle: poner el número y título del gráfico, y en Data Labels
marcar Use y-value labels, OK.
Para finalizar hacer clic en OK y aparece el polígono de frecuencias de la Figura
2.45.
109
Figura 2.44 Scatterplot para el Polígono de frecuencias del peso en Minitab
Gráfico 2.8 POLÍGONO DE FRECUENCIA DEL PESO DE LOS ALUMNOS E.B. 09-A
0.35
0.322
0.30
0.288
0.254
Frec. relat.
0.25
0.20
0.15
0.10
0.085
0.051
0.05
0.00
0.000
40
0.000
50
60
70
Marca de clase
80
Figura 2.45 Polígono de frecuencias del peso en Minitab
110
90
100
d) Ojiva.- sirve para representar las frecuencias (absolutas o relativas) acumuladas
“menor o igual que” para una variable determinada. Su representación se hace con
un gráfico de líneas, no decreciente, que une los pares ordenados formados por los
límites superiores de los intervalos de clase y las frecuencias (absolutas o relativas)
acumuladas, (LSi, Ni) o (LSi, Hi).
Para efectuar la representación de la ojiva de la variable peso, la trabajaremos en el
Minitab con los datos de la Figura 2.43.
El procedimiento para construir la Ojiva es el siguiente: Graph → Scatterplot →
With Connect Line → OK, y aparece la ventana de diálogo de la Figura 2.46.
Figura 2.46 Scatterplot para la Ojiva del peso en Minitab
De la lista de variables del lado izquierdo seleccionar Frec. relat. acum. e
ingresarla en Y variables y Lim. Sup. en X variables, tal como se muestra en la
Figura 2.46.
Hacer clic en Data View… y en Data display marcar Connect line, OK. Luego
escoger Labels en Tittle: poner el número y título del gráfico, y en Data Labels
marcar Use y-value labels, OK.
Para finalizar hacer clic en OK y aparece la Ojiva de la Figura 2.47.
111
Gráfico 2.9 OJIVA DEL PESO DE LOS ALUMNOS DE ESTADÍSTICA BÁSICA 09-A
1.000
1.0
1.000
0.949
0.864
Frec. relat. Acum.
0.8
0.576
0.6
0.4
0.322
0.2
0.000
0.0
40
50
60
70
80
Lím. Sup. PESO (Kg.)
90
Figura 2.47 Ojiva del peso en Minitab
2.7 DIAGRAMA DE TALLOS Y HOJAS
Es un gráfico sencillo de realizar y fue propuesto por Tukey (1977) para ver la
distribución de frecuencias preliminar de una variable cuantitativa con pocas
observaciones. Para su elaboración se toma en cuenta el número de dígitos que poseen
los valores de la variable. El tallo viene dado por los dígitos de mayor orden,
acompañado por las hojas que es la parte complementaria del número representado.
Veamos su obtención para la variable peso.
En Minitab.Seguir la secuencia: Graph → Stem-and-Leaf… (Tallos y Hojas) y aparece la ventana
de diálogo Stem-and-Leaf. En Graph variables: ingresar la variable peso de las
variables del lado izquierdo. En Increment: escribir 5 (para que salgan los tallos con
incrementos de 5 en 5 a partir del valor mínimo). Al hacer clic en OK, aparecen los
siguientes resultados.
112
100
Stem-and-Leaf Display: peso
Stem-and-leaf of peso
Leaf Unit = 1.0
1
9
24
(8)
28
21
11
7
4
1
4
4
5
5
6
6
7
7
8
8
N
= 60
4
56678899
000001122233334
55555779
0033444
5566778889
0022
557
000
8
En la primera columna aparecen las frecuencias absolutas acumuladas, crecientes
desde la primera línea hasta antes del número entre paréntesis (8) que indica que son 8
observaciones y que en esa línea se ubica el valor central (mediana). Después aparecen
valores decrecientes, ya que la acumulación empieza desde la última línea.
En la columna central se presentan los tallos, representando los pesos en decenas (de
kg.) y en la última columna las hojas con un dígito por cada observación (sus unidades
se dan al comienzo del gráfico como Leaf Unit) aquí = 1.0 Kg. En la primera línea
aparece el peso mínimo (44) y en la última línea el peso máximo (88) Kg.
En SPSS.Estando en la base de datos de Estadística Básica 09-A, escoger del menú Analizar →
Estadísticos descriptivos → Explorar y aparece la ventana de diálogo Explorar. En
Dependientes: ingresar la variable peso de las variables del lado izquierdo. Hacer clic en
el botón Gráficos y aparece la ventana de diálogo Explorar: Gráficos, en Descriptivos
aparece activado automáticamente Tallo y hojas. Hacer clic en Continuar, regresa a
Explorar y para finalizar clic en Aceptar. En la ventana de Resultados aparece:
PESO (Kg) Stem-and-Leaf Plot
Frequency
1.00
8.00
15.00
Stem &
4 .
4 .
5 .
Leaf
4
56678899
000001122233334
113
8.00
7.00
10.00
4.00
3.00
3.00
1.00
Stem width:
Each leaf:
5
6
6
7
7
8
8
.
.
.
.
.
.
.
55555779
0033444
5566778889
0022
557
000
8
10
1 case(s)
El ancho del tallo (Stem width) 10 indica que está en decenas de Kg.
En R.Estando attachada la base de datos de los alumnos de Estadística Básica 09-A
representada por caso2, se usa la función stem(variable). Se procede así:
> attach(caso2)
> stem(peso)
Aparece el diagrama de tallos y hojas siguiente:
The decimal point is 1 digit(s) to the right of the |
4|4
4 | 56778899
5 | 000011122333334
5 | 55555779
6 | 003344
6 | 55566778889
7 | 0022
7 | 557
8 | 000
8|8
Sólo muestra los tallos en la primera columna (en decenas de Kg.) y las hojas (en
Kg.).
114
Capítulo 3. MEDIDAS DE POSICIÓN
“La estadística es una ciencia que demuestra que si mi vecino tiene dos
coches y yo ninguno, los dos tenemos uno”
George Bernard Shaw
CONTENIDO
3.1
3.2
3.3
3.4
3.5
3.6
3.7
Introducción.
Media aritmética.
Mediana.
Moda.
Media Geométrica.
Media armónica.
Los cuantiles: cuartiles, deciles y percentiles.
3.1 INTRODUCCIÓN
En este capítulo se da inicio a otras modalidades de descripción de los datos a
través de los denominados estadígrafos que son medidas de resumen del
conjunto de datos obtenidos a partir de una muestra o un censo (enumeración
completa de las unidades de análisis de la población).
Si el estadígrafo es obtenido en la muestra se denomina estimador (estadístico) y
es usado en inferencia estadística como estimación (aproximación) al parámetro
desconocido en la población.
Los estadígrafos puedes ser de: posición, dispersión, forma y concentración. Para
una mejor comprensión de estos estadígrafos presentaremos su definición, cálculo
para datos sin agrupar y para datos agrupados (tabla de frecuencias), así como su
interpretación.
En este capítulo veremos las medidas de posición, llamadas también estadígrafos
de tendencia central, porque al obtenerlos reflejan un valor entre el mínimo y
máximo. Entre estos tenemos: la media aritmética, la mediana, la moda, la media
geométrica, la media armónica y los cuantiles.
Las aplicaciones con los programas se ven al final del capítulo.
115
3.2 MEDIA ARITMÉTICA
Llamada también media o promedio simple, es el centro de gravedad o centroide
de la distribución de frecuencias. Es decir, es el punto en donde están en equilibrio
todas las fuerzas.
En física, centroide es el centro de masa de un objeto con densidad uniforme. Para
un objeto unidimensional uniforme de longitud L, el centroide es el punto medio
del segmento de línea. Entonces, para cada barra (rectángulo) del histograma es su
marca de clase y para todo el histograma de frecuencias es la media aritmética
ponderada por las frecuencias absolutas o relativas o las ponderaciones
consideradas.
Fórmulas de cálculo para datos sin agrupar.N
Xi
i 1
a) Media o promedio poblacional:
N
n
Xi
b) Media o promedio muestral:
X
i 1
n
Fórmulas de cálculo para datos agrupados.k
X i ni
k
i 1
a) Media o promedio poblacional:
N
k
X i hi
i 1
k
X i ni
b) Media o promedio muestral:
X
i 1
k
X i ni
k
i 1
ni
n
X i hi
i 1
i 1
Donde:
k = número de intervalos de clase.
Xi = Marca de clase
ni = frecuencias absolutas o repeticiones.
hi = frecuencia relativa.
N = tamaño de la población.
n = tamaño de la muestra.
Ejemplo 3.1
Si trabajamos con los datos sin agrupar del Cuadro 2.6, peso en Kg. de los 60
alumnos de Estadística Básica 09-A, tenemos que la media aritmética es:
116
N
60
Xi
i 1
Xi
i 1
N
60
44 45 46 .... 80 88
60
3592.1
59.868 Kg.
60
Interpretación.- el peso promedio de los alumnos de Estadística Básica 09-A es
59.868 Kg. También podemos apreciar que el numerador representa el total
poblacional, es decir que la suma de los pesos de los 60 alumnos en la
población es de 3592.1 Kg.
Si trabajamos con los datos agrupados del Cuadro 2.7, peso en Kg. de los 60
alumnos de Estadística Básica 09-A, tenemos que la media aritmética es:
k
5
X i ni
i 1
N
=
X i ni
i 1
X 1n1
X 2 n2
60
X 3n3
60
X 4 n4
48.4(19) 57.2(15) 66.0(17) 74.8(5) 83.6(4)
60
X 5 n5
3608.0
60
60.133 Kg.
Interpretación.- el peso promedio de los alumnos de Estadística Básica 09-A es
60.133 Kg. También podemos apreciar que el numerador sigue representando
el total poblacional, es decir que la suma de los pesos de los 60 alumnos en la
población es de 3608.0 Kg., resultado diferente al anterior (normalmente
difieren ya que se está agrupando datos).
Resultado similar se obtiene usando la fórmula con frecuencias relativas (hi),
así:
5
X i hi
i 1
(48.4)
19
15
17
5
4
(57.2)
(66.0)
(74.8)
(83.6)
60
60
60
60
60
60.133
Figura 3.1 Cálculo de la media para datos agrupados en Excel
117
En la Figura 3.1 se muestra en Excel como se ha efectuado el cálculo de la
media aritmética para datos agrupados.
Primero hay que ingresar las marcas de clase (Xi), las frecuencias absolutas (ni)
y las frecuencias relativas (hi) en las columnas C, D, y E respectivamente. La
forma más sencilla de efectuar el cálculo es la que aparece en la casilla F10
utilizando la función matemática suma de
productos que se indica así:
e inmediatamente aparece el peso
promedio igual a 60.133 Kg. En la celda F9 se muestra el cálculo de la suma de
5
productos de
X i ni = 3608.0 Kg. y en la G9 la suma de productos de
i 1
5
X i hi = 60.133 Kg., que es la media solicitada.
i 1
Media Ponderada.n
X iWi
X
i 1
n
Wi
i 1
Donde Xi = valor de la i-ésima observación y Wi = ponderación o peso de la iésima observación.
El cálculo del ejemplo 3.1 es una forma de media ponderada, donde los Xi son las
marcas de clase y las ponderaciones vienen dadas por las frecuencias absolutas
(ni) o las frecuencias relativas (hi). Dicho cálculo también lo podemos resolver
usando el programa R así:
Primero se definen los vectores de Xi, ni y/o hi de la siguiente manera:
> Xi=c(48.4, 57.2, 66.0, 74.8, 83.6)
> ni=c(19, 15, 17, 5, 4)
> hi=ni/60
Luego usar la función weighted.mean, así:
> weighted.mean(X,ni)
[1] 60.13333
> weighted.mean(X,hi)
[1] 60.13333
Con resultados similares a los del acápite anterior.
118
Para el caso de un índice de precios Xi es un relativo de precios (Pti / P0i) y para un
índice de cantidad Xi es un relativo de cantidad (Qti / Q0i).
 Para el índice de precios de Laspeyres Wi = P0i Q0i , luego este índice es el
siguiente promedio ponderado:
n
Pti
( P0i Q0i )
P0i
i 1
IPL t
n
n
Pti Q0i
i 1
n
P0i Q0i
0
P0i Q0i
i 1
i 1
 Para el índice de precios de Paasche Wi = P0i Qti , luego este índice es el
siguiente promedio ponderado:
n
Pti
( P0i Qti )
P0i
i 1
IPPt
n
n
Pti Qti
i 1
n
P0i Qti
0
P0i Qti
i 1
i 1
Propiedades de la media aritmética.a) “La suma de las desviaciones de los valores observados con respecto a su
n
media aritmética es cero”.
n
(Xi
X)
i 1
Xi
nX
nX
nX
0
i 1
b) “La suma de las desviaciones al cuadrado, de los valores observados con
respecto a su media aritmética, es mínima”.
n
X ) 2 es mínima.
(Xi
i 1
c)
El cálculo de la media aritmética se ve afectado por los valores extremos
(outliers) muy grandes o muy pequeños.
Ejemplo 3.2.- si los ingresos de 5 trabajadores son: 450, 500, 500, 550 y
2000. Entonces el ingreso promedio es de 800 muy distante del ingreso de la
mayoría de los trabajadores. Se recomienda usar la mediana.
d)
Si a y b son números reales e Yi
aX i b, entonces : Y
Demostración:
n
n
Yi
Y
i 1
n
n
(aX i b)
i 1
n
n
a
Xi
b
i 1
i 1
n
n
119
aX
b
aX
b.
Ejemplo 3.3.- si el ingreso promedio de los trabajadores es X = S/. 1 000.
Hallar los ingresos promedio si se producen los siguientes incrementos:
 S/. 100 para cada trabajador, entonces el nuevo ingreso de cada
trabajador es: Yi = Xi + 100 .
Luego el nuevo ingreso promedio de los trabajadores es:
Y = X + 100 = S/. 1 100.
 10% para cada trabajador, entonces el nuevo ingreso de cada trabajador
es Yi = 1.10 Xi .
Luego el nuevo ingreso promedio de los trabajadores es:
Y = 1.10 X = 1.10 (1 000) = S/. 1 100.
 5% más S/. 50 a cada trabajador, entonces el nuevo ingreso de cada
trabajador es Yi = 1.05 Xi + 50 .
Luego el nuevo ingreso promedio de los trabajadores es:
Y = 1.05 X + 50 = 1.05 (1 000) + 50 = S/. 1 100.
3.3 MEDIANA (Me)
Es el valor central que divide en dos partes iguales la distribución de frecuencias
(conjunto de observaciones).
50% observaciones
Me
120
50% observaciones
Cálculo para datos sin agrupar.a) Ordenar los datos en forma ascendente: X(1) , X(2) , …. , X(n)
b) Calcular la mediana:
 Si el número de observaciones n es par: Me
1
X
2
 Si el número de observaciones n es impar: Me
X
n
2
X
n
1
2
n 1
2
Ejemplo 3.4
Si se calcula la mediana con los datos sin agrupar del Cuadro 2.6, peso en Kg. de
los 60 alumnos de Estadística Básica 09-A, se tiene que:
a) Los 60 datos ordenados en forma ascendente son:
44
45
46
46.5
47
48
48
49
49
50
50
50
50
50.5
51
51
52
52
52.6
53
53
53
53
54
55
55
55
55
55
57
57
59
60
60
63
63
64
64
64.5
65
65
66
66
67
67
68
68
68
69
70
70
72
72
75
75
77
80
80
80
88
b) Dado que n = 60 es par, se necesitan las observaciones ordenadas 30 y 31
para calcular la mediana, así:
Me
1
X
2
30
X
31
1
57 57
2
57 Kg.
Interpretación.- el 50 % de los alumnos de Estadística Básica 09A tienen un
peso menor o igual a 57 Kg y el otro 50% por encima de 57 Kg.
Cálculo para datos agrupados.a) Ubicar la clase j que contiene el valor Me
Como en las tablas de frecuencias los valores de la variable están ordenados
en forma ascendente, se determina n/2 y ayudándonos de las frecuencias
acumuladas se ve que clase j contiene (o donde esta) la Me.
b) Calcular la Me usando cualquiera de las siguientes expresiones:
121
Me
n
Nj
2
nj
LI j
1
Cj
LI j
1
Hj
2
hj
1
Cj
Donde:
j = clase que contiene o donde esta la Me.
LIj = límite inferior de la clase que contiene la Me.
nj = repeticiones en la clase que contiene la Me.
Nj-1 = repeticiones acumuladas hasta la clase anterior a la que contiene Me.
Cj = amplitud de la clase Me = LSj – LIj .
hj = frecuencia relativa en la clase que contiene la Me.
Hj-1 = frec. relativa acumulada hasta la clase anterior a la que contiene Me.
Ejemplo 3.5
Calcular la mediana con los datos agrupados del Cuadro 2.7, peso de los 60
alumnos de Estadística Básica 09-A FCE-UNAC, siguientes:
Clase
PESOS (Kg.)
i
1
2
3
4
5
LIi
44.0
52.8
61.6
70.4
79.2
LSi
52.8
61.6
70.4
79.2
88.0
Marca
Prop.
Acum. Prop.Ac.
Alum-nos
alumnos
alumnos
alumnos
clase
Xi
ni
hi
Ni
Hi
48.4
19
0.317
19
0.317
57.2
15
0.250
34
0.567
66.0
17
0.283
51
0.850
74.8
5
0.083
56
0.933
83.6
4
0.067
60
1.000
60
1.000
Solución.a) Ubicar la clase j que contiene el valor Me.
n
2
60
2
30 . ¿En que intervalo de clase se contó la observación o peso del
alumno 30?
Observando los Ni del Cuadro 2.7, se aprecia que en la clase 1, N1 = 19, se
han contado los pesos de los 19 primeros alumnos (recordemos que los pesos
están ordenados de manera ascendente en el cuadro).
Entonces, en el intervalo de clase 2 se cuentan los pesos de los alumnos 20,
21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33 y 34.
Luego, la clase en la que se cuenta la talla del alumno
clase j = 2. La mediana es un peso entre 52.8 y 61.6 Kg.
122
n
2
60
2
30 es la
b) Calcular la Me usando la expresión:
Me
LI j
n
Nj
2
nj
1
Cj
Donde:
j = 2,
n = 60,
LIj = LI2 = 52.8
nj = n2 = 15,
C3 = LS3 – LI3 = 61.6 – 52.8 = 8.8
Nj-1 = N1 = 19,
Reemplazando valores en la fórmula se tiene:
Me
LI 2
n
N1
2
C2
n2
60
19
2
8.8 59.253 Kg.
15
52.8
Interpretación.- el 50 % de los alumnos de Estadística Básica 09A tienen un
peso menor o igual a 59.253 Kg y el otro 50% por encima de 59.253 Kg.
Propiedades de la mediana.a) La suma de las desviaciones, en valor absoluto, de los valores observados
con respecto a la mediana es mínima; es decir, que es menor que la suma de
las desviaciones, en valor absoluto, con respecto a cualquier otro valor a de
la distribución.
n
n
Xi
Me
i 1
k
a
,
para datos sin agrupar.
k
Xi
i 1
Xi
i 1
Me ni
Xi
a ni ,
para datos agrupados.
i 1
b) Robustez: la mediana no se ve afectada por los valores extremos, sólo por
los valores centrales. Es decir, que la mediana es un valor más representativo
de la tendencia central de un conjunto de datos, que la media aritmética,
cuando estos son asimétricos (los valores extremos reflejan desigualdades).
Ejemplo 3.6.- para los ingresos de 5 trabajadores (450, 500, 500, 550 y
2000) del ejemplo 3.2, el promedio es de 800 muy distante del ingreso de la
mayoría de los trabajadores. Se recomienda usar la mediana, que en este caso
es 500, mucho más representativa que la media aritmética 800.
123
c) Si a y b son números reales e Yi
a X i b, entonces : Me(Y ) a Me( X ) b .
Propiedad similar a la de la media aritmética.
3.4 MODA
Es el valor observado más común, el que más se repite o el más frecuente. Para una
distribución de frecuencias o probabilidades, la moda es el valor que hace máxima
dicha distribución.
X
Cálculo para datos sin agrupar.Observar en el conjunto de datos el valor o los valores que más se repiten.
Ejemplo 3.7
Si se calcula la moda con los datos sin agrupar del Cuadro 2.6, peso en Kg. de los
60 alumnos de Estadística Básica 09-A, se tiene que los pesos ordenados son:
44
45
46
46.5
47
48
48
49
49
50
50
50
50
50.5
51
51
52
52
52.6
53
53
53
53
54
55
55
55
55
55
57
57
59
60
60
63
63
64
64
64.5
65
65
66
66
67
67
68
68
68
69
70
70
72
72
75
75
77
80
80
80
88
124
Se aprecia que el peso 55 es el que más se repite, luego: Mo = 55 Kg.
Interpretación.- el mayor número (no la mayoría) de alumnos tiene un peso de 55
Kg.
Cálculo para datos agrupados.a) Ubicar la clase j que contiene el valor Mo.
 Si los intervalos de clase son de igual amplitud, la clase j que contiene (o
donde esta) la Mo es aquella que tiene la mayor repetición ni o la mayor
frecuencia relativa hi. Puede haber más de una clase modal.
 Si los intervalos de clase son de diferente amplitud, la clase j que contiene (o
donde esta) la Mo es aquella que tiene la mayor densidad di = hi / Ci . Puede
haber más de una clase modal.
b) Calcular la moda usando la expresión:
Mo
1
LI j
1
Cj
2
Donde:
j = clase(s) que contiene(n) o donde esta(n) la(s) Mo.
LIj = límite inferior de la clase que contiene la Mo.
Cj = amplitud de la clase Mo = LSj – LIj .
1
nj
nj
1
hj
hj
1
dj
dj
1
2
nj
nj
1
hj
hj
1
dj
dj
1
Ejemplo 3.8
Calcular la moda con los datos agrupados del Cuadro 2.7, peso de los 60 alumnos de
Estadística Básica 09-A FCE-UNAC, siguientes:
Clase
i
1
2
3
4
5
PESOS (Kg.)
LIi
44.0
52.8
61.6
70.4
79.2
LSi
52.8
61.6
70.4
79.2
88.0
Marca
Prop.
Acum. Prop.Ac.
Alum-nos
alumnos
alumnos
alumnos
clase
Xi
ni
hi
Ni
Hi
48.4
19
0.317
19
0.317
57.2
15
0.250
34
0.567
66.0
17
0.283
51
0.850
74.8
5
0.083
56
0.933
83.6
4
0.067
60
1.000
60
1.000
Solución.a) Ubicar la clase j que contiene el valor Mo.
125
Considerando que los intervalos son de igual amplitud, ¿en que intervalo de clase
se puede haber dado el mayor número de repeticiones ni o h i?
Observando los ni del Cuadro 2.7, se aprecia que el mayor es n1 = 19. Entonces,
en el intervalo de clase j = 1 se encuentra la moda. La moda es un peso entre 44 y
52.8 Kg.
b) Calcular la moda usando la expresión: Mo
1
LI j
1
Cj
2
Donde:
j = 1,
LIj = LI1 = 44.
C1 = LS1 – LI1 = 52.8 – 44 = 8.8.
1
nj
nj
1
n1 n0
19 0 19
2
nj
nj
1
n1 n2
19 15 4
Reemplazando valores en la fórmula se tiene:
Mo
1
LI1
1
C1
2
44
19
8.8 51.270 Kg.
19 4
Interpretación.- el mayor número (no la mayoría) de alumnos tiene un peso de
51.27 Kg.
Propiedades de la moda.a) Es el único estadígrafo que se puede determinar para variables cualitativas.
b) La moda no se ve afectada por los valores extremos, al igual que la mediana.
c) Si a y b son números reales e Yi
a X i b, entonces : Mo(Y ) a Mo( X ) b .
Propiedad similar a la de la media aritmética y la mediana.
d) Para una distribución determinada puede haber más de una moda o en su defecto
de no existir moda, puede haber antimoda (valor menos frecuente).
Relación entre la moda, la media y la mediana. Si la distribución de frecuencias es simétrica se cumple que las tres medidas son
aproximadamente iguales. Entonces: X
126
Me
Mo
Distribución simétrica
30
Nº de U. de A.
25
20
15
10
5
0
140
145
150
155
160
165
170
175
180
Valores de la variable
 Si X
Me
Mo entonces la distribución de frecuencias tiene asimetría negativa
o asimetría hacia la izquierda.
Distribución asimétrica negativa
30
Nº de U.A.
25
20
15
10
5
0
140
 Si Mo
Me
145
150 155 160 165 170
Valores de la variable
175
180
X entonces la distribución de frecuencias tiene asimetría positiva
o asimetría hacia la derecha.
Distribución asimética positiva
30
Nº de U.A.
25
20
15
10
5
0
140
145
150
155
160
165 170
Valores de la variable
175
180
 Si la distribución de frecuencias es moderadamente asimétrica y unimodal,
según Karl Pearson se cumple la siguiente relación: X
127
Mo
3X
Me
Para los pesos de los alumnos de Estadística Básica 09-A de la FCE-UNAC se
pueden resumir los estadígrafos calculados así:
Datos:
Me
Mo
Sin agrupar
X
59.868
57.000
55.000
Agrupados
60.133
59.253
51.270
Se puede apreciar que en ambos casos Mo
Me
X entonces la distribución de los
pesos tiene asimetría positiva.
Cálculo de la media aritmética, la mediana y la moda con los programas
Veamos como se puede obtener rápidamente los estadígrafos anteriores para la
variable peso, desde la base de datos construida y utilizando los programas.
En Excel:
Estando copiados los datos de la variable peso de los 60 alumnos en la columna D,
desde D3 hasta D62, cuando en el programa se pide el rango de valores (como
Número 1), se sombrean estos o se escribe D3:D62.
Para efectuar cualquier cálculo nos ubicamos en una celda posterior. Para calcular la
media aritmética nos ubicaremos en la celda D63.
A continuación, con la opción de funciones
del Excel, escoger dentro de
Seleccionar una categoría →Estadísticas → Promedio y aparece la ventana de
diálogo de la Figura 3.2 solicitando los Argumentos de la función PROMEDIO. En
Número 1 (indicar la ubicación de los datos de la variable peso, que están desde la
celda D3 hasta la D62) sombrear los datos o escribir D3:D62. Luego hacer clic en
y aparece el resultado de la media aritmética 59.8683333 Kg. De manera
similar se hace escogiendo las funciones Mediana y Moda.
Conociendo la sintaxis de la función, se hace mucho más sencillo así:
Ubicarse en la celda D63 y al lado de
escribir =PROMEDIO(D3:D62). Al hacer
Enter, aparece el resultado 59.8683333 Kg. (ver la Figura 3.3). De manera similar
para calcular la mediana, Ubicarse en la celda D64 y al lado de
escribir
=MEDIANA(D3:D62). Al hacer Enter, aparece el resultado 57 Kg. (ver la Figura
3.3); y para calcular la moda, Ubicarse en la celda D65 y al lado de
escribir
=MODA(D3:D62). Al hacer Enter, aparece el resultado 55 Kg. (ver la Figura 3.3).
128
Figura 3.2 Cálculo de la media aritmética (PROMEDIO) en Excel
Figura 3.3Resultados de la media aritmética, mediana y moda en Excel
En Minitab:
Estando en la base de datos Estadística Básica 09A, escoger del menú Stat →Basic
Statistics → Display Descriptive Statistics… aparece la ventana de diálogo de la
Figura 3.4. En variables: seleccionar la variable peso de las variables que están a la
izquierda. Hacer clic en el botón
y aparece la ventana de diálogo de la
Figura 3.5. Escoger los estadígrafos a calcular: Mean (media), Median (mediana),
Mode (moda) y hemos agregado Sum (suma), Minimum (mínimo) y Maximum
(máximo). Hacer clic en OK y regresa a la Figura 3.4.
129
Figura 3.4 Selección de la variable peso para calcular estadígrafos en Minitab
Figura 3.5 Selección de estadígrafos de posición a calcular en Minitab
Para terminar hacer clic en OK y en la ventana de Session aparecen los resultados
solicitados (se ha subrayado la media, la mediana y la moda) siguientes:
Descriptive Statistics: peso
N for
Variable
peso
Mean
59.87
Sum
Minimum
3592.10
44.00
130
Median
57.00
Maximum
Mode
88.00
55
Mode
5
En SPSS:
Estando en la base de datos Estadística Básica 09A, seguir la secuencia para obtener
la tabla de frecuencias: Analizar → Estadísticos descriptivos → Frecuencias.
Inmediatamente se abre la ventana de diálogo Frecuencias.
En Variables: ingresar la variable peso, luego hacer clic en el botón
y se
muestra la ventana de diálogo Frecuencias: Estadísticos de la Figura 3.6.
Figura 3.6 Cálculo de estadígrafos de Tendencia central en SPSS
En Tendencia central marcar los estadígrafos: media, mediana, moda y suma, luego
hacer clic en Continuar, regresando a la ventana de diálogo Frecuencias y efectuar
clic en Aceptar para terminar. Inmediatamente en el Visor de Resultados aparece:
Estadísticos
PESO (Kg)
N
Válidos
Perdidos
Media
Mediana
Moda
Suma
60
0
59.87
57.00
55
3592
Estadígrafos de tendencia central calculados con el SPSS
131
En R:
Estando en la base de datos Estadística Básica 09A y habiendo attachado la misma,
para que reconozca las variables y sus valores, se escribe en la consola la sintaxis
para el estadígrafo requerido: mean(variable) para la media, median(variable) para la
mediana, min(variable) para el valor mínimo y max(variable) para el valor máximo.
Aplicando a la variable peso se obtiene:
> mean(peso)
[1] 59.86833
> median(peso)
[1] 57
> min(peso)
[1] 44
> max(peso)
[1] 88
El R no permite el cálculo de la moda, aparece lo siguiente.
> mode(peso)
[1] "numeric"
132
3.5 MEDIA GEOMÉTRICA
Es la raíz n-ésima del producto de los valores observados.
Se utiliza para calcular promedios de datos con cierta tendencia geométrica, tasas
medias de crecimiento, etc.
Cálculo para datos sin agrupar.-
G
n
X1 X 2
Xn
X1 X 2
Xn
1
n
Considerando que el producto de los valores observados puede ser muy elevado, se
sigue el siguiente procedimiento para hallar G:
a) Determinar el logaritmo decimal de G:
log G
1
log X 1 log X 2
n
log X n
1
n
n
log X i
i 1
b) Hallar G, tomando el antilogaritmo de log G:
G 10log G
Ejemplo 3.9
Si se calcula la media geométrica con los datos sin agrupar del Cuadro 2.6, peso en
Kg. de los 60 alumnos de Estadística Básica 09-A, cuyos pesos ordenados son:
44
45
46
46.5
47
48
48
49
49
50
50
50
50
50.5
51
51
52
52
52.6
53
53
53
53
54
55
55
55
55
55
57
57
59
60
60
63
63
64
64
64.5
65
65
66
66
67
67
68
68
68
69
70
70
72
72
75
75
77
80
80
80
88
a) Determinamos el logaritmo decimal de G:
log G
1
60
60
log X i
i 1
1
log 44 log 45
60
1
log X 1 log X 2
60
log X 60
log 88
1
1.6434526765 1.6532125138
60
133
1.9444826722
106.2486352942
1.7708105882
60
b) Hallamos G tomando el antilogaritmo de log G:
G 10log G
101.7708105882
58.994 Kg.
Interpretación.- el peso medio de los alumnos es de 58.994 Kg.
Cálculo para datos agrupados.-
G
n
n1
1
X X
n2
2
X
nk
k
n1
1
X X
n2
2
X
nk
k
1
n
Considerando que el producto de las potencias de las marcas de clase elevadas a las
repeticiones observados puede ser muy grande, se sigue el siguiente procedimiento
para hallar G:
a) Determinar el logaritmo decimal de G:
1
n1 log X 1 n2 log X 2
n
log G
nk log X k
1
n
k
k
ni log X i
i 1
hi log X i
i 1
b) Hallar G, tomando el antilogaritmo de log G:
G 10log G
Ejemplo 3.10
Calcular la media geométrica con los datos agrupados del Cuadro 2.7, peso de los
60 alumnos de Estadística Básica 09-A FCE-UNAC, siguientes:
Clase
i
1
2
3
4
5
PESOS (Kg.)
LIi
44.0
52.8
61.6
70.4
79.2
LSi
52.8
61.6
70.4
79.2
88.0
Marca
Prop.
Acum. Prop.Ac.
Alum-nos
alumnos alumnos alumnos
clase
Xi
ni
hi
Ni
Hi
48.4
19
0.317
19
0.317
57.2
15
0.250
34
0.567
66.0
17
0.283
51
0.850
74.8
5
0.083
56
0.933
83.6
4
0.067
60
1.000
60
1.000
Solución.a) Determinamos el logaritmo decimal de G:
log G
1
60
5
ni log X i
i 1
1
n1 log X 1 n2 log X 2 n3 log X 3 n4 log X 4 n5 log X 5
60
1
19 log 48.4 15 log 57.2 17 log 66.0 5 log 74.8 4 log 83.6
60
134
32.01206187 26.36094043 30.93224690 9.36950799 7.68882511
60
106.36358231
1.772726.37
60
b) Hallamos G tomando el antilogaritmo de log G:
G 10log G
101.77272637
59.255 Kg.
Interpretación.- el peso medio de los alumnos es de 59.255 Kg.
Aplicación de la media geométrica.Una de las aplicaciones importantes de la media geométrica es la referida a la
determinación de tasas medias de crecimiento de la población (r), para lo cual se
cuenta con información de los censos de población en dos períodos de tiempo no
consecutivos (la ONU recomienda la realización de censos de población cada 10
años debiendo realizarse los mismos el 30 de junio de los años terminados en cero).
Asimismo, se hacen proyecciones de población (similar al crecimiento del capital)
con la expresión:
Pn
1 r
n
P0
Es a partir de esta expresión que se obtiene la fórmula para hallar la tasa media de
crecimiento intercensal (r) de la población siguiente:
r
n
Pn
P0
1
Po = Población en el año 0.
Pn = Población en el año n.
n = Períodos (años, meses, etc.) transcurridos desde el período 0 hasta el período n.
Ejemplo 3.11
Según el INEI (2009) la población total del Perú el año 1993 fue de 22‟639,443
habitantes y el 2007 de 28‟220,764 habitantes. Se pide determinar:
a) La tasa media de crecimiento intercensal anual.r
n
Pn
P0
1
14
P07
P93
1
14
28' 220, 764
1 = 1.015864843 -1 = 0.015864843
22 '639, 443
135
Si se hubiera solicitado la tasa media de crecimiento intercensal mensual, se
tendría que haber obtenido la raíz 168 (meses transcurridos del ‟93 al ‟07).
Interpretación.- entre el año 1993 y el 2007 la población del Perú creció a un
1.59% anual. Es decir, que por cada 100 habitantes nacieron 1.59 niñ@s
(también se puede interpretar en tanto por mil o diez mil, etc.).
b) La población del Perú el año 2010.Para proyectar la población se usa la expresión: Pn
1 r
n
P0
Donde:
Po = P2007 = Población en el año 0 = 2007 (Tomar el año más cercano).
Pn = P2010 = Población en el año n = 2010.
r = Tasa media de crecimiento intercensal anual = 0.015864843.
n = Años transcurridos desde el año 2007 hasta el año 2010 = 3 años.
Asumiendo que la tasa media de crecimiento intercensal anual es la misma para
los años siguientes y reemplazando valores en la fórmula de proyección de
población se tiene:
Pn
P2010
1 r
n
P0
P2010
3
1 0.015864843 P2007
3
1 0.015864843 28220764 1.048353602(28220764) =
= 29‟585,340 habitantes.
El año 2010 el Perú tiene 29.6 millones de habitantes.
c)
¿En que año el Perú tendrá 40 millones de habitantes?
Despejando n de la fórmula Pn
1 r
n
P0 se tiene que:
log
n
Pn
P0
log 1 r
n = año buscado.
Pn = 40 millones (Población que tendrá el Perú el año n).
P0 = P2007 = 28‟220,764 habitantes (Tomar como año 0, el más cercano).
r = Tasa media de crecimiento intercensal anual = 0.015864843.
Reemplazando valores en la expresión anterior se tiene:
136
40000000
28220764
log 1 0.015864843
log
n
22.2 años
Entonces: 2007 + 22.2 años = 2029. El año 2029 el Perú tendrá 40 millones de
habitantes (si la tasa de crecimiento de la población es del 1.59%).
Nota.- También se utiliza la media geométrica para determinar la inflación media
mensual y a su vez hacer proyecciones de la inflación anual a partir del promedio
mensual.
3.6 MEDIA ARMÓNICA
Se define como la inversa de la media aritmética de los inversos de los valores
observados.
Es utilizada para hallar determinadas tasas promedio o rendimientos promedio para
una misma actividad.
Cálculo para datos sin agrupar.H
n
n
i 1
1
Xi
Ejemplo 3.12
Si se calcula la media armónica con los datos sin agrupar del Cuadro 2.6, peso en
Kg. de los 60 alumnos de Estadística Básica 09-A, cuyos pesos ordenados son:
44
45
46
46.5
47
48
48
49
49
50
50
50
50
50.5
51
51
52
52
52.6
53
53
53
53
54
55
55
55
55
55
57
57
59
60
60
63
63
64
64
64.5
65
65
66
66
67
67
68
68
68
69
70
70
72
72
75
75
77
80
80
80
88
Reemplazando valores en la fórmula se tiene:
137
H
60
1
1 Xi
60
60
i
1
44
1
X1
1
X2
60
1
46
1
45
1
X3
1
X 59
1
80
1
X 60
60
1.0316135533
1
88
58.161 Kg.
Interpretación.- el peso promedio de los alumnos es de 58.161 Kg.
Cálculo para datos agrupados.H
k
i
n
ni
1 Xi
1
k
i 1
hi
Xi
Fórmula para trabajar bien con las repeticiones o frecuencias absolutas ni o para
trabajar con las frecuencias relativas hi. Por tratarse de datos agrupados Xi
representa la marca de clase para los intervalos o el valor indicado para los casos
discretos con poca variabilidad de los valores observados.
Ejemplo 3.13
Calcular la media armónica con los datos agrupados del Cuadro 2.7, peso de los 60
alumnos de Estadística Básica 09-A FCE-UNAC, siguientes:
Clase
PESOS (Kg.)
i
1
2
3
4
5
LIi
44.0
52.8
61.6
70.4
79.2
LSi
52.8
61.6
70.4
79.2
88.0
Marca
Prop.
Acum. Prop.Ac.
Alum-nos
alumnos alumnos alumnos
clase
Xi
ni
hi
Ni
Hi
48.4
19
0.317
19
0.317
57.2
15
0.250
34
0.567
66.0
17
0.283
51
0.850
74.8
5
0.083
56
0.933
83.6
4
0.067
60
1.000
60
1.000
Solución.Desarrollando la fórmula se tiene:
H
k
i
n
ni
1 Xi
60
ni
1 Xi
5
i
n1
X1
n2
X2
60
n3
X3
n4
X4
138
n5
X5
=
=
19
48.4
15
57.2
60
17
66.0
60
58.419 Kg.
1.0270673130
5
4
74.8 83.6
Interpretación.- el peso promedio de los alumnos es de 58.419 Kg.
RELACIÓN ENTRE LAS MEDIAS ARITMÉTICA, GEOMÉTRICA Y
ARMÓNICA
Si se calcula estas tres medias para los mismos datos se tiene que:
H
G
X
Para los pesos de los alumnos se han obtenido los siguientes resultados:
Datos:
H
G
Sin agrupar
58.161
58.994
X
59.868
Agrupados
58.419
59.255
60.133
Vemos que se cumple la relación.
139
3.7 CUANTILES
Son particiones de la distribución de frecuencias en un determinado número de
partes iguales.
Entre los cuantiles más conocidos se tiene: mediana (dos partes iguales), cuartiles
(cuatro partes iguales), quintiles (cinco partes iguales), deciles (diez partes iguales),
veintiles (veinte partes iguales) y percentiles (cien partes iguales).
Desarrollaremos los de mayor uso viendo su forma de cálculo e interpretación. Se
calculan de modo similar a la mediana.
a) CUARTILES (Qk )
Son particiones de la distribución de frecuencias en cuatro partes iguales de
modo que cada una de ellas acumula un cuarto de las observaciones (25% de los
datos).
X
25% datos
Q1 25% datos
Q2
25% datos
Q3
25% datos
Para dividir la distribución de frecuencias en cuatro partes iguales necesitamos 3
puntos, por ello los cuartiles son tres y se denotan de la siguiente manera:
Cuartil 1 = Q1 acumula la cuarta parte de las observaciones (25%).
Cuartil 2 = Q2 acumula las dos cuartas partes de las observaciones (50%).
Cuartil 3 = Q3 acumula las tres cuartas partes de las observaciones (75%).
140
El cuartil dos es igual a la mediana (acumula el 50% de los valores observados).
Es decir, Q2 = Me ya estudiada.
Cálculo para datos sin agrupar.a) Ordenar las observaciones en forma ascendente: X(1) , X(2) , …. , X(n)
b) Obtención de los cuartiles 1 y 3:
Cuartil 1 (Q1)
Ubicar su posición calculando
n 1
, si es entero Q1
4
X
n 1
4
.
Si no es entero, el resultado es de la forma E.F, donde E es la parte entera
y F la fracción decimal, entonces hacer una interpolación lineal entre las
observaciones ordenadas E y (E + 1) entre las cuales esta la fracción F.
Dicha interpolación lineal es similar para cualquier cuantil que vamos a
estudiar, se efectúa así: Cuantil X
Aquí el cuartil 1 es: Q1 X
E
F X
F X
E
E 1
X
X
E 1
E
E
Cuartil 3 (Q3)
Ubicar su posición calculando
3( n 1)
, si es entero Q3
4
X
3( n 1)
4
.
Si no es entero, el resultado es de la forma E.F, donde E es la parte entera
y F la fracción decimal, entonces hacer una interpolación lineal antes
indicada entre las observaciones ordenadas E y (E + 1) entre las cuales esta
la fracción F.
Entonces el cuartil 3 es: Q3 X
E
F X
E 1
X
E
Ejemplo 3.14
Calcular los cuartiles 1 y 3 con los datos sin agrupar del Cuadro 2.6, peso en Kg.
de los 60 alumnos de Estadística Básica 09-A, cuyos pesos ordenados son:
44
45
46
46.5
47
48
48
49
49
50
50
50
50
50.5
51
51
52
52
52.6
53
53
53
53
54
55
55
55
55
55
57
57
59
60
60
63
63
64
64
64.5
65
65
66
66
67
67
68
68
68
69
70
70
72
72
75
75
77
80
80
80
88
141
Solución:
Cálculo del cuartil 1 (Q1)
Ubicar su posición con
n 1
4
60 1
15.25 . Como no es un valor entero, (E =
4
15 y F = 0.25), el cuartil 1 esta entre los pesos ordenados 15 y 16 (51 y 51 Kg.).
Aplicando la interpolación lineal recomendada, el cuartil 1 es:
Q1 X 15
0.25 X 16
X 15
= 51 + 0.25 [51 - 51] = 51 Kg.
Interpretación.- El 25 % de los alumnos de Estadística Básica 09-A tiene un peso
menor o igual a 51 Kg. y el 75% restante por encima de 51 Kg.
Cálculo del cuartil 3 (Q3)
Ubicar su posición con
3(n 1)
4
3(60 1)
4
45.75 . Como no es un valor
entero, (E = 45 y F = 0.75), el cuartil 3 esta entre los pesos ordenados 45 y 46
(67 y 68 kg.). Aplicando la interpolación lineal recomendada, el cuartil 3 es:
Q3
X
45
0.75 X
46
X
= 67 + 0.75 [68 - 67] = 67.75 Kg.
45
Interpretación.- El 75 % de los alumnos de Estadística Básica 09-A tiene un peso
menor o igual a 67.75 Kg. y el 25% restante por encima de 67.75 Kg.
Cálculo de los cuartiles con datos agrupados.-
a) Ubicar la clase j que contiene el cuartil k
Como en las tablas de frecuencias los valores de la variable están ordenados
en forma ascendente, se determina
kn
, k = 1, 2 ó 3. Ayudándonos de las
4
frecuencias acumuladas se ve que clase j contiene (o donde esta) el cuartil k
(Qk).
b) Calcular el cuartil k (Qk) usando cualquiera de las siguientes expresiones:
Qk
LI j
kn
4
Nj
nj
1
Cj
Donde:
142
LI j
k
Hj
4
hj
1
C j , k = 1, 2, 3.
j = clase que contiene o donde esta el cuartil k (Qk).
LIj = límite inferior de la clase que contiene el cuartil k (Qk).
nj = repeticiones en la clase que contiene el cuartil k (Qk).
Nj-1 = repeticiones acumuladas hasta la clase anterior a la que contiene Qk.
Cj = amplitud de la clase Qk = LSj – LIj .
hj = frecuencia relativa en la clase que contiene el cuartil k (Qk).
Hj-1 = frec. relativa acumulada hasta la clase anterior a la que contiene Qk.
Ejemplo 3.15
Calcule e interprete los cuartiles con los datos agrupados del Cuadro 2.7, peso de
los 60 alumnos de Estadística Básica 09-A FCE-UNAC, siguientes:
Clase
i
1
2
3
4
5
PESOS (Kg.)
LIi
44.0
52.8
61.6
70.4
79.2
LSi
52.8
61.6
70.4
79.2
88.0
Marca
Prop.
Acum. Prop.Ac.
Alum-nos
alumnos
alumnos
alumnos
clase
Xi
ni
hi
Ni
Hi
48.4
19
0.317
19
0.317
57.2
15
0.250
34
0.567
66.0
17
0.283
51
0.850
74.8
5
0.083
56
0.933
83.6
4
0.067
60
1.000
60
1.000
Solución. Cálculo del cuartil 1 (Q1)
k = 1.
a) Ubicar la clase j que contiene el valor del cuartil k = 1 (Q1):
kn
4
n
4
60
15 . ¿En que intervalo de clase se contó la observación o
4
peso del alumno 15?
Observando los Ni del Cuadro 2.7, vemos que en la clase 1, N1 = 19, se han
contado los pesos de los 19 primeros alumnos (recordemos que los pesos
están ordenadas de manera ascendente en el cuadro).
Luego, la clase en la que se contó la talla del alumno
kn
4
clase j = 1. El cuartil 1 es un peso entre 44.0 y 52.8 Kg.
b) Calcular el cuartil 1 (Q1) usando la expresión:
143
n
4
60
15 es la
4
Q1
LI j
n
Nj
4
nj
1
Cj
LI j
1
Hj
4
hj
1
Cj
Donde:
j = 1,
n = 60,
LIj = LI1 = 44.0,
nj = n1 = 19
C1 = LS1 – LI1 = 52.8 – 44.0 = 8.8.
Nj-1 = N0 = 0,
Reemplazando valores en la fórmula se tiene:
Q1
LI1
n
N0
4
C1
n1
44.0
60
0
4
8.8 46.947 Kg.
19
Interpretación.- El 25 % de los alumnos de Estadística Básica 09-A tiene un
peso menor o igual a 46.947 Kg. y el 75% restante por encima de46.947 Kg.
 Cálculo del cuartil 2 (Q2) es la mediana ya fue determinado.
 Cálculo del cuartil 3 (Q3)
k = 3.
a) Ubicar la clase j que contiene el valor del cuartil k = 3 (Q3):
kn
4
3n
4
3(60)
4
45 . ¿En que intervalo de clase se contó la observación o
peso del alumno 45?
Observando los Ni del Cuadro 2.7, vemos que hasta la clase 2, N2 = 34, se
han contado los pesos de los 34 primeros alumnos.
Entonces, en el intervalo de clase 3 se cuenta el peso del alumno 45.
Luego, la clase en la que se contó el peso del alumno
kn
4
3n
4
es la clase j = 3. El cuartil 3 es un peso entre 61.6 y 70.4 Kg.
b) Calcular el cuartil 3 (Q3) usando la expresión:
Q3
LI j
3n
Nj
4
nj
Donde:
144
1
Cj
LI j
3
Hj
4
hj
1
Cj
3(60)
4
45
j = 3,
n = 60,
LIj = LI3 = 616,
nj = n3 = 17.
C3 = LS3 – LI3 = 70.8 – 61.6 = 8.8.
Nj-1 = N2 = 34,
Reemplazando valores en la fórmula se tiene:
Q3
LI 3
3n
4
3(60)
34
4
8.8 66.259 Kg.
17
N2
n3
C3
61.6
Interpretación.- El 75 % de los alumnos de Estadística Básica 09-A tiene un
peso menor o igual a 66.259 Kg. y el 25% restante por encima de 66.259 Kg.
b) DECILES (Dk )
Son particiones de la distribución de frecuencias en diez partes iguales de modo
que cada una de ellas acumula un décimo de las observaciones (10% de los
datos).
10%
D1
10%
D2 ..…
10%
D9
10%
Para dividir la distribución de frecuencias en diez partes iguales se necesita 9
puntos, por ello los deciles son nueve y se denotan de la siguiente manera:
Decil 1 = D1 acumula la décima parte de las observaciones (10%).
Decil 2 = D2 acumula las dos décimas partes de las observaciones (20%).
Decil 3 = D3 acumula las tres décimas partes de las observaciones (30%).
Decil 4 = D4 acumula las cuatro décimas partes de las observaciones (40%).
Decil 5 = D5 acumula las cinco décimas partes de las observaciones (50%).
Decil 6 = D6 acumula las seis décimas partes de las observaciones (60%).
Decil 7 = D7 acumula las siete décimas partes de las observaciones (70%).
Decil 8 = D8 acumula las ocho décimas partes de las observaciones (80%).
Decil 9 = D9 acumula las nueve décimas partes de las observaciones (90%).
El decil cinco es igual a la mediana (acumula el 50% de los valores observados).
Es decir, D5 = Me.
El cálculo de los deciles y otros cuantiles se pueden efectuar mediante el cálculo
del percentil correspondiente, que pasamos a desarrollar.
145
c) PERCENTILES (Pk )
Son particiones de la distribución de frecuencias en cien partes iguales de modo
que cada una de ellas acumula un centésimo de las observaciones (1% de los
datos).
Para dividir la distribución de frecuencias en cien partes iguales necesitamos 99
puntos, por ello los percentiles son noventa y nueve y se denotan de la siguiente
manera:
Percentil 1 = P1 acumula una centésima parte de las observaciones (1%).
Percentil 2 = P2 acumula dos centésimas partes de las observaciones (2%).
Percentil 3 = P3 acumula tres centésimas partes de las observaciones (3%).
………….
Percentil k = Pk acumula las k centésimas partes de las observaciones (k%).
………….
Percentil 99 = P99 acumula las 99 centésimas partes de las observaciones (99%).
Nota.Todas los cuantiles calculados anteriormente son también percentiles (según el
% de observaciones que acumule cada uno de ellos).
Así tenemos que: la mediana (acumula el 50% de los valores observados) es
igual al percentil 50. Es decir, Me = P50.
También:
Q1 = P25,
Q2 = P50 = Me,
Q3 = P75.
D10 = P10,
D5 = P50 = Me,
D9 = P90.
Cálculo para datos sin agrupar.a) Ordenar las observaciones en forma ascendente: X(1) , X(2) , …. , X(n)
b) Obtención del k-ésimo percentil (Pk), k = 1, 2, 3, …., 99
Ubicar su posición calculando
k ( n 1)
, si es entero Pk
100
X
k ( n 1)
100
.
Si no es entero, el resultado es de la forma E.F, donde E es la parte entera y F
la fracción decimal, entonces hacer la interpolación lineal antes indicada entre
las observaciones ordenadas E y (E + 1) entre las cuales esta la fracción F.
Entonces el percentil k es:
Pk
X
E
F X
E 1
146
X
E
,
k = 1, 2, 3, …., 99
Ejemplo 3.16
Calcular los percentiles 10 y 80 con los datos sin agrupar del Cuadro 2.6, peso
en Kg. de los 60 alumnos de Estadística Básica 09-A, cuyos pesos ordenados
son:
44
45
46
46.5
47
48
48
49
49
50
50
50
50
50.5
51
51
52
52
52.6
53
53
53
53
54
55
55
55
55
55
57
57
59
60
60
63
63
64
64
64.5
65
65
66
66
67
67
68
68
68
69
70
70
72
72
75
75
77
80
80
80
88
Solución:
Cálculo del percentil 10 (P10)
10 (n 1)
100
Ubicar su posición con
10 (60 1)
100
6.1 . Como no es un valor
entero, (E = 6 y F = 0.10), el percentil 10 está entre los pesos ordenados 6 y 7
(48 y 48 Kg.). Aplicando la interpolación lineal recomendada, el percentil 10 es:
P10
X
6
0.10 X
X
7
= 48 + 0.10 [48 - 48] = 48 Kg.
6
Interpretación.- El 10 % de los alumnos de Estadística Básica 09-A tiene un peso
menor o igual a 48 Kg. y el 90% restante por encima de 48 Kg.
Cálculo del percentil 80 (P80)
Ubicar su posición con
80 (n 1)
100
80 (60 1)
100
48.80 . Como no es un valor
entero, (E = 48 y F = 0.80), el percentil 80 esta entre los pesos ordenados 48 y 49
(68 y 69 kg.). Aplicando interpolación lineal, el percentil 80 es:
P80
X
48
0.80 X
49
X
48
= 68 + 0.80 [69 - 68] = 68.80 Kg.
Interpretación.- El 80 % de los alumnos de Estadística Básica 09-A tiene un peso
menor o igual a 68.80 Kg. y el 20% restante por encima de 68.80 Kg.
Cálculo de los percentiles para datos agrupados.-
a) Ubicar la clase j que contiene el decil k
147
Como en las tablas de frecuencias los valores de la variable están ordenados
en forma ascendente, se determina
kn
, k = 1, 2, 3, …., 98 ó 99.
100
Ayudándonos de las frecuencias acumuladas se ve que clase j contiene (o
donde esta) el percentil k (Pk).
b) Calcular el percentil k (Pk) usando cualquiera de las siguientes expresiones:
Pk
LI j
kn
Nj
100
nj
1
Cj
LI j
k
Hj
100
hj
1
C j , k = 1, 2, 3, …., 98, 99.
Donde:
j = clase que contiene o donde esta el percentil k (Pk).
LIj = límite inferior de la clase que contiene el percentil k (Pk).
nj = repeticiones en la clase que contiene el percentil k (Pk).
Nj-1 = repeticiones acumuladas hasta la clase anterior a la que contiene Pk.
Cj = amplitud de la clase Pk = LSj – LIj .
hj = frecuencia relativa en la clase que contiene el percentil k (Pk).
Hj-1 = frec. relativa acumulada hasta la clase anterior a la que contiene Pk.
Ejemplo 3.17.Calcule e interprete los percentiles 10 y 80 con los datos agrupados del Cuadro
2.7, peso de los 60 alumnos de Estadística Básica 09-A FCE-UNAC, siguientes:
Clase
i
1
2
3
4
5
PESOS (Kg.)
LIi
44.0
52.8
61.6
70.4
79.2
LSi
52.8
61.6
70.4
79.2
88.0
Marca
Prop.
Acum. Prop.Ac.
Alum-nos
alumnos alumnos alumnos
clase
Xi
ni
hi
Ni
Hi
48.4
19
0.317
19
0.317
57.2
15
0.250
34
0.567
66.0
17
0.283
51
0.850
74.8
5
0.083
56
0.933
83.6
4
0.067
60
1.000
60
1.000
Solución. Cálculo del percentil 10 (P10)
k = 10.
a) Ubicar la clase j que contiene el valor del percentil k = 10 (P10):
148
kn
100
10n
100
10 (60)
100
6 . ¿En que intervalo de clase se contó la observación
o peso del alumno 6?
Observando los Ni del Cuadro 2.7, vemos que en la clase 1, N1 = 19, se han
contado los pesos de los 19 primeros alumnos. Luego, la clase en la que se
contó el peso del alumno
kn
100
10n
100
10 (60)
100
6 , es la clase j = 1. El
percentil 10 es una talla entre 44.0 y 52.8 Kg.
b) Calcular el percentil 10 (P10) usando la expresión:
P10
LI j
10n
100
Nj
10
Hj
100
hj
1
nj
Cj
LI j
1
Cj
Donde:
j = 1,
n = 60,
LIj = LI1 = 44.0,
nj = n1 = 19.
C1 = LS1 – LI1 = 52.8 – 44.0 = 8.8.
Nj-1 = N0 = 0,
Reemplazando valores en la fórmula se tiene:
P10
LI1
10n
N0
100
C2
n1
44.0
10(60)
0
100
8.8 46.779 Kg.
19
Interpretación.- El 10 % de los alumnos de Estadística Básica 09-A tiene un peso
menor o igual a 46.779 Kg. y el 90% restante por encima de 46.779 Kg.
 Cálculo del percentil 80 (P80)
k = 80.
a) Ubicar la clase j que contiene el valor del percentil k = 80 (P80):
kn
100
80n
100
80 (60)
100
48 .
¿En que intervalo de clase se contó la
observación o peso del alumno 48?
Observando los Ni del Cuadro 2.7, vemos que hasta la clase 2, N2 = 34, se
han contado los pesos de los 34 primeros alumnos. Entonces, en el intevalo
de la clase 3 se cuenta los pesos de los alumnos desde el 35 hasta el 51.
Luego, la clase en la que se contó el peso del alumno 48, es la clase j = 3. El
percentil 80 es una talla entre 61.6 y 70.4 Kg.
b) Calcular el percentil 10 (P10) usando la expresión:
149
P80
Donde: j = 3,
Nj-1 = N2 = 34,
80n
100
LI j
Nj
1
Cj
nj
n = 60,
LI j
80
Hj
100
hj
LIj = LI1 = 61.6,
1
Cj
nj = n3 = 17.
C3 = LS3 – LI3 = 70.4 – 61.6 = 8.8.
Reemplazando valores en la fórmula se tiene:
P80
LI3
80n
N2
100
C3
n3
80(60)
34
100
8.8 68.447 Kg.
17
61.6
Interpretación.- El 80 % de los alumnos de Estadística Básica 09-A tiene un peso
menor o igual a 68.447 Kg. y el 20% restante por encima de 68.447 Kg.
CUADRO 3.1 RESUMEN DE LOS CUANTILES CALCULADOS PARA LOS
PESOS (KG.) DE LOS ALUMNOS DE ESTADÍSTICA BÁSICA 09A , DE LA
FCE-UNAC, POR LA FORMA EN QUE ESTÁN LOS DATOS
CUANTIL
DATOS SIN AGRUPAR
DATOS AGRUPADOS
Cuartil 1
51.00
46.947
Cuartil 2 (mediana)
57.00
59.253
Cuartil 3
67.75
66.259
Percentil 10
48.00
46.779
Percentil 80
68.80
68.447
Cálculo de cuartiles y percentiles con los programas
Veamos como se pueden obtener los cuartiles y percentiles para la variable peso,
desde la base de datos construida (datos sin agrupar) utilizando los programas.
En Excel:
Con los datos de la variable peso de los 60 alumnos en la columna D, desde D3 hasta
D62, cuando en el programa se pide Matriz se sombrean estos o se escribe D3:D62.
Para calcular los CUARTILES, por ejemplo el CUARTIL 1, primero ubicarse en la
celda D66.
150
Luego, con la opción de funciones
del Excel, escoger dentro de Seleccionar una
categoría →Estadísticas → Cuartil, aparece la ventana de diálogo de la Figura 3.7.
Figura 3.7 Cálculo de cuartiles en Excel
Indicar los Argumentos de la función CUARTIL, en Matriz (dar la ubicación de los
pesos, desde la celda D3 hasta la D62) sombrear los datos o escribir D3:D62.
En Cuartil escribir un número (0 = valor mínimo, 1, 2, o 3 para el cuartil deseado y
4 = valor máximo) aquí 1.
Luego hacer clic en
y aparece el resultado del Cuartil 1= 51 Kg.
Similarmente se obtiene los cuartiles 2 y 3 en las celdas 67 y 68.
Conociendo la sintaxis de la función, =CUARTIL(matriz, cuartil) se hace así:
Ubicarse en la celda D66 y al lado de
escribir =CUARTIL(D3:D62,1).
Al hacer Enter, aparece el resultado 51 Kg. (ver la Figura 3.8).
Para obtener los PERCENTILES también se puede seleccionar la función
PERCENTIL o utilizar la sintaxis =PERCENTIL(matriz, k).
En matriz indicar la ubicación de los datos y k es un número entre 0 y 1 para indicar
el percentil como una proporción.
Para obtener el percentil 10, con matriz (D3:D62) y k = 0.10, se obtiene así: ubicarse
en la celda D69 y escribir =PERCENTIL(D3:D6, 0.10) al hacer Enter, aparece el
resultado 48 Kg. (ver la Figura 3.8). En dicha figura, se muestra también la sintaxis
de cálculo y el resultado del percentil 80, en la celda D70.
151
Figura 3.8 Resultado de cuartiles y percentiles en Excel
En Minitab:
Estando en la base de datos Estadística Básica 09A, escoger del menú Stat →Basic
Statistics → Display Descriptive Statistics… aparece la ventana de diálogo Display
Descriptive Statistics (ver Figura 3.4).
En variables: seleccionar la variable peso de las variables que están a la izquierda.
Hacer clic en el botón
y aparece la ventana de diálogo Descriptive
Satatistcs – Statistics (Figura 3.5).
Escoger los CUARTILES a calcular: First quartile (primer cuartil), Median (segundo
cuartil o mediana), Third quartile (tercer cuartil) y hemos agregado Minimum
(mínimo) y Maximum (máximo).
Hacer clic en OK y regresa a la ventana Display Descriptive Statistics.
Para terminar hacer clic en OK y en la ventana de Session aparecen los resultados
solicitados siguientes:
Descriptive Statistics: peso
Variable
peso
Minimum
44.00
Q1
51.00
Median
57.00
Q3
67.75
Maximum
88.00
En SPSS:
Estando en la base de datos Estadística Básica 09A, seguir la secuencia para obtener
la tabla de frecuencias: Analizar → Estadísticos descriptivos → Frecuencias.
Inmediatamente se abre la ventana de diálogo Frecuencias.
152
En Variables: ingresar la variable peso, luego hacer clic en el botón
y se
muestra la ventana de diálogo Frecuencias: Estadísticos de la Figura 3.9.
Figura 3.9 Cálculo de cuartiles y percentiles en SPSS
En Valores percentiles, seleccionar Cuartiles y Percentiles, debiendo escribir el
número de percentil deseado (10 y 80) por separado y luego hacer clic en Añadir.
Luego hacer clic en Continuar, regresando a la ventana de diálogo Frecuencias y
efectuar clic en Aceptar para terminar. Inmediatamente en el Visor de Resultados
aparece:
Estadísticos
PESO (Kg)
N
Percentiles
Válidos
Perdidos
10
25
50
75
80
60
0
48.00
51.00
57.00
67.75
68.80
Resultado de cuartiles y percentiles en SPSS
En los resultados del SPSS se aprecia que los cuartiles aparecen como los percentiles
25 (primer cuartil), 50 (segundo cuartil o mediana) y 75 (cuartil 3).
153
En R:
Estando en la base de datos Estadística Básica 09A y habiendo attachado la misma,
para que reconozca las variables y sus valores, se escribe en la consola la sintaxis
para PERCENTILES: quantile(variable, p)
Donde variable es un conjunto de datos cuantitativos (peso aquí) y p es una
proporción para identificar a uno o varios percentiles determinados. Es decir, que
quantile es el valor por abajo del cual se encuentra el p% de las observaciones.
El percentil 10 (p =0.10) para la variable peso se obtiene así:
> quantile(peso,0.10)
10%
48
Si se requiere los percentiles 10 (0.10), 25 (0.25 = cuartil 1), 50 (0.50 = cuartil 2 o
mediana), 75(0.75 = cuartil 3) y 80 (0.80), entonces se define p como un vector con
las proporciones indicadas y luego la función cuantile, así:
> p=c(0.10, 0.25, 0.50, 0.75, 0.80)
> quantile(peso,p)
10%
25%
50%
75%
80%
48.00 51.00 57.00 67.25 68.20
CUADRO 3.2 RESUMEN DE LOS PERCENTILES CALCULADOS PARA
LOS PESOS (KG.) DE LOS ALUMNOS DE ESTADÍSTICA BÁSICA 09A,
DE LA FCE-UNAC, POR PROGRAMA USADO
PERCENTIL
MANUAL
EXCEL
MINITAB
SPSS
R
10
48.00
48.00
-
48.00
48.00
25 o cuartil 1
51.00
51.00
51.00
51.00
51.00
50 o cuartil 2
57.00
57.00
57.00
57.00
57.00
75 o cuartil 3
67.75
67.25
67.75
67.75
67.25
80
68.80
68.20
-
68.80
68.20
154
Capítulo 4. MEDIDAS DE DISPERSIÓN Y DE FORMA
“Vivimos en la era de la televisión. Una sola toma de una enfermera
bonita ayudando a un viejo a salir de una sala dice más que todas las
estadísticas sanitarias”
Margaret Thatcher
CONTENIDO
4.1
4.2
4.3
4.4
4.5
4.6
4.7
4.8
Introducción.
Rango. Rango intercuartílico.
Desviación media.
La varianza
La desviación típica.
El coeficiente de variación.
El diagrama de caja (Box- Plot).
Medidas de forma de la distribución.
4.1 INTRODUCCIÓN
En el capítulo anterior vimos la caracterización de los datos de una variable mediante
un solo punto, es decir, el resumen de los datos a través de un solo valor, el mismo que
no es suficiente para formarse una idea de la distribución de la variable.
En el presente capítulo se continúa haciendo resúmenes de la información cuantitativa
obtenida, describiendo el mayor o menor alejamiento de los valores observados en
formas absolutas y relativas.
Entre las formas absolutas de medición tenemos el rango, el rango intercuartílico, la
desviación media, la varianza y la desviación estándar; en tanto que como medición
relativa usaremos el coeficiente de variación.
También se presenta una forma gráfica de apreciar la dispersión de los datos, a través
del diagrama de caja y bigotes (box-plot) como herramienta importante para el análisis
exploratorio de datos.
155
4.2 RANGO Y RANGO INTERCUARTÍLICO
RANGO
El Rango (R), Recorrido o Amplitud de la variable es la diferencia entre el valor
máximo y mínimo.
Es el indicador usado para construir tablas de frecuencias.
Cálculo para datos sin agrupar:
R = Xmáx – Xmín = {X / Xmín ≤ X ≤ Xmáx}
Cálculo para datos agrupados:
R = LSk – LI1 = {X / LSk ≤ X ≤ LI1 }
Ejemplo 4.1
Si trabajamos con los datos sin agrupar del Cuadro 2.6, peso en Kg. de los 60
alumnos de Estadística Básica 09-A, tenemos que el rango es:
R = Xmáx – Xmín = {X / Xmáx ≤ X ≤ Xmín }
R= 88 – 44 = 44 Kg.
o
R = {X / 44 ≤ X ≤ 88}
Interpretación.- la diferencia entre el peso máximo y mínimo de los alumnos de
Estadística Básica 09-A es de 44 Kg. También podemos decir que los pesos de
los 60 alumnos fluctúan entre 44 y 88 Kg.
Si trabajamos con los datos agrupados del Cuadro 2.7, peso en Kg. de los 60
alumnos de Estadística Básica 09-A, tenemos que el rango es:
R = LS5 – LI1 = {X / LSk ≤ X ≤ LI1 }
= 88 – 44 = 44 Kg.
o
R = {X / 44 ≤ X ≤ 88}
Interpretación.- la diferencia entre el peso máximo y mínimo de los alumnos de
Estadística Básica 09-A es de 44 Kg. También podemos decir que los pesos de
los 60 alumnos fluctúan entre 44 y 88 Kg.
Tal como se puede apreciar el Rango es una medida muy gruesa de la dispersión
de los datos ya que nos da una idea de la diferencia o fluctuación de los valores
extremos.
156
RANGO INTERCUARTÍLICO
El rango intercuartílico (RIQ o RIC) es la diferencia entre el cuartil 3 y el cuartil 1
y nos indica entre que valores se encuentra el 50% central de las observaciones.
25% datos
Q1
25% datos
Q2
25% datos
Q3
25% datos
Tanto para datos sin agrupar, como para datos agrupados la fórmula de cálculo es:
RIQ = Q3 – Q1 = P75 – P25
Ejemplo 4.2
En el ejemplo 3.14 de cuartiles, con los datos sin agrupar del Cuadro 2.6, peso
en Kg. de los 60 alumnos de Estadística Básica 09-A, se ha determinado que el
cuartil 1 es Q1 = 51 Kg. y el cuartil 3 es Q3 = 67.75 Kg. Reemplazando valores
RIQ = 67.75 – 51.00 = 16.75 Kg.
en la fórmula del RIQ se tiene:
Interpretación.- el 50% central de los pesos se encuentra entre 51 y 67.75 Kg.
En el ejemplo 3.15, con los datos agrupados del Cuadro 2.7, peso en Kg. de los
60 alumnos de Estadística Básica 09-A, se ha determinado que el cuartil 1 es
Q1 = 46.95 Kg. y el cuartil 3 es Q3 = 66.26 Kg. Reemplazando valores en la
fórmula del RIQ se tiene:
RIQ = 66.26 – 46.95 = 19.31 Kg.
Interpretación.- el 50% central de los pesos se encuentra entre 46.95 y 66.26
Kg.
157
4.3 DESVIACIÓN MEDIA
Mide la desviación absoluta promedio de los valores observados bien con respecto a
la media aritmética o con respecto a la mediana.
Utiliza la idea de distancia como la diferencia en valor absoluto de cada valor
observado con respecto a su media aritmética o su mediana.
Cálculo para datos sin agrupar.-
n
n
Xi
X
X i Me
i 1
DM X
ó
n
DM X
i 1
n
Primero se calcula la media aritmética o mediana, luego la desviación media.
Ejemplo 4.3
Calcular la desviación media respecto a la media aritmética con los datos sin
agrupar del Cuadro 2.6, peso en Kg. de los 60 alumnos de Estadística Básica 09-A,
cuyos pesos ordenados son:
44
45
46
46.5
47
48
48
49
49
50
50
50
50
50.5
51
51
52
52
52.6
53
53
53
53
54
55
55
55
55
55
57
57
59
60
60
63
63
64
64
64.5
65
65
66
66
67
67
68
68
68
69
70
70
72
72
75
75
77
80
80
80
88
Solución.En el ejemplo 3.1 se ha determinado que el peso promedio de los 60 alumnos de
Estadística Básica 09-A es X = 59.87 Kg. y en el ejemplo 3.4 la mediana Me = 57
Kg. Para calcular la desviación media respecto a la media aritmética, se tiene que:
n
60
Xi
DM X
X
i 1
X i 59.87
i 1
n
44 59.87
60
45 59.87
15.87 14.87 13.87
60
46 59.87
60
20.13 28.13
158
80 59.87
540.38
60
88 59.87
9.006 Kg.
Interpretación.- el promedio de las desviaciones absolutas de los pesos de los
alumnos respecto a su media aritmética es de 9.006 Kg.
Nota.- el cálculo y la interpretación de la desviación media respecto a la mediana se
efectúa de modo similar al de la media aritmética, sólo que se trabaja con Me = 57
Kg.
Cálculo para datos agrupados.k
k
Xi
DM X
X ni
Xi
k
i 1
Xi
n
X hi ó DM Me
i 1
Me ni
k
i 1
n
Xi
Me hi
i 1
Primero se calcula la media aritmética o mediana, luego la desviación media.
Ejemplo 4.4
Calcular la desviación media respecto a la mediana, con los datos agrupados del
Cuadro 2.7, peso de los 60 alumnos de Estadística Básica 09-A FCE-UNAC,
siguientes:
Clase
PESOS (Kg.)
i
1
2
3
4
5
LIi
44.0
52.8
61.6
70.4
79.2
LSi
52.8
61.6
70.4
79.2
88.0
Marca
Prop.
Acum. Prop.Ac.
Alum-nos
alumnos
alumnos
alumnos
clase
Xi
ni
hi
Ni
Hi
48.4
19
0.317
19
0.317
57.2
15
0.250
34
0.567
66.0
17
0.283
51
0.850
74.8
5
0.083
56
0.933
83.6
4
0.067
60
1.000
60
1.000
Solución.En el ejemplo 3.1 se ha encontrado la media aritmética X = 60.13 kg. y en el
ejemplo 3.5 la mediana Me = 59.25 Kg.,
Usando la fórmula de datos agrupados para la desviación media se tiene que:
k
5
X i Me ni
DM Me
i 1
X i 59.25 ni
i 1
n
60
159
X 1 59.25 n1
X 2 59.25 n2
X 3 59.25 n3
X 4 59.25 n4
X 5 59.25 n5
60
1 48.4 59.25 19 57.2 59.25 15
60 74.8 59.25 5 83.6 59.25 4
66.0 59.25 17
= [206.15 + 30.75 + 114.75 + 77.75 + 97.4] / 60 = 526.8 / 60 = 8.78 Kg.
Interpretación.- el promedio de las desviaciones absolutas de los pesos de los
alumnos respecto a su media aritmética es de 8.78 Kg.
Nota.- el cálculo y la interpretación de la desviación media respecto a la media
aritmética se efectúa de modo similar al de la mediana, sólo que se trabaja con X =
60.13 kg.
4.4 VARIANZA
Mide el promedio de las desviaciones al cuadrado de los valores observados con
respecto a la media aritmética.
Se denota por:
o
2
X
V (X )
2
S X2
V (X )
S2
para la población.
para la muestra.
Cálculo para datos sin agrupar.-
N
N
)2
(Xi
2
X
a) Varianza poblacional:
i 1
N
2
N
n
X )2
(Xi
S X2
N
i 1
n
b) Varianza muestral:
X i2
i 1
X i2 n X 2
i 1
n 1
n 1
Cálculo para datos agrupados.k
k
(Xi
a) Varianza poblacional:
2
X
i 1
X i2 ni
i 1
N
160
) 2 ni
N
N
2
k
k
(Xi
S X2
b) Varianza muestral:
X )2 ni
i 1
X i2 ni n X 2
i 1
n 1
n 1
Primero se calcula la media aritmética para datos agrupados y luego la varianza.
Ejemplo 4.5
Calcular la varianza con los datos sin agrupar del Cuadro 2.6, peso en Kg. de los 60
alumnos de Estadística Básica 09-A, cuyos pesos ordenados son:
44
45
46
46.5
47
48
48
49
49
50
50
50
50
50.5
51
51
52
52
52.6
53
53
53
53
54
55
55
55
55
55
57
57
59
60
60
63
63
64
64
64.5
65
65
66
66
67
67
68
68
68
69
70
70
72
72
75
75
77
80
80
80
88
Solución.En el ejemplo 3.1 se ha determinado que la media aritmética µ = 59.87 Kg.
Primera forma de cálculo:
N
60
)2
(Xi
2
( X i 59.87) 2
i 1
i 1
N
60
(44 59.87)2 (45 59.87)2 (46 59.87)2
60
251.8569 221.1169 192.3769
60
6542.47
60
(80 59.87)2 (88 59.87)2
405.2169 791.2969
109.0412 (Kg.)2.
Otra forma de cálculo es:
N
60
X i2
2
i 1
N
2
X i2 60
2
…………. (1)
i 1
N
60
161
60
X i2
442
452
462
802 882
i 1
= 1 936 + 2 025 + 2 116 + ….+ 6 400 + 7 744 = 221 595.5
Reemplazando este resultado en (1) se tiene:
60
X i2 60
2
2
221,595.5 60(59.87) 2
60
i 1
60
6,542.47
109.0412 Kg.2
60
Nota.- la mayor precisión en este cálculo se obtiene con µ = 59.8683333.
Interpretación.- el promedio de las desviaciones al cuadrado de los pesos de los
alumnos respecto a su media aritmética es de 109.0412 (Kg.)2.
Ejemplo 4.6
Calcular la varianza de los pesos de los 60 alumnos de Estadística Básica 09-A
FCE-UNAC, con los datos agrupados del Cuadro 2.7, siguientes:
Clase
i
1
2
3
4
5
PESOS (Kg.)
LIi
44.0
52.8
61.6
70.4
79.2
LSi
52.8
61.6
70.4
79.2
88.0
Marca
Prop.
Acum. Prop.Ac.
Alum-nos
alumnos
alumnos
alumnos
clase
Xi
ni
hi
Ni
Hi
48.4
19
0.317
19
0.317
57.2
15
0.250
34
0.567
66.0
17
0.283
51
0.850
74.8
5
0.083
56
0.933
83.6
4
0.067
60
1.000
60
1.000
Solución.En el ejemplo 3.1 se ha encontrado que la media aritmética es µ = 60.133 kg.
Primera forma de cálculo:
k
5
) 2 ni
(Xi
2
i 1
( X i 60.133) 2 ni
i 1
N
60
2
2
2
1 ( X 1 60.133) n1 ( X 2 60.133) n2 ( X 3 60.133) n3
60 ( X 4 60.133)2 n4 ( X 5 60.133)2 n5
162
2
2
2
1 (48.4 60.133) 19 (57.2 60.133) 15 (66.0 60.133) 17
60 (74.8 60.133)2 5 (83.6 60.133)2 4
= (2615.7511 + 129.0667 + 585.1022 + 1075.5555 + 2202.7378) / 60
= (6608.2133) / 60 = 110.1369 (Kg.)2.
Otra forma de cálculo:
k
5
X i2 ni
2
N
2
i 1
X i2 ni 60
2
…………. (2)
i 1
N
60
5
X i2 ni
(48.4)219 (57.2)215 (66.0)217 (74.8)2 5 (83.6)2 4
i 1
= 223 569.28
Reemplazando este resultado en (2) se tiene:
5
X i2 ni 60
2
2
223569.28 60(60.1333333) 2
60
i 1
60
6608.2133
60
= 110.1369 (Kg.)2.
Interpretación.- el promedio de las desviaciones al cuadrado de los pesos de los
alumnos respecto a su media aritmética es de 110.1369 (Kg.)2.
Propiedades de la varianza.a) La varianza de un conjunto de datos es mayor o igual que cero, S X2 ≥ 0.
b) Si a y b son números reales e Yi
2
SaX
b
aX i b, entonces:
V (aX
b)
a 2V ( X )
Demostración:
n
(Yi Y )2
SY2
V (Y )
i 1
n 1
……….
163
(3)
a 2 S X2
Sabemos que si a y b son números reales e Yi
aX i b, entonces : Y
aX
b
Reemplazando este resultado en (3) se tiene:
n
n
b)]2
[aX i b (aX
SY2
V (Y )
i 1
a2 ( X i
i 1
n 1
2
SaX
Entonces:
Si b = 0, entonces:
2
SaX
S X2
n 1
b
V (aX
V (aX )
2
Si a = 0, entonces: S b
Si a =1, entonces:
X )2
b)
a 2V ( X )
a 2V ( X )
a 2V ( X ) a 2 S X2
a 2 S X2
a 2 S X2
V ( b) 0
b
V (X
b) V ( X )
S X2
Ejemplo 4.7.- si la varianza del ingreso de los trabajadores es S X2 = 250,000
(S/.)2. Hallar la varianza de los ingresos si se producen los siguientes
incrementos:
 S/. 100 para cada trabajador, entonces el nuevo ingreso de cada
trabajador es: Yi = Xi + 100. Donde: a = 1 y b = 100.
Luego la varianza del nuevo ingreso de los trabajadores es:
SY2 = V(X + 100) = S X2 = 250,000 (S/.)2.
 10% para cada trabajador, entonces el nuevo ingreso de cada trabajador
es Yi = 1.10 Xi. Donde: a = 1.10 y b = 0.
Luego la varianza del nuevo ingreso de los trabajadores es:
SY2 = V(1.10 X) = (1.10)2 S X2 = (1.10)2 250,000 = 302,500 (S/.)2.
 5% más S/. 50 a cada trabajador, entonces el nuevo ingreso de cada
trabajador es Yi = 1.05 Xi + 50. Donde: a = 1.05 y b = 50.
Luego la varianza del nuevo ingreso de los trabajadores es:
SY2 = V(1.05 X + 50) = (1.05)2 S X2 = (1.05)2 250,000 = 275,625 (S/.)2.
c) Si se tiene k subgrupos (submuestras o estratos) de tamaños n1, n2, …., nk, tales
k
que
ni
n ; con medias aritméticas de los subgrupos: x1 , x2 ,
i 1
164
, xk y varianzas
de los subgrupos: S12 , S22 ,
, Sk2 , entonces la varianza de la muestra de tamaño n
esta dada por:
K
K
(ni 1) Si2
S2
i 1
( xi
x ) 2 ni
i 1
n 1
,
n 1
k
ni xi
i 1
donde x
es la media aritmética ponderada de los subgrupos.
n
Observación.- en el muestreo estratificado la variabilidad (varianza) total S2 se
descompone en la suma de la variabilidad dentro de los estratos (intravarianza
S w2 ) más la variabilidad entre los estratos (intervarianza Sb2 ). Es decir:
S2
Sw2
Sb2
K
(ni 1) Si2
 La intravarianza esta definida por:
S w2
i 1
n 1
K
( xi
 La intervarianza esta definida por:
Sb2
x )2 ni
i 1
n 1
Nota.- al construir estratos (clases, grupos o rangos) se busca que la
intravarianza ( S w2 ) sea pequeña y la intervarianza ( Sb2 ) sea grande.
Ejemplo 4.8.- en una muestra de 400 hombres y 600 mujeres, el estudio de
los ingresos de ambos grupos dio los siguientes resultados:
SEXO
Número
Ingreso Medio
Varianza
ni
xi (S/.)
Si2 (S/.)2
1.Hombres
400
1,500
360,000
2.Mujeres
600
1,000
250,000
Hallar la media aritmética y la varianza de los ingresos de ambos grupos
juntos; así como la intravarianza e intervarianza.
La media aritmética de los ingresos de ambos grupos es:
165
2
ni xi
i 1
x
n
n1 x1 n2 x2
n
400(1,500) 600(1, 000)
1, 000
1' 200, 000
=
1, 000
= S/. 1,200
La intravarianza de los ingresos es:
2
(ni 1) Si2
S w2
(n1 1) S12 (n2 1) S22
n 1
i 1
n 1
=
399(360, 000) 599(250, 000)
999
218'390, 000
999
= 218,608.60 (S/.)2.
La intervarianza de los ingresos es:
2
( xi
Sb2
x )2 ni
i 1
n 1
=
( x1 x )2 n1 ( x2
n 1
x ) 2 n2
(1,500 1, 200) 2 (400) (1, 000 1, 200) 2 (600)
999
60'000, 000
999
= 60,060.06 (S/.)2.
La varianza de los ingresos de ambos grupos es:
S2
Sw2
Sb2 = 218,608.60 + 60,060.06 = 278,668.66 (S/.)2.
4.5 DESVIACIÓN ESTÁNDAR O DESVIACIÓN TÍPICA
Mide el promedio de las desviaciones de los valores observados con respecto a la
media aritmética.
Se denota por:
X
o
SX
S
Tanto para datos sin agrupar como para datos agrupados se define como la raíz
cuadrada de la varianza (bien poblacional o muestral).
2
o
S
S2
Nota.- en la teoría del muestreo la desviación estándar recibe la denominación de
error estándar.
166
Ejemplo 4.9.- en el ejemplo 4.5, se ha determinado la varianza (para datos sin
agrupar) de los pesos de los alumnos, siendo la misma σ2 = 109.0412 (Kg..)2.
Luego la desviación estándar será:
109.0412 = 10.442 Kg.
Interpretación.- el promedio de las desviaciones de los pesos de los alumnos
respecto a su media aritmética es de 10.442 Kg.
Ejemplo 4.10.- en el ejemplo 4.6, se ha determinado la varianza (para datos
agrupados) de los pesos de los alumnos, siendo la misma σ2 = 110.1369 (Kg..)2.
Luego la desviación estándar será:
110.1369 = 10.495 Kg.
Interpretación.- el promedio de las desviaciones de los pesos de los alumnos
respecto a su media aritmética es de 10.495 Kg.
4.6 COEFICIENTE DE VARIACIÓN
Mide el promedio de las variaciones porcentuales de los valores observados respecto
a la media aritmética.
Tanto para datos sin agrupar como para datos agrupados se define como:
CV ( X )
X
100
100
para la población.
X
cv( X )
SX
100
X
S
100
X
para la muestra.
Nota.- en la teoría del muestreo el coeficiente de variación recibe la denominación
de error relativo.
Ejemplo 4.11
En el ejemplo de los pesos de los 60 alumnos de Estadística Básica 09A-FCEUNAC, (para datos sin agrupar) se ha determinado que µ = 59.87 y σ = 10.442 Kg.
Luego el coeficiente de variación de los pesos de los alumnos es:
CV ( X )
100
10.442
.100 =17.44 %
59.87
Interpretación.- el promedio de las variaciones porcentuales de los pesos de los
alumnos de Estadística Básica 09A-FCE-UNAC, respecto a su media aritmética es
del 17.44 %.
167
Ejemplo 4.12
En el ejemplo de los pesos de los 60 alumnos de Estadística Básica 09A-FCEUNAC, (para datos agrupados) se ha determinado que µ = 60.133 y σ = 10.495 Kg.
Luego el coeficiente de variación de las tallas de los alumnos es:
CV ( X )
100
10.495
.100 = 17.45 %
60.133
Interpretación.- el promedio de las variaciones porcentuales de los pesos de los
alumnos de Estadística Básica 09A-FCE-UNAC, respecto a su media aritmética es
del 17.45 %.
Cálculo de los estadígrafos de dispersión con los programas
Veamos como se pueden obtener los estadígrafos de dispersión para la variable peso,
desde la base de datos construida (datos sin agrupar) utilizando los programas.
En Excel:
Con los datos de la variable peso de los 60 alumnos de estadística Básica 09-A en la
columna D, desde D3 hasta D62, cuando en el programa se pide Matriz se sombrean
estos o se escribe D3:D62.
Una primera forma de obtener los estadígrafos es con la opción de funciones
del
Excel, escoger dentro de Seleccionar una categoría →Estadísticas → escoger
estadígrafo y aparece ventana de diálogo en la que se indica los argumentos
requeridos y se obtiene el resultado.
Otra forma de obtenerlos es con la sintaxis para cada estadígrafo, que es la que
utilizaremos.
Para calcular el rango necesitamos el valor máximo y el valor mínimo. La sintaxis
correspondiente es: MAX(Matriz) y MIN(Matriz) respectivamente.
Para hallar el máximo de la variable peso, en la celda D71 escribir =MAX(D3:D62)
al hacer enter aparece 88 y para hallar el mínimo, en la celda D72 escribir
=MIN(D3:D62) al hacer enter aparece 44. Para hallar el rango, en la celda D73
escribir =D72-D7, al efectuar enter aparece 44(Ver figura 4.1).
Para hallar el rango intercuartílico (RIQ), se debe utilizar los resultados de los
cuatiles 1 y 3 calculados anteriormente en las celdas D66 y D68 respectivamente (ver
168
figura 3.8). En la celda D74 escribir =D68-D66, al efectuar enter aparece 16.25 (Ver
figura 4.1).
Para calcular la desviación media (Excel obtiene con respecto a la media aritmética)
usar la sintaxis: =DESVPROM(Matriz). Para la variable peso, en la celda D75
escribir =DESVPROM(D3:D62) al hacer enter aparece el resultado 9.006.
Para hallar la varianza de la muestra usar la sintaxis =VAR(Matriz) y para la
varianza de la población usar =VARP(Matriz). Para determinar la varianza de la
variable peso, en la casilla D76 escribir =VARP(D3:D62) al hacer enter aparece el
resultado 109.0412 (ver Figura 4.1).
Para calcular la desviación estándar muestral usar la sintaxis =DESVEST(Matriz)
y para la desviación estándar poblacional usar =DESVESTP(Matriz). Para la
variable peso, en la casilla D77 escribir =DESVESTP(D3:D62) al hacer enter
aparece el resultado 10.442 (ver Figura 4.1).
Para calcular el coeficiente de variación se divide la desviación estándar de la celda
D77 entre la media aritmética de la celda D63 así: en la casilla D78 escribir
=D77/D63 al hacer enter y luego clic en %, aparece 17.44%.
Figura 4.1 Medidas de Dispersión obtenidas con Excel
169
En Minitab:
Estando en la base de datos Estadística Básica 09A, escoger del menú Stat →Basic
Statistics → Display Descriptive Statistics… aparece la ventana de diálogo Display
Descriptive Statistics (vista en la Figura 3.4).
En variables: seleccionar la variable peso de las variables que están a la izquierda.
Hacer clic en el botón
y aparece la ventana de diálogo Descriptive
Satatistcs – Statistics (ver la Figura 4.2).
Figura 4.2 Selección de estadígrafos de dispersión en Minitab
Escoger los estadígrafos de dispersión a calcular: Range (rango) Interquartile range
(rango intercuartílico), variance (varianza), Standard deviation (desviación estándar)
y Coefficient of variation (coeficiente de variación).
Adicionalmente se ha solicitado mean (media) y N total (total de observaciones) ya
que el Minitab hace cálculos muestrales para la varianza y se necesita reajustar este y
otros cálculos.
Hacer clic en OK y regresa a la ventana Display Descriptive Statistics.
Para terminar hacer clic en OK y en la ventana de Session aparecen los resultados
solicitados siguientes:
Descriptive Statistics: peso
Variable
peso
Total
Count
60
Mean
59.87
StDev
10.53
Variance
110.89
170
CoefVar
17.59
Range
44.00
IQR
16.75
Se puede apreciar que los resultados obtenidos corresponden a cálculos muestrales,
por lo que hay que hacer reconversiones a valores poblacionales, así la varianza será:
N
)2
(Xi
2
i 1
N
( N 1) S 2
N
(50 1) 110.89
109.0412 Kg2.
60
Con este valor, ya se puede calcular la desviación estándar
109.0412 = 10.442
Kg. y el coeficiente de variación 17.44% (por ello solicitamos también la media
aritmética).
En SPSS:
Estando en la base de datos Estadística Básica 09A, seguir la secuencia para obtener
la tabla de frecuencias: Analizar → Estadísticos descriptivos → Frecuencias.
Inmediatamente se abre la ventana de diálogo Frecuencias.
En Variables: ingresar la variable peso, luego hacer clic en el botón
y se
muestra la ventana de diálogo Frecuencias: Estadísticos de la Figura 4.3.
Figura 4.3 Cálculo de estadígrafos de dispersión en SPSS
En Dispersión, seleccionar Desviación típica, Varianza, Amplitud (o Rango),
Mínimo y Máximo. Adicionalmente se ha solicitado media ya que, al igual que el
Minitab, el SPSS hace cálculos muestrales para la varianza y se necesita reajustar
este y otros cálculos. También se solicita cuartiles para calcular el RIQ.
171
Luego hacer clic en Continuar, regresando a la ventana de diálogo Frecuencias y
para terminar, efectuar clic en Aceptar. Inmediatamente en el Visor de Resultados
aparece:
Estadísticos
PESO (Kg)
N
Media
Des v. típ.
Varianza
Rango
Mínimo
Máximo
Percentiles
Válidos
Perdidos
25
50
75
60
0
59.87
10.530
110.889
44
44
88
51.00
57.00
67.75
Resultado de estadígrafos de dispersión en SPSS
Al igual que en el Minitab se tiene que reajustar la varianza muestral así:
N
(Xi
2
i 1
N
)2
( N 1) S 2
N
(50 1) 110.889
109.0412 Kg2.
60
Con este valor, ya se puede calcular la desviación estándar
109.0412 = 10.442
Kg. y el coeficiente de variación 17.44% (por ello solicitamos también la media
aritmética). Igualmente el RIQ = P75 – P25 = 67.75 – 51.00 = 16.75 Kg.
En R:
Estando en la base de datos Estadística Básica 09A y habiendo attachado la misma,
para que reconozca las variables y sus valores, donde variable es un conjunto de
datos cuantitativos (peso aquí).
Para calcular el Rango, escribir en la consola:
> range(variable) al hacer enter se obtiene el valor mínimo y el máximo.
> diff( range(variable)) al hacer enter se obtiene el rango (diferencia entre el valor
máximo y el mínimo).
Para la variable peso, se tiene:
> range(peso)
[1] 44 88
172
> diff(range(peso))
[1] 44
Para calcular el Rango intercuartílico (RIQ) usar la sintaxis IQR(variable), para la
variable peso se calcula así:
> IQR(peso)
[1] 16.25
Para obtener la Desviación media respecto a la media aritmética, escribir en la
consola:
> dm=sum(abs(peso-mean(peso)))/60
> dm
[1] 9.006222
Si se quiere calcular la desviación media respecto a la mediana, escribir en la
consola:
> dm=sum(abs(peso-median(peso)))/60
> dm
[1] 8.881667
Tanto la varianza como la desviación estándar calculadas en R son muestrales,
debiéndose efectuar los mismos ajustes realizados en Minitab y en SPSS.
La sintaxis para la varianza es var(variable) y para la desviación estándar
sd(variable). Los cálculos para la variable peso son:
> var(peso)
[1] 110.8893
> sd(peso)
[1] 10.5304
Al igual que en Minitab y SPSS se tiene que reajustar la varianza muestral así:
> N=length(peso)
>N
[1] 60
> var=(N-1)*var(peso)/N
> var
[1] 109.0412
173
> sd=var^0.5
> sd
[1] 10.44228
> cv=sd/mean(peso)*100
> cv
[1] 17.44207
En el Cuadro 4.1 se muestra el resumen de los estadígrafos de dispersión calculados.
CUADRO 4.1RESUMEN DE LAS MEDIDAS DE DISPERSIÓN CALCULADAS
PARA LOS PESOS (KG.) DE LOS ALUMNOS DE ESTADÍSTICA BÁSICA 09A,
DE LA FCE-UNAC, POR PROGRAMA USADO
ESTADÍGRAFO MANUAL
EXCEL
MINITAB
SPSS
R
Rango
44.00
44.00
44.00
44
44
RIQ
16.75
16.25
16.75
16.75
16.25
Desviación media
9.006
9.006
-
-
9.006
109.0412
109.0412
110.89 (a)
110.89 (a)
110.89 (a)
10.442
10.442
10.530 (a)
10.53 (a)
10.53 (a)
17.44%
17.44%
17.59 (a)
17.59 (a)
17.59 (a)
Varianza
Desviación
estándar
Coeficiente
de
variación
(a) Son resultados muestrales, que deben reajustarse.
4.7 DIAGRAMA DE CAJAS O BOXPLOT
El diagrama de cajas y bigotes o boxplot es un gráfico sencillo de realizar y fue
propuesto por Tukey (1977) para hacer el análisis exploratorio de datos de una variable
cuantitativa usando principalmente los cuartiles .
Para su elaboración, en un rectángulo (caja) se representan los cuartiles: en el extremo
inferior el cuartil 1, al extremo superior el cuartil 3 y entre ambos una línea divisoria para
174
representar el cuartil 2. Es decir, que la caja representa el RIQ, pues concentra el 50%
central de los valores observados.
De los extremos centrales de la caja se extienden los “bigotes” en la parte inferior hasta
el máx[Q1 - 1.5RIQ, mín (X1, X2, …., Xn)] y en la parte superior hasta el min[Q3 +
1.5RIQ, máx (X1, X2, …., Xn)]. Así mismo, por debajo de la parte inferior y por encima
de la parte superior de los bigotes se colocan los valores extremos (outliers) con
asteriscos, tal como se indica en la figura 4.4.
Figura 4.4 Estructura del diagrama de cajas y bigotes (boxplot)
Por lo general el boxplot se presenta rotado en 90º. Veamos la obtención del
diagrama de cajas para la variable peso usando los programas Minitab, SPSS y R.
En Minitab:
Estando en la base de datos Estadística Básica 09A, escoger del menú Graph
→Boxplot → Simple → OK aparece la ventana de diálogo Boxplot – One Y,
Simple (ver la Figura 4.5).
De la lista de variables del lado izquierdo seleccionar la variable peso e ingresarla en
Graph variables:.
Hacer clic en el botón
y en Title: poner el número y título del
gráfico. En este caso es:
GRÁFICO 4.1 BOXPLOT DEL PESO DE LOS ALUMNOS DE ESTADÍSTICA
BÁSICA 09-A, DE LA FCE-UNAC.
175
Para continuar hacer clic en OK y regresa a la ventana de Boxplot – One Y, Simple,
hacer clic en OK e inmediatamente aparece el boxplot (ver la figura 4.6).
Figura 4.5 Ventana de diálogo para definir el boxplot de peso en Minitab
Figura 4.6 Diagrama de cajas y bigotes de la variable peso en Minitab
176
Ubicándose dentro de la caja con el puntero del mouse, aparecen automáticamente
los cuartiles (ver la parte inferior de la figura 4.6). La lectura de los datos que allí
aparecen, permite describir que son 60 alumnos (N = 60), cuyos pesos fluctúan
entre 44 y 88 Kg. (Whiskers to = bigotes hasta: 44, 88) y que no hay pesos
extremos (outliers). Así mismo, los cuartiles indican que el 25% de los alumnos con
menos peso se encuentran por debajo de los 51 kg. (Q1) y el 25% de los alumnos
con más peso se encuentra por encima de los 67.75 Kg. (Q3). También que el 50%
de los alumnos pesa 57 Kg. o menos (median = mediana = 57 Kg.) y que el 50%
central de los pesos de los alumnos está entre 51 (Q1) y 67.75 Kg. (Q3).
También se puede obtener boxplot para hacer comparaciones entre una variable
cuantitativa, con alguna variable categórica; como puede ser en este caso ver el
comportamiento del peso de los alumnos por sexo (hombres y mujeres).
Para ello, estando en la ventana de diálogo de la figura 4.5 y con las etiquetas de
sexo como texto, hacer clic en el botón
y aparece la ventana de
diálogo Boxplot – Multiple Graphs, hacer clic en By variables (ver la figura 4.7).
Figura 4.7 Efectuando Gráfico Múltiple de Boxplot para peso, por sexo
177
Seleccionar la variable sexo (con las etiquetas en texto) en By variables with
groups in separate panels: si se desea en un solo gráfico, pero en paneles
separados, el boxplot para hombres y mujeres (el que se ha escogido aquí); y si se
desea dos gráficos separados de boxplot uno para hombres y otro para mujeres
selecciona la variable sexo en By variables with groups on separate graphs:.
Para continuar hacer clic en OK y regresa a la ventana de la figura 4.5 de Boxplot –
One Y, Simple, hacer clic en OK e inmediatamente aparece el Gráfico 4.2 boxplot
para cada sexo (ver la figura 4.8).
GRÁ FICO 4.2 BOXPLOT DEL PESO DE LOS A LUMNOS DE ESTA DÍSTICA BÁ SICA 09-A FCE-UNA C,
POR SEXO
Hombre
90
Mujer
Peso (Kg.)
80
70
60
50
40
Panel variable: sexo
Figura 4.8 Boxplot del peso para hombres y mujeres en Minitab
Se puede hacer las comparaciones pertinentes y enriquecer el análisis de la variable
cuantitativa comparada para algunas variables categóricas consideradas en el
estudio.
Aquí se puede apreciar que las mujeres pesan mucho menos que los hombres; no
obstante dentro de ellas hay dos alumnas cuyos pesos sobresalen del resto
(outliers). Haciendo clic con el puntero del mouse en los asteriscos, nos indica que
se trata de las alumnas 19 con 63 Kg. de peso y la alumna 26 con 66 Kg.
178
En SPSS:
Estando en la base de datos Estadística Básica 09A, seguir la secuencia: Analizar →
Estadísticos descriptivos → Explorar y aparece la ventana de la Figura 4.9.
Figura 4.9 Ventana de diálogo Explorar para definir el boxplot de peso en SPSS
En Dependientes: ingresar la variable peso. En Mostrar esta seleccionado Ambos,
ya que saca Estadísticos (descriptivos) y Gráficos (tiene seleccionado el boxplot) por
lo que sólo queda hacer clic en Aceptar y aparece el Boxplot de la figura 4.10.
90
80
70
60
50
40
PESO (Kg)
Figura 4.10 Diagrama de cajas y bigotes de la variable peso en SPSS
179
Si se desea un gráfico de boxplot para hombres y mujeres en un solo gráfico;
entonces, en la ventana de diálogo Explorar de la figura 4.9, en Factores: se ingresa
la variable sexo y para finalizar hacer clic en Aceptar e inmediatamente aparece el
resultado de la Figura 4.11.
90
PESO (Kg)
80
70
26
19
60
50
40
Hombre
Mujer
SEXO
Figura 4.11 Boxplot del peso para hombres y mujeres en SPSS
En R:
Estando en la base de datos Estadística Básica 09A y habiendo attachado la misma,
para que reconozca las variables y sus valores, donde variable es un conjunto de
datos cuantitativos (peso aquí).
Para graficar el Boxplot, escribir en la consola: boxplot (variable).
El diagrama de cajas y bigotes para la variable peso se obtiene así:
> boxplot(peso, col="yellow", main="BOXPLOT PESO", ylab="Peso (Kg.)")
La representación del boxplot se muestra en la Figura 4.12.
180
Figura 4.12 Diagrama de cajas y bigotes de la variable peso en R
Para obtener el boxplot de hombres y mujeres en un solo gráfico escribir:
> plot(sex, peso,xlab="Sexo",ylab="Peso (Kg.)", main="BOXPLOT PESO DE LOS
ALUMNOS")
La representación se muestra en la Figura 4.13
En los tres programas se obtienen las representaciones del diagrama de cajas,
debiendo escogerse aquella que este disponible o tenga una mejor presentación,
quedando en potestad del investigador escoger la misma.
181
Figura 4.13 Boxplot del peso para hombres y mujeres en R
4.8 MEDIDAS DE FORMA DE LA DISTRIBUCIÓN
Cuando se quiere caracterizar mejor la distribución de frecuencias, muchas veces se
recurre a la distribución normal de probabilidades, que es una distribución simétrica
respecto a su media aritmética, concentrando por debajo de este valor a la mitad de las
observaciones y la otra mitad por encima de dicho valor.
Para saber si la concentración de observaciones por debajo de la media es menor o
mayor a la mitad de las mismas se usan las medidas de asimetría. Por otro lado, la poca
o fuerte concentración de observaciones entorno a la media se va estudiar con las
medidas de curtosis o apuntamiento.
182
MEDIDAS DE ASIMETRÍA
Según Pérez (2002) “Las medidas de asimetría tienen como finalidad el elaborar un
indicador que permita establecer el grado de simetría (o asimetría) que presenta una
distribución sin necesidad de llevar a cabo su representación gráfica. Supongamos hemos
representado gráficamente una distribución de frecuencias. Si trazamos una
perpendicular al eje de las abscisas por x y tomamos esta perpendicular como eje de
simetría, diremos que una distribución es simétrica si existe el mismo número de valores
a ambos lados de dicho eje, equidistantes de x dos a dos, y tales que cada par de valores
equidistantes de x tengan la misma frecuencia. En caso contrario, las distribuciones
serán asimétricas”
a) Coeficiente de asimetría de Pearson.Para distribuciones unimodales y ligeramente asimétricas, Karl Pearson encontró
que la relación empírica entre la media aritmética, la mediana y la moda es:
X
Mo
Me , la misma que es utilizada en su coeficiente:
3X
Ap
X
Mo
3 X
S
Me
S
Donde S es la desviación estándar.
Si Ap = 0, la distribución es simétrica.
Si Ap > 0, la distribución es asimétrica positiva o asimétrica a la derecha.
Si Ap < 0, la distribución es asimétrica negativa o asimétrica a la izquierda.
b) Coeficiente de asimetría de Fisher.El coeficiente de asimetría propuesto por R.A. Fisher es:
Af
Af
1
n
n
Xi
X
3
i 1
, para datos sin agrupar.
3
1
n
k
3
Xi
X ni
i 1
3
, para datos agrupados.
Donde σ es la desviación estándar poblacional.
Si Af = 0, la distribución es simétrica.
Si Af > 0, la distribución es asimétrica positiva o asimétrica a la derecha.
Si Af < 0, la distribución es asimétrica negativa o asimétrica a la izquierda.
183
Ejemplo 4.13
Con los datos sin agrupar del Cuadro 2.6, peso en Kg. de los 60 alumnos de
Estadística Básica 09-A, cuyos pesos ordenados son:
44
45
46
46.5
47
48
48
49
49
50
50
50
50
50.5
51
51
52
52
52.6
53
53
53
53
54
55
55
55
55
55
57
57
59
60
60
63
63
64
64
64.5
65
65
66
66
67
67
68
68
68
69
70
70
72
72
75
75
77
80
80
80
88
Hallar los coeficientes de asimetría de Pearson y el de Fisher.
Solución.En ejemplos anteriores se obtuvo µ = 59.868, Me = 57 y σ = 10.442 Kg.
Luego el coeficiente de asimetría de Pearson es:
Ap
3 X
Me
3 59.868 57
10.442
S
= 0.82 > 0, los pesos tienen distribución
asimétrica positiva.
El coeficiente de asimetría de Fisher es:
Af
1
n
n
Xi
X
3
i 1
3
1
(38558.56)
60
(10.442)3
= 0.56 > 0, entonces los pesos tienen
distribución asimétrica positiva.
Ejemplo 4.14
Hallar los coeficientes de asimetría de Pearson y el de Fisher, de los pesos de los 60
alumnos de Estadística Básica 09-A FCE-UNAC, con los datos agrupados del
Cuadro 2.7, siguientes:
Clase
i
1
2
3
4
5
PESOS (Kg.)
LIi
44.0
52.8
61.6
70.4
79.2
LSi
52.8
61.6
70.4
79.2
88.0
Marca
Prop.
Acum. Prop.Ac.
Alum-nos
alumnos alumnos alumnos
clase
Xi
ni
hi
Ni
Hi
48.4
19
0.317
19
0.317
57.2
15
0.250
34
0.567
66.0
17
0.283
51
0.850
74.8
5
0.083
56
0.933
83.6
4
0.067
60
1.000
60
1.000
184
Solución.En ejemplos anteriores se obtuvo µ = 60.133, Me = 59.253 y σ = 10.495 Kg.
Luego el coeficiente de asimetría de Pearson es:
3 X
Ap
Me
3 60.133 59.253
10.495
S
= 0.25 > 0, los pesos tienen distribución
asimétrica positiva.
El coeficiente de asimetría de Fisher es:
Af
1
n
n
Xi
3
X
ni
i 1
3
1
(39828.25)
60
(10.495)3
= 0.57 > 0, entonces los pesos tienen
distribución asimétrica positiva.
MEDIDAS DE CURTOSIS O APUNTAMIENTO
Según Chue J.y Otros (2007) “La curtosis cuantifica la cantidad de observaciones
que se agrupan alrededor de las medidas de tendencia central de la distribución de los
datos”.
La fórmula de cálculo de la curtosis es:
K
K
1
n
n
Xi
X
4
i 1
3 , para datos sin agrupar.
4
1
n
k
4
Xi
X ni
i 1
4
3 , para datos agrupados.
Donde σ es la desviación estándar poblacional.
Si K = 0, la distribución es mesocúrtica (apuntamiento normal).
Si K > 0, la distribución es leptocúrtica (puntiaguda).
Si K < 0, la distribución es platicúrtica (achatada).
Ejemplo 4.15
Con los datos sin agrupar del Cuadro 2.6 (ver ejemplo 4.13), peso en Kg. de los 60
alumnos de Estadística Básica 09-A, hallar el coeficiente de curtosis.
Solución.En ejemplos anteriores se obtuvo µ = 59.868 y σ = 10.442 Kg.
185
Luego el coeficiente de curotosis es:
K
1
60
60
X i 59.868
4
i 1
4
1762855.81
60
3
(10.442) 4
3 = -0.53 < 0, entonces la distribución
es platicúrtica o achatada.
Ejemplo 4.16
Hallar el coeficiente de curtosis de los pesos de los 60 alumnos de Estadística
Básica 09-A FCE-UNAC, con los datos agrupados del Cuadro 2.7, dados en el
ejemplo 4.14.
Solución.En ejemplos anteriores se obtuvo µ = 60.133 y σ = 10.495 Kg.
Luego el coeficiente de curtosis es:
K
1
60
5
Xi
4
60.133 ni
i 1
4
1825739.21
60
3
(10.495)3
3 = -0.41 < 0, por lo tanto, la
distribución es platicúrtica o achatada.
Cálculo de las medidas de forma con los programas
Veamos como se pueden obtener los estadígrafos de forma para la variable peso,
desde la base de datos construida (datos sin agrupar) utilizando los programas.
En Excel:
Con los datos de la variable peso de los 60 alumnos de estadística Básica 09-A en la
columna D, desde D3 hasta D62, cuando en el programa se pide Matriz se sombrean
estos o se escribe D3:D62.
Una manera de obtener los estadígrafos de forma es con la opción de funciones
del Excel, escoger dentro de Seleccionar una categoría →Estadísticas → escoger
estadígrafo y aparece ventana de diálogo en la que se indica los argumentos
requeridos y se obtiene el resultado. Otra manera de obtenerlos es con la sintaxis para
el estadígrafo, que es la que utilizaremos. Para la asimetría usar la sintaxis
=COEFICIENTE.ASIMETRIA(Matriz)
=CURTOSIS(Matriz).
186
y para calcular la curtosis usar
Para el peso, en la casilla D79 escribir =COEFICIENTE.ASIMETRIA(D3:D62) al
hacer enter aparece el resultado 0.58 (ver Figura 4.14). Entonces los pesos tienen
distribución asimétrica positiva.
Así mismo, en la casilla D80 escribir =CURTOSIS(D3:62) al hacer enter aparece el
resultado -0.47 (ver Figura 4.14). Entonces los pesos tienen distribución platicúrtica
o achatada.
Figura 4.14 Cálculo de la asimetría y curtosis en Excel
En Minitab:
Estando en la base de datos Estadística Básica 09A, escoger del menú Stat →Basic
Statistics → Display Descriptive Statistics… aparece la ventana de diálogo Display
Descriptive Statistics (vista en la Figura 3.4).
En variables: seleccionar la variable peso de las variables que están a la izquierda.
Hacer clic en el botón
y aparece la ventana de diálogo Descriptive
Satatistcs – Statistics (ver la Figura 4.2). Escoger Skewness (asimetría) y Kurtosis.
Al hacer clic en OK, regresa a la ventana Display Descriptive Statistics, hacer
nuevamente clic en OK y aparecen los resultados siguientes:
Descriptive Statistics: peso
Variable
peso
Total
Count
60
Skewness
0.58
Kurtosis
-0.47
Resultados idénticos a los obtenidos en Excel.
187
En SPSS:
Estando en la base de datos Estadística Básica 09A, seguir la secuencia para obtener
la tabla de frecuencias: Analizar → Estadísticos descriptivos → Frecuencias.
Inmediatamente se abre la ventana de diálogo Frecuencias.
En Variables: ingresar la variable peso, luego hacer clic en el botón
y se
muestra la ventana de diálogo Frecuencias: Estadísticos (ver la Figura 4.3).
En Distribución, seleccionar Asimetría y Curtosis. Luego hacer clic en Continuar,
regresando a la ventana de diálogo Frecuencias y para terminar, efectuar clic en
Aceptar. Inmediatamente en el Visor de Resultados aparece:
Estadísticos
PESO (Kg)
N
Válidos
Perdidos
Asimetría
Error típ. de asimetría
Curtosis
Error típ. de curtosis
60
0
.579
.309
-.469
.608
Resultado de estadígrafos de forma en SPSS
Al igual que en el Excel y el Minitab se tiene el mismo resultado.
En R:
Estando en la base de datos Estadística Básica 09A y habiendo attachado la misma,
para que reconozca las variables y sus valores, donde variable es un conjunto de
datos cuantitativos (peso aquí).
J. Arriaza y Otros (2008) recomiendan en el Apéndice B “Medidas de forma, con el
paquete fBasics del R”.
Por ello, primero instalar el paquete fBasics. En el menú del R escoger Paquetes,
luego Instalar paquetes, escoger un país (Australia, por ejemplo) aparece una lista
de Packages (paquetes) buscar fBasics y hacer doble clic para que se instale en la
pc. Luego, desde el menú escoger en Paquetes, cargar paquete y aparece una lista,
dar doble clic en fBasics, para calcular los estadígrafos de forma. Si el fBasics esta
instalado, sólo hay que cargarlo.
188
Para calcular la Asimetría, escribir en la consola:
> skewness(variable) al hacer enter se obtiene el resultado.
Para calcular la Curtosis, escribir en la consola:
> kurtosis(variable) al hacer enter se obtiene el resultado.
Las medidas de forma de la variable peso se obtienen así:
> skewness(peso)
[1] 0.550345
attr(,"method")
[1] "moment"
> kurtosis(peso)
[1] -0.6106151
attr(,"method")
[1] "excess"
Cuyos resultados son parecidos a los obtenidos con los otros programas, es decir, que
la distribución de la variable peso es asimétrica positiva y platicúrtica.
189
Capítulo 5. CORRELACIÓN Y REGRESIÓN SIMPLE
“Las cifras no mienten, pero los mentirosos también usan cifras”
Anónimo
CONTENIDO
5.1
5.2
5.3
5.4
5.5
Introducción.
Diagrama de dispersión.
Covarianza y coeficiente de correlación.
Regresión lineal simple.
Coeficiente de determinación.
5.1 INTRODUCCIÓN
Uno de los propósitos de la estadística es efectuar predicciones al futuro, para lo cual
es necesario explicar el comportamiento de una variable dependiente o explicada
(denotada por Y) mediante una o más variables independientes o explicativas
(denotadas por X‟s) basados en fundamentos teóricos del fenómeno que se estudia.
Así, vemos que en economía se busca explicar la demanda de los bienes y servicios en
función de los precios de los mismos.
Igualmente, basados en la información observada sobre la producción de un bien o
servicio a través del tiempo, tratamos de predecir las cantidades a producir en el futuro.
En el presente capítulo se busca establecer algunas formas sencillas de establecer la
relación entre las variables construyendo los diagramas de dispersión delos datos, así
como la medición de la relación entre las variables usando la covarianza y el
coeficiente de correlación.
También se presenta la determinación de algunos modelos de regresión lineal simple
entre dos variables y los de series de tiempo que permitan hacer pronósticos en
situaciones de incertidumbre.
190
5.2 DIAGRAMA DE DISPERSIÓN
Es la representación en el plano cartesiano de los valores que toma la variable
dependiente Y conjuntamente con los valores que toma la variable independiente X,
acompañados por alguna función (recta, hoja de parábola, etc.) a la que se ajustan
dichos datos.
Es decir, que se representan las parejas ordenadas (Xi, Yi) los mismos que aparecen
como puntos en el plano cartesiano y dan una idea del tipo de relación funcional
matemática para las variables.
Es un gráfico recomendado para establecer el tipo de asociación entre las variables (si
es directa o inversa), así como el tipo de relación funcional entre las mismas.
Ejemplo 5.1
Una compañía productora de muñecas quiere establecer la relación entre las variables
X = precio de las muñecas ($) e Y = cantidad de muñecas vendidas. Los datos son:
X
6.5
8.0
10.0
12.5
14.0
16.0
17.5
20.0
Y
276
250
238
212
190
183
156
125
Efectuar el diagrama de dispersión.
Solución.Vamos a utilizar los programas Excel, Minitab, SPSS y R para realizar el diagrama de
dispersión.
En Excel:
En una hoja de Excel ingresar los valores de X e Y en las columna A y B
respectivamente. Sombrear la variable y los datos.
En Insertar, Gráficos, escoger XY (Dispersión) y el recuadro Dispersión sólo con
marcadores, tal como se muestra en la Figura 5.1.
Al hacer clic en Aceptar, aparecen los puntos del diagrama de dispersión. Hacer clic
con el botón derecho sobre los puntos del plano y seleccionar agregar línea de
tendencia y aparece una ventana de diálogo. Escoger el tipo (automáticamente aparece
191
lineal, que es la que interesa en este caso). Al hacer clic en Cerrar se muestra el
diagrama de dispersión y la línea de tendencia de la Figura 5.2
Figura 5.1 Definiendo el diagrama de dispersión en Excel
Figura 5.2 Diagrama de dispersión de la cantidad y precio en Excel
En Minitab:
192
Con los datos de la variable precio (X) y cantidad (Y) en el Worksheet, del menú
escoger Graph, Scatterplot, aparece la ventana de diálogo Scatterplots; escoger With
Regression y hacer clic en OK. Se muestra la ventana de diálogo de la Figura 5.3.
Figura 5.3 Definiendo el diagrama de dispersión en Minitab
En Y variables seleccionar Cantidad y en X variables Precio. Al efectuar clic en OK se
muestra el diagrama de dispersión con la línea de regresión de la Figura 5.4.
Scatterplot of Y = Cantidad vs X = Precio
280
260
Y = Cantidad
240
220
200
180
160
140
120
5.0
7.5
10.0
12.5
X = Precio
15.0
17.5
20.0
Figura 5.4 Diagrama de dispersión de la cantidad y precio en Minitab
En SPSS:
193
Con los datos de la variable precio (X) y cantidad (Y) en el Editor de datos SPSS, del
menú escoger Gráficos, Interactivos, Diagrama de dispersión, aparece la ventana de
diálogo Crear diagrama de dispersión de la Figura 5.5.
Figura 5.5 Creando el diagrama de dispersión en SPSS
De la lista de variables arrastrar primero la variable dependiente (Cntidad) en el primer
recuadro y luego la variable independiente (precio) en el siguiente, tal como se muestra
en la Figura 5.5.
Para finalizar hacer clic en Aceptar y aparece el diagrama de dispresión de la Figura
5.6.
194
280



CANT IDAD
240

200


160


120
8.0 0
12. 00
16. 00
20. 00
PRECIO
Figura 5.6 Diagrama de dispersión de la cantidad y precio en SPSS
En R:
Definir los valores de las variables Precio y Cantidad, por los vectores X e Y
respectivamente siguientes:
> X=c(6.5, 8.0, 10.0, 12.5, 14.0, 16.0, 17.5, 20.0)
> Y=c(276, 250, 238, 212, 190, 183, 156, 125)
A continuación utilizar la función plot para definir el diagrama de dispersión, así:
> plot(X, Y, xlab="PRECIO", ylab="CANTIDAD", main="Diagrama de dispersión
de Precios y Cantidad")
Donde:
X es la variable independiente e Y la variable dependiente.
xlab es la etiqueta del eje X e ylab la etiqueta del eje Y.
main es para ponerle título al gráfico. El resultado aparece en la Figura 5.7.
195
Figura 5.7 Diagrama de dispersión de la cantidad y precio en R
5.3 COVARIANZA Y COEFICIENTE DE CORRELACIÓN
Los indicadores del grado de asociación lineal entre dos variables son la covarianza y
el coeficiente de correlación.
COVARIANZA.La covarianza entre las variables X e Y, denotada por Cov (X, Y), mide el promedio
de las discrepancias conjuntas del producto de las desviaciones de las variables X e
Y con respecto a sus respectivas medias. Se calcula como:
Cov( X , Y )
1
n
n
Xi
i 1
196
X Yi Y
1
SPXY
n
Donde SPXY representa la Suma de Productos de las desviaciones de X e Y con
respecto a sus medias, calculada así:
n
n
SPXY
Xi
X Yi Y
i 1
X iYi n X Y
i 1
La covarianza tiene el inconveniente de las unidades de medida de las variables, por
ello lo fundamental de la covarianza es el signo, ya que proporciona una idea de la
discrepancia conjunta de las variables en estudio. Así, si el signo es positivo indica una
variación directa entre los valores de la variable, es decir, que si X aumenta, entonces
Y también aumenta o si uno disminuye el otro también disminuye; mientras que si el
signo es negativo, indica una variación inversa, es decir, que si X aumenta, entonces Y
disminuye y viceversa, si X disminuye entonces Y aumenta.
Como solución al inconveniente planteado en el párrafo anterior, surge el coeficiente
de correlación lineal de Pearson que a continuación se explica.
COEFICIENTE DE CORRELACIÓN.El coeficiente de correlación lineal entre las variables X e Y, denotada por ρ (X, Y),
mide el grado de asociación lineal entre las variables en estudio. Se calcula así:
Cov( X , Y )
( X ,Y )
X
r ( X ,Y )
Cov( X , Y )
n 1
S X SY
n
r
, para la población; y
Y
SPXY
, para la muestra.
SCX SCY
Donde:
n
SCX
Xi
i 1
X
2
n
n
X i2 n X 2 y SCY
i 1
Yi Y
i 1
2
n
Yi 2 nY 2
i 1
El coeficiente de correlación toma valores entre -1 y 1.
Cuanto más cercano a -1 o a 1 se encuentra es más fuerte la asociación lineal entre las
variables X e Y, y cercano a 0 indica que la asociación entre la variable es muy baja o
que no existe relación entre X e Y.
197
Ejemplo 5.2
Para los datos del ejemplo 5.1, calcular e interpretar la covarianza y el coeficiente de
correlación lineal simple entre X e Y.
Solución.Las variables X = precio de las muñecas ($) e Y = cantidad vendida. Los datos son:
X
6.5
8.0
10.0
12.5
14.0
16.0
17.5
20.0
Y
276
250
238
212
190
183
156
125
Cálculos necesarios:
8
n = 8,
8
X i 104.5 ,
X 13.0625 ,
Yi 1630 ,
i 1
Y
i 1
8
X i2
(6.5) 2 (8.0) 2 .... (17.5) 2 (20.0) 2 1,520.75
i 1
n
X i2 n X 2 1520.75 8(13.0625)2
SCX
155.7188
i 1
8
Yi 2
(276) 2 (250) 2 .... (156) 2 (125) 2
349,814
i 1
n
Yi 2 nY 2 349,814 8(203.75)2 17, 701.5
SCY
i 1
8
X iYi
(6.5)(276) (8.0)(250) .... (20.0)(125) 19, 642
i 1
n
SPXY
X iYi n X Y 19, 642 8(13.0625)(203.75)
i 1
Luego:
a) Cov( X , Y )
SPXY
n
1649.875
8
206.2344
198
1, 649.875
203.75
b) r
SPXY
SCX SCY
1, 649.875
0.994
155.7188 17, 701.5
Interpretación.- La covarianza negativa y el coeficiente de correlación cercano a -1, nos
indican que existe una alta relación inversa entre los precios de las muñecas y las
cantidades vendidas.
A continuación ilustramos los cálculos de la covarianza realizados en Excel y su
gráfico de dispersión correspondiente.
X = Precio
6.5
8.0
10.0
12.5
14.0
16.0
17.5
20.0
13.1
Media
Y = Cantidad
276
250
238
212
190
183
156
125
203.8
Media
( Xi
X)
-6.6
-5.1
-3.1
-0.6
0.9
2.9
4.4
6.9
En el eje de las X‟s se ha representado ( X i
199
(Yi
Y)
72.3
46.3
34.3
8.3
-13.8
-20.8
-47.8
-78.8
SPXY =
COV(X, Y) =
( Xi
X ) (Yi
Y)
-474.14
-234.14
-104.89
-4.64
-12.89
-60.95
-211.89
-546.33
-1649.88
-206.2344
X ) y en el eje de las Y‟s (Yi Y ) .
5.4 REGRESIÓN LINEAL SIMPLE
Es el proceso que consiste en poner en relación a una variable dependiente (Y) en
función de otra independiente (X), llamada también variable explicativa o predictora,
mediante la ecuación de una recta, basados en una relación de causalidad para el
fenómeno en estudio.
Así, en el ejemplo 5.1 vemos que las cantidad demandada de muñecas (Y), es una
función del precio de las mismas (X). Es decir, que Y = f(X).
La relación funcional a la que se postula es la ecuación de una recta, por lo tanto, se
postula que: Yi = a + bXi.
Donde a y b son los coeficientes de regresión, siendo b la pendiente de la recta y es
negativa porque recoge el efecto de la relación inversa entre el precio de las muñecas y
la cantidad demandada.
En el diagrama de dispersión obtenido antes, se puede apreciar que no todos los puntos
caen sobre la recta postulada, por lo que es necesario agregarle al modelo una
componente de error, así el modelo queda como:
Yi = a + bXi + ei
Ahora el problema se reduce a encontrar los valores de a y de b que permitan hacer
pronósticos de Y asumiendo determinados valores de X,. Para poder determinar los
valores de a y de b, se postula que los errores promedien cero, es decir buscando que
todos los puntos caigan sobre la recta y que la varianza de estos errores sea mínima,
surgiendo así el método de los mínimos cuadrados ordinarios.
Método de los Mínimos Cuadrados Ordinarios
Es un método de aproximación a los valores verdaderos de a y de b, buscando
minimizar la varianza de los errores, la misma que se traduce en:
n
n
ei2
Minimizar
i 1
200
Yi
i 1
a bX i
2
Siendo la suma de los errores al cuadrado función de los parámetros a y b, se tiene que
tomar derivadas parciales con respecto a dichos parámetros e igualar a cero, así:
n
ei2
n
i 1
2
a
Yi
a bX i ( 1) 0
Yi
a bX i ( X i ) 0
i 1
n
ei2
n
i 1
2
b
i 1
Resultado de igualar a cero y aplicar el operador sumatoria, surgen las denominadas
Ecuaciones normales siguientes:
n
na b
n
Xi
n
a
……………. (1)
Yi
i 1
i 1
n
i 1
n
X iYi ……... (2)
X i2
Xi b
i 1
i 1
Cuyas soluciones algebraicas son:
n
bˆ
n
X iYi
nXY
i 1
n
Xi
X Yi Y
i 1
n
X
2
i
i 1
nX
2
Xi
X
2
SPXY
;
SCX
y
i 1
â Y bˆ X
Fórmulas de cálculo para los valores de a y de b en regresión simple. Cabe resaltar que
el símbolo ˆ sobre a y sobre b indica que son valores estimados obtenidos con la
información muestral y son una buena aproximación hacia a y b en la estadística
inferencial.
Interpretación de â y b̂
Al ser b̂ la pendiente de la recta, entonces en bˆ
Y
, si X
X
1
bˆ
Y ; quiere
decir que si X se incrementa en una unidad, entonces Y se incrementa en b̂ unidades.´
201
Por otro lado â representa el intercepto con el eje Y, cuando X se aproxima cero y en
algunos casos no tiene mayor sentido.
5.5 COEFICIENTE DE DETERMINACIÓN (R2)
El coeficiente de determinación mide el porcentaje de explicación de la variabilidad de
la variable dependiente Y, que es debido a la regresión (explicada por la variable
independiente X) y el resto que se queda sin explicar se atribuye al error.
En la práctica se aproxima (estima) con el coeficiente de correlación al cuadrado
multiplicado por 100, o sea: 100r2 %.
Ejemplo 5.3
Para los datos del ejemplo 5.1, se pide: a) calcular e interpretar los coeficientes de
regresión y el coeficiente de determinación entre X e Y; y b) determinar la cantidad
demandada de muñecas cuando el precio sea de $ 15.
Solución.a) Para las variables X = precio de las muñecas ($) e Y = cantidad vendida, en la
solución del ejemplo 5.2 tenemos los cálculos que necesitamos, así:
n
SPXY
X iYi n X Y 19, 642 8(13.0625)(203.75)
i 1
n
X i2 n X 2 1520.75 8(13.0625)2
SCX
155.7188
i 1
n
Yi 2 nY 2 349,814 8(203.75)2 17, 701.5
SCY
i 1
Luego:
bˆ
SPXY
SCX
aˆ Y bˆ X
1649.875
155.7188
- 10.5952
203.75 ( 1.085)(13.0625)
r2 = (0.994)2 = 0.988 ≡ 98.8%
202
342.15
1, 649.875
La ecuación de regresión simple queda establecido como:
Yi
aˆ bˆ X i
342.15 10.595 X i
Interpretación.-
b̂ = - 10.595 significa que por cada dólar de incremento en el precio de la muñecas,
la cantidad demandada disminuye en casi 11 muñecas y viceversa, por cada dólar
que disminuye el precio de las muñecas, la demanda se incrementa en cerca de 11
muñecas.
â = 342.15, indica que la demanda tope bordeará las 342 muñecas, con el precio de
las mismas alrededor de cero dólares.
r2 = 0.988 ≡ 98.8%, indica que 98.8% de la variabilidad de la demanda de muñecas
es explicado por el precio de estas. Es decir, que el precio de las muñecas ajusta
muy bien la cantidad demandada de éstas.
b) Para determinar la cantidad de muñecas demandadas a un precio X = $15,
reemplazamos en la ecuación de regresión de la parte a), así:
Yi
342.15 10.595 X i
342.15 10.595(15) 183.2 = 183 muñecas.
Entonces, se espera vender 183 muñecas al precio de $15.
Veamos como obtener los indicadores del modelo de regresión usando los programas
Excel, Minitaab, SPSS y R.
En Excel:
En una hoja de Excel ingresar los valores de X e Y en las columna A y B
respectivamente. Sombrear la variable y los datos.
En Datos, escoger Análisis de datos y en Funciones para análisis, seleccionar
Regresión, y aparece la ventana de diálogo Regresión de la Figura 5.8.
203
Figura 5.8 Aplicando Regresión en Excel
En Entrada, indicar el Rango Y de entrada: $B$1:$B$9, Rango X de entrada:
$A41:$A$9 y marcar el recuadro Rótulos (para indicar los nombres de las variabes).
En Opciones de salida, escoger donde queremos que aparezcan los resultados de la
regresión, seleccionamos Rango de salida: indicándole donde queremos que salga,
aquí a partir de la celda A12. También se puede escoger obtener los resultados En una
hoja nueva: (precisar la hoja en el recuadro) o En un libro nuevo (el programa lo crea).
Para terminar hacer clic en Aceptar y se obtiene los resultados de la Figura 5.9.
A partir de la celda A12, aparece el Resumen de los cálculos de regresión, que para el
caso están sombreados y son:
Coeficiente de correlación = r = 0.993746364, Coeficiente de determinación R2 =
0.987531836, Coeficiente de intercepción = â = 342.1501104; y Coeficiente para X =
Precio = b̂ = -10.595223376.
Además, el Resumen muestra una serie de resultados de la estadística inferencial
aplicados a la regresión como es el Análisis de Varianza, intervalos de confianza y
pruebas estadísticas para los coeficientes de regresión.
204
Figura 5.9 Resultado de la Regresión de cantidad y precio de muñecas en Excel
En Minitab:
Con los datos de la variable precio (X) y cantidad (Y) en el Worksheet, del menú
escoger Stat, luego Regression y nuevamente la opción Regression; y aparece la
ventana de diálogo Regression de la Figura 5.10.
Figura 5.10 Aplicando Regresión en Minitab
205
De la lista de variables del lado izquierdo, seleccionar la variable Y = cantidad e
ingresarla en Response: (variable de respuesta o dependiente) y en Predictors:
seleccionar X = Precio.
Para terminar hacer clic en OK. Inmediatamente en la ventana de Session del Minitab
aparecen los resultados siguientes:
Regression Analysis: Y = Cantidad versus X = Precio
The regression equation is
Y = Cantidad = 342 - 10.6 X = Precio
Predictor
Constant
X = Precio
Coef
342.150
-10.5952
S = 6.06500
SE Coef
6.701
0.4860
R-Sq = 98.8%
T
51.06
-21.80
P
0.000
0.000
R-Sq(adj) = 98.5%
Analysis of Variance
Source
Regression
Residual Error
Total
DF
1
6
7
SS
17481
221
17702
MS
17481
37
F
475.23
P
0.000
Se puede apreciar los mismos resultados obtenidos antes, es decir, la ecuación de
regresión, los coeficientes de regresión y el R-cuadrado obtenidos con el Minitab.
En SPSS:
Con los datos de las variables precio (X) y cantidad (Y) definidos e ingresados en el
editor de datos del SPSS, del menú seleccionar Analizar → Regresión → Lineal e
inmediatamente aparece la ventana de diálogo de la Figura5.11.
De la lista de variables del lado izquierdo, seleccionar la variable CANTIDAD e
ingresarla en el recuadro Dependiente:, del mismo modo seleccionar la variable
PRECIO e ingresarla en el recuadro Independientes:.
Una vez ingresadas las variables, hacer clic en Aceptar y aparecen los resultados
mostrados después de la Figura 5.11.
206
Figura 5.11 Aplicando Regresión en SPSS
La vista de resultados del SPSS muestra en el Resumen del modelo los coeficientes de
correlación y determinación, mientras que en los Coeficientes se presenta la constante
â = 342.150 y b̂ = -10.595.
Resumen del modelo
Modelo
1
R
R cuadrado
a
.994
.988
R cuadrado
corregida
.985
Error típ. de la
estimación
6.06500
a. Variables predictoras : (Cons tante), PRECIO ($)
Coeficientesa
Modelo
1
(Constante)
PRECIO ($)
Coeficientes no
estandarizados
B
Error típ.
342.150
6.701
-10.595
.486
a. Variable dependiente: CANTIDAD
207
Coeficientes
estandarizad
os
Beta
-.994
t
51.059
-21.800
Sig.
.000
.000
Al igual que el Minitab, también presenta el análisis de varianza para la regresión
siguiente:
ANOVAb
Modelo
1
Regres ión
Res idual
Total
Suma de
cuadrados
17480.795
220.705
17701.500
gl
1
6
7
Media
cuadrática
17480.795
36.784
F
475.226
Sig.
.000a
a. Variables predictoras : (Cons tante), PRECIO ($)
b. Variable dependiente: CANTIDAD
En R:
Definidos los valores de las variables Precio y Cantidad, por los vectores X e Y
respectivamente siguientes:
> X=c(6.5, 8.0, 10.0, 12.5, 14.0, 16.0, 17.5, 20.0)
> Y=c(276, 250, 238, 212, 190, 183, 156, 125)
A continuación utilizar la función lm para definir
> modelo=lm(Y~X)
> modelo
Call:
lm(formula = Y ~ X)
Coefficients:
(Intercept)
342.15
X
-10.60
> resumen=summary(modelo)
> resumen
208
Call:
lm(formula = Y ~ X)
Residuals:
Min
1Q
Median
-7.3883 -4.1741
0.5342
3Q
Max
2.3974 10.3735
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
342.150
6.701
51.06 3.79e-09 ***
X
-10.595
0.486
-21.80 6.09e-07 ***
--Signif. codes: 0 „***‟ 0.001 „**‟ 0.01 „*‟ 0.05 „.‟ 0.1 „ ‟ 1
Residual standard error: 6.065 on 6 degrees of freedom
Multiple R-squared: 0.9875,
Adjusted R-squared: 0.9855
F-statistic: 475.2 on 1 and 6 DF, p-value: 6.086e-07
209
Capítulo 6. MODELOS DISCRETOS DE PROBABILIDAD
“La estadística es como una mujer con bikini, muestra casi todo, pero lo
fundamental lo oculta …. Olvidaba decir que lo fundamental es …. lo
que yo quiera creer”
Robert Frost
CONTENIDO
6.1
6.2
6.3
6.4
6.5
Introducción.
Distribución binomial.
Distribución de Poisson.
Distribución hipergeométrica.
Distribución geométrica.
6.1 INTRODUCCIÓN
En el presente capítulo se presentan los modelos de probabilidad discretos cuyo cálculo
ha sido adaptado a los programas que estamos presentando y que permiten dinamizar
el aprendizaje del cálculo de probabilidades por la simplificación de los procesos.
Se presentan los principales modelos de probabilidad para variables aleatorias
discretas, en las que estamos interesados en el número de éxitos en un determinado
número de ensayos o pruebas.
La determinación del éxito o fracaso en este tipo de pruebas esta sujeto al interés
particular de quién realiza una determinada prueba.
Entre los modelos a estudiar tenemos las distribuciones: binomial, Poisson,
hipergeométrica y la Geométrica.
En cada caso se presenta las características principales de cada distribución, es decir, la
función de probabilidad, la esperanza, la varianza, la función de distribución
acumulativa de probabilidades y las respectivas formas de cálculo de probabilidades.
210
6.2 DISTRIBUCIÓN BINOMIAL
Distribución Bernoulli.Según Bazán y Corbera (1997) la distribución de Bernoulli “es el modelo más sencillo
de probabilidad y proporciona la base para derivar otras distribuciones de probabilidad
discreta”.
Las pruebas de Bernoulli tienen dos posibles resultados uno de los cuales es fijado
convencionalmente como éxito (E) y el otro como fracaso (F). Por tanto: Ω= {F, E}.
La variable aleatoria X = número de éxitos en una prueba de Bernoulli toma los
valores: Rx = {0, 1}.
La probabilidad de éxito se denota por P (E) = p = P (X = 1) y la probabilidad de
fracaso es el complemento, P (F) = q = 1 – p = P (X = 0); las mismas que se calculan
con la función de probabilidad siguiente:
p ( x ) P( X
x) p x q1 x ; x 0, 1.
La distribución de probabilidades Bernoulli es:
x
0
1
p (x) = P (X = x)
p
q=1-p
La media y la varianza de la distribución Bernoulli son: E (X) = p y Var (X) = pq
respectivamente.
Ejemplo 6.1
Son ensayos Bernoulli los siguientes:
El resultado observado en el lado superior al lanzar una moneda (cara o sello).
El estado en que se encuentra un artículo fabricado (bueno o defectuoso).
El ingreso de una familia es menor o igual a S/. 2500 o es mayor de 2500.
211
Características del ensayo binomial
Una prueba binomial se caracteriza por estar constituida por n pruebas de Bernoulli
repetidas o independientes, cada una con la misma probabilidad p de éxito y la variable
aleatoria X = número de éxitos. Rx = {0, 1, 2 , …. , n}.
Ley de probabilidad
La distribución de probabilidad binomial esta dada por la siguiente función:
p ( x) P( X
Donde: C xn
x) Cxn p x q n
x
; x 0, 1, 2,3,...., n
n!
n x ! x!
Los parámetros de la distribución binomial son n y p. Si una variable X tiene
distribución binomial, se le denota así X ~B (n,p) y la ley de probabilidades es la antes
indicada.
Media y varianza de la distribución binomial
La media y la varianza de la distribución binomial son:
y σ2 = Var (X) = npq.
µ = E (X) = np
La función de distribución acumulativa de probabilidades
La función de distribución acumulativa de probabilidades de la binomial esta dada por:
F ( x) P( X
x)
P( X
xi x
Cxni p xi q n
xi )
xi
xi x
Todas estas probabilidades son calculadas por los programas estudiados, tal como
veremos a continuación.
Ejemplo 6.2
Se lanza una moneda correcta 5 veces. Sea X = el número de caras obtenidas. Calcule
la probabilidad de obtener: a) 3 caras; b) a lo más 2 caras; c) la distribución de
probabilidades; y d) la función de distribución acumulativa de probabilidades.
212
Solución
Cada lanzamiento de la moneda es una prueba de Bernoulli, ya que estamos
interesados en observar si sale cara (éxito) o no sale (fracaso), con p = q = 0.5.
Así mismo, se trata de n = 5 pruebas independientes, puesto que el resultado de un
lanzamiento no influye en los sucesivos.
Por lo tanto, la variable aleatoria X = número de caras obtenidas ~B (n=5, p = 0.5) y su
función de probabilidad es:
p ( x) P( X
x) Cx5 (0.5) x (0.5)5
1
3) C35 ( )5
2
a) p(3) P( X
x
10
32
Cx5 (0.5)5 ; x 0, 1, 2,3, 4,5.
0.3125
b) P (X ≤ 2) = p(0) + p(1) + p(2) =
1
1
1
= C05 ( )5 C15 ( )5 C25 ( )5
2
2
2
1
5 10
32 32 32
16
32
0.50
c) La distribución de probabilidades binomial, calculadas con la función de
probabilidad, se presentan en el cuadro siguiente:
x
0
1
2
3
4
5
1/32 =
5/32 =
10/32 =
10/32 =
5/32 =
1/32 =
0.03125
0.15625
0.31250
0.31250
0.15625
0.03125
1/32 =
6/32 =
16/32 =
26/32 =
31/32 =
32/32 =
0.03125
0.18750
0.50000
0.81250
0.96875
1.00000
p(x)
F(x)
d) La distribución acumulativa de probabilidades se ha determinado con la función
F ( x) P( X
x)
P( X
xi x
Cx5i (0.5) xi y se presentan en la tabla
xi )
xi x
anterior de la pregunta c).
213
Veamos el procedimiento de cálculo de estas probabilidades con los programas, las
mismas que están sintetizadas en la tabla de la pregunta c) y d).
En Excel:
Para hallar la distribución de probabilidades binomial, en la hoja de cálculo definimos
en la columna A los valores de la variable x = 0, 1, 2, 3, 4 y 5. En la columna B,
definimos las probabilidades p(x) para cada uno de los valores.
Para ello, estando en la casilla B2, en funciones
del Excel, escogemos Estadísticas
(de seleccionar una categoría) y buscamos la función DISTR.BINOM y aparece la
ventana de diálogo de la Figura 6.1.
Figura 6.1 Cálculo de probabilidades para la distribución binomial en Excel
En Argumentos de función se define: el número de éxitos, Núm_éxito A2 (0) para
poder efectuar una copia para los demás valores de x. Ensayos 5 (número de ensayos
independientes = 5 lanzamientos de la moneda). La probabilida p de éxito Prob_éxito
214
0.5 y en Acumulado escribir FALSO, porque no se desea calcular probabilidad
acumulada. Al hacer enter, aparece la probabilidad p(0) = 0.03125.
Para obtener las probabilidades para los otros valores de x, se efectúa una copia de lo
anterior para las celdas sucesivas en B3, B4, B5, B6 y B7, cuyos resultados se
muestran en la Figura 6.2.
Para obtener las probabilidades acumuladas, estando en la casilla C2, seleccionamos la
ventana de diálogo de la Figura 6.1, con los mismos Argumentos de función, salvo el
de Acumulado en el que se escribe VERDADERO. Al hacer enter, aparece la
probabilidad F(0) = 0.03125.
Para obtener las probabilidades acumuladas para los otros valores de x, se efectúa una
copia de lo anterior para las celdas sucesivas en C3, C4, C5, C6 y C7, cuyos resultados
se muestran en la Figura 6.2.
Figura 6.2 Solución del Ejemplo 6.2 en Excel
En Minitab:
En este programa se puede hacer cálculos de probabilidades individuales o para el
conjunto de valores que toma la variable, tal como se ha efectuado en Excel.
Del menú escoger Calc → Probability Distributions → Binomial y aparece la
ventana de diálogo de la Figura 6.3.
Esta función permite tres tipos de cálculos: Probabililty (calcular una probabilidad para
un valor de la variable), Cumulative probability (calcular la probabilidad acumulada
hasta un valor determinado) e Inverse cumulative probability (calcular el valor de la
215
variable para una probabilidad acumulada dada). Cálculos que son realizados
indicando previamente los parámetros de la distribución binomial, es decir, n =
Number of trials (número de pruebas) y p = Event probability (probabilidad de éxito).
Figura 6.3 Probabilidad con la distribución binomial en Minitab
Veamos el cálculo de probabilidades individuales.
En el ejemplo 6.2, la variable aleatoria X = número de caras obtenidas ~B (n=5, p =
0.5) parámetros indicados en la Figura 6.3. En la parte a) se solicita p (3) = P (X = 3)
por ello se ha activado Probability
e
donde se escribe 3.
Al hacer clic en OK, en la hoja de Session aparece el resultado siguiente:
Probability Density Function
Binomial with n = 5 and p = 0.5
x
3
P( X = x )
0.3125
En la parte b) del ejemplo 6.2 se solicita la probabilidad acumulada F (2) = P (X ≤ 2)
por lo que se hace necesario seleccionar
escribir 2, tal como se muestra en la Figura 6.4.
216
y en
Figura 6.4 Probabilidad acumulada con la distribución binomial en Minitab
Al hacer clic en OK, en la hoja de Session aparece el resultado siguiente:
Cumulative Distribution Function
Binomial with n = 5 and p = 0.5
x P( X <= x )
2
0.5
Resultados similares a los del ejemplo 6.2.
Veamos el cálculo de probabilidades para un conjunto de valores
Primero definir los valores en una columna de la Worksheet (hoja de trabajo del
Minitab); para el ejemplo 6.2, en la columna C1 con la denominación x se han definido
los valores 0, 1, 2, 3, 4 y 5.
Para calcular las probabilidades para cada uno de los valores de la variable, se procede
de manera similar a lo realizado en la Figura 6.3, sólo que no se selecciona Input
constant:, sino
en donde se selecciona la columna C1 o x, tal como se
muestra en la Figura 6.5.
217
Como son seis probabilidades las que se van a calcular se tiene que indicar donde se
quiere colocar dichos resultados.
Figura 6.5 Probabilidad para varios valores con distribución binomial en Minitab
Si se desea seguir usando estos resultados para hacer otros cálculos, los mismos deben
aparecer en la Worksheet del Minitab, por ello en Optional storage: (deposito
opcional de resultados) escribir C2. Para terminar hacer clic en OK y los resultados se
muestran en la columna C2 de la Worksheet.
Si no se van hacer otros cálculos con los resultados, hacer clic en OK y dichos
resultados se muestran en la hoja de Session así:
Probability Density Function
Binomial with n = 5 and p = 0.5
x
0
1
2
3
4
5
P( X = x )
0.03125
0.15625
0.31250
0.31250
0.15625
0.03125
218
Para calcular las probabilidades acumuladas para los seis valores del ejemplo 6.2 y con
los resultados en la hoja de Session, en la Figura 6.5 seleccionar
y al hacer clic en OK aparecen los resultados siguientes:
Cumulative Distribution Function
Binomial with n = 5 and p = 0.5
x P( X <= x )
0
0.03125
1
0.18750
2
0.50000
3
0.81250
4
0.96875
5
1.00000
Los dos últimos resultados son idénticos a los que aparecen en la Figura 6.2, los que a
continuación se presentan tal como se han obtenido en la Worksheet del Minitab.
El gráfico de la distribución binomial obtenido con el Minitab es el siguiente:
Gráfico 6.1 Distribución binomial (n = 5, p = 0.5)
0.35
0.30
p(x)
0.25
0.20
0.15
0.10
0.05
0.00
0
1
2
3
x
219
4
5
En SPSS:
Para calcular las probabilidades simples (P) y las acumuladas (F) del ejemplo 6.2, en la
vista de variables se define x y en la vista de datos se ingresan los mismos (0, 1, 2, 3, 4
y 5). Veamos el cálculo de probabilidades simples (P).
Del menú escoger Transformar → Calcular variable y aparece la ventana de
diálogo de la Figura 6.6. En Variable de destino: escribir P.
Del Grupo de funciones: del lado derecho, escoger FDP y FDP no centrada; y de
Funciones y variables especiales: seleccionar Pdf.Binom y con un clic en
ingresarla en el recuadro Expresión numérica: donde aparece PDF.BINOM(?,?,?).
Figura 6.6 Cálculo de probabilidades con la distribución binomial en SPSS
A continuación, hay que definir cada uno de los argumentos ? indicados en la función
PDF.BINOM(cant,n,prob) que se precisan en el recuadro central de la Figura 6.6. Así
cant representa los valores de la variable x, n el número de ensayos = 5 y prob =
220
probabilidad de éxito = 0.5. Para finalizar hacer clic en Aceptar y en la vista de datos
aparece los resultados siguientes:
Para el cálculo de las probabilidades acumuladas (F) del ejemplo 6.2, proceder de
manera similar al cálculo de probabilidades simples, con las variantes indicadas, tal
como se muestra en la Figura 6.7.
Figura 6.7 Probabilidades acumuladas con la distribución binomial en SPSS
En la Variable de destino: se escribe F. Del Grupo de funciones: escoger FDA y FDA
no centrada; y de Funciones y variables especiales: seleccionar Cdf.Binom e
ingresarla en el recuadro Expresión numérica y definir los argumentos cant, n y prob
221
así: CDF.BINOM(x,5,0.5). Para finalizar hacer clic en Aceptar y en la vista de datos
aparece los resultados siguientes:
Nota.- para el cálculo de probabilidades simples en SPSS se usa la función FDP y
FDP no centrada y para calcular las probabilidades acumuladas la función FDA y
FDA no centrada.
En R:
Para calcular probabilidades simples con la distribución binomial usar la función
dbinom(x,n,p). Donde x puede ser un valor o un conjunto de valores definidos
previamente, n el número de ensayos y p la probabilidad de éxito.
En el ejemplo 6.2, X = número de caras obtenidas ~B (n=5, p = 0.5). En la parte a) se
solicita p (3) = P (X = 3), esto se calcula así:
> dbinom(3,5,0.5)
[1] 0.3125
Si se desea determinar la distribución de probabilidades de la variable aleatoria X,
primero se define el vector de valores y luego se calculan las probabilidades así:
> x=c(0,1,2,3,4,5)
> dbinom(x,5,0.5)
[1] 0.03125 0.15625 0.31250 0.31250 0.15625 0.03125
El resultado anterior muestra las probabilidades para cada valor de X, pero la
presentación del resultado no permite una adecuada lectura. Por ello se recomienda
definir las probabilidades anteriores a través del objeto P definido así:
222
> P=dbinom(x,5,0.5)
Para mejorar la presentación de la distribución de probabilidades (x, P) usar la función
cbind que permite presentar los resultados de los objetos definidos en columna, uno a
continuación de otro, así:
> cbind(x,P)
x
P
[1,] 0 0.03125
[2,] 1 0.15625
[3,] 2 0.31250
[4,] 3 0.31250
[5,] 4 0.15625
[6,] 5 0.03125
Para calcular probabilidades acumuladas con la distribución binomial usar la función
pbinom(x,n,p). Donde x puede ser un valor o un conjunto de valores definidos
previamente, n el número de ensayos y p la probabilidad de éxito.
En la parte b) del ejemplo 6.2 se solicita F (2) = P (X ≤ 2), esto se calcula así:
> pbinom(2,5,0.5)
[1] 0.5
Para obtener la distribución de probabilidades y las probabilidades acumuladas
efectuamos el siguiente proceso.
> F=pbinom(x,5,0.5)
> cbind(x,P,F)
x
P
F
[1,] 0 0.03125 0.03125
[2,] 1 0.15625 0.18750
223
[3,] 2 0.31250 0.50000
[4,] 3 0.31250 0.81250
[5,] 4 0.15625 0.96875
[6,] 5 0.03125 1.00000
Resultados idénticos a los obtenidos con los demás programas.
Observación.- para las siguientes distribuciones de probabilidades los cálculos
efectuados con los programas estudiados son similares a los de la distribución
binomial.
6.3 DISTRIBUCIÓN DE POISSON
La distribución Poisson se deduce como un límite de la distribución binomial y como
un proceso de Poisson.
Como un límite de la distribución binomial, se toma con media igual a λ = np
asumiendo p pequeño (p → 0) y n grande (n → ∞). La distribución de probabilidades
de la variable aleatoria discreta de Poisson X = número de éxitos viene dada por:
x
p( x) P( X
e
; x 0, 1, 2,3,....
x!
x)
El parámetro de la distribución Poisson es λ. Si una variable X tiene distribución
Poisson, se le denota así X ~ P (λ) y la ley de probabilidades es la antes indicada.
Media y varianza de la distribución Poisson
La media y la varianza de la distribución Poisson es la misma e igual a λ.
µ = E (X) = σ2 = Var (X) = λ.
La función de distribución acumulativa de probabilidades
La función de distribución acumulativa de probabilidades de la Poisson esta dada por:
xi
F ( x) P( X
x)
P( X
xi x
xi )
xi x
e
xi !
224
La deducción como un proceso de Poisson, surge cuando hay eventos discretos que
se generan en un intervalo continuo t (unidad de medida: longitud, área, volumen,
tiempo, etc.) y forman un proceso de Poisson con parámetro λ, si tiene las siguientes
propiedades.
El promedio de éxitos que ocurren en una unidad de medida t es conocido e igual a
λt.
La ocurrencia de los eventos son independientes.
La probabilidad de éxito en una unidad de medida pequeña de longitud h es
proporcional a su longitud: λh.
La probabilidad de ocurrencia de 2 o más éxitos en esta unidad pequeña h es
aproximadamente cero.
Si en un proceso de Poisson de parámetro λ se observa t unidades de medida, se define
X = número de ocurrencias de eventos en las t unidades de medida. Entonces, el
recorrido de la variable es RX = {0, 1, 2, 3, …. }.
La variable aleatoria X tiene distribución Poisson definida por:
p ( x) P( X
x)
( t)x e
x!
t
; x 0, 1, 2,3,....
Donde λt es el promedio de ocurrencias de los eventos en las t unidades de medida.
En ambas fórmulas del cálculo de probabilidades con la distribución de Poisson lo
primero que se tiene que determinar es la media, bien λ o λt.
Ejemplo 6.3
El promedio de llamadas recibidas por una central telefónica en un minuto es igual a 2.
Calcule la probabilidad de que en 2 minutos se reciban: a) 3 llamadas; b) a lo más 2
llamadas; c) la distribución de probabilidades; y d) la función de distribución
acumulativa de probabilidades.
225
Solución
Como λ = 2 y t = 2, λt = 4 llamadas promedio en 2 minutos.
Sea X = el número de llamadas recibidas en 2 minutos ~ P (4) y la ley de
probabilidades es:
p( x) P( X
x)
4x e 4
; x 0, 1, 2,3,.... Luego:
x!
a) p(3) = P(X = 3) =
43 e 4
= 0.195367
3!
b) P (X ≤ 2) = p(0) + p(1) + p(2) =
40 e 4
0!
41 e 4
1!
42 e 4
= 0.23810
2!
c) La distribución de probabilidades Poisson, calculadas con la función de
probabilidad, se presentan en el cuadro siguiente:
x
p(x) = P(X = x)
F(x) = P(X ≤ x)
0
0.018316
0.018316
1
0.073262
0.091578
2
0.146525
0.238103
3
0.195367
0.433470
4
0.195367
0.628837
5
0.156293
0.785130
6
0.104196
0.889326
7
0.059540
0.948866
8
0.029770
0.978637
9
0.013231
0.991868
10
0.005292
0.997160
11
0.001925
0.999085
12
0.000641
0.999726
226
d) La distribución acumulativa de probabilidades se ha determinado con la función
F ( x) P( X
x)
P( X
xi x
xi )
xi
4 xi e 4
y se presentan en la tabla anterior
xi !
x
de la pregunta c).
Veamos el procedimiento de cálculo de estas probabilidades con los programas, las
mismas que están sintetizadas en la tabla de la pregunta c) y d).
En Excel:
Para hallar la distribución de probabilidades Poisson, en la hoja de cálculo definimos
en la columna A los valores de la variable x = 0, 1, 2, 3, 4, …., 15, ….. En la columna
B, definimos las probabilidades p(x) para cada uno de los valores.
Para ello, estando en la casilla B2, en funciones
del Excel, escogemos Estadísticas
(de seleccionar una categoría) y buscamos la función POISSON y aparece la ventana
de diálogo de la Figura 6.8.
Figura 6.8 Cálculo de probabilidades para la distribución Poisson en Excel
227
En Argumentos de función se define: el número de éxitos, x A2 (0) para poder
efectuar una copia para los demás valores de x. Media 4 y en Acumulado escribir
FALSO, porque no se desea calcular probabilidad acumulada. Al hacer enter, aparece
la probabilidad p(0) = 0.01832.
Para obtener las probabilidades para los otros valores de x, se efectúa una copia de lo
anterior para las celdas sucesivas en B3, B4, hasta B17, cuyos resultados se muestran
en la Figura 6.9.
Para obtener las probabilidades acumuladas, estando en la casilla C2, seleccionamos la
ventana de diálogo de la Figura 6.8, con los mismos Argumentos de función, salvo el
de Acumulado en el que se escribe VERDADERO. Al hacer enter, aparece la
probabilidad F(0) = 0.01832.
Para obtener las probabilidades acumuladas para los otros valores de x, se efectúa una
copia de lo anterior para las celdas sucesivas en C3, C4, hasta C17, cuyos resultados
se muestran en la Figura 6.9.
Figura 6.9 Solución del Ejemplo 6.3 en Excel
228
En Minitab:
En este programa, al igual que en la distribución binomial, se puede hacer cálculos de
probabilidades individuales o para el conjunto de valores que toma la variable.
Del menú escoger Calc → Probability Distributions → Poisson y aparece la ventana
de diálogo de la Figura 6.10. En el ejemplo 6.3, la variable aleatoria X = número de
llamadas recibidas ~P (λ=4) parámetro indicado en la Figura 6.10.
Esta función permite tres tipos de cálculos: Probabililty (calcular una probabilidad para
un valor de la variable), Cumulative probability (calcular la probabilidad acumulada
hasta un valor determinado) e Inverse cumulative probability (calcular el valor de la
variable para una probabilidad acumulada dada). Cálculos que se realizan indicando
previamente el parámetro de la distribución Poisson, es decir, λ = 4 = Mean (media).
Figura 6.10 Probabilidad con la distribución Poisson en Minitab
Veamos el cálculo de probabilidades individuales.
Para calcular la probabilidad de X = 3, activar
, seleccionar
y en el recuadro escribir 3. Al hacer clic en OK, en la hoja de Session
aparece este resultado:
229
Probability Density Function
Poisson with mean = 4
x
3
P( X = x )
0.195367
Para calcular las probabilidades individuales para todos los valores de x= 0, 1, 2, 3, 4,
…., 15 especificados en la columna C1 de la Worksheet se activa Probability
. Seleccionar
y escoger x en el recuadro; y en Optional
storage; se escoge p(x) para que los resultados los deposite en la misma Worksheet. Al
hacer clic en OK, en la Worksheet aparecen los resultados de la Figura 6.11.
Figura 6.11 Probabilidad para varios valores con distribución Poisson en Minitab
Para calcular las probabilidades acumuladas para los valores del ejemplo 6.3 y
con los resultados en la Worksheet, en la Figura 6.10 seleccionar
y en Optional storage: seleccionar F(x). Al hacer clic en OK
en la Worksheet aparecen los resultados de la Figura 6.11.
El gráfico de la distribución Poisson obtenido con el Minitab es el siguiente:
230
Gráfico 6.2 Distribución de Poisson con λ = 4
0.20
p(x)
0.15
0.10
0.05
0.00
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
x
En SPSS:
Para calcular las probabilidades simples (P) del ejemplo 6.3, en la vista de variables se
define x y en la vista de datos se ingresan los mismos (0, 1, 2, 3, 4, …., 15, …).
Figura 6.12 Cálculo de probabilidades con la distribución Poisson en SPSS
231
Del menú escoger Transformar → Calcular variable y aparece la ventana de
diálogo de la Figura 6.12. En Variable de destino: escribir P.
Del Grupo de funciones: del lado derecho, escoger FDP y FDP no centrada; y de
Funciones y variables especiales: seleccionar Pdf.Poison y con un clic en
ingresarla en el recuadro Expresión numérica: donde aparece PDF.POISSON(?,?).
A continuación, hay que definir cada uno de los argumentos ? indicados en la función
PDF.POISSON(cant,media) que se precisan en el recuadro central de la Figura 6.12.
Así cant representa los valores de la variable x, y media = λ = 4. Para finalizar hacer
clic en Aceptar y en la vista de datos aparece los resultados de la Figura 6.14.
Para el cálculo de las probabilidades acumuladas (F) del ejemplo 6.3, proceder de
manera similar al cálculo de probabilidades simples, con las variantes indicadas, tal
como se muestra en la Figura 6.13.
Figura 6.13 Probabilidades acumuladas con la distribución Poisson en SPSS
232
En la Variable de destino: se escribe F. Del Grupo de funciones: escoger FDA y FDA
no centrada; y de Funciones y variables especiales: seleccionar Cdf.Poisson e
ingresarla en el recuadro Expresión numérica y definir los argumentos cant y media
así: CDF.POISSON(x,4). Para finalizar hacer clic en Aceptar y en la vista de datos
aparece los resultados de la Figura 6.14.
Figura 6.14 Distribución de probabilidades Poisson del ejemplo 6.3 en SPSS
En R:
Para calcular probabilidades simples con la distribución Poisson usar la función
dpois(x,λ). Donde x puede ser un valor o un conjunto de valores definidos previamente
y λ la media.
En el ejemplo 6.3, X = número de llamadas recibidas ~ P (λ = 4). En la parte a) se
solicita p (3) = P (X = 3), esto se calcula así:
> dpois(3,4)
[1] 0.1953668
233
Si se desea determinar la distribución de probabilidades de la variable aleatoria X,
primero se define el vector de valores y luego se calculan las probabilidades así:
> x=c(0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15)
> P=dpois(x,4)
Para presentar la distribución de probabilidades (x, P) usar la función cbind que
permite presentar los resultados de los objetos definidos en columna, uno a
continuación de otro, así:
> cbind(x,P)
x
P
[1,]
0 1.831564e-02
[2,]
1 7.326256e-02
[3,]
2 1.465251e-01
[4,]
3 1.953668e-01
[5,]
4 1.953668e-01
[6,]
5 1.562935e-01
[7,]
6 1.041956e-01
[8,]
7 5.954036e-02
[9,]
8 2.977018e-02
[10,]
9 1.323119e-02
[11,] 10 5.292477e-03
[12,] 11 1.924537e-03
[13,] 12 6.415123e-04
[14,] 13 1.973884e-04
[15,] 14 5.639669e-05
[16,] 15 1.503912e-05
Para calcular probabilidades acumuladas con Poisson usar la función ppois(x,λ).
Donde x puede ser un valor o un conjunto de valores definidos y λ la media.
234
En la parte b) del ejemplo 6.3 se solicita F (2) = P (X ≤ 2), esto se calcula así:
> ppois(2,4)
[1] 0.2381033
Para obtener la distribución de probabilidades y las probabilidades acumuladas
efectuamos el siguiente proceso.
> F=ppois(x,4)
> cbind(x,P,F)
x
P
F
[1,]
0 1.831564e-02 0.01831564
[2,]
1 7.326256e-02 0.09157819
[3,]
2 1.465251e-01 0.23810331
[4,]
3 1.953668e-01 0.43347012
[5,]
4 1.953668e-01 0.62883694
[6,]
5 1.562935e-01 0.78513039
[7,]
6 1.041956e-01 0.88932602
[8,]
7 5.954036e-02 0.94886638
[9,]
8 2.977018e-02 0.97863657
[10,]
9 1.323119e-02 0.99186776
[11,] 10 5.292477e-03 0.99716023
[12,] 11 1.924537e-03 0.99908477
[13,] 12 6.415123e-04 0.99972628
[14,] 13 1.973884e-04 0.99992367
[15,] 14 5.639669e-05 0.99998007
[16,] 15 1.503912e-05 0.99999511
235
6.4 DISTRIBUCIÓN HIPERGEOMÉTRICA
Esta distribución esta asociada a experimentos del siguiente tipo: de un conjunto de N
objetos, de los cuales M poseen cierta característica de interés y el resto N – M no la
poseen, se extrae n objetos al azar y sin reemplazo; y se observa el número x de
objetos en la muestra que poseen la característica de interés.
Dicho experimento tiene asociada una variable aleatoria X que da el número x de
éxitos (objetos en la muestra que poseen la característica de interés) en n ensayos de
Bernoulli cuya distribución de probabilidades esta dada por:
p( x) P( X
x)
CxM CnN xM
; máx {o, n + M - N} ≤ x ≤ mín {n, M}
CnN
Los parámetros de la distribución hipergeométrica son N, M y n. Si una variable X
tiene distribución hipergeométrica, se le denota así X ~ Hiper (N, M, n) y la ley de
probabilidades es la antes indicada.
Media y varianza de la distribución hipergeométrica
La media y la varianza de la distribución hipergeométrica son:
µ = E (X) = np y σ2 = Var (X) = npq(N –n) / (N – 1)
Donde: p = M/N y q = (N – M) / N = 1 - p
La función de distribución acumulativa de probabilidades
La función de distribución acumulativa de probabilidades de la hipergeométrica esta
dada por:
F ( x) P( X
x)
P( X
xi x
CxMi CnN xiM
xi )
xi x
CnN
Ejemplo 6.4
De la baraja de 52 cartas se reparten 5 naipes sin reposición. Sea X el número de
naipes de color negros repartidos. Calcule la probabilidad de que entre los 5 naipes
236
repartidos hayan: a) 3 naipes negros; b) a lo más 2 naipes negros; c) la distribución de
probabilidades; y d) la función de distribución acumulativa de probabilidades.
Solución
En la baraja N = 52 cartas, M = 26 cartas negras, n = 5 cartas repartidas sin reposición.
Sea X = el número de naipes negros repartidos ~ Hiper (52, 26, 5) y la ley de
probabilidades es:
p ( x) P( X
Cx26 C526x
x)
; x 0,1, 2,3, 4,5 Luego:
C552
a) p(3) P( X
3)
C326 C226
= 0.32513
C552
b) P (X ≤ 2) = p(0) + p(1) + p(2) =
C026 C526
C552
C226 C326
=
C552
C126 C426
C552
= 0.02531 + 0.14956 + 0.32513 = 0.50000
c) La distribución de probabilidades, calculadas con la función de probabilidad
hipergeométrica, se presentan en el cuadro siguiente:
x
0
1
2
3
4
5
p(x)
0.02531
0.14956
0.32513
0.32513
0.14956
0.02531
F(x)
0.02531
0.17487
0.50000
0.82513
0.97469
1.00000
d) La distribución acumulativa de probabilidades se ha determinado con la función
F ( x) P( X
x)
P( X
xi x
Cx26i C526xi
xi )
xi x
C552
y se presentan en la tabla anterior
de la pregunta c).
Veamos el procedimiento de cálculo de estas probabilidades con los programas, las
mismas que están sintetizadas en la tabla de la pregunta c) y d).
237
En Excel:
Para hallar la distribución de probabilidades hipergeométrica, en la hoja de cálculo
definimos en la columna A los valores de la variable x = 0, 1, 2, 3, 4 y 5. En la
columna B, definimos las probabilidades p(x) para cada uno de los valores.
Para ello, estando en la casilla B2, en funciones
del Excel, escogemos Estadísticas
(de seleccionar una categoría) y buscamos la función DISTR.HIPERGEOM y
aparece la ventana de diálogo de la Figura 6.15.
Figura 6.15 Cálculo de distribución hipergeométrica en Excel
En Argumentos de función se define: el número de éxitos en la muestra,
Muestra_éxito A2 (0) para poder efectuar una copia para los demás valores de x.
Num_de_muestra 5 (es el tamaño de la muestra n). Población_éxito 26 (es el
número de éxitos en la población = M) y en Num_de_población 52 (el tamaño de la
población N). Al hacer enter, aparece la probabilidad p(0) = 0.02531.
Para obtener las probabilidades para los otros valores de x, se efectúa una copia de lo
anterior para las celdas sucesivas en B3, B4, B5, B6 y B7, cuyos resultados se
muestran en la Figura 6.16.
238
Las probabilidades acumuladas F(x) se han determinado haciendo los cálculos en la
columna C usando los de la columna B, estos se muestran en la Figura 6.16.
Figura 6.16 Solución del Ejemplo 6.4 en Excel
En Minitab:
En este programa, al igual que en la distribución binomial y Poisson, se puede hacer
cálculos de probabilidades individuales o para el conjunto de valores que toma la
variable.
Del menú escoger Calc → Probability Distributions → Hipergeometric y aparece
la ventana de diálogo de la Figura 6.17. En el ejemplo 6.4, la variable aleatoria X =
número de naipes negros repartidos ~ Hiper (52, 26, 5) parámetros indicados en la
Figura 6.17.
Esta función permite tres tipos de cálculos: Probabililty (calcular una probabilidad para
un valor de la variable), Cumulative probability (calcular la probabilidad acumulada
hasta un valor determinado) e Inverse cumulative probability (calcular el valor de la
variable para una probabilidad acumulada dada).
Cálculos que se realizan indicando previamente los parámetros de la distribución
hipergeométrica, es decir:
Population size (N): = el tamaño de la población = 52;
Event count in population (M) = número de éxitos en la población = 26; y
Sample size (n): = tamaño de la muestra = 5.
239
Figura 6.17 Probabilidad con la distribución hipergeométrica en Minitab
Veamos el cálculo de probabilidades individuales.
Para calcular la probabilidad de X = 3, se activa
, seleccionar
y en el recuadro escribir 3. Al hacer clic en OK, en la hoja de Session
aparece este resultado:
Probability Density Function
Hypergeometric with N = 52, M = 26, and n = 5
x
3
P( X = x )
0.325130
Para calcular las probabilidades individuales para todos los valores de x= 0, 1, 2, 3, 4,
…., 15 especificados en la columna C1 de la Worksheet se activa Probability
. Seleccionar
y escoger x en el recuadro; y en Optional
storage; se escoge p(x) para que los resultados los deposite en la misma Worksheet. Al
hacer clic en OK, en la Worksheet aparecen los resultados de la Figura 6.18.
Para calcular las probabilidades acumuladas para los valores del ejemplo 6.4 y
con los resultados en la Worksheet, en la Figura 6.17 seleccionar
240
y en Optional storage: seleccionar F(x). Al hacer clic en OK
en la Worksheet aparecen los resultados de la Figura 6.18.
Figura 6.18 Probabilidades con distribución hipergeométrica en Minitab
El gráfico de la distribución hipergeométrica obtenido con el Minitab es el siguiente:
Gráfico 6.3 Distribución hipergeométrica con N = 52, M = 26, n = 5
0.35
0.30
p(x)
0.25
0.20
0.15
0.10
0.05
0.00
0
1
2
3
4
5
x
En SPSS:
Para calcular las probabilidades simples (P) del ejemplo 6.4, en la vista de variables se
define x y en la vista de datos se ingresan los mismos (0, 1, 2, 3, 4, 5).
Del menú escoger Transformar → Calcular variable y aparece la ventana de
diálogo de la Figura 6.19. En Variable de destino: escribir P.
241
Figura 6.19 Cálculo de probabilidades con la distrib. hipergeométrica en SPSS
Del Grupo de funciones: del lado derecho, escoger FDP y FDP no centrada; y de
Funciones y variables especiales: seleccionar Pdf.Hiper y con un clic en
ingresarla en el recuadro Expresión numérica: donde aparece PDF.HIPER(?,?,?,?).
A continuación, hay que definir cada uno de los argumentos ? indicados en la función
PDF.HIPER(cant,total,muestra,aciertos) que se precisan en el recuadro central de la
Figura 6.19. Así cant representa los valores de la variable x, total = N = 52, muestra =
n = 5 y aciertos = M = 26. Para finalizar hacer clic en Aceptar y en la vista de datos
aparece los resultados de la Figura 6.21.
Para el cálculo de las probabilidades acumuladas (F) del ejemplo 6.4, proceder de
manera similar al cálculo de probabilidades simples, con las variantes indicadas, tal
como se muestra en la Figura 6.20.
En la Variable de destino: se escribe F. Del Grupo de funciones: escoger FDA y FDA
no centrada; y de Funciones y variables especiales: seleccionar Cdf.Hiper e
242
ingresarla en el recuadro Expresión numérica y definir los argumentos cant, total,
muestra y aciertos, así: CDF.HIPER(x,52,5,26).
Figura 6.20 Probabilidades acumuladas con la distrib. hipergeométrica en SPSS
Para finalizar hacer clic en Aceptar y en la vista de datos aparece los resultados de la
Figura 6.21.
Figura 6.21 Distrib. de probabilidades hipergeométrica del ejemplo 6.4 en SPSS
243
En R:
Para calcular probabilidades simples con la distribución hipergeométrica usar la
función dhyper(x,M,N-M,n). Donde x puede ser un valor o un conjunto de valores
definidos previamente, M = objetos con la característica de interés, N-M = objetos sin
la característica de interés y n el tamaño de la muestra.
En el ejemplo 6.4, X = número de naipes negros repartidos ~ Hiper (N = 52, M =26, n
= 5). En la parte a) se solicita p (3) = P (X = 3), esto se calcula así:
> dhyper(3,26,26,5)
[1] 0.3251301
Si se desea determinar la distribución de probabilidades de la variable aleatoria X,
primero se define el vector de valores y luego se calculan las probabilidades así:
> x=c(0,1,2,3,4,5)
> P=dhyper(x,26,26,5)
Para presentar la distribución de probabilidades (x, P) usar la función cbind que
permite presentar los resultados de los objetos definidos en columna, uno a
continuación de otro, así:
> cbind(x,P)
x
P
[1,] 0 0.02531012
[2,] 1 0.14955982
[3,] 2 0.32513005
[4,] 3 0.32513005
[5,] 4 0.14955982
[6,] 5 0.02531012
244
Para calcular probabilidades acumuladas con la hipergeométrica usar la función
phyper(x,M,N-M,n). Donde x puede ser un valor o un conjunto de valores definidos
previamente, M = objetos con la característica de interés, N-M = objetos sin la
característica de interés y n el tamaño de la muestra.
En la parte b) del ejemplo 6.4 se solicita F (2) = P (X ≤ 2), esto se calcula así:
> phyper(2,26,26,5)
[1] 0.5
Para obtener la distribución de probabilidades y las probabilidades acumuladas
efectuamos el siguiente proceso.
> F=phyper(x,26,26,5)
> cbind(x,P,F)
x
P
F
[1,] 0 0.02531012 0.02531012
[2,] 1 0.14955982 0.17486995
[3,] 2 0.32513005 0.50000000
[4,] 3 0.32513005 0.82513005
[5,] 4 0.14955982 0.97468988
[6,] 5 0.02531012 1.00000000
Resultados idénticos para cada uno de los programas empleados. Cabe resaltar que
cualquiera de los cálculos de probabilidades con otras distribuciones son similares,
vemos ahora la distribución geométrica de probabilidades.
245
6.5 DISTRIBUCIÓN GEOMÉTRICA
Es una distribución que se relaciona con el proceso de Bernoulli excepto que el
número de ensayos no es fijo.
La variable aleatoria geométrica se define como X = número de ensayos
independientes requeridos hasta obtener el primer éxito, con probabilidad de éxito p y
probabilidad de fracaso q.
La ley de probabilidades geométrica está dada por:
p ( x ) P( X
x) p q x 1 ; x 1, 2,3, 4,5,....
El parámetro de la distribución geométrica es p. Si una variable X tiene distribución
geométrica, se le denota así X ~ Geom (p) y la ley de probabilidades es la antes
indicada.
Media y varianza de la distribución geométrica
La media y la varianza de la distribución geométrica son:
µ = E (X) = 1/p y σ2 = Var (X) = q/p2
La función de distribución acumulativa de probabilidades
La función de distribución acumulativa de probabilidades de la geométrica esta dada
por:
F ( x) P( X
x)
P( X
xi x
q xi
xi ) p
1
xi x
Ejemplo 6.5
Se lanza una moneda cargada con probabilidad de cara igual a 1/4. Sea X el número de
lanzamientos de la moneda hasta obtener cara. Calcule la probabilidad de que se
hayan realizado: a) 3 lanzamientos; b) a lo más 2 lanzamientos; c) la distribución de
probabilidades; y d) la función de distribución acumulativa de probabilidades.
246
Solución
El éxito es obtener cara, entonces p = P(C) = ¼= 0.25 y q = ¾ = 0.75.
Sea X = el número de lanzamientos de la moneda hasta obtener cara ~ Geom (0.25) y
la ley de probabilidades es:
p( x) P( X
1
4
x)
a) p(3) P( X
3)
3
4
1
4
x 1
; x 1, 2,3, 4,.... Luego:
3
4
3 1
1
b) P (X ≤ 2) = p(1) + p(2) =
4
= 0.14063
3
4
1 1
1
4
3
4
2 1
=
= 0.25000 + 0.18750 = 0.4375
c) La distribución de probabilidades, calculadas con la función de probabilidad
geométrica, se presenta en el cuadro siguiente:
x
p(x) = P(X = x)
F(x) = P(X ≤ x)
1
0.25000
0.25000
2
0.18750
0.43750
3
0.14063
0.57813
4
0.10547
0.68359
5
0.07910
0.76270
6
0.05933
0.82202
7
0.04449
0.86652
8
0.03337
0.89989
9
0.02503
0.92492
10
0.01877
0.94369
11
0.01408
0.95776
247
d) La distribución acumulativa de probabilidades se ha determinado con la función
F ( x) P( X
x)
P( X
xi x
1
xi )
4 xi
x
3
4
xi 1
y se presentan en la tabla
anterior de la pregunta c).
Veamos el procedimiento de cálculo de estas probabilidades con los programas, las
mismas que están sintetizadas en la tabla de la pregunta c) y d).
En Excel:
La distribución de probabilidades geométrica no esta definida en el Excel, pero se
pueden obtener en la hoja de cálculo trabajando con la fórmula. Para ello definir en la
columna A, los valores de la variable x, luego en la columna B definir las
probabilidades p(x) como fórmula de cálculo. Del mismo modo en la columna C,
definir los acumulados, bajo la forma tradicional de acumulación y se obtiene el
resultado mostrado en la Figura 6.22.
Figura 6.22 Solución del Ejemplo 6.5 en Excel
248
En Minitab:
En este programa, al igual que para las distribuciones anteriores, se puede hacer
cálculos de probabilidades individuales o para el conjunto de valores que toma la
variable.
Del menú escoger Calc → Probability Distributions → Geometric y aparece la
ventana de diálogo de la Figura 6.23. En el ejemplo 6.5, la variable aleatoria X = el
número de lanzamientos de la moneda hasta obtener cara ~ Geom (0.25) parámetro
indicado en la Figura 6.23.
Figura 6.23 Probabilidad con la distribución geométrica en Minitab
Esta función permite tres tipos de cálculos: Probabililty (calcular una probabilidad para
un valor de la variable), Cumulative probability (calcular la probabilidad acumulada
hasta un valor determinado) e Inverse cumulative probability (calcular el valor de la
variable para una probabilidad acumulada dada).
Cálculos que se realizan indicando previamente el parámetro de la distribución
geométrica, es decir: p = 0.25 escrito en Event probability.
249
Veamos el cálculo de probabilidades individuales.
Para calcular la probabilidad de X = 3, se activa
, seleccionar
y en el recuadro escribir 3. Al hacer clic en OK, en la hoja de Session
aparece este resultado:
Probability Density Function
Geometric with p = 0,25
x
3
P( X = x )
0,140625
* NOTE * X = total number of trials.
Para calcular las probabilidades individuales para todos los valores de x= 0, 1, 2, 3, 4,
…., 15 especificados en la columna C1 de la Worksheet se activa Probability
. Seleccionar
y escoger x en el recuadro; y en Optional
storage; se escoge p(x) para que los resultados los deposite en la misma Worksheet. Al
hacer clic en OK, en la Worksheet aparecen los resultados de la Figura 6.24.
Para calcular las probabilidades acumuladas para los valores del ejemplo 6.5 y
con los resultados en la Worksheet, en la Figura 6.23 seleccionar
y en Optional storage: seleccionar F(x). Al hacer clic en OK
en la Worksheet aparecen los resultados de la Figura 6.24.
Las probabilidades acumuladas presentadas en la Figura 6.24, se encuentran
alrededor de 0.987, para X = 15, por lo que existen más valores de X cuyas
probabilidades acumuladas no se han evaluado. Así tenemos que para X = 40: el
Minitab arroja una probabilidad más cerca de uno y es la siguiente:
Cumulative Distribution Function
Geometric with p = 0.25
x
40
P( X <= x )
0.999990
* NOTE * X = total number of trials.
250
Figura 6.24 Probabilidades con distribución geométrica en Minitab
El gráfico de la distribución geométrica obtenido con el Minitab es el siguiente:
Gráfico 6.4 Distribución geométrica con p = 0.25
0.25
p(x)
0.20
0.15
0.10
0.05
0.00
1
2
3
4
5
6
7
8
9
10 11 12 13 14 15 16 17 18
x
251
En SPSS:
Para calcular las probabilidades simples (P) del ejemplo 6.5, en la vista de variables se
define x y en la vista de datos se ingresan los mismos (0, 1, 2, 3, …, 14, 15, ….).
Del menú escoger Transformar → Calcular variable y aparece la ventana de
diálogo de la Figura 6.25. En Variable de destino: escribir P.
Figura 6.25 Cálculo de probabilidades con la distribución geométrica en SPSS
Del Grupo de funciones: del lado derecho, escoger FDP y FDP no centrada; y de
Funciones y variables especiales: seleccionar Pdf.Geom y con un clic en
ingresarla en el recuadro Expresión numérica: donde aparece PDF.GEOM(?,?).
A continuación, hay que definir cada uno de los argumentos ? indicados en la función
PDF.GEOM(cant,prob) que se precisan en el recuadro central de la Figura 6.25. Así
cant representa los valores de la variable x, prob = probabilidad de éxito = p = 0.25.
252
Para finalizar hacer clic en Aceptar y en la vista de datos aparece los resultados de la
Figura 6.27.
Para el cálculo de las probabilidades acumuladas (F) del ejemplo 6.5, proceder de
manera similar al cálculo de probabilidades simples, con las variantes indicadas, tal
como se muestra en la Figura 6.26.
En la Variable de destino: se escribe F. Del Grupo de funciones: escoger FDA y FDA
no centrada; y de Funciones y variables especiales: seleccionar Cdf.Geom e
ingresarla en el recuadro Expresión numérica.
Luego definir los argumentos cant, y prob, así: CDF.GEOM(x,0.25).
Figura 6.26 Probabilidades acumuladas con la distribución geométrica en SPSS
Para finalizar hacer clic en Aceptar y en la vista de datos aparece los resultados de la
Figura 6.27.
253
Figura 6.27 Distrib. de probabilidades geométrica del ejemplo 6.5 en SPSS
En R:
El cálculo de probabilidades para la distribución geométrica en R se realiza con una
variante en los valores de la variable que van desde cero hacia adelante. Para ello se
define una variable Y = X - 1 = número de pruebas (lanzamientos de la moneda)
menos uno hasta obtener el éxito (cara). Es decir que: P(X = x) = P(Y = x – 1).
Por lo tanto, la función de probabilidad y la distribución acumulativa de probabilidades
para el R son:
p( y) P(Y
y) p q y ; y
0,1, 2,3, 4,5,....
F ( y) P(Y
y)
yi ) p
P(Y
yi y
q yi
yi y
Para calcular probabilidades simples con la distribución geométrica usar la función
dgeom(y,p). Donde y puede ser un valor o un conjunto de valores definidos
previamente y p = probabilidad de éxito.
En el ejemplo 6.5, se definió X = el número de lanzamientos de la moneda hasta
obtener cara ~ Geom (0.25). En la parte a) se solicita p (3) = P (X = 3) = P(Y = 2), esto
se calcula en R así:
254
> dgeom(2,0.25)
[1] 0.140625
Si se desea determinar la distribución de probabilidades de la variable aleatoria Y,
primero se define el vector de valores y luego se calculan las probabilidades así:
> y=c(0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15)
> P=dgeom(y,0.25)
Para presentar la distribución de probabilidades (y, P) usar la función cbind que
permite presentar los resultados de los objetos definidos en columna, uno a
continuación de otro, así:
> cbind(y,P)
y
P
[1,]
0 0.250000000
[2,]
1 0.187500000
[3,]
2 0.140625000
[4,]
3 0.105468750
[5,]
4 0.079101563
[6,]
5 0.059326172
[7,]
6 0.044494629
[8,]
7 0.033370972
[9,]
8 0.025028229
[10,]
9 0.018771172
[11,] 10 0.014078379
[12,] 11 0.010558784
255
[13,] 12 0.007919088
[14,] 13 0.005939316
[15,] 14 0.004454487
[16,] 15 0.003340865
Para calcular probabilidades acumuladas con la geométrica usar la función
pgeom(y,p). Donde x puede ser un valor o un conjunto de valores definidos
previamente, p = probabilidad de éxito.
En la parte b) del ejemplo 6.5 se solicita F (2) = P (X ≤ 2) = P(Y ≤ 1), esto se calcula
en R así:
> pgeom(1,0.25)
[1] 0.4375
Para obtener la distribución de probabilidades y las probabilidades acumuladas
efectuamos el siguiente proceso.
> F=pgeom(y,0.25)
> cbind(y,P,F)
y
P
F
[1,]
0 0.250000000 0.2500000
[2,]
1 0.187500000 0.4375000
[3,]
2 0.140625000 0.5781250
[4,]
3 0.105468750 0.6835938
[5,]
4 0.079101563 0.7626953
[6,]
5 0.059326172 0.8220215
[7,]
6 0.044494629 0.8665161
256
[8,]
7 0.033370972 0.8998871
[9,]
8 0.025028229 0.9249153
[10,]
9 0.018771172 0.9436865
[11,] 10 0.014078379 0.9577649
[12,] 11 0.010558784 0.9683236
[13,] 12 0.007919088 0.9762427
[14,] 13 0.005939316 0.9821821
[15,] 14 0.004454487 0.9866365
[16,] 15 0.003340865 0.9899774
Las probabilidades acumuladas presentadas hasta aquí, se encuentran alrededor de
0.98998, para Y = 15, por lo que existen más valores de Y cuyas probabilidades
acumuladas no se han evaluado. Así tenemos que para Y = 40: el R arroja una
probabilidad más cerca de uno y es la siguiente:
> pgeom(40,0.25)
[1] 0.9999925
También para Y = 50:
> pgeom(50,0.25)
[1] 0.9999996
Nota: el cálculo de probabilidades para las distintas distribuciones discretas vistas
y otras, tienen la misma forma de cálculo en cada uno de los programas
estudiados, siendo cuestión de explorar cada uno de ellos.
257
Capítulo 7. MODELOS CONTINUOS DE PROBABILIDAD
“Democracia: es una superstición muy difundida, un abuso de la
estadística”.
Jorge Luis Borges
CONTENIDO
7.1
7.2
7.3
7.4
7.5
7.6
7.7
Introducción.
Distribución uniforme o rectangular.
Distribución exponencial.
Distribución normal.
Distribución chi-cuadrado.
Distribución T de student.
Distribución F.
7.1 INTRODUCCIÓN
En el presente capítulo se presentan los modelos de probabilidad continuos cuyo
cálculo basado en integrales, ha sido adaptado a los programas que estamos estudiando
y que facilitan el cálculo de probabilidades por la simplificación de los procesos.
Se presentan los principales modelos de probabilidad para variables aleatorias
continuas, cuyo cálculo de probabilidades esta basado en la distribución acumulativa
x
de probabilidades F(x) = P(X ≤ x)
f (t ) dt ; las mismas que permiten calcular
probabilidades como:
P(a ≤ X ≤ b) = F(b) – F(a)
P(X > c) = 1- P(X ≤ c) = 1 – F(c)
o
Entre los modelos a estudiar tenemos las distribuciones: uniforme, exponencial,
normal, chi-cuadrado, T de student y F.
En cada caso se presenta las características principales de cada distribución, es decir, la
función de probabilidad, la esperanza, la varianza, la función de distribución
acumulativa de probabilidades y las respectivas formas de cálculo de probabilidades.
258
7.2 DISTRIBUCIÓN UNIFORME O RECTANGULAR
Definición.- se dice que una variable aleatoria continua X se distribuye uniformemente
en el intervalo [a, b], si su función de densidad de probabilidades está dada por:
1
f ( x)
,a x b
b a
0
, otros casos
Los parámetros de la distribución uniforme son a y b. Si una variable X tiene
distribución uniforme, se le denota así X ~ Uniforme (a, b) y la ley de probabilidades
es la antes indicada.
Media y varianza de la distribución uniforme
La media y la varianza de la distribución uniforme son:
µ = E (X) = (a + b)/2 y σ2 = Var (X) = (b – a)2/12
La función de distribución acumulativa de probabilidades
La función de distribución acumulativa de probabilidades de la uniforme esta dada por:
0
F ( x) P( X
x)
,x
a
x a
,a x b
b a
1
, x b
Ejemplo 7.1
El tiempo en minutos que cierta persona invierte en ir de su casa a la estación del tren
es un fenómeno aleatorio que obedece a una ley de distribución uniforme en el
intervalo de 20 a 25 minutos.
a) ¿Cuál es la probabilidad de que alcance el tren que sale de la estación a las 7:28
a.m. en punto, si sale de su casa exactamente a las 7:05 a.m.?
b) Hallar P(22 ≤ X ≤ 24).
259
Solución
La variable aleatoria X = tiempo que se demora la persona en ir de su casa a la estación
del tren saliendo a las 7:05 a.m. ~ Uniforme (20, 25) y la función de densidad de
probabilidades esta dada por:
f ( x)
1
, 20 x 25
5
0 , otros casos
Así mismo, su función de distribución acumulativa de probabilidades es:
0
F ( x) P( X
x)
,x
20
x 20
, 20 x 25
5
1
, x 25
a) Si sale de su casa a las 7:05, para que alcance el tren que sale a las 7:28, debe
demorarse a lo más 23 minutos, es decir X ≤ 23, luego la probabilidad solicitada
usando la función de distribución acumulativa de probabilidades es:
P( X
23)
F (23)
23 20
5
3
= 0.6.
5
Significa que el 60% de las veces que sale de su casa a las 7:05 alcanzará el tren.
b) P(22 ≤ X ≤ 24) = F(24) – F(22) =
24 20
5
22 20
5
2
= 0.4.
5
Veamos el procedimiento de cálculo de estas probabilidades con los programas
estudiados, reiterando que en la mayoría de los casos dichos cálculos se realizan
utilizando las probabilidades acumuladas.
En Excel:
La distribución uniforme no ha sido definida en Excel, pero con la función de
distribución acumulativa de probabilidades planteada, se pueden efectuar algunos
cálculos de probabilidades acumulativos definiendo la fórmula correspondiente.
260
En Minitab:
Del menú escoger Calc → Probability Distributions → Uniform y aparece la
ventana de diálogo de la Figura 7.1.
Figura 7.1 Probabilidad con la distribución uniforme en Minitab
La función permite tres tipos de cálculos: Probabililty density (para hallar f(x) para un
valor x de la variable), Cumulative probability (calcular la probabilidad acumulada
hasta un valor x determinado) e Inverse cumulative probability (calcular el valor de la
variable para una probabilidad acumulada dada). Las más usadas son las dos últimos.
En el Ejemplo 7.1, la variable aleatoria X = tiempo que se demora la persona en ir de
su casa a la estación del tren ~ Uniforme (20, 25) parámetros indicados en la Figura
7.1. Para resolver la parte a) y b) se necesita el cálculo de probabilidades acumuladas
F(23), F(24) y F(22) que se explican a continuación.
Para el cálculo de probabilidades acumuladas seleccionar
e
indicar los parámetros de la distribución uniforme, es decir: a = 20 escrito en Lower
endpoint (valor más pequeño de X) y b = 25 escrito en Upper endpoint (valor más
grande de X).
261
Para efectuar el cálculo F(23) de la parte a) del Ejemplo 7.1 necesitamos seleccionar
y en el recuadro escribir 23. Al hacer clic en OK, en la hoja de Session
aparece este resultado:
Cumulative Distribution Function
Continuous uniform on 20 to 25
x
23
P( X <= x )
0.6
Se procede del mismo modo para hallar F(24) y F(22) de la parte b).
Si de antemano sabemos que se requiere calcular probabilidades acumuladas para
varios valores de X, en una columna de la worksheet definimos dichos valores como x
y en otra columna F(x) para obtener los resultados. Para ello, en la figura 7.1 en vez de
escoger Input constant: se selecciona
y escoge x en el recuadro; y en
Optional storage; se escoge F(x) para que los resultados los deposite en la misma
Worksheet. Al hacer clic en OK, en la Worksheet aparecen los resultados siguientes:
De la tabla, se obtiene rápidamente P(22 ≤ X ≤ 24) = F(24) – F(22) = 0.8 – 0.4 = 0.4.
Una representación gráfica de la solución anterior en Minitab (cuyo procedimiento es
similar para otras distribuciones continuas), se obtiene seleccionando del menú Graph
→ Probability Distribution Plots, de la ventana mostrada seleccionar View
Probability, luego hacer clic en OK y aparece la ventana de diálogo de la Figura 7.2.
En Distribution: hacer clic en
, escoger la distribución uniforme e indicar sus
parámetros. Luego hacer clic en
(Área a sombrear) y aparece la ventana de
diálogo de la Figura 7.3. En Define Shaded Area By escoger
, luego
e
indicar los valores X1 = 22 y X2 = 24 [ya que queremos hallar P(22 ≤ X ≤ 24) y el
gráfico con dicha área sombreada].
Para finalizar hacer clic en OK y aparece el gráfico de la Figura 7.4.
262
Figura 7.2 Graficando probabilidades acumuladas para la uniforme en Minitab
Figura 7.3 Definiendo el área a sombrear para probabilidades acumuladas con la
distribución uniforme en Minitab
263
Distribution Plot
Uniform, Lower=20, Upper=25
0.4
0.20
Density
0.15
0.10
0.05
0.00
20
22
24
X
25
Figura 7.4 Cálculo y gráfico de P(22 ≤ X ≤ 24) con la dist. uniforme en Minitab
Para el cálculo del inverso de probabilidades acumuladas (calcular el valor del cuantil
x, para una probabilidad acumulada dada) seleccionar
en la
Figura 7.1 e indicar los parámetros de la distribución uniforme.
Para determinar el valor de x, para una probabilidad acumulada F(x) =0.05 en el
Ejemplo 7.1 necesitamos seleccionar
y en el recuadro escribir 0.05. Al
hacer clic en OK, en la hoja de Session aparece este resultado:
Inverse Cumulative Distribution Function
Continuous uniform on 20 to 25
P( X <= x )
0.65
x
20.25
Cuyo gráfico (válido para la distribución uniforme y otras variables continuas) se
obtiene de manera similar al anterior, sólo que en la Figura 7.3 en Define Shaded Area
By se escoge
, luego seleccionar
(cola del lado izquierdo en
inferencia estadística) y en el recuadro de Probability: escribir 0.05.
Para finalizar hacer clic en OK e inmediatamente aparece el gráfico de la Figura 7.5.
264
Distribution Plot
Uniform, Lower=20, Upper=25
0.20
0.05
Density
0.15
0.10
0.05
0.00
20 20.3
X
25
Figura 7.5 Gráfico del inverso de probab. acum. Con la dist. uniforme en Minitab
Nota.- todos los procedimientos vistos aquí con el Minitab son válidos para las otras
distribuciones continuas de probabilidad y que serán abreviados cuando se vea para
esas otras distribuciones.
En SPSS:
Para calcular las densidades f(x) (f) del ejemplo 7.1, sólo para hacer el gráfico de la
función, en la vista de variables se define x y en la vista de datos se ingresan los
mismos (22, 23, 24, ….).
Del menú escoger Transformar → Calcular variable y aparece la ventana de
diálogo de la Figura 7.6. En Variable de destino: escribir f.
Del Grupo de funciones: del lado derecho, escoger FDP y FDP no centrada; y de
Funciones y variables especiales: seleccionar Pdf.Uniform y con un clic en
ingresarla al recuadro Expresión numérica: donde aparece PDF.UNIFORM(??,?).
A continuación, hay que definir cada uno de los argumentos ? indicados en la función
PDF.UNIFORM(cant,mín,máx) que se precisan en el recuadro central de la Figura 7.6.
265
Así cant representa los valores de la variable x, mín = valor mínimo = 20 y máx =
valor máximo = 25.
Figura 7.6 Cálculo de las densidades f(x) con la distribución uniforme en SPSS
Para finalizar hacer clic en Aceptar y en la vista de datos aparece los resultados de la
Figura 7.8, cuyos resultados no son de mucha trascendencia para variables continuas,
ya que sirven para realizar la gráfica de la distribución [distinto al caso discreto, donde
se obtenía probabilidades p(x) con esta función], por lo que para las siguientes
distribuciones los obviaremos, pero se obtienen de manera similar en el SPSS.
Sin embargo, las probabilidades acumuladas son de interés por lo que serán tratadas en
cada una de las distribuciones continuas que se presentan y cuyo procedimiento es
similar al que se ve a continuación.
Para el cálculo de las probabilidades acumuladas (F) del ejemplo 7.1, proceder de
manera similar al cálculo de densidades, con las variantes indicadas, tal como se
muestra en la Figura 7.7.
266
En la Variable de destino: se escribe Fx. Del Grupo de funciones: escoger FDA y
FDA no centrada; y de Funciones y variables especiales: seleccionar Cdf.Uniform e
ingresarla en el recuadro Expresión numérica.
Luego definir los argumentos cant representa los valores de la variable x, mín = valor
mínimo = 20 y máx = valor máximo = 25, así: CDF.UNIFORM(x,20,25).
Figura 7.7 Probabilidades acumuladas con la distribución uniforme en SPSS
Para finalizar hacer clic en Aceptar y en la vista de datos aparece los resultados de la
Figura 7.8.
Figura 7.8 Densidades y probab. acumuladas con la distrib. uniforme en SPSS
Resultados que son idénticos a los obtenidos con el Minitab.
267
En R:
Para calcular las densidades con la distribución uniforme se usa la función
dunif(x,mín,máx). Donde x puede ser un valor o un conjunto de valores definidos
previamente, mín = a = valor más pequeño de X y máx = b = valor más grande de X.
En el ejemplo 7.1, X = tiempo que se demora la persona en ir de su casa a la estación
del tren ~ Uniforme (20, 25). Para determinar las densidades correspondientes a los
valores 22, 23 y 24se define un vector x con dichos valores y luego las densidades f se
calculan así:
> x=c(22,23,24)
> f=dunif(x,20,25)
> cbind(x,f)
x
f
[1,] 22
0.2
[2,] 23
0.2
[3,] 24
0.2
Para calcular probabilidades acumuladas con la uniforme usar la función
punif(x,mín,máx). Donde x puede ser un valor o un conjunto de valores definidos
previamente, mín = a = valor más pequeño de X y máx = b = valor más grande de X.
Para determinar las probabilidades acumuladas F para los valores x ya definidos y
presentar las densidades f también, se procede así:
> F=punif(x,20,25)
> cbind(x,f,F)
x
f
F
[1,] 22
0.2
0.4
[2,] 23
0.2
0.6
[3,] 24
0.2
0.8
268
Para el cálculo del inverso de probabilidades acumuladas (calcular el valor del cuantil
x, para una probabilidad acumulada dada) usar la función qunif(p,mín,máx). Donde p
puede ser una probabilidad acumulada o un conjunto de probabilidades acumuladas
definidas previamente, mín = a = valor más pequeño de X y máx = b = valor más
grande de X.
Para hallar el valor del cuantil x correspondiente a una probabilidad acumulada de
0.05, se procede así:
> qunif(0.05,20,25)
[1] 20.25
Resultados idénticos a los del Minitab y del SPSS. Cabe resaltar que cualquiera de los
cálculos de probabilidades con otras distribuciones es similar.
7.3 DISTRIBUCIÓN EXPONENCIAL
Definición.- se dice que una variable aleatoria continua X tiene distribución
exponencial con parámetro λ positivo, si su función de densidad de probabilidades está
dada por:
f ( x)
e
x
0
,x 0
, otros casos
El parámetro de la distribución exponencial es λ. Si una variable X tiene distribución
exponencial, se le denota así X ~ Exp (λ) y la ley de probabilidades es la antes
indicada.
Media y varianza de la distribución exponencial
La media y la varianza de la distribución exponencial son:
µ = E (X) = 1/ λ
σ2 = Var (X) = 1/ λ2
269
La función de distribución acumulativa de probabilidades
La función de distribución acumulativa de probabilidades esta dada por:
F ( x) P( X
x)
0
, x 0
1 e
x
, x 0
Ejemplo 7.2
El tiempo de vida de un tipo de focos es una variable aleatoria X, que tiene distribución
exponencial con una vida media de 1000 horas. a) ¿Qué proporción de focos no sirve
antes de las 1000 horas? y b) ¿Qué proporción de focos dura entre 800 y 1200 horas?
Solución
La variable aleatoria X = tiempo de vida de los focos tiene distribución exponencial
con media µ = 1/ λ = 1000 horas. Por lo tanto, λ = 0.001. Luego X ~ Exp (0.001) y la
función de densidad de probabilidades esta dada por:
f ( x)
0.001 e
0
0.001 x
,x 0
, otros casos
Así mismo, la función de distribución acumulativa de probabilidades esta dada por:
F ( x) P( X
x)
0
, x 0
1 e
0.001 x
, x 0
Entonces las probabilidades solicitadas son:
a) P(X < 1000) = F(1000) = 1 – e-0.001(1000) = 1 – e-1 = 0.6321
Significa que el 63.21% de los focos no sirve antes de las 1000 horas.
b) P(800 ≤ X ≤ 1200) = F(1200) - F(800) = [1 – e-0.001(1200)] – [1 – e-0.001(800)] =
= [1 - e-1.2] – [1 - e- 0.8 = 0.698806 – 0.550671 = 0.148135.
Significa que el 14.81% de los focos dura entre 800 y 1200 horas.
Veamos el cálculo de estas probabilidades acumuladas con los programas en estudio.
270
En Excel:
Para hallar la distribución de probabilidades acumuladas exponenciales, en la hoja de
cálculo definimos en la columna A los valores de la variable x = 800, 1000 y 1200. En
la columna B, definimos las probabilidades acumuladas F(x) para cada uno de los
valores.
Para ello, estando en la casilla B2, en funciones
del Excel, escogemos Estadísticas
(de seleccionar una categoría) y buscamos la función DISTR.EXP y aparece la
ventana de diálogo de la Figura 7.9.
Figura 7.9 Cálculo de probabilidades acumuladas con exponencial en Excel
En Argumentos de función se define: el valor de X = A2 (800) para poder efectuar
una copia para los demás valores de x, Lambda = λ = 0.001 (es el valor del parámetro)
y en Acum escribir VERDADERO [para obtener las probabilidades acumuladas, si se
escribe FALSO se obtiene la densidad de probabilidades f(x)]. Al hacer enter, aparece
la probabilidad acumulada F(800) = 0.550671.
271
Para obtener las probabilidades acumuladas para los otros valores de x, se efectúa una
copia de lo anterior para las celdas sucesivas en B3 y B4, cuyos resultados son:
En Minitab:
Del menú escoger Calc → Probability Distributions → Exponential y aparece la
ventana de diálogo de la Figura 7.10.
Figura 7.10 Probabilidad acumulada con la distribución exponencial en Minitab
La función permite tres tipos de cálculos: Probabililty density (para hallar f(x) para un
valor x de la variable), Cumulative probability (calcular la probabilidad acumulada
hasta un valor x determinado) e Inverse cumulative probability (calcular el valor de la
variable para una probabilidad acumulada dada). Las más usadas son las dos últimos.
En el Ejemplo 7.2, la variable aleatoria X = tiempo de vida de los focos ~ Exp (0.001)
parámetro indicado en la Figura 7.10. Para resolver la parte a) y b) se necesita el
272
cálculo de probabilidades acumuladas F(800), F(1000) y F(1200) que se explican a
continuación.
Para el cálculo de probabilidades acumuladas seleccionar
e
indicar el parámetro requerido por la distribución exponencial en Scale, es decir: media
µ = 1/ λ = 1000.
Para efectuar el cálculo F(800) de la parte a) del Ejemplo 7.2 necesitamos seleccionar
y en el recuadro escribir 1000. Al hacer clic en OK, en la hoja de
Session aparece este resultado:
Cumulative Distribution Function
Exponential with mean = 1000
x
1000
P( X <= x )
0.632121
Se procede del mismo modo para hallar F(800) y F(1200) de la parte b).
También se puede calcular probabilidades acumuladas para varios valores de X, en una
columna de la worksheet definimos dichos valores como x y en otra columna F(x) para
obtener los resultados. Para ello, en la figura 7.10 en vez de escoger Input constant: se
selecciona
y escoge x en el recuadro; y en Optional storage; se escoge
F(x) para que los resultados los deposite en la misma Worksheet. Al hacer clic en OK,
en la Worksheet aparecen los resultados siguientes:
De la tabla, se obtiene rápidamente P(800 ≤ X ≤ 1200) = F(1200) – F(800) = 0.698806
– 0.550671 = 0.148135.
La representación gráfica de la solución anterior en Minitab, se obtiene seleccionando
del menú Graph → Probability Distribution Plots, de la ventana mostrada
seleccionar View Probability, luego hacer clic en OK y aparece la ventana de diálogo
de la Figura 7.11.
273
Figura 7.11 Graficando probabilidades acum. para la exponencial en Minitab
En Distribution: hacer clic en
, escoger la distribución Exponential e indicar la
media = 1000 en Scale. Luego hacer clic en
escoger
, luego
. En Define Shaded Area By
e indicar los valores X1 = 800 y X2 = 1200 [ya que
queremos hallar P(800 ≤ X ≤ 1200) y el gráfico con dicha área sombreada].
Para finalizar hacer clic en OK y aparece el gráfico siguiente:
Distribución exponencial
Scale= µ = 1/ λ = 1000, Thresh=0
0.0010
Density
0.0008
0.0006
0.0004
0.148
0.0002
0.0000
0
800 1200
X
274
Para el cálculo del inverso de probabilidades acumuladas (calcular el valor del cuantil
x, para una probabilidad acumulada dada) seleccionar
en la
Figura 7.10 e indicar el parámetro de la distribución exponencial.
Para determinar el valor de x, para una probabilidad acumulada F(x) =0.05 en el
Ejemplo 7.2 necesitamos seleccionar
y en el recuadro escribir 0.05. Al
hacer clic en OK, en la hoja de Session aparece este resultado:
Inverse Cumulative Distribution Function
Exponential with mean = 1000
P( X <= x )
0.05
x
51.2933
El 5% de los focos tiene un duración menor o igual a 51.29 horas.
El valor de x, para una probabilidad acumulada F(x) =0.95 es:
Inverse Cumulative Distribution Function
Exponential with mean = 1000
P( X <= x )
x
0.95 2995.73
El 95% de los focos tiene una duración menor o igual a 2995.73 horas.
En SPSS:
Para calcular las probabilidades acumuladas F(x) (F) del ejemplo 7.2, en la vista de
variables se define x y en la vista de datos se ingresan los mismos (800, 1000, 1200).
Del menú escoger Transformar → Calcular variable y aparece la ventana de
diálogo de la Figura 7.12. En Variable de destino: escribir F.
Del Grupo de funciones: del lado derecho, escoger FDA y FDA no centrada; y de
Funciones y variables especiales: seleccionar Cdf.Exp y con un clic en
ingresarla al recuadro Expresión numérica: donde aparece CDF.EXP(?,?).
A continuación, hay que definir cada uno de los argumentos ? indicados en la función
CDF.EXP(cant,escala) que se precisan en el recuadro central de la Figura 7.12. Así
cant representa los valores de la variable x y escala = λ = 0.001.
275
Figura 7.12 Cálculo de probab. acum. con la distribución exponencial en SPSS
Para finalizar hacer clic en Aceptar y en la vista de datos aparece los resultados de la
Figura 7.13.
Figura 7.13 Probabilidades acumuladas con la distrib. exponencial en SPSS
En R:
Para calcular probabilidades acumuladas con la exponencial usar la función pexp(x,λ).
Donde x puede ser un valor o un conjunto de valores definidos previamente y λ =
parámetro de la exponencial.
276
En el ejemplo 7.2, X = tiempo de vida de los focos ~ Exp (0.001). Para determinar las
probabilidades acumuladas correspondientes a los valores 800, 1000 y 1200 se define
un vector x con esos valores y luego las probabilidades acumuladas F se calculan así:
> x=c(800,1000,1200)
> F=pexp(x,0.001)
> cbind(x,F)
x
[1,]
F
800
0.5506710
[2,] 1000
0.6321206
[3,] 1200
0.6988058
Para el cálculo del inverso de probabilidades acumuladas (calcular el valor del cuantil
x o q, para una probabilidad acumulada dada) usar la función qexp(p,λ). Donde p es
una o un conjunto de probabilidades acumuladas definidas previamente y
λ =
parámetro de la exponencial.
Para hallar el valor del cuantil q correspondiente a las probabilidades acumulada de
0.05 y 0.95 se procede así:
> p=c(0.05,0.95)
> q=qexp(p,0.001)
> cbind(p,q)
p
q
[1,] 0.05 51.29329
[2,] 0.95 2995.73227
277
7.4 DISTRIBUCIÓN NORMAL
Definición.- se dice que una variable aleatoria continua X tiene distribución normal
con parámetros µ y σ2, si su función de densidad de probabilidades está dada por:
f ( x)
2
)2
(x
1
2
e
2
2
,
x
La distribución normal es simétrica respecto a µ.
Media y varianza de la distribución normal
La media y la varianza de la distribución normal son:
E (X) = µ
y
Var (X) = σ2
Si una variable aleatoria X tiene distribución normal con media µ y varianza σ2, se le
denota así X ~ N (µ y σ2) y la ley de probabilidades es la antes indicada. La gráfica de
la distribución normal tiene la siguiente forma:
Distribution Normal
Mean = µ, StDev = σ
0.8
0.7
0.6
Density
0.5
0.4
0.3
0.2
0.1
0.0
µ
X
La función de distribución acumulativa de probabilidades
La función de distribución acumulativa de probabilidades esta dada por:
278
F ( x)
P( X
x)
2
)2
(t
1
x
e
2
2
2
dt
Calcular estas probabilidades acumuladas es complicado ya que los cálculos varían
para cada media y cada varianza. Problema que es resuelto mediante el proceso de
estandarización (transformación) de la variable X ~ N (µ, σ2) en otra variable
Z
X
~ N (0, 1) llamada distribución normal estándar.
La distribución normal estándar
Si una variable aleatoria X ~ N (µ, σ2) y se define la variable Z
variable aleatoria Z tiene distribución normal estándar
X
entonces la
= N (0, 1) y su función de
densidad de probabilidades esta dada por:
f ( z)
1
e
2
z2
2
,
z
La función de distribución acumulada de la distribución normal estándar se denota y
define así:
2
Φ(z) = P( Z
z)
z
t
1
2
e dt . Se cumple que Φ(-z) = 1 - Φ(z), para z > 0.
2
Estas probabilidades han sido calculadas y aparecen en la denominada tabla de la
distribución normal estándar y facilitada por el uso de los programas estadísticos como
los que estamos estudiando.
Estandarización.- es el proceso por el cual una variable aleatoria X ~ N (µ, σ2) se
transforma en otra variable aleatoria Z
X
~ N (0, 1); permitiendo el cálculo de
probabilidades cuando X se encuentra entre dos números reales a y b del siguiente
modo:
P(a ≤ X ≤ b) = P[(a - µ) /σ ≤ (X - µ) /σ ≤ (b - µ) /σ] =
= P[(a - µ) /σ ≤ Z ≤ (b - µ) /σ] = Φ((b - µ) /σ) - Φ((b - µ) /σ)
279
Ejemplo 7.3
Los diámetros de los tubos fabricados por cierta máquina tienen distribución normal
con media de 9.8 mm. y desviación estándar de 0.53 mm. a) ¿Qué proporción de tubos
serán rechazados, si no se aceptan diámetros inferiores a 9 mm?; b) ¿Qué proporción
de tubos tiene un diámetro entre 8.5 y 11.0 mm?; y c) ¿por debajo de que diámetro se
encuentra el 95% de los tubos?
Solución
La variable aleatoria X = diámetro de los tubos en mm. ~ N (9.8, 0.53).
Estandarizando se tiene que Z
X 9.8
~ N (0, 1)
0.53
a) Se rechazan los tubos si X < 9 mm., entonces:
P( X
9)
P
X 9.8
0.53
9 9.8
0.53
P( Z
1.51) = Φ(-1.51) = 0.06552
Significa que alrededor del 6.55% de los tubos fabricados será rechazado.
b) P(8.5 ≤ X ≤ 11.0) = P
8.5 9.8
0.53
X 9.8
0.53
9 9.8
0.53
P( 2.45 Z
3.40)
= Φ(3.40) - Φ(-2.45) = 0.99966 - 0.00714 = 0.99252.
Significa que alrededor del 99.25% de los tubos fabricados tienen diámetro entre
8.5 y 11.0 mm.
c) Necesitamos halla el cuantil q0.95 = x, tal que:
0.95 = P(X ≤ x) = P Z
x 9.8
x 9.8
→
0.53
0.53
Z 0.95
1.645 → x = 10.67 mm.
Significa que el 95% de los tubos fabricados tienen un diámetro de alrededor de los
10.67 mm.
Veamos la solución del ejemplo 7.3 utilizando los programas y basados
fundamentalmente en las probabilidades acumuladas de la normal.
280
En Excel:
Para hallar la distribución de probabilidades acumuladas normales, en la hoja de
cálculo definimos en la columna A los valores de la variable x = 8.5, 9.0 y 11.0. En la
columna B, definimos las probabilidades acumuladas F(x).
Para hallar las probabilidades acumuladas, estando en la casilla B2, en funciones
del Excel, escogemos Estadísticas (de seleccionar una categoría) y buscamos la
función DISTR.NORM y aparece la ventana de diálogo de la Figura 7.14.
Figura 7.14 Cálculo de probabilidades acumuladas con la normal en Excel
En Argumentos de función se define: el valor de X = A2 (8.5) para poder efectuar
una copia para los demás valores de x, Media = µ = 9.8, Desv_estándar = σ = 0.53 y
en Acum escribir VERDADERO [para obtener las probabilidades acumuladas, si se
escribe FALSO se obtiene la densidad de probabilidades f(x)]. Al hacer clic en
Aceptar, aparece la probabilidad acumulada F(8.5) = 0.007087.
281
Para obtener las probabilidades acumuladas para los otros valores de x, se efectúa una
copia de lo anterior para las celdas sucesivas en B3 y B4, cuyos resultados son:
Nota.- para hallar los resultados iniciales del ejemplo 7.3, se hizo una aproximación de
los valores Z, para poder usar la “vieja” tabla de la distribución normal estándar,
resultados que difieren de los acumulados F(x) encontrados con el programa, ya que
éste internamente hace la estandarización y da una mejor aproximación. Sin embargo,
el Excel también permite obtener los Φ(z) con la función DIST.NORM.ESTAND(z).
Tal como se muestra en los resultados anteriores difieren los F(x) y Φ(z).
Para hallar el inverso de probabilidades acumuladas (calcular el valor del cuantil x ,
para una probabilidad acumulada = p) usar la función DIST.NORM.INV(p, µ, σ) que
para la parte c) del ejemplo 7.3 escribir =DIST.NORM.INV(0.95,9.8,0.53) en el
recuadro al lado de
, al hacer enter se obtiene x = 10.67177 mm. similar al
anteriormente hallado.
En Minitab:
Del menú escoger Calc → Probability Distributions → Normal y aparece la ventana
de diálogo de la Figura 7.15.
La función permite tres tipos de cálculos: Probabililty density (para hallar f(x) para un
valor x de la variable), Cumulative probability (calcular la probabilidad acumulada
hasta un valor x determinado) e Inverse cumulative probability (calcular el valor de la
variable para una probabilidad acumulada dada). Las más usadas son las dos últimos.
En el Ejemplo 7.3, la variable aleatoria X = diámetro de los tubos en mm. ~ N (9.8,
0.53) parámetro indicado en la Figura 7.15.
Para resolver la parte a) y b) se necesita el cálculo de probabilidades acumuladas
F(8.5), F(9.0) y F(11.0) que se explican a continuación.
282
Figura 7.15 Probabilidad acumulada con la distribución normal en Minitab
Para el cálculo de probabilidades acumuladas seleccionar
e
indicar los parámetros requeridos por la distribución normal en Mean = media = µ =
9.8 y en Standard deviation = desviación estándar = σ = 0.53.
Para efectuar el cálculo F(8.5) de la parte b) del Ejemplo 7.3 necesitamos seleccionar
y en el recuadro escribir 8.5. Al hacer clic en OK, en la hoja de
Session aparece este resultado:
Cumulative Distribution Function
Normal with mean = 9.8 and standard deviation = 0.53
x
8.5
P( X <= x )
0.0070869
Se procede del mismo modo para hallar F(9.0) y F(11.0).
También se puede calcular probabilidades acumuladas para varios valores de X, en una
columna de la worksheet definimos dichos valores como x y en otra columna F(x) para
obtener los resultados. Para ello, en la figura 7.15 en vez de escoger Input constant: se
selecciona
y escoge x en el recuadro; y en Optional storage: se escoge
283
F(x) para que los resultados los deposite en la misma Worksheet. Al hacer clic en OK,
en la Worksheet aparecen los resultados siguientes:
De la tabla, se obtiene rápidamente P(8.5 ≤ X ≤ 11.0) = F(11.0) – F(8.5) = 0.988218 –
0.007087 = 0.981131. Ligeramente diferente al 0.99252 encontrado en b).
La representación gráfica de la solución anterior en Minitab, se obtiene seleccionando
del menú Graph → Probability Distribution Plots, de la ventana mostrada
seleccionar View Probability, luego hacer clic en OK y aparece la ventana de diálogo
de la Figura 7.16.
Figura 7.16 Graficando probabilidades acumuladas con la normal en Minitab
En Distribution: hacer clic en
= 0.53. Luego hacer clic en
luego
, escoger la distribución Normal e indicar µ = 9.8 y σ
. En Define Shaded Area By escoger
,
e indicar los valores X1 = 8.5 y X2 = 11.0 [ya que queremos hallar P(8.5 ≤
X ≤ 11.0) y el gráfico con dicha área sombreada].
284
Para finalizar hacer clic en OK y aparece el gráfico siguiente:
Distribution Normal
Mean=9.8, StDev=0.53
0.8
P(8.5 ≤ X ≤ 11.0) = 0.981
0.7
0.6
Density
0.5
0.4
0.3
0.2
0.1
0.0
8.5
9.8
X
11
Para el cálculo del inverso de probabilidades acumuladas (calcular el valor del cuantil
x, para una probabilidad acumulada dada) seleccionar
en la
Figura 7.15 e indicar los parámetros de la distribución normal.
Para determinar el valor de x, para una probabilidad acumulada F(x) =0.95 en la parte
c) del Ejemplo 7.3 necesitamos seleccionar
y en el recuadro escribir
0.95. Al hacer clic en OK, en la hoja de Session aparece este resultado:
Inverse Cumulative Distribution Function
Normal with mean = 9.8 and standard deviation = 0.53
P( X <= x )
0.95
x
10.6718
El 95% de los tubos tiene un diámetro menor o igual a 10.6718 mm.
En SPSS:
Para calcular las probabilidades acumuladas F(x) (F) del ejemplo 7.3, en la vista de
variables se define x y en la vista de datos se ingresan los mismos (8.5, 9.0, 11.0).
285
Del menú escoger Transformar → Calcular variable y aparece la ventana de
diálogo de la Figura 7.17. En Variable de destino: escribir F.
Del Grupo de funciones: del lado derecho, escoger FDA y FDA no centrada; y de
Funciones y variables especiales: seleccionar Cdf.Normal y con un clic en
ingresarla al recuadro Expresión numérica: donde aparece CDF.NORMAL(?,?,?).
A continuación, hay que definir cada uno de los argumentos ? indicados en la función
CDF.NORMAL(cant,media,desv_típ) que se precisan en el recuadro central de la
Figura 7.17. Así cant representa los valores de la variable x, media = µ = 9.8 y desv_típ
= σ = 0.53.
Figura 7.17 Cálculo de probab. acumuladas con la distribución normal en SPSS
Para finalizar hacer clic en Aceptar y en la vista de datos aparece los resultados de la
Figura 7.18.
Los resultados obtenidos son idénticos a los del Excel y Minitab.
286
Figura 7.18 Probabilidades acumuladas con la distribución normal en SPSS
En R:
Para calcular probabilidades acumuladas con la exponencial usar la función
pnorm(x,µ,σ). Donde x puede ser un valor o un conjunto de valores definidos
previamente, µ = media, y σ = desviación estándar.
En el ejemplo 7.3, X = diámetro de los tubos en mm. ~ N (9.8, 0.532). Para determinar
las probabilidades acumuladas correspondientes a los valores 8.5, 9.0 y 11.0 se define
un vector x con esos valores y luego las probabilidades acumuladas F se calculan así:
> x=c(8.5,9.0,11.0)
> F=pnorm(x,9.8,0.53)
> cbind(x,F)
x
F
[1,]
8.5
0.007086862
[2,]
9.0
0.065593960
[3,] 11.0
0.988217584
Para el cálculo del inverso de probabilidades acumuladas (calcular el valor del cuantil
x o q, para una probabilidad acumulada dada) usar la función qnorm(x,µ,σ). Donde p
es una o un conjunto de probabilidades acumuladas definidas previamente.
Para hallar el valor del cuantil q correspondiente a las probabilidades acumulada de
0.95 se procede así:
> qnorm(0.95,9.8,0.53)
[1] 10.67177
El 95% de los tubos tiene un diámetro menor o igual a 10.6718 mm.
287
7.5 DISTRIBUCIÓN CHI-CUADRADO
Definición.- Sean Z1, Z2, ..., Zr, variables aleatorias independientes, cada una con
distribución normal estándar, Zi ~ N(0 , 1) . Entonces, la variable aleatoria
x²
Z12
Z22 ... Z r2
tiene una distribución chi-cuadrado con r grados de libertad, si su función de
densidad de probabilidades está dada por:
r
1
f X 2 ( x) =
2
r
2
r
2
1
x2 e
x/2
= 0
,
0<x<
,
en otros casos
Donde:

Γ representa el gamma de un número,
entero positivo

( n)
(n) = (n – 1)! . Además,
0
X n 1e x dx , n > 0. Si n es
1
2
.
r = grados de libertad (GL) representa el número de variable aleatorias
independientes que se suman o el número de variables que pueden variar
libremente. En regresión y econometría es el rango de una matriz (máximo
número de columnas linealmente independientes)
asociadas a formas
cuadráticas delas sumas de cuadrados.
Si la variable aleatoria X tiene distribución chi-cuadrado con r grados de libertad,
la denotaremos como X ~ X r2 .
Media y varianza de la distribución chi-cuadrado
La media y la varianza de la distribución chi-cuadrado son:
= E(x²) = r
y
² = Var(x²) = 2r
La función de distribución acumulativa de probabilidades
El cálculo de probabilidades para la variable aleatoria chi-cuadrado, se efectúa
utilizando las Tablas de Chi – Cuadrado, las mismas que han sido elaboradas
288
utilizando la función de distribución acumulativa de probabilidades que en la
mayoría de los casos son del tipo de acumulación menor o igual que.
Así tenemos que, la probabilidad que la variable aleatoria X con distribución
xr2 1 r
30 sea menor o igual a un valor constante x 2 , representada por:
PX
X2
0≤
,
≤1
Está dada por:
PX x
2
x2
0
f X 2 x dx
1
x2
0
2
r
2
r
2
x
r
1
2
x
2
e dx
y su gráfica es:
Distribution chi-cuadrado
Chi-Square, df=25
0.06
0.05
Density
0.04
0.03
0.02
0.01
0.00
α
Xα
X
Ejemplo 7.4
Si la variable aleatoria X ~ X 252 . Hallar: a) ¿Qué proporción de valores de X son
mayores que 40.6?; b) ¿Qué proporción de valores de X se encuentran entre 14.6 y
37.7?; y c) ¿por debajo de que valor se encuentra el 10% de los valores de X?
Solución
La variable aleatoria X ~ X 252 . Entonces, usando la tabla de chi-cuadrado se tiene que:
289
a) P[X > 40.6] = 1 - P[ X 252 ≤ 40.6] = 1 – 0.975 = 0.025.
Significa que el 2.5% de los valores de X ~ X 252 son mayores que 40.6.
b) P(14.6 ≤ X ≤ 37.7) = P[ X 252 ≤ 37.7] - P[ X 252 ≤ 14.6] = 0.95 – 0.05 = 0.90
Significa que el 90% de los valores de X ~ X 252 se encuentran entre 14.6 y 37.7.
c) Necesitamos halla el cuantil q0.10 = x, tal que:
2
0.10 = P( X 252 ≤ x) → x = X 25,0.10
= 16.5
Significa que el 10% de los valores de X ~ X 252 son menores que 16.5.
Veamos la solución del ejemplo 7.4 utilizando los programas y basados
fundamentalmente en las probabilidades acumuladas de la chi-cuadrado.
En Excel:
Para hallar la distribución de probabilidades acumuladas chi-cuadrado, en la hoja de
cálculo definimos en la columna A los valores de la variable x = 14.6, 37.7 y 40.6. En
la columna B, definimos las probabilidades acumuladas, que en Excel vienen dadas
por F(x) = P(X > x).
Para hallar las probabilidades acumuladas, estando en la casilla B2, en funciones
del Excel, escogemos Estadísticas (de seleccionar una categoría) y buscamos la
función DISTR.CHI y aparece la ventana de Argumentos de función donde se
define: el valor de X = A2 (14.6) para poder efectuar una copia para los otros valores
de x, y en el recuadro de Grados_de libertad escribir 25. Una forma directa de
cálculo es escribir =DISTR.CHI(A2,25) en el recuadro al lado de
. Al hacer clic en
Aceptar, aparece la probabilidad acumulada F(14.6) = 0.950239.
Para obtener las probabilidades acumuladas para los otros valores de x, se efectúa una
copia de lo anterior para las celdas sucesivas en B3 y B4, los resultados se presentan en
la Figura 7.19. Se puede apreciar que se ha calculado una columna de 1 – F(x) cuyos
resultados son parecidos a los usados en la solución manual del Ejemplo 7.4.
290
Figura 7.19 Cálculo de probabilidades acumuladas con la chi-cuadrado en Excel
Para hallar el inverso de probabilidades acumuladas (calcular el valor del cuantil x ,
para una probabilidad acumulada = p) usar la función PRUEBA.CHI.INV(1-p, GL)
que para la parte c) del ejemplo 7.4 es PRUEBA.CHI.INV(0.90, 25) al hacer enter se
obtiene x = 16.4734 similar al 16.5 hallado con la tabla de chi-cuadrado.
En Minitab:
Del menú escoger Calc → Probability Distributions → Chi-Square y aparece la
ventana de diálogo Chi-Square Distribution. El procedimiento de cálculo es similar
al ejecutado con las distribuciones de probabilidades antes vistas. Es decir, el cálculo
para una constante (Input constant, con el resultado en la ventana Session) o para
varios valores definidos previamente en una columna de la Worksheet (Input column,
con los resultados en la worksheeet) que usaremos de aquí en adelante.
Para el cálculo de probabilidades acumuladas seleccionar
e
indicar el parámetro requerido Degrees of freedom (grados de libertad) escribir 25 en
el recuadro.
Para calcular las probabilidades acumuladas para los valores de X del ejemplo 7.4, en
una columna de la worksheet definimos como x los valores 14.6, 37.7 y 40.6; y en otra
columna F(x) para obtener los resultados. Para ello, seleccionar
y
escoge x en el recuadro; y en Optional storage: se escoge F(x) para que los resultados
los deposite en la misma Worksheet. Al hacer clic en OK, en la Worksheet aparecen
los resultados siguientes:
291
Resultados idénticos a los obtenidos con el Excel en la columna 1 – F(x).
De la tabla, se obtiene rápidamente P(14.6 ≤ X ≤ 37.7) = F(37.7) – F(14.6) = 0.950526
– 0.049761 = 0.900765. Ligeramente diferente al 0.90 encontrado en b).
La representación gráfica de la solución anterior en Minitab, se obtiene seleccionando
del menú Graph → Probability Distribution Plots, de la ventana mostrada
seleccionar View Probability, luego hacer clic en OK y aparece la ventana de diálogo
Probability Distribution Plot – Probability.
En Distribution: hacer clic en
, escoger la distribución Chi-Square e indicar el
parámetro requerido Degrees of freedom (grados de libertad) escribir 25 en el
recuadro.
Luego hacer clic en
. En Define Shaded Area By escoger
, luego
e indicar los valores X1 = 14.6 y X2 = 37.7 [ya que queremos hallar P(14.6 ≤ X
≤ 37.7) y el gráfico con dicha área sombreada].
Para finalizar hacer clic en OK y aparece el gráfico de la Figura 7.20.
Distribution Plot
Chi-Square, df=25
0.06
0.901
0.05
Density
0.04
0.03
0.02
0.01
0.00
14.6
X
37.7
Figura 7.20 Gráfico de P(14.6 ≤ X ≤ 37.7) con la chi-cuadrado en Minitab
292
Para el cálculo del inverso de probabilidades acumuladas (calcular el valor del cuantil
x, para una probabilidad acumulada dada) seleccionar
en la
ventana de diálogo Chi-Square Distribution e indicar los grados de libertad 25.
Para determinar el valor de x, para una probabilidad acumulada F(x) =0.10 en la parte
c) del Ejemplo 7.4 necesitamos seleccionar
y en el recuadro escribir
0.10. Al hacer clic en OK, en la hoja de Session aparece este resultado:
Inverse Cumulative Distribution Function
Chi-Square with 25 DF
P( X <= x )
0.1
x
16.4734
El 10% de los valores de X ~ X 252 son menores que 16.5.
En SPSS:
Para calcular las probabilidades acumuladas F(x) (F) del ejemplo 7.4, en la vista de
variables se define x y en la vista de datos se ingresan los mismos (14.6, 37.7, 40.6).
Del menú escoger Transformar → Calcular variable y aparece la ventana de
diálogo de la Figura 7.21. En Variable de destino: escribir F.
Del Grupo de funciones: del lado derecho, escoger FDA y FDA no centrada; y de
Funciones y variables especiales: seleccionar Cdf.Chisq y con un clic en
ingresarla al recuadro Expresión numérica: donde aparece CDF.CHISQ(?,?).
A continuación, hay que definir cada uno de los argumentos ? indicados en la función
CDF.CHISQ(cant,gl) que se precisan en el recuadro central de la Figura 7.21. Así cant
representa los valores de la variable x y gl = grados de libertad = 25. Para finalizar
hacer clic en Aceptar y en la vista de datos aparece los resultados siguientes:
293
Figura 7.21 Cálculo de probab. acumuladas con la chi-cuadrado en SPSS
En R:
Para calcular probabilidades acumuladas con la chi-cuadrado usar la función
pchisq(x,gl). Donde x puede ser un valor o un conjunto de valores definidos
previamente, gl = grados de libertad.
En el ejemplo 7.4, X ~ X 252 . Para determinar las probabilidades acumuladas
correspondientes a los valores 14.6, 37.7 y 40.6 se define un vector x con esos valores
y luego las probabilidades acumuladas F se calculan así:
> x=c(14.6,37.7,40.6)
> F=pchisq(x,25)
> cbind(x,F)
x
F
[1,] 14.6
0.04976093
294
[2,] 37.7
0.95052629
[3,] 40.6
0.97471962
Para el cálculo del inverso de probabilidades acumuladas (calcular el valor del cuantil
x o q, para una probabilidad acumulada dada) usar la función qchisq(x,gl). Donde p es
una o un conjunto de probabilidades acumuladas definidas previamente.
Para hallar el valor del cuantil q correspondiente a las probabilidades acumulada de
0.10 se procede así:
> qchisq(0.10,25)
[1] 16.47341
El 10% de los valores de X ~ X 252 son menores que 16.5.
7.6 DISTRIBUCIÓN T DE STUDENT
Definición.- Sea Z una variable aleatoria normal estándar N(0, 1). Sea X2 ~ X r2 una
variable aleatoria que tiene una distribución chi-cuadrado con r grados de libertad, y si
Z y X2 son independientes, entonces la variable aleatoria (v.a.)
T
Z
X2
r
Z r
~ tr
Y
tiene una distribución t , con r grados de libertad, y su función de densidad de
probabilidades está dada por:
f t
r 1
2
r
r
2
t²
1
r
r 1
2
,
- <t<
Notación: decir que la variable aleatoria T tiene distribución t con r grados de
libertad, la denotaremos como T ~ t r .
295
Media y Varianza:
La media y la varianza de la v. a. T con r grados de libertad son:
E(T) =
Var(T) =
T
=0
,
r
2
T
r
r>1
,
2
r>2
Función de Distribución Acumulativa de Probabilidades.El cálculo de probabilidades para variable aleatoria t, se efectúa utilizando las
Tablas de t, las mismas que han sido elaboradas utilizando la función de
distribución acumulativa de probabilidades que en la mayoría de los casos son del
tipo de acumulación menor o igual que.
Así tenemos que, la probabilidad que la variable aleatoria T con distribución tr (1
r < 30) sea menor o igual a un valor constante t , representada por:
,
PT t
0<
<1
Está dada por:
PT
t
t
t
f t dt
r 1
2
r
r
2
cuya representación gráfica es la siguiente:
Distribution t
gl = df=25
0.4
Density
0.3
0.2
0.1
α
0.0
Tα
296
0
X
t²
1
r
r 1
2
dt
La distribución t es una distribución simétrica como la normal y se cumple que:
F(-a) = P[ T ≤ -a] = 1 - P[ T ≤ a] = 1 - F(a)
Ejemplo 7.5
Si la variable aleatoria X ~ T25. Hallar: a) ¿Qué proporción de valores de X son
mayores que 2.485?; b) ¿Qué proporción de valores de X se encuentran entre -1.316 y
2.060?; y c) ¿por debajo de que valor se encuentra el 5% de los valores de X?
Solución
La variable aleatoria X ~ T25. Entonces, usando la tabla de t se tiene que:
a) P[X > 2.485] = 1 - P[T25 ≤ 2.485] = 1 – 0.99 = 0.01.
Significa que el 1.0% de los valores de X ~ T25 son mayores que 2.485.
b) P(-1.316 ≤ X ≤ 2.060) = P[T25 ≤ 2.060] - P[T25 ≤ -1.316] =
= P[T25 ≤ 2.060] – {1 - P[T25 ≤ 1.316]} = 0.975 – {1 - 0.90} = 0.875
Significa que el 87.5% de los valores de X ~ T25 se encuentran entre -1.316 y 2.06.
c) Necesitamos halla el cuantil q0.05 = x, tal que:
0.05 = P(T25 ≤ x) → x = T25, 0.05 = -1.708
Significa que el 5% de los valores de X ~ T25 son menores que -1.708.
Veamos la solución del ejemplo 7.5 utilizando los programas y basados
fundamentalmente en las probabilidades acumuladas de la distribución t.
En Excel:
Para hallar la distribución de probabilidades acumuladas T, en la hoja de cálculo
definimos en la columna A los valores de la variable x = 1.316, 2.060 y 2.485. En la
columna B, definimos las probabilidades acumuladas, que en Excel vienen dadas por
F(x) = P(X > x). Excel considera x > 0 y en el cálculo usar la simetría.
297
Para hallar las probabilidades acumuladas, estando en la casilla B2, en funciones
del Excel, escogemos Estadísticas (de seleccionar una categoría) y buscamos la
función DISTR.T y aparece la ventana de Argumentos de función donde se define:
el valor de X = A2 (1.316) para poder efectuar una copia para los otros valores de x,
en el recuadro de Grados_de libertad escribir 25 y en colas escribir 1. Una forma
directa de cálculo es escribir =DISTR.T(A2,25,1) en el recuadro al lado de
. Al
hacer clic en Aceptar, aparece la probabilidad acumulada F(1.316) = 0.100057.
Para obtener las probabilidades acumuladas para los otros valores de x, se efectúa una
copia de lo anterior para las celdas sucesivas en B3 y B4, los resultados se presentan en
la Figura 7.22. Se puede apreciar que se ha calculado una columna de 1 – F(x) cuyos
resultados son parecidos a los usados en la solución manual del Ejemplo 7.4.
Figura 7.22 Cálculo de probabilidades acumuladas con la t en Excel
Para hallar el inverso de probabilidades acumuladas (calcular el valor del cuantil x ,
para una probabilidad acumulada = p) usar la función DISTR.T.INV(2p, GL) que es
para 2 colas (por eso 2p). Para la parte c) del ejemplo 7.5 es DISTR.T.INV(0.10, 25) al
hacer enter se obtiene x = 1.708141(en valor absoluto) similar al -1.708 hallado con la
tabla de T.
En Minitab:
Del menú escoger Calc → Probability Distributions → t y aparece la ventana de
diálogo t Distribution. El procedimiento de cálculo es similar al ejecutado con las
distribuciones de probabilidades anteriores. Es decir, el cálculo para una constante
(Input constant, con el resultado en la ventana Session) o para varios valores definidos
previamente en una columna de la Worksheet (Input column, con los resultados en la
worksheeet) que se esta usando.
298
Para el cálculo de probabilidades acumuladas seleccionar
e
indicar el parámetro requerido Degrees of freedom (grados de libertad) escribir 25 en
el recuadro.
Para calcular las probabilidades acumuladas para los valores de X del ejemplo 7.5, en
una columna de la worksheet definimos como x los valores -1.316, 2.060 y 2.485; y en
otra columna F(x) para obtener los resultados. Para ello, seleccionar
y
escoge x en el recuadro; y en Optional storage: se escoge F(x) para que los resultados
los deposite en la misma Worksheet. Al hacer clic en OK, en la Worksheet aparecen
los resultados siguientes:
Resultados idénticos a los obtenidos con el Excel en la columna 1 – F(x).
De la tabla, se obtiene rápidamente P(-1.316 ≤ X ≤ 2.060) = F(2.060) – F(-1.316) =
0.975024 – 0.100057 = 0.874967. Aproximadamente el 0.875 encontrado en b).
La representación gráfica de la solución anterior en Minitab, se obtiene seleccionando
del menú Graph → Probability Distribution Plots, de la ventana mostrada
seleccionar View Probability, luego hacer clic en OK y aparece la ventana de diálogo
Probability Distribution Plot – Probability.
En Distribution: hacer clic en
, escoger la distribución t e indicar el parámetro
requerido Degrees of freedom (grados de libertad) escribir 25 en el recuadro.
Luego hacer clic en
. En Define Shaded Area By escoger
, luego
e indicar los valores X1 = -1.316 y X2 = 2.060 [ya que queremos hallar P(-1.316
≤ X ≤ 2.060) y el gráfico con dicha área sombreada].
Para finalizar hacer clic en OK y aparece el gráfico de la Figura 7.23.
299
Distribution T
gl = df=25
0.4
0.875
Density
0.3
0.2
0.1
0.0
-1.316
0
X
2.06
Figura 7.23 Gráfico de P(-1.316 ≤ X ≤ 2.060) con la t en Minitab
Para el cálculo del inverso de probabilidades acumuladas (calcular el valor del cuantil
x, para una probabilidad acumulada dada) seleccionar
en la
ventana de diálogo Chi-Square Distribution e indicar los grados de libertad 25.
Para determinar el valor de x, para una probabilidad acumulada F(x) =0.05 en la parte
c) del Ejemplo 7.4 necesitamos seleccionar
y en el recuadro escribir
0.05. Al hacer clic en OK, en la hoja de Session aparece este resultado:
Inverse Cumulative Distribution Function
Student's t distribution with 25 DF
P( X <= x )
0.05
x
-1.70814
El 5% de los valores de X ~ T25 son menores que -1.70814.
En SPSS:
Para calcular las probabilidades acumuladas F(x) (F) del ejemplo 7.5, en la vista de
variables se define x y en la vista de datos se ingresan los mismos (-1.316, 2.060 y
2.485).
300
Del menú escoger Transformar → Calcular variable y aparece la ventana de
diálogo de la Figura 7.24. En Variable de destino: escribir F.
Del Grupo de funciones: del lado derecho, escoger FDA y FDA no centrada; y de
Funciones y variables especiales: seleccionar Cdf.T y con un clic en
ingresarla
al recuadro Expresión numérica: donde aparece CDF.T(?,?).
A continuación, hay que definir cada uno de los argumentos ? indicados en la función
CDF.T(cant,gl) que se precisan en el recuadro central de la Figura 7.24. Así cant
representa los valores de la variable x y gl = grados de libertad = 25. Para finalizar
hacer clic en Aceptar y en la vista de datos aparece los resultados siguientes:
Figura 7.24 Cálculo de probab. acumuladas con la t en SPSS
301
En R:
Para calcular probabilidades acumuladas con la T usar la función pt(x,gl). Donde x
puede ser un valor o un conjunto de valores definidos previamente, gl = grados de
libertad.
En el ejemplo 7.5, X ~ T25. Para determinar las probabilidades acumuladas
correspondientes a los valores (-1.316, 2.060 y 2.485) se define un vector x con esos
valores y luego las probabilidades acumuladas F se calculan así:
> x=c(-1.316,2.060,2.485)
> F=pt(x,25)
> cbind(x,F)
x
F
[1,] -1.316
0.1000570
[2,]
2.060
0.9750238
[3,]
2.485
0.9899976
Para el cálculo del inverso de probabilidades acumuladas (calcular el valor del cuantil
x o q, para una probabilidad acumulada dada) usar la función qt(x,gl). Donde p es una
o un conjunto de probabilidades acumuladas definidas previamente.
Para hallar el valor del cuantil q correspondiente a las probabilidades acumulada de
0.05 se procede así:
> qt(0.05,25)
[1] -1.708141
El 5% de los valores de X ~ T25 son menores que -1.708141.
302
REFERENCIAS BIBLIOGRÁFICAS
1. Arriaza A.J. y Otros (2008). “Estadística Básica con R y R-Commander”. UCA,
Universidad de Cádiz. Documento HTML.
http://knuth.uca.es/repos/ebrcmdr/pdf/actual/ebrcmdr.apendices.pdf
2. Bazán, Juan y Corbera, José (1997). “Problemas de probabilidad”. Trabajo de
investigación para la Facultad de Ciencias Económicas de la Universidad
Nacional del Callao, Callao, Perú, 156 p.
3. Correa, Juan y González, Nelfy (2002). “Gráficos estadísticos con R”, Manual
pdf. Posgrado en Estadística de la Universidad Nacional de Medellín, Colombia,
299 p.
4. Chué, Jorge y Otros (2007). “Estadística descriptiva y probabilidades”. Lima,
Perú. Fondo Editorial Universidad de Lima, 294 p.
5. Instituto Nacional de Estadística e Informática (2006). “Norma Técnica para la
elaboración de cuadros estadísticos”. Resolución Jefatural Nº 312-2006 INEI,
publicada en la página web:
http://www.inei.gob.pe/documentospublicos/nt_cestadisticos.pdf
6. Instituto Nacional de Estadística e Informática (2009).
“Indicadores
Demográficos-Población”. Censos Nacionales de Población y Vivienda,
publicada en la página web: http://www.inei.gob.pe/ . Perú en cifras.
7. Paradis, Emmanuel (2002). “R para principiantes”, Manual pdf del Institut des
Sciences de l‟Évolution Universit Montpellier II, F-34095 Montpellier cdex 05,
Francia, 61 p. Traducido por Jorge A. Ahumada, University of Hawai, 2003.
8. Pérez, César (2002). “Estadística aplicada a través de Excel”. Madrid, España.
Editorial Pearson-Prentice Hall, 596 p.
9. Tukey, John Wilder. 1977. “Exploratory Data Analysis”. Adisson-Wesley
Publishing Company: Reading, Massachusetts.
10. Visauta, Bienvenido. “Análisis estadístico con SPSS para Windows”. Madrid,
España. Editorial Mc Graw-Hill, 1997.
303
304
ANEXO
305
BASE DE DATOS: ESTADÍSTICA BÁSICA 09-A
nº_cuest
sexo
edad
peso
talla
ing.
fam
mie.
fam
g.estud
cr.aprob
prom.
acum
t.vi viend
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
1
1
1
1
1
2
2
2
2
1
2
1
2
1
2
1
1
1
2
1
1
2
1
2
2
2
2
2
1
1
1
2
1
1
2
2
1
2
2
1
2
1
1
2
1
1
21
16
20
20
21
19
19
17
19
19
22
20
19
18
17
20
18
18
18
23
19
20
20
22
21
23
19
19
20
19
18
20
20
21
18
21
19
19
19
21
19
20
20
19
21
21
68
69
63
55
57
48
50
50
44
60
52.6
80
52
67
46
80
64
64
63
72
65
47
70
50
53
66
57
50.5
80
55
88
55
75
64.5
50
49
54
46.5
49
70
48
60
75
55
51
72
169
172
170
173
167
152
152
156
154
171
160
176
164
171
154
177
169
171
170
179
177
165
171
158
155
160
159
152
175
165
175
157
177
165
149
164
164
160
161
169
150
168
172
150
156
174
3900
800
1000
1200
800
1000
700
1000
600
3000
800
1800
1200
1000
1600
750
3000
2800
2000
4500
3500
2200
4000
1000
800
800
950
1000
1500
1800
1000
4000
800
800
800
900
3000
2000
1300
2500
600
750
2100
2500
600
800
5
5
5
5
5
5
5
4
6
7
4
6
4
4
7
4
6
3
5
5
6
5
5
6
5
2
5
4
5
7
3
5
3
5
2
6
5
5
5
5
4
6
6
5
5
5
150
50
250
60
90
250
150
400
20
80
180
150
150
250
300
170
200
240
160
300
200
150
200
120
250
120
180
150
150
200
80
230
250
70
250
300
250
160
80
100
100
120
140
150
200
120
36
42
38
42
34
42
38
42
50
39
50
38
38
50
30
47
35
35
35
44
42
39
35
43
43
40
34
25
31
35
34
37
34
38
34
50
34
38
37
34
40
27
30
38
50
43
11.30
13.33
13.49
12.40
12.29
13.19
12.40
12.60
13.96
12.00
15.92
13.00
12.00
15.92
13.00
14.00
12.00
11.99
12.00
12.00
13.00
12.00
11.00
11.00
11.00
11.00
12.00
11.00
14.60
12.20
12.00
12.30
13.00
13.50
13.00
12.00
11.95
12.35
12.30
11.35
12.63
10.00
11.70
11.00
13.00
11.50
2
1
3
1
1
1
1
1
1
1
1
1
1
1
1
1
1
2
1
1
2
2
1
1
1
1
1
1
4
3
2
1
1
1
1
1
1
1
2
3
1
1
1
1
4
1
(Continúa ….
306
…. Continuación)
nº_cuest
sexo
edad
peso
talla
ing.
fam
mie.
fam
g.estud
cr.aprob
prom.
acum
t.vi viend
47
48
49
50
51
52
53
54
55
56
57
58
59
60
1
1
1
2
1
1
2
2
2
2
1
1
1
2
22
21
21
22
22
20
22
23
19
20
19
18
19
22
68
68
55
59
65
66
51
53
45
52
53
67
77
53
175
168
165
152
172
173
156
155
150
160
168
172
178
157
1500
2000
1500
1300
1000
1000
900
1250
650
900
1000
1300
1200
600
3
4
5
8
9
4
7
4
7
4
5
5
5
3
150
180
100
240
300
250
100
250
125
150
250
180
150
150
34
52
34
48
32
29
16
40
34
44
36
39
30
35
11.00
11.79
12.00
11.00
12.09
11.70
12.00
12.00
14.00
14.00
15.00
13.00
12.00
11.00
2
1
1
1
3
1
1
1
1
2
1
2
1
1
nº_cuest
nº.dor
mit
horas.
tv
hrs.
estud
lib.
leidos
hobby
imp.
estudio
imp.
fisico
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
3
7
2
3
4
2
4
3
4
5
3
7
4
4
3
3
4
3
6
4
2
3
4
7
6
3
4
3
3
10
3
8
4
30
3
4
6
8
10
8
15
10
6
26
7
8
12
10
6
12
5
14
6
14
8
7
14
5
3
6
21
16
8
25
35
4
6
30
12
12
30
30
15
16
26
15
10
14
14
18
10
10
20
25
24
8
6
15
8
5
15
9
9
1
15
5
4
3
2
3
4
5
4
10
3
3
3
4
3
2
5
8
3
2
3
2
4
7
4
4
3
3
3
3
2
2
1
4
2
2
2
5
4
1
4
2
4
1
3
3
2
2
5
4
2
2
1
2
2
4
2
2
1
4
1
4
4
5
4
4
5
4
5
5
4
5
5
5
4
5
5
5
4
4
5
4
4
4
3
4
4
5
5
5
5
4
4
3
3
4
4
2
3
3
3
2
3
3
5
3
3
4
5
3
2
4
4
4
4
4
5
3
3
3
3
3
4
col. proc espe cial
2
2
1
2
1
1
1
1
1
2
1
1
2
1
2
1
2
2
2
1
1
2
1
1
1
1
1
1
1
2
1
2
1
2
2
2
2
2
2
1
2
1
2
2
1
2
2
2
1
2
2
2
2
1
2
2
2
2
2
1
2
2
(Continúa ….
307
…. Conclusión)
nº_cuest
nº.dor
mit
horas.
tv
hrs.
estud
lib.
leidos
hobby
imp.
estudio
imp.
fisico
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
4
3
3
1
4
4
4
3
3
3
2
7
3
3
5
2
3
3
10
4
5
8
3
4
2
3
3
3
2
3
8
12
12
12
14
10
30
12
16
6
10
14
7
21
10
21
10
8
5
10
10
9
4
8
14
14
14
15
9
14
16
12
30
14
5
28
28
14
10
7
14
12
35
10
14
18
10
10
14
18
10
10
8
5
14
30
16
3
4
3
6
8
5
3
5
4
10
0
3
2
1
3
2
3
2
3
7
5
4
2
3
8
2
5
5
3
2
2
2
4
2
2
3
4
2
1
1
4
4
2
2
1
1
2
2
1
1
2
3
2
4
1
1
1
2
5
5
4
4
5
4
5
5
5
5
3
4
5
5
4
2
5
5
4
5
5
4
4
4
5
3
4
4
3
1
4
3
2
3
3
3
4
2
3
3
3
4
3
3
4
4
4
3
5
5
5
4
5
4
3
3
3
4
col. proc espe cial
1
1
2
1
1
2
1
1
1
1
1
2
1
1
1
1
2
1
1
1
2
1
1
1
1
1
1
1
1
1
2
2
2
1
2
2
2
2
2
2
2
2
1
2
1
1
2
2
2
2
1
2
2
2
2
2
2
2
Codificación:
SEXO
TIPO DE VIVIENDA
HOBBY
IMPORTANCIA DE ….
1 = Hombre
1 = Casa Independiente
1 = Deporte
2 = Mujer
2 = Dpto. en Edificio
2 = Música
3 = Quinta
3 = Baile
4 = Otro
4 = TV/Cine
1 = Muy Poca
2 = Poca
3 = Media
4 = Mucha
5 = Muchísima
5 = Otro
COLEGIO DE PROCEDENCIA
ESPECIALIZACIÓN
1 = Estatal
2 = No Estatal
1 = Teoría Económica
2 = Gestión Empresarial
308
Descargar