Estadística Descriptiva

Anuncio
Estadística Descriptiva
Estadística Descriptiva
2
Estadística Descriptiva
PRESENTACIÓN
En el marco del Programa Integral de Capacitación, Formación
e Investigación (PICFI), se desarrolló en el INEGI el proyecto de
capacitación en Estadística apoyada con instructores internos,
con el propósito de brindar los elementos teórico—prácticos
necesarios para el uso y aprovechamiento de las diversas
herramientas y metodología estadísticas, que coadyuven a un
mayor rendimiento y una mejor calidad en las labores cotidianas
de los trabajadores.
Para que este fin pueda ser alcanzado, es necesario que haya
una producción de material didáctico de apoyo a los eventos de
capacitación; la cual es por un lado creativa y por otro
reproductiva.
La producción creativa implica todo un proceso que abarca
desde la definición de objetivos de aprendizaje hasta la edición
final del documento que constituirá el manual para el curso. En
tanto que la reproductiva se refiere a la multiplicación del
manual original para cada uno de los participantes.
Evidentemente, el principal esfuerzo se centra en la elaboración
de nuevos manuales de instrucción, ya que así estamos en
posibilidades de brindar la capacitación y formación necesaria,
a fin de que el personal que conforma el instituto, pueda
afrontar los retos de productividad que se plantean en el corto y
mediano plazo.
Con cada nuevo material, se fortalece el programa institucional
y se fomenta una nueva cultura: la cultura de una nueva
formación profesional, cuyo eje principal descansa en la
participación activa y responsable del individuo en su propio
proceso de enseñanza—aprendizaje.
En este entorno, presentamos al lector el manual de
Estadística descriptiva como parte de este esfuerzo por
alcanzar la misión del PICFI, esperando contribuir positivamente
en las tareas sustantivas que desarrolla el INEGI.
3
Estadística Descriptiva
ESTADÍSTICA DESCRIPTIVA
Objetivo: manejar las herramientas básicas (graficas y
numéricas) de estadística descriptiva, entender sus limitaciones
e identificar la temática general que tocan distintas disciplinas
de la estadística como lo son: muestreo, inferencia y regresión.
Dirigido a: todo el personal que requiera actualizarse en las
distintas disciplinas relacionadas con su actividad.
Requisitos: acreditar satisfactoriamente álgebra básica.
Contenido:
1.
Introducción
• Objetivos de la estadística
• Concepto de población y muestra
• Tipos básicos de datos
2.
Descripción de datos por tablas y graficas
• Diagrama de barras
• Diagrama de puntos
• Tablas de frecuencia
• Histogramas
3.
Medidas numéricas
• Medidas de localización y dispersión
• Medidas de sesgo
• Otras medidas
4.
Descripción de datos divariados
• Diagramas de dispersión
• Tablas de contingencia
• Coeficiente de correlación
Duración: 20 horas
4
Estadística Descriptiva
Bibliografía:
• Título: Estadística para Administración y Economía
Autor: Mendenhall ‹ Reinmuth
Editorial: Grupo Editorial Iberoamérica
• Título: Probabilidad y Estadística Aplicaciones y Métodos
Autor: G.C. Canavos
Editorial: Mc. Graw Hill, 1987
• Título: Statistics Third Edition
Autor: David S. Moore
Editorial: W.H. Freeman and Company
5
Estadística Descriptiva
1. INTRODUCCIÓN
Para mucha gente, estadística significa descripciones
numéricas. Esto puede verificarse fácilmente al escuchar, un
domingo cualquiera, a un comentarista de televisión narrar un
juego de fútbol. Sin embargo, en términos más precisos, la
estadística es el estudio de los fenómenos aleatorios. En este
sentido la ciencia de la estadística tiene, virtualmente, un
alcance ilimitado de aplicaciones en un espectro tan amplio de
disciplinas que van desde las ciencias y la ingeniería hasta las
leyes y la medicina. El aspecto más importante de la estadística
es la obtención de conclusiones basadas en los datos
experimentales. Este proceso se conoce como inferencia
estadística. Si una conclusión dada pertenece a un indicador
económico importante o a una posible concentración peligrosa
de cierto contaminante, o bien, si se pretende establecer una
relación entre la incidencia de cáncer pulmonar y el fumar, es
muy común que la conclusión esté basada en la inferencia
estadística.
OBJETIVOS DE LA ESTADÍSTICA
El objetivo de la estadística y lo que son las partes de un
problema estadístico se dan a continuación.
El objetivo de la estadística es el de hacer inferencias
(predecir, decidir) sobre algunas características de una
población1 con base en la información contenida en una
muestra2.
¿Cómo lograr este objetivo? Se verá que todo problema
estadístico consta de cinco partes. La solución de cada una de
estas partes permite el logro del objetivo.
La primera y más importante de las partes de un problema es
una especificación clara de la pregunta a contestar y de la
población sobre la cual dicha pregunta se hace.
1
Definición: Una población es el conjunto de todas las mediciones de
interés al muestrista.
1
Definición: Una muestra es una colección de mediciones seleccionadas
de la población de interés.
6
Estadística Descriptiva
La segunda parte concierne al problema estadístico referente a
la obtención de la muestra. Esta parte se conoce como diseño
del experimento o procedimiento de muestreo y es importante
porque la información cuesta tiempo y dinero. No es poco
común que un estudio para una empresa cueste 50 000
o 500 000 dólares y en muchos casos, el costo de ciertos
experimentos puede ser de millones. ¿Qué es lo que estos
estudios proveen? Los resultados son números; en una palabra,
información. El incluir demasiadas observaciones en la muestra
es costoso y en muchos casos inútil, y por el otro lado el incluir
muy pocas puede ser insatisfactorio. Además, la forma en que
la muestra sea seleccionada afecta la cantidad de información
contenida en cada observación. Un buen diseño de muestreo
puede reducir, en ocasiones, el costo del «levantamiento» de la
muestra a un décimo o un centésimo del costo utilizando otro
diseño.
La tercera parte de un problema estadístico consiste en el
análisis de la información muestral. Independientemente de la
cantidad de información contenida en la muestra, se tiene que
utilizar aquí el método estadístico apropiado para extraer la
información de los datos.
La cuarta parte de un problema estadístico corresponde a inferir
acerca de la población haciendo uso de la información muestral.
Como se verá, se pueden utilizar muchos procedimientos para
hacer una estimación, decidir sobre alguna característica de la
población o predecir el valor de algún miembro de la misma. Por
ejemplo, puede haber 10 métodos distintos para predecir las
ventas de una empresa, de las cuales uno puede ser más
preciso. Por lo tanto, se quiere en esta parte utilizar el mejor
procedimiento de inferencia para estimar, decidir o predecir con
base en la información muestral.
La última parte de un problema estadístico se identifica con lo
que posiblemente es la mayor contribución de la estadística al
análisis de toma de decisiones. En esta parte se contesta a la
pregunta «¿Qué tan buena es la inferencia?» Con propósitos
de ilustración, suponga que se conduce un estudio estadístico y
como resultado se estima que el producto de la compañía
obtendrá un 34% adicional de mercado para el próximo
año. No satisfechos con la información cabe preguntarse
«¿Qué tan precisa es la estimación?» ¿De qué valor puede ser
7
Estadística Descriptiva
una estimación sin una medida de confiabilidad? ¿Será la
estimación precisa dentro de un 1%, 5% ó 20%? ¿Será lo
suficientemente confiable como para basar en ella planes de
producción? Como se verá más adelante, los procedimientos de
estimación, toma de decisiones y predicción permiten calcular
una medida de la bondad de cada inferencia. En consecuencia,
en una situación práctica, toda inferencia debe ir acompañada
por una medida que diga «que tanta fe» se le puede tener.
Partes de un problema estadístico
1.
Una definición clara de la población de
interés.
2. El diseño del experimento o procedimiento
de muestreo.
3. Recopilación y análisis de los datos.
4. Identificación del procedimiento para hacer
inferencias sobre la población con base en la
información muestral.
5. Obtención de una medida de la bondad
(confiabilidad) de la inferencia.
El enfoque precedente para la inferencia estadística descansa
únicamente en la evidencia muestral. Este es denominado
teoría del muestreo o enfoque clásico de la inferencia
estadística y para la mayor parte de ésta, será el que se tome
en este curso.
CONCEPTO DE POBLACIÓN Y MUESTRA
Para comprender la naturaleza de la inferencia estadística, es
necesario entender las nociones de población y muestra. La
población es la colección de toda la posible información que
caracteriza a un fenómeno. En estadística, población es un
concepto mucho más general del que tiene la acepción común
de esta palabra. En este sentido, una población es cualquier
colección ya sea de un número finito de mediciones o una
colección grande, virtualmente infinita, de datos acerca de algo
de interés. Por otro lado, la muestra es un subconjunto
representativo seleccionado de una población. La palabra
representativo es la clave de esta idea. Una buena muestra es
aquella que refleja las características esenciales de la población
de la cual se obtuvo. En estadística, el objetivo de las técnicas
de muestreo conduce a una muestra aleatoria. Las
observaciones de la muestra aleatoria se usan para calcular
8
Estadística Descriptiva
ciertas características de la muestra denominadas estadísticas.
Las estadísticas se usan como base para hacer inferencias
acerca de ciertas características de la población, que reciben el
nombre de parámetros. Así, muchas veces se analiza la
información que contiene una muestra aleatoria con el propósito
principal de hacer inferencias sobre la naturaleza de la
población de la cual se obtuvo la muestra.
En estadística la inferencia es inductiva porque se proyecta de
lo específico (muestra) hacia lo general (población). En un
procedimiento de esta naturaleza siempre existe la posibilidad
de error. Nunca podrá tenerse el 100% de seguridad sobre una
proposición que se basa en la inferencia estadística. Sin
embargo, lo que hace que la estadística sea una ciencia
(separándola del arte de adivinar la fortuna) es que unida a
cualquier proposición, existe una medida de la confiabilidad de
ésta. En estadística la confiabilidad se mide en términos de
probabilidad. En otras palabras, para cada inferencia estadística
se identifica la probabilidad de que la inferencia sea correcta.
9
Estadística Descriptiva
TIPOS BÁSICOS DE DATOS
En el estudio de la estadística interesa, básicamente, la
presentación e interpretación de resultados aleatorios que se
dan en un estudio planeado o en una investigación científica.
De aquí que los estadísticos frecuentemente manejen ya sea
datos experimentales, que representan conteos o mediciones, o
tal vez datos categóricos que puedan clasificarse de acuerdo
con algún criterio.
Cualquier registro de información, sea éste numérico o
categórico, se denominará observación.
EJERCICIOS
En cualquier experimento que incluya análisis de datos, es
importante tener una imagen clara de la composición tanto de la
muestra como de la población. A menudo los conceptos se
confunden o se definen vagamente por lo que los resultados
experimentales resultan de difícil interpretación. En
ocasiones los errores llevan a conclusiones absurdas o
simplemente sin sentido.
Para aclarar las nociones de muestra y población se consideran
tres actividades a realizar ya sea individualmente o por grupos
de estudiantes.
1. Visite la biblioteca de su centro de trabajo y seleccione
una revista de investigación apropiada para su ámbito.
Después de seleccionar una revista, escoja un artículo
en el que se hable de una encuesta por muestreo, sin
necesidad de que aparezcan en él los datos. Establezca
el objetivo de la encuesta e identifique el procedimiento
utilizado en el levantamiento de los datos.
Defina e identifique las unidades experimentales, la
muestra y la población. Recuerde el objetivo de la
estadística y explique cómo la inferencia sobre la
población pudo ayudar a contestar las preguntas
postuladas en la investigación.
10
Estadística Descriptiva
2. Las encuestas de opinión aparecen con frecuencia en la
prensa. Encuentre una de esas encuestas y discuta el
objetivo de ella y el procedimiento empleado para
obtener los datos muéstrales, la muestra y la población.
Explique cómo los resultados encontrados pueden
representar una inferencia sobre la población.
En la vecindad de períodos de elecciones presidenciales,
continuamente se realizan encuestas para sondear la
predilección del público por los distintos candidatos.
¿Qué problemas especiales enfrentan los
encuestadores en la selección de sus unidades
experimentales, problemas que no enfrentan en otro tipo
de encuestas de opinión? ¿Debe preocuparse el
encuestador por sólo aquellas personas que pueden
votar? Si es así, ¿Cómo puede identificar a las personas
con derecho a voto?
3. Seleccione una intersección de calles con tráfico intenso
y diseñe un experimento para medir el tráfico diario.
Defina la población e incluya en su estudio los vehículos
que desee. Defina las unidades experimentales y la
muestra y encuentre un procedimiento para la selección
de los datos muéstrales. ¿Qué problemas encuentra para
diseñar el experimento, definir las unidades, muestra y
población? ¿De qué forma el objetivo de su estudio le
ayuda para ir aclarando las nociones de unidades,
muestra y población?
11
Estadística Descriptiva
2. DESCRIPCIÓN DE DATOS POR TABLAS Y
GRÁFICAS
Recuerde que el objetivo de la estadística moderna es hacer
inferencias acerca de un conjunto de datos, usualmente grande,
llamado población, con base en la información contenida en una
muestra. Para formular las inferencias es necesario poder
describir un conjunto de datos ya sea éste la población o una
muestra.
Un buen número de textos tratan de los métodos de la
estadística descriptiva, es decir, los métodos usados para
describir conjuntos de datos numéricos. Estos métodos pueden
ser clasificados en dos tipos: métodos gráficos y métodos
numéricos. Aquí la discusión se restringe a unos cuantos
métodos, tanto gráficos como numéricos, que son útiles no
solamente para propósitos descriptivos sino también para hacer
inferencias.
DIAGRAMA DE BARRAS
Cuando se tienen datos que fueron colectados en distintos
períodos de tiempo o distintas áreas geográficas es conveniente
usar tablas o diagramas de diversos tipos para su presentación.
Se cuenta con auxiliares como los diagramas de barras, las
gráficas de líneas o los diagramas circulares que sirven como
un resumen visual de los datos. Hay muchos otros métodos
gráficos que usa el estadístico en los negocios y en la
economía pero la discusión se limita a los ya mencionados.
1974
1975
1976
1977
100
115
110
150
Profesionales
40
44
42
58
Hombres
37
40
39
48
Mujeres
3
4
3
10
No Profesionales
60
71
68
92
Hombres
50
58
56
69
Mujeres
10
13
12
23
Total de Empleados
Tabla 1. Análisis de los empleados en un despacho de asesoría
12
Estadística Descriptiva
La tabla 1 muestra, como ejemplo de una tabla estadística, el
desglose por nivel académico y sexo de los empleados en un
despacho de asesores para los años de 1974 a 1977. Las
clasificaciones por cada uno de los cuatro años son las mismas,
lo cual permite hacer comparaciones entre los distintos años.
Las entradas de la tabla dan el número total de empleados,
desglosado en profesionales y no profesionales por cada año.
Note que la suma de profesionales y no profesionales da el
número total de empleados para un año dado. La tabla también
desglosa a profesionales y no profesionales en número de
hombres y mujeres.
Algunas veces se usan porcentajes como entradas de las
tablas estadísticas. Cuando sea éste el caso, las tablas
deben ser examinadas cuidadosamente puesto que las
comparaciones entre entradas correspondientes a distintas
muestras pueden verse distorsionadas si el número de
observaciones varía de muestra a muestra. Por ejemplo, dos
entradas en un mismo renglón de la tabla pueden tener 50%
ambas, pero la primera entrada puede representar 100 de 200 y
la segunda puede representar 1 de 2. El 50% de la primera
entrada basado en un total de 200 observaciones es, en este
caso, más representativo que el segundo, basado en un total de
2. Por lo tanto, ambos porcentajes deben compararse con
cuidado.
En la gráfica 1 se ejemplifica como se puede usar un diagrama
de barras para exhibir gráficamente algunos de los datos de los
empleados en la tabla 1. Por lo general los diagramas de barras
no se subdividen tan finamente como las tablas puesto que
particiones adicionales hacen confusa la apariencia de la
gráfica, lo que desvirtúa el objetivo de producir una gráfica que
sea de lectura sencilla y permita un análisis rápido de datos.
Es posible construir distintos diagramas de barras que exhiban
la misma información. En el ejemplo de la gráfica 1 es posible
usar 3 barras para cada año, una barra exhibiendo el número
de hombres, otra el número de mujeres y la tercera el número
total de empleados. El tipo de diagrama usado no es
importante, en tanto describa la información en forma clara y
fácil de interpretar.
13
Estadística Descriptiva
Número de Empleados
200
150
hombres
100
mujeres
50
0
1974
1975
1976
1977
Años
Gráfica 1. Diagrama de barras
Los diagramas de barras sirven principalmente para representar
el total de una cierta cantidad para cada año o para cada
categoría presentada.
DIAGRAMA DE PUNTOS
Basta ilustrar con un ejemplo, considérense las observaciones
muéstrales 5, 7, 1, 2, 4. Estas observaciones se muestran en el
diagrama de puntos que se presenta en la gráfica 2.
0
1
2
3
Gráfica 2. Diagrama de puntos
14
4
5
6
7
8
Estadística Descriptiva
TABLA DE FRECUENCIAS
Una descripción informativa de cualquier conjunto de datos está
dada por la frecuencia de repetición u arreglo distribucional
de las observaciones en el conjunto. Para apreciar lo
necesario de un resumen de datos, considere el ejemplo del
Servicio de Hacienda Interno (SHI) que se encarga de recibir y
procesar millones de declaraciones de ingresos durante todo el
año. Es dudoso que el SHI pueda descubrir los patrones ocultos
de ingresos e impuestos examinando simplemente la
información contenida en las declaraciones. Similarmente, el
Departamento del Censo no podría avanzar mucho al analizar
los datos del censo, si éstos no pudiesen visualizarse. Para
identificar los patrones en un conjunto de datos es necesario
agrupar las observaciones en un número relativamente
pequeño de clases que no se superpongan entre sí, de tal
manera que no exista ninguna ambigüedad con respecto a la
clase a que pertenece una observación en particular. El número
de observaciones en una clase recibe el nombre de frecuencia
de clase, mientras que el cociente de una frecuencia de clase
con respecto al número combinado de observaciones en todas
las clases se conoce como la frecuencia relativa de esa clase.
Las fronteras de la clase se denominan límites, y el promedio
aritmético entre los límites superior e inferior recibe el nombre
de punto medio de la clase.
Número de unidades vendidas
(clase)
89 - 89
90 - 99
100 - 109
110 - 119
120 - 129
130 - 139
140 - 149
150 - 159
160 - 169
Total
Frecuencia de la clase
Frecuencia relativa
7
20
5
11
11
12
6
23
5
100
7/100 = 0.07
20/100 = 0.20
5/100 = 0.05
11/100 = 0.11
11/100 = 0.11
12/100 = 0.12
6/100 = 0.06
23/100 = 0.23
5/100 = 0.05
1.00
Tabla 2. Frecuencias para el número de unidades vendidas de cierto producto
15
Estadística Descriptiva
HISTOGRAMAS
Este
0,15
Oeste
Norte
0,1
Columnas 4
Columnas 5
Columnas 6
0,05
Frecuencia relativa
0,2
0,25
Al graficarse las frecuencias relativas de las clases contra sus
respectivos intervalos en forma de rectángulos, se produce lo
que comúnmente se conoce como histograma de frecuencia
relativa o distribución de frecuencia relativa. Esta última es la
que puede hacer evidentes los patrones existentes en un
conjunto de datos.
Como ilustración, los datos de la tabla 2 representan las
frecuencias de unidades vendidas por día de un determinado
producto por una compañía. El histograma de frecuencia
relativa se construye graficando en el eje vertical la frecuencia
relativa y en el eje horizontal las fronteras inferiores de cada
clase, como se ilustra en la gráfica 3.
Columnas 7
Columnas 8
0
Columnas 9
Número de unidades vendidas
Gráfica 3. Histograma de frecuencia relativa para el no. de unidades vendidas.
El número de clases que se emplea para clasificar los datos en
un conjunto depende del total de observaciones de éste. Si el
número de observaciones es relativamente pequeño, el número
de clase a emplear será cercano a cinco, pero generalmente
nunca menor que este valor. Si existe una cantidad sustancial
de datos, el número de clases debe encontrarse entre ocho y
doce y generalmente no existirán más de 15 clases. Un número
muy pequeño de clases puede ocultar la distribución real del
conjunto de datos, mientras que un número muy grande puede
dejar sin observaciones a algunas de las clases, limitando de
esta forma su uso. A manera de ilustración, si se reducen las
nueve clases a sólo tres, en el ejemplo anterior, como se indica
en la tabla 3, el histograma de frecuencia relativa resultante
(gráfica 4) es muy diferente al mostrado en la gráfica 3.
16
Estadística Descriptiva
Número de unidades vendidas
(clase)
80 - 109
110 - 139
140 - 169
Total
Frecuencia de la clase
32
34
34
100
Frecuencia relativa
32/100 = 0.32
34/100 = 0.34
34/100 = 0.34
1.00
0,1
Frecuencia
relativa
0,2
0,3
0,4
Tabla 3. Frecuencia para el número de unidades vendidas de cierto producto
Número de unidades vendidas
Gráfica 4. Histograma modificado para el número de unidades vendidas.
Una buena práctica es la creación de clases que tengan una
longitud igual. Esto puede lograrse tomando la diferencia entre
los dos valores extremos del conjunto de datos y dividiéndola
entre el número de clases; el resultado será aproximadamente
la longitud del intervalo para cada clase. Sin embargo, existen
casos donde esta regla no puede o no debe aplicarse. Por
ejemplo, si se tuviera a la mano la lista de impuestos del SHI
pagados por la población en un año, estas cantidades pueden
encontrarse en un intervalo de $0 a $1 000 000. Aún a pesar de
que se eligiesen 20 clases para la distribución de frecuencia
relativa, con intervalos de igual longitud, cada clase tendría una
cobertura de $50 000. Lo anterior daría origen a una situación
en la que casi todas las observaciones caerían en la primera
clase. Para casos como éste es preferible seleccionar una
escala más pequeña en el extremo inicial que la utilizada para
el extremo superior. Esta elección aclarará el patrón de la
distribución.
17
Estadística Descriptiva
EJERCICIOS.
1. De acuerdo con la revista Informes al consumidor en su
número de febrero de 1980, las cuotas anuales de 40
compañías para un seguro de $25 000 para hombre de
35 años de edad son las siguientes:
$ 82
92
99
105
85
93
99
105
86
94
100
106
87
95
100
107
87
95
101
107
89
95
101
107
89
95
103
109
90
95
103
110
91
97
103
110
91
98
104
111
Establecer un esquema de agrupamiento para este conjunto de
datos y determinar las frecuencias relativas.
El Departamento de Agricultura de Estados Unidos informó que,
en 1976, los ingresos netos por cosecha para los 50 estados de
la nación, fueron los siguientes:
$
13 647
8 681
11 771
4 963
10 207
8 043
4 626
5 119
2 892
5 952 63 855
10 630
5 332
9 378
4 543
7 627
8 972
4 845
8 621
5 405
39 362
6 644
2 304
5 992
11 177
8 992
6 480
10 452
2 290
2 789
9 692
4 438
6 859
7 000
12 292
23 811
6 824
9 922
4 973
30
Establecer un esquema de agrupamiento para este conjunto de
datos y determinar las frecuencias relativas.
2. Los datos en la tabla representan los gastos de
consumo personal por tipo de bienes en los Estados
Unidos, para algunos años entre 1929 y 1969 (en miles
de millones de dólares):
18
27 611
19 106
8 141
12 543
6 695
7 657
9 554
7 683
3 904
241
Estadística Descriptiva
TIPO DE BIENES
bienes perdurables
bienes perecederos
Servicios
AÑO
1929
9.2
37.7
30.3
1949
24.6
94.6
54.6
1959
44.3
146.6
120.3
1969
90.0
245.8
241.6
a. Elabore una gráfica de barras que represente estos datos.
b. Use la gráfica para discutir los cambios en el tiempo de los
gastos en los 3 tipos de bienes en el período de 1929 a1969.
19
Estadística Descriptiva
3.
MEDIDAS NUMÉRICAS
En la sección anterior se plantearon las técnicas gráficas para
descubrir los patrones de distribución ocultos en un conjunto de
datos. En esta sección se definen algunas medidas numéricas
que se emplean comúnmente para describir conjuntos de datos.
Si el conjunto es una muestra aleatoria de una población y la
última meta es hacer inferencia estadística, estas medidas
serán utilizadas como bases para las inferencias.
Medidas de localización
Existen dos medidas de interés para cualquier conjunto de
datos: la localización de su centro y su variabilidad. La
tendencia central de un conjunto de datos es la disposición de
éstos para agruparse ya sea alrededor del centro o de ciertos
valores numéricos. La variabilidad de un conjunto de datos es la
dispersión de las observaciones en el conjunto.
Existen principalmente tres medidas de tendencia central: la
media, la mediana y la moda.
DEFINICIÓN 3.1 La media de las observaciones x1, x2, xn, es
el promedio aritmético de éstas y se denota por
X =
n
∑X
i
n
i =1
La media es una medida apropiada de tendencia central para
muchos conjuntos de datos. Sin embargo, dado que cualquier
observación en el conjunto se emplea para su cálculo, el valor
de la media puede afectarse de manera desproporcionada por
la existencia de algunos valores extremos (aislados).
Definición 3.2
La mediana de un conjunto de observaciones es el valor para el
cual, cuando todas las observaciones se ordenan de manera
creciente (ascendente), la mitad de éstas es menor que este
valor y la otra mitad mayor.
Si el número de observaciones en el conjunto es impar, la
mediana es el valor de la observación que se encuentra a la
mitad del conjunto ordenado. Si el número es par se considera
20
Estadística Descriptiva
la mediana como el promedio aritmético de los valores de las
dos observaciones que se encuentren a la mitad del conjunto
ordenado. Alternativamente, la mediana puede determinarse a
partir de la distribución acumulativa, es decir, la mediana es el
percentil cincuenta.
Puesto que la mediana es un valor que se basa en la secuencia
ordenada de las observaciones en un conjunto de datos, es
necesario saber que la existencia de algunos valores extremos
no afectará su valor. Por lo tanto, si un conjunto contiene unos
cuantos valores extremos y un agregado muy alto de
observaciones, la mediana puede ser una medida de tendencia
central mucho más deseable que la media. Generalmente los
conjuntos de datos que describen información acerca de
ingresos caen en esta categoría.
Definición 3.3
La moda de un conjunto de observaciones es el valor de la
observación que ocurre con mayor frecuencia en el conjunto.
La moda muestra hacia qué valor tienden los datos a
agruparse. En conjuntos relativamente pequeños, puede que no
exista un par de observaciones cuyo valor sea el mismo. En
esta situación no es clara la definición de moda. También puede
suceder que la frecuencia más alta se encuentre compartida por
dos o más observaciones. En estos casos, la moda tiene la
utilidad limitada como medida de tendencia central. Si se ha
determinado una distribución de frecuencia relativa, la clase con
la frecuencia más alta recibirá el nombre de clase modal, con lo
que se define a la moda como el punto medio de esa clase. En
este caso la clase modal sirve como punto de concentración en
el conjunto de datos.
La inferencia estadística resulta en general más simple cuando
se usa la media. Puesto que es la inferencia el tema principal y
debido a que la media es más usada para este propósito, de
aquí en adelante concentraremos la atención en la media como
medida de tendencia central.
21
Estadística Descriptiva
Ejercicios
1. Los siguientes datos representan el número de
interrupciones por día de trabajo debidas a fallas mecánicas
en una planta procesadora de alimentos:
2, 3, 0, 5, 4, 3, 1, 3, 5, 2
Calcule la media, la mediana y encuentre el número modal
de interrupciones diarias.
(Respuesta: Media = 2.8, mediana = 3, moda = 3)
2. Diga usted que medidas de tendencia central serían más
útiles en cada uno de los siguientes casos.
a. El gerente de producción de una fábrica de envases de
vidrio quiere saber cuál es el tamaño de envase que debe
fabricar en mayor cantidad. El tiene a la mano un buen
número de datos de los tamaños de envase ordenados por
los clientes.
b. El gerente de ventas de una compañía que produce
mobiliario de lujo desea seleccionar regiones para
establecer salas de exhibición. ¿En qué medida del ingreso
familiar por región estará más interesado, en la media o en
la mediana?
c. Un analista de la bolsa de valores está interesado en
describir el cambio diario en el precio en el mercado de una
acción de cierta compañía. Rara vez el precio cambia más
de un punto, pero hay ocasiones en que el precio cambia
hasta cuatro puntos. ¿Qué medida debe usar el analista
para describir el cambio de precio de la acción en cuestión,
la media, la mediana o la moda de los cambios de precio en
el mercado? (Respuesta: a. Moda b. Mediana c. Media)
Medidas de dispersión
Una medida de tendencia central proporciona información
acerca de un conjunto de datos pero no proporciona ninguna
idea de la variabilidad de las observaciones en dicho conjunto.
Por ejemplo, considere los dos siguientes conjuntos de datos,
cada uno de los cuales consiste de cuatro observaciones:
0, 25, 75, 100; 48, 49, 51, 52.
En ambos casos, media = mediana = 50. Estos dos conjuntos
son muy diferentes entre sí, sin embargo las observaciones en
el primero se encuentran mucho más dispersas que en el
segundo. Una de las medidas más útiles de dispersión o
variación es la varianza.
22
Estadística Descriptiva
Definición 3.4
La varianza de las observaciones x1, x2, xn es, en esencia, el
promedio del cuadrado de las distancias entre cada observación
y la media del conjunto de observaciones. La varianza se
denota por
n
s = ∑ ( xi − x )
2
( n − 1)
i =1
La varianza es una medida razonablemente buena de la
variabilidad debido a que si muchas de las diferencias son
grandes (o pequeñas) entonces el valor de la varianza s2 será
grande (o pequeño). El valor de la varianza puede sufrir un
cambio muy desproporcionado, aún más que la media, por la
existencia de algunos valores extremos en el conjunto.
Definición 3.5
La raíz cuadrada positiva de la varianza recibe el nombre de
desviación estándar y se denota por
⎧n
2
s = ⎨∑ ( xi − x )
⎩ i =1
⎫
( n − 1)⎬
⎭
La varianza y la desviación estándar no son medidas de
variabilidad distintas, debido a que la última no puede
determinarse a menos que se conozca la primera. A menudo se
prefiere la desviación estándar en relación con la varianza,
porque se expresa en las mismas unidades físicas de las
observaciones.
23
Estadística Descriptiva
Medidas de sesgo
Para ilustrar una distribución de muestreo, permítannos hacer
un experimento. Tengo una caja que contiene un número
grande de bolas, idénticas excepto por el color. Estas bolas son
la población. La proporción de bolas negras en la caja es
p = 0.20
y este número es un parámetro describiendo esta población de
bolas. Suponemos que disponemos de una pala con 25 celdas
y que cuando la introducimos en la caja, extraemos una
muestra de 25 bolas. Si las bolas en la caja están bien
mezcladas, esta es una muestra aleatoria simple de tamaño 25.
Nos preguntamos sobre una muestra simple aleatoria de
tamaño 25 de una población que contiene 20% de bolas negras,
lo siguiente:
¿Cuántas bolas negras esperamos que aparezcan en la
muestra?
—Si toma varias muestras simples aleatorias, ¿Espera
encontrar una muestra con 25 bolas negras? ¿Una sin bolas
negras? ¿Una con 15 bolas negras?
Razonablemente esperaría que alrededor del 20% de las bolas
fuesen negras, esto es, aproximadamente 5 bolas negras de
entre las 25 bolas en la muestra. Pero no siempre obtendremos
exactamente 5 bolas negras. Si obtenemos, por decir, 4 bolas
negras, entonces la estadística
p^ = 4 / 25 = 0.16.
Es, sin embargo, una buena aproximación del parámetro p =
0.20. Pero si sacamos una muestra con 15 bolas negras,
entonces
p^ = 15 / 25 = 0.60.
Es una estimación mala de p. ¿Qué tan frecuentemente
obtendremos tan pobres estimaciones de una muestra simple
aleatoria?
Realizamos este experimento 200 veces y registramos el
número de bolas negras en cada muestra. (Fuimos cuidadosos
de regresar la muestra a la población y agitar la población
después de cada repetición). Los resultados se muestran en la
tabla y gráfica siguientes. Ninguna de las 200 muestras tuvo
más de 9 bolas negras.
24
Estadística Descriptiva
Número de bolas negras en la
muestra
Proporción muestral p^
Número de muestras con este
resultado
Proporción de muestras con
este resultado
0
1
2
3
4
5
6
7
8
9
0
3
0.04
8
0.08
12
0.12
34
0.16
40
0.20
47
0.24
24
0.28
20
0.32
9
0.36
3
0.015 0.040 0.060 0.170 0.200 0.235 0.120 0.100 0.045 0.015
Tabla 4. Resultados de 200 muestras aleatorias simples de tamaño 25 cuando p = 0.20
50
0
Número de muestras
45
1
40
2
35
3
30
4
25
5
20
6
7
15
8
10
9
5
0
Bolas negras en la muestra
Gráfica 5. Resultados de 200 muestras simples aleatorias de tamaño 25 cuando p = 0.20
La proporción muestral p^ desde luego que varía de muestra a
muestra: recorrió de 0 (ninguna bola negra) hasta 0.36 (9 bolas
negras) cuando las 200 muestras fueron examinadas. Pero
estimaciones tan malas como p^ = 0 o p^ = 0.36 (recuerde que
el verdadero p es 0.20 para esta población) no ocurren
frecuentemente. De las 200 muestras, 56% tuvieron 4, 5 o 6
bolas negras (p^ de 0.16, 0.20 o 0.24) y 83% tuvieron 3, 4, 5, 6
o 7 bolas negras (p^ entre 0.12 y 0.38).
Errores en el muestreo
En nuestro experimento, conocemos p. Si p fuera desconocido,
los mismos hechos deberían mantenerse. No podemos
garantizar que la estadística muestral p^ esté cercano al
desconocido p (por la variación del muestreo), pero podemos
estar seguros que así es (porque la mayoría de las veces las
muestras aleatorias simples dan valores de p^ cercanos a p).
Así, los resultados de una muestra aleatoria simple no solo son
25
Estadística Descriptiva
imparciales sino que tienden a ser reiterativos de muestra a
muestra. Finalmente, debemos abundar que el hecho de la falta
de repeticiones en un método muestral (la muestra resulta
extraviarse en el corral) es un problema tan serio como el
favoritismo.
Puesto que una muestra es seleccionada con el propósito de
obtener información de una población, por «error en una
muestra» obtenemos una incorrecta estimación del parámetro
de una población para una estadística muestral. Dos tipos
básicos de errores son asociados con cualquier método de
recolección muestral de datos.
El sesgo consiste en divergencias repetidas de la estadística
muestral (en la misma dirección) del parámetro poblacional.
La escasez de precisión significa que en repetidas muestras
los valores de la estadística muestral están diseminados o
esparcidos; los resultados del muestreo no se pueden repetir.
Un malentendido frecuente es confundir, en un método
muestral, el sesgo con una fuerte tendencia de la población
misma, especialmente si esa tendencia es una reflexión de
prejuicio o sesgo en el sentido ordinario de esa palabra. Si, por
ejemplo, 93% de una población de directores corporativos de
personal se opone en una acción firme al Programa de Empleo
del Gobierno Federal, esto no es sesgo en el sentido
estadístico. Es solamente un hecho sobre esta población.
La distribución muestral de una estadística describe a ambos,
su sesgo y su precisión. Por ejemplo, la precisión de p^ como
un estimador de p puede ser expresado tal como «56% de las
muestras simples aleatorias de tamaño 25 tienen un valor de p^
con ±0.04 del valor real de p». La forma de la distribución de
valores mostrada en la tabla 4 es típica de una muestra simple
aleatoria. Estas distribuciones pueden ser estudiadas
matemáticamente evitándonos el trabajo de experimentación.
Podrías adivinar tales estudios (y experimentos también) que
muestran que el incremento del tamaño de la muestra aumenta
la precisión de la estadística muestral. Si en nuestro
experimento hemos usado muestras de tamaño 100, el 74% de
esas muestras debería tener proporciones muéstrales p^ con
±0.04 de p. Si, como Newsday, tomamos muestras de tamaño 1
373, poco menos que 2 en 10 000 fallaran al tener p^ con ±0.04
de la realidad sobre la población.
Sólo agregaremos un dato más para darle el tiro de gracia al
26
Estadística Descriptiva
escepticismo del reportero periodístico sobre muestras 1 en 40
000: La precisión de una estadística muestral no depende en
que si el tamaño de la población es mucho más grande que el
tamaño de la muestra. En otras palabras, el patrón de
resultados de repetidamente sumergir la pala en una enorme
caja conteniendo bolas no depende en si la caja contiene 1 000
bolas (como en el experimento) o 1 000 000 de bolas. La
precisión depende en cuantas bolas extrae la pala de la caja (el
tamaño de la muestra) y, en menor grado, en la proporción p
de bolas negras en la población.
Estas son noticias nuevas para Newsday. Su muestra de
tamaño 1 373 tiene gran precisión porque el tamaño de la
muestra es grande. Que sólo 1 en 40 000 de la población
fueron seleccionados es irrelevante.
Los conocimientos hasta aquí adquiridos son el fundamento
para un acuerdo sobre los usos del muestreo. En resumen,
estos hechos son como sigue:
1. No obstante la dispersión muestral de las estadísticas
de una muestra simple aleatoria, los valores de esas
estadísticas tiene una distribución conocida (esto es, un
patrón conocido) cuando se repiten las muestras.
2. La precisión de una estadística de una muestra simple
aleatoria depende del tamaño de la muestra y puede ser tan
alta como se desee con sólo tomar una muestra bastante
grande.
Ejercicios
Establezca si los valores dados son parámetro o estadística.
1.
El Buró de Estadísticas Laborales anuncia que el mes
próximo pasado entrevistó a todos los miembros de la
fuerza laboral en una muestra de 55 800 familias, de los
cuales 6.5% estaban desempleados.
2.
Un lote de balines tiene un diámetro promedio de 2.503
centímetros. Esto es con las especificaciones para
aceptación del lote por parte del comprador. Pero el
procedimiento muestral de aceptación inspecciona 100
balines del lote con un diámetro promedio de 2.515
centímetros. Esto está fuera de los límites especificados,
27
Estadística Descriptiva
así que el lote es equivocadamente rechazado.
3.
Una compañía que vende teléfonos en Los Ángeles usa
un dispositivo que marca aleatoriamente números
telefónicos residenciales en dicha ciudad. De los primeros
100 números marcados, 47 son números no registrados.
Esto no es sorpresa, porque 52% del total de teléfonos
residenciales son no registrados.
4.
El registro de votantes muestra que 68% del total de
votantes en Marion County, Indiana están registrados
como Republicanos. Para comprobarlo, se utiliza un
dispositivo digital aleatorio de marcación, se usa el
dispositivo para llamar a 150 teléfonos residenciales
seleccionados aleatoriamente. De los votantes registrados
contactados, 73% se registraron Republicanos.
5.
Justo antes de una elección presidencial, una firma de
encuestas de opinión pública aumenta el tamaño de su
muestra semanal de la usual de 1 500 personas a 4 000
personas. ¿Optar por una muestra aleatoria más grande,
hace el sesgo de los resultados de la encuesta menores?
¿Se mejora la precisión de la muestra?
28
Estadística Descriptiva
4 DESCRIPCIÓN DE DATOS BIVARIADOS
Diagramas de dispersión
Para efectos de ilustración se introduce el tema considerando el
problema de predecir las ventas mensuales y de una compañía
en la cual sus productos no experimentan una variación
estacionaria en sus ventas. Como la variable predictora x se
utiliza la cantidad gastada en publicidad por la compañía en el
mes bajo estudio. Es de interés ver si en efecto hay una
relación entre lo gastado en publicidad y lo vendido y además,
si se puede predecir lo que se venderá, y, como una función de
lo que se esté dispuesto a gastar en publicidad, x. La evidencia
que se presenta en la tabla 5 es una lista de gastos publicitarios
y volúmenes de ventas de 10 meses que fueron seleccionados
al azar de los archivos. Se supondrá que los gastos publicitarios
y ventas de estos 10 meses constituyen una muestra de
mediciones de las operaciones pasadas y presentes de la
compañía.
MES
GASTOS PUBLICITARIOS x (X $10 000)
VOLUMEN DE VENTAS y (X $10 000)
1
1.2
101
2
0.8
92
3
1.0
110
4
1.3
120
5
0.7
90
29
Estadística Descriptiva
6
7
8
9
10
0.8
1.0
0.6
0.9
1.1
82
93
75
91
105
Tabla 5. Gastos publicitarios y volúmenes de venta de una compañía durante 10 meses
elegidos al azar
Volumen de Ventas
Lo primero que se hace para analizar los datos de la tabla 5 es
el graficar los datos como puntos en una gráfica, representando
el volumen mensual de ventas y en el eje vertical y los gastos
publicitarios correspondientes x en el eje horizontal.
130
120
110
100
90
80
70
0,5
0,6
0,7
0,8
0,9
1
1,1
1,2
1,3
Gasto Publicitario
Gráfica 6. Diagrama de dispersión de los datos de la tabla 5
La gráfica 6 es referida como diagrama de dispersión. Se
observa en ella que aparentemente y crece cuando x crece.
(¿Podría haber ocurrido un tal diagrama por casualidad si x y y
no estuvieren relacionadas?)
Un método para obtener una ecuación de predicción que
relacione a y con x consiste en poner una regla de dibujo sobre
la gráfica y moverla hasta que dé la apariencia de que pasa a
través de los puntos. La línea recta que resulta se considera el
«mejor ajuste» a los datos. Se puede utilizar de ahí en
adelante, la gráfica de la recta para predecir el volumen de
ventas y en función de los gastos publicitarios x que se
presupuesten para ese mes.
Estimación por mínimos cuadrados para el modelo lineal simple.
En la estimación por mínimos cuadrados para el modelo lineal
simple sólo se tiene una variable de predicción, y se supone
30
Estadística Descriptiva
una ecuación de regresión lineal. Por ejemplo, los estudiantes
universitarios que aprenden más rápido tienen mejores
calificaciones promedio (CP) y por lo tanto, mejores
oportunidades de obtener buenos empleos después de
graduarse. Supóngase que los datos que se encuentran en la
tabla A representan las calificaciones promedio de 15
egresados y sus correspondientes salarios iniciales.
CP
2.95
3.20
3.40
3.60
3.20
Salario inicial
18.5
20.0
21.1
22.4
21.2
CP
2.85
3.10
2.85
3.05
2.70
Salario inicial
15.0
18.0
18.8
15.7
14.4
CP
2.75
3.10
3.15
2.95
2.75
Salario inicial
15.5
17.2
19.0
17.2
16.8
Tabla A. Datos de la muestra para un modelo lineal simple (miles de dólares)
Para este ejemplo, la variable respuesta es el salario inicial y la
variable de predicción potencial es la calificación promedio.
Estas últimas se seleccionaron de tal manera que reflejen un
amplio intervalo. Se desea determinar una ecuación de
regresión para el salario inicial promedio como una función de la
calificación promedio. Dado que se ha propuesto sólo una
variable de predicción, graficar los datos puede ser útil en la
selección inicial de un modelo de regresión. La gráfica de los
salarios iniciales contra las calificaciones promedio se muestra
en la gráfica A. A pesar que esta gráfica muestra una gran
dispersión3, se observa una tendencia lineal. De acuerdo con lo
anterior se supondrá un modelo de la forma
Yi = ß0 + ß1xi + εi i = 1, 2, 3, . . . , n,
X
Donde Y, es la i-ésima observación de la variable respuesta, la
cual corresponde al i-ésimo valor xi de la variable de predicción,
εi es el error aleatorio no observable asociado con Y, y ß0 y ß1
son los parámetros desconocidos que representan la
intersección y la pendiente, respectivamente. La expresión X se
conoce como modelo lineal simple, debido a que es lineal en
los parámetros y se tiene sólo una variable de predicción.
Cada observación Y, es una variable aleatoria que es la suma
de dos componentes; el término no aleatorio ß0 + ß1xi, y la
componente aleatoria εi. Si εi fuera un valor igual a cero, la
observación Y, se encontraría precisamente sobre la línea de
regresión ß0 + ß1xi. Por lo tanto, εi es la distancia vertical de la
observación a la línea de regresión. Dado que se supone
3
Por esta razón, este tipo de gráfica se conoce como gráfica de dispersión.
31
Estadística Descriptiva
E(εi) = 0, Var(εi) = σ2
i = 1, 2, . . . , n,
y
Cov(εi, εj) = 0
i ≠ j;
entonces
E(Yi) = E(ß0 + ß1x + εi) = ß0 + ß1x,
Cov(Yi, Yj) = σ2
i ≠ j,
y
Var(Yi) = Var(ß0 + ß1xi + εi) = Var(εi) = σ2.
El último resultado surge del hecho de que la varianza de una
variable aleatoria no varía con respecto a la localización; en
este caso, el corrimiento en localización está proporcionado por
el término no aleatorio ß0 + ß1xi. Por lo tanto, en términos
reales. lo que se supone es que para cada calificación promedio
x existe una distribución de probabilidad para los salarios
iniciales cuya media es una función lineal de x y cuya varianza
es la misma para toda x. El modelo proporcionado por X debe
considerarse sólo como una selección inicial para la forma
funcional de la curva de regresión. Con base en análisis más
apropiados, puede ser necesario hacer ajustes y éstos a su vez
pueden dar como resultado una ecuación final de predicción
diferente de la del modelo inicial.
Para obtener los estimadores de mínimos cuadrados de ß0 y ß1,
se generalizará un conjunto de datos consistente en n pares (x1,
y1), (x2, y2), . . . , (xn, yn), donde los valores de y son las
observaciones de la variable aleatoria respuesta. El método de
mínimos cuadrados considera la desviación de la observación
Yi de su valor medio y determina los valores de ß0 y ß1 que
minimizan la suma de los cuadrados de estas desviaciones. La
i-ésima desviación o error es
εi = Yi - (ß0 + ß1xi),
Y
y la suma de los cuadrados de los errores es
n
n
Σ εi = Σ (Yi - ß0 - ß1xi)2
2
Z
32
i =1
i =1
Estadística Descriptiva
Los estimadores de mínimos cuadrados de ß0 y ß1 se obtienen
mediante la diferenciación de Z con respecto a ß0 y ß1 y
después al igualar cada derivada parcial con cero, es decir
∂Σ εi2 = -2 Σ(Yi - B0 - B1xi) = 0,
∂ß0
y
∂Σ εi2 = -2 Σxi(Yi - B0 - B1xi) = 0,
∂ ß1
Donde B0 y B1 son los estimadores de mínimos cuadrados de β0
y β1, respectivamente. Al simplificar y distribuir las sumas en
estas ecuaciones, se tiene
Σ Yi = nB0 + B1 Σ xi
y
Σ xiYi = B0 Σ xi + B1 Σ xi2.
[
Las dos ecuaciones dadas por [ se conocen como ecuaciones
normales.
Dadas las realizaciones y1, y2, . . . , yn, las ecuaciones pueden
resolverse para los estimados de mínimos cuadrados b0 y b1. Si
se dividen ambos miembros de la primera ecuación entre n, se
obtiene
(Σ yi)/n = b0 + b1 (Σ xi)/n ;
entonces el estimador de mínimos cuadrados de β0 es
_
_
b0 = (Σ yi)/n - b1(Σ xi)/n = y - b1x.
\
Al sustituir b0 en la segunda ecuación de [ se obtiene
Σ xiYi = [(Σ yi)/n - b1(Σ xi)/n] Σ xi + B1 Σ xi2,
la que, después de resolver para b1, se reduce a
_
_
_
b1 = [Σ (xi - x)(yi - y)]/[Σ (xi - x)2]
]
Los valores dados por \ y ] son aquellos que minimizan la
suma de los cuadrados de los errores.
Dados los estimadores de mínimos cuadrados de B0 y B1 para
la intersección y la pendiente, respectivamente, la recta de
regresión estimada para el modelo X es
Y^i = B0 + B1xi
^
donde Y^i es el estimador para la media de la observación Yi, la
cual corresponde al valor xi de la variable de predicción.
33
Estadística Descriptiva
Nótese que si se sustituye \ por B0 en ^ se obtiene una forma
alternativa para la recta de regresión estimada, la cual se
encuentra dada por
_
_
_
Y^i = (y - b1x) + B1xi = Y + B1(xi - x).
_
Con base en Y, la diferencia entre la realización yi y el valor
estimado y^i es un estimador del correspondiente error. Este
estimador se conoce como el i-ésimo residual y se denota por
ei = yi - y^i .
`
De nuevo, nótese que los residuos no son estimados en el
sentido clásico de la estimación de parámetros (fijos), sino que
son estimadores de los valores de las variables aleatorias no
observables εi, los cuales se obtienen de la recta de regresión
estimada. Los residuos e1, e2, . . . , en son muy importantes
debido a que proporcionan una abundante información sobre lo
que puede faltar del modelo de regresión estimado. En este
momento se ilustrarán los pesos de cálculo para obtener la
recta de regresión estimada para el modelo lineal simple
empleando para ello los datos de los salarios. El propósito de
esto radica en familiarizar al estudiante únicamente con el
procedimiento de cálculo. En la tabla B, se incluyen los cálculos
básicos necesarios para obtener los estimadores de mínimos
cuadrados de la intersección y la pendiente.
34
Estadística Descriptiva
Totales
CP
xi
2.95
3.20
3.40
3.60
3.20
2.85
3.10
2.85
3.05
2.70
2.75
3.10
3.15
2.95
2.75
45.6
Salario
yi
18.5
20.0
21.1
22.4
21.2
15.0
18.0
18.8
15.7
14.4
15.5
17.2
19.0
17.2
16.8
270.8
x iy i
54.575
64.000
71.740
80.640
67.840
42.750
55.800
53.580
47.885
38.880
42.625
53.320
59.850
50.740
46.200
830.425
x i2
8.7025
10.2400
11.5600
12.9600
10.2400
8.1225
9.6100
8.1225
9.3025
7.2900
7.5625
9.6100
9.9225
8.7025
7.5625
139.5100
Tabla B. Cálculos básicos para obtener los estimadores de mínimos cuadrados b0 y b1 (con
base en los datos de salarios dados en la tabla A)
Mediante el empleo de \ y ]el estimador de mínimos
cuadrados para la pendiente es
b1 = [830.425 - (45.6)(270.8)/15]/[139.51 - (45.6)2/15] = 8.12,
y el correspondiente estimado de mínimos cuadrados para la
intersección es
b0 = 270.8/15 - (8.12)(45.6/15) = - 6.63.
De acuerdo con lo anterior, la ecuación estimada de regresión
es
^yi = - 6.63 + 8.12 xi.
a
Al intentar interpretar esta ecuación se tiene que los valores ^yi
son los estimadores para las medias de las distribuciones de
probabilidad de los salarios iniciales correspondientes a las
calificaciones promedio xi. Tener una intersección negativa
resulta fastidioso, ya que, por ejemplo, si x = 0.5, ^y = - 2.57, lo
cual es absurdo. Pero las calificaciones promedio en este
conjunto de datos varían de 2.70 a 3.60, por lo tanto, cualquiera
que sea la validez que tiene la ecuación estimada de regresión
al predecir los salarios iniciales promedio se mantiene, para
todos aquellos valores de x que se encuentren entre 2.70 y
3.60. En la práctica, muchas veces se desea predecir la
respuesta más allá del intervalo de valores de x para los cuales
se obtuvo la ecuación estimada de regresión. Si un valor de x
se encuentra muy cercano a este intervalo, la predicción tendrá
35
Estadística Descriptiva
cierta validez. De esta forma, ésta debe verse con mucho
cuidado, ya que la ecuación de regresión estimada puede no
ser apropiada para un intervalo de valores más amplio de la
variable de predicción. La interpretación del valor estimado de la
pendiente es directa. El incremento estimado en el salario inicial
promedio para cada aumento igual a una unidad de la
calificación promedio es de 8 120 dólares.
EJERCICIOS
1. Suponga que le son dados cinco puntos cuyas coordenadas
son las de la tabla.
x
y
-3
6
-1
4
1
3
1
1
2
1
a. Encuentre la recta de mínimos cuadrados para los datos.
b. Como una verificación de sus cálculos en el inciso a, grafique
los puntos y la recta de mínimos cuadrados.
2. Por presupuesto flexible, se entiende la relación entre
ingresos y costos. Suponga que un ejecutivo de una
empresa quiere establecer un presupuesto flexible para
estimar sus costos para un cierto rango de producción.
Los costos y predicciones pasadas se encuentran en la
tabla.
Producció
n (X $10
000)
Costos
fijos (X $1
000)
3
4
5
6
7
8
9
12
10.5
13
12
13
13.3
16.5
a. Encuentre la recta de mínimos cuadrados que le permita
estimar costos a partir de la producción.
b. Como verificación de sus cálculos, grafique los 7 puntos y la
recta de mínimos cuadrados.
36
Estadística Descriptiva
TABLAS DE CONTINGENCIA
Muchas veces surge la necesidad de determinar si existe
alguna relación entre dos rasgos diferentes en los que una
población ha sido clasificada y en donde cada rasgo se
encuentra subdividido en cierto número de categorías. Por
ejemplo, ¿Existe una relación entre el fumar cigarrillos y la
predisposición a desarrollar cáncer pulmonar?, o también
¿Existe una relación entre la filiación política y la opinión con
respecto a incrementar el presupuesto armamentista? En
ambos ejemplos, se ha clasificado a la población en dos
características y en donde se supone que cada una de éstas
tiene por lo menos dos categorías exhaustivas y mutuamente
excluyentes. En el primer ejemplo las dos características son, si
se es fumador, y si se desarrolla cáncer pulmonar.
Las características para estas dos características podrían ser si
se es fumador crónico, moderado o no fumador, para la
primera, y el si se desarrolla o no cáncer pulmonar para la
segunda.
Cuando una muestra aleatoria que se obtiene de una población
se clasifica de esta manera, el resultado recibe el nombre de
tabla de contingencia con dos criterios de clasificación. Esta
tabla se forma por las frecuencias relativas que se observaron
para las dos clasificaciones y sus correspondientes categorías.
El análisis de una tabla de este tipo supone que las dos
clasificaciones son independientes. Esto es, bajo la hipótesis
nula de independencia se desea saber si existe una diferencia
suficiente entre las frecuencias que se observan y las
correspondientes frecuencias que se esperan, tal que la
hipótesis nula se rechace.
Ejemplo 1. Una compañía evalúa una propuesta para
fusionarse con una corporación. El consejo de directores desea
muestrear la opinión de los accionistas para determinar si ésta
es independiente del número de acciones que cada uno posee.
Una muestra aleatoria de 250 accionistas proporciona la
información que se muestra en la tabla 7. Con base en esta
información, ¿existe alguna razón para dudar de que la opinión
con respecto a la propuesta es independiente del número de
acciones que posee el accionista? Úsese α = 0.10. La
hipótesis nula se establece de la siguiente forma
37
Estadística Descriptiva
H0 : pij = pi· p·j,
Número de
acciones
Menos de 200
200 — 1 000
Más de 1 000
Totales
i = 1, 2, 3; j = 1, 2, 3.
Opinión
En contra
29
42
59
130
A favor
38
30
32
100
Indecisos
9
7
4
20
Tabla 7. datos muéstrales para el ejemplo de los accionistas
En ésta, pij es la probabilidad de que un accionista seleccionado
al azar se encuentre en la categoría (i, j); pi· es la probabilidad
marginal de que el número de acciones que posee un accionista
seleccionado al azar se encuentre el la categoría i; y p·j es la
probabilidad marginal de que un accionista seleccionado al azar
tenga una opinión j. Por la expresión
r
c
∑ ∑ ⎨[Nij - (ni·n·j)/n]2 / [(ni·n·j)/n]⎬
Y
i =1 j =1
(que para valores grandes de n es, en forma aproximada, una
variable aleatoria ji—cuadrada con (r - 1)(c - 1) grados de
libertad) la frecuencia esperada de la celda (i, j) es el producto
del total del i-ésimo renglón por el total de la j-ésima columna
dividido por el tamaño de la muestra n = 250. Por ejemplo, el
número esperado de accionistas que están a favor de la
propuesta y que poseen más de 1 000 acciones, es
(95)(100)/250 = 38. Al continuar este proceso, se determinan
las frecuencias esperadas para cada combinación. En cada
celda de la tabla 8, la primera línea representa la frecuencia
observada, la segunda la frecuencia esperada y la tercera la
contribución de cada celda al valor de la estadística, de acuerdo
con la expresión Y.
De esta manera, el valor de la estadística es
χ2 = (38 - 30.4)2/30.4 + (29 - 39.52)2/39.52 + . . . + (4 7.6)2/7.6 = 10.80
Dado que r = c = 3, el número de grados de libertad es 4. Para
α = 0.1, el valor crítico es χ20.9, 4 = 7.78. De esta forma, el valor
que se observa de la estadística de prueba se encuentra dentro
de la región crítica, y la hipótesis nula debe rechazarse
38
Totales
76
79
95
250
Estadística Descriptiva
De acuerdo con lo anterior, existe una razón para creer que la
opinión con respecto a la propuesta y el número de acciones
que cada accionista posee, no son independientes.
Número de acciones
A favor
38
30.40
1.90
En contra
29
39.52
2.80
Indecisos
9
6.08
1.40
Totales
76
76
6.10
200 — 1 000
30
31.60
0.08
42
41.08
0.02
7
6.32
0.07
79
79
0.17
Más de 1 000
32
38
0.95
59
49.40
1.87
4
7.60
1.71
95
95
4.53
Menos de 200
Totales
100
130
20
100
130
20
2.93
4.69
3.18
Tabla 8. Frecuencias esperadas y observadas para el ejemplo 1
250
250
10.80
Ejemplo 2. En una fábrica de muebles se desean clasificar
defectos encontrados en los muebles según el tipo de defecto y
según el turno de trabajo en el cual se fabricó el mueble. Es
claro que lo que se busca es estudiar la posible dependencia
entre las dos clasificaciones. ¿Varían las proporciones de
defectuosos según tipo de defecto de turno a turno?
Un total de n = 309 defectos fueron registrados y clasificados
según el tipo A, B, C ó D y al mismo tiempo, el mueble al cual
se le encontraba el defecto, era identificado según el turno en el
que había sido producido, el primero, segundo o tercer turno.
Estas observaciones se presentan en la tabla 9 (conocida como
una tabla de contingencia).
Denótese por pA a la probabilidad incondicional de observar un
defecto del tipo A. Similarmente, denote por pB, pC y pD a las
probabilidades de observar los otros tipos de defectos. Las
probabilidades anteriores, que referiremos como
probabilidades de columnas de la tabla 9 satisfacen
pA + pB + pC + pD = 1
De manera análoga sean pi (i = 1, 2 ó 3) las probabilidades de
filas de que un defecto se haya producido en el turno i, i = 1, 2
ó 3, en donde
p1 + p2 + p3 = 1
Si las dos clasificaciones son independientes entre sí, la
probabilidad de una celda será igual al producto de su
respectiva probabilidad de fila y su respectiva probabilidad de
39
Estadística Descriptiva
columna, de acuerdo a la ley multiplicativa de la probabilidad.
Por ejemplo, la probabilidad que un defecto en particular ocurra
en el primer turno y que sea del tipo A es p1pA. Observe que los
valores de las probabilidades de las celdas no están totalmente
especificados en este problema. La hipótesis nula especifica
solamente que cada probabilidad de celda debe ser igual al
producto de la probabilidad de su fila por la probabilidad de su
columna, y por ello implica la independencia de las dos
clasificaciones. La hipótesis alternativa es que la igualdad
mencionada no es cierta para al menos una de las celdas.
Turno
1
2
3
Totales
A
15
26
33
74
Tipo de defecto
B
21
31
17
69
C
45
34
49
128
D
13
5
20
38
Tabla 9. Tabla de contingencia en la que se clasifican defectos de muebles según tipo de
defecto y turno de operación
En el análisis de los datos obtenidos de la tabla de contingencia
se tienen que estimar las probabilidades de filas y las
probabilidades de columnas para poder estimar las frecuencias
esperadas de las celdas.
Se puede mostrar que el estimador de la probabilidad de una
columna es igual al total observado en esa columna dividido por
n, que en este caso es n = 309. Si se denota el total para la
columna j por n·j, se tiene
p^C = n·3/n = 128/309
p^A = n·1/n = 74/309
p^B = n·2/n = 69/309
p^D = n·4/n = 38/309
De manera similar, las probabilidades de renglones p1, p2 y p3
se pueden estimar usando los totales de renglones n1·, n2·, n3·.
p^1 = n1·/n = 94/309
p^2 = n2·/n = 96/309
p^3 = n3·/n = 119/309
40
Totales
94
96
119
309
Estadística Descriptiva
Si se denota la frecuencia observada para la celda situada en el
renglón i y la columna j por nij, entonces el valor que se ha
estimado para el valor esperado de nij es
Ê(nij) = ni· n·j / n
Observase que el estimador de la frecuencia esperada para la
celda i, j de una tabla de contingencia es igual al producto de
sus totales respectivos de fila y columna divididos por la
frecuencia total.
Las estimaciones de las frecuencias esperadas de cada celda
del ejemplo 2 aparecen en la segunda línea de las celdas de la
tabla 10.
Se pueden ahora usar las frecuencias esperadas y las
observadas de la tabla 10
Turno
1
2
3
Totales
A
15
22.51
2.51
B
21
20.99
0.00
Tipo de defecto
C
45
38.94
0.94
D
13
11.56
0.18
Totales
94
94
3.63
26
22.99
0.40
31
21.44
4.26
34
39.77
0.84
5
11.81
3.92
96
96
9.42
33
17
49
20
119
28.50
0.71
26.57
3.44
49.29
0.00
14.63
1.97
119
6.12
74
74
3.62
69
69
7.70
128
128
1.78
38
38
6.07
309
309
19.17
Tabla 10. Frecuencias esperadas y observadas para el ejemplo 2
para calcular el valor de la estadística χ2, de acuerdo con la
expresión Y.
De esta manera, el valor de la estadística es
χ2 = (15 - 22.51)2/22.51 + (26 - 22.99)2/22.99 + . . . + (20 14.63)2/14.63 = 19.18
El único problema que queda para resolver es el de la
determinación de los grados de libertad apropiados. Se dan
como una receta y se presenta alguna justificación. Los grados
41
Estadística Descriptiva
de libertad asociados a una tabla de contingencia de r filas y c
columnas son siempre (r - 1)(c - 1). Para el ejemplo de los
muebles, se compara χ2 con el valor crítico de una χ2 con (r 1)(c - 1) = (3 - 1)(4 - 1) = 6 grados de libertad.
Los grados de libertad asociados con la estadística χ2 son el
número de celdas (en este caso k = rc) menos un grado de
libertad por cada restricción lineal independiente que deban
satisfacer las frecuencias de las celdas. El número de celdas
para los datos de la tabla 10 es k = 12.
De este número hay que restar un grado de libertad ya que la
suma de todas las frecuencias de las celdas debe ser n; esto
es,
n11 + n12 + . . . + n34 = 309
Además de lo anterior, se utilizaron las frecuencias de las
celdas para estimar 3 de las 4 probabilidades de columna.
Observe que el estimador para la probabilidad de la cuarta
columna se obtiene de los otros tres estimadores ya que si se
conoce p^A, p^B y p^C, p^D se deduce de ellos pues
p^A + p^B + p^C + p^D = 1
o sea que se pierden (c - 1) = 3 grados de libertad por haber
estimado las probabilidades de columna.
Finalmente, se utilizaron las frecuencias de las celdas para
estimar (r - 1) = 2 probabilidades de fila y por ello se pierden (r 1) = 2 grados de libertad adicionales.
El total de grados de libertad que quedan es
g. l. = 12 - 1 - 3 - 2 = 6
En general, se observa que el número de grados de libertad
asociados a cualquier tabla de contingencia r × c es
g.l. = rc - 1 - (c - 1) - (r - 1) = (r - 1)(c - 1)
De lo anterior que, si se usa α = 0.05, se rechaza la hipótesis
nula de que las dos clasificaciones son independientes si el
valor calculado de χ2 excede a 12, 592 . Como el valor
calculado χ2 = 19.18, excede al valor crítico de χ2, se rechaza la
hipótesis nula. Los datos presentan suficiente evidencia de que
la proporción de defectos de los distintos tipos varía según
turno. Un estudio sobre las distintas operaciones en la
producción posiblemente revelaría la causa.
42
Estadística Descriptiva
Ejemplo 3. El incluir en las etiquetas de los productos
alimenticios el precio unitario del producto tiene por objeto el
facilitar a los compradores la elección. Sin embargo, Isakson y
Maurizi4 en estudios sobre el comportamiento de los
consumidores en los Estados Unidos, han encontrado que
aquellos de nivel socioeconómico bajo no están usando la
ventaja que representa el tener exhibido en la etiqueta el precio
unitario.
En un estudio posterior, y a manera de corroboración de los
resultados reportados, un economista observó el proceso de
selección de n = 1 000 compradores en tres supermercados.
Los supermercados se encontraban ubicados en tres áreas
distintas de una ciudad, y correspondían a clases
socioeconómicas de nivel bajo, medio y alto respectivamente.
Se habían puesto paquetes de productos de la misma marca
pero con precios unitarios distintos. Los datos sobre los n = 1
000 compradores, clasificados de acuerdo a su clase
socioeconómica y al hecho de haber comprado con base en los
precios unitarios o no, se muestran en la tabla 11.
Usó precios
unitarios
No usó precios
unitarios
Totales
Clase socioeconómica
Alta
201
Baja
249
Media
494
Totales
944
26
26
4
56
275
520
205
1 000
Tabla 11. Datos para el ejemplo 3.
¿Muestran estos datos evidencia que respalde los reportes de
Isakson y Maurizi?
El problema es ver si los datos proporcionan evidencia
suficiente que indique una dependencia entre la clasificación de
los compradores por clase socioeconómica y la clasificación
dada por el uso que hacen de la información contenida en los
precios unitarios. Se analiza la información con una tabla de
contingencia.
4
H.R. Isakson y A.R. Maurizi, «The Consumer Economics of Unit Pricing,»
Journal of Marketing (1973).
43
Estadística Descriptiva
Las frecuencias esperadas de cada celda se estiman
calculando los totales de fila y columna.
Ê(nij) = ni· n·j / n
Se tiene
Ê(n11) = n1· n·1 / n = (944)(275)/1000 = 259.6
Ê(n12) = n1· n·2 / n = (944)(520)/1000 = 490.9
Ê(n13) = n1· n·3 / n = (944)(205)/1000 = 193.5
Ê(n21) = n2· n·1 / n = (56)(275)/1000 = 15.4
Ê(n22) = n2· n·2 / n = (56)(520)/1000 = 29.1
Ê(n23) = n2· n·3 / n = (56)(205)/1000 = 11.5
y así sucesivamente. Estos valores aparecen en la tabla 12
Usó precios
unitarios
No usó precios
unitarios
Totales
Clase socioeconómica
Alta
201
193.5
Baja
249
259.6
Media
494
490.9
0.43
0.02
0.30
0.75
26
15.4
26
29.1
4
11.5
56
56
7.30
0.33
4.89
12.52
275
275
7.73
520
520
0.35
205
205
5.19
1000
1000
13.27
Tabla 12. Frecuencias esperadas y observadas para el ejemplo 3
El valor de la estadística de prueba χ2 se calcula y se compara
con el valor crítico de la χ2 con (r - 1)(c - 1) = (1)(2) = 2 grados
de libertad. Para α = 0.05, se rechaza la hipótesis nula si χ2 >
5.991. Sustituyendo los valores en la fórmula para χ2 se obtiene
χ2 = (249 - 259.6)2/259.6 + (494 - 490.9)2/490.9 + . . . + (4 11.5)2/11.5 = 13.26
Observe que χ2 cae en la región de rechazo por lo que se
rechaza la hipótesis de independencia entre ambas
clasificaciones. Una comparación posterior entre los porcentajes
de los compradores de cada clase socioeconómica que hacen
uso de los precios unitarios sugiere que en efecto, los de las
clases más bajas son los que no están haciendo uso de la
ventaja que proporcionan los precios unitarios, respaldando así
los reportes de Isakson y Maurizi.
44
Totales
944
944
Estadística Descriptiva
Ejercicios.
1. ¿Cree usted que existan compañías cuyas acciones no
estén siendo consideradas sistemáticamente en algunos
fondos de inversión debido a razones de tipo político,
social o moral? Algunos investigadores observan que la
reacción a la anterior pregunta varía enormemente según
los agentes de distintos fondos en los cuales se hace la
pregunta.5 Para estudiar el problema se entrevistaron
agentes de los cuatro principales fondos de inversión y
se les pregunto si estaban o no de acuerdo con
seleccionar las acciones que forman el fondo, atendiendo
a razones de tipo político, social o moral. El número de
agentes para cada una de las 8 posibles categorías se
muestra en la tabla.
De acuerdo en razones
extra-económicas
No de acuerdo en
razones extraeconómicas
Totales
Fondo de inversión
C
11
A
7
B
6
D
13
23
31
30
41
30
37
41
54
¿Presentan estos datos evidencia suficiente de que la
proporción de agentes en favor de incorporar razones de tipo no
económico en la selección, varía de fondo a fondo? Use α =
0.10.
2. Con base en los registros de una tienda de modas, el
50% de los vestidos adquiridos por ésta para la
temporada se venderán a precio de menudeo, el 25% a
un 20% menos del precio de menudeo, 15% se venderán
después de una reducción en su precio del 40% y los
restantes con una disminución en su precio del 60%.
Para esta temporada, se adquirieron 300 vestidos y su
venta fue en la siguiente forma:
Precio de venta
140
20% de
90
40% de
30
60% de
40
5
B.G. Malkiel y R.E. Quandt, «Moral Issues in Investment Policy,» Harvard
Business Review, marzo-abril de 1971.
45
Estadística Descriptiva
¿Existe alguna razón para creer que la disminución en ventas
fue diferente en esta temporada con respecto a las anteriores?
Úsese α = 0.05. ¿Cuál es el valor de p?
3. Muchas compañías aseguradoras están revisando su
política de cobrar primas reducidas para los seguros de
automóviles pequeños ya que la proporción de
accidentes fatales a bordo de un automóvil pequeño es
mayor que a bordo de un automóvil grande. Para
investigar este problema, se hizo un análisis de datos de
accidentes para determinar la distribución de los
accidentes en los que al menos un pasajero resultó
gravemente herido o falleció. Los datos de 346
accidentes se muestran en la tabla.
Accidentes con heridos fatales o graves
Accidentes sin heridos fatales o graves
Tamaño de automóvil
Pequeño
Compacto
67
26
128
63
Grande
16
46
¿Indican estos datos que la frecuencia de accidentes con
heridos fatales o graves depende del tamaño del automóvil?
Use α = 0.05.
4. En un hospital, el número de nacimientos observados
para cada mes de cierto año, fueron los siguientes:
Ene
95
Feb
105
Mar
95
Abr
105
May
90
Jun
95
Jul
105
Ago
110
Sep
105
Si α = 0.01, ¿existe alguna razón para creer que el número de
nacimientos no se encuentra distribuido en forma uniforme
durante todos los meses del año? ¿Cuál es el valor de p?
COEFICIENTE DE CORRELACIÓN
Con frecuencia se requiere de un indicador o medida de la
fuerza con la que dos variables y y x se encuentran linealmente
relacionadas, de modo que el indicador no dependa de las
escalas en las que cada una de las variables y y x se hayan
medido. Un tal indicador o medida se conoce como medida de
la correlación lineal entre y y x.
46
Oct
100
Nov
95
Dic
100
Estadística Descriptiva
La medida de correlación lineal comúnmente usada en la
estadística es el llamado coeficiente de correlación de
Pearson entre y y x. Esta cantidad, denotada por el símbolo r,
se calcula como se indica en el cuadro.
Coeficiente de correlación de Pearson
r = SCxy / √(SCx SCy)
En donde
_
n
n
n
SCx = ∑ (xi - x)² = ∑ xi² - (∑ xi )² / n
i=1
i=1
i=1
y
_
_
n
n
n
n
SCxy = ∑ (xi - x)(yi - y) = ∑xiyi - (∑xi)(∑yi) / n
i=1
i=1
i=1
i=1
Ejemplo 1 . Calcule el coeficiente de correlación para los
datos de gastos publicitarios y volúmenes de venta de la tabla
5.
Solución. El coeficiente de correlación para los datos de la
tabla 5 se obtiene utilizando la fórmula de r y las cantidades
SCxy = 23.34 SCx = 0.444 SCy = 1600.9
que ya habían sido calculadas. De ahí,
r = SCxy / √(SCxSCy) = 23.34 / √[(0.444)(1600.9)] ≈ 0.88
Un estudio sobre el coeficiente de correlación r proporciona
resultados interesantes y entre ellos, la razón por la cual se
escoge como medida de correlación lineal. Primero se observa
que los denominadores son siempre positivos por ser
esencialmente sumas de cuadrados. También, se observa que
el numerador es el mismo. Así que r = 0 implica la ausencia de
correlación lineal entre y y x. Un valor de r positivo implica que
la pendiente de la recta es positiva (la recta crece a la derecha);
un valor de r negativo indica que la recta decrece a la derecha
(pendiente negativa).
47
Estadística Descriptiva
EJERCICIOS
1. ¿Existe relación entre el consumo de energía de un país
y su producto interno bruto (PIB)? Uno estaría dispuesto
a suponer que un país con mayor ingreso per cápita
requeriría de mayor consumo de energía. Para examinar
este problema se seleccionaron al azar 12 países y se
han obtenido para ellos el consumo per cápita (en libras)
y el producto interno bruto per cápita (en dólares). Los
resultados se presentan en la tabla.
48
Estadística Descriptiva
Valores críticos de la ji-cuadrada
g. de libertad
1
2
3
4
χ2 0.995
0.0000393
0.0100251
0.0717212
0.2069900
χ2 0.990
0.0001571
0.0201007
0.1148320
0.2971100
χ2 0.975
0.0009821
0.0506356
0.2157950
0.4844190
χ2 0.950
0.0039321
0.1025870
0.3518460
0.7107210
χ2 0.900
0.0157908
0.2107200
0.5843750
1.0636230
5
6
7
8
9
0.411740
0.675727
0.989265
1.344419
1.734926
0.554300
0.872085
1.239043
1.646482
2.087912
0.831211
1.237347
1.689870
2.179730
2.700390
1.145476
1.635390
2.167350
2.732640
3.325110
1.610310
2.204130
2.833110
3.489540
4.16816
10
11
12
13
14
2.15585
2.60321
3.07382
3.56503
4.07468
2.55821
3.05347
3.57056
4.10691
4.66043
3.24697
3.81575
4.40379
5.00874
5.62872
3.94030
4.57481
5.22603
5.89186
6.57063
4.86518
5.57779
6.30380
7.04150
7.78953
15
16
17
18
19
4.60094
5.14224
5.69724
6.26481
6.84398
5.22935
5.81221
6.40776
7.01491
7.63273
6.26214
6.90766
7.56418
8.23075
8.90655
7.26094
7.96164
8.67176
9.39046
10.1170
8.54675
9.31223
10.0852
10.8649
11.6509
20
21
22
23
24
7.43386
8.03366
8.64272
9.26042
9.88623
8.26040
8.89720
9.54249
10.19567
10.8564
9.59083
10.28293
10.9823
11.6885
12.4011
10.8508
11.5913
12.3380
13.0905
13.8484
12.4426
13.2396
14.0415
14.8479
15.6587
25
26
27
28
29
10.5197
11.1603
11.8076
12.4613
13.1211
11.5240
12.1981
12.8786
13.5648
14.2565
13.1197
13.8439
14.5733
15.3079
16.0471
14.6114
15.3791
16.1513
16.9279
17.7083
16.4734
17.2919
18.1138
18.9392
19.7677
30
40
50
60
13.7867
20.7065
27.9907
35.5346
14.9535
22.1643
29.7067
37.4848
16.7908
24.4331
32.3574
40.4817
18.4926
26.5093
34.7642
43.1879
20.5992
29.0505
37.6886
46.4589
70
80
90
100
43.2752
51.1720
59.1963
67.3276
45.4418
53.5400
61.7541
70.0648
48.7576
57.1532
65.6466
74.2219
51.7393
60.3915
69.1260
77.9295
55.3290
64.2778
73.2912
82.3581
49
Estadística Descriptiva
χ2 0.100
2.70554
4.60517
6.25139
7.77944
χ2 0.050
3.84146
5.99147
7.814473
9.48773
χ2 0.025
5.02389
7.37776
9.34840
11.1433
χ2 0.010
6.63490
9.21034
11.3449
13.2767
χ2 0.005
7.87944
10.5966
12.8381
14.8602
9.23635
10.6446
12.0170
13.3616
14.6837
11.0705
12.5916
14.0671
15.5073
16.9190
12.8325
14.4494
16.0128
17.5346
19.0228
15.0863
16.8119
18.4753
20.0902
21.6660
16.7496
18.5476
20.2777
21.9550
23.5893
5
6
7
8
9
15.9871
17.2750
18.5494
19.8119
21.0642
18.3070
19.6751
21.0261
22.3621
23.6848
20.4831
21.9200
23.3367
24.7356
26.1190
23.2093
24.7250
26.2170
27.6883
29.1413
25.1882
26.7569
28.2995
29.8194
31.3193
10
11
12
13
14
22.3072
23.5418
24.7690
25.9894
27.2036
24.9958
26.2962
27.5871
28.8693
30.1435
27.4884
28.8454
30.1910
31.5264
32.8523
30.5779
31.9999
33.4087
34.8053
36.1908
32.8013
34.2672
35.7185
37.1564
38.5822
15
16
17
18
19
28.4120
29.6151
30.8133
32.0069
33.1963
31.4104
32.6705
33.9244
35.1725
36.4151
34.1696
35.4789
36.7807
38.0757
39.3641
37.5662
38.9321
40.2894
41.6384
42.9798
39.9968
41.4010
42.7956
44.1813
45.5585
20
21
22
23
24
34.3816
35.5631
36.7412
37.9159
39.0875
37.6525
38.8852
40.1133
41.3372
42.5569
40.6465
41.9232
43.1944
44.4607
45.7222
44.3141
45.6417
46.9630
48.2782
49.5879
46.9278
48.2899
49.6449
50.9933
52.3356
25
26
27
28
29
40.2560
51.8050
63.1671
74.3970
43.7729
55.7585
67.5048
79.0819
46.9792
59.3417
71.4202
83.2976
50.8922
63.6907
76.1539
88.3794
53.6720
66.7659
79.4900
91.9517
30
40
50
60
85.5271
96.5782
107.565
118.498
90.5312
101.879
113.145
124.342
95.0231
106.629
118.136
129.561
100.425
112.329
124.116
135.807
104.215
116.321
128.299
140.169
70
80
90
100
Concluye
2
Tomada de «Tables of the Percentage Points of the  -Distribution,» Biometrika, Vol. 32
50
g. de libertad
1
2
3
4
Estadística Descriptiva
Áreas de la curva normal6
z
0.0
0.1
0.2
0.3
0.4
0.5
.00
.0000
.0398
.0793
.1179
.1554
.1915
.01
.0040
.0438
.0832
.1217
.1591
.1950
.02
.0080
.0478
.0871
.1255
.1628
.1985
.03
.0120
.0517
.0910
.1293
.1664
.2019
.04
.0160
.0557
.0948
.1331
.1700
.2054
.05
.0199
.0596
.0987
.1368
.1736
.2088
.06
.0239
.0636
.1026
.1406
.1772
.2123
.07
.0279
.0675
.1064
.1443
.1808
.2157
.08
.0319
.0714
.1103
.1480
.1844
.2190
.09
.0359
.0753
.1141
.1517
.1879
.2224
0.6
0.7
0.8
0.9
1.0
.2257
.2580
.2881
.3159
.3413
.2291
.2611
.2910
.3186
.3438
.2324
.2642
.2939
.3212
.3461
.2357
.2673
.2967
.3238
.3485
.2389
.2704
.2995
.3264
.3508
.2422
.2734
.3023
.3289
.3531
.2454
.2764
.3051
.3315
.3554
.2486
.2794
.3078
.3340
.3577
.2517
.2823
.3106
.3365
.3599
.2549
.2852
.3133
.3389
.3621
1.1
1.2
1.3
1.4
1.5
.3643
.3849
.4032
.4192
.4332
.3665
.3869
.4049
.4207
.4345
.3686
.3888
.4066
.4222
.4357
.3708
.3907
.4082
.4236
.4370
.3729
.3925
.4099
.4251
.4382
.3749
.3944
.4115
.4265
.4394
.3770
.3962
.4131
.4279
.4406
.3790
.3980
.4147
.4292
.4418
.3810
.3997
.4162
.4306
.4429
.3930
.4015
.4177
.4319
.4441
1.6
1.7
1.8
1.9
2.0
.4452
.4554
.4641
.4713
.4772
.4463
.4564
.4649
.4719
.4778
.4474
.4573
.4656
.4726
.4783
.4484
.4582
.4664
.4732
.4788
.4495
.4591
.4671
.4738
.4793
.4505
.4599
.4678
.4744
.4798
.4515
.4608
.4686
.4750
.4803
.4525
.4616
.4693
.4756
.4808
.4535
.4625
.4699
.4761
.4812
.4545
.4633
.4706
.4767
.4817
2.1
2.2
2.3
2.4
2.5
.4821
.4861
.4893
.4918
.4938
.4826
.4864
.4896
.4920
.4940
.4830
.4868
.4898
.4922
.4941
.4834
.4871
.4901
.4925
.4943
.4838
.4875
.4904
.4927
.4945
.4842
.4878
.4906
.4929
.4946
.4846
.4881
.4909
.4931
.4948
.4850
.4884
.4911
.4932
.4949
.4854
.4887
.4913
.4934
.4951
.4857
.4890
.4916
.4936
.4952
2.6
2.7
2.8
2.9
3.0
.4953
.4965
.4974
.4981
.4987
.4955
.4966
.4975
.4982
.4987
.4956
.4967
.4976
.4982
.4987
.4957
.4968
.4977
.4983
.4988
.4959
.4969
.4977
.4984
.4988
.4960
.4970
.4978
.4984
.4989
.4961
.4971
.4979
.4985
.4989
.4962
.4972
.4979
.4985
.4989
.4963
.4973
.4980
.4986
.4990
.4964
.4974
.4981
.4986
.4990
6
Versión extractada de la tabla 1 de Statistical Tables and Formulas, por A.
Hald (New York: John Wiley & Sons, Inc., 1952).
51
Descargar