Estadística
Estadística
María Eugenia Ángel
Mario Enrique Borgna
Graciela Fernández
Carpeta de trabajo
Diseño original de maqueta: Hernán Morfese
Procesamiento didáctico: Marina Gergich / Bruno De Angelis
Primera edición: Septiembre de 2009
ISBN: 978-987-1782-07-9
© Universidad Virtual de Quilmes, 2009
Roque Sáenz Peña 352, (B1876BXD) Bernal, Buenos Aires
Teléfono: (5411) 4365 7100 | http://www.virtual.unq.edu.ar
La Universidad Virtual de Quilmes de la Universidad Nacional de
Quilmes se reserva la facultad de dis- poner de esta obra, publicarla,
traducirla, adaptarla o autorizar su traducción y reproducción en
cualquier forma, total o parcialmente, por medios electrónicos o
mecánicos, incluyendo fotocopias, grabación magnetofónica y
cualquier sistema de almacenamiento de información. Por consiguiente, nadie tiene facultad de ejercitar los derechos precitados sin
permiso escrito del editor.
Queda hecho el depósito que establece la ley 11.723
Impreso en Argentina
Íconos
Lectura obligatoria
Es la bibliografía imprescindible que acompaña el desarrollo de los contenidos. Se trata tanto de textos completos como de capítulos de libros, artículos y "papers" que los estudiantes deben leer, en lo posible, en el momento
en que se indica en la Carpeta.
Actividades
Se trata de una amplia gama de propuestas de producción de diferentes tipos. Incluye ejercicios, estudios de caso, investigaciones, encuestas, elaboración de cuadros, gráficos, resolución de guías de estudio, etcétera.
Leer con atención
Son afirmaciones, conceptos o definiciones destacadas y sustanciales que
aportan claves para la comprensión del tema que se desarrolla.
Para reflexionar
Es una herramienta que propone al estudiante un diálogo con el material, a través de preguntas, planteamiento de problemas, confrontaciones del tema con la
realidad, ejemplos o cuestionamientos que alienten la autorreflexión, etcétera.
Lectura recomendada
Es la bibliografía que no se considera obligatoria, pero a la cual el estudiante puede recurrir para ampliar o profundizar algún tema o contenido.
Pastilla
Se utiliza como reemplazo de la nota al pie, para incorporar informaciones
breves, complementarias o aclaratorias de algún término o frase del texto
principal. El subrayado indica los términos a propósito de los cuales se incluye esa información asociada en el margen.
nd
Índice
Introducción...........................................................................................9
Mapa conceptual ..................................................................................10
Problemática del campo ........................................................................10
Objetivos del curso ...............................................................................11
1. Estadística descriptiva .....................................................................13
1.1. Los datos y su organización ...........................................................13
1.1.1. Variables estadísticas y su clasificación ................................13
1.1.2. Ordenamiento y tabulación de los datos................................15
1.1.3. Representaciones gráficas ...................................................23
1.2. Medidas estadísticas .....................................................................28
1.2.1. Medidas de posición............................................................28
1.2.2. Medidas de dispersión.........................................................39
1.2.3. Medidas de intensidad.........................................................43
1.3. Matrices ejemplos .........................................................................51
2. Probabilidad.....................................................................................55
2.1. Elementos de la teoría de probabilidad ...........................................55
2.1.1. Experimento aleatorio .................................................................55
2.1.2. Definiciones de probabilidad........................................................62
2.1.3. Axiomatización de la probabilidad ................................................63
2.1.4. Tipos de probabilidad..................................................................64
2.2. Variable aleatoria...........................................................................69
2.2.1. Variable aleatoria discreta ...........................................................69
2.2.2. Modelos especiales de variables aleatorias discretas ...................71
2.2.3. Variable aleatoria continua ..........................................................76
2.2.4. Modelos especiales de variables aleatorias continuas ..................77
3. Inferencia estadística.......................................................................87
3.1. Distribución de estadísticos muestrales ..........................................87
3.1.1. Distribución del estadístico media muestral .................................88
3.1.2. Distribución del estadístico proporción muestral ...........................90
3.1.3. Teorema central del límite ...........................................................91
3.2. Problemas fundamentales de la inferencia estadística .....................94
3.2.1. Estimación por intervalo de confianza ..........................................94
3.2.2. Pruebas de hipótesis ................................................................105
4. Elementos básicos de econometría.................................................113
4.1. Introducción ................................................................................113
4.2. Análisis de regresión y de correlación ...........................................114
4.3. Series de tiempo .........................................................................120
Referencia bibliográfica ......................................................................125
7
Universidad Virtual de Quilmes
Anexo ................................................................................................127
Tabla 1: Percentiles de la distribución normal estándar .........................127
Tabla 2: Percentiles de la distribución t de Student...............................129
8
Introducción
El material de esta carpeta contiene, en su inicio –Unidad 1–, diversas formas
de organización de los conjuntos de datos (apartado 1.1.). En algunos casos
datos de campo y en otros compilados, como preparación del material de base
para elaborar las medidas estadísticas (apartado 1.2.) también denominadas
indicadores estadísticos, y producir información útil.
La importancia de la organización de los datos, en vistas del tratamiento
posterior, reside en que permite establecer distintas líneas de trabajo en pos
de la calidad de la información que se busca. Una información estadística de
calidad es primordial para la comprensión de las cualidades o características
del mundo real con perspectiva de su modelización.
A comienzos del siglo XIX el astrónomo Adolfo Quetelet –considerado el fundador de la estadística moderna– aplicó a las ciencias sociales los métodos
estadísticos hasta entonces utilizados en las ciencias naturales, contribuyendo a la ampliación del campo de la estadística. Sin embargo, fue a partir
de mediados de la década de 1960 con el Análisis Exploratorio de Datos (EDA)
– desarrollado por J. Tukey y otros– que surgió un enfoque más amplio en el
tratamiento de datos, cimentado en el uso de la informática, donde el soporte tecnológico permitió sostener una gran masa de datos y procesarlos en
tiempo real, contribuyendo así al mejoramiento de la calidad de la información
resultante.
Luego del tratamiento descriptivo de los datos desarrollado en la Unidad
1, se incorporan nociones sobre la teoría de la probabilidad –Unidad 2–.
A partir del siglo XVII comenzó a evolucionar el Cálculo de probabilidad
como disciplina científica introduciéndose el uso sistemático de los conceptos de azar, indeterminismo y aleatoriedad. La Estadística, que a la sazón ya
tenía un desarrollo de varios milenios donde el campo de trabajo era exclusivamente las poblaciones o universos, es decir la totalidad de los individuos o
elementos involucrados en el estudio de un problema, se vio enriquecida por
el desarrollo de la teoría de la probabilidad la cual le permitió extender su
alcance hacia el interior de dichas poblaciones y ampliar su metodología al
tratamiento de los subconjuntos de ellas, las muestras.
Los trabajos de Bernoulli, Laplace, Gauss y Galton entre otros, proveyeron
al cálculo de probabilidades de recursos matemáticos que permitieron diseñar modelos probabilísticos aplicables a diversos campos de la ciencia. Los
modelos probabilísticos, cuyo núcleo son las distribuciones de probabilidad
de las variables involucradas en los problemas de estudio (apartado 2.2.),
son la base de la inferencia estadística.
La inferencia estadística –Unidad 3– es el procedimiento por el cual se
extrapolan o extienden a la población en estudio los resultados de una muestra representativa. A partir de los indicadores o estadísticos muestrales se
estiman (apartado 3.2.) o se someten a prueba (apartado 3.3.) los indicadores poblacionales también denominados parámetros.
9
Universidad Virtual de Quilmes
Por último, se tratan algunos elementos de econometría –Unidad 4–, nociones sobre la relación entre variables como el análisis de regresión lineal, el
análisis de correlación y un breve estudio sobre las series de tiempo.
El orden y sentido en que se desarrollan los distintos conceptos en el transcurso del presente material se sintetiza en el diagrama siguiente.
Mapa conceptual
Problemática del campo
La estadística se compone de dos grandes áreas, la descriptiva y la inferencial.
Por medio de la estadística descriptiva se analizan propiedades de un conjunto de datos referidas al contexto en el que ellos se encuentran inmersos y
no como entidades aisladas. Por ese motivo es muy importante antes del análisis descriptivo, conocer y clarificar el entorno del que provienen los datos.
Cuando hablamos del entorno estamos haciendo referencia a la población en
estudio (o a una parte de ella) y a sus unidades de análisis, a los atributos
que interesa estudiar y a la calidad del dato que se puede extraer.
Por otro lado, en los estudios de campo se da con frecuencia y por distintas causas la imposibilidad de acceder a toda la población y es en esos casos
donde los datos tienen que extraerse de un subconjunto de ella al que denominamos muestra. Si el objetivo del análisis de la muestra es realizar inferencias respecto a la población, necesariamente debe ser una muestra representativa que comportándose como una imagen reducida de esa población
de estudio refleje sus características. Estas muestras son obtenidas por
métodos de muestreo aleatorio.
La estadística inferencial tiene como objetivo realizar inferencias sobre la
población en un ambiente de incertidumbre producto del azar y la aleatoriedad.
En síntesis, hay dos grandes problemas con los que se encuentra este
campo del saber el conocimiento del contexto de estudio y el tratamiento de
la incertidumbre.
10
Objetivos del curso
• Aprehender técnicas y métodos estadísticos tanto de la Estadística descriptiva como de la Estadística inferencial.
• Emplear esas técnicas y métodos en la formalización de modelos estadísticos en el ámbito de las ciencias económicas.
• Aplicar el conocimiento estadístico adquirido a la vida cotidiana como parte
de una cultura general.
11
1
Estadística descriptiva
Objetivos
• Determinar y analizar distintos indicadores socioeconómicos.
• Construir e interpretar gráficos estadísticos diversos.
1.1. Los datos y su organización
En este apartado se tratarán algunas de las formas de organizar los datos
recolectados o recopilados y se preparará el material de base para que en los
apartados siguientes puedan elaborarse medidas estadísticas, comúnmente
denominadas indicadores estadísticos.
Los datos son tomados de una cierta población o universo objeto de estudio: la población objetivo.
Por ejemplo, todos los empleados de una determinada pyme constituyen
una población objetivo. Y en ese caso, cada individuo de ese universo –cada
empleado– es lo que se denomina una unidad de observación.
En el estudio de la población nos pueden interesar determinados atributos comunes a los individuos como la edad, el salario, la antigüedad, etc. Los
archivos de la empresa combinados con entrevistas personales pueden haber
sido los instrumentos con que se relevó la información.
El paso inicial para organizar toda la información primaria obtenida del
grupo de empleados de la pyme y que la presente en su totalidad, es elaborar una tabla denominada matriz de datos. Una matriz de datos es un arreglo
de filas y columnas donde cada fila representa un individuo o unidad de observación y cada columna un atributo variable (en el apartado 1.3. figuran cuatro
matrices de datos llamadas a partir de ahora matrices ejemplo –ME– cada
vez que se haga referencia a ellas).
Cada uno de los atributos variables que se observan en la matriz son pasibles de convertirse en lo que llamamos variables estadísticas.
En el apartado 1.6. figuran varios ejemplos de
población objetivo y de unidad de
observación.
Otros instrumentos de
recolección de datos son:
documentos, encuestas o simple
observación.
Puede haber atributos
que no varíen de un individuo a otro, como la pertenencia a la empresa, ya que todos
son empleados.
1.1.1. Variables estadísticas y su clasificación
Las variables estadísticas se obtienen a partir de los atributos. Por ejemplo,
si el atributo primario hubiese sido la fecha de nacimiento de cada empleado,
para su tratamiento estadístico se diseña la variable edad en años. Por otro
lado, contando con la fecha de nacimiento y la fecha de ingreso podría dise13
Universidad Virtual de Quilmes
ñarse la variable “edad que tenía cuando ingresó a la empresa” (en este caso
la variable surge de una combinación de atributos).
Para un primer tratamiento se convertirá cada atributo de las matrices ejemplo ME en una variable estadística.
Si se observan detenidamente cada una de las variables se puede notar
que algunas asumen valores numéricos y otras valores no numéricos.
A las que asumen valores numéricos las denominaremos variables cuantitativas y a las que asumen valores no numéricos, es decir cualidades, variables cualitativas.
Son ejemplos de variables cuantitativas la antigüedad, el salario quincenal, la cantidad de personal, la longitud de las piezas de plástico, etc. Son
ejemplos de variables cualitativas el sexo, el tipo de posesión de la vivienda,
el rubro de las pymes, el tipo de materia prima, etcétera.
1.
Clasificar como cuantitativas o cualitativas cada una de las variables de
las ME del apartado 1.3.
Si se observan más detenidamente las variables de las matrices ejemplo se
puede notar que hay variables cuantitativas que asumen valores dentro del
conjunto de los números reales y hay otras cuyos valores son números enteros. A las que asumen valores reales las denominamos cuantitativas continuas y a las otras cuantitativas discretas. Por ejemplo: la “edad civil” es por
naturaleza una variable discreta pero eventualmente si se tratara la “edad biológica” ésta sería por naturaleza una variable cuantitativa continua.
Con respecto a las variables cualitativas se puede notar que en algunas de
ellas sus valores pueden ordenarse y en otras no. Esto justifica también subclasificarla en cualitativas ordenables y cualitativas no ordenables. Un ejemplo de variable cualitativa ordenable es el “nivel de detalle de terminación de
las piezas plásticas” y un ejemplo de no ordenable es el “rubro de las pymes”.
$ISCRETAS
#UANTITATIVAS
#ONTINUAS
6ARIABLES
/RDENABLES
#UALITATIVAS
.O ORDENABLES
),1'(/((5$7(172
2.
Completar la actividad 1 con la clasificación de las variables.
&20,(1=2'($&7,9,'$'
&RPSOHWDUODDFWLYLGDGFRQODFODVLILFDFLyQGHODVYDULDEOHV
¿Por qué motivo
cree que es necesaria la clasificación realizada para las
variables y cuál),1'($&7,9,'$'
será su utilidad?
14
&20,(1=2'(3$5$5()/(;,21$5
¢3RU TXp PRWLYR FUHH TXH HV QHFHVDULD OD FODVLILFDFLyQ UHDOL]DGD
SDUDODVYDULDEOHV\FXiOVHUiVXXWLOLGDG"
),1'(3$5$5()/(;,21$5
Completar la actividad 1 con la clasificación de las variables.
FIN DE ACTIVIDAD
COMIENZO DE PARA REFLEXIONAR
Estadistica
¿Por qué motivo cree que es necesaria la clasificación realizada para las variables y cuál será su utilidad?
FIN DE PARAyREFLEXIONAR
1.1.2. Ordenamiento
tabulación de los datos
A partir de aquí se seguirá la organización de los datos centrando la atención
1.1.2.
Ordenamiento
y tabulación
decuenta
los datos
en
cada una
de las variables
y teniendo en
su complejidad.
A partir de
aquí se seguirá
la organización de los datos centrando la atención en cada una de las variables y tenie
Variable
cualitativa
no ordenable
en cuenta su complejidad.
Elegimos para esta categoría la variable “Rubro de la pyme” de la matriz de
Variable
no ordenable
ejemplo
MEcualitativa
3.
Los rubros relevados en la muestra son: servicios (S), industrial (I), agríElegimos
para esta categoría
variable “Rubro
de la empresas
pyme” de la
matriz
de ejemplo ME 3.
cola (A) y comercial
(C). Podríala interesarnos
cuántas
hay
de cada
Los
rubros relevados
muestratabla
son: servicios
(S), tabla
industrial
(I), agrícola (A) y comercial (C). Podría interesa
rubro,
entonces
armamosen
la la
siguiente
denominada
de distribución
cuántas
empresas
hay
de
cada
rubro,
entonces
armamos
la
siguiente
tabla denominada tabla de distribución
de frecuencias.
frecuencias.
Rubro
A
C
I
S
Total
Cantidad de Pymes
6
5
9
4
24
El conteo realizado para la segunda columna de la tabla constituye lo que llamaremos de aquí en más frecue
Elabsoluta
conteo .realizado para la segunda columna de la tabla constituye lo que llamaremos de aquí en más frecuencia absoluta.
La notación usual para la frecuencia absoluta es f y para la
cantidad total de datos
cada valor
de la nvariable
en
muestrales
.
COMIENZO DE LEER ATENTO
SeSedenomina
frecuencia
absoluta
a la acantidad
de veces
que aparece
cada
denomina
frecuencia
absoluta
la cantidad
de veces
que aparece
el grup
valor
de
la
variable
en
el
grupo
de
datos
estudiado.
datos estudiado.
Es importante
tener en
cuenta
la suma
todas las
absoEs importante
tener
en que
cuenta
que de
la suma
defrecuencias
todas las frecuencias
absolutas es igual a la cantidad
Si el grupo relevado es
lutas
es
igual
a
la
cantidad
total
de
datos.
de datos.
FIN DE LEER ATENTO
una población denotaremos con N a la cantidad total
de datos.
Ampliando
el PASTILLA
concepto
de frecuencia de tal manera de involucrar no sólo las
COMIENZO DE
ENIUHFXHQFLDDEVROXWD
cantidades
cadaabsoluta
rubro sino
su incidencia
respecto
La notacióncon
usualque
paraaparece
la frecuencia
es f ytambién
para la cantidad
total de datos
muestrales n.
FINtotal,
DE PASTILLA
del
surgen las denominadas frecuencias porcentuales y relativas.
COMIENZO DE PASTILLA ENFDQWLGDGWRWDOGHGDWRV
La frecuencia relativa se calcula dividiendo cada frecuencia absoluta por
el total de datos.
La frecuencia porcentual se calcula multiplicando por 100 la respectiva
frecuencia relativa.
La frecuencia relativa se abrevia
con fr y el total es 1.
La frecuencia porcentual
se abrevia con f% y el total
es 100.
La tabla que sigue, que llamaremos de aquí en adelante tabla de distribución
de frecuencias o distribución de frecuencias a secas, incluye a los tres tipos
de frecuencias definidas anteriormente.
15
/DIUHFXHQFLDSRUFHQWXDOVHDEUHYLDFRQf%\HOWRWDOHV
FIN DE PASTILLA
Universidad Virtual de Quilmes
La tabla que sigue, que llamaremos de aquí en adelante tabla de distribución de frecuencias o
a secas, incluye a los tres tipos de frecuencias definidas anteriormente.
Tabla 1.1.
Tabla 1.1.
Rubro
Rubro
A
A
C
C
I
I
S
S
Total
Total
f
frr
0,25
0,21
0,37
0,17
1,00
1,00
f
f
6
6
5
5
9
9
4
4
24
24
f
f%%
25
25
21
21
37
17
100
100
Donde: Rubro Agrícola: A; Comercial: C; Industrial: I y Servicios: S.
'RQGH5XEUR$JUtFROD$&RPHUFLDO&,QGXVWULDO,\6HUYLFLRV6
Variable
Variable cualitativa
cualitativa ordenable
ordenable
Como ejemplo para este tipo de variables tomaremos el “nivel de detalles de
Como ejemplo para este tipo de variables tomaremos el “nivel de detalles de terminación de
terminación de las piezas plásticas” de la ME 4.
ME 4.
Tabla 1.2.
1.2.
Tabla
Tabla 1.2.
Detalle de
Detalle de
terminación
terminación
Regular
5HJXODU
Bueno
%XHQR
Muy bueno
0X\EXHQR
Excelente
Excelente
Total
Total
f
f
5
5
5
5
5
5
5
5
20
f
f%%
25
25
25
25
25
25
25
25
100
f
frr
0,25
0,25
0,25
0,25
1
1
Como puede apreciarse, en la tabla de distribución de frecuencias se consignaron los
sentido creciente, acorde con la naturaleza ordenable de la variable. En la tabla podemos l
Como
apreciarse,
la tabla de
de frecuencias
se consig-nivel de detalle d
piezaspuede
de plástico
(o quéen
porcentaje
de distribución
ellas) cumplen
con un determinado
naron los valores –o categorías– en sentido creciente, acorde con la naturaleza
ordenable
de la variable.
la tabla podemos
leer, nos
por ejemplo,
El carácter
de ordenables
queEn
adquieren
las categorías
habilita acuántas
crear lo que denomina
piezas
de
plástico
(o
qué
porcentaje
de
ellas)
cumplen
con
un
determinado
ordenados:
nivel de detalle de terminación.
El carácter de ordenables que adquieren las categorías nos habilita a crear lo
que denominaremos un arreglo de datos ordenados:
5
5
5
5
5
B
B
B
B
B
MB
MB
MB
MB
MB
E
E
E
E
E
'RQGH'HWDOOHGHWHUPLQDFLyQ5HJXODU5%XHQR%0X\EXHQR0%\([FHOHQWH(
Donde: Detalle de terminación Regular: R; Bueno: B; Muy bueno: MB y Exce-
Por una cuestión de economía de espacio hemos elegido representar el arreglo mediante una ma
lente: E.
usarse una matriz columna sin que ello altere la esencia del ordenamiento.
Por una cuestión de economía de espacio hemos elegido representar el arre-
Aprovechando la propiedad de ordenamiento de las categorías, someteremos las frecuencias de
glo mediante una matriz fila, pero puede usarse una matriz columna sin que
mecanismo de acumulación y definiremos las frecuencias acumuladas absoluta, relativa y porcent
ello altere la esencia del ordenamiento.
piezas de plástico (o qué porcentaje) cumplen con un nivel máximo de detalles de terminación.
Aprovechando la propiedad de ordenamiento de las categorías, someteremos las frecuencias de la tabla 1.2. a un mecanismo de acumulación y defiCOMIENZO DE LEER ATENTO
niremos las frecuencias acumuladas absoluta, relativa y porcentual, esto es
La frecuencia absoluta acumulada –que denotamos con F– hasta una determinada categoría
cuántas piezas de plástico (o qué porcentaje) cumplen con un nivel máximo
de sumarle a su frecuencia absoluta todas las frecuencias absolutas de los valores o catego
de detalles de terminación.
16
La frecuencia relativa acumulada Fr hasta una categoría se calcula sumándole a su fr
frecuencias relativas de las categorías anteriores.
La frecuencia porcentual acumulada F% hasta una determinada categoría o valor se c
su frecuencia porcentual las frecuencias porcentuales anteriores.
FIN DE LEER ATENTO
Por
hemos
representar
5 una
5 cuestión
5 5 Bde economía
B B B de
B espacio
MB MB
MB elegido
MB MB
E E elE arreglo
E E mediante una matriz fila, pero pu
una matriz columna sin que ello altere la esencia del ordenamiento.
usarse
'RQGH'HWDOOHGHWHUPLQDFLyQ5HJXODU5%XHQR%0X\EXHQR0%\([FHOHQWH(
5
Estadistica
Aprovechando
la propiedad
de ordenamiento
de las
categorías,
someteremos
frecuencias
de la fila,
tablapero
1.2.pua
Por una cuestión
de economía
de espacio hemos
elegido
representar
el arreglo las
mediante
una matriz
mecanismo
de
acumulación
y
definiremos
las
frecuencias
acumuladas
absoluta,
relativa
y
porcentual,
esto
es
cuán
frecuencia
absoluta
–que denotamos
hasta una deterusarse unaLamatriz
columna
sinacumulada
que ello altere
la esencia con
del F–
ordenamiento.
piezas deminada
plásticocategoría
(o qué porcentaje)
un nivel
detalles de terminación.
de la variablecumplen
resulta decon
sumarle
a su máximo
frecuenciadeabsoluta
todas
las
frecuencias
absolutas
de
los
valores
o
categorías
menores.
Aprovechando la propiedad de ordenamiento de las categorías, someteremos las frecuencias de la tabla 1.2. a
COMIENZO
DE LEER
ATENTO
La
frecuencia
relativa
Fr hasta
una categoría
se calcula sumánmecanismo
de
acumulación
yacumulada
definiremos
las frecuencias
acumuladas
absoluta, relativa y porcentual, esto es cuán
La
frecuencia
absoluta
acumulada
–que
denotamos
con
F–
hasta
una determinada
categoría de la variable res
dole
a
su
frecuencia
relativa
las
frecuencias
relativas
de
las
categorías
piezas de plástico (o qué porcentaje) cumplen con un nivel máximo de detalles
de terminación.
de sumarle a su frecuencia absoluta todas las frecuencias absolutas de los valores o categorías menores.
anteriores.
La frecuencia
acumuladaF%
Frhasta
hastauna
unadeterminada
categoría se catecalcula sumándole a su frecuencia relativa
La
frecuencia
porcentual
COMIENZO
DE relativa
LEER acumulada
ATENTO
frecuencias
deacumulada
las categorías
goría
o valorrelativas
se
calcula
sumándole
a suanteriores.
frecuencia porcentual
fre-determinada categoría de la variable resu
La
frecuencia
absoluta
–que
denotamos
con F– hastalasuna
La
frecuencia
porcentual
acumulada
F%
hasta
una
determinada
o valor
se calcula
sumándo
cuencias
porcentuales
anteriores.
de sumarle a su frecuencia absoluta todas las frecuencias absolutas decategoría
los valores
o categorías
menores.
su frecuencia
porcentual
frecuencias
anteriores.
La frecuencia
relativa las
acumulada
Fr porcentuales
hasta una categoría
se calcula sumándole a su frecuencia relativa
FIN
DE
LEER
ATENTO
frecuencias relativas de las categorías anteriores.
En la siguiente
se encuentran
ya consignadas
las frecuen- categoría o valor se calcula sumándo
Ladistribución
frecuencia porcentual
acumulada
F% hastatodas
una determinada
En
la
siguiente
distribución
se
encuentran
ya
consignadas
todas
las
frecuencias definidas anteriormente.
cias definidas
anteriormente.
su frecuencia
porcentual las frecuencias porcentuales anteriores.
FIN DE LEER ATENTO
Tabla 1.3.
1.3.
Tabla
En la siguiente distribución se encuentran ya consignadas todas las frecuencias definidas anteriormente.
Detalle de
f
terminación
Tabla5HJXODU
1.3.
5
%XHQR
5
Detalle
de
0X\EXHQR
f5
terminación
Excelente
5
5HJXODU
5
Total
%XHQR
5
0X\EXHQR
5
Excelente
5
Variable
Totalcuantitativa
fr
fr
1
discreta
1
f%
25
25
f%25
25
25
25
25
25
F
Fr
F%
5
15
F
5
15
Fr
25
F
%
25
Variable cuantitativa discreta
Caso 1. Edad de los trabajadores de una empresa cooperativa, (extraída de la EM 1).
Para
tratamiento
dediscreta
esta variable
procederemos
como se hizo
para la de
cualitativa ordenable.
Variable
cuantitativa
Caso
1. el
Edad
de los trabajadores
de una
empresa cooperativa,
(extraída
la EM 1).
Arreglo
datos
Caso
1. de
Edad
de ordenados
los trabajadores
de una
empresa cooperativa,
(extraída
la EM 1).
Para
el
tratamiento
de esta variable
procederemos
como se hizo
para lade
cuaParaordenable.
el tratamiento de esta variable procederemos como se hizo para la cualitativa ordenable.
litativa
21 25 28 42 48 51 Arreglo de datos
datos ordenados
ordenados
Distribución de frecuencias
21 25 28 42 48 51 Distribución
Distribución de
de frecuencias
frecuencias
17
Universidad Virtual de Quilmes
Tabla 1.4.
1.4.
Tabla
Tabla 1.4.
Edad
Tabla 1.4.
f
1
1
1
1
1
2
1
2
2
1
1
1
1
1
20
fr
f%
Fi
Fr
F%
5
1
5
21
Edad
f
fr
f%
Fi
Fr
F%
5
2
25
1
21
Edad
f
fr f5% 5
F1i Fr F5% 15
28
1
5
2
25
1
5 5
1 4 21 30
5 1
5
15
28
1
5 5
2 5 25 34
25
5
4
1
30
1
5
28 36
15 1
5
5
25
34
1
5 15
4 30 37
2
36
1
5
5
34
5
11
25 55
38
15
37
2
36 39
65
1
5
11
55
38
15 15 37 40
2
65
39
5
11
1
38
5
16
55 42
2
15
40
2
5
39 48
65 85
1
5
16
42
2
15
40
5
18
51
1
5
85
48
1
5 5
16 19 42 57
95
1
5
18
51
1
5
48
5
85
63
1
5
19
95
57
1
1
5 18
51
Total
1
5
63
1
5
19
95
57
1
Total
20
1
5
63
1
Total2. Edad20
Caso
de los
los empleados
empleados
deuna
unafábrica
fábricaautomotriz.
automotriz.
Caso 2.
Edad de
de
A continuación se transcriben las edades de una muestra de 80 empleados
se transcriben
las fábrica
edades automotriz.
de una muestra de 80 empleados de una fábrica
Caso A
2. continuación
Edad de los empleados
de una
de una fábrica automotriz.
A continuación
transcriben
edades
deautomotriz.
una muestra de 80 empleados de una fábrica au
Caso
2. Edad de losseempleados
delas
una
fábrica
18 54 42 24 42 64 48 58 29 49
A continuación se transcriben las edades de una muestra de 80 empleados de una fábrica au
18 41 54 1842 42 46 24 42 64 4448 58 21 5529 49 15
29
18
41 62
54
25
18 42
42 22
46 49
24
2142
41
44 2548
58
21 55 29
49
15 44
64
45
46
48
49
51
54
19
56
28
59
29 41
62 25 18
42
22 46
49 21 41 44
25 21
55
15
44 45 62
46 25
48 22
49 49
21
51 41
54 19 25
56 28 59 44
29
Arreglo de datos ordenados
45 46 48 49 51 54 19 56 28 59 Arreglo de datos ordenados
Arreglo
ordenados
15 de
18datos
18 19
21 21 22 24 25 25 28 29 29 Arreglo de datos ordenados
15 18 18 19 21 21 22 24 25 25 28 29 29 15
18
18
19
21
21
22
24
25
4125
41
42
42
4228
29
29
44
44
45
46
46
48
48
49
49
49
51
41 41 54
42 54
42 55
42 56
58
59
44 62
44 64
45 46 46 48 48 49 49 49 51 41
41
54 42
54 42
55 42
56 58 59 44
62 44
64
Si intentáramos listar en una tabla de frecuencias los 80 datos nos encontraríamos con una
sus correspondientes
frecuencias
son similares.
Antenos
esteencontraríamos
panorama el sentido
comú
Si Además,
intentáramos
listar en una tabla
de frecuencias
los 80 datos
con una
gra
datos
por
franjas
de
edad.
Además,
sus
correspondientes
frecuencias
son
similares.
Ante
este
panorama
el
sentido
común
Si intentáramos listar en una tabla de frecuencias los 80 datos nos encontraríamos con una gra
Tabla
1.5.
Si
intentáramos
tabla de frecuencias
losAnte
80 datos
nos encondatos
por
franjas
delistar
edad.en una
Además,
sus
correspondientes
frecuencias
son similares.
este panorama
el sentido común
traríamos
con
una
gran
variedad
de
valores.
Además,
sus
correspondientes
freTabla
1.5.
datos por franjas de edad.
45 46 46 48 48 49 49 49 51 54 54 55 56 58 59 62 64
Franja de edad
f
cuencias
Tabla
1.5. son similares. Ante este panorama el sentido común aconseja orga15
a
19
5
nizar
de edad.
Franjalos
de datos
edad por franjas
f
D
15 a
Franja
de19
25
aedad
29
D
15 D
a 19
25 a 29
D
D
D
25
a 29
D
D
D
45 a 49
D
D
D
45 a 49
D
55 a 59
D
45
a 49
D
55 a 59
D
Total
D
55
a 59
Total
D
18
Total
6
5
f 8
6
5
8
6
16
8 12
16
8
12
16 6
8
12
4
6
8
2
4
6
2
4
2
45 46 46 48 48 49 49 49 51 54 54 55 56 58 59 62 64
Si intentáramos listar en una tabla de frecuencias los 80 datos nos encontraríamos con una gran variedad de valor
Además, sus correspondientes frecuencias son similares. Ante este panorama el sentido común aconseja
Estadistica organizar
datos por franjas de edad.
Tabla
Tabla1.5.
1.5.
Franja de edad
15 a 19
D
25 a 29
D
D
D
45 a 49
D
55 a 59
D
Total
f
5
6
8
16
12
8
6
4
2
Para poder usar, más adelante, con comodidad este material llamamos a esas
franjas intervalos de clase y los describimos agregando para el conteo alguPara
poder usar, más adelante, con comodidad este material llamamos a esas franjas intervalos de clase y los describim
na convención.
agregando para el conteo alguna convención.
Tabla 1.6.
Tabla 1.6.
Edad
F
fr
f%
Fi
Fr
F%
>²
>²
>²
>²
>²
>²
>²
>²
>²
>²
Total
5
6
8
16
12
8
6
4
2
5
11
19
48
68
La convención que se usó para ajustar los intervalos de clase y hacerlos adyacentes, fue cerrarlos a izquierda y abrir
El conjunto
de intervaa derecha. Podría haber sido al revés, abiertos a izquierda y cerrados a derecha, pero una
vez elegida
una de las d
La convención que se usó para ajustar los intervalos de clase y hacerlos adyalos
debe
ser
exhaustivo
convenciones debe mantenérsela para toda la distribución.
centes, fue cerrarlos a izquierda y abrirlos a derecha. Podría haber sido al
–es decir, ningún dato puede quedar excluido– y los intervalos son
revés,
abiertos
a
izquierda
y
cerrados
a
derecha,
pero
una
vez
elegida
una
de
COMIENZO DE PASTILLA EN LQWHUYDORVGHFODVH
excluyentes entre sí por eso deben
las dos convenciones debe mantenérsela para toda la distribución.
(OFRQMXQWRGHLQWHUYDORVGHEHVHUH[KDXVWLYR²HVGHFLUQLQJ~QGDWRSXHGHTXHGDUH[FOXLGR²\ORVLQWHUYDORVVRQH[FOX\HQWHVHQWUHVtSRU
ser semiabiertos.
GHEHQVHUVHPLDELHUWRV
FIN DE PASTILLA
¿Por qué es necesario mantener la convención elegida en toda la distriCOMIENZO DE PARA REFLEXIONAR
bución? ¿Qué problemas acarrearía utilizar las dos convenciones en una
¿Por qué es necesario mantener la convención elegida en toda la distribución? ¿Qué problemas acarrearía utiliz
misma tabla?
Caso 3. En la siguiente tabla elaborada por los editores de una revista estudiantil universitaria con base en informaci
del
Nunca Más (Informe de la CONADEP, Eudeba, 1984), se presenta la edad de las personas desaparecidas en
Caso 3. En la siguiente tabla elaborada por los editores de una revista estuArgentina
por la última dictadura militar (1976-1983).
diantil universitaria con base en información del Nunca Más (Informe de la
CONADEP, Eudeba, 1984), se presenta la edad de las personas desaparecidas
Tabla 1.7.
en la Argentina por la última dictadura militar (1976-1983).
Edad al momento de la
desaparición forzada
D
D
11 a 15
D
f%
19
¿Por qué es necesario mantener la convención elegida en toda la distribución? ¿Qué pro
Universidad Virtual de Quilmes
Caso 3. En la siguiente tabla elaborada por los editores de una revista estudiantil universitaria
del Nunca Más (Informe de la CONADEP, Eudeba, 1984), se presenta la edad de las perso
Argentina por la última dictadura militar (1976-1983).
Tabla 1.7.
Tabla 1.7.
Edad al momento de la
desaparición forzada
D
D
11 a 15
D
21 a 25
D
D
D
41 a 45
D
51 a 55
D
61 a 65
D
GH
Total
f%
Notemos que en este caso no disponemos de los datos de campo y que en consecuencia no necesitamos adoptar convención alguna para el conteo. Para futuNotemos
que en estealgunos
caso nolímites
disponemos
de los datos
de forma
campoque
y que
en consecuencia
ros usos retocamos
de los intervalos
de tal
sean
convención
alguna
para el conteo.
rigurosamente
adyacentes
en el dominio de los números reales y tengan la
Para
futuros
usos
retocamos
algunos
límites
los intervalos
de tal forma que sean riguros
misma amplitud, y agregamos una
columna
con de
frecuencias
acumuladas:
dominio de los números reales y tengan la misma amplitud, y agregamos una columna con fr
Tabla 1.8.
Tabla 1.8.
Edad al momento de la
desaparición forzada
²
²
²
²
²
²
²
²
²
²
²
²
²
²
²
Total
f%
F%
Variable cuantitativa continua
familia, de 96 familias escogidas al azar de cierta localidad.
20
²
²
²
Total
Estadistica
Variable
Variable cuantitativa
cuantitativa continua
continua
Consideremos el siguiente conjunto de datos correspondiente a gastos por
familia,
demedio
96 familias
al azar
cierta localidad.
consumo
diario escogidas
de alimentos
pordefamilia,
de 96 familias escogidas al
azar de cierta localidad.
Arreglo de
Arreglo
dedatos
datosordenados
ordenados
Como se puede apreciar se optó por organizar el arreglo con forma de matriz columna, la que además se partió en cin
tramos para economizar espacio.
Como
puede
apreciar
optó
el arreglo
forma dediscreta
matriz del Caso 2, y por idénticos motivos
De se
forma
similar
a lose
que
se por
hizoorganizar
anteriormente
concon
la variable
columna, la que
además se partió
en cinco tramos
para economizar
espacio.
confecciona
a continuación
una distribución
de frecuencias
agrupando
los datos en intervalos de clase:
De forma similar a lo que se hizo anteriormente con la variable discreta del
Tabla 1.9.
21
Gasto medio
diario
f
f%
F
F%
Universidad Virtual de Quilmes
Como se puede apreciar se optó por organizar el arreglo con forma de matriz columna, la que a
tramos para economizar espacio.
De 2,
forma
a lomotivos,
que se hizo
anteriormente
con la variable
Caso
y porsimilar
idénticos
se confecciona
a continuación
una discreta
distribu- del Caso 2, y p
confecciona
a
continuación
una
distribución
de
frecuencias
agrupando
los datos en intervalo
ción de frecuencias agrupando los datos en intervalos de clase:
Tabla
Tabla 1.9.
1.9.
Gasto medio
diario
(15 – 25]
²@
²@
(45 – 55]
(55 – 65]
²@
@
@
Total
f
f%
F
F%
11
15
11
1
2
96
11
82
94
96
Tabla de distribución conjunta
Tabla de distribución conjunta
Para
Para armar
armar la
la siguiente
siguiente tabla
tabla de
de doble
doble entrada
entrada se
seconsideraron
consideraronlas
lasvariables
variables“Puesto de traba
“Rubro”,
ambas
de la
ME2001
3. y 2003” y “Rubro”, ambas de la ME 3.
“Puesto de
trabajo
entre
Tabla
Tabla 1.10.
1.10.
Tabla
1.10.
Puestos
de trabajo
Rubro
&RPHUFLDO ,QGXVWULDO 6HUYLFLRV
'LVPLQX\y
1
1 Rubro 2
Puestos
de trabajo
2001-2003
$JUtFROD
&RPHUFLDO
,QGXVWULDO
6HUYLFLRV
0DQWXYR
2
1
$XPHQWy
2
1
4
12
'LVPLQX\y
1
1
0DQWXYR
2
1
Cada uno
de los números que
en la tabla 4resultó del1conteo
$XPHQWy
2 figuran 1
2001-2003
$JUtFROD
simultáneo o conjunto
cada
categoría
pertenece
a
una
variable
distinta.
Cada uno de los números que figuran en la tabla resultó del conteo simultáhay
pymes
la muestra
queconteo
sona del
rubro
y que
Cada
uno
deobservar
los
quecuatro
figuran
en
la en
tabla
resultó
del
simultáneo
o conjunto
neoSeo puede
conjunto
denúmeros
dosque
categorías,
donde
cada
categoría
pertenece
una
varia- industrial
de
trabajo
entre
2001
y
2003.
cada
categoría pertenece a una variable distinta.
ble distinta.
Se
Se puede
puede observar
observarque
quehay
hay cuatro
cuatro pymes
pymes en
en la
la muestra
muestra que
que son
sondel
del rubro
rubro industrial y que
Tabla
1.11.
de
trabajoyentre
2001 y 2003.
industrial
que aumentaron
los puestos de trabajo entre 2001 y 2003.
Tabla
1.11.
1.11.
Puestos
de trabajo
22
Rubro
'LVPLQX\y
Puestos
de trabajo
0DQWXYR
2001-2003
$XPHQWy
'LVPLQX\y
Total
0DQWXYR
$JUtFROD
1
2
$JUtFROD
21
52
&RPHUFLDO
1
&RPHUFLDO
11
5
,QGXVWULDO
Rubro
,QGXVWULDO
4
6HUYLFLRV
2
1
6HUYLFLRV
12
41
Total
9
Total
8
24
9
$XPHQWy
2
1
4
1
8
2001-2003
Las frecuencias
que figuran
denominan4 frecuencias
Total
5 en la tabla
5 1.10. se 24 absolutas conjuntas y
tabla 1.11. En esta última se incorporaron además los totales por filas y columnas que son la
totales.
Las
frecuencias que
figuranen
enlalatabla
tabla1.10.
1.10.sesedenominan
denominanfrecuencias
frecuenciasabsoabsolutas conjuntas y
Las frecuencias
que figuran
tabla
1.11.
En
esta
última
se
incorporaron
además
los
totales
por
filas
y
columnas
que son la
lutas conjuntas y están sombreadas en la tabla 1.11. En esta última se incorCOMIENZO
DE
LEER
ATENTO
totales.
poraron además los totales por filas y columnas que son las frecuencias marSi
bien olastotales
palabras
ginales
. valor, categoría y clase pueden usarse como sinónimos, en lo sucesivo
respecto
del
significado
cada una. En ese sentido diremos que las variables cualitativas
COMIENZO DE LEER de
ATENTO
cuantitativas
toman valores
o se agrupan
en clases
(de usarse
valores).
Si bien las palabras
valor, categoría
y clase
pueden
como sinónimos, en lo sucesivo
FIN
DE
LEER
ATENTO
respecto del significado de cada una. En ese sentido diremos que las variables cualitativas
cuantitativas toman valores o se agrupan en clases (de valores).
FIN DE LEER ATENTO
Estadistica
Si bien las palabras valor, categoría y clase pueden usarse como sinónimos, en lo sucesivo seremos más rigurosos respecto del significado de
cada una. En ese sentido diremos que las variables cualitativas asumen
categorías y las cuantitativas toman valores o se agrupan en clases (de
valores).
1.1.3. Representaciones gráficas
Para visualizar las distribuciones de frecuencias realizadas previamente recurriremos a distintos gráficos. Como el mundo de los gráficos es muy amplio y
sólo limitado por la imaginación, seleccionaremos aquellos que consideramos
más convenientes según su adecuación con el tipo de variable analizada.
Variables cualitativas
Para la confección de los siguientes gráficos se utilizó la información de las
tablas 1.1. y 1.2.
Gráfico circular o de torta
G.1.2.
G.1.2.
Rubro de la PyME
Rubro de la PyME
Tabla 1.1.
Tabla 1.1.
Servicios 17%
Servicios 17%
Industrial 37%
Industrial 37%
G.1.3.
G.1.3.
Detalle de terminación
Detalle de terminación
Tabla 1.2.
Tabla 1.2.
Agrícola 25%
Agrícola 25%
Comercial 21%
Comercial 21%
Regular
Bueno
Regular
Bueno
Muy bueno
Excelente
Muy bueno
Excelente
Gráfico de barras
Gráfico de barras
Gráfico de barras
G.1.4. Rubro de la PyME
Rubro de la PyME
G.1.4. Tabla
1.1.
Tabla 1.1.
f
6
5
4
3
2
1
0
Servicios
Servicios
Industrial
Industrial
Agrícola
Agrícola
Comercial
Comercial
0
G.1.5.
G.1.5.
0
0,1 0,2 0,3 0,4 fr
0,1 0,2 0,3 0,4 fr
Detalle de terminación
Detalle de terminación
Tabla 1.2.
Tabla 1.2.
f
6
5
4
3
2
1
0 Regular
Bueno Muy bueno Excelente
Regular
Bueno Muy bueno Excelente
23
Universidad Virtual de Quilmes
El ojo humano es más eficiente para reconocer
pequeñas diferencias lineales que
para advertir diferencias angulares
o de áreas, por lo que un gráfico
lineal como el de barras no necesita especificación adicional.
En el gráfico circular es necesario explicitar la frecuencia de cada valor
de la variable porque no es un gráfico lineal como el de barras.
Variables cuantitativas
Para representar gráficamente las variables cuantitativas se utilizó la información de las tablas 1.4. a 1.9.
Gráfico de bastones
FR
%DAD DE LOS EMPLEADOS DE LA EMPRESA COOPERATIVA
4ABLA ,QVHUWDU,PDJHQ1ž*
*UiILFRGHHVFDORQHV
%DAD DE LOS EMPLEADOS DE LA EMPRESA COOPERATIVA
)
4ABLA Desde la Biometría las contribuciones de Karl Pearson a la teoría estadística son importantes
y numerosas. Fue cofundador en
1901 de la revista Biometrika que
se convirtió en el receptáculo de
todos los aportes a la estadística provenientes de distintas ciencias y que se sigue publicando hasta ho y.
Gráfico de escalones
Histogramas de Pearson y polígonos de frecuencias
24
Estadistica
Gráfico 1.8.
f
20
Gráfico 1.9.
Edad de los empleados
Tabla 1.6.
f
20
15
15
10
10
5
5
0
Edad de los empleados
Tabla 1.6.
0
15 20 25 30 35 40 45 50 55 60 65
Gráfico 1.11.
Gráfico 1.10.
Edad al momento de la desaparición
Tabla 1.8.
Edad al momento de la desaparición
Tabla 1.8.
35
30
25
20
15
10
5
0
5 10 15 20 25 30 35 40 45 50 55 60 65 70 75
Gráfico 1.12.
Gráfico 1.13.
Gasto medio diario
Tabla 1.9.
Gasto medio diario
Tabla 1.9.
35
30
25
20
15
10
5
0
35
30
25
20
15
10
5
0
15 25 35 45 55 65 75 85 95
15 25 35 45 55 65 75 85 95
Los gráficos 1.8., 1.10. y 1.12. son histogramas, los 1.9. y 1.11. son polígonos de frecuencias y en el 1.13. se combinan ambos.
Tanto el histograma como el polígono de frecuencias encierran la misma
área, el área es igual al total de los datos si se grafican las frecuencias
absolutas, uno si se trata de las frecuencias relativas y cien si es la f% la
representada.
Ojiva de Galton
El gráfico de frecuencias acumuladas Ojiva se debe a Francis Galton,
también biómetra y maestro de K.
Pearson; cofundador con
él de Biometrika.
25
Edad acumulativa
Tabla 1.6.
f%
f%
120
100
100
Universidad Virtual de Quilmes
80
80
60
40
Edad acumulativa
Tabla 1.8.
60
Gráfico 1.14.
40 Gráfico
1.15.
20
20
0
0
Edad acumulativa
f%
15 20 Tabla
25 301.6.
35 40 45 50 55 60 65 70
Edad acumulativa
Tabla20
1.8.30 40 50 60 70
0 10
f%
120
100
100
80
Gráfico 1.16.80
60
60
40
20
f%
0
120
acumulativo
Gasto medio diario 40
20
Tabla 1.9.
0
15 20 25 30 35 40 45 50 55 60 65 70
0 10 20 30 40 50 60 70
100
80
60
Gráfico 1.16.
40
20
0f %
Gasto medio diario acumulativo
Tabla 1.9.
120 15 25 35 45 55 65 75 85 95 105
100
80
60
40
20
0
15 25 35 45 55 65 75 85 95 105
Gráficos para representar tablas de distribución conjunta
Los siguientes gráficos sirven para representar tablas del tipo de la tabla 1.11
en la que intervienen dos variables.
Gráfico de barras adyacentes y gráfico de barras segmentadas
Gráfico
Gráfico
1.17. 1.17.
Gráfico
Gráfico
1.18.
Rubro y puestos de trabajo de las PyMEs
Tabla 1.11.
Rubro y puestos de trabajo de las PyMEs
Tabla 1.11.
5
4
3
2
1
5
4
3
2
1
26
1.18.
Gráfico 1.17.
Gráfico 1.18.
Rubro y puestos de trabajo de las PyMEs
Tabla 1.11.
Rubro y puestos de trabajo de las PyMEs
Tabla 1.11.
Puede observarse que en el gráfico de barras segmentadas se incluyó
información sobre la frecuencia de cada segmento. Esto se debe a que
las comparaciones entre distintos segmentos son areales, no lineales, lo
mismo que ocurre con el gráfico circular.
COMIENZO DE LEER ATENTO
Puede observarse que en el gráfico de barras segmentadas se incluyó información sobre la frecuencia de ca
segmento. Esto se debe a que las comparaciones entre distintos segmentos son areales, no lineales, lo mis
que ocurre con el gráfico circular.
Estadistica
FIN DE LEER ATENTO
Pirámides deDE
población
COMIENZO
TEXTO APARTE
Pirámides
de población
población es un gráfico que se aplica a distribuciones bivariadas donde las
Una pirámidede
Una
pirámide
de
es un
gráfico
que segeneralmente
aplica a distribuciones
variables son “sexo” población
y “edad”, esta
última
organizada
en intervalos.bivariadas donde las variables son “sexo” y “edad”, e
La siguiente
distribución
de frecuencias
conjuntas corresponde a un grupo de 1000
organizada
generalmente
en intervalos.
última
personas,
La siguiente distribución de frecuencias conjuntas corresponde a un grupo de 1000 personas
Tabla
1.12.
Tabla
1.12.
Sexo
Edades
>²
>²
>²
>²
>²
>²
>²
>²
>²
>²
F
M
'RQGH)HPHQLQR)\0DVFXOLQR0
La correspondiente pirámide de población es
Gráfico 1.19.
%$!$
F
MUJERES
HOMBRES
),1'(7(;72$3$57(
3.
Representar gráficamente las variables de la ME 2.
&20,(1=2'($&7,9,'$'
5HSUHVHQWDUJUiILFDPHQWHODVYDULDEOHVGHOD0(
),1'($&7,9,'$'
/DV FRQVWUXFFLRQHV TXH DFDEDPRV GH UHDOL]DU ±GLVWULEXFLyQ GH
27
Universidad Virtual de Quilmes
Las construcciones que acabamos de realizar –distribución de frecuencias,
arreglo de datos ordenados y gráficos sobre el eje numérico– involucran cuatro espacios abstractos bien diferenciados, el espacio de los valores (primera columna de la tabla de frecuencias), el espacio de las frecuencias (las
columnas de frecuencias de la distribución), el espacio de los datos ordenados (el arreglo) y el espacio de los números reales (el eje horizontal de los gráficos hechos). Ellos son los espacios de definición de las medidas estadísticas, también denominados indicadores estadísticos, y a las cuales nos
dedicaremos en el próximo apartado.
Los gráficos elaborados permiten tener una idea de conjunto del grupo
de datos relevados complementando la lectura de la información que
hacen los indicadores estadísticos. Su objetivo principal es maximizar
la extracción de la información contenida en los datos empíricos.
1.2. Medidas estadísticas
Las medidas estadísticas son resúmenes o indicadores que permiten caracterizar el comportamiento del grupo de datos en estudio. Según el criterio de
diseño existen distintos tipos de medidas, las de posición, las de dispersión
y las de intensidad.
1.2.1. Medidas de posición
Las medidas de posición determinan, con distintos criterios, ubicaciones unívocas en el conjunto de datos.
Moda o modo
Observando las distribuciones tratadas anteriormente notamos que sobresale –que predomina– algún valor o categoría o clase.
La moda o modo –que denotaremos como Mo– es el valor, categoría o
clase que registra la frecuencia mayor en la distribución de la variable.
En la variable “rubro de las pymes” (tabla 1.1. y gráficos G.1.2. y G.1.4.) observamos que predomina la categoría industrial.
En el “nivel de terminación de las piezas de plástico” (tabla 1.2. y gráfico
G.1.5.) no predomina ninguna categoría de datos, no hay moda.
La edad de los empleados (tabla 1.4 y gráfico G.1.7) más frecuente es 37
años.
En la tabla 1.6. y en el gráfico G.1.8. –empleados de una fábrica– notamos que la clase de edad –franja etaria– que tiene mayor frecuencia es [35 –
40] y repasando los datos sobre el arreglo concluimos que entre los empleados de la fábrica predominan las edades que van de 35 a 39 años.
En la distribución de la tabla 1.10. y en el gráfico 1.12. se aprecian dos inter28
Estadistica
valos modales –[25-35] y [35-45]–, que interpretamos volviendo nuevamente
a los datos de la siguiente manera: en la muestra predominan las familias
que tienen un gasto medio diario en alimentos de entre $26,80 y $34,65 y
entre $37,20 y $43,90. Como en esta distribución los intervalos modales
resultaron ser adyacentes, con un criterio práctico puede también interpretarse que en la muestra predominan las familias que tienen un gasto diario
medio en alimentos de entre $26,80 y $43,90.
En el caso de la tabla 1.8., la interpretación del intervalo modal 20-25 no
puede hacerse sobre los datos originales porque no contamos con ellos (desde
la publicación estudiantil, se entiende). Y decimos entonces que en el universo de las personas desaparecidas por la dictadura militar 1976-1983 en
la Argentina, la edad predominante al momento de la desaparición forzada es
de entre 21 y 25 años (aprovechando la información de la tabla 1.7. y los gráficos 1.10. y 1.11.)
¿Es factible concluir que la moda es aplicable a cualquier tipo de variable?
Tanto en la tabla conjunta 1.11. como en el gráfico G.1.17 se ve que en la
muestra de 24 pymes predominan las del rubro industrial que aumentaron los
puestos de trabajo entre 2001 y 2003.
Finalmente, en el caso de la tabla 1.12. predominan las mujeres que tienen hasta 10 años de edad. Además, se observa que hay predominio de población joven y eso queda reflejado en el gráfico G.1.19. (en las poblaciones
donde predominan las edades mayores la pirámide se vería invertida).
4.
a. Determinar la moda de las variables de la ME 2.
b. Determinar la moda de la distribución conjunta de edad y sexo de
la tabla 1.12.
Media aritmética o promedio
La media aritmética, comúnmente conocida como promedio, es una medida
que incumbe sólo a las variables cuantitativas.
El promedio se denota
con X si el grupo de datos
es una muestra y con µ si es toda
la población.
La media aritmética representa, en el dominio de los números reales, el
punto de equilibrio del conjunto de datos.
Vemos entonces que la edad promedio de los empleados de una cooperativa
que integran la muestra del caso 1, es de 38,9 años. O que los 80 empleados seleccionados al azar entre todos los de una fábrica automotriz (caso 2)
tienen, en promedio, una edad de 37,4 años.
También, en la muestra de las 96 familias, el gasto medio diario en alimentos es, en promedio, de $44,27 por familia.
29
Vemos entonces que la edad promedio de los empleados de una
cooperativa que integran la muestra del caso 1, es de 38,9 años. O que
los 80 empleados seleccionados al azar entre todos los de una fábrica
automotriz (caso 2) tienen, en promedio, una edad de 37,4 años.
Universidad Virtual de Quilmes
También, en la muestra de las 96 familias, el gasto medio diario en
alimentos es, en promedio, de $44,27 por familia.
Además, de la forma más popular de calcular la media –sumando los valoAdemás, de la forma más popular de calcular la media –sumando los
res de todos los datos y dividiendo por el total– surgen otras formas de cálvalores de todos los datos y dividiendo por el total– surgen otras formas
culo ligadas al empleo de las tablas de frecuencias.
de cálculo ligadas al empleo de las tablas de frecuencias.
(1.1.)
COMIENZO DE TEXTO APARTE
A modo de ejemplificación se explicitan a continuación dos formas de
calcular
unodede
los resultados
expuestos
anteriormente
(edad
promedio
A modo
ejemplificación
se explicitan
a continuación
dos formas
de calcular
uno de los
resultados
expuestos
anteriormente
(edad que
promedio
de los la
empleados
de una cooperativa que
de los
empleados
de una
cooperativa
integran
muestra):
integran la muestra):
Si estuviéramos en una situación similar al caso 3, donde no se cuenta con
los datos, se podría calcular igualmente un promedio aproximado aplicando la
misma fórmula 1.1. pero considerando como valores de la variable xi los puntos medios de cada intervalo denominados a partir de aquí marca de clase.
Si se hace el cálculo se tiene que la edad promedio de los desaparecidos
en Argentina por la última dictadura militar es de 28,09 años aproximadamente.
5.
Determinar la media aritmética de las variables cuantitativas de la ME 2.
¿Cuál es la diferencia de calidad entre una media aritmética calculada con
los datos y la calculada a partir del agrupamiento en intervalos de clase?
Mediana
Mediana es el lugar geométrico del arreglo de datos ordenado que lo divide
en dos partes iguales.
30
COMIENZO DE PARA REFLEXIONAR
FIN DE
PARA
REFLEXIONAR
es la
diferencia
de calidad entre una media aritmética calculada con los datos y la calculada a partir
¿Cuál
agrupamiento en intervalos de clase?
MedianaFIN DE PARA REFLEXIONAR
Estadistica
Mediana es el lugar geométrico del arreglo de datos ordenado que lo divide en dos partes iguales.
Mediana
En En
el arreglo
ordenado
de la
“nivel
de detalles
de de
terminación
de las
el arreglo
ordenado
devariable
la variable
“nivel
de detalles
terminación
de las piezas plásticas” ubicamos la posic
piezas
plásticas”
ubicamos
la
posición
de
la
mediana,
de la mediana,
Mediana
es el lugar geométrico del arreglo de datos ordenado que lo divide en dos partes iguales.
En el arreglo ordenado de la variable “nivel de detalles de terminación de las piezas plásticas” ubicamos la posic
R R R B B B B B MB MB MB MB MB E E E E E
deR la Rmediana,
10 datos
Me
10 datos
Si
R ahora
R Rdeterminamos
R R B B laBmediana
B B sobre
MB el
MBarreglo
MB de
MB datos
MB ordenado
E E E E E
Si
ahora
determinamos
la
mediana
sobre
el
arreglo
de
datos
ordenado
la información
queempleados”
ella nos
da
la
siguiente
manera:
la mitad (inferior) de las piezas de plástico co
deylaleemos
variable
“ edad
de
la
muestra
de
la
empresa
10
datos de los
10
datos
y la
leemos
la información
ella
nos Me
de de
la siguiente
manera:
laempresa
mitad (infedemáximo
variable
“ edad
de que
los
empleados”
la muestra
de
tienen
un nivel
de detalle
dedaterminación
Bueno
y lalaotra
mitad (superior) tiene como mínimo un nivel
cooperativa,
rior) de las piezas de plástico como máximo tienen un nivel de detalle de tercooperativa,
de laterminación
Muy
ydetalle
leemos
información
queBueno.
ella
nos datiene
de lacomo
siguiente
manera:
la de
mitad
minación
Bueno
y la otra mitad
(superior)
mínimo
un nivel
deta-(inferior) de las piezas de plástico co
ahora
determinamos
ladetalle
mediana
sobre
datos
ordenado
de
la variable
“edad
de los
empleados”
d
21máximo
25Si 28
30
34
36
36
37
37
37de38terminación
39 el
39arreglo
40 Bueno
40de42
48otra
51 mitad
57 63
tienen
un
nivel
de
y
la
(superior)
tiene
como
mínimo
un nivel
lle25de 28
terminación
Muy36Bueno.
21muestra
30
34
36
37
37
37
38
39
39
40
40
42
48
51
57
63
la empresa cooperativa,
detalle
dedeterminación
MuylaBueno.
Me sobre el arreglo de datos ordenado de
Si ahora
determinamos
mediana
Me
Si
ahora
determinamos
la
mediana
el arreglo
datos ordenado
de la variable “edad de los empleados” d
la variable “edad de los empleados” desobre
la muestra
de lade
empresa
cooperativa,
21
25
28
30
34
36
36
37
37
37
38
39
39
40
40
42
48
51
57
63
muestra
la empresa
leemos
lo de
siguiente:
lacooperativa,
mitad de los empleados de la muestra tienen
leemos
siguiente:
mitad
de los
empleados de la muestra tienen
Me
hasta
37lo
años
y la otrala
mitad
desde
38 años.
hasta
37
años
y
la
otra
mitad
desde
38
años.
21 25 28 30 34 36 36 37 37 37 38 39 39 40 40 42 48 51 57 63
leemos lo siguiente: la mitad de los empleados de la muestra tienen hasta 37 años y la otra mitad desde 38 años.
COMIENZO DE ACTIVIDADMe
COMIENZO DE ACTIVIDAD
6.
COMIENZO
DE ACTIVIDAD
6.
leemos
lo
siguiente: la mitad
de los
empleados
la
muestra
tienen
hasta
años y la otra mitad desde 38 años.
la mediana
dede
todas
las variables
de la37
leemosDeterminar
lo6.siguiente:elainterpretar
mitad de los
empleados
de
la muestra
tienen hasta
37
Determinar
e
interpretar
la
mediana
de
todas
las
variables
de
la
2 que
lo permitan.
años y ME
la Determinar
otra
mitad
desde
38 años.
e interpretar
la mediana de todas las variables de la ME 2 que lo permitan.
COMIENZO
DE ACTIVIDAD
ME
2
que
lo permitan.
FIN
DE
ACTIVIDAD
FIN
DE
ACTIVIDAD
FIN
6. DE ACTIVIDAD
Determinar
e interpretar
la mediana
todas las variables
de la ME 2 que lo permitan.
EnEnelel caso
caso
la variable
de lasde
personas
desaparecidas,
6.dede
la
variable
edad deedad
las personas
desaparecidas,
recordemos que no se cuenta con los datos originales.
FIN
DE
ACTIVIDAD
En
el
caso
de
la
variable
edad
de
las
personas
desaparecidas,
recordemosDeterminar
que no se cuenta
con los
datos originales.
Sinvariables
embargo,
si ME
es 2
e interpretar
la mediana
de todas las
de la
embargo, sique
es necesario
contar
con
tentativo
que
la aproxime
recordemos
no
se cuenta
con
losalgún
datosvalor
originales.
Sin
embargo,
esy que permita extraer información de for
necesario
contar
con
algún
valor
tentativo
que la
aproxime
y sique
queyalorealizado,
permitan.
similar
a
lo
debe
elegirse
algún
criterio
para
determinarla.
En el caso
de lainformación
variable
edadde
de forma
las personas
desaparecidas,
recordemos
que no se cuenta con los datos originales.
necesario
contar
con algún
valor
tentativo
que
aproxime
y debe
que
permita
extraer
similar
acon
lolaya
realizado,
Para
obtener
la
mediana
si
se
cuenta
solamente
un
agrupamiento
de
en intervalos,
debe localiza
embargo,
si escriterio
necesario
contar
algún
valor tentativo
la aproxime
que permita
extraerprimero
información
de for
permita
extraer
información
decon
forma
similar
a lo ya que
realizado,
debeydatos
elegirse
algún
para
determinarla.
el
intervalo
mediano
–el
intervalo
donde
caería
la
mediana—
y
luego
para
ese
intervalo
se
aplica
como
criterio algu
elegirse
algún
criterio
para
determinarla.
similar
a
lo
ya
realizado,
debe
elegirse
algún
criterio
para
determinarla.
En
el caso de lalavariable
edad se
de cuenta
las personas
desaparecidas,
recordemos que
Para
mediana
solamente
con un agrupamiento
de
las obtener
fórmulas
que
siguen.si
Para
obtener
la
mediana
se
cuenta
solamente
con
un
agrupamiento
de datos en intervalos, primero debe localiza
Para
obtener
la
mediana
si
se
cuenta
solamente
con
un
agrupamiento
se cuenta
con losprimero
datos originales.
Sin embargo,
si es necesario
contar
deno
datos
en intervalos,
debe localizarse
el intervalo
mediano –el
el
intervalo
mediano
–el
intervalo
donde
caería
la
mediana—
y
luego
para
ese intervalo se aplica como criterio algu
de
datos
en
intervalos,
primero
debe
localizarse
el
intervalo
mediano
–el
con algún
valor
tentativo
que la aproxime
y quepara
permita
extraer información
COMIENZO
DE
PASTILLA
EN
intervalo
donde
caería
lafórmulas
mediana—
y luego
ese intervalo
se aplica de
intervalo
donde
lalas
mediana—
ysencillamente
luego
paramediante
ese
intervalo
se aplica
de
las
fórmulas
queyade
siguen.
Estas
fórmulas
pueden
obtenerse
rápida
interpolación
lineal.
forma
similar
acaería
lo
realizado,
debeyque
elegirse
algún
criterio
para determinarla.
como
criterio
alguna
fórmulas
siguen.
FIN DE
PASTILLA
como
criterio
alguna
de
las
fórmulas
que
siguen.
Para obtener la mediana si se cuenta solamente con un agrupamiento de
COMIENZO DE PASTILLA ENfórmulas
COMIENZO DE PASTILLA EN fórmulas
datosfórmulas
enDE
intervalos,
primero
debe
el intervalo
mediano –el
interEstas
pueden obtenerse
rápida localizarse
y sencillamente
mediante interpolación
lineal.
COMIENZO
PASTILLA
EN fórmulas
Estas
fórmulas
pueden
obtenerse
rápida y sencillamente mediante interpolación lineal.
FIN
DE
PASTILLA
valo
donde
caería
la
mediana—
y
luego
para
ese
intervalo
se
aplica
como
Estas
pueden obtenerse rápida y sencillamente mediante interpolación lineal. criFIN
DEfórmulas
PASTILLA
FINterio
DE PASTILLA
alguna de las fórmulas que siguen.
Estas fórmulas pueden
obtenerse rápida y sencillamente mediante interpolación
mediano,
el subíndice i de las
lineal.
Donde: a es la amplitud de los intervalos, li es el límite inferior del intervalo
frecuenc
n
F(i1)
simples se refierenalintervalo
mediano0,5
y el (i-1)
hace referencia al intervalo anterior.
50 acumuladas
F%(i1)
Fr(i1) de las frecuencias
2 F(i1)
M eEl=intervalo
l i + a mediano
=las edades
l i + a 0,5
=
l
+
a
50
F%
Fr
i
de
de
los
desaparecidos
es
[25;
30]
y
reemplazando
(i1)
Donde:
de los
li ies(i1)
el límite
intervalo
mediano, elvalores:
subíndice i de las frecuenc
fr
M e = a es
l i +laaamplitud
2 fi
= intervalos,
li + a = inferior
l i + a delf%
i
f
fr
f%
i
i
i
simples se refiere al intervalo
mediano y el (i-1)
de las frecuencias acumuladas
hace referencia al intervalo anterior.
El
intervalo
mediano
de
las
edades
de
los
desaparecidos
es
[25;
30]
y
reemplazando
valores:
Donde: a es la amplitud
los intervalos, l i es el límite inferior del
Donde:
a
es
la
amplitud
de
los
intervalos,
l
es
el
límite
inferior
del
i
intervalo
el subíndice
de las frecuencias
simples
se refiere
al
Donde: mediano,
a es la amplitud
de los i intervalos,
li es el límite
inferior
del intervalo
intervalo
mediano,
el
subíndice
i
de
las
frecuencias
simples
se
refiere
alde la desaparición forzada de la mitad de
El
valor
obtenido
significa
que
la
edad
máxima
aproximada
al
momento
intervalo
mediano
y
el
(i-1)
de
las
frecuencias
acumuladas
hace
mediano, el subíndice i de las frecuencias simples se refiere al intervalo mediaintervalo
mediano
y anterior.
elera(i-1)
de las
acumuladas hace
personas
desaparecidas
de acumuladas
25,99
años.frecuencias
referencia
al
intervalo
no y el (i-1)
de las frecuencias
hace referencia al intervalo anterior.
referencia
al
intervalo
anterior.
ElElvalor
obtenido
significa
edad máxima
aproximada ales
momento
de yla desaparición forzada de la mitad de
mediano
de
las
edades
de
Elintervalo
intervalo
mediano
deque
lasla
edades
delos
losdesaparecidos
desaparecidos
es[25;
[25;30]
30]
El
intervalo
mediano
de
las
edades
de
los
desaparecidos
es
[25;
30]
y reemplazando
valores: era de 25,99 años.
personas
desaparecidas
reemplazando
valores:
y reemplazando valores:
EstadisticasU1.indd 22
8/2
EstadisticasU1.indd 22
8/2
El valor obtenido significa que la edad máxima aproximada al momento
El la
valor
obtenido significa
que
edadde
máxima
aproximada
al momento
de
desaparición
forzada de
lala
mitad
las personas
desaparecidas
era
de 25,99
la desaparición
forzada de la mitad de las personas desaparecidas era
de
años.
de 25,99 años.
COMIENZO DE PARA REFLEXIONAR
31
Universidad Virtual de Quilmes
El valor obtenido significa que la edad máxima aproximada al momento de
la desaparición forzada de la mitad de las personas desaparecidas era de
25,99 años.
),1'(3$5$5()/(;,21$5
&20,(1=2'(/((5$7(172
¿Es
posible determinar la mediana en cualquier tipo de variable?
(Q ODV YDULDEOHV FXDQWLWDWLYDV ODV WUHV PHGLGDV GH SRVLFLyQ
YLVWDV KDVWD DKRUD ±PRGR PHGLD DULWPpWLFD \ PHGLDQD±
WDPELpQ VH GHQRPLQDQ PHGLGDV GH WHQGHQFLD FHQWUDO SRU VX
FRPSRUWDPLHQWR
HQ UHODFLyQ
OD de
]RQD
FHQWUDO
OD
En
las variables cuantitativas,
las tresFRQ
medidas
posición
vistasGH
hasta
GLVWULEXFLyQ
6L ODaritmética
GLVWULEXFLyQ
GH ORV
GDWRV se
HVdenominan
VLPpWULFDmediHVWDV
ahora
–modo, media
y mediana–
también
WUHV
PHGLGDV
VH
SRVLFLRQDQ
JHRPpWULFDPHQWH
HQ
HO
PLVPR
das de tendencia central por su comportamiento en relación con la zona
SXQWRde la distribución. Si la distribución de los datos es simétrica estas
central
),1'(/((5$7(172
tres medidas se posicionan geométricamente en el mismo punto.
$QiOLVLVGHODDVLPHWUtDHVWDGtVWLFDGHXQDGLVWULEXFLyQ
Análisis de la asimetría estadística de una distribución
/RV JUiILFRV TXH VLJXHQ SHUPLWHQ YL]XDOL]DU ORV WLSRV GH DVLPHWUtDV
HVWDGtVWLFDV\VXVGHQRPLQDFLRQHV
Los
gráficos que siguen permiten vizualizar los tipos de asimetrías estadísticas y sus denominaciones.
,QVHUWDU,PDJHQ1ž*
Gráfico 1.20.
!SIM£TRICA A IZQUIERDA
3IM£TRICA
!SIM£TRICA A DERECHA
Observando la “forma” que adoptan los gráficos G.1.6.; G.1.8.; G.1.10. y
G.1.12.
de las distribuciones de las variables cuantitativas analizadas, se
2EVHUYDQGROD³IRUPD´TXHDGRSWDQORVJUiILFRV***
puede
notar tanto en el G.1.10. como en el G.1.12. que hay una clara asi\*GHODVGLVWULEXFLRQHVGHODVYDULDEOHVFXDQWLWDWLYDVDQDOL]DGDV
metría
–en ambos casos– hacia la derecha, porque en esa dirección es donde
VHSXHGHQRWDUWDQWRHQHO*FRPRHQHO*TXHKD\XQDFODUD
se
registran los valores más alejados de la región con mayor densidad de
DVLPHWUtD±HQDPERVFDVRV±KDFLDODGHUHFKDSRUTXHHQHVDGLUHFFLyQHV
datos.
Sin
noORV
queda
muy claro
existen asimetrías
en G.1.6
G.1.8.
GRQGH
VHembargo,
UHJLVWUDQ
YDORUHV
PiVsiDOHMDGRV
GH OD UHJLyQ
FRQy PD\RU
Las evidentes
limitaciones
del análisis
obligan
encontrar
alguna
GHQVLGDG
GH GDWRV
6LQ HPEDUJR
QRgráfico
TXHGD
PX\aFODUR
VL H[LVWHQ
forma
analítica para el estudio de la asimetría de una distribución, como la
DVLPHWUtDVHQ*\*
de comparar
las tres
medidas deGHO
tendencia
aprovechando
de ellas
/DV HYLGHQWHV
OLPLWDFLRQHV
DQiOLVLVcentral
JUiILFR
REOLJDQ D HQFRQWUDU
su
distintoIRUPD
comportamiento
dinámico
éste,
se aclarará
DOJXQD
DQDOtWLFD SDUD
HO (concepto
HVWXGLR GH
ODque
DVLPHWUtD
GH más
XQD
adelante).
GLVWULEXFLyQFRPRODGHFRPSDUDUODVWUHVPHGLGDVGHWHQGHQFLDFHQWUDO
DSURYHFKDQGR GH HOODV VX GLVWLQWR FRPSRUWDPLHQWR GLQiPLFR FRQFHSWR
pVWHTXHVHDFODUDUiPiVDGHODQWH ,QVHUWDU,PDJHQ1ž*
$VLPpWULFDDL]TXLHUGD
32
6LPpWULFD
$VLPpWULFDDGHUHFKD
Estadistica
Gráfico 1.21.
!SIM£TRICA A IZQUIERDA
-E -O
-E
-O
3IM£TRICA
-E -O
-O -E
!SIM£TRICA A DERECHA
-O-E
-O
-E
Como el análisis de asimetría se realiza en el dominio de los números
&20,(1=2'(/((5$7(172
reales HODQiOLVLVGHDVLPHWUtDVHUHDOL]DHQHOGRPLQLRGHORV
se necesita contar con un número real para cada una de las tres
&RPR
medidas
de tendencia central.
Q~PHURVUHDOHVVHQHFHVLWDFRQWDUFRQXQQ~PHURUHDOSDUDFDGD
La media –por definición– es un número real, pero no así la moda
XQDGHODVWUHVPHGLGDVGHWHQGHQFLDFHQWUDO
ni /DPHGLD±SRUGHILQLFLyQ±HVXQQ~PHURUHDOSHURQRDVtOD
la mediana para las cuales hay que emplear alguna convención que
permita
un número
real.
PRGD
QLasignarles
OD PHGLDQD
SDUD ODV
FXDOHV KD\ TXH HPSOHDU DOJXQD
FRQYHQFLyQTXHSHUPLWDDVLJQDUOHVXQQ~PHURUHDO
),1'(/((5$7(172
Estudiaremos analíticamente la asimetría de la “Edad de los empleados de la
empresa cooperativa” (gráfico G.1.6.).
(VWXGLDUHPRVDQDOtWLFDPHQWHODDVLPHWUtDGHOD³(GDGGHORVHPSOHDGRV
Al modo puede asignársele
el número real
GHODHPSUHVDFRRSHUDWLYD´
JUiILFR*
37 directamente porque, para
la$O
variable
tratamiento,
su valor
es un número.
PRGRenSXHGH
DVLJQiUVHOH
HO Q~PHUR
UHDO GLUHFWDPHQWH SRUTXH
La
marca
de
la
mediana
quedó
posicionada
entre dos datos cuyos valores
SDUDODYDULDEOHHQWUDWDPLHQWRVXYDORUHVXQQ~PHUR
son
y 38 GH
y, siODbien
cualquier
número
real entreHQWUH
esosGRV
dos GDWRV
valores
podría
/D37
PDUFD
PHGLDQD
TXHGy
SRVLFLRQDGD
FX\RV
representarla
en
el
dominio
de
los
números
reales,
convenimos
en
usar
YDORUHV VRQ \ \ VL ELHQ FXDOTXLHU Q~PHUR UHDO HQWUH HVRV GRVde
aquí en SRGUtD
más el promedio
entre HQ
ambos
valores, en
37,5. UHDOHV
YDORUHV
UHSUHVHQWDUOD
HO GRPLQLR
GHeste
ORVcaso
Q~PHURV
Como
la
media
aritmética
es
un
número
real
–tal
cual
se
la
determinó– no
FRQYHQLPRVHQXVDUGHDTXtHQPiVHOSURPHGLRHQWUHDPERVYDORUHVHQ
necesitamos aplicarle ninguna convención para volcarla en el dominio de los
HVWHFDVR
números
&RPR reales.
OD PHGLD DULWPpWLFD HV XQ Q~PHUR UHDO ±WDO FXDO VH OD
Entonces
tenemos:
GHWHUPLQy±QRQHFHVLWDPRVDSOLFDUOHQLQJXQDFRQYHQFLyQSDUDYROFDUOD
M
=
37
años
Me = 37,5 años
x = 38,9 años
o
HQHOGRPLQLRGHORVQ~PHURVUHDOHV
(QWRQFHVWHQHPRV
Resultando:
Mo ≤ Me ≤ X
0R DxRV0H
DxRV
DxRV
Como el valor del promedio es el más alto, concluimos que hay una asimetría
5HVXOWDQGR
hacia
la derecha.
Las tres medidas de tendencia central tienen –en el dominio de los
&RPR HO YDORU
GHOreales–
SURPHGLR
HV HO PiV DOWR
FRQFOXLPRV
TXH KD\ XQD
números
comportamientos
dinámicos
diferenciados.
DVLPHWUtDKDFLDODGHUHFKD
El promedio es, de las tres, la medida más sensible ante la presencia de valores muy alejados de la zona de mayor densidad, los cuales
&20,(1=2'(/((5$7(172
la atraen rápidamente hacia ellos. Por esta particularidad la media es
/DVWUHVPHGLGDVGHWHQGHQFLDFHQWUDOWLHQHQ±HQHOGRPLQLRGH
determinante en el análisis de la asimetría de una distribución; si hay
ORVQ~PHURVUHDOHV±FRPSRUWDPLHQWRVGLQiPLFRVGLIHUHQFLDGRV
asimetría hacia un lado (derecho o izquierdo), la media –consecuente(OSURPHGLRHVGHODVWUHVODPHGLGDPiVVHQVLEOHDQWHOD
mente–
se desplaza en esa dirección.
SUHVHQFLD
GH YDORUHV
PX\
DOHMDGRV
GH OD natural
]RQD GH
PD\RUde
La mediana,
a la sazón
sacada
de su dominio
–el arreglo
GHQVLGDGORVFXDOHVODDWUDHQUiSLGDPHQWHKDFLDHOORV3RUHVWD
SDUWLFXODULGDG OD PHGLD HV GHWHUPLQDQWH HQ HO DQiOLVLV GH OD
DVLPHWUtD GH XQD GLVWULEXFLyQ VL KD\ DVLPHWUtD KDFLD XQ ODGR
33
desplaza en esa dirección.
La mediana, a la sazón sacada de su dominio natural –el
arreglo de datos ordenados– y transferida –convención
mediante– al de los números reales, obviamente no tiene la
misma sensibilidad que la media. Una situación parecida se da
ordenados–
y transferida
–convención
mediante–
al de los númecondatos
la moda,
quien es
aún más insensible
que
la mediana.
ros
reales,
obviamente
no
tiene
la
misma
sensibilidad
que
la media. Una
En análisis de asimetría que presenten situaciones ambiguas
situacióndonde
parecida
da con la relativa
moda, quien
es aún
más insensible
o confusas
la se
ubicación
de estas
medidas
no se que
la
mediana.
encuadre en algunos de los tres casos prescritos anteriormente,
En análisis
de asimetría
presenten
situaciones
ambiguas
o conconviene
descartar
la moda que
y sólo
comparar
la mediana
y la
fusas
donde
la
ubicación
relativa
de
estas
medidas
no
se
encuadre
en
media aritmética.
de los
tres casos prescritos anteriormente, conviene descartar la
FINalgunos
DE LEER
ATENTO
moda y sólo comparar la mediana y la media aritmética.
Universidad Virtual de Quilmes
COMIENZO DE ACTIVIDAD
7. 7.
a. Verificar
analíticamentelala asimetría
asimetría de
distribuciones
corresa. Verificar
analíticamente
delaslas
distribuciones
pondientes
a
los
gráficos
G.1.8.;
G.1.10.
y
G.1.12.
correspondientes a los gráficos G.1.8.; G.1.10. y G.1.12.
b. Analizarqué
qué tipo
presentan
las variables
cuantitativas
b. Analizar
tipo dedeasimetría
asimetría
presentan
las variables
de
la
ME
2.
cuantitativas de la ME 2.
FIN DE ACTIVIDAD
Cuartiles
Cuartiles
cuartiles
lugares
geométricos
arreglode
dedatos
datosordenado
ordenado que
LosLos
cuartiles
sonson
trestres
lugares
geométricos
deldelarreglo
quelo
lodividen
dividenenencuatro
cuatropartes
partesiguales
iguales
Extendiendo el concepto aplicado para el posicionamiento de la mediana,
Extendiendo el concepto aplicado para el posicionamiento de la
en el arreglo ordenado de la variable “nivel de detalles de terminación de las
mediana,
en el arreglo ordenado de la variable “ nivel de detalles de
piezas plásticas” ubicamos los tres cuartiles,
terminación de las piezas plásticas” ubicamos los tres cuartiles,
R
R
R
R
5 datos
1/4
R
B
Q1
B
B
B
B
MB
5 datos Q2 = M e
1/4
MB
MB
5 datos
1/4
MB
MB
Q3
E
E
E
E
E
5 datos
1/4
y leemos la información que nos brindan de la siguiente manera: el
y leemos
información
que nosnivel
brindan
la siguiente
manera: elcomo
cuarto de
cuarto
de laslapiezas
con menor
de de
detalle
de terminación
las
piezas
con
menor
nivel
de
detalle
de
terminación
como
máximo
presenta
máximo presenta un nivel Regular, la mitad de las piezas de plástico
a
un nivel
Regular,
mitad
las piezas
de plástico a Bueno
lo sumoyposee
un nivel
lo sumo
posee
un la
nivel
dededetalle
de terminación
las tres
de detalle
Bueno
y lastienen
tres cuartas
partes
piezas de
cuartas
partesde
determinación
las piezas de
plástico
hasta un
niveldedelasdetalle
plástico tienen
hasta
un nivel de detalle de terminación Muy Bueno.
de terminación
Muy
Bueno.
La
mitad
central
de
los
de de
detalle
de terminación
de lasdepiezas
La mitad central de losniveles
niveles
detalle
de terminación
las se
encuentra
entre Bueno
Muy Bueno.
EstaBueno.
información
extrae combinando
piezas
se encuentra
entrey Bueno
y Muy
Estase
información
se
Q
y
Q
.
extrae1 combinando
Q1 y Q3.
3
COMIENZO DE ACTIVIDAD
8. 8.
Determinar
e interpretar
cuartilesde
de la
la variable
de de
trabajo
Determinar
e interpretar
losloscuartiles
variable“Puestos
“ Puestos
2001-2003”,
de ,ladematriz
EM EM
3. 3.
trabajo
2001-2003”
la matriz
28
Para la variable “edad de los empleados” de la muestra de la empresa cooperativa la posición de los cuartiles es:
34
FIN DE ACTIVIDAD
FIN DE ACTIVIDAD
Para la variable “ edad de los empleados” de la muestra de la empresa
cooperativa
la posición
delos
los empleados”
cuartiles es: de la muestra de la empresa
Para
la variable
“ edad de
21 25 28 30 34 36 36 37 37
37
38
cooperativa la posición de los cuartiles es:
21 25 28 30 34 Q36
36 37 37
1
Q1
Estadistica
39 39 40 40 42 48 51 57 63
372 = Me
38 39 39 40 40 Q42
48 51 57 63
Q
3
Q2 = Me
Q3
Interpretando la información se tiene que el primer cuarto de los
Interpretando
la información
que
primer cuartas
cuarto de
los empleados
empleados tiene
a lo sumose34tiene
y el
las
restantes
Interpretando
la
información
seaños
tiene
quetres
elrestantes
primer partes
cuartomínimo
de los
tiene
a
lo
sumo
34
años
y
las
tres
cuartas
partes
como
36
como
mínimo
36
años.
La
mitad
de
los
empleados
de
la
muestra
detenta
empleados
tiene
a
lo
sumo
34
años
y
las
tres
cuartas
partes
restantes
años.
La
los
empleados
de la
detenta
hasta
37 años
y la
hasta mínimo
37 mitad
años 36
ydelaaños.
otra
mitad
desde
38muestra
años y que
lasla
tres
cuartas
partes
como
La
mitad
de los
empleados
de
muestra
detenta
otra
mitad
desde
38
años
y
que
las
tres
cuartas
partes
de
los
empleados
de los37empleados
jóvenes
como
máximo
tienen
40
años
y el partes
cuarto
hasta
añoscomo
y la más
otra
mitad
desde
38
años
y que
lasde
tres
cuartas
más
jóvenes
máximo
tienen
40
años
y
el
cuarto
mayor
edad
como
delos
mayor
edad como
mínimo
cuenta
con 42 años
de edad.
de
empleados
más
jóvenes
como máximo
tienen
40 años y el cuarto
mínimo
cuenta
con
42
años
de
edad.
En el edad
caso como
3, “ Edad
promedio
de los
desaparecidos
en Argentina
de mayor
mínimo
cuenta
con
42 años
de edad.
En
el
caso
3,
“Edad
promedio
de
los
desaparecidos
en
Argentina
durante
durante
última
, se procede
dedesaparecidos
la misma manera
para
el
En el la
caso
3, dictadura”
“ Edad
promedio
de
los
enelque
Argentina
la
última
dictadura”,
se
procede
de
la
misma
manera
que
para
cálculo
de
cálculo
de
la
mediana,
con
las
siguientes
fórmulas
de
interpolación:
durante la última dictadura” , se procede de la misma manera que para el
la mediana, con las siguientes fórmulas de interpolación:
cálculo de la mediana, con las siguientes fórmulas de interpolación:
Q2 = Me
Q2 = Me
Donde: a es la amplitud de los intervalos, l i es el límite inferior del
Donde: a es la amplitud de los intervalos, li es el límite inferior del intervalo
intervalo
donde
se encuentra
el cuartil,l es
el elsubíndice
i de del
las
Donde:
a es
la amplitud
deellos
intervalos,
límite inferior
donde
se encuentra
el cuartil,
subíndice
i de ilas frecuencias
simples
se
frecuencias
simples
se
refiere
al
intervalo
del
cuartil
y
el
(i-1)
de
las
intervalo
dondedelsecuartil
encuentra
el subíndice
i de hace
las
refiere
al intervalo
y el (i-1)eldecuartil,
las frecuencias
acumuladas
frecuenciassimples
acumuladas
hace referencia
al del
intervalo
frecuencias
se refiere
al intervalo
cuartilanterior.
y el (i-1) de las
referencia
al intervalo anterior.
frecuencias acumuladas hace referencia al intervalo anterior.
COMIENZO DE ACTIVIDAD
9.
COMIENZO
DE ACTIVIDAD
9.
Calcular
e
interpretar los cuartiles de la “ Edad de los
9.
Calcular
e interpretar
los cuartiles
de la “Edad
de los desaparecidos
en
desaparecidos
en Argentina
la última de
dictadura”
.
Calcular
e interpretar
losporcuartiles
la “ Edad
de los
Argentina por
la última dictadura”.
FIN DE ACTIVIDAD
desaparecidos
en Argentina por la última dictadura” .
Fractiles y percentiles
Fractiles y percentiles
Fractiles y percentiles
Continuando con la idea de subdividir a la masa de datos en distintas
Continuando con la idea de subdividir a la masa de datos en distintas partes
partes o fracciones
iguales
tienen losafractiles,
que
puedenenexpresarse
Continuando
con lase
idea
deselos
subdividir
la masa
deexpresarse
datos
distintas
o fracciones iguales
tienen
fractiles, que
pueden
como percomo
percentiles
–usando
un
lenguaje
de
porcentajes–
en
los
casos
que
partes
o –usando
fracciones
sede
tienen
los fractiles,
que
pueden
centiles
uniguales
lenguaje
porcentajes–
en los
casos
que expresarse
sea necesasea
necesario
hacer
más
comprensible
la
información
que
suministran.
como
percentiles
–usando un
lenguaje deque
porcentajes–
en los casos que
rio hacer
más comprensible
la información
suministran.
Fractiles
son
las
m-1
marcas
del
arreglo
de
datos
ordenado
que lo
seaFractiles
necesario
hacer
másmarcas
comprensible
la información
que
suministran.
son
las m-1
del arreglo
de datos ordenado
que lo dividen
dividen
en
m
partes
iguales.
Fractiles son las m-1 marcas del arreglo de datos ordenado que lo
FIN DE ACTIVIDAD
en m partes iguales.
dividen
en mdetermina
partes iguales.
Un fractil
el máximo de una cierta fracción del conjunto de los
29
datos y consecuentemente, el mínimo de la fracción restante.
Percentiles son los fractiles mismos, pero expresados en un lenguaje más
amigable como es el de los porcentajes.
29
35
Universidad Virtual de Quilmes
Un fractil determina el máximo de una cierta fracción del conjunto
de los datos y consecuentemente, el mínimo de la fracción restante.
Percentiles son los fractiles mismos, pero expresados en un lenguaje
más amigable como es el de los porcentajes.
Retomando la variable edad de los trabajadores de la empresa
Retomando la variable edad de los trabajadores de la empresa cooperativa:
cooperativa,
21 25 28 30 34 36 36 37 37
37
38
39 39 40 40 42 48 51 57 63
Explorando los datos observamos que el salto más grande de edades se da
Explorando
que
el saltopodemos
más grande
de edades
se 20
entre 42 ylos
48 datos
años, observamos
marcando esa
posición
ver que
16 de los
daempleados
entre 42 ytienen
48 años,
esadeposición
ver quecomo
16 de
una marcando
edad máxima
42 añospodemos
y los 4 restantes
mínilosmo
2048
empleados
tienen
una
edad
máxima
de
42
años
y
los
4
restantes
años.
comoEsa
mínimo
48–que
años.es el fractil 16/20 y se lee: la dieciseis veinteava parte
marca
Esa
marca
–que
el fractil
16/20
se lee:
la dieciseis
veinteava
de los trabajadoreses
tienen
a lo sumo
42yaños–
conviene
expresarla
como perparte
de
los
trabajadores
tienen
a
lo
sumo
42
años–
conviene
expresarla
centil 80 (P80) y decir que el 80% de los trabajadores tienen hasta 42 años.
como
percentil
(P80trabajadores
) y decir que
el 80%
los trabajadores
tienen
O, que
el 20% 80
de los
tiene
comode
mínimo
48 años.
hasta Para
42 años.
O,
que
el
20%
de
los
trabajadores
tiene
como
mínimo
48la
el mismo caso también podríamos habernos preguntado cuál es
años.
edad máxima del 80% de los empleados y la respuesta es 42 años.
Para el mismo caso también podríamos habernos preguntado cuál es
la edad máxima del 80% de los empleados y la respuesta es 42 años.
El uso de porcentajes, que es el lenguaje de los percentiles, puede introducir algunas
al momento de producir información,
COMIENZO
DEinconsistencias
LEER ATENTO
todoporcentajes,
cuando el conjunto
es pequeño.
El sobre
uso de
que esdeel datos
lenguaje
de los percentiles,
puede introducir algunas inconsistencias al momento de
producir información, sobre todo cuando el conjunto de datos
es 10.
pequeño.
Determinar
interpretar algunos percentiles de la variable “Puestos de
FIN DE LEEReATENTO
trabajo 2001-2003”, de la matriz EM 3.
COMIENZO DE ACTIVIDAD
10.
Si no se
contara conelosinterpretar
datos originales,
como
es el caso de
“edad
Determinar
algunos
percentiles
de lalavariable
variable
de las “personas
al
momento
de
la
desaparición
forzada”
y
se
quisiera
calcuPuestos de trabajo 2001-2003” , de la matriz EM 3.
lar algún
percentil,
en forma análoga a lo hecho con la mediana, se puede utiFIN
DE ACTIVIDAD
lizar la siguiente fórmula de interpolación:
Si no se contara con los datos originales, como es el caso de la variable
“ edad de las personas al momento de la desaparición forzada” y se
quisiera calcular algún percentil, en forma análoga a lo hecho con la
mediana, se puede utilizar la siguiente fórmula de interpolación:
Donde: k es el % de datos que el percentil deja hacia atrás (valores menores
a él), a es la amplitud de los intervalos, li es el límite inferior del intervalo
donde se encuentra el percentil, el subíndice i de las frecuencias simples se
Donde: kdel
espercentil
el % deydatos
el percentil
deja
hacia atrás
refiere al intervalo
el (i-1)que
de las
frecuencias
acumuladas
hace
(valores
menores
a
él),
a
es
la
amplitud
de
los
intervalos,
li
referencia al intervalo anterior.
es el límite inferior del intervalo donde se encuentra el
percentil, el subíndice i de las frecuencias simples se refiere
al intervalo del percentil y el (i-1) de las frecuencias
11.
acumuladas
hacemáxima
referencia
al intervalo
anterior. en Argentina.
a.
Calcular la edad
del 90%
de los desaparecidos
30
36
b. ¿Qué porcentaje de personas tenía hasta 32 años al momento de desaparecer?
Estadistica
El gráfico de caja y bigotes (box-and-whisker plots)
Este gráfico suele llamarse usualmente box-plot, y es aplicable con exclusividad a los casos de variables cuantitativas en los que se cuenta con los datos.
El box-plot es un gráfico delineado en el dominio de los números reales y
que se basa en una caja –construida con Q1 y Q3 como límites– que contiene nominalmente al 50% central de los datos. El 50% nominal restante se
encuentra distribuido en partes iguales a ambos lados de la caja y los valores comprendidos en él se representan con distintas simbologías.
El siguiente gráfico, que corresponde a la edad de los empleados de la cooperativa, presenta todos los elementos (algunos auxiliares y otros definitivos)
con los que se construye un box-plot.
El box-and-whisker plot
fue diseñado por John W.
Tukey y presentado en su libro
Exploratory data analysis de 1977,
aunque ya lo había usado en papers
anteriores a esa fecha.
Cuando ambos cuartiles
quedan ubicados sobre
datos, no entre dos datos, los porcentajes no llegan al 50%.
Gráfico 1.22.
Las líneas continuas (horizontales) que se extienden a partir de Q1 y Q3 (convertidos a números reales mediante el mismo procedimiento que se usó para
la mediana) son los bigotes y su finalidad es describir al conjunto de valores
llamados adyacentes, sin identificarlos individualmente. Por afuera de ellos
se ubican los valores externos (que aquí los representamos con un círculo) y
los lejanos (cuyo símbolo es un asterisco) ambos denominados también valores raros (“outliers”) o atípicos para el grupo.
Las líneas auxiliares identificadas al pie como Vi y Ve se llaman vallas –interiores y exteriores–, se encuentran respectivamente a una distancia de la caja
de una vez y media la medida de su base y de tres veces dicha medida, y se
usan como referencia para delimitar las zonas donde se encuentran los valores atípicos.
A continuación, se presentan los cálculos ligados a la construcción del box-plot
de “edad” de los trabajadores de una cooperativa que integran una muestra.
Q3 – Q1 = 41 – 35 = 6
Q1 – 1,5(Q3 – Q1) = 35 – 9 = 26 y
Q1 – 3(Q3 – Q1) = 35 – 18 = 17 y
Q3 + 1,5(Q3 – Q1) = 41 + 9 = 50
Q3 + 3(Q3 – Q1) = 41 + 18 = 59
Existen otros criterios –para establecer las distancias de las vallas
a la caja– distintos al de Tukey, pero
éste es el más usado.
Base:
Q3 – Q1
Vallas interiores:
Q1 – 1,5 . (Q3 – Q1) y
Q3 + 1,5. (Q3 – Q1)
Vallas exteriores:
Q1 – 3 . (Q3 – Q1) y
Q3 + 3. (Q3 – Q1)
El box-plot definitivo, libre de líneas auxiliares, queda como sigue
Gráfico 1.23.
37
Universidad Virtual de Quilmes
En el gráfico G.1.23. puede observarse que en la cooperativa las edades de
21, 25, 51, 57 y, sobre todo, 63 años son atípicas o raras para el grupo. Si
una distribución de datos no tuviera valores atípicos entonces todos los que
están fuera de la caja serían adyacentes por lo que los bigotes llegarían hasta
el máximo y el mínimo y se vería de la siguiente forma.
Gráfico 1.24.
El box-plot precedente es el caso de la muestra de empleados de la fábrica
automotriz, en la cual no se detectan edades atípicas.
12.
Confeccionar y analizar los box-plot de las variables cuantitativas de la
EM 2.
En el siguiente gráfico se presentan conjuntamente los dos box-plots realizados anteriormente para ejemplificar la comparación de dos distribuciones de
datos bajo una misma variable.
Gráfico 1.25.
Las siguientes son algunas lecturas que surgen de la comparación.
En ambas distribuciones la mitad de los empleados tienen como mínimo
prácticamente la misma edad.
El 50% central de las edades de los empleados de la cooperativa es más
concentrado que el 50% central de las edades de la fábrica automotriz.
Si bien una edad de 63 años es rara en la muestra de la cooperativa, no
ocurre lo mismo en la muestra de la fábrica automotriz.
13.
Confeccionar en un mismo gráfico, analizar y comparar los box-plots de
las variables “participación quincenal actual” y “participación quincenal anterior” de la ME 1.
38
Estadistica
El box-plot, en complemento con los demás gráficos vistos, conforma
una herramienta visual que se puede utilizar para ilustrar la distribución, estudiar asimetrías y sus colas, bosquejar supuestos sobre la distribución y comparar distintas distribuciones.
1.2.2. Medidas de dispersión
Para describir completamente una distribución de datos no basta con los indicadores elaborados hasta el momento a través de las medidas de posición,
sino que además es necesario tener una idea del grado de variabilidad de los
valores que esos datos toman.
Ese grado de variabilidad hablará de la “variedad”, de la “diversidad” de
valores en el conjunto de datos y para cuantificarlo surgen las medidas de
dispersión que se definen –al igual que la media– en el dominio de los números reales, por lo que se aplican sólo a las variables cuantitativas.
Las medidas de dispersión que se tratarán en este curso son el rango o
amplitud total, el rango intercuartílico, la varianza, el desvío estándar y, como
un caso de medida de dispersión relativa, el coeficiente de variación.
Rango o amplitud total
El rango indica la longitud o extensión total de una distribución de datos y se
calcula de la siguiente manera:
Rg = AT = xmáx – xmín
Constituye una forma simple de determinar la dispersión de los datos de una
distribución. Es una medida limitada porque explica la variabilidad a partir de
sólo dos valores, sin tener en cuenta todos los valores intermedios entre los
extremos.
En la variable edad de los trabajadores de la muestra de la empresa cooperativa, el rango es:
Rg = 63 – 21 = 42 años
Quiere decir que en una franja o amplitud de 42 años se encuentra toda la
“diversidad” –en cuanto a la edad de los trabajadores– de la muestra de la cooperativa.
Rango intercuartílico
Esta medida expresa algo parecido a lo que representa el rango de toda la
distribución –con sus mismas limitaciones– pero se refiere únicamente a los
datos centrales que, como ya se vio, quedan encerrados entre el primero y el
tercer cuartil.
d = Q3 – Q1
39
YDULDQ]D
HV XQD
PHGLGD
TXHTXH
IXHIXH
SURSXHVWD
SRUSRU
*DXVV
\ WLHQH
HQ HQ
/D /D
YDULDQ]D
HV XQD
PHGLGD
SURSXHVWD
*DXVV
\ WLHQH
WRGRV
ORV
YDORUHV
GH
ORV
GDWRV
GH
OD
GLVWULEXFLyQ
3DUD
VX VX
FXHQWD
FXHQWD WRGRV ORV YDORUHV GH ORV GDWRV GH OD GLVWULEXFLyQ 3DUD
Universidad Virtual de Quilmes
FRQVWUXFFLyQVHXWLOL]DODPHGLDDULWPpWLFDFRPRUHIHUHQFLDSDUDFDOFXODU
FRQVWUXFFLyQVHXWLOL]DODPHGLDDULWPpWLFDFRPRUHIHUHQFLDSDUDFDOFXODU
;L±
ODVGHVYLDFLRQHV
;L±GHOYDORUGHFDGDXQRGHORVGDWRVUHVSHFWRD
ODVGHVYLDFLRQHV
GHOYDORUGHFDGDXQRGHORVGDWRVUHVSHFWRD
Varianza
y
desvío
estándar
HOODHOOD
*DXVV
&20,(1=2'(3$67,//$(1
Karl Friedrich Gauss en
*DXVV
&20,(1=2'(3$67,//$(1
La varianza es una medida
que fue propuesta por Gauss y tiene en cuenta
.DUO)ULHGULFK*DXVVHQ7KHRUtDPRWXVFRUSRUXPF
OHVWLXP+DPJXUJR
Theoría motus corporum
.DUO)ULHGULFK*DXVVHQ7KHRUtDPRWXVFRUSRUXPF
OHVWLXP+DPJXUJR
todos los valores de los datos de la distribución.
Para su construcción
se uticælestium, Hamgurgo (1809). ),1'(3$67,//$
),1'(3$67,//$
liza la media aritmética como referencia para calcular las desviaciones (Xi – )
delJUiILFR
valor de*
cada uno
los datosDOJXQDV
respectoPDJQLWXGHV
a ella.
(Q (Q
HO
VHde
REVHUYDQ
\ VHQWLGRV
GH GH
HO JUiILFR
*
VH REVHUYDQ
DOJXQDV PDJQLWXGHV
\ VHQWLGRV
En
el
gráfico
G.1.26.
se
observan
algunas
magnitudes y sentidos de estos
HVWRVGHVYtRVUHVSHFWRGHODPHGLD
HVWRVGHVYtRVUHVSHFWRGHODPHGLD
desvíos respecto de la media:
,QVHUWDU,PDJHQ1ž*
,QVHUWDU,PDJHQ1ž*
Gráfico 1.26.
El objetivo es elaborar una medida que sintetice al conjunto de todos los des(OREMHWLYRHVHODERUDUXQDPHGLGDTXHVLQWHWLFHDOFRQMXQWRGHWRGRVORV
(OREMHWLYRHVHODERUDUXQDPHGLGDTXHVLQWHWLFHDOFRQMXQWRGHWRGRVORV
víos\y SDUD
para FDOFXODUOD
calcularla SRGUtDPRV
podríamos promediarlos
contando
así
unXQ
desvío
GHVYtRV
SURPHGLDUORV
FRQWDQGR
DVtcon
FRQ
GHVYtRV
\ SDUD FDOFXODUOD
SRGUtDPRV
SURPHGLDUORV
FRQWDQGR
DVt FRQ
XQ
promedio.
GHVYtRSURPHGLR
GHVYtRSURPHGLR
Pero al momento de realizar ese promedio nos encontraríamos con la dificul3HURDOPRPHQWRGHUHDOL]DUHVHSURPHGLRQRVHQFRQWUDUtDPRVFRQOD
3HURDOPRPHQWRGHUHDOL]DUHVHSURPHGLRQRVHQFRQWUDUtDPRVFRQOD
tad
deGH
que
la suma
de las
siempre
da cero,
obvia
conseGLILFXOWDG
TXH
OD VXPD
GH desviaciones
ODV
GHVYLDFLRQHV
VLHPSUH
GDcomo
FHUR
FRPR
GLILFXOWDG
GH TXH
OD VXPD
GH ODV
GHVYLDFLRQHV
VLHPSUH
GD FHUR
FRPR
cuencia de que la media es el centro de equilibrio de todos los desvíos, es decir:
REYLDFRQVHFXHQFLDGHTXHODPHGLDHVHOFHQWURGHHTXLOLEULRGHWRGRV
REYLDFRQVHFXHQFLDGHTXHODPHGLDHVHOFHQWURGHHTXLOLEULRGHWRGRV
ORVGHVYtRVHVGHFLUTXH
ORVGHVYtRVHVGHFLUTXH
X I XX X I
3DUDVDOYDUHVWHHVFROORHOFULWHULRTXHXWLOL]y*DXVV\TXHORKDFHPRV
3DUDVDOYDUHVWHHVFROORHOFULWHULRTXHXWLOL]y*DXVV\TXHORKDFHPRV
Para salvar este escollo el criterio que utilizó Gauss, y que lo hacemos nuesQXHVWURHVSURPHGLDUORVFXDGUDGRVGHODVGHVYLDFLRQHV/DPHGLGDDVt
QXHVWURHVSURPHGLDUORVFXDGUDGRVGHODVGHVYLDFLRQHV/DPHGLGDDVt
tro, es promediar los cuadrados de las desviaciones. La medida así determiGHWHUPLQDGDVHGHQRPLQDYDULDQ]D
GHWHUPLQDGDVHGHQRPLQDYDULDQ]D
nada se denomina varianza.
La media poblacional es una sola,
como también lo es la varianza
poblacional. En cambio hay tantas
medias muestrales como muestras
distintas se puedan extraer de la
población; y también hay tantas
varianzas muestrales como medias
muestrales puedan obtenerse. Por
lo que una varianza muestral está
atada a una determinada media,
tiene un (1) condicionamiento que
no tenía la poblacional. Ese condicionamiento le resta (1)
un grado de libertad.
40
)RUPDOPHQWHODYDULDQ]DVHH[SUHVDFRPR
)RUPDOPHQWHODYDULDQ]DVHH[SUHVDFRPR
Formalmente la varianza se expresa como
[ L [X XIL IL si el grupo de datos es una población o
L
VLHOJUXSRGHGDWRVHVXQDSREODFLyQR
VLHOJUXSRGHGDWRVHVXQDSREODFLyQR
1 1
[ L [X XIL IL
L
3 3 si el grupo de datos es una muestra.
VLHOJUXSRGHGDWRVHVXQDPXHVWUD
VLHOJUXSRGHGDWRVHVXQDPXHVWUD
Q Q El divisor N o el n-1, según el caso, se llama grados de libertad. A este tópico nos arrimaremos con más detalle en estadística inferencial.
Para la distribución del “gasto medio mensual en alimentos” de la matriz
ME 2, la varianza muestral (recordemos que esas 32 viviendas son una muestra extraída de un universo más grande de viviendas del barrio) es:
S² = 195.607,537 $²
Recordando que la media es X= 1.227,25$, se aprecia que la magnitud
de la varianza es el cuadrado de la magnitud de la variable y esto complica las
matriz ME 2, la varianza muestral (recordemos que esas 32 viviendas
son una muestra extraída de un universo más grande de viviendas del
barrio) es:
S = 195.607,537 $
, se aprecia que la
Recordando que la media es
cosasde
al la
momento
dees
interpretar
estade
medida
de variabilidad.
Para poder
magnitud
varianza
el cuadrado
la magnitud
de la variable
y comla dispersión
la magnitud
la variable,
esto patibilizar
complica lalasmagnitud
cosas alde momento
de con
interpretar
estademedida
de simplemente
le
sacamos
la
raíz
cuadrada
a
la
varianza,
resultando
una
variabilidad. Para poder compatibilizar la magnitud de la dispersión con nueva
medida de
llamada
desvíosimplemente
estándar.
la magnitud
la variable,
le sacamos la raíz cuadrada a la
varianza, resultando una nueva medida llamada desvío estándar.
Estadistica
Formalmente, el desvío se expresa como
Formalmente, el desvío se expresa como
=
S=
(x
x )2 f i si el grupo de datos es una población o
i
N
(x
si el grupo de datos es una población o
x )2 f i si el grupo de datos es una muestra.
i
n -1
si el grupo de datos es una muestra.
Para el gasto mensual de los hogares encuestados el desvío estándar
Para el gasto mensual de los hogares encuestados el desvío estándar muesmuestral es: S = $422,28. Esta lectura absoluta, aisladamente no
tral es: S = $422,28. Esta lectura absoluta aisladamente no suministra una
suministra una información muy clara sobre los alcances de la
información muy clara sobre los alcances de la dispersión.
dispersión.
COMIENZO DE LEER ATENTO
En una distribución simétrica el desvío estándar describe un entorno
En una distribución simétrica el desvío estándar describe un
alrededor de la media que contiene aproximadamente las 2/3 partes (~
entorno alrededor de la media que contiene aproximadamente las
68%) de los datos.
2/3 partes (~ 68%) de los datos.
FIN DE LEER ATENTO
Si se tuviera que el gasto mensual está distribuído simétricamente, sólo podrí-
Si se amos
tuviera
queuna
el gasto
mensualen
está
distribuído
hacer
interpretación
el sentido
de losimétricamente,
expuesto diciendosólo
que apropodríamos
hacer
una
interpretación
en
el
sentido
de
lo
expuesto
ximadamente las dos terceras partes de las viviendas de la muestra tienen un
diciendo
que
aproximadamente
lasentre
dos terceras
partes
de las viviendas
gasto
mensual
comprendido
$804,97
y $1649,53
($1227,25 ±
de la$422,28).
muestra tienen un gasto mensual comprendido entre $804,97 y
$1649,53Para
($1227,25
± $422,28).
ampliar el
concepto anterior rescatamos los indicadores de los casos
1 y 2 de variables cuantitativas discretas donde, en ambos, la variable es
“edad”.
donde, en ambos, la variable es “edad”.
0HGLGDV
&DVR´(GDGGHORV
WUDEDMDGRUHVGHXQD
HPSUHVDFRRSHUDWLYDµ
&DVR´(GDGGHORVHPSOHDGRVGHXQDIiEULFD
DXWRPRWUL]µ
X
DxRV
DxRV
DxRV
DxRV
Mo
DxRV
DxRV PDUFDGHFODVHGHOLQWHUYDORPRGDO
5
S2
S
DxRV
DxRV2
DxRV
DxRV
DxRV2
DxRV
$VLPHWUtDDGHUHFKD
&DVLVLPpWULFD
Me
GHORVFDVRV
DSUR[LPDGDPHQWH
1RVHSXHGH
&RPSUHQGHODVHGDGHVGHDxRVDDxRV
YDORUHVTXHFDHQGHQWURGHOLQWHUYDOR“
COMIENZO DE LEER ATENTO
La utilidad de las medidas de dispersión aparece claramente cuando se comparan distintas distribuciones de da
referidas a la misma variable.
FIN DE LEER ATENTO
41
Utilizando la información del cuadro anterior para comparar las distribuciones de edades de los grupos analizad
Universidad Virtual de Quilmes
La utilidad de las medidas de dispersión aparece claramente cuando se
donde, en ambos,comparan
la variable
es “edad”.
distintas
distribuciones de datos referidas a la misma variable.
&DVR´(GDGGHORV
&DVR´(GDGGHORVHPSOHDGRVGHXQDIiEULFD
0HGLGDV
WUDEDMDGRUHVGHXQD
Utilizando la información
del cuadro anterior, para comparar
las distribuciones
DXWRPRWUL]µ
HPSUHVDFRRSHUDWLYDµ
de edades de los grupos analizados, notamos que todas las medidas de disson mayores en el caso 2 respecto delDxRV
caso 1. Esto estapersión calculadas DxRV
Me
DxRV
DxRV
ría indicando que las edades de los empleados de la muestra de la fábrica autoMo
DxRV que las edades
DxRV
PDUFDGHFODVHGHOLQWHUYDORPRGDO
motriz
están más dispersas
de los trabajadores
de la muestra
5
DxRV
DxRV
de la cooperativa.
2
2
S2 Es importante DxRV
señalar que las edades promedio deDxRV
los dos grupos son
S
DxRV
DxRV
similares,
característica
que permitió comparar sin problemas
las medidas de
$VLPHWUtDDGHUHFKD
&DVLVLPpWULFD
dispersión. Si los grupos analizados no tuvieren similar promedio entonces la
comparación de la dispersión de las distribuciones
debería intentarse por otro
&RPSUHQGHODVHGDGHVGHDxRVDDxRV
GHORVFDVRV
1RVHSXHGH
DSUR[LPDGDPHQWH
camino.
YDORUHVTXHFDHQGHQWURGHOLQWHUYDOR“
Otro problema se presenta cuando se quieren comparar las dispersiones
de variables distintas surgidas de un mismo grupo de estudio.
COMIENZO DE LEER ATENTO
La utilidad de las medidas de dispersión aparece claramente cuando se comparan distintas distri
Coeficiente
variación
referidas a la de
misma
variable.
FIN DE LEER ATENTO
Se debe a K. Pearson y soluciona el problema de comparar la dispersión de
las distribuciones de variables que tienen distinta magnitud.
Utilizando
la información del cuadro anterior para comparar las distribuciones de edades de los g
Este coeficiente puede utilizarse también para comparar variables de igual
notamos que todas las medidas de dispersión calculadas son mayores en el caso 2 respecto del ca
magnitud pero con promedios significativamente distintos.
indicando
que las edades de los empleados de la muestra de la fábrica automotriz están más dispersas
Es en realidad una dispersión relativa –no absoluta como el desvío estánlos trabajadores de la muestra de la cooperativa.
dar– y se calcula como el cociente entre el desvío estándar y la media.
Es importante señalar que las edades promedio de los dos grupos son similares, característica que p
sin problemas las medidas de dispersión. Si los grupos analizados no tuvieren similar promedio entonc
de la dispersión de las distribuciones debería intentarse por otro camino.
Otro problema se presenta cuando se quieren comparar las dispersiones de variables distintas surgi
grupo de estudio.
También se puede expresar en porcentajes
Coeficiente de variación
Se debe a K. Pearson y soluciona el problema de comparar la dispersión de las distribuciones de var
distinta magnitud.
Este coeficiente puede utilizarse también para comparar variables de igual magnitud pero
Compararemos todas las variables cuantitativas de la ME 2 calculando todos
significativamente
distintos.
los CV.
Medidas
Cantidad de
ambientes
Cantidad de personas
ocupantes
Gasto medio
mensual
Cantidad de personas
mayores con trabajo
S
DPE
SHUV
SHUV
X
DPE
SHUV
SHUV
CV
&9
De la comparación de los CV se concluye que el grupo de viviendas relevadas es más compacto,
De la comparación
CV se concluye
que el
grupo de porque
viviendas
relevadas
menos disperso,
en cuantode
a laloscantidad
de personas
ocupantes,
tiene
el menor de los coefic
es
más
compacto,
más
homogéneo,
menos
disperso,
en
cuanto
a
la
cantidad
También puede concluirse que el grupo de viviendas de la muestra es más heterogéneo, más disperso, m
de apersonas
ocupantes,
porque
tiene el
menor
de los coeficientes calculados.
en cuanto
la cantidad
de personas
mayores
con
trabajo.
42
Estadistica
También puede concluirse que el grupo de viviendas de la muestra es más
heterogéneo, más disperso, menos compacto, en cuanto a la cantidad de personas mayores con trabajo.
14.
Calcular las medidas de dispersión para todas las variables cuantitativas
de la ME 1 y hacer todas las comparaciones posibles.
1.2.3. Medidas de intensidad
Cotidianamente se utilizan indicadores socio-económicos denominados tasas
para mostrar la incidencia relativa de algún valor de la variable o sus cambios
espacio-temporales. Esos indicadores son las medidas estadísticas de intensidad y se expresan como coeficientes o como porcentajes.
Previo al tratamiento de estas medidas leemos el artículo periodístico que
sigue.
04 de Junio de 2005
NO CEDE EL DESEMPLEO DEL CONURBANO
Cordones sin reacción
La cantidad de desocupados en los 28 centros urbanos encuestados por el Indec resultó de
1.369.000 personas durante el primer trimestre, de los cuales 677 mil estaban localizados en
los partidos del Gran Buenos Aires. Los datos surgen de la Encuesta Permanente de Hogares
del Indec publicados ayer, dos semanas después de conocerse la tasa de desocupación para el
período, del 13 por ciento. Los subocupados demandantes, es decir aquellos que no llegan a
completar la jornada laboral y están buscando otro trabajo, suman otras 948 mil personas con
problemas de empleo. Las zonas urbanas del país más afectadas por el problema global de desocupación y subocupación demandante resultaron, en el primer trimestre, el conurbano bonaerense y el núcleo Gran Tucumán (ciudad capital y sus alrededores) –Tafí Viejo. El primero
sumaba 15,5 por ciento de desocupados más 10,4 por ciento de subocupados demandantes;
el segundo, 14,2, más 16,5 por ciento. La desocupación, en los partidos del Gran Buenos Aires
fue superior a la del cuarto trimestre de 2004 en siete décimas e idéntica a la registrada en el
primer trimestre de ese mismo año. Es decir que la región muestra un estancamiento en la
recuperación del empleo. En tanto, en el Gran Tucumán-Tafí Viejo el dato más preocupante
es el aumento de la subocupación demandante, del 15,5 por ciento en el primer trimestre, con
un salto de 1,4 punto en la última medición con respecto a la inmediata anterior y 2,3 puntos
cuando se la compara con la de un año antes. Los otros grandes distritos urbanos (con más de
500 mil habitantes) que registraron tasas de desocupación por encima del promedio del país
fueron el Gran Rosario, 14 por ciento, y el Gran La Plata, con el 13,5 por ciento. Entre los grandes aglomerados, la tasa más baja de desocupación corresponde al Gran Mendoza, con el 8 por
ciento, y entre las regiones a la Patagonia, con el 7,6 por ciento. Además, en esta última región,
la tasa de subocupación demandante reflejada por el Indec es prácticamente insignificante, del
3,4 por ciento, en tanto en el Noroeste se eleva al 11,2 por ciento.
© 2000-2002 Pagina12/WEB República Argentina
43
Universidad Virtual de Quilmes
Del artículo anterior rescatamos la siguiente información referida al 2005:
• la tasa de desocupación para el Gran Rosario es del 14%;
• hay 1,44 desocupados por cada subocupado demandante;
• la desocupación en los partidos del Gran Buenos Aires creció un 0,7% entre
el 4to. trimestre del 2004 y el 1er. trimestre de 2005.
Recrearemos las lecturas anteriores de la siguiente manera:
• la proporción de desocupados en el Gran Rosario es del 14%;
• la relación entre desocupación y subocupación es a razón de 1,44 desocupados por cada subocupado demandante;
• tomando como base de referencia (100%) el 4to. trimestre de 2004, el
índice de desocupación para el 1er. trimestre del 2005 es del 100,7%.
Proporción
De las variables ya tratadas podemos decir, por ejemplo, que la proporción de
pymes del rubro industrial es del 37,5%, o también que la proporción de piezas de plástico con un nivel de terminación bueno o muy bueno es del 50%.
La proporción mide el peso –incidencia– que tiene una o varias categorías/valores de la variable en el conjunto total de datos.
La proporción se calcula haciendo el cociente entre la frecuencia correspondiente a una categoría –o valor– de la variable y el total de los datos.
En símbolos:
Si bien el resultado es un coeficiente comprendido entre 0 y 1, la proporción
también se expresa en porcentajes (multiplicándola por 100).
Los cálculos implícitos en el párrafo inicial son:
El primer ejemplo tiene en cuenta sólo una categoría de la variable por eso se
lo considera una proporción simple y el segundo es una proporción compuesta
porque interviene más de una categoría.
15.
a. Determinar e interpretar la proporción de viviendas de 4 ambientes
de la ME 2.
b. ¿Qué porcentaje de empleados están al menos conformes con el fun44
Estadistica
cionamiento de la empresa cooperativa (ME 1)?
c. ¿Cuál es la proporción de desaparecidos con una edad de entre 30 y
35 años?
d. Identificar qué tipo de proporción (simple o compuesta) es cada una
de las calculadas en los ítems anteriores.
Razón
La razón, a diferencia de la proporción, es un indicador que se obtiene calculando el cociente entre las frecuencias de valores distintos de una variable.
La razón mide el peso –incidencia– que tiene una o varias categorías/valores de la variable con respecto a otra u otras categorías/valores.
La razón entre A y B se calcula haciendo el cociente entre sus respectivas frecuencias, siendo A y B valores/categorías o grupos de valores/categorías.
Como en el caso de las
proporciones, las razones pueden ser simples o compuestas.
En símbolos:
Ejemplos
Por cada 1 vivienda de dos ambientes hay 1,6 viviendas de tres ambientes (o
también, en la muestra hay un 60% más de viviendas con 3 ambientes que con
2 ambientes).
Por cada pieza que se fabrica con un nivel de terminación regular hay dos piezas con nivel bueno o muy bueno.
El primer ejemplo tiene en cuenta sólo una categoría de la variable en
ambos factores del cociente, por ello es una razón simple y el segundo es una
razón compuesta porque interviene más de una categoría en por lo menos
uno de los dos factores.
16.
a. ¿Cuál es la razón entre los empleados que están conformes y los que
están muy conformes con el funcionamiento de la empresa cooperativa? (ME 1).
b. Por cada trabajador mayor a 40 años, ¿cuántos hay de entre 30 y 40
años? (ME 1).
c. Identificar qué tipo de razón (simple o compuesta) es cada una de las
calculadas en los ítems anteriores.
45
Universidad Virtual de Quilmes
En las distribuciones bivariadas (tablas de doble entrada), son compuestas todas las tasas calculadas a partir de las frecuencias conjuntas.
Por ejemplo, en la distribución conjunta entre rubro y puestos de trabajo
Por ejemplo, en la distribución conjunta entre rubro y puestos de trabajo de las pymes
de(ver
las
pymes
(ver puede
tabla
1.10) seque
puede
observar
que
elde16,67%
(4/24100)
deson
Por
ejemplo,
distribución
entre
rubro
y ypuestos
trabajo
tabla
1.10.) seen
observar
elconjunta
16,67%
(4/24´100)
las
pymes
dede
lade
muestra
Por
ejemplo,
enlala
distribución
conjunta
entre
rubro
puestos
trabajo
las
pymes
de
la
muestra
son
del
rubro
industrial
y
aumentaron
los
puestos
de
rubro
industrial
ytabla
aumentaron
los
puestos
de trabajo
entre
2001
y 2003,
o que porde
cada
del
dede
laslas
pymes
(ver
tabla
1.10)
sese
puede
observar
que
el el16,67%
(4/24100)
pymes
(ver
1.10)
puede
observar
que
16,67%
(4/24100)
de
trabajo
entre
2001
y 2003,
que
por
cada
pymes
del rubro
comercial
que
pymes
del
rubro
comercial
que o
mantuvo
hay
1,33 (4/3)
industrial
que aumentó
sus puestos
las
pymes
de
la
muestra
son
del
rubro
industrial
y
aumentaron
los
puestos
de
las
pymes
de
la
muestra
son
del
rubro
industrial
y
aumentaron
los
puestos
de
mantuvo
hay 1,33
industrial
sus puestos
de trabajo.
de trabajo.
trabajo
entre
2001(4/3)
y 2003,
o queque
poraumentó
cada pymes
del rubro
comercial que
trabajo
entre 2001
y 2003, o que por cada pymes del rubro comercial que
FIN
DE hay
TEXTO
APARTE
mantuvo
1,33
(4/3)
aumentó
sus
puestos
dede
trabajo.
mantuvo
hay
1,33
(4/3)industrial
industrialque
que
aumentó
sus
puestos
trabajo.
FIN
DE
TEXTO
APARTE
FIN DE TEXTO APARTE
Números
Números índice
índice
Números
índice
Números
índice
Un
las variaciones
variacionesrelativas
relativasdedelala
ocurrencia
Unnúmero
número índice
índice mide
mide las
ocurrencia
de de
loslos
valovalores/categorías
de
una
variable
a
través
de
distintas
situaciones
res/categorías
de una variable
a través de distintas
situaciones
espaciales
o
Un
índice
las
ocurrencia
los
Unnúmero
número
índicemide
mide
lasvariaciones
variacionesrelativas
relativasdedelala
ocurrenciadede
los
espaciales
o
temporales.
temporales.
valores/categorías
valores/categoríasdedeuna
unavariable
variablea através
travésdededistintas
distintassituaciones
situaciones
En
símbolos:
espaciales
o
temporales.
En
símbolos:
espaciales o temporales.
EnEnsímbolos:
ó
símbolos:
óó
Donde “ i” indica una situación espacial
o temporal cualquiera y “ o”
indica
de referencia
llamada
Dondela
indica una
situación espacial
obase.
temporal
cualquiera
y “o” yindica
la
Donde
“ “i”
i”“situación
una
espacial
o otemporal
cualquiera
Donde
i”indica
indica
unasituación
situación
espacial
temporal
cualquiera
y“ o”
“ o”
Para
estudiar
si
hubo
algún
cambio
en
la
cantidad
de
trabajadores
situación
de referencia
llamada llamada
base. base.
indica
lala
situación
dede
referencia
indica
situación
referencia
llamada
base.
(ME
1)
que
cobran
actualmente
más
de
$750
respecto
de los (ME
que 1)
Para
estudiar
si
hubo
algún
cambio
enen
la la
cantidad
de trabajadores
Para
estudiar
si
hubo
algún
cambio
dedetrabajadores
Para también
estudiar más
si hubo
algún
cambio
en anterior,
lacantidad
cantidad
trabajadores
cobraban
de
$750
en
el
período
calculamos
que cobran actualmente
más de $750 respecto
de los que cobraban
también
(ME
(ME1)1)que
quecobran
cobranactualmente
actualmentemás
másdede$750
$750respecto
respectodedelos
losque
que
más
de
$750
en
el
período
anterior,
calculamos
cobraban
también
más
de
$750
en
el
período
anterior,
calculamos
cobraban también más de $750 en elf período
anterior,
(> 750)
13 calculamos
Iactual/anterior(másde750) = actual
= = 2,60
(>750)
750) 5
f anterior
(>
actual
f actual
(> 750)= 1313= 2,60
Iactual/anterior
(másde750)
=
Iactual/anterior(másde750) =f
= = 2,60
(>(>750)
anterior
750) 5 5
f anterior
El grupo de trabajadores que hoy tienen un salario quincenal superior a
Elgrupo
grupoes
deel
trabajadores
quehoy
hoy
tienen un
un salario
salario
quincenal
superior
aalos
los
$750
260% del grupo
de trabajadores
que en
el período
anterior
El
de
trabajadores
que
tienen
quincenal
superior
El
grupo
de
trabajadores
que
hoy
tienen
un
salario
quincenal
superior
$750
eseselel260%
del
grupo
dede
trabajadores
queque
en en
el período
anterior
tenían
también
más
de
$750
detrabajadores
salario quincenal.
decir,
quetenían
laa
los
$750
260%
del
grupo
elEs
período
anterior
los
$750
es
el
260%
del
grupo
de
trabajadores
que
en
el
período
anterior
también
más
demás
$750
deque
salario
quincenal.
Es
ladecir,
cantidad
delatracantidad
de
trabajadores
hoy
ganan
más
dedecir,
$750que
aumentó
unque
160%
tenían
también
dede
$750
dede
salario
quincenal.
EsEs
tenían
también
más
$750
salario
quincenal.
decir,
que
bajadores
que
gananque
más
de ganan
$750 aumentó
un 160%
con respecto
alala
con
respecto
a lahoy
situación
anterior.
cantidad
dede
trabajadores
hoy
más
dede
$750
aumentó
unun160%
cantidad
trabajadores
que
hoy
ganan
más
$750
aumentó
160%
situación
anterior.
En
el caso
los trabajadores
de la cooperativa y de la fábrica
con
respecto
aa
lade
situación
anterior.
con
respecto
la
situación
anterior.
Enelel caso
caso
de los trabajadores
de de
ladeterminada
cooperativa
yfranja
de la
automotriz
automotriz
podemos
comparar
una
de la
edad,
por
EnEn
trabajadores
cooperativa
y yfábrica
de
fábrica
el
casodedelos
los
trabajadores
delala
cooperativa
de la
fábrica
podemos
comparar
una
determinada
franja
de
edad,
por
ejemplo
empleados
ejemplo
empleados
de
entre
20
y
30
años,
haciendo
automotriz
podemos comparar
una
automotriz
comparar
unadeterminada
determinadafranja
franjadedeedad,
edad,por
por
de entre
20 podemos
y 30 años,
haciendo
ejemplo
empleados
de
entre
20
y
30
años,
haciendo
ejemplo empleados de entre 20 yf30 años,
haciendo
4
cooperativa (20 edad 30)
Icooperativa/fábrica (entre20y30años) =
= = 0,25
fffábrica (20
f cooperativa
(20edad
edad30)
30) 16
4
cooperativa (20 edad 30)
Icooperativa/fábrica
(entre20y30años)
=
= = 4= =0,25
Icooperativa/fábrica (entre20y30años) = f
0,25
(20
fábrica
(20 edad
edad 30)
30) 1616
f fábrica
El grupo de empleados de la cooperativa de 20 a 30 años es el 25% de
El grupo
de empleados
de la cooperativa
20 hay
a 30 un
años
es elmenos
25% de
los
trabajadores
de la de
fábrica.
Es decirde
que
75%
delos
El
grupo
dedeempleados
lalacooperativa
de
20
aa
3030años
es
elel25%
de
trabajadores
de
la
fábrica.
Es
decir
que
hay
un
75%
menos
de
personas
de
20
El
grupo
empleados
de
cooperativa
de
20
años
es
25%
de
personas
de 20 ade
30 la
años
trabajando
en laque
cooperativa
que
enmenos
la fábrica
los
trabajadores
fábrica.
Es
decir
hay
un
75%
de
a 30trabajadores
años. trabajando
en fábrica.
la cooperativa
que en
la hay
fábrica
los
de la
Es decir
que
unautomotriz.
75% menos de
automotriz
personas
personasdede2020a a3030años
añostrabajando
trabajandoenenlalacooperativa
cooperativaque
queenenlalafábrica
fábrica
automotriz
.
automotriz
Índices de. precios
Índices de precios
46
42
Veremosde
a continuación
Índices
Índices
deprecios
precios cómo se construyen y cómo se usan los índices generales de precios.
Veremos a continuación cómo se construyen y cómo se usan los índices
generalesade
precios.
Veremos
continuación
construyen
usan
índices
Veremos a
continuacióncómo
cómosese
construyeny ycómo
cómosese
usanlos
los
índices
generales
de
precios.
generales de precios.
Índices de precios
Producto Precio 2003 Cantidad 2003
Precio 2004
Cantidad 2004
A
$13
500
$15
550
Veremos
cómo 280
se construyen y cómo
índices generales de precios.
B a continuación
$25
$21 se usan los 250
C
$5
990
$6
1200
Estadistica
Construcción de índices de precios
Construcción de índices de precios
En realidad la canasta
Convengamos que todos los productos de la canasta familiar se puedan redufamiliar está integrada por
COMIENZO
DE PASTILLA
Convengamos
que
todos
productos
la años
canasta
familiarseserelevaron
puedan reducir
tres (A,EnB este
y C)caso,
y que en dos
cir a, digamos,
tres
(A,EN
Blos
ycanasta
C)
y que familiar
ende
dos
distintos
los pre-a, digamos,
muchos productos.
En
realidad
la canasta
familiarlos
está
integrada
por
muchos
productos.
En este caso,
años
distintos
se
relevaron
precios
(p)
y
las
cantidades
(q)
consumidas
de
cada
uno
de
ellos:
como recurso didáctico, usamos
cios (p) y las cantidades (q) consumidas de cada uno de ellos:
como recurso didáctico, usamos tres productos como representativos de todos sólo
para reducir la cantidad de cálculos.
FIN DE
PASTILLA
Producto
Precio 2003
Cantidad 2003
Precio 2004
Cantidad 2004
A
$15
tres productos como representativos de todos sólo para reducir la
cantidad de cálculos.
B
los
Podemos
analizar$25cómo evolucionó
el precio$21
de cada uno de
C
$5 tres índices $6
productos,
haciendo
simples de precios.
I 2004/2003
= 15 / 13elprecio
100 =de
115,38%
Podemos analizar
cómo(A)
evolucionó
cada uno de los productos,
COMIENZO DE PASTILLA EN FDQDVWDIDPLOLDU
haciendo
tres
índices
de 15,38%
precios.
El(Q
precio
del
producto
Asimples
subió
un
entre SURGXFWRV
el 2003 y(Q
elHVWH
2004.
UHDOLGDG
OD FDQDVWD
IDPLOLDU
HVWi LQWHJUDGD
SRU PXFKRV
FDVR FRPR UHFXUVR GLGiFWLFR XVDPRV WUHV SURGXFWRV FRPR
UHSUHVHQWDWLYRVGHWRGRVVyORSDUDUHGXFLUODFDQWLGDGGHFiOFXORV
FIN DE PASTILLA I
(B) = 21 / 25 100 = 84,00%
2004/2003
I2004/2003
(A) = 15 / 13 × 100 = 115,38%
El El
precio
preciodel
delproducto
productoBA bajó
subióun
un16,00%
15,38%entre
entreelel2003
2003yyelel2004.
2004.
Podemos analizar cómo evolucionó el precio de cada uno de los productos, haciendo tres índices simples de precios.
I2004/2003 (B) = 21 / 25 × 100 = 84,00%
I 2004/2003 (C) = 6 / 5 100 = 120,00%
El precio del producto B bajó un 16,00% entre el 2003 y el 2004.
I2004/2003
(A) el
= 15
/ 13y =el 100
= 115,38%
El precio del producto A subió un 20,00%
entre
2003
2004.
I2004/2003 (C) = 6 / 5 × 100 = 120,00%
El precio del producto A subió un 15,38% entre el 2003 y el 2004.
El precio del producto C subió un 20,00% entre el 2003 y el 2004.
(B) = 21
25 tres
= 100
= 84,00%
Para medir la evolución del conjuntoI2004/2003
de precios
de /los
productos
medir
la
evolución
del conjunto
de precios
los ytres
productos necesinecesitamos
conBíndices
ElPara
precio
delcontar
producto
bajó
uncompuestos.
16,00%
entre el de
2003
el 2004.
tamos contar con índices compuestos.
Media de relativos simples (o media de índices simples)
dedel
relativos
simples
(o media
de índices
ElMedia
precio
producto
A subió
un 20,00%
entre simples)
el 2003
y el de
2004.
Es
la media
aritmética
de todos
los índices
simples
todos los
Es la media aritmética de todos los índices simples de todos los productos.
productos. Para el ejemplo que estamos viendo, el cálculo sería.
Para el ejemplo que estamos viendo, el cálculo sería.
I2004/2003 (C) = 6 / 5 = 100 = 120,00%
Para medir la evolución del conjunto de precios de los tres productos necesitamos contar con índices compuestos.
I2004 ( A) + I2004 (B) + I2004 (C)
2003
2003
2003
I2004 ( A,B,C) =
= 106, 46%
Media de
simples)
2003relativos simples (o media de índices
3
EsLos
la media
aritmética
de
todos losA,
índices
de todos los
productos.
Para el ejemplo que estamos viendo, el
precios
productos
B y simples
C en
subieron
un los
Los precios
de de
los los
productos
A, B y C subieron
conjuntoen
unconjunto
6,46% entre
cálculo
sería.
6,46% entre los años 2003 y 2004.
años 2003 y 2004.
Relativo de agregados no ponderados (o índice de agregados no ponderados)
Relativo
de agregados
no entre
ponderados
(o (agregación)
índice de agregados
Se construye
como cociente
la sumatoria
de los preciosnopara
ponderados)
el año 2004 y la sumatoria (agregación) de los precios para el año base 2003.
Los precios de los productos A, B y C bajaron en conjunto un 2,33% entre los
43
años 2003 y 2004.
Relativo de agregados ponderados (o índice de agregados ponderados)
Se construyen no solamente con los precios sino con algún otro elemento de ponderación que permita darle un “peso” distinto a cada producto. Ese elemento
de ponderación generalmente es la cantidad consumida de cada producto.
47
Universidad Virtual de Quilmes
La cuestión que aparece a continuación es decidir con qué cantidades
ponderar, las del año tomado como base o las del año para el que se hace
el estudio que convenimos en llamar año dado.
Fue publicado en 1870
por el economista y estadístico alemán Ernst Louis Etienne
Laspeyres.
Entre los criterios existentes, el de Laspeyres adopta, para ponderar las cantidades consumidas en el año base, la siguiente manera:
Este es el criterio que utiliza el Sistema Estadístico Nacional (INDEC y Direcciones Provinciales de Estadísticas) para la construcción de todos los índices
generales de precios: Índice de Precios al consumidor (IPC), Sistema de Índices de precios mayoristas (SIPM) e Índice de costos de la construcción (ICC).
Para el ejemplo que estamos desarrollando, el cálculo del índice de precios según el criterio de Laspeyres para el conjunto de los productos A, B,
C es:
Los precios de los productos A, B, C subieron en conjunto un 4,72% entre los
años 2003 y 2004. Es decir que en 2004 esos productos fueron en conjunto
un 4,72% más caros respecto del año 2003.
Si esos tres productos fueran todos los de la canasta familiar, como estamos simulando, las cantidades consumidas podrían entrar en la fórmula de Laspeyres como porcentajes del total:
La estructura de ponderación actual del IPC asigna para Alimentos y bebidas: 31,29%,
Indumentaria: 5,18%, Vivienda:
12,68%, Equipamiento y mantenimiento del hogar: 6,55%, Atención
médica y gastos para la salud:
10,04%, Transporte y comunicaciones: 16,96%, Esparcimiento:
8,67%, Educación: 4,20%, Bienes
y servicios varios: 4,43%.
48
Esta estructura de ponderación es la que usa el INDEC para publicar los Índices Generales de precios. El criterio de Paasche usa para ponderar las cantidades del año dado.
Para los mismos productos y el mismo período, un índice de precios elaborado con este criterio es:
(GXFDFLyQ%LHQHV\VHUYLFLRVYDULRV
FIN DE PASTILLA
Estadistica
El caso
criterio
Paasche
para
ponderar lasde
cantidades
del añoconsumidado.
En este
haydeque
contarusa
con
la información
las cantidades
das en el año dado y para la elaboración de índices generales eso implica un
serio Para
problema
operativo.
Este criterio
puede usarse
enun
trabajos
donde
los mismos
productos
y el mismo
período,
índicelocales,
de precios
elaborado con este criterio es:
se tengan planificados y asegurados los recursos y se pueda encarar la modalidad operativa que requiere ese índice.
Un tercer criterio, el de Fisher, combina las virtudes de los dos anteriores
mediante el empleo de la media geométrica entre IL y IP, pero también carga
con las mismas limitaciones operativas de P.
En este caso hay que contar con la información de las cantidades consumidas en el año dado y para la elabor
de índices generales eso implica un serio problema operativo. Este criterio puede usarse en trabajos locales, don
tengan planificados y asegurados los recursos y se pueda encarar la modalidad operativa que requiere ese índice.
Un tercer criterio, el de Fisher, combina las virtudes de los dos anteriores mediante el empleo de la media geom
y IPproductos
, pero también
carga con las mismas limitaciones operativas de P.
entre
Para
losILtres
del ejemplo:
Para los tres productos del ejemplo:
Uso de los números índices
Llamemos i, j a dos años dados cualesquiera y o al año base.
En las publicaciones, todos los índices generales aparecen referidos a un
año base por lo que se cuenta entonces con los índices Ii/o y Ij/o.
Para algún uso específico en el que necesitáramos un índice Ij/o que describa
entre
los años i y j, utilizaremos las llamadas cadenas o
Uso la
deevolución
los números
índices
enlaces relativos.
Llamemos i, j a dos años dados cualesquiera y o al año base.
En las publicaciones, todos los índices generales aparecen
referidos a un año base por lo que se cuenta entonce
Ij
y
.I
los índices
Ij =Ij
Ij = o
i
o
Ii
i
que describa la evolución entre los años
Para algún uso específicoi en elo que necesitáramos
un
o índice
utilizaremos las llamadas cadenas o enlaces relativos.
Supongamos que el índice compuesto de precios de varios productos fue de
120 en 2000 y de 129 en 2001, calculados ambos con base 1999, y querePor
ejemplo:
representa
el
del
año 1988
mos
saber cuánto
el nivel de de
precios
entre
2000productos
y 2001. La
Supongamos
que aumentó
el índice compuesto
precios
desalario
varios
fueresde 120 en 2000 y de 129 en 2001, calcu
puesta
quebase
el nivel
deyprecios
aumentó
un 7,50aumentó
% (se calcula:
/ 120 entre 2000 y 2001. La respuesta es q
ambosescon
1999,
queremos
saber cuánto
el nivel129
de precios
x 100
%).aumentó un 7,50 % (se calcula: 129 / 120 x 100 =107,50 %).
nivel=107,50
de precios
índice de
de precios
precios al
al consumidor
consumidor yyelelpromedio
ElElíndice
promediodedesalarios
salariospor
porhora
horaenencierciertas industrias seleccionadas se encue
tas
seleccionadas se encuentran en la tabla siguiente.
enindustrias
la tabla siguiente.
Año
IPC
Servicios
1988
1989
1991
Salarios por hora (en $)
Comercio al menudeo
Manufactura
Analizaremos cómo evolucionó el salario real de un empleado tipo en cada una de las tres industrias seleccion
Analizaremos
cómo1988
evolucionó
salario real de un empleado tipo en cada
entre el año base
y el añoel1991.
una de
laseste
tresanálisis
industrias
seleccionadas,
entre
año
1988eny el
el tiempo
año una magnitud económica –en este
rol el
será
el base
de mover
Para
utilizaremos
el IPC cuyo
1991.
Para este análisis utilizaremos el IPC cuyo rol será el de mover en el tiempo una magnitud económica –en este caso el salario– y hacer comparaciones.
49
Universidad Virtual de Quilmes
Ii
o
Ij =Ij
i
o
Ij =
i
Ij
o
Ii
Cualquier índice general utilizado con esta finalidad orecibe el nombre de índice deflactor.
Porejemplo:
ejemplo:
Por
representaelelsalario
salariodel
delaño
año1988
1988
representa
trasladado al año 1991, para un empleado del sector servicios. Este es el
valor del salario del año 1988 corregido por el costo de la vida en el lapso
1988-1991.
Si comparamos el valor obtenido ($8,40) con el que realmente recibe en 1991
($9,49), vemos que su salario real aumentó un 12,98% (=9,49/8,40 x 100).
17.
Usando la información de la tabla anterior describir la evolución del
salario del sector servicios entre 1989 y 1990.
¿Es posible concluir que las medidas de intensidad son aplicables a cualquier tipo de variable?
Se puede ver el artículo completo en
w w w . p a g i n a 1 2 . c o m . a r,
Suplemento Radar libros del
diario Página 12, con fecha
22/03/2009.
50
18.
Extraer todas las conclusiones posibles a partir de la lectura del texto
que se transcribe a continuación y que es parte de un artículo publicado en el diario Página 12.
Todos los libros el libro
Por Gabriel D. Lerman
“[…] Según estimaciones publicadas por el SINCA (Sistema de Información Cultural de la Argentina), la cultura argentina constituye un
3% del PBI nacional, cifra que supera, por ejemplo, al sector de la minería. Más 9100 millones de pesos producidos y más 200 mil puestos de
trabajo generados componen un sector diverso, heterogéneo, que sin
embargo se caracteriza por una alta concentración económica y geográfica, que reproduce el más feroz centralismo porteño.
La industria editorial ha sido por décadas uno de los puntales de la cultura argentina, punto de referencia para toda América latina y el mundo
hispanoparlante. Hacia mediados de la década del setenta, el país producía unos 50 millones de ejemplares al año, cifra que diez años más
tarde había caído a 17. En 1996 se produjeron 42 millones de libros, en
el 2000 se llegó a 74 millones y en el 2002, tras la crisis, la producción
cayó a la mitad. A partir de la devaluación, Argentina recuperó condiciones favorables e inició una franca recuperación: de 38 millones de
libros en 2003 se pasó a 56 en 2004. En 2007, la industria editorial
argentina tuvo el record histórico de 93 millones de ejemplares impresos […]
[…] Cerca del 75% de las editoriales se encuentra emplazada en la región
metropolitana, mientras que el resto se ubica en los principales centros
urbanos. Si bien esto responde a la concentración de la población, hay
provincias que sólo poseen una o dos editoriales que apenas sobreviven
con ayuda oficial.
Estadistica
[...] Tres de cada cuatro libros les corresponden a las grandes editoriales
[...]
[...] Argentina y Colombia lideran el comercio exterior de libros en América del Sur.
[...] Según la publicación Nosotros y los otros, del Mercosur Cultural,
un 77% de los libros exportados por la región sudamericana quedan en
el continente. Esto muestra una baja capacidad de penetración en mercados internacionales más vigorosos, incluso España, que adquiere sólo
el 1,6% del total exportado. Por el contrario, si se miden las importaciones se comprueba que sólo el 41% proviene de los mismos países,
mientras que las compras a España trepan al 29% [...]”
1.3. Matrices ejemplos
Las siguientes matrices corresponden a muestras representativas seleccionadas de diferentes poblaciones objetivo de estudio, con distintos tipos de
unidades de observación.
1.3. 1.
Matrices
ejemplos de una empresa cooperativa donde cada traMatriz
Población: trabajadores
Matriz
1.
Población:
de una empresa cooperativa donde cada trabajador es una unidad de observació
bajador es una unidadtrabajadores
de observación.
ME 1Empleado
edad
sexo
Antigüedad
Especialización
Conformidad
Quincena$
actual
Quincena$
anterior
1
2
4
5
6
8
9
51
21
25
28
48
42
M
F
M
F
F
M
F
F
M
F
F
M
F
M
F
F
M
F
M
F
1
5
4
9
4
5
5
8
2
1
1
B
A
M
M
M
B
B
M
M
M
A
A
B
A
A
M
B
M
A
M
C
M
P
C
M
P
C
M
P
P
M
M
C
M
M
M
C
M
P
M
1145
452
965
698
11
12
14
15
16
18
19
Referencias:
Gasto
Personas
Cant. de
Personas
Nivel
de especialización:
B: bajo, M:
mediano,medio
A: alto. mayores con ¿Hay niños
Vivienda
ambientes Mantenimiento ocupantes mensual
que trabajan?
trabajo P:
Conformidad con el funcionamiento de la empresa cooperativa:
poco con1
B
1
N
forme,
C:
conforme,
M:
muy
conforme.
2
2
M
1
N
5 salario quincenal
B
2
N
Quincena
actual:
de4los trabajadores
(participación
quince4
1
N
nal en
las ganancias
de la 5Bcooperativa)2 en el mes
en curso después
de haber5
4
2
S
se producido
un
6
1 incremento
B en las ventas.
1
N
2
los trabajadores
N
Quincena
anterior:
salarioMquincenal de
previo
al incremento
8
4
E
2
2
N
de las
9 ventas.5
B
5
2
N
11
12
14
4
4
2
5
B
M
B
B
2
2
1
2
N
N
N
S
N
51
M
5
A
M
F
B
C
M
8
A
M
F
A
M
F
2
M
M
28
M
B
C
48
F
1
M
M
Matriz 2. Población: viviendas de un determinado barrio
19
M
A
P
42
es launidad de análisis.
F
1
M
M
12
Universidad Virtual de Quilmes
14
15
16
18
Cant. de Mantenimiento Personas
Vivienda ambientes
ocupantes
1
2
4
5
6
8
9
11
12
14
15
16
18
19
21
22
24
25
26
28
29
2
5
4
1
2
4
5
4
4
2
4
2
4
1
2
4
5
4
4
5
6
4
1
4
B
M
B
B
5
B
M
E
B
5
B
M
B
B
M
B
5
B
M
E
B
5
B
5
B
B
5
B
M
E
B
5
4
2
2
5
2
2
5
2
5
2
5
2
5
Gasto
medio
mensual
452
965
donde cada vivienda
1145
698
Personas
¿Hay niños
mayores con que
trabajan?
trabajo
1
N
1
N
2
N
1
N
2
S
1
N
N
2
N
2
N
N
2
N
N
1
S
2
N
N
2
N
N
N
N
2
S
N
2
N
4
N
N
1
S
1
N
N
2
N
5
N
1
S
2
N
N
Referencias
Referencias:
Mantenimiento o estado de mantenimiento: M: malo, R: regular, B: bueno, E:
excelente.
Gasto medio mensual en alimentos del grupo que vive en la vivienda en $.
¿Hay niños que trabajan?: S: sí, N: no.
52
Mantenimiento o estado de mantenimiento: M: malo, R: regular, B: bueno, E: excelente
Estadistica
Gasto medio mensual en alimentos del grupo que vive em la vivienda em $
¿Hay niños que trabajan?: S: sí, N: no
Matriz 3. Población: pymes de la República Argentina año 2004/2005 donde
cada pyme
es la unidad
de estudio.
Matriz
3. Población:
pymes
de la República Argentina año 2004/2005 donde cada pyme es la unidad de estudio.
ME 3PyME
Tipo
Rubro
Antigüedad
Endeudamiento
Cantidad de
Personal
Puestos de trabajo
2001-2003
1
P
S
1
M
128
M
D
2
P
I
6
M
5
A
8
N
19
A
4
5
6
5
P
P
C
I
A
4
8
M
MA
A
112
M
M
D
8
9
5
P
P
I
S
C
8
4
B
MA
M
114
A
D
M
11
12
P
5
P
A
A
I
2
4
MA
M
B
148
154
A
A
D
14
15
16
18
P
5
P
5
p
5
C
I
A
I
C
I
5
6
2
9
MA
A
MA
A
M
B
142
22
5
D
A
M
M
M
M
D
19
P
S
11
M
5
I
6
N
A
21
P
I
M
D
22
P
A
4
A
M
P
C
25
MA
A
24
5
S
11
B
144
A
Referencias:
Tipo de pyme: R: recuperada, P: privada.
Referencias:
Tipo de pyme: R: recuperada, P: privada.
Antigüedad, en años, al 2005.
Rubro: A: agrícola, C: comercial, I: industrial, S: servicios.
Nivel de endeudamiento: N: ninguno, B: bajo, M: medio, A: alto, MA: muy alto.
Antigüedad, en años, al 2005.
Puestos de trabajo durante 2001-2003: D: disminuyó, M: mantuvo, A: aumentó.
Nivel de endeudamiento: N: ninguno, B: bajo, M: medio, A: alto, MA: muy alto.
Puestos de trabajo durante 2001-2003: D: disminuyó, M: mantuvo, A: aumentó.
Rubro: A: agrícola, C: comercial, I: industrial, S: servicios.
53
Universidad Virtual de Quilmes
Matriz 4. Población: todas las piezas plásticas especiales fabricadas por una
determinada empresa, donde cada pieza es la unidad que se observa para su
Matriz 4. Población: todas las piezas plásticas especiales fabricadas por una determinada emp
estudio y análisis.
la unidad que se observa para su estudio y análisis.
ME 4
Pieza
Longitud
[cm]
Materia
prima
Tiempo de
Detalles
de
Peso
[gr]
Característica
señalable
1
2
4
5
6
8
9
11
12
14
15
16
18
19
N
I
N
N
I
N
I
N
N
I
N
N
I
N
N
I
N
I
N
N
261
145
168
194
59
65
128
22
81
11
5
E
B
MB
MB
5
5
MB
B
MB
E
B
5
E
E
MB
5
B
E
B
N
N
N
S
N
N
S
N
S
N
S
N
S
N
S
N
S
S
N
N
Referencias
Referencias:
Materia
prima: N: nacional, I: importada.
Materia
N: tiempo,
nacional,
I: importada.
Tiempo
de prima:
fabricación:
en días,
que lleva de fabricada la pieza.
Tiempo
de fabricación:
tiempo,
enB:días,
de fabricada
la pieza.
Nivel
de detalles
de terminación:
R: regular,
bueno,que
MB:lleva
muy bueno,
E: excelente.
Nivel alguna
de detalles
de terminación:
B: bueno, MB: muy bueno, E: exce¿Tiene
característica
señalable?: S: sí,R:
N: regular,
no.
lente.
¿Tiene alguna característica señalable?: S: sí, N: no.
54
2
Probabilidad
Objetivos
• Desarrollar algunas herramientas básicas para poder abordar con fundamento los problemas de la inferencia estadística.
• Sistematizar, organizar y cimentar los conceptos probabilísticos presentes
en la cultura cotidiana.
2.1. Elementos de la teoría de probabilidad
En la presente Unidad trataremos conceptos de la teoría de probabilidad por
ser ésta la herramienta conceptual necesaria para abordar con fundamento los
problemas de la estadística inferencial.
2.1.1. Experimento aleatorio
Comenzaremos leyendo el siguiente texto que fue extraído de la novela El jugador
de Fedor Dostoievsky.
Párrafo del capítulo IV de
El jugador (1866), una de
las más célebres y populares novelas de Fedor Dostoievsky, en gran
parte un relato autobiográfico.
“[...] Las salas de juego estaban repletas de público. ¡Cuánta insolencia y cuánta avidez! Me
abrí paso entre la muchedumbre y me coloqué frente al propio croupier. Empecé a jugar tímidamente, arriesgando cada vez dos, tres monedas. Entretanto, observaba. Tengo la impresión
de que el cálculo previo vale para poco y, desde luego no tiene la importancia que le atribuyen
muchos jugadores: llevan papel rayado, anotan las jugadas, hacen cuentas, deducen las probabilidades, calculan; por fin, apuestan y pierden. Igual que nosotros simples mortales, que jugamos sin cálculo alguno. He llegado, sin embargo, a una conclusión, al parecer, justa: existe, en
efecto, si no un sistema, por lo menos cierto orden en la sucesión de probabilidades casuales, lo
cual es muy extraño. Suele ocurrir, por ejemplo, que tras las doce cifras centrales salgan las doce
últimas. Cae, por ejemplo, dos veces en las doce últimas y pasa a las doce primeras. De las doce
primeras, vuelve a las centrales: sale tres o cuatro veces seguidas y de nuevo pasa a las doce últimas. Tras dos vueltas, cae sobre las primeras, que no salen más de una vez, y las cifras centrales
salen sucesivamente tres veces. Esto se repite durante hora y media o dos horas. Uno, tres y dos;
uno, tres y dos. Resulta muy divertido. Hay días, mañanas, en que el negro alterna con el rojo,
casi en constante desorden, de modo que ni el rojo ni el negro salen más de dos o tres veces
seguidas. Al día siguiente, o a la misma tarde, sale el rojo hasta veinticinco veces sucesivas, y continúa así durante algún tiempo, a veces, durante todo el día [...]”.
55
Universidad Virtual de Quilmes
Experimento aleatorio,
probabilístico o estocástico: es aquel donde no se puede
determinar a priori cuál va a ser su
resultado.
La búsqueda de las leyes que, supuestamente, gobiernan el azar no solo atrae
la concentración de algún jugador empedernido, sino que domina permanentemente los cálculos de casi todo el espectro científico desde –en un rango
cronológico– la astronomía hasta la economía.
Lo que aparece claramente en el párrafo seleccionado es la observación
del fenómeno que interesa estudiar –la ruleta– mediante series de frecuencias.
Cada vez que se realiza una jugada se está llevando a cabo un experimento
aleatorio o azaroso, ¿por qué aleatorio? Porque no se puede predecir de antemano el resultado que se va a obtener en esa jugada.
Existen muchos experimentos aleatorios fuera del juego, por ejemplo, podríamos anotar la edad de cada una de las personas que lee esta carpeta, cada
edad del conjunto de todas las edades anotadas puede ser un resultado del
experimento.
Podemos citar también como experimento aleatorio la observación de la
ocurrencia del robo de un auto realizada por un actuario de seguros. Este
actuario podría anotar en función de resultados previos cuántos autos de una
determinada marca y modelo fueron robados entre todos los que existen en
el mercado y a partir de ello inducir si un nuevo auto cualquiera, elegido al
azar de ese modelo y marca, tiene alguna posibilidad de ser robado.
Tanto la jugada única del jugador, como el aseguramiento de un auto cualquiera tomado al azar, constituyen experimentos aleatorios simples porque
involucran tomar un solo elemento al azar de una población.
Tanto la avidez del jugador como la de la compañía de seguros nos llevan
a los experimentos aleatorios compuestos –tomar más de un elemento al
azar– donde el jugador haría varias jugadas o la compañía aseguraría varios
autos.
El proceso de tomar al azar uno o más elementos de una determinada
población es un experimento aleatorio.
Si se selecciona un solo elemento, referido a una variable, el experimento es simple y si se seleccionan dos o más elementos, referidos a esa
variable, el experimento aleatorio es compuesto porque es el resultado
de la repetición de uno simple.
Por otro lado, si se selecciona un elemento al azar pero referido a dos
o más variables conjuntamente resulta también un experimento aleatorio compuesto.
Cuando se seleccionan muestras aleatorias de tamaño n de una población se
están realizando n experimentos aleatorios simples.
Espacio muestral
Denominamos espacio muestral (E) al conjunto de todos los resultados posibles de un experimento aleatorio.
En el ejemplo del actuario nos interesa si al seleccionar un auto de esa
marca y modelo éste puede ser robado o no, entonces los resultados posibles son: será robado o no será robado:
56
Estadistica
E = {robado, no robado}
En una jugada de la ruleta los resultados posibles son:
E = {todos los números de la ruleta} = {0, 1, 2, 3, ......... , 34, 35, 36}
En la siguiente tabla figuran distintos tipos de experimentos aleatorios y espacios muestrales asociados a ellos.
Experimento aleatorio
Si se tomara/n al azar:
Espacio muestral
Se obtendrían los siguientes resultados
1- Una pyme del grupo que figura en la matriz
ME 3 de la Unidad anterior y se examinara el E ={ A, C, I, S}
rubro al que pertenece.
2- Dos empleados de la empresa cooperativa E={FF, FM, MF, MM}
de la matriz ME 1 y se observara el sexo al
que pertenece cada uno.
3- Una vivienda entre las de la ME 2 y
se reflexionara acerca de la cantidad de
ambientes que tiene.
E ={ 1, 2, 3, 4, 5}
Como puede apreciarse, los experimentos 1 y 3 son simples y el 2 es un experimento compuesto por repetición de uno simple.
Para describir los elementos de un espacio muestral de un experimento
compuesto se puede recurrir a un diagrama denominado diagrama de árbol
donde cada una de las ramas representa a cada uno de los elementos compuestos del espacio muestral.
El diagrama de árbol (G.2.1.) correspondiente al segundo experimento es
Gráfico 2.1. Diagrama de árbol
Suceso o evento aleatorio
Un suceso o evento aleatorio es cualquier subconjunto de un espacio
muestral.
57
Universidad Virtual de Quilmes
Son ejemplos de sucesos aleatorios del Espacio muestral del experimento 3,
que la vivienda seleccionada tenga:
S1 = {hasta 3 ambientes}
S1 = {1, 2, 3}
S2 = {1 ambiente}
S2 = {1}
S3 = {8 ambientes}
S3 = { } = Φ
S4 = {hasta 5 ambientes}
S4 = {1, 2, 3, 4, 5} = E
S5 = {3 o 4 ambientes}
S5 = {3, 4}
S6 = {menos de 4 ambientes}
S6 = {1, 2, 3}
S7 = {más de 3 ambientes}
S7 = {4, 5}
Un suceso ocurrirá si el resultado del experimento aleatorio es un elemento de dicho suceso.
Si un suceso tiene un solo elemento (por ejemplo S2) se dice que es un suceso elemental.
Si los elementos de un suceso son todos los del espacio muestral (el suceso coincide con E como el S4) al suceso se lo denomina suceso cierto y ocurre siempre al realizar el experimento.
Si un suceso no tiene elementos, es un conjunto vacío como el S3 y se llama
suceso imposible. Este suceso no podría ocurrir al realizar el experimento.
Relaciones entre sucesos
Las relaciones más destacables que se pueden establecer entre dos o más
sucesos son: identidad, exclusión e independencia. Para ejemplificarlas usaremos los sucesos S1 a S7.
Identidad
Dos o más sucesos son idénticos cuando tienen los mismos elementos.
Considerando el suceso S6 podemos notar claramente que es idéntico al suceso S1.
58
Estadistica
Exclusión
Dos sucesos son mutuamente excluyentes cuando la ocurrencia de uno
excluye la ocurrencia del otro. Es decir, que no tienen elementos en
común.
Por ejemplo, los sucesos S2 y S5 porque si ocurre S2 no puede ocurrir S5 y
viceversa, por lo tanto son mutuamente excluyentes.
Dos sucesos aleatorios son no excluyentes, caso S5 y S7, cuando tienen
elementos en común.
Un suceso está incluido en otro cuando todos sus elementos son parte de los
elementos del otro como en el caso del suceso S2 que está contenido en S1.
El espacio muestral y los sucesos aleatorios pueden representarse mediante un diagrama de Venn.
En los siguientes diagramas se visualizan las tres formas que puede adoptar la relación de exclusión entre dos sucesos aleatorios.
Juan Venn (1834-1923).
Filósofo e historiador inglés.
Su obra de lógica más original es
la Lógica del azar.
Gráfico 2.2.
Independencia
Dos sucesos son independientes cuando la ocurrencia de uno no condiciona
la ocurrencia del otro.
Observando el primer caso del gráfico 2.2. –donde los sucesos son mutuamente excluyentes– si uno ocurriera, el otro nunca podría ocurrir. Eso implica
la total dependencia del segundo suceso respecto del primero, y viceversa.
Si dos sucesos son mutuamente excluyentes entonces son fuertemente
dependientes.
En el tercer diagrama, del mismo gráfico, si ocurriese el suceso incluido necesariamente el suceso incluyente ocurrirá, por lo que éste también es fuertemente dependiente de aquél.
59
Universidad Virtual de Quilmes
Si un suceso incluye a otro entonces es fuertemente dependiente del
suceso incluido.
En el caso de los sucesos no excluyentes, segunda forma del gráfico, el análisis de la independencia requiere de otras consideraciones que se irán incorporando paulatinamente. Pero sí se puede afirmar que:
Si dos sucesos son independientes no son mutuamente excluyentes.
Operaciones entre sucesos
Estudiadas sistemáticamente por el lógico irlandés J. Boole (1815-1864) y aplicadas al diseño de circuitos electrónicos
a partir de 1939 y a la telefonía,
control automático y computadoras en general hasta hoy.
Las operaciones entre sucesos son las tres operaciones de Boole (unión, intersección y complemento) del álgebra de conjuntos más la operación diferencia.
Estas operaciones aplicadas a dos o más sucesos aleatorios devuelven
siempre un nuevo suceso aleatorio.
Unión
La unión de dos sucesos Si y Sj es un nuevo suceso (Si U Sj) cuyos elementos pertenecen a alguno de los dos sucesos (a Si o a Sj o a ambos).
Gráfico 2.3.
Consideremos las siguientes uniones de sucesos aleatorios:
S2 U S5 = {1} U {3, 4} = {1, 3, 4}
S7 U S5 = {4, 5} U {3, 4} = {3, 4, 5}
S1 U S2 = {1, 2, 3} U {1} = {1, 2, 3}
60
Estadistica
Intersección
La intersección de dos sucesos Si y Sj es un nuevo suceso (Si Sj) cuyos
elementos pertenecen conjuntamente a ambos sucesos.
Gráfico 2.4.
La intersección de los sucesos S7 y S5, con los que ya operamos, es:
S7 I S5 = {4, 5} I {3, 4} = {4}
El suceso S7 I S5 ocurrirá sí y solo sí ocurrieran simultáneamente los sucesos S7 y S5.
1.
a. Realizar la intersección entre los sucesos S2 y S5.
b. Indicar qué tipo particular de suceso es la intersección entre dos sucesos mutuamente excluyentes.
Complemento
El complemento de un suceso S es otro suceso cuyos elementos son todos
los elementos del espacio muestral que no pertenecen al suceso S.
Gráfico 2.5.
El complemento del suceso S1 es:
S {todos los elementos de E que no están en S1} = {4, 5}
61
Universidad Virtual de Quilmes
Diferencia
La diferencia entre dos sucesos Si y Sj es un nuevo suceso (Si –Sj) cuyos
elementos pertenecen sólo a Si.
Gráfico 2.6.
Las siguientes diferencias entre sucesos son:
S7 – S5 = {4, 5} – {3, 4} = {5}
S1 – S2 = {1, 2, 3} – {1} = {2, 3}
2.
a. Determinar la diferencia entre los sucesos S2 y S5.
b. Determinar el suceso resultante de la diferencia entre dos sucesos
mutuamente excluyentes.
2.1.2. Definiciones de probabilidad
Enunciaremos las definiciones de probabilidad teniendo en cuenta su formulación histórica.
Definición clásica
Essai philosophique sur
les probabilités (1814).
Pierre Simón de Laplace (17491827), astrónomo y matemático
francés. Otras obras: Mecánica
Celeste y El sistema del mundo.
La definición clásica de probabilidad se debe a Pierre Simón de Laplace para
quien la teoría del azar consiste en determinar el número de casos favorables
al acontecimiento cuya probabilidad se indaga. La razón de este número con
la de todos los casos posibles es la medida de la probabilidad, que no es más
que una fracción cuyo numerador es el número de casos favorables y cuyo
denominador es el número total de casos posibles.
Es decir:
p=
cantidad de casos favorables
cantidad de casos posibles
Apliquemos esta definición a algún suceso en la jugada de la ruleta, por ejemplo, si nos interesa que en la próxima tirada de la ruleta salga par.
62
Estadistica
El espacio muestral es:
E = {todos los números de la ruleta}
E = {0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20,
21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31. 32, 33, 34, 35, 36}
y el suceso o evento de interés es:
S = {que salga par}
S = {2, 4, 6, 8, 10, 12, 14, 16, 18 , 20, 22, 24, 26, 28, 30, 32, 34, 36}
P(S) = P(par) = 18 / 37 = 0,4865
Definición frecuencial
Richard E. von Mises propuso la siguiente definición de probabilidad frecuencial en 1919.
La probabilidad de un suceso cualquiera es “[...] el Valor Límite de la
Frecuencia Relativa... Esta es la razón del número de casos en que el atributo a
sido hallado al número total de observaciones [...]” Matemático y filósofo austríaco (1883-1953).
Tomado de su libro
Probabilidad, Estadística
y Verdad (1928).
Supongamos que el actuario ha recabado información sobre una cantidad grande de autos asegurados y que de ello
el 15% sufrió algún robo. El actuario con ese dato puede calcular la probabilidad del suceso S: “el auto asegurado no
sería
robado”.
Es decir:
p =P(S)
f r = P( no robado) = 85/100 = 0,85
Supongamos que el actuario ha recabado información sobre una cantidad
grande Axiomatización
de autos asegurados
y que
de ellos el 15% sufrió algún robo. El actua2.1.3.
de la
probabilidad
rio con ese dato puede calcular la probabilidad del suceso S: “el auto asegu-
rado
no sería
La
Teoría
de larobado”.
Probabilidad fue estructurada algebraicamente a partir de 1930 por matemáticos de la escuela ruso
francesa, dentro de una teoría especial de la medida de conjuntos. Esa teoría de la medida nos permitiría hablar de l
= P(
no robado)
= la
85/100
probabilidad de un P(S)
suceso
aleatorio,
como
medida=de0,85
su ocurrencia.
COMIENZO DE PASTILLA EN escuela ruso-francesa
Los referentes más importantes de esta escuela son: A. N. Kolmogoroff, F. Cantelli, E. Borel y otros.
2.1.3.
Axiomatización de la probabilidad
FIN
DE PASTILLA
LaSu
Teoría
de la reside
Probabilidad
fue estructurada
algebraicamente
partir
de 1930 algebraica, es decir, un conjunto d
utilidad
en entregar
al cálculo de
probabilidadesauna
herramienta
Los referentes más
por matemáticos
de ladeescuela
ruso-francesa,
dentro de una teoría especial
operaciones
y maneras
operar con
probabilidades.
importantes de esta
deSu
la cuerpo
medidaprincipal
de conjuntos.
Esaenteoría
de la medida
nos permitiría
hablar (teoremas).
de
consiste
tres axiomas
y un grupo
de propiedades
escuela son: A. N. Kolmogoroff, F.
Cantelli, E. Borel y otros.
la probabilidad de un suceso aleatorio, como la medida de su ocurrencia.
Su utilidad
en entregar
al cálculo de probabilidades una herramienCOMIENZO
DEreside
PASTILLA
EN axiomas
ta algebraica,
es decir,
conjunto de
operaciones
y maneras
de operar
Recordar
que los axiomas
sonun
proposiciones
intuitivas
aceptadas
sin demostración
y que acon
partir de ellos pueden deducirse las propiedade
probabilidades.
(teoremas).
Recordar que los axiomas
principal consiste en tres axiomas y un grupo de propiedades
FIN Su
DEcuerpo
PASTILLA
son proposiciones intui(teoremas).
tivas aceptadas sin demostración
y que a partir de ellos pueden deducirse las propiedades (teoremas).
Axiomas
A.1. P (S) * 0
la probabilidad de un suceso aleatorio S es un
número no negativo.
A.2. P(E) = 1
la probabilidad del espacio muestral E es 1.
A.3. Si ! Sj = ’ entonces
P(Si , Sj) = P (Si) + P(Sj)
la probabilidad de la unión de dos sucesos
aleatorios Si y Sj mutuamente excluyentes es la
suma de sus respectivas probabilidades.
Propiedades
P.1. 0 ) P(S) ) 1
Se deduce combinando A.1. y A.2.
63
A.2. P(E) = 1
A.3. Si ! Sj = ’ entonces
Universidad Virtual de Quilmes
P(Si , Sj) = P (Si) + P(Sj)
la probabilidad del espacio muestral E es 1.
la probabilidad de la unión de dos sucesos
aleatorios Si y Sj mutuamente excluyentes es la
suma de sus respectivas probabilidades.
Propiedades
P.1. 0 ) P(S) ) 1
Se deduce combinando A.1. y A.2.
P.2. P( S ) = 1 – P(S)
Se deduce combinando A.2. y A.3.
P.3. P(’) = 0
Se deduce de A.3. y considerando que ’ es el complemento de E
P.4. P(Si , Sj) = P (Si) + P(Sj) – P(Si ! Sj)
Se deduce de A.3. y de considerar a cada uno de los sucesos como unión de partes
mutuamente excluyentes.
COMIENZO
DE ACTIVIDAD
3.
3.
Demostrar la P.4. utilizando la sugerencia dada.
Demostrar la P.4. utilizando la sugerencia dada.
FIN DE ACTIVIDAD
2.1.4. Tipos de probabilidad
Hay tres tipos de probabilidad de que ocurra un suceso aleatorio, a saber: probabilidad total, probabilidad conjunta o compuesta y probabilidad condicional
Probabilidad total
Se denomina probabilidad total a la probabilidad del suceso resultante de la
unión de dos o más sucesos cualesquiera.
Las probabilidades de los sucesos vistos en el subapartado 2.1.2. “que el
auto asegurado no sea robado” y “que salga un número par en la jugada de
la ruleta” son ejemplos de probabilidad total.
El suceso “que el auto asegurado no sea robado” es un suceso elemental, en cambio el suceso “que salga un número par en la jugada de la ruleta”
resulta de la unión de los sucesos elementales {2}, {4}, {6}, {8},......, {30},
{32},{34},{36} o sea,
P(sea par) = P({2}U{4}U {6}U{8}U......U{30}U{32}U{34}U{36})
P(sea par) = P(2) + P(4) + P(6) + P(8) +...+ P(30) + P(32) + P(34) + P(36) =
1/37 + 1/37 + 1/37 +…….+ 1/37 + 1/37 = 18 .1/ 37 = 18/37
Se entiende por equiprobabilidad, en el sentido
expresado por Laplace, a la igualdad de oportunidad que tiene cada
uno de los resultados elementales
de una población para ser seleccionado durante la realización de
un experimento aleatorio.
64
El cálculo realizado se basa en el tercer axioma y supone la equiprobabilidad
de cada uno de los resultados de la jugada de la ruleta.
Probabilidad condicional
Supongamos que un estudio contable que recién se inicia debe presentar ante
un organismo oficial dos declaraciones juradas (DDJJ) tomadas al azar entre
sus 10 clientes. Entre ellos, tres son grandes contribuyentes (G) y el resto
monotributistas (M).
El espacio muestral E = {GG, GM, MG, MM} puede obtenerse a partir del
diagrama de árbol del gráfico 2.7. en el que se incluyen las probabilidades
totales correspondientes a la primera selección
Estadistica
Gráfico 2.7. Diagrama de árbol
Es decir, por ejemplo, que hay una probabilidad de 0,3 –probabilidad total–
de que la primera declaración jurada seleccionada corresponda a un gran
contribuyente.
A continuación, completaremos el diagrama agregando las probabilidades
de los resultados de la segunda selección de una declaración teniendo en
cuenta que en la segunda instancia el conjunto de DDJJ va a contar con un elemento menos cambiando también su composición.
Gráfico 2.8. Diagrama de árbol
Si nos interesara, por ejemplo, la probabilidad de que la segunda declaración
jurada extraída sea de un monotributista tendríamos dos respuestas posibles
(7/9 y 6/9) dependiendo de cuál haya sido el resultado de la primera selección. Es decir, que la segunda selección está sujeta o condicionada a lo que
ocurrió en la primera. Las probabilidades consignadas al lado de cada resultado de la segunda extracción son probabilidades condicionales.
La probabilidad condicional mide la ocurrencia de un suceso B si hubiera ocurrido el suceso A y se expresa P(B/A), donde A es el suceso condición y el símbolo “/” es una notación (no una operación).
Las probabilidades condicionales consignadas en el árbol son:
P(G/G) = 2/9 = 0,2222
P(G/M) = 7/9 = 0,7778
P(M/G) = 3/9 = 0,3333
P(M/M) = 6/9 = 0,6667
La notación P(B/A) se
debe al economista inglés
J. M. Keynes (1883 – 1946) en su
Tratado sobre las probabilidades
(1933).
65
Universidad Virtual de Quilmes
La primera se lee: 0,2222 es la probabilidad de que en la segunda selección
la Declaración Jurada sea de un gran contribuyente si (dado que, tal que,
sabiendo que) la primera hubiera sido también de un gran contribuyente.
Probabilidad conjunta o compuesta
Las probabilidades de cada uno de los sucesos del espacio muestral se denominan probabilidades compuestas y miden la probabilidad de ocurrencia conjunta o simultánea de dos resultados particulares en ambas selecciones.
Convenimos en:
P(GG) = P(primero G y segundo G) = P(G1 I G2) = P(G I G)
La probabilidad compuesta o conjunta es la probabilidad de que ocurran simultáneamente dos o más sucesos.
Utilizando la definición de Laplace (casos favorables/casos posibles) la probabilidad del suceso GG resulta :
donde la cantidad de casos posibles resulta de contar todas las combinaciones de diez DDJJ (al momento de la primera selección) por nueve DDJJ (en la
segunda instancia), y la cantidad de casos favorables también resulta de la
combinación de 3 G (primera vez) por 2 G (segunda vez).
Relacionando con las probabilidades del árbol resulta finalmente:
Generalizando para dos sucesos cualesquiera A y B:
P(A I B) = P(A). P(B/A)
La probabilidad compuesta entre dos sucesos A y B resulta de la multiplicación de la probabilidad total del suceso condición A por la probabilidad condicional de B tal que A.
Conclusiones
Dados dos sucesos A y B de un espacio muestral de un experimento aleatorio con probabilidades no nulas, a partir de lo visto, se pueden deducir las
siguientes proposiciones:
66
Estadistica
Los experimentos aleatorios compuestos por repetición de uno simple son el
mecanismo básico para la confección de muestras en una población.
Otro tipo de experimentos compuestos sirven al estudio de la asociación
y/o relación causa efecto entre variables y son los experimentos compuestos
bivariados.
Experimento bivariado
Como ejemplo para el tratamiento de la probabilidad en experimentos bivariados analizaremos un caso particular como medio para la generalización.
Con la finalidad de pronosticar el estado del tránsito en función de la ocurrencia de embotellamiento a partir de la existencia de un accidente en una
autopista en determinada franja horaria, se relevaron datos históricos obteniéndose la siguiente información: el 20% de los automóviles que circulan por
esa autopista en el horario estudiado tuvieron algún tipo de accidente; el 95%
de las veces en que ocurrió un accidente se produjo un embotellamiento y
cuando no hubo accidente ocurrió un embotellamiento el 15% de las veces.
Notamos que podríamos identificar la ocurrencia de un accidente como
causa y el embotellamiento como un efecto.
En el diagrama de árbol del gráfico 2.9. se ilustra la información:
Gráfico 2.9. Diagrama de árbol
67
Insertar Imagen Nº G.2.9.
Insertar Imagen Nº G.2.9.
0,85
0,85
Donde las probabilidades que se tienen son:
Universidad Virtual de Quilmes
Donde las probabilidades que se tienen son:
Donde las probabilidades que se tienen son:
total de Accidente
P(A) = 0,20
total de Accidente total de No accidente
P(A) = 0,20
total de No accidente
P( A ) = 0,80
condicional de Embotellamiento tal que Accidente
P( ) = 0,80
P(E/A) = 0,95
condicional de Embotellamiento
Accidente
P(E/A) = 0,95
condicional detal
Noque
embotellamiento
tal que Accidente
P(
condicional de No condicional
embotellamiento
tal que Accidente
P( E /A) = 0,05
de Embotellamiento
tal que No accidente
condicional de Embotellamiento
No accidente tal que No
P(E/
A ) = 0,15
condicional detal
Noque
embotellamiento
accidente
condicional de No embotellamiento tal que No accidente
/A) = 0,0
P(E/
P(
) = 0,1
/
) = 0,
P( E / A ) = 0,85
A partir de estas probabilidades pueden calcularse las probabilidades conjuntas
A partir de estas probabilidades pueden calcularse las probabilidades conjuntas
A partir de estas probabilidades pueden calcularse las probabilidades conjuntas:
de Accidente y Embotellamiento
de Accidente y Embotellamiento
P(AEE) = 0,19
de Accidente y No embotellamiento
P(AEE) = 0,19
de Accidente y No de
embotellamiento
P(AE ) = 0,01
No accidente y Embotellamiento
P( A EE) = 0,12
de No accidente y de
Embotellamiento
P( EE) = 0,12
No accidente y No embotellamiento
P( A E E ) = 0,68
de No accidente y No embotellamiento
P(
E
P(AE E ) = 0,01
) = 0,68
Con las probabilidades
totales detotales
las causas
y lascausas
conjuntas
tabla conjunta
de probabili
Con las probabilidades
de las
y lasarmamos
conjuntasuna
armamos
una
Con las probabilidades totales de las causas y las conjuntas armamos una tabla conjunta de pr
contingencias.
tabla conjunta de probabilidades o tabla de contingencias.
contingencias.
E
A
Total
A
A
Total
0,19
0,12
0,31
E
0,19
0,12
0,31
0,01
0,68
0,69
E
0,01
0,68
0,69
Total
0,20
0,80
1
Total
0,20
0,80
1
En la que además aparecen calculadas las probabilidades totales de los efectos Embotell
EnEn la
queademás
ademásaparecen
aparecen
calculadas
las probabilidades
de los efectos Em
la que
calculadas
las probabilidades
totalestotales
de los efecembotellamiento.
Embotellamiento
y No
embotellamiento.
Por embotellamiento.
sutos
ubicación
en la tabla de
contingencia,
a las probabilidades totales se las suele denominar tambié
Por
su
ubicación
en
la
tabla
de contingencia,
a las aprobabilidades
totalestotales
se las suele denominar
de contingencia,
las probabilidades
marginales. Por su ubicación en la tabla
marginales.
se las
tambiénpueden
probabilidades
marginales
.
A partir
de lasuele
tabladenominar
de contingencias
calcularse
las siguientes
probabilidades condicionale
A
partir
de
la
tabla
de
contingencias
pueden
calcularse
las
condi
partir de la tabla de contingencias pueden calcularse lassiguientes
siguientesprobabilidades
propartir de losAefectos
partir
de los efectos
babilidades
condicionales de las causas a partir de los efectos:
Accidente tal que Embotellamiento
P(A/E) = 0,19/0,31 = 0,6129
Accidente tal que Embotellamiento
P(A/E) = 0,19/0,31 = 0,6129
Accidente tal que No embotellamiento
P(A/ E ) = 0,01/0,69 = 0,0145
Accidente tal que No embotellamiento
P(A/ ) = 0,01/0,69 = 0,0145
No accidente tal que Embotellamiento
P( A /E) = 0,12/0,31 = 0,0039
No accidente tal que Embotellamiento
P( /E) = 0,12/0,31 = 0,0039
No accidente tal que No embotellamiento P( A / E ) = 0,68/0,69 = 0,9855
No accidente tal que No embotellamiento P( / ) = 0,68/0,69 = 0,9855
Las probabilidades calculadas se denominan probabilidades bayesianas o probabilidades condicionales
Las probabilidades
calculadas
se denominan probabilidades bayesianas o probabilidades condic
formalizan
mediante el teorema
de Bayes
formalizan mediante el teorema de Bayes
68
COMIENZO DE PASTILLA EN Bayes
DElaPASTILLA
En 1764,COMIENZO
después de
muerte EN
de Bayes
Thomas Bayes (1702-1761), se publicó An essay formars solving a problem in the d
En 1764,
de la muerte
de Thomas
Bayes (1702-1761),
se publicó An
formars
solving
una memoria
en ladespués
que aparece,
por vez primera,
la determinación
de la probabilidad
deessay
las causas
a partir
de alosproblem
efectos
una memoria en la que aparece, por vez primera, la determinación de la probabilidad de las causas a partir de los
observados.
observados.
FIN DE PASTILLA
FIN DE PASTILLA
Estadistica
Las probabilidades calculadas se denominan probabilidades bayesianas o probabilidades condicionales de la causas y se formalizan mediante el teorema
de Bayes.
Dado el suceso B (efecto) de un espacio muestral E y una partición de n
sucesos Ai (causas) de dicho espacio, la probabilidad de que ocurra el suceso Ai si ocurriera el suceso B es:
donde P(B) es la probabilidad total del suceso condición y P(B) ≠ 0.
En 1764, después de la
muerte de Thomas Bayes
(1702-1761), se publicó An essay
formars solving a problem in the
doctrine of chances, una memoria en la que aparece, por vez primera, la determinación de la probabilidad de las causas a partir
de los efectos que han podido ser
observados.
Para Aj cualquier suceso del conjunto de los Ai con i = 1, 2…n
4.
Considerando la tabla conjunta 1.11. del subapartado 1.1.2. de la Unidad anterior referida al rubro y evolución de los puestos de trabajo de
las pymes, calcular una probabilidad de cada uno de los tipos vistos e
interpretarla.
2.2. Variable aleatoria
Una variable aleatoria asigna valores numéricos, del conjunto de los números
reales, a los sucesos definidos en el espacio muestral asociado a un experimento aleatorio.
En caso de que el espacio muestral de un experimento aleatorio tenga una
cantidad finita o infinita numerable de elementos, es decir, que permite algún
mecanismo de conteo, la variable aleatoria diseñada será una variable aleatoria discreta.
En caso de que el experimento aleatorio involucre algún tipo de medición,
–cuyos resultados pertenecen a regiones del conjunto de los números reales–
donde es clara la imposibilidad de conteo, la variable aleatoria es de naturaleza continua y por ello se la denomina variable aleatoria continua.
Se denomina variable aleatoria a una función del espacio muestral sobre
el espacio de los números reales.
2.2.1. Variable aleatoria discreta
Las variables aleatorias discretas son funciones del espacio muestral sobre
el subconjunto de los enteros.
Diseñaremos una variable aleatoria discreta para el ejemplo del estudio
contable utilizado en el subapartado 2.1.4. (probabilidad condicional).
69
Recordemos que el espacio muestral es: E = {GG, GM, MG, MM}
Universidad Virtual de Quilmes
La variable aleatoria de diseño que elegimos es:
de clientes
monotributistas
las dos
seleccionadas”
X: “cantidadque
de DDJJ
Recordemos
el espacio
muestral
es: E = {GG,entre
GM, MG,
MM}
COMIENZO
DE PASTILLA
La variable
aleatoria
de diseño EN
quemonotributistas
elegimos es:
Al momento de diseñar
una variable aleatoria discreta debe optarse por alguna de
las categorías involucradas en el
problema para la cual la variable
hará el conteo. En nuestro caso,
podría haberse optado por otra variable que contara la cantidad de ddjj
de grandes clientes entre las dos
seleccionadas.
Al momento de diseñar una variable aleatoria discreta debe optarse por alguna de las categorías involucradas
variable hará el conteo. En nuestro caso, podría haberse optado por otra variable que contara la cantidad de DD
X:dos
“cantidad
de DDJJ de clientes monotributistas entre las dos seleccionadas”
seleccionadas.
FIN DE PASTILLA
La variable aleatoria X recorrerá los valores enteros entre 0 y 2, donde 0 significa
ninguna
de las dos
DDJJ corresponderían
a monotributistas
2 que 0 significa que
Laque
variable
aleatoria
X recorrerá
los valores enteros
entre 0 y 2,y donde
ambas
declaraciones
sean
de
monotributistas.
corresponderían a monotributistas y 2 que ambas declaraciones sean de monotributistas.
X
E A½
GG
0
GM
MG
1
MM
2
El recorrido de X es R(X) = {0, 1, 2}
El recorrido de X es R(X) = {0, 1, 2}
Calculamos la probabilidad para cada valor r del recorrido de X obteniendo así los valores
Calculamos la probabilidad para cada valor r del recorrido de X obteniendo así
de probabilidad h(r). Siendo h(r) = P(X = r)
los valores de la denominada función de probabilidad h(r). Siendo h(r) = P(X = r)
h (0)
= P(= X=
0 M)0 =M)
P(GG)
= 6/90
h (0)
P( X=
= P(GG)
= 6/90
h (1)
=
P(
X=
1
M)
=
P(G,
M)
P(MG)
= 21/90
+ 21/90
= 42/= 90
h (1) = P( X= 1 M) = P(G,+ M)
+ P(MG)
= 21/90
+ 21/90
42/ 90
h (2)
=
P(
X=
2
M)
=
P(MM)
=
42/90
h (2) = P( X= 2 M) = P(MM) = 42/90
Confeccionamos aacontinuación
la tabla
(T.2.1.)
de distribución
de probabilidades.
Confeccionamos
continuación
la tabla
(T.2.1.)
de distribución
de probabilidades.
T.2.1.
T.2.1.
r
0
1
2
h(r)
6/90
42/90
42/90
F(r)
6/90
48/90
1
Donde F(r) es la función de distribución acumulativa o simplemente función de distribución.
Donde F(r) es la función de distribución acumulativa o simplemente función de
COMIENZO
LEER
≤ r). ATENTO
distribución
. Siendo F(r) DE
= P(x
h(r) es una función de probabilidad de una variable aleatoria discreta X si y sólo si
R(X) se cumplen las siguientes propiedades que se desprenden de los dos primeros a
0
h(r)1)esh(r)
una*función
de probabilidad de una variable aleatoria discre
h(r)
=
1
ta X sí y sólo si para todo elemento r del R(X) se cumplen las siguienFIN
DE LEER ATENTO
tes propiedades
que se desprenden de los dos primeros axiomas de
probabilidad.
Un gráficoh(r)
adecuado
para la función de probabilidad h(r) es el de bastones y para la función
≥0
escalones,∑ambos
en el subapartado 1.1.3. de la Unidad 1.
h(r) = vistos
1
El carácter numérico de la variable aleatoria permite calcular algunas de las medidas –m
estándar– de las aplicadas anteriormente a las variables estadísticas, con la siguiente salvedad: e
Unmedia
gráficocorresponde
adecuado para
función de
probabilidad
h(r) es
de una
bastones
y aleatoria la m
la
a unlapromedio
observado
mientras
queel en
variable
para la función
distribución
es el de escalones,
esperado,
o valorde
esperado,
y se denomina
esperanza.ambos vistos en el subapartado 1.1.3. de la Unidad 1.
La esperanza E(X), la varianza V(X) y el desvío estándar DS(X) se expresan
70
E(X) =
para todo r del R(X)
Estadistica
El carácter numérico de la variable aleatoria permite calcular algunas de las
medidas –media, varianza y desvío estándar– de las aplicadas anteriormente
a las variables estadísticas, con la siguiente salvedad: en una variable estadística la media corresponde a un promedio observado mientras que en una
variable aleatoria la media indica un promedio esperado, o valor esperado, y
se denomina esperanza.
La esperanza E(X), la varianza V(X) y el desvío estándar DS(X) se expresan
La esperanza de la variable del problema es:
E (X) = 0.6/90 +1.42/90 + 2. 42/90 = 1,4 DDJJ de monotributistas
Es decir, que si se seleccionan al azar dos DDJJ se espera que entre ellas haya
1,4 de clientes monotributistas.
La varianza y el desvío estándar son: V(X) = 0,3733 y DS(X) = 0,611
Propiedades de la esperanza y de la varianza
P.1. E(C) = C
La esperanza de una constante es ella misma.
Las propiedades que se
enuncian son válidas en
cualquier experimento aleatorio,
sea este simple o compuesto.
P.2. E(C + n . X) = C + n . E(X)
C + n.X es una nueva variable aleatoria resultante de una transformación
lineal de X.
P.3. E(n . X) = n . E(X)
Caso particular que se desprende de la propiedad anterior
P.4. E(X + Y) = E(X) + E(Y)
X + Y es una nueva variable aleatoria, resultante de sumar las variables
X e Y.
P.5. V(X + Y) = V(X) + V(Y)
Sólo si X e Y son independientes.
2
P.6. V(n . X) = n . V(x)
Se deduce de la definición de varianza
2.2.2. Modelos especiales de variables aleatorias discretas
Existen problemas de distinta índole originados en ramas diversas de la ciencia, que al ser vinculados con experimentos aleatorios presentan caracterís71
Universidad Virtual de Quilmes
ticas similares; esas características comunes son las que permiten modelarlos unívocamente.
Para la construcción de un modelo probabilístico, primero deben identificarse exhaustivamente cada una de las características específicas del experimento y seguidamente asociarle una variable aleatoria apropiada.
Experimento binomial
El experimento binomial es un experimento compuesto que consiste en n repeticiones independientes de un experimento simple dicotómico.
Por lo tanto las características que lo identifican son:
Si el experimento tiene
más de dos resultados
posibles hay que dicotomizarlo.
Si las repeticiones del
experimento simple no
fueran independientes, el modelo que se generaría se denomina
modelo hipergeométrico.
• El experimento simple tiene sólo dos resultados posibles, denominados
éxito –suceso que interesa seguir– y fracaso – suceso complementario.
• Se repite n veces el experimento simple.
• Las repeticiones del experimento simple son independientes entre sí.
Vinculadas al experimento binomial pueden definirse más de una variable aleatoria, con sus correspondientes distribuciones de probabilidad, cumpliendo
distintos roles dentro del mismo experimento. Ellas son las variables aleatorias binomial, geométrica y de Pascal (o binomial negativa).
Variable aleatoria binomial
En este experimento, la variable
aleatoria x asociada toma valores 0 y 1. La esperanza de esta
variable resulta ser la probabilidad de éxito. P. Santiago Jacobo
Bernouilli o Bernoulli (1654-1705)
fue un matemático suizo de origen belga. Entre otras cosas fue
quien usó por primera vez la palabra “integral” y escribió el “Ars
conjectandi” sobre el cálculo de probabilidades.
En símbolos X ~ B(n,P)
Es una variable discreta que cuenta la cantidad r de éxitos en un experimento binomial.
Llamaremos P a la probabilidad de éxito y en consecuencia 1-P a la probabilidad de fracaso.
El modelo binomial queda caracterizado por n (número de repeticiones
del experimento simple o de Bernoulli) y P (probabilidad de éxito en cada
repetición) que son sus parámetros. Entonces decimos que la variable aleatoria X asociada tiene distribución binomial con parámetros n y P.
El modelo matemático para la distribución binomial permite calcular los valores de la función de probabilidad h(r).
h (r) = P(X = r) = nCr . Pr . (1-P) n-r
nCr combinatorio
es un número combinatorio que cuenta la cantidad de combinaCOMIENZO DE PASTILLA Donde
EN número
n
n!
nCr = =
r r!(n r)!
FIN DE PASTILLA
ciones de n elementos tomados de a r, es decir la cantidad de grupos de r elementos que pueden formarse a partir de los n.
Ejemplo
De la revisión de los archivos de una empresa de larga trayectoria en un deterEjemplo
minado rubro
surge
que en
70% trayectoria
de sus balances
De la revisión de los archivos
de una
empresa
deellarga
en unsemanales se registraron
superávit.
auditoría
propusosemanales
realizar unase
muestra con los balances
determinado rubro surge
que enEnel una
70%
de susse
balances
de 10
al azar
en forma
registraron superávit. En
unasemanas
auditoríatomadas
se propuso
realizar
unaindependiente.
muestra
con los balances de 10 semanas tomadas al azar en forma independiente.
Conceptualizando que esa muestra es un experimento aleatorio y
7
2
pasando revista a sus características comprobamos que responden a un
modelo binomial a saber: hay dos resultados posibles (superávit o no
h (r) = P(X = r) = nCr . Pr . (1-P) n-r
Donde nCr es un número combinatorio que cuenta la cantidad de combinaciones de n elementos tomados de a r,
Estadistica
es decir la cantidad de grupos de r elementos que pueden formarse a partir de los n.
COMIENZO
DE PASTILLA EN número
combinatorio
Conceptualizando
que esa
muestra
es un experimento aleatorio y pasando revista a sus características comprobamos que responden a un modelo
binomial a saber: hay dos resultados posibles (superávit o no superávit) cada
FIN
PASTILLA
vezDEque
se seleccione un balance semanal y se toman n (10) balances en
forma independiente.
Ejemplo
Ante la futura auditoría nos podemos preguntar acerca de la probabilidad
De
revisión
de los archivos
empresa
de sumo
larga trayectoria
en un
determinado
surge que en el 70% de sus
de laque
se encuentren
en de
la una
muestra
a lo
5 balances
con
superávit rubro
o
balances
semanales
se
registraron
superávit.
En
una
auditoría
se
propuso
realizar
una
muestra
con los balances de 10
entre 3 y 6 balances con superávit o al menos 6 balances con superávit.
semanas tomadas al azar en forma independiente.
La variable aleatoria asociada al experimento, para responder los interroConceptualizando que esa muestra es un experimento aleatorio y pasando revista a sus características comprobamos
gantes del auditor, podría ser:
que responden a un modelo binomial a saber: hay dos resultados posibles (superávit o no superávit) cada vez que se
seleccione un balance semanal y se toman n (10) balances en forma independiente.
X: “cantidad de balances con superávit entre los 10 seleccionados al azar en
forma
independiente”.
X:
“cantidad
de balances con superávit entre los 10 seleccionados al azar en forma independiente”.
Losparámetros
parámetros
la distribución
resultan
entonces,
Los
de de
la distribución
resultan
entonces,
n = 10
Pn
= =0,70
10
P = 0,70
losvalores
valores
la función
de probabilidad
de la función
de distribuyy los
dede
la función
de probabilidad
h(r) yh(r)
los ydelos
la función
de distribución
F(r) = P(X ) r) se encuentran en la
ción T.2.2.
F(r) = P(X £ r) se encuentran en la tabla T.2.2.
tabla
T.2.2.
T.2.2.
0
1
2
3
4
5
6
7
8
9
10
h(r)
ri
0,000006
0,000138
0,001447
0,009002
0,036757
0,102919
0,200121
0,266828
0,233474
0,121061
0,028248
F(r)
0,000006
0,000144
0,001591
0,010593
0,047350
0,150268
0,350389
0,617217
0,850691
0,971752
1
La probabilidad de que en la muestra se encuentren a lo sumo 5 balances con superávit será:
La probabilidad de que en la muestra se encuentren a lo sumo 5 balances
con superávit será:
o también
La probabilidad de que en la muestra haya entre 3 y 6 balances con superávit
o también
Al menos 6 balances con superávit
73
Universidad Virtual de Quilmes
o también
Esperanza y varianza de una distribución binomial
Como el experimento binomial consiste en n repeticiones independientes de
un ensayo Bernoulli, la variable aleatoria binomial X es una transformación
lineal de la variable aleatoria Bernoulli x, es decir,
Luego,, aplicando las propiedades de la esperanza y varianza P.4. y P.5. enunciadas anteriormente en el presente apartado calculamos la esperanza y la
varianza de una variable aleatoria binomial X..
La esperanza es:
y la varianza resulta:
Volviendo al ejemplo de los balances, la cantidad de balances que se espera
encontrar con superávit entre los 10 seleccionados será
E(X) = n . p = 10 . 0,70 = 7 balances con superávit
Con una desviación estándar de
Proceso de Poisson
Un proceso de Poisson es un experimento de naturaleza binomial donde
los éxitos ocurren o no a lo largo de un intervalo continuo (el cual puede
estar dado en tiempo, longitud, superficie, volumen, etcétera).
La intensidad media es la cantidad de éxitos esperada por unidad del continuo, mientras el proceso sea el mismo.
74
Es un proceso donde los “éxitos” ocurren en el transcurso del continuo y a diferencia de un experimento binomial puro los “fracasos” no pueden ocurrir porque representan la ausencia de éxito.
Lo que caracteriza unívocamente a un determinado proceso de Poisson es
la intensidad media (a) de ocurrencias de éxito en la unidad del continuo.
Estadistica
Por ejemplo, una distribuidora mayorista comprobó que, en las primeras
semanas de cada mes, la cantidad media demandada de un determinado producto es de 3 toneladas diarias. El fenómeno descrito involucra un proceso
de Poisson donde a = 3 tn/día para esa época del mes.
También, que en las últimas semanas de cada mes la demanda media diaria baja a 2 toneladas. En este caso el proceso de Poisson sería otro porque
presenta una intensidad media a = 2 tn/día, diferente a la anterior.
Diferentes a indican procesos poissonianos distintos.
En un proceso aleatorio poissoniano es posible definir variables aleatorias
de distinto tipo. Para procesos de este tipo, en esta carpeta, presentaremos
una variable aleatoria discreta llamada de Poisson (que cuente la cantidad de
éxitos en un intervalo continuo) y una variable aleatoria continua denominada
exponencial que veremos en 2.2.4.
Variable aleatoria de Poisson
Es una variable discreta que cuenta la cantidad de “éxitos” que podrían ocurrir en un cierto intervalo continuo, durante un proceso de Poisson.
Establecido un intervalo de longitud t en el continuo, la cantidad media esperada de ocurrencia de éxitos en ese intervalo es E(X) = α . t,, donde α es la ya
vista intensidad media de ocurrencias de éxito en la unidad del continuo.
La esperanza E(x), que simbolizamos con la letra griega λ es el parámetro
de esta distribución.
Si una variable aleatoria discreta X sigue una distribución de Poisson de
parámetro λ podemos expresarla en símbolos como X ~ P(l) y la probabilidad
P(X= r) de que sucedan r éxitos en un intervalo t dado se calcula mediante la
siguiente fórmula:
La probabilidad de una variable aleatoria X que se distribuye en forma de
Poisson:
• depende únicamente de la longitud (t) del intervalo considerado,
• es independiente de lo ocurrido en alguno de los intervalos precedentes.
Para intervalos de diferente longitud t habrá distintas distribuciones de probabilidad, cada una con su propio λ todas dentro de un mismo proceso caracterizado por α.
Lo particular de esta variable aleatoria es que su varianza también es λ .
Volviendo al ejemplo de la distribuidora mayorista nos planteamos las siguientes inquietudes.
• ¿Cuál es la probabilidad de que en dos días de la primera semana de un
mes cualquiera se produzca una demanda de 5 toneladas?
Determinamos primero el valor del parámetro λ para un t = 2 días:
75
Universidad Virtual de Quilmes
La probabilidad de que en esos dos días la demanda sea de 5 toneladas es
de 0,1606.
Con base al λ calculado podemos decir que en esos dos días se espera que
haya una demanda de 6 toneladas del producto.
• ¿Cuál es la probabilidad de que en un día y medio de la última semana de
un mes cualquiera la demanda sea superior a 2 toneladas.
En este caso, λ = tn/día . 1,5 días = 3 tn
Luego:
La probabilidad de que en ese día y medio la demanda supere las 2 tn es
0,8009.
Con base al λ calculado podemos decir que en esos dos días se espera que
haya una demanda de 3 toneladas del producto.
5.
Buscar tres ejemplos de la vida real que pudieran constituir un proceso
de Poisson y para cada uno describir la variable involucrada.
2.2.3. Variable aleatoria continua
Existen fenómenos que no permiten ser tratados con modelos de variables
aleatorias discretas debido a que los resultados del experimento aleatorio
asociado a él sólo son medibles en el conjunto de los números reales. En
este caso la variable aleatoria asociada debe ser una variable continua para
la cual no se pueden listar puntualmente cada uno de sus valores pero sí considerar su recorrido mediante intervalos.
Al ser las variables aleatorias continuas funciones del espacio muestral
sobre el espacio de los números reales, el tratamiento de la misma deberá realizarse mediante intervalos, los problemas de probabilidad que las involucran
son del tipo P(x ≤ a), P(x ≥ b) o P(a ≤ x ≤ b).
En una variable aleatoria continua, el correlato de la función h(r) de las
variables aleatorias discretas es la función f(x) denominada función de densidad
de probabilidad que a diferencia de la h(r) no asigna probabilidades sino que
permite calcularlas en intervalos de números reales.
La función de densidad de probabilidad cumple con las siguientes propiedades:
76
Estadistica
Los valores de la función f(x) deben ser siempre positivos o 0 para cualquier
valor de la variable X.
El área encerrada entre la función –en todo su dominio– y el eje de las abscisas es 1.
La probabilidad de que la variable aleatoria se encuentre entre dos valores a
y b resulta de integrar la función de densidad f(x) entre esos dos límites.
Gráfico 2.10.
En el caso que a coincida con b el área de la región sombreada en el G.2.10.
tendría base igual a 0 y el área es 0, lo que también se desprende de la P.3.
cuando a y b coinciden en un mismo punto. Es decir, que en una variable aleatoria continua las probabilidades puntuales son cero.
Una función de densidad de probabilidad es un modelo teórico probabilístico sustentado, en general, por la distribución de una población.
Como consecuencia de
que las probabilidades
puntuales son cero los sucesos
“x < a” y “x ≤ a” son idénticos y
por lo tanto sus probabilidades son
iguales.
2.2.4. Modelos especiales de variables aleatorias continuas
Como se hiciera mención en el subapartado 2.2.2. las características comunes
de algunos fenómenos aleatorios son las que permiten elaborar modelos.
En el caso de las variables aleatorias continuas desarrollaremos dos modelos especiales de distribución.
77
Universidad Virtual de Quilmes
Distribución normal
Un fenómeno que genera típicamente una población con distribución normal
es la medición del tiempo requerido para efectuar una misma operación por
todos los clientes de una determinada entidad bancaria, bajo el supuesto de
que todos deberían tardar el mismo tiempo para realizar dicha operación.
A la hora de medir efectivamente el fenómeno podemos observar que predominan los clientes que emplearían para hacer la operación un tiempo cercano al promedio, sin embargo, algunos son más rápidos y otros más lentos
generando una distribución del tiempo como la siguiente.
Gráfico 2.11.
El modelo teórico de la distribución normal de una variable continua x se formaliza matemáticamente mediante la función f(x) cuya expresión
representada gráficamente es
Gráfico 2.12.
donde µ –la media– y σ –el desvío estándar– son los parámetros de la distribución y para cada par de valores de µ y σ se tendrá una curva diferente.
Características de la curva normal
La curva que es la representación gráfica de la distribución normal tiene las
siguientes características:
78
Estadistica
• Es perfectamente simétrica alrededor de µ.
• Es asintótica con el eje de la variable x hacia ±∞, es decir que el 100% de
la población queda encerrado entre esos dos límites.
• Como consecuencia de las dos características anteriores la mitad de la
población se encuentra entre –∞ y µ y la otra mitad entre µ y +∞ .
Gráfico 2.13.
• Presenta dos puntos de inflexión a una distancia de un desvío estándar a
ambos lados de la media.
• Las proporciones de población que quedan comprendidos en secciones de
un desvío estándar de amplitud a ambos lados de la media aparecen asentadas en el gráfico G.2.14.
Gráfico 2.14.
El siguiente ejemplo, se refiere a un experimento aleatorio sobre una población con distribución normal, donde la función f(x) que describe esa distribución poblacional es la función de densidad de probabilidad de la variable aleatoria involucrada en el experimento.
Ejemplo
Retomando el caso de los clientes de una entidad bancaria que efectúan una
operación determinada, se ha encontrado que el tiempo medio requerido para
realizarla es de 130 segundos con un desvío estándar de 43 segundos.
Si se tomara un cliente al azar –experimento aleatorio– se podrían plantear las siguientes preguntas: a) ¿cuál es la probabilidad de que esa persona
emplee menos de 100 seg. para realizar la operación? o b) ¿cuál es la probabilidad de que tarde entre 2 y 3 minutos en realizar la transacción?
Esquematizamos las dos situaciones planteadas en los gráficos 2.15. y
2.16. respectivamente.
79
Universidad Virtual de Quilmes
Gráfico 2.15.
Gráfico 2.16.
Y las sendas respuestas son:
a. P( x < 100s) = F(100) = 0,2427
b. P(2min< x <3 min) = P(120 s < x < 180 s) = P( x < 180s) – P( x < 120s) =
= F(180) – F(120) = 0,8775 – 0,4081 = 0,4694
A los resultados obtenidos puede arribarse por integración analítica de la función de densidad normal entre los extremos que correspondan o bien utilizando un programa estadístico (por ejemplo el módulo estadístico de Excel, o
los programas SPSS, InfoStat u otro).
Si no se contara con las mencionadas herramientas de cálculo puede utilizarse como recurso la tabla de probabilidades acumuladas de la denominada distribución normal estándar que figura en el Anexo I y cuyas características, además de las generales descritas anteriormente para cualquier
distribución normal, son:
• nombre de la variable normal estándar : Z
• parámetros: mz = 0 y sz = 1
• función de densidad normal estándar:
Para convertir un valor cualquiera x correspondiente al problema real (con distribución normal) a un valor estandarizado z (con el fin de aprovechar la tabla
del Anexo I) se utiliza la siguiente fórmula de estandarización:
80
Estadistica
Aplicando la distribución normal estándar a la resolución de los ítems anteriores, resulta
Las diferencias que se detectan al realizar los cálculos con la tabla se deben
al redondeo a dos decimales de z que tiene dicha tabla.
6.
a. Calcular el tiempo máximo que, con una probabilidad de 0,90, tardaría en hacer dicha operación un cliente de la entidad bancaria
tomado al azar.
b. En relación con la población de clientes observada, si se consideraran sólo los clientes que tardaron menos de 130 segundos ¿qué porcentaje de ellos tardó más de 100 segundos?
Experimento exponencial
El experimento exponencial se define dentro de un proceso de Poisson y en
consecuencia la variable continua exponencial está íntimamente relacionada
con la variable discreta de Poisson.
Mientras el rol de la variable aleatoria de Poisson es contar la cantidad de
éxitos a lo largo de un intervalo continuo, la variable aleatoria exponencial
mide, a partir del último éxito ocurrido, la longitud del continuo hasta la ocurrencia del siguiente éxito.
Con el último éxito concluye el experimento exponencial lo que determina
su carácter de efímero (se desarrolla sólo entre dos éxitos), por lo que fijado
un cierto intervalo t del continuo a partir del último éxito sólo podrían ocurrir
dos sucesos aleatorios:
• que la variable exponencial mida la ocurrencia del siguiente éxito antes de
transcurrido t es decir x < t, o
• que la variable exponencial mida la ocurrencia del siguiente éxito después
de transcurrido t es decir x > t.
Los sucesos x < t y x > t son los dos únicos sucesos aleatorios que pueden imaginarse dentro de un experimento exponencial y por lo tanto son
complementarios y como tales, mutuamente excluyentes.
81
Universidad Virtual de Quilmes
La primera consecuencia de lo expresado anteriormente es que no hay sucesos compuestos en un experimento exponencial porque el único suceso concebible {x < t} I {x > t}
es un suceso imposible {x < t} I {x > t} = Ø
y por lo tanto su probabilidad es nula
P({x < t} I {x > t}) = P( Ø ) = 0
La segunda consecuencia es que no hay probabilidades condicionales puesto que no hay posibilidad de particionar la población para definir un suceso aleatorio que represente la condición porque, como razonamos anteriormente, el
experimento es efímero y no hay una colección de datos que permita describir una población, por lo tanto no existen poblaciones exponenciales.
Formalmente, y asignando arbitrariamente a uno de los dos sucesos posibles el rol de condición, se tiene:
Al no haber población, no podemos contar inicialmente con una función de
densidad exponencial procediendo de forma similar a como se obtuvo, por
ejemplo, la función de densidad normal.
Usaremos un camino distinto aprovechando el vínculo entre las distribuciones de Poisson y exponencial dentro de un mismo proceso de Poisson
caracterizado por α.
Para ello, definiremos un suceso aleatorio S: que transcurra todo un cierto
intervalo t sin que ocurra éxito, cuya probabilidad pueda calcularse tanto utilizando la variable aleatoria de Poisson como la variable aleatoria exponencial.
P(que no ocurra éxito a lo largo de t) = P(XPoisson = 0) = P(xexponencial > t)
Donde:
P(XPoisson = 0) = e-a.t = P(xexponencial > t)
Luego, las probabilidades de los únicos sucesos posibles de un experimento
exponencial resultan:
-α.t
P(x > t) = e
y aplicando la propiedad de la probabilidad de sucesos complementarios
-α.t
P(x < t) = 1 - P(x > t) = 1 - e
se observa que esta expresión corresponde a la función de distribución acumulada, luego se tiene que
-α.t
F(t) = 1 - e
82
Estadistica
y derivándola se obtiene la función de densidad de probabilidad f(x)
F´ (x) = f(x)
La función de densidad que sintetiza al modelo es entonces
Cuya representación gráfica es G.2.17.
Gráfico 2.17.
El parámetro de la distribución exponencial es el mismo a que caracteriza al proceso de Poisson.
La esperanza de esta variables es:
y la varianza
Aplicaciones de la distribución exponencial
Caso A. Como distribución de los tiempos de espera, la exponencial puede
aplicarse a problemas de rotación de inventario donde el experimento comienza a partir de un pedido (éxito) y luego la variable recorre los valores aleatorios del tiempo en que puede ocurrir el siguiente (éxito) pedido. A continuación
se desarrolla un ejemplo.
Una distribuidora mayorista comprobó que cada 5 días hábiles recibe en promedio 3 pedidos de embarque de cierto artículo (a = 3 pedidos/5 días = 0,6
pedidos/día).
83
Universidad Virtual de Quilmes
1- Teniendo en cuenta que el tiempo para reponer un embarque en depósito
es de 1 día, despachado un pedido ¿con qué probabilidad el siguiente llegará después de ese lapso?
2- Siendo el tiempo medio esperado entre pedidos: E(X) = 1/a = 1,67 días,
¿con qué probabilidad el siguiente pedido será antes de lo esperado?
3- Con una probabilidad de 0,90 ¿de cuánto tiempo se dispone entre dos
pedidos?
despejando t se tiene t = ln 0,90 / -0,6 = 0,18 días
4- Habiendo despachado un pedido, ¿con qué probabilidad el siguiente llegará entre 1 y 2 días después?
Caso B. La distribución exponencial también puede aplicarse a problemas de
fiabilidad o plazo de servicio de los artículos en circulación, vida útil de materiales o de mercancías perecederas, donde la variable recorre los valores aleatorios de vida útil de los mismos hasta quedar fuera de servicio. Aquí no hay
dos éxitos pues el experimento comienza con el inicio del servicio y termina
en la falla, que es el único éxito. A continuación se analiza un ejemplo.
Para ciertas lámparas de bajo consumo, su fabricante midió que la vida
media de funcionamiento sin fallo es de 8.000 horas. Si se instalara una cualquiera de esas lámparas.
1- ¿Cuánto tiempo se espera que dure?
Dentro del experimento aleatorio, que consiste en tomar al azar una de las
lámparas e instalarla, la media observada con anterioridad se convierte en
un media esperada E(X) = 8.000 h.
2- ¿Con qué probabilidad durará más de 8.000 h?
α = 1/E(X) = 1/8000 = 0,000125
84
Estadistica
3- ¿Cuántas horas de funcionamiento sin falla se puede garantizar, con una
probabilidad de 0,90?
7.
Tomando el ejemplo ya trabajado en la distribución Poisson, una distribuidora mayorista comprobó que, en las primeras semanas de cada
mes, la cantidad media demandada de un determinado producto es de
3 toneladas diarias. Luego de la última tonelada demandada, para la
misma época del mes
a. ¿Cuántos días se espera que transcurran hasta el siguiente pedido de
una tonelada?
b. Calcular la probabilidad de que el siguiente pedido de una tonelada
ingrese luego de transcurridos 2 días.
c. Calcular la probabilidad de que el pedido se realice antes de que pase
un día y medio.
85
3
Inferencia estadística
Objetivos
• Estudiar las relaciones entre los estadísticos muestrales y los parámetros
poblacionales.
• Desarrollar procedimientos relativos a dos de los problemas fundamentales de la inferencia estadística: estimación de parámetros y prueba de
hipótesis.
3.1. Distribución de estadísticos muestrales
En el estudio de una población es factible observar que los individuos que la
conforman presentan diferencias entre sí y como reflejo de ello todas las muestras posibles de cierto tamaño n, seleccionadas al azar de esa población, también presentarán variaciones entre ellas en su conformación. Tales variaciones se transmiten al compotamiento de las medidas muestrales también
denominadas estadísticos muestrales calculados a partir de cada una de las
muestras, dando origen a nuevas poblaciones de naturaleza teórica, las poblaciones de los estadísticos muestrales.
La importancia del estudio de la distribución de los estadísticos muestrales radica en el hecho de que ellos son los estimadores de los parámetros
poblacionales.
Dada una población conocida de tamaño N con media poblacional µ y proporción poblacional P(e) = P de algún valor e elegido como éxito, si de ella se
seleccionan aleatoriamente todas las muestras posibles de tamaño n y para
cada una de ellas se calcula la media aritmética Xi y la proporción de éxito
pi(e)= pi, se tendrán m muestras y consecuentemente la misma cantidad m de
medias aritméticas y de proporciones muestrales.
87
Universidad Virtual de Quilmes
El mejor estimador de un
parámetro poblacional
es aquel que cumple con ciertas
cualidades (insesgabilidad, consistencia, eficiencia y suficiencia)
que aquí no se analizarán.
Las dos últimas columnas constituyen las poblaciones de las variables aleatorias media muestral y proporción muestral. Por su importancia conceptual,
seguidamente trataremos las distribuciones teóricas de las poblaciones de
los estadísticos media muestral (como mejor estimador de µ) y proporción
muestral (como mejor estimador de P).
3.1.1. Distribución del estadístico media muestral
Los gráficos que se presentan a continuación se refieren a la distribución de
dos poblaciones, la primera corresponde a una población original conformada
por las edades de los 497 empleados de una empresa –gráfico.3.1– mientras que la segunda –gráfico 3.2– representa a la distribución de la población
teórica de las edades medias de todas las muestras de tamaño 2 que se
extrajeron de la población original.
Gráfico.3.1
Gráfico
3.1.
Gráfico.3.1
Distribución de la población original
Distribución de la población original
frecuencia
frecuenciarelativa
relativa
0,17
0,17
0,14
0,14
0,11
0,11
0,08
0,08
0,06
0,06
0,03
0,03
0,00
0,00
22
22
35
35
48
48
62
62
X
X
Los parámetros de la población original (de edades) son:
µ = 35 años y σ = 82,90 años
2
2
Gráfico 3.2.
Gráfico.3.2
Gráfico.3.2
Distribución de la población de las medias
Distribución de la población de las medias
muestrales (muestras de tamaño 2)
muestrales (muestras de tamaño 2)
frecuencia
frecuenciarelativa
relativa
0,20
0,20
0,10
0,10
0,10
0,10
0,05
0,05
0,00
0,00
88
22
22
35
35
48
48
62
62
Medias muestrales
Medias muestrales
Estadistica
Los parámetros de la población teórica de las medias muestrales de todas
las muestras de tamaño 2 son:
x = 35 años y
2x = 41,45 años2
x = 35 años y 2x = 41,45 años2
2
2
Si se
tomaran
tamañoaños
n=1
el gráfico resultante para la
2 xde
2
añosmuestras
41,45
x= =
3535años
y y = =41,45
años
Si
se
tomaran
muestras
de
tamaño
n=1
el gráfico
resultantede
para la poblax
x
población
teórica
de
las
medias
muestrales
de todas
las muestras
Si se tomaran
muestras
de
tamaño
n=1
el
gráfico
resultante
para
la
ción teórica
de las igual
medias
de todas cada
las muestras
tamaño
1 sería
exactamente
quemuestrales
elresultante
G.3.1.
media dede tamaño 1
maran
muestras
detamaño
tamaño
n=1
elgráfico
gráfico
paralalas
la muestras
teórica
de las
medias
muestrales
de (porque
todas
aran población
muestras
de
n=1
el
resultante
para
sería
exactamente
igual
que
el
Gráfico.3.1.
(porque
cada
media es el elees el de
elemento
que muestrales
conformaigual
lademuestra)
sus
parámetros
nteórica
teórica
medias
todas
lasymuestras
muestras
decada serían
tamaño
1lassería
exactamente
que
ellas
G.3.1.
(porque
media los
de
las
medias
muestrales
de
todas
de
conforma laoriginal.
muestra) y sus parámetros serían los mismos que los
mismos
quemento
losigual
deque
laconforma
población
seríaes
exactamente
que
G.3.1.
(porquecada
cada
media
el elemento
que
la (porque
muestra)
y sus
parámetros serían los
ería
exactamente
que
elel
G.3.1.
media
de igual
la población
original.
mento
que
conforma
la
muestra)
y
sus
parámetros
serían
los
mismos
que
los
de
la
población
original.
ento que conforma la muestra) y sus parámetros
serían 2los
2
original.
=
35
años
y
=
82,90
años
ue
los
de
la
población
x
x
e los de la población original.
2
x = 35 años y x = 82,90 años2
2
2
Como
se35
puede
lasaños
medias
de las poblaciones teóricas,
2 x todas
años observar,
82,90
x= =
35 años
y y = =82,90
años2
x
x
aún variando
n, coincidentodas
con la
de lalas
población
de donde
se
Como
se puede
lasmedia
medias
poblaciones
teóricas,
Como observar,
se puede observar,
todas
lasde
medias
de las poblaciones
teóricas, aún
extrajeron
las
muestras.
puede
observar,
todas
medias
poblaciones
teóricas, de
aún
variando
n, coinciden
con
lalas
media
población
dedonde
dondeseseextrajeron las
variando
n,medias
coinciden
con
la
mediadedelalateóricas,
población
uede
observar,
todas
laslas
dede
las
poblaciones
ndon,extrajeron
n,coinciden
coinciden
conlalamedia
mediadedelalapoblación
poblacióndededonde
dondesese
las
muestras.
do
con
muestras.
Conclusión:
nlaslasmuestras.
muestras.
x = Conclusión:Conclusión:
ón:
x = n:
Y las varianzas disminuyen
proporcionalmente al tamaño n de la
=
x x= muestra.
Y las varianzas disminuyen proporcionalmente
al tamaño n de la
2
2
arianzas
disminuyen
proporcionalmente
altamaño
tamañon ndedela
muestra.
ianzas
disminuyen
proporcionalmente
Y las varianzas
disminuyen
allatamaño n de la muestra.
x =alproporcionalmente
2
n
2x =
2
2
2 n
2 x =
Además, si las muestras
extraídas
de la población son de tamaño grande
x =
n
(usualmente
n >muestras
30), elngráfico
dede
la la
distribución
de las
Además,
si las
extraídas
población de
sonladepoblación
tamaño grande
medias
muestrales
resulta
–G.3.3.–
aproximadamente
normal.
silaslasmuestras
muestras
extraídas
población
son
tamañogrande
(usualmente
n > 30),
el
de son
la
distribución
degrande
la
población de las
extraídas
dede
lalagráfico
población
dedetamaño
nte
n
>
30),
el
gráfico
de
la
distribución
de
la
población
de
las
medias
muestrales
resulta
–G.3.3.–
aproximadamente
normal.
Además,
si distribución
las muestrasde
extraídas
de la de
población
son de tamaño grande
e n >Insertar
30), elImagen
gráfico
la
la población
las
Nº de
G.3.3.
uestrales
resulta
–G.3.3.–
aproximadamente
normal.
(usualmente
n
>
30),
el
gráfico
de
la
distribución
de
la
población
de las medias
estrales resulta –G.3.3.– aproximadamente
normal.
G.3.3.
Insertar Imagen Nº G.3.3.
G.3.3.
muestrales resulta –Gráfico.3.3.– aproximadamente normal.
agenNºNºG.3.3.
G.3.3.
gen
G.3.3.
G.3.3.
Gráfico 3.3.
Gráfico.3.3
Distribución de la población de las medias muestras (n>30)
35
Propiedades de la variable aleatoria media muestral
Medias muestrales
Propiedades de la variable aleatoria media muestral
Gráfico.3.4
en la
unavariable
determinada
población
se define
una variable aleatoria X: {x1,
adesSi
de
aleatoria
media
muestral
2
des
de
la
variable
aleatoria
media
muestral
x
,
x
x
}
con
esperanza
E(X)
=
<
y las
varianza
V(X)
= X:
y{xse
,…, .determinada
m,…….
Distribución de
poblaciónuna
de
proporciones
muestras
(n>100)
Si2 en3una
población
seladefine
variable
aleatoria
1,
2
selecciona
sólo
una
muestra
aleatoria
de
tamaño
n
de
dicha
población
determinada
población
sedefine
define
unavariable
variable
aleatoria
x2, x3 ,…,población
con
esperanza
E(X) =aleatoria
< y varianza
V(X)
= y se
1,
.xm,…….} se
eterminada
una
X:X:{x{x
1,
} con esperanza
= <aleatoria
y varianza
V(X) = n22dey dicha
se
.xm,…….
selecciona
sólo una E(X)
muestra
de tamaño
población
89
Universidad Virtual de Quilmes
Propiedades de la variable aleatoria media muestral
Si para
en una
población
se define
variable aleatoria
X: {x1, x2, x3teórica
la determinada
cual su media
muestral
es una
un elemento
de la población
2 la población teórica
para
la
cual
su
media
muestral
es
un
elemento
de
,…,de
.xm,……. se verifican las siguientes propiedades. y se selecciona sólo
de muestra
se verifican
propiedades.
una
aleatoria las
de siguientes
tamaño n de
dicha población para la cual su media
muestral
X essuunmedia
teórica de
de la
X’spoblación
se verifican
las
para
es un elemento
teórica
P.1 la cual
E( ) =) =elemento
=X =muestral
de la población
P.1
E(
siguientes
propiedades:
X
de
se verifican
las siguientes propiedades.
Esta propiedad está relacionada con la cualidad
de insesgabilidad del estimador X.
COMIENZO
PASTILLA
COMIENZO
DEDE
PASTILLA
EN EN
P.1P.1
P.1
E(
)
=
=
Esta
propiedad
está
relacionada
la cualidad
de insesgabilidad
del estimador
Esta propiedad está X
relacionada con con
la cualidad
de insesgabilidad
del estimador
.
FINDE
DEPASTILLA
PASTILLA
FIN
COMIENZO DE PASTILLA EN P.1
Esta propiedad está relacionada
con la cualidad de insesgabilidad del estimador .
2 2
FIN DE PASTILLA
DS( ) = =
P.2
V( ) = 2 =2
P.2
V( ) = X X =
.
DS( ) = =
X
X
n n
n n
2
DS(
) = X =error estándar de la media
P.2desvío
V(estándar
) = 2X = también
El
se
denomina
n también
desvío
estándar
se denomina
error
la media
n deestándar
El El
desvío
estándar
σx también
error estándar
se denomina
la media de
muesmuestral
respecto
de
la
media
poblacional.
de poblacional.
la media poblacional.
tralmuestral
respectorespecto
de la media
Estas
propiedades
setambién
desprenden
inmediatamente
de las propiedades
ElEstas
desvío
estándar
se denomina
error estándar
delasla propiedades
media
Estas
propiedades
se
desprenden
inmediatamente
propiedades se desprenden
inmediatamente
de lasde
propiedades
enunciadas
anteriormente
en
el
apartado
2.2.1.
de
la
Unidad
2
para
la
muestral
respecto
de la media
poblacional.
enunciadas
anteriormente
en
el apartado
2.2.1.
de la2 para
Unidad
2 para la
enunciadas
anteriormente
en el apartado
2.2.1. de
la Unidad
la espeesperanza
y varianza de
una
variable inmediatamente
aleatoria cualquiera
como
se puede
Estas
propiedades
sede
desprenden
deselas
propiedades
ranza
y varianza
de una variable
cualquiera
puede
verificar
esperanza
y varianza
unaaleatoria
variable
aleatoriacomo
cualquiera
como
se puede
verificar
a
continuación.
enunciadas anteriormente en el apartado 2.2.1. de la Unidad 2 para la
a continuación.
verificar a continuación.
esperanza y varianza de una variable aleatoria cualquiera como se puede
COMIENZO
DE TEXTO APARTE
verificar a continuación.
TEXTO APARTE
n DE
COMIENZO
n
P.1
Xn i n 1
1=1 X= E 1 . X = 1 .
E( X
E(
X
)=
E
)= . n . =
COMIENZO
DE
TEXTO
APARTE
i
i
n i
n
P.1
Gráfico.3.3
n
n
n
n
1 1
1
E( X )=En 1=1 = Ei=1 . X i = i=1. E( X i ) = . n . = X
n
n
n
n
i 1 n i=1 1 n i=1 1
P.1
de
=E . X = .
n
X i ) = .(n>30)
E( X )= E1=1
n . =
E(muestras
Distribución
la población
dei las medias
n X
i n n i=1 n
n
i=1 n P.2
n 1
1
1
2
V( X )= V 1=1 X= V . X i = 2 . V( X i ) = 2 . n . 2 =
n i n i=1 n n
n
n
P.2
n 1=1 1
1i=1 n
1
2
2
=
V
=
.
X
.
V(
X
)
=
.
n
.
=
V( X )= V
X
i
i
2
P.2
ni 1 nn i=1 1 n n2 i=1
n
1 n
2
=V . X = .
V( X i ) = 2 . n . 2 =
V( XTEXTO
)= V 1=1
i
FIN DE
APARTE
2
n n i=1 n
n
n
i=1
APARTE
FIN DE TEXTO
3.1.2. Distribución del estadístico proporción muestral
FIN DE TEXTO APARTE
3.1.2.
Distribución
del estadístico
proporción
muestral
En
el gráfico
G.3.4. se
representa
la distribución
de
la muestral
población
teórica
3.1.2.
Distribución
estadístico
proporción
3.1.2.
Distribución
deldel
estadístico
proporción
muestral
de las proporciones de empleados mayores a 45 años de todas las
En el gráfico
G.3.4.tamaño
se representa
la adistribución
la población teórica
muestras
de unG.3.4.
cierto
n superior
100. de lade
En el gráfico
se representa
la distribución
población teórica
En el gráfico 3.4. se representa la distribución de la población teórica de las
35 de empleadosMedias
de las
lasproporciones
proporcionesde
mayores
45 años
de todas
muestrales
de
mayores
45a años
de todas
proporciones
de empleados empleados
mayores a 45
años de atodas
las muestras
de las
un
Insertar
Imagen
Nº
G.3.4.
muestras
de
un
cierto
tamaño
n
superior
a
100.
muestras
de un
cierto tamaño
n superior a 100.
cierto
tamaño
n
superior
a
100.
G.3.4.
G.3.4.
G.3.4.
Distribución de la población de las proporciones muestras (n>100)
InsertarImagen
Imagen
G.3.4.
Gráfico.3.4
Insertar
NºNº
G.3.4.
Gráfico
3.4.
0
90
4
Gráfico.3.5
0,11
1
Proporciones muestrales
las
Estadistica
la población
original,
la proporción
de empleados
los empleados
mayores
En laEnpoblación
original,
la proporción
de los
mayores
a 45a 45
Enaños
la población
original,
la
proporción
de
los
empleados
mayores
a
45
años
es:
años es: es:
P(>45)
= 0,11
P(>45)
= 0,11
P(>45) = 0,11
y los
parámetros
de distribución
la distribución
–G.3.4.–
de proporciones
las proporciones
y los
parámetros
de la
–G.3.4.–
de las
y los
parámetros
de
la
distribución
–gráfico
3.4.–
de
las
proporciones
muesmuestrales
muestrales
son: son:
2
trales son:
p = 0,11
p = 0,0002
p =0,11
y y2p =0,0002
Conclusión:
Conclusión:
Conclusión:
µp=0,11
y
2
σp =0,0002
p =Pp = P
µp=P
Y varianzas
las varianzas
disminuyen
proporcionalmente
al tamaño
Y las
disminuyen
proporcionalmente
al tamaño
n den lade la
muestra.
muestra.
Y las varianzas disminuyen proporcionalmente al tamaño n de la muestra.
P.(12
P.(1P) P)
2p = p =
n n
Además,
si muestras
las
muestras
extraídas
la población
fueran
Además,
las
muestras
de
población
fueran
chicas,
lachicas,
distribuAdemás,
sisilas
extraídas
delalade
población
fueran
chicas,
la la
distribución
de
la
población
de
las
proporciones
muestrales
no
ción de la población
de las proporciones
no necesariamente
resuldistribución
de la población
de las muestrales
proporciones
muestrales no
necesariamente
resultaría
aproximadamente
normal.
taría
aproximadamente
normal.
necesariamente
resultaría
aproximadamente
normal.
Propiedades
de
la variable
aleatoria
proporción
muestral
Propiedades
de
aleatoria
proporción
muestral
Propiedades
dela
lavariable
variable
aleatoria
proporción
muestral
Si
en una
determinada
población
caracterizada
por
una
variable
Si Sien
determinada
población
caracterizada
unaaleatoria
variable
en una determinada
población
caracterizada
por unapor
variable
X, se
aleatoria
X,efectúa
se efectúa
un experimento
binomial
con
parámetros
n yycon
Py
aleatoria
unbinomial
experimento
binomial
con
n
y
P
efectúaX,
unse
experimento
con parámetros
n y Pparámetros
y en consecuencia
2
2 = n.P.(1-P), se
en
consecuencia
con
esperanza
<
=
n.P
y
varianza
2
n.P.(1-P),
se
en esperanza
consecuencia
cony varianza
esperanza
< n=. Pn.P
y ) ,varianza
= sólo
µ = n.P
σ =
.(1-P
se selecciona
una muestra
selecciona
sólo
aleatoria
de tamaño
ndicha
de dicha
población
aleatoria
de tamaño
n demuestra
dicha
población
la cual
su
proporción
muestral
selecciona
sólo
una una
muestra
aleatoria
de para
tamaño
n de
población
lap cual
su las
proporción
muestral
de éxito
p verifica
las siguientes
para
la
cual
su proporción
muestral
de éxito
p verifica
las siguientes
depara
éxito
verifica
siguientes
propiedades:
propiedades.
propiedades.
P.1 P.1E(p)E(p)
= <P==<PP = P
P.(1- P)
P.(12
P.(1P) P) DS(x) = P P.(1= P)
DS(x)
=
=
P.2 P.2V(p)V(p)
= =2p = p =
P
n n
n n
El desvío
estándar también
también
se denomina
estándar
El desvío
estándar
se denomina
errorerror
estándar
de lade la
El desvío estándar σp también se denomina error estándar de la proporción
proporción muestral
respecto
la proporción
poblacional.
proporción
respecto
de lade
proporción
poblacional.
muestral muestral
respecto de
la proporción
poblacional.
Estas
propiedades,
al
igual
que
las
de
la media
muestral,
Estas
propiedades,
igualque
que
la media
muestral,
se se
Estas
propiedades, al
al igual
las las
de lademedia
muestral,
se desprenden
desprenden
inmediatamente
de enunciadas
las enunciadas
anteriormente
en el
desprenden
inmediatamente
de las
anteriormente
en el
inmediatamente
de las enunciadas
anteriormente en
el apartado 2.2.1.
de la
apartado
2.2.1.
de
la
Unidad
2
para
la
esperanza
y
varianza
de
apartado
la Unidady varianza
2 para la
varianzacualquiera.
de una una
Unidad 2.2.1.
2 para de
la esperanza
de esperanza
una variabley aleatoria
variable
aleatoria
cualquiera.
variable
aleatoria
cualquiera.
3.1.3.
Teorema
central
deldel
límite
3.1.3.
Teorema
central
límite
3.1.3.
Teorema
central
del límite
El teorema
central central
del límite formaliza
el comportamiento
asintóticamente
norteorema
límite
formaliza
comportamiento
El El
teorema
central del del
límite
formaliza
el el
comportamiento
mal,
bajo determinadas
condiciones,
dedeterminadas
la distribución de
una variable aleatoasintóticamente
normal,
condiciones,
asintóticamente
normal,
bajo bajo
determinadas
condiciones,
de de
la la
ria, en particular el de las variables aleatorias media y proporción muestrales.
También denominado teorema del límite central, el Teorema central del límite
–TCL– como resultante de una construcción colectiva es factible de enunciarse, siguiendo a Meyer (1986) de la siguiente manera.
Teorema Central del
Límite o Teorema del
Límite Central de De Moivre (1733)
5
–Laplace (~1810) y otros.5
91
COMIENZO DE PASTILLA EN Teorema central del límite
Laplace (~1810) y otros.
Teorema Central del Límite o Teorema del Límite Central de De Moivre (1733) –
Laplace (~1810) y otros. FIN DE PASTILLA
FIN DE PASTILLA
Sean X1, X2,…Xn... una sucesión de variables aleatorias independientes
Sean X1, X2,…Xn... una sucesión de variables aleatorias independientes
con E(Xi) = Fi y V(Xi) = , i = 1, 2, …
Sean Xi1=
, X1,
2,…X
n... una sucesión de variables aleatorias independientes con
con E(Xi) = Fi y V(Xi) =
2, …
,
2
Universidad Virtual de Quilmes
E(Xi) = µi y V(Xi) = σi , i = 1, 2, …
Sea X = X1 + X2 + …+ Xn.
Sea X = X1 + X2 + …+ Xn.
Xn.
Sea X = X1 + X2 + …+ Luego,
para
n tendiendo
a lainfinito,
la X tiene
distribución
Luego, para
n tendiendo
a infinito,
X tiene distribución
asintóticamente
norLuego, para n tendiendo
distribución
mal con a infinito, la X tiene
n
n
asintóticamente normal con = µ y 2 = 2
n
n
i
i
asintóticamente normal con = µ y 2 = 2
i=1
i=1
i
i
i=1
i=1
Este teorema nos está diciendo que si una variable aleatoria es la suma
de n variables
independientes
Este teorema nos está diciendo
que sialeatorias
una variable
aleatoria es entonces
la suma esa variable aleatoria
Este
teorema
nos
está
diciendo
que
si
una
variable aleatoria es la suma de
suma
tendrá distribución
normal,
para n grande.
de n variables aleatorias
independientes
entonces
esa variable
aleatoria
n
variables
aleatorias
independientes
entonces
esa variable
aleatoria suma
tenEn particular
si tales n variables aleatorias
independientes
tienen
suma tendrá distribución normal,
para n grande.
drá ndistribución
normal,
paraindependientes
nentonces
grande. se verifica
todas
distribución
normal
En particular si tales
variables
aleatorias
tienen que su suma tiene
En
particular
si
tales
n
variables
aleatorias
independientes tienen todas
distribución
normal,
para cualquier
de n.
todas distribución normal
entonces
se verifica
que suvalor
suma
tiene
distribución
entonces
se verifica que su suma tiene distribución nordistribución normal, para
cualquier normal
valor de
n.
mal, para cualquier valor de n.
COMIENZO DE LEER ATENTO
corolario, se concluye que bajo determinadas condiciones,
COMIENZO DE LEERComo
ATENTO
las
distribuciones
de la media
y determinadas
proporción condiciones,
muestral sonlas
Comoque
corolario,
se concluye
que
bajo
Como corolario, se concluye
bajo determinadas
condiciones,
normales.
las distribuciones de distribuciones
la media y deproporción
muestral son
la media y proporción
muestral son normales.
normales.
EjemplosFIN DE LEER ATENTO
FIN DE LEER Teniendo
ATENTOen cuenta la información poblacional de las edades de los 497 empleEjemplos
ados de una empresa (ver apartados 3.1.1. y 3.1.2.) a saber: la edad media
Teniendo en cuenta la información poblacional de las edades de los 497
Ejemplos
poblacional es de 35 años con un desvío estándar de 9,105 años y una proempleados de
una empresa
(ver
apartados
Teniendo en cuenta la información
poblacional
de las
edades
de los3.1.1.
497 y 3.1.2.) a saber: la
porción de empleados mayores a 45 años del 11%, si se proyectara abrir un
edad
media
poblacional
es
de
35
años
con
un
estándar de 9,105
empleados de una empresa
(ver apartados 3.1.1. y 3.1.2.) a saber: desvío
la
anexo cercano a la empresa con parte del personal y para ello se van a eley una
proporción
empleados
mayores
a 45 años del 11%, si se
edad media poblacionalaños
es de
35 años
con un de
desvío
estándar
de 9,105
gir al azar 119 empleados, podemos formularnos las siguientes preguntas:
abrirmayores
un anexo
cercano
la 11%,
empresa
años y una proporción proyectara
de empleados
a 45
años adel
si secon parte del personal y
ello se avan
a elegir con
al azar
proyectara abrir un anexo
cercano
la empresa
parte119
delempleados,
personal y podemos formularnos
1)para
1) siguientes preguntas:
las
para ello se van a elegir
al azar
119 empleados, podemos
formularnos
a.a.¿Cuál
¿Cuálserá
serálalaprobabilidad
probabilidadde
deque
quelalaedad
edadmedia
mediadedelalamuestra
muestradede119
119
las siguientes preguntas:1)empleados que trabajarán en el nuevo anexo sea inferior a los 34
empleados
queprobabilidad
trabajarán endeelque
nuevo
anexomedia
sea inferior
a los 34 de
años?
a.años?
¿Cuál
será la
la edad
de la muestra
119
6
empleados que trabajarán en el nuevo anexo sea
inferior
a
los
34
9,105 Como
n
=
119
es
una
muestra
grande
entonces
Como
n = 119 es una muestra grande entonces N 35,
años?
119
9,105 Como
n = 119 es una muestra grande entonces N 35,
Por
lo tanto
119 Por lo tanto
Por lo tanto
34 - 35 = P(z < 1,198 ) = F (1,20 ) = 0,1151
P(X < 34 años) = P z <
9,105 34 - 35
P(X < 34 años) =P z < 119 = P(z < 1,198 ) = F (1,20 ) = 0,1151
9,105 La probabilidad de que
de edad de los empleados que
la media
119inferior
trabajarían en el nuevo anexo
sea
a 34 años es 0,1151.
La probabilidad de que la media de edad de los empleados que
el nuevo anexo
34 años
b.trabajarían
¿Cuál será en
la probabilidad
de sea
queinferior
la edad amedia
de es
los0,1151.
119 empleados
supere los 37 años?
b. ¿Cuál será la probabilidad
92
de que la edad media de los 119 empleados
supere los 37 años?
37 - 35 = P(z > 2,40) = 1 F (2, 40 ) = 1 0,9918 = 0,0082
P(X > 37 años) = P z >
Por lo tanto
Por lo tanto
119 34 - 35 P(X < 34 años) = P z < 34 - 35 = P(z < 1,198 ) = F (1,20 ) = 0,1151
P(X < 34 años) = P z < 9,105 = P(z < 1,198 ) = F (1,20 ) = 0,1151
9,105 119 La probabilidad de que la media
de edad de los empleados que trabajarían en
La probabilidad de que la 119
media
de edad de los empleados que
el
nuevo
anexo seade
inferior
ala34media
años esde0,1151.
La
probabilidad
que
de es
los0,1151.
empleados que
trabajarían en el nuevo anexo sea inferior aedad
34 años
trabajarían en el nuevo anexo sea inferior a 34 años es 0,1151.
b. ¿Cuál será la probabilidad de que la edad media de los 119 empleados
b. ¿Cuál será la probabilidad de que la edad media de los 119 empleados
supereserá
los 37
años?
b. ¿Cuál
la probabilidad
de que la edad media de los 119 empleados
supere
los 37 años?
supere los 37 años?
37 - 35 P(X > 37 años) = P z > 37 - 35 = P(z > 2,40) = 1 F (2, 40 ) = 1 0,9918 = 0,0082
P(X > 37 años) = P z > 9,105 = P(z > 2,40) = 1 F (2, 40 ) = 1 0,9918 = 0,0082
9,105 119 119edad
media de los empleados supere los 37
La probabilidad de que la
La
la edad
media
de los
supere
los 37
La probabilidad
probabilidad
que
la edad
media
de empleados
los empleados
supere
losaños
37
años
es 0,0082. dedeque
años
es 0,0082.
es
0,0082.
2)
2)
2)
¿Cuál
será la probabilidad de que la proporción de los empleados
¿Cuál
serálaala
deanexo
la
de los empleados
¿Cuál
será
probabilidad
de que
laque
proporción
de losalempleados
mayores a
mayores
45probabilidad
años del nuevo
seaproporción
inferior
10%.
a 45 años
delsea
nuevo
anexo
sea inferior al 10%.
45 mayores
años del nuevo
anexo
inferior
al 10%?
0,10 - 0,11 P(p < 0,10) = P z < 0,10 - 0,11 = P(z < -0,35) = F(-0,35 ) = 0,3632
P(p < 0,10) = P z < 0,11.0,89 = P(z < -0,35) = F(-0,35 ) = 0,3632
0,11.0,89
119 119 Estadistica
La probabilidad de que la proporción de los empleados mayores a 45
La probabilidad
probabilidad
que
proporción
deesempleados
los
empleados
mayores
45
años
del nuevo anexo
sea
inferior
al 10%
0,3632.
La
dedeque
la la
proporción
de los
mayores
a 45 aaños
años
del
nuevo
anexo
sea
inferior
al
10%
es
0,3632.
del nuevo anexo sea inferior al 10% es 0,3632.
COMIENZO DE ACTIVIDAD
COMIENZO DE ACTIVIDAD
1.
1.
1. Una
a.
carpinteríarecibe
recibe
periódicamente
grandes
a.
Una carpintería
periódicamente
grandes
partidaspartidas
de postesdede
a.
Una
carpintería
recibe
periódicamente
grandes
partidas
de
madera
de longitud
media demedia
4 metros
de un aserradepostes
de madera
de longitud
de procedentes
4 metros procedentes
de
postes
de
madera
de
longitud
media
de
4
metros
procedentes
de
SabiendoSabiendo
que la precisión
procesodel
de proceso
cortado de
postes
un ro.
aserradero.
que la del
precisión
de los
cortado
un
aserradero.
Sabiendo
que
la
precisión
del
proceso
de
cortado
está
dada
por
un
desvío
estándar
de
3,5
cm.
de los postes está dada por un desvío estándar de 3,5 cm.
postes
está
dada por un
de 3,5
cm.
ilos
. ¿Cuál
probabilidad
de desvío
que
poste
al azar
midamida
entre
i.de¿Cuál
es eslala
probabilidad
de
que un
unestándar
posteelegido
elegido
al azar
i.
¿Cuál
es
la
probabilidad
de
que
un
poste
elegido
al
azar
mida
3,98
y
4,03
metros?
entre 3,98 y 4,03 metros?
entre
yelige
4,03una
metros?
ii . 3,98
Si
una
muestra
de ladeúltima
partidapartida
recibiii.
Si
se seelige
muestradede8080postes
postes
la última
ii.
Si
se
elige
una
muestra
de
80
postes
de
la
última
partida
da,
¿cuál
es
la
probabilidad
de
que
la
longitud
media
de
la
muestra
recibida, ¿cuál es la probabilidad de que la longitud media de la
recibida,
¿cuál
es laentre
probabilidad
deymetros?
que
longitud media de la
esté comprendida
3,98
4,03
muestra
esté
comprendida
entrey3,98
4,03lametros?
muestra
esté
entre
metros?
ii i. ¿Cuál
escomprendida
la diferencia
entre
i)y yii)ii)y? ?4,03
Justifique.
iii.
¿Cuál
es la
diferencia
entre
i) 3,98
Justifique.
iii. ¿Cuál es la diferencia entre i) y ii) ? Justifique.
b. Una inmobiliaria de Quilmes ha cambiado su política de alquileres
introduciendo una opción de alquiler a sola firma. Actualmente el
55% de los departamentos que ofrece son con esta modalidad. Del
archivo de alquileres de la inmobiliaria se tomó una muestra aleatoria de 180 fichas. ¿Cuál es la probabilidad de que la proporción de
inquilinos sin garante esté comprendida entre el 48% y el 60%?
7
7
93
Universidad Virtual de Quilmes
3.2. Problemas fundamentales de la inferencia
estadística
En la vida cotidiana, como en el campo científico o profesional, surgen situaciones caracterizadas por la incertidumbre pese a lo cual deben tomarse decisiones sustentadas usualmente en los modelos teóricos elaborados con base
en observaciones previas de fenómenos similares.
Los dos problemas fundamentales que atañen a la inferencia estadística
son la estimación de un parámetro desconocido y las pruebas de hipótesis
cuyas soluciones se basan necesariamente en la evidencia muestral.
3.2.1. Estimación por intervalo de confianza
La estimación por intervalo de confianza de un parámetro desconocido consiste en construir –a partir de la evidencia muestral– un intervalo o rango continuo de valores que contendría, con una cierta probabilidad asociada, el verdadero valor del parámetro poblacional.
Por ejemplo, toda persona que realiza una rutina diaria de su casa al trabajo
de hecho está colectando evidencia muestral sobre el tiempo que le insume
el viaje. A partir de las veces que anteriormente hizo el recorrido casa-trabajo (lo que constituye un muestreo) estima un cierto intervalo de tiempo que
emplearía un día cualquiera en llegar a su trabajo (se entiende, siguiendo la
rutina cotidiana), con una cierta probabilidad.
En el relato anterior se pueden identificar casi completamente todos los elementos necesarios para la construcción de un intervalo de confianza, a saber:
la evidencia muestral, el nivel de confianza –la probabilidad– de la estimación
y el parámetro –tiempo esperado– a estimar.
La construcción de intervalos de confianza se basa en las distribuciones
que tienen los estadísticos muestrales, o estimadores de los parámetros
poblacionales, ya vistas en el apartado 3.1.
Intervalos de confianza para la media poblacional
Antes de abocarnos al cálculo de intervalos desarrollaremos los fundamentos de su construcción. Mantengamos por el momento la pauta del apartado
anterior de contar con una población cuyos µ y σ son conocidos y que de ella
se extraerá una muestra de tamaño n.
La distribución de los X alrededor de µ bajo las condiciones generales
expuestas en 3.1.3., se representa de la siguiente forma:
94
Gráfico.3.4
Distribución de la población de las proporciones muestras (n>100)
Estadistica
0
0,11
1
Proporciones muestrales
Gráfico 3.5.
Gráfico.3.5
0
0,11
1
Proporciones muestrales
Gráfico.3.5
X
µ
Gráfico.3.6
Si en vez de interesarnos en preguntas como P(X>a) ó P(X<b) nos planteáramos una del tipo P(a<x<b) con a y b equidistantes de µ., el área sombreada
(denominada 1–α ) será la respuesta.
X
µ
Gráfico.3.6
Gráfico
3.6.
1-α
a
b
µ
X
1-α
a
µ
b
X
Si 1–α es la probabilidad de que x caiga dentro del intervalo [a,b] entonces α
será la probabilidad de que x caiga fuera de él. Como se puede advertir α quedará partido en dos, porque estamos considerando un intervalo simétrico alrededor de µ. Y estandarizando según Z se tiene lo siguiente.
G.3.7
Gráfico 3.7.
1-α
α/2
a
Z α/2
µ
α/2
b
Z 1−α/2
X
Z
G.3.8
95
Universidad Virtual de Quilmes
1-α
Los subíndices
α/2 con el criterio de acumulación de la
α/2 de los Z están en relación
tabla de la distribución normal estándar. Como el punto “a” acumula α/2 de
b
a
µ Z será
X “b” acumula 1–α/2
probabilidad su estandarizado
Zα/2 y como el punto
1−α/2 Z1–α/2. En rigor
de probabilidadZsuα/2estandarizadoZserá
y Z1-α/2 son iguaZ Zα/2
Los subíndices de los Z están en relación con el criterio
de acumulación
les en valor absoluto pero tienen signo contrario.
de
tabla de de
la los
distribución
Comodeelacumulación
punto “a”
Loslasubíndices
Z están ennormal
relaciónestándar.
con el criterio
acumula
/2 de
de probabilidad su estandarizado Z será Z/2 y como el
deG.3.8
la tabla
Gráfico
3.8. la distribución normal estándar. Como el punto “a”
punto
“b”
acumula
1–/2 de probabilidad
su estandarizado
Z1–/2el.
acumula /2 de probabilidad
su estandarizado
Z será Z/2 será
y como
En
rigor
Z
y
Z
son
iguales
en
valor
absoluto
pero
tienen
signo
1-/2
punto “b” /2
acumula
1–/2 de probabilidad su estandarizado será Z
1–/2.
contrario.
En rigor Z/2 y Z1-/2 son iguales en valor absoluto pero tienen signo
contrario.
G.3.8.
G.3.8.
Insertar Imagen Nº G.3.8.
Insertar Imagen Nº G.3.8.
1-α
α/2
α/2
-Z α/2
0
Z 1−α/2
Z
Entonces estandarizando la variable X
Entonces estandarizando la variable
x Entonces estandarizando la
variable
G.3.9.
Z=
x Z=
n
n
el cálculo de la probabilidad
planteada será:
X
Límite inferior el cálculo de la probabilidad planteada será:
planteada será:
del intervalo el cálculo de la probabilidad
a - x ε b ε máx
< máx = 1 <
P(a < x < b) = P
Límite superior
del intervalo
a- x b = 1 P(a < x < b) = P
<
<
n
n n
n n
n
x P(a < x < b) = PZ <
< Z = 1 1
2 x 2
P(a < x < b) = P Z <
< Z = 1 n
1
2
2
n
G.3.10
x P(a < x < b) = PZ < gl grande
< Z = 1 1
1
x 2
2
P(a < x < b) = P Z <
< Z = 1 1
n
1 2
2
n gl mediano
Luego, despejando de
10
Luego, despejando
despejando dede
Luego,
10
96
gl chico
x P Z <
< Z = 1 1
1
2
2
n
se tiene
= 1 P Z .
< x < Z .
1
n
1 2 n
2
x
x
Z
< Z< Z = 1
PP
Z
< < x = 1
1
=
1 x
<1Z2=
PZ
1 < <
1 21
1
P Z
<
Z
1 22 1 1 22
2
n n 2 n n
Estadistica
se
setiene
tiene
se tiene
tiene
se
se tiene
P
Z
.
<
x
<
Z
.
PPZ
1
Z .
< x <<1Z
Z.. = 1
==1
1. 2112 .n< xn <x<Z
1 n=
21
1
P Z
.
n
2
n
n
2
2
1
1
n
n
2
2
Como
es esla ladiferencia
Como+ ++eses
esconocido,
conocido,
diferenciaque
quepodría
podríahaber
haberentre
entrela la
la
Como
conocido,
esdiferencia
la diferencia
que
podría
haber
entre
Como
+
es
conocido,
es
la
que
podría
haber
entre
media
de
la
muestra
que
se
seleccionará
y
la
media
conocida
deladela la
media
de
la
muestra
que
se
seleccionará
y
la
media
conocida
media
dePor
la muestra
que
sea seleccionará
y media
lala media
conocida
de la
media
de µla
muestra
que
seesseleccionará
y lapodría
conocida
demedia
la
población.
susunaturaleza,
esta
diferencia
consideramos
como
población.
Por
naturaleza,
a
esta
diferencia
la
consideramos
como
Como
es
conocido,
X–µ
la
diferencia
que
haber
entre
la
de
población.
Por
su naturaleza,
a esta
diferencia
la consideramos
como
población.
Porque
su se
naturaleza,
a esta
diferencia
la consideramos
como
error.
error.
la
muestra
seleccionará
y
la
media
conocida
de
la
población.
Por
su
error. es el error de la media muestral respecto de la media
error.
naturaleza,es
diferencia
consideramos
error.de
esa esta
el error
error
de la
lala media
media
muestralcomo
respecto
de la
la media
media
el
de
muestral
respecto
eseselely error
error
de
la
media
muestral
respecto
de valor
lavalor
media
poblacional
1- 1dees
su
probabilidad.
El
máximo
que
poblacional
y
es
su
probabilidad.
El
máximo
quepuede
puede
la
media
muestral
respecto
de
la
media
poblacional
y 1–α
X–µ
poblacional
y
1
es
su
probabilidad.
El
máximo
valor
que
puede
poblacional
y
1
es
su
probabilidad.
El
máximo
valor
que
puede
tomar
ese
error
o
error
máximo
,
en
valor
absoluto
es
tomar
ese error
error oo error
error
máximovalor
, en
en que
valor
absoluto
esese error o error máxies
su ese
probabilidad.
El máximo
puede
tomares
tomar
máximo
valor
absoluto
tomar
error máximo
, en ,valor
absoluto
es
moese
, enerror
valoroabsoluto
es
máx
==
z1z . . máx
máx =máxz1= z112. 22 . n nn
2
n
Puede
observarse
que
cuando
se
agranda
Puede observarse
observarse que
que cuando
cuando se
se agranda
agrandael el
eltamaño
tamañodede
dela la
lamuestra
muestrael el
el
Puede
tamaño
muestra
Puede
observarse
que
cuando
se
agranda
el
tamaño
de
la
muestra
el
error
máximo
se
achica
y
lo
mismo
ocurre
cuando
disminuye
el
nivel
de
error máximo
máximo se
se achica
achica yy lo
lo mismo
mismo ocurre
ocurre cuando
cuando disminuye
disminuye el
el nivel de
de
error
error
máximo
seComo
achica
yambos
lo
mismo
cuando
disminuye
el nivelnivel
de
Puede
observarse
que
cuando
seocurre
agranda
el
tamaño
de
la muestra
el se
error
confianza.
Como
ambos
casos
tienen
distintas
connotaciones
confianza.
casos
tienen
distintas
connotaciones
se
confianza.
Como
ambos
casos
tienen
distintas
connotaciones
se
confianza.
Como
ambos
casos
tienen
distintas
connotaciones
se
máximo
se
achica
y
lo
mismo
ocurre
cuando
disminuye
el
nivel
de
confianza.
analizarán
con
más
detalle
al
abordar
la
construcción
de
los
intervalos.
analizarán con
con más
más detalle
detalle al
al abordar
abordar la
la construcción
construcción de
de los
los intervalos.
intervalos.
analizarán
analizarán
con
más
detalle
al de
abordar
laproblemas
construcción
deselosanalizarán
intervalos.
EnEn
laambos
realidad
concreta
loslos
problemas
estadísticos,
enen
general
Como
casos
tienen
distintas
connotaciones
conno
más
la
realidad
concreta
de
estadísticos,
general
no
En
la
realidad
concreta
de
los
problemas
estadísticos,
en
general
no
la
realidad
concreta
de
los
problemas
estadísticos,
en
general
no
seEn
conoce
el
valor
de
la
media
poblacional
+
de
ahí
la
necesidad
de
su
detalle
al
abordar
la
construcción
de
los
intervalos.
se conoce
conoce el
el valor
valor de
de la
la media
media poblacional
poblacional ++ de
de ahí
ahí la
la necesidad
necesidad de
de su
se
seestimación
conoce
valor
deello
la
media
poblacional
+ de
ahí
la necesidad
de suno su
y para
se se
utiliza
evidencia
muestral
y la
información
En laelrealidad
concreta
de
loslaproblemas
estadísticos,
enla
general,
se
estimación
y
para
ello
utiliza
la
evidencia
muestral
y
información
estimación
y
para
ello
se
utiliza
la
evidencia
muestral
y
la
información
estimación
y para
ello
utiliza
la evidencia
muestral
y la información
poblacional
que
sela
posea
como
el eltipo
de
distribución
poblacional
conoce
el
valor
de
media
poblacional
µ.
De
ahí
la
necesidad
de
su estimapoblacional
que
sese
posea
como
tipo
de
distribución
poblacional
poblacional
que
se
posea
como
el tipo
de
distribución
poblacional
poblacional
que
se
posea
como
el
tipo
de
distribución
poblacional
(normal
o
no)
y
el
conocimiento
de
otros
parámetros
(varianza
o
ción
y
para
ello
se
utiliza
la
evidencia
muestral
y
la
información
poblacional
que
(normal oo no)
no) yy el
el conocimiento
conocimiento de
de otros
otros parámetros
parámetros (varianza
(varianza desvío
desvío
(normal
oo desvío
(normal
o
no)
y
el
conocimiento
de
otros
parámetros
(varianza
o
desvío
estándar).
se
posea como el tipo de distribución poblacional (normal o no) y el conociestándar).
estándar).
estándar).
ElElcálculo
dede
la laestimación
porpor
dedeconfianza
miento
de otros
parámetros
(varianza
ointervalos
desvío
estándar).
cálculo
estimación
intervalos
confianzapara
para+ ++
El cálculo
de
la estimación
por
intervalos
de confianza
para
Elpresenta
cálculo
de
la
estimación
por
intervalos
de
confianza
para
+ con
presenta
distintos
casos
dependiendo
de
la
información
poblacional
con
El cálculo
de la estimación
por intervalos
confianza para
µ presenta
disdistintos
casos dependiendo
dependiendo
de la
ladeinformación
información
poblacional
presenta
distintos
casos
de
poblacional
con
presenta
distintos
casos
dependiendo
de
la
información
poblacional
con
que
se
cuente.
tintos
casos
dependiendo
de
la
información
poblacional
con
que
se
cuente.
que se
se cuente.
cuente.
que que
se cuente.
2
Población
normal
o oaproximadamente
normal
yyyσ22conocido
2conocido
Población
normal
normal
Población
normal
aproximadamente
normal
conocido
Población
normal
ooaproximadamente
aproximadamente
normal
2 y conocido
Población
normal
o
aproximadamente
normal
y
conocido
EnEn
este
caso
particular,
para
la
construcción
del
intervalo
confianza
deldel
intervalo
dedeconfianza
para
En este
este caso
caso particular,
particular,para
paralalaconstrucción
construcción
intervalo
de
confianza
En +,
este
caso
particular,
para
ladel
construcción
del intervalo
de respecto
confianza
Enpara
este
caso
particular,
para
la del
construcción
del
intervalo
de confianza
se
parte
de
la
expresión
error
de
la la
media
muestral
µ
,
se
parte
de
la
expresión
error
de
la
media
muestral
respecto
de la
para
+,
se
parte
de
la
expresión
del
error
de
media
muestral
respecto
se poblacional
parte
la expresión
del error
la media
muestral
respecto
para
+,la
se+,
parte
de ladeaexpresión
delarribamos
error
de anteriormente:
ladeanteriormente:
media
muestral
respecto
depara
la
media
a la
que
de
media
poblacional
a
la
que
arribamos
media
poblacional
la
que
arribamos
anteriormente:
la media
poblacional
la que
arribamos
anteriormente:
de lademedia
poblacional
a la aque
arribamos
anteriormente:
P(Z
x< Z< Z . . ) =)1
. . < x
<
P(Z
1
1 .n
<x<Z
<1Z
) ==1
1 < x
1 .)n=n
21
21
P(ZP(Z
.
.
1
n
2
2
n
n
2
2
1
1
n
n
2
2
y yyteniendo
enen
cuenta
que
la laincógnita
teniendo
cuenta
que
ahora
la incógnita
es µ laes
despejamos
obteniendo:
teniendoen
cuenta
queahora
ahora
incógnita
es+ ++la la
ladespejamos
despejamos
y
teniendo
en
cuenta
que
ahora
la
incógnita
es
despejamos
y obteniendo:
teniendo
en
cuenta
que
ahora
la
incógnita
es
+
la
despejamos
obteniendo:
obteniendo:
obteniendo:
P
x
z
<
<
x
+
z
P x za a 1
<< xx ++1zz = 1
==1
<< n
1 a n
1
2
=
1
P xPzx a1z21
<
<
x
+
z
n n
1 2
2
n
n
1
1
2n
2n
2
2
Donde ahora 1- α es la probabilidad, la confianza que tenemos de que el
intervalo
1111
11
11
97
Z α/2
Z 1−α/2
Z
G.3.8
Universidad Virtual de Quilmes
contenga al verdadero valor de µ.
El mismo intervalo (con una probabilidad 1–α asociada) que anteriormente se ubicaba alrededor del µ, ahora se ubica alrededor del X para poder estimar (con una confianza 1–α) el µ desconocido.
1-α
α/2
α/2
Nótese además que, en rigor, lo único que se trajo del estudio previo es el
Z
-Z α/2
Z 1−α/2
segmento que se colocó
sobre0 X y su probabilidad
asociada. No hay una distribución sobre él (la distribución de la muestra, en todo caso, no forma parte
de la construcción que hicimos).
En resumen, los límites del intervalo se obtienen sumando y restando el
error máximo a la media muestral ya que ésta es el centro del intervalo.
G.3.9.
Gráfico 3.9.
X
Límite inferior
del intervalo
ε máx
ε máx
Límite superior
del intervalo
Por lo tanto, al intervalo también se lo puede expresar del siguiente modo:
G.3.10
Como el error máximo
gl grande
disminuye cuando aumenta el
gl mediano
tamaño de la muestra o cuando es menor el nivel de confianza, entonces:
• Si aumenta el tamaño de la muestra, para un mismo nivel de confianza –
gl chico
el valor de z se mantiene constante– se obtiene un intervalo de menor
amplitud que implica mayor precisión en la estimación.
• Si disminuye el nivel de confianza (manteniendo el tamaño de la muestra) se
obtiene un intervalo de menor amplitud pero eso no implica mejorar la precisión ya que el intervalo tendrá menor probabilidad de contener al parámetro.
Ejemplo
Con el fin de controlar el proceso de llenado de paquetes de galletitas de
medio kilo, se seleccionaron al azar 16 de esos paquetes y el peso en gramos
de cada uno de ellos fue el siguiente: 505; 510; 495; 508; 504; 512; 496;
512; 514; 505; 493; 496; 506; 502; 509; 497.
Como información adicional se conoce por catálogo de compra de la máquina que la precisión de ella al envasar está dada por un desvío estándar de
σ = 5 gramos.
98
unlos
intervalo
un nivel envasados
de confianza
de todos
paquetescon
de galletitas
por de
esa0,95.
máquina, mediante
un intervalo con un nivel de confianza de 0,95.
COMIENZO DE PASTILLA EN nivel de confianza
En la elección de un nivel de confianza, son estándares los valores 0,90; 0,95 o
COMIENZO DE PASTILLA EN nivel de confianza
0,99. de un nivel de confianza, son estándares los valores 0,90; 0,95 o
En la elección
Estadistica
FIN DE PASTILLA
0,99.
Con base en la muestra de los 16 paquetes estimaremos el peso medio de
FIN DE PASTILLA
todos los paquetes de galletitas envasados por esa máquina, mediante un
Lacon
información
que se
intervalo
un nivel de con
confianza
decuenta
0,95. es la siguiente.
La información con que se cuenta es la siguiente.
La información con que se cuenta es la siguiente.
Sobre la población:
En la elección de un nivel
de confianza, son estándares los valores 0,90; 0,95 o 0,99.
Sobre la población:
Sobre la población:
la distribución
de los
pesoslos
depaquetes
todos los
paquetes
la•distribución
de los pesos
de todos
llenados
por llenados por
• La distribución
de los pesos
de todos(olos
paquetes llenados por
la máquiaproximadamente
normal)
la máquina
la máquina
es
normales(onormal
aproximadamente
normal) porque
los porque los
na es normal
(o
aproximadamente
normal)
porque
los
procesos
de
medi- (medir
de medición
de unvalor
mismo
valor
nominal
procesosprocesos
de medición
de un mismo
nominal
(medir
ción de un longitudes,
mismo valor nominal
(medir
longitudes,
etc.) entregan
pesar,
etc.) naturalmente
entregan pesar,
naturalmente
poblaciones
longitudes,
pesar, etc.)
entregan
poblaciones
naturalmente
poblaciones
normales.
normales.
normales.
estándar
σ =5g.
•• El desvío
el•desvío
= 5g. = 5g.
elestándar
desvío
estándar
•
Sobre la muestra:
Sobre
laSobre
muestra:
la muestra:
de la muestra seleccionada es n = 16.
•• El tamaño
el tamaño
de la muestra seleccionada es n = 16.
• medio
el tamaño
de la muestra
seleccionada es n = 16.
• El peso
de los paquetes
X = 504g.
•
el peso medio
de los paquetes
= 504g.
elestándar
peso Smedio
de los paquetes = 504g.
estándar
= 6,802g.
•• El desvío
el•desvío
S = 6,802g.
•
el desvío estándar S = 6,802g.
Se obtiene
el intervalo
confianza
para
peso
medio m
llenadodede los
Se obtiene
el intervalo
de de
confianza
para
el elpeso
medio
dedellenado
paquetes,
utilizando
la
expresión:
Se obtiene el intervalo de confianza para el peso medio de llenado
los paquetes, utilizando la expresión:
la expresión:
los paquetes, utilizando
I = x z ,x + z 1
1 z
I =2 x n z 2 , xn +
1
2
n
1
2
de
n
Sabiendo que el nivel de confianza establecido es 1- = 0,95
calculamos
valor
de 1-/2
y a continuación
buscamos
en lacalculamos
tabla
Sabiendoelque
el nivel
de confianza
es 1-α = 0,95
Sabiendo
que
el
nivel
deestablecido
confianza
establecido
es el1-el = 0,95
de 1-α/2
continuación buscamos en la tabla el z1-α/2. Luego z0,975 =
. Luego
z0,975 =y a1,96.
z1-/2valor
calculamos el valor de 1-/2 y a continuación buscamos en la tabla el
z1-/2. Luego
z0,975 = 1,96.
Reemplazando
se obtiene:
1,96.
Reemplazando
se
5 obtiene:
5 I = Reemplazando
,504
+ 1,96 504 1,96 = [501,55; 506, 45]
se
obtiene:
16
16 5
5 I = 504 1,96 ,504 + 1,96 = [501,55; 506, 45]
Concluimos que, con base en una
paque
tes y con una
16 muestra de 1616
confianza del 95%, se estima que el peso medio de todos los paquetes
fabricados
seencueos
ntra
entre
501,55g
Concluim
que
, con
base eyn506,45g.
una muestra de 16 paquetes y con una
Concluimos que, con base en una muestra de 16 paquetes y con una conconfianza del 95%, se estima que el peso medio de todos los paquetes
fianza del 95%, se estima que el peso medio de todos los paquetes fabricafabricadosseencuentra entre501,55g y 506,45g.
dos se encuentra entre 501,55g y 506,45g.
13
Supongamos que el error máximo (2,45g) de la estimación fuera grande para
cumplir con determinadas exigencias del control de calidad. En ese caso sería
necesario mejorar la estimación achicando el error máximo tomando una muestra de mayor tamaño.
La pregunta que surge es ¿de qué tamaño deberá ser la nueva muestra
para que el error máximo asociado de la futura estimación sea, por ejemplo
de 1g, obviamente con el mismo nivel de confianza?
99
Universidad Virtual de Quilmes
De la fórmula del εmáx. se despeja n.
Para poder estimar la media de todos los paquetes envasados por esa máquina con un error máximo de 1g y con una confianza del 95% deberán seleccionarse como mínimo 97 paquetes.
2.
Con base en la muestra de 20 piezas plásticas de la matriz ME4 consignada en el apartado 1.3. de la Unidad 1 y sabiendo que la precisión
de la balanza está definida por un desvío estándar de 1g.
a. Estimar, con un nivel de confianza del 95%, el peso medio de todas
las piezas plásticas fabricadas por esa empresa.
b. ¿En qué se fundamenta la normalidad de la distribución de todos
los pesos de las piezas plásticas?
La distribución t de
Student fue publicada en
1908 por W. S. Gosset bajo el seudónimo de Student.
Población normal o aproximadamente normal y σ2 desconocido
Consideremos ahora que la especificación de la desviación estándar poblacional dada en el problema anterior no se conoce, porque se perdió el catálogo o porque el fabricante de la máquina no lo proveyó, o por otras razones.
¿Podemos realizar igualmente la estimación de la media poblacional?
Si la población es normal, y estamos en ese caso, es posible calcular el
error máximo reemplazando el s desconocido por su mejor estimador que es
el desvío muestral S. Pero en lugar de la distribución normal estándar se deberá utilizar la distribución t de Student la cual fue diseñada especialmente para
el muestreo en poblaciones normales.
Sean X1, X2, . . . , Xn variables aleatorias independientes que son todas normales con media
y desviación estándar
s. Entonces la variable aleatoria
tiene una distribución t
x
x
con n-1 grados de libertad.
Características de la distribución t de Student
1- Al igual que en la distribución Normal:
a) El rango de valores de la t de Student varía de -∞ a +∞
b) Es simétrica respecto de su media.
V(t) siempre mayor a 1 pero si crece el tamaño de la muestra, n → ∞ el desvío tiende a 1 y
la distribución t es asintóticamente normal de parámetros (0, 1)
100
G.3.9.
X
Límite inferior
del intervalo
Límite superior
del intervalo
Estadistica
3- Es más aplanada
ε que la Normal por tener
ε mayor dispersión.
máx
máx
4- Hay una familia de curvas de la distribución t de Student dependiendo de los grados de
libertad que para una variable es n–1 como se muestra en el gráfico G.3.10.
Gráfico 3.10.
G.3.10
gl grande
gl mediano
gl chico
5- Las curvas dependen de los grados de libertad, a mayor grado de libertad corresponde
menor dispersión.
Entonces, en este caso el error máximo es
Y el intervalo de confianza para la media poblacional es:
Volviendo al problema:
La información con la que contamos es la siguiente.
Sobre la población:
• La distribución de los pesos de todos los paquetes llenados por la máquina es normal (o aproximadamente normal) porque los procesos de medición de un mismo valor nominal (medir longitudes, pesar, etc.) entregan
naturalmente poblaciones normales.
Sobre la muestra:
• El tamaño de la muestra seleccionada n = 16.
• El peso medio de los paquetes de la muestra X=504g.
• El desvío de la muestra S = 6,802g.
Utilizando el mismo nivel de confianza 1–α = 0,95 y sabiendo que los grados
de libertad son 15, buscamos en la tabla de la t del Anexo el valor correspondiente a tn-1;1-α/2. Luego t15;0,975 = 2,131.
Reemplazando los datos construimos el intervalo de confianza para la media:
101
Universidad Virtual de Quilmes
Finalmente, con base en una muestra de 16 paquetes y con una confianza del
95%, se estima que el peso medio de todos los paquetes fabricados se encuentra entre 500,38g y 507,63g.
Notamos que el intervalo obtenido es menos preciso que el hallado en el
ejemplo anterior, donde se conocía el desvío poblacional, y esto se debe a que
en este segundo caso sólo se cuenta con las medidas muestrales. Como
era de esperar al contar con menor información se obtuvo menor precisión
en la estimación.
3.
Con base en la muestra de 20 piezas plásticas de la matriz ME4 consignada en el apartado 1.3 de la Unidad 1;
a . Estimar, con un nivel de confianza del 95%, la longitud media de
todas las piezas plásticas fabricadas por esa empresa.
b. ¿Qué supuesto tuvo en cuenta acerca de la distribución de todas las
longitudes de las piezas de plástico para realizar la estimación?
Población no normal y σ2 conocido
Cuando la población no es normal o se desconoce el tipo de distribución que
posee y se conoce la varianza poblacional, para poder estimar la media poblacional es necesario que la muestra sea grande para que –en virtud del Teorema
central del límite– dicha estimación pueda realizarse utilizando la misma expresión de la primera situación tratada.
Por otro lado, si la muestra es chica no se puede llevar a cabo la estimación
por intervalo de confianza de la media poblacional.
Ejemplo
Consideremos la población de los tiempos empleados para realizar todas las
transacciones bancarias posibles por la totalidad de los clientes de un determinado banco.
En este problema la distribución de los tiempos empleados para realizar
todas las transacciones bancarias no necesariamente es normal.
Repasar las características de la población definida en este ejemplo con
la tratada en la Unidad 2, apartado 2.2.4. para reconocer la distinta naturaleza de cada una.
102
s características de la ejemplo
poblacióncondefinida
en este
la tratada
en la Unidad 2, apartado 2.2.4. para
n la tratada en la Unidad
2, apartado
2.2.4.
para de cada una.
reconocer
la distinta
naturaleza
a distinta naturaleza de cada
FINuna.
DE PARA REFLEXIONAR
RA REFLEXIONAR
Estadistica
Convengamos que la desviación estándar de todas las operaciones es
ue la desviaciónConvengamos
estándar ydeestodas
las
operaciones
es de todas las operaciones es conoconocida
= la
1,5
minutos.
que
desviación
estándar
,5 minutos.
cidaSiy se
esdeseara
σ = 1,5estimar
minutos.
el tiempo medio que tardan los clientes en realizar todas
ar el tiempo medio
tardan
los clientes
enelrealizar
Sioperaciones
se
deseara
tiempotodas
medio
que tardan
los de
clientes
en realizar
lasque
y estimar
se seleccionara
una
muestra
aleatoria
60 clientes
que
seleccionara unatodas
muestra
aleatoria
de
60
clientes
que
las operaciones
se seleccionara
unadesvío
muestra
aleatoria
de minutos,
60 clientes
emplearon
en promedioy 3,7
minutos con un
estándar
de 2,1
la
io 3,7 minutos con
unemplearon
desvíocon
estándar
de
2,1 3,7
minutos,
que
en
promedio
minutos
con un desvío estándar de 2,1 minuinformación
la que
contaríamos
seríalala siguiente:
contaríamos seríatos,
la siguiente:
la información con la que contaríamos sería la siguiente:
Sobre la población:
Sobre• la población:
el desvío = 1,5 min
= 1,5 min •Sobre
El desvío
σ = 1,5 min.
la muestra:
Sobre• la muestra:
el tamaños de la muestra seleccionada n = 60
s de la muestra •seleccionada
ntiempo
=la60
El•tamaño
muestra
seleccionada
= 60.
el de
medio
de las ntransacciones
de la muestra
o medio de •lasEl tiempo
transacciones
de
la
muestra
medio de las transacciones de la muestra X=3,7min.
• El•desvíoelde
la muestra
S = 2,1 min.
desvío
de la muestra
S = 2,1 min
de la muestra S = 2,1 min
Calcularemos
confianza
deldel
95%.
Calcularemosun
unintervalo
intervalopara
paraμ ?con
conuna
una
confianza
95%.
ervalo para ? con una confianza del 95%.
1,5
1,5 I
=
3,7
1,96
,3,7
+
1,96
= (3,31 , 4,08)
1,5
1,5
= (3,31 , 4,08
60)
60 1,96 ,3,7 + 1,96 60
60 Luego, con base en una muestra de 60 transacciones y con una
Luego, con base en una muestra de 60 transacciones y con una confianza del
una muestra deconfianza
60 transacciones
una que el tiempo medio de todas las
del 95%,y seconestima
95%, se estima que el tiempo medio de todas las operaciones del banco se
se estima que operaciones
el tiempo medio
de
todas
las entre 3,31 min y 4,08 min.
del banco se encuentra
encuentra entre 3,31 min y 4,08 min.
o se encuentra entre 3,31 min y 4,08 min.
Intervalo de confianza para la proporción poblacional
Intervalo
de confianza
para la proporción poblacional
nfianza para la
proporción
poblacional
Toda la lógica empleada para fundamentar la construcción de intervalos
Toda la lógica
empleada para
fundamentar la construcción de intervalos de
eada para fundamentar
la construcción
intervalos
de confianza
para la demedia
poblacional puede extenderse a la
confianza para
la media
poblacional
extenderse a la fundamentala media poblacional
puede
a lapuede
fundamentación
deextenderse
la construcción
de intervalos de confianza para
ción
de
la
construcción
de
intervalos
de
confianza
para estimar la proporción
la construcción
de intervalos
de confianza
estimar
la proporción
poblacionalpara
P debido a que, en virtud al Teorema
P debido
a que,alen
virtud al Teorema central del límite, la variaón poblacional Ppoblacional
debidodel
a que,
en virtud
Teorema
central
límite,
la variable
aleatoria proporción muestral tiene
ble
aleatoria
proporción
muestral
tiene distribución normal de parámetros
la variable aleatoria proporción muestral tiene
P.(1 P)
si el tamaño
distribución normal
P.(1deP)parámetros ?p= P y p =
n
si el tamaño
de parámetros ?p= P y p =
n intervalo de confianza para la proporción
nPara
de laconstruir
muestra esun
grande.
rande.
siPara
el tamaño
de laun
muestra
escasos
grande.
poblacional,
alnigual
que
en los
para lapara
media,
intervalo
construir
intervalo
de vistos
confianza
la elproporción
Para construir
un intervalo
de casos
confianza
para
la proporción
al
sepoblacional,
centrará
en al
el igual
estadístico
muestral
y será
simétrico
él.
que en
los
vistos
para
laalrededor
media, poblacional,
elde
intervalo
igual
que
en
los
casos
vistos
para
la
media,
el
intervalo
se
centrará
en
el
estase centrará en el estadístico muestral y será simétrico alrededor de él.
dístico muestral y seráI simétrico
= p alrededor
;p +deél.
IPP = [ p máx
máx ;p + máx
máx ]
I P = [ p máx ;p + máx ]
17
17
En este caso el cálculo del error máximo debería ser:
este
caso
cálculodel
delerror
errormáximo
máximo debería
debería ser:
EnEneste
caso
el el
cálculo
P.(1 P)
máx = z P.(1 P)
máx = z1 2 P.(1
n P)
n
máx = z1 2 pero al desconocer P se utiliza su1mejor estimador
p, quedando
n
2
pero al desconocer P se utiliza su mejor
estimador
p, quedando
pero
desconocerPPseseutiliza
pero
alaldesconocer
quedando
utilizasu
sumejor
mejor estimador
estimador p,
p, quedando
p.(1 p)
máx
z
p.(1 p)
1
n
1
máx
máx z 22 1
n
2
Por tal motivo, el intervalo de confianza para la proporción poblacional
Por tal motivo, el intervalo de confianza
P resulta para la proporción poblacional
P resulta
p.(1 p)
p.(1 p) 103
máx z z p.(1 p)
máx
máx12 z1 2 n n
1
n
2
Por talPor
motivo,
el intervalo
de confianza
para la
proporción
poblacional
tal motivo,
el intervalo
de confianza
para
la proporción
poblacional
P
resulta
Por tal motivo, el intervalo de confianza
P resulta para la proporción poblacional
P resulta
Por tal motivo, el intervalo de confianza
para la proporción poblacional P resulta
Universidad Virtual de Quilmes
p.(1 p)
p.(1 p) I P = Ip =z p z p.(1, p)p +, z p + z p.(1 p) I PP = 1p 2 z1 2 n p.(1
n p) , 1p 2+ z1 2 n p.(1
n p) 1
1
n
n
2
2
Ejemplo
Ejemplo
Ejemplo
Para estimar
la proporción
de familias
que ven
por
TV
determinado
Ejemplo
Para
estimar
lalaproporción
de
familias
que
ven
porun
TV
un determinadoproPara
estimar
proporción
de
familias
que
ven
por
TV
un determinado
programa,
se
seleccionó
una
muestra
de
2200
familias
que
poseen
uno ouno o
Para
estimar
la
proporción
de
familias
que
ven
por
TV
un
determinado
programa,
seseleccionó
seleccionóuna
unamuestra
muestradede2200
2200familias
familias
que poseen
grama, seen
que poseen
uno o más
más televisores
una
determinada
ciudad,
y
de
la
muestra
se
obtuvo
programa,
se seleccionó
una muestra ciudad,
de 2200 yfamilias
que poseen
uno o
más
televisores
en
una
determinada
de
la
muestra
se
obtuvo
televisores
en
una
determinada
ciudad,
y deutilizando
la muestraunsenivel
obtuvo
que 871
que 871
familias
ven
ese
programa.
Estimar,
de
más
televisores
en
una
determinada
ciudad,
y
de
la
muestra
se
obtuvo
que
871 familias
ven ese programa.
Estimar,
utilizando
un nivel
de
familias
ven
ese
programa.
Estimar,
utilizando
un
nivel
de
confianza
de 0,95,
confianza
de 0,95,
un intervalo
la
proporción
deutilizando
familias
que
que
871
familias
ven
ese para
programa.
un ven
nivel
de
confianza
de 0,95,
un intervalo
para
laEstimar,
proporción
de familias
que ven
un intervalo para la proporción de familias que ven ese programa.
ese programa.
confianza
de 0,95, un intervalo para la proporción de familias que ven
ese programa.
ese programa.
La información
la que
contamos
la siguiente.
La información
concon
lacon
que
es es
la siguiente.
La información
lacontamos
que contamos
es la siguiente.
•
El
tamaño
de
la
muestra
seleccionada
=siguiente.
2200.
• La
tamaño
de lacon
muestra
queseleccionada
contamos
esnnla=2200
•el información
el tamaño
de la muestra
seleccionada
n =2200
Laproporción
proporción
muestral
de
que
el programa
dede
TV.TV
• • •la
muestral
de familias
familias
queven
ven
programa
el
de lamuestral
muestra
seleccionada
la tamaño
proporción
de
familias
quenel=2200
ven
el programa
de TV
871
•
la
proporción
muestral
de
familias
que
ven
el
programa
de
TV
0,396
p = p = =871
=
0,396
871 2200
p = 2200 = 0,396
2200
la tabla
es es
1,96.
ParaPara
una
confianza
del
95%,
el
valor
z0,975
Parauna
unaconfianza
confianza
95%,
el valor
zde
detabla
la tabla
es 1,96.
0,975
deldel
95%,
el valor
z0,975
de la
1,96.
Para una confianza del 95%, el valor z0,975 de la tabla es 1,96.
Reemplazando
se tiene
que elque
intervalo
para Ppara
es: P es:
Reemplazando
tiene
intervalo
Reemplazando
sesetiene
que el el
intervalo
para P es:
Reemplazando se tiene que el intervalo para P es:
p.(1 p)
p.(1 p) IP = pI z= p z p.(1
, p + p)
z ,p+ z p.(1 p)
P 1
1
I = 2p z 1 2 n p.(1
n p) n p) , 2p + z 1 2 n p.(1
P
1
1
n
n 2
2
0,396.0,604
0,396.0,604
0,396.0,604
0,396.0,604 1,96.
,
0,396
+
1,96.
IP 0,396
, 0,396 + 1,96.
I 0,396 1,96.
0,396.0,604
0,396.0,604
I P0,396 1,96.2200
2200 , 0,396 + 1,96.2200
2200
P
2200
2200
IP= [0,386;
0,406]
IP= [0,386; 0,406]
IP= [0,386; 0,406]
18
18
18
Con base en una muestra de 2200 familias con el 95% de confianza la verdaCon
base en una muestra de 2200 familias con el 95% de confianza la
dera proporción de familias que ven ese programa de TV está comprendida entre
verdadera proporción de familias que ven ese programa de TV está
el 38,6% y el 40,6%.
comprendida
entre el 38,6% y el 40,6%.
COMIENZO DE ACTIVIDAD
4.
4.
Con base en la muestra de las 96 familias escogidas al azar de cierta locaCon base en la muestra de las 96 familias escogidas al azar de
lidadlocalidad
(apartado 1.1.2.
de la 1.1.2.
Unidadde1) la
conUnidad
1 – α =1)
0,95
estimar
cierta
(apartado
con
1 – la =proporción de familias en toda la población cuyo gasto medio en alimen0,95
estimar la proporción de familias en toda la población
tos supere los $46.
cuyo gasto medio en alimentos supere los $46.
FIN DE ACTIVIDAD
Determinación del tamaño de una muestra
Determinación del tamaño de una muestra
Comose
se hizo
hizo para
media,
se despeja
n de la
del error máximo,
Como
parala la
media,
se despeja
n fórmula
de la fórmula
del errorque
en
su
forma
original
y
en
su
forma
aproximada
es:
máximo, que en su forma original y en su forma aproximada es:
máx = z
1
2
104
P.(1 P)
p.(1 p)
z 1
n
n
2
Al no conocer P porque es lo que se quiere estimar y al no conocer p
porque aún no se tomó la muestra (justamente necesitamos calcular de
qué tamaño mínimo deberá ser), se presenta un problema que debemos
sortear. Para hacerlo se parte de la suposición teórica de que P = 0,50 ,
máximo, que en su forma original y en su forma aproximada es:
máx = z
1
2
P.(1 P)
p.(1 p)
z 1
n
n
2
Estadistica
Al no
eses
lo lo
queque
se se
quiere
estimar
y al ynoalconocer
p porque
Al
no conocer
conocerPPporque
porque
quiere
estimar
no conocer
p
aún
no
se
tomó
la
muestra
(justamente
necesitamos
calcular
de
qué
tamaño
porque aún no se tomó la muestra (justamente necesitamos calcular de
mínimo
deberá
ser), deberá
se presenta
un presenta
problemaunque
debemos
sortear.
Para
qué
tamaño
mínimo
ser), se
problema
que
debemos
hacerlo Para
se parte
de la se
suposición
de que Pteórica
= 0,50, de
lo que
sortear.
hacerlo
parte deteórica
la suposición
quees
P lógico
= 0,50por,
que
es
el
sustento
teórico
de
la
curva
de
distribución
de
las
proporciones
lo que es lógico porque es el sustento teórico de la curva de distribución
muestrales;
aunque luego
–como es
esperable–
realidad
del modede
las proporciones
muestrales;
aunque
luego la–como
esdifiera
esperable–
la
lo
teórico.
realidad difiera del modelo teórico.
Reemplazando y
y despejando
Reemplazando
despejando nn se
se tiene:
tiene:
máx
2
z .0,50 0,50.0,50
0,50
= z .
n = 1
=z 1
1
n
máx
n
2
2
3.2.2. Pruebas de hip ótes is
3.2.2. Pruebas de hipótesis
COMIENZO DE LEER ATENTO
Una
prueba–test
–test
o contraste–
de hipótesis
en un
Una prueba
o contraste–
de hipótesis
consiste enconsiste
un procedimiento
procedimiento
cualunse
somete(uaotra
prueba
un
mediante el cual mediante
se somete a el
prueba
parámetro
característiparámetro
(u otra
característica)
sobre
ca) poblacional
desconocido
sobre poblacional
el que se tienedesconocido
alguna suposición.
elComo
que se
tiene
alguna de
suposición.
todo
problema
inferencia estadística la prueba de hipótesis
Como
todo
inferencia estadística la prueba de
debe
basarse
en problema
la evidenciademuestral.
hipótesis debe basarse en la evidencia muestral.
FIN DE LEER ATENTO
Cuando el objetivo de una prueba de hipótesis es testear el valor de un pará-
metro θ el
(desconocido)
partir
de undevalor
hipotético
θo de dicho
parámetro,
Cuando
objetivo de auna
prueba
hipótesis
es testear
el valor
de un
surge una primera
hipótesis aestadística
hipótesisnula
dicho
parámetro
(desconocido)
partir de denominada
un valor hipotético
o) que
o de (H
presupone
que
no
habría
una
diferencia
significativa
entre
θ
y
θ
y
que
se
o
parámetro, surge una primera hipótesis estadística denominada hipótesis
expresa
nula
(Ho) que presupone que no habría una diferencia significativa entre
Ho : θ = θo
y o y que se expresa
El valor hipotético de un
parámetro es una presunción o una suposición que se
realiza sobre él, como por ejemplo una especificación para el control de calidad, un valor histórico,
un valor de comparación o un valor
que se elige arbitrariamente.
19
Si la evidencia muestral contradijera la afirmación de H0 y existiera sospecha
de que la diferencia pudiera ser significativa, surge por oposición una segunda hipótesis estadística que llamamos hipótesis alternativa (HA) la cual sostiene, en contraste con H0, que el valor del parámetro θ diferiría significativamente del hipotético θ0.
HA puede asumir alguna de las siguientes formas:
HA : θ < θ0
ó
HA : θ > θ0
En una prueba de hipótesis (PPHH) la hipótesis nula H0 es en rigor la que se
somete a prueba, y como resultante H0 puede ser aceptada o rechazada. Si
H0 resulta ser rechazada la conclusión final de la prueba se inclinaría a favor
de HA.
Debido al ambiente de incertidumbre en el que se realiza una PPHH, dado
que se basa en la evidencia proporcionada por una muestra, en la decisión final
se pueden cometer dos tipos de errores: rechazar H0 si en realidad fuere verdadera y aceptar H0 si en realidad fuere falsa. El primero de ellos se denomina
error de tipo I y tiene asociada una probabilidad α, llamada nivel de significación de la prueba.
105
Universidad Virtual de Quilmes
P(error de tipo I) = P(rechazar H0 / H0 verdadera) = a
El segundo error (aceptar H0 si en realidad fuere falsa) se llama error de tipo
II y su probabilidad asociada es β.
P(error de tipo II) = P(aceptar H0 / H0 falsa) = β
En esta carpeta se trabajará sólo con la probabilidad a de cometer un error de
tipo I.
Prueba de hipótesis para la media poblacional
La PPHH para la media µ presenta distintos casos, dependiendo de la información poblacional con que se cuente, tal como ocurre en la estimación por
intervalos de confianza.
Población normal o aproximadamente normal y σ2 conocido
Volviendo al ejemplo de controlar el proceso de llenado de paquetes de galletitas de medio kilo, abordado en estimación de la media poblacional por intervalo de confianza, cabe preguntarnos si se podría imprimir en todos los paquetes el valor nominal de 500g. Para responder a la pregunta debemos realizar
un contraste de hipótesis donde, el parámetro desconocido (que genéricamente llamábamos θ) es el promedio µ del peso de todos los paquetes envasados, cuyo valor hipotético µ0 = 500g es el valor nominal que se quiere imprimir. Luego, la hipótesis nula será H0: µ = µ0 , es decir:
H0: µ = 500g
A partir de la evidencia de la muestra de los 16 paquetes donde el peso medio
resultó X= 504g, se puede plantear la siguiente hipótesis alternativa,
HA: µ > 500g
dado que la evidencia muestral arrojó un peso medio (estadístico muestral)
superior al valor nominal (parámetro hipotético).
Entonces el juego de hipótesis para esta PPHH es:
H0: µ = 500g
HA: µ > 500g
Estableceremos ahora un criterio que permita discriminar cuándo la diferencia entre el estadístico muestral y el parámetro hipotético no es significativa
(y por extensión no sería significativa la diferencia entre µ y µ0 por lo que se
acepta la H0) y cuándo esa diferencia sí es significativa (y en consecuencia se
rechaza H0 a favor de HA).
Ese criterio está sustentado por el nivel de significación de la prueba que
determina un valor denominado punto crítico, el cual establece dos regiones:
106
Estadistica
Gráfico 3.11.
G.3.11
Zona de Aceptación de HO
Zona de Rechazo de HO
1-α
G.3.11
µO
Zona de Aceptación de HO
Pto.
crítico
X
Zona de Rechazo de HO
1-α
En particular esta prueba se denomina unilateral derecha porque la zona de
rechazo se encuentra a la derecha µdel
O punto
Pto.crítico.
X
G.3.12
críticode las hipótesis se realiza en
El desarrollo de la prueba o la contrastación
el dominio de la normal estándar, por lo que habrá que estandarizar tanto µ0
y el punto crítico.
Zona de Aceptación de HO
Zona de Rechazo de HO
1-α
Si el juego de hipótesis
fuera H0: µ = 500g y HA:
µ < 500g, la zona de rechazo del
gráfico estaría a la izquierda y la
prueba se denominaría unilateral
izquierda.
Gráfico 3.12.
G.3.12
0
Zona de Aceptación de HO
G.3.11
G.3.13
Zona de Aceptación de HO
Z∗1−α
Z
Zona de Rechazo de HO
1-α
1-α
0
Zona de Rechazo de HO
Z
Z∗1−α
Zona de Aceptación de HO
Zona de Rechazo de HO
µO
Pto.
crítico
0,05
0
1,64
G.3.13
X
Z
3,2
Zona de Aceptación de HO
Zona de Rechazo de HO
El X estandarizado se denomina estadístico de prueba.
G.3.12
0,05
Para el problema que estamos desarrollando, fijaremos
un nivel de significación
o probabilidad de cometer error tipo I 0de α = 0,05.
Z
1,64
El punto
crítico en
Z Oy el estadístico de prueba resultan:
Zona
de Aceptación
de H
3,2Zona de Rechazo de HO
1-α
0
Z∗1−α
En la elección de un nivel
de significación son
estándares los valores 0,10; 0,05
o 0,01, pero puede optarse por
cualquier otro valor intermedio
entre ellos.
Z
Gráfico 3.13.
G.3.13
Zona de Aceptación de HO
Zona de Rechazo de HO
0,05
0
Z
1,64
3,2
107
Universidad Virtual de Quilmes
Finalmente, comparando el estadístico de prueba calculado Z=3,2 con el punto
*
crítico Z 0,95=1,64, observamos que aquél cae en la zona de rechazo de la H0
por lo que, con base en la muestra de 16 paquetes y con un nivel de significación del 5%, rechazamos H0 a favor de HA.
Conclusión estadística, con base en la muestra de 16 paquetes y con una
probabilidad de cometer error de tipo I de 0,05; habría una diferencia significativa entre la media de todos los paquetes envasados y el valor nominal de
500g. O también, el peso medio de todos los paquetes envasados podría ser
significativamente superior a 500g, en consecuencia, no estaríamos en condiciones de imprimir 500g en los paquetes.
Comentario
Comentarioadicional
adicional
La La
conclusión
estadística
a la que
arribó
está indicando
que habría
desa-un
conclusión
estadística
a lase
que
se arribó
está indicando
que un
habría
juste
en el proceso
de llenado
los paquetes
por lo cual
desajuste
en el proceso
de de
llenado
de los paquetes
porselodebería
cual seinspecdebería
cionar
el
proceso
de
envasado.
Realizar
un
ajuste,
si
fuere
necesario,
inspeccionar el proceso de envasado. Realizar un ajuste, ysidesarfuere
mar
los
paquetes
ya
hechos
para
volver
a
llenarlos
con
la
máquina
corregida.
necesario, y desarmar los paquetes ya hechos para volver a llenarlos con
Como
esta decisión
implicaComo
costos
adicionales
la fabricación
conviene, enen
la máquina
corregida.
esta
decisión en
implica
costos adicionales
primer
lugar, agrandar
la muestra
y luego,
de acuerdo
nuevos
resulta-de
la fabricación
conviene,
en primer
lugar,
agrandarcon
la los
muestra
y luego,
dosacuerdo
del test,con
tomar
la
decisión.
los nuevos resultados del test, tomar la decisión.
5. 5.
UnUn
fraccionador
de soda
envasa paquetes
utilizandoutilizando
una máquifraccionador
de cáustica
soda cáustica
envasa paquetes
una
na máquina
que tieneque
unatiene
precisión
de
σ=8
gramos.
Sobre
una
partida
lista
para
una precisión de =8 gramos. Sobre una partida lista
su distribución,
compuesta
de paquetes
cuyo valor
nominal
es de 250g,
para su distribución,
compuesta
de paquetes
cuyo
valor nominal
es de
seleccionó
una
muestra
de
45
bolsas
la
cual
arrojó
una
media
de
245
250g, seleccionó una muestra de 45 bolsas la cual arrojó una media de
gramos
con un con
desvío
10 gramos.
¿La evidencia
muestralmuestral
estaría indi245 gramos
un de
desvío
de 10 gramos.
¿La evidencia
estaría
cando
que
la
media
de
toda
la
partida
no
tendría
una
diferencia
signiindicando que la media de toda la partida no tendría una diferencia
ficativa
con el valor
impreso
en los en
envases?
significativa
con elnominal
valor nominal
impreso
los envases?
COMIENZO DE ACTIVIDAD
FIN DE ACTIVIDAD
Población
normal
o aproximadamente
normal
y σ2ydesconocido
Población
normal
o aproximadamente
normal
2 desconocido
Si Si
en en
el el
proceso
dede
llenado
dede
paquetes
nono
sese
proceso
llenado
paquetesdedegalletitas
galletitasdedemedio
mediokilo
kilo
conoce
la
precisión
de
la
máquina,
la
prueba
se
realiza
utilizando
el
desvío
de
conoce la precisión de la máquina, la prueba se realiza utilizando el
la muestra
s=la6,802g.
caso,En
se este
usa la
t dese
Student
consecuendesvío de
muestraEns=este
6,802g.
caso,
usa la yt en
de Student
y en
ciaconsecuencia
las expresiones
del
punto
crítico
y
del
estadístico
de
prueba
son
respec-de
las expresiones del punto crítico y del estadístico
tivamente:
prueba son respectivamente:
t *n1,1
*
Entonces t *n1,1 = t15;0,95
= 1,75
y
y
t=
x 0
S
n
x 0 504 500
t=
=
= 2,35
6,802
S
n
108
16
Nuevamente el valor calculado del estadístico de prueba es mayor al
Nuevamente
el valor
calculado
del estadístico
prueba
mayor al se
punto
crí, entonces
rechaza
punto crítico
y cae
en la zona
de rechazodede
la H0es
B =en500g
y sede
llega
a la siguiente
conclusión
ticoque
y cae
la zona
rechazo
de la H0, entonces
seestadística.
rechaza que µ = 500g
Conabase
en una muestra
de estadística.
16 paquetes, desconociendo la precisión
y se llega
la siguiente
conclusión
de
máquina
y con
un nivel
significación
del 5%, ellapeso
mediodede
Conlabase
en una
muestra
de 16depaquetes,
desconociendo
precisión
todos losy con
paquetes
envasados
podríadel
ser5%,
significativamente
superior
la máquina
un nivel
de significación
el peso medio de todos
los a
500g, en consecuencia, no estaríamos en condiciones de imprimir 500g
en los paquetes.
Estadistica
paquetes envasados podría ser significativamente superior a 500g, en consecuencia, no estaríamos en condiciones de imprimir 500g en los paquetes.
Pruebas de hipótesis bilaterales o a dos colas
Estas pruebas se generan en ciertos problemas donde previamente a la realización de la muestra, es decir antes de contar con la evidencia muestral, es necesario tener definida la región
de rechazo.
Son ejemplos de estas pruebas algunas rutinas de control de calidad, en las que entra en consideración que se estaría en situación crítica si X cayera tanto a la derecha como a la izquierda
de µ0. En este caso la región de rechazo está definida en dos tramos y hay dos puntos críticos.
Gráfico 3.14.
G.3.14
Zona de Aceptación de HO
Zona de Rechazo de HO
Zona de Rechazo de HO
1-α
α/2
α/2
–Z*
0
Z*
Z
G.3.14
G.3.14
Consecuentemente,
el juego de hipótesis es:
¿La población
SI
tiene distribución
Zona normal?
de Rechazo de HO
H0: µ=µ0
Usar Z para estimar µ por
Zona de H
Aceptación
A: µ≠µ0 de
SI HO
intervalo de confiannza o
¿σ conocido?
para realizar un test de
Zona
de Rechazo de HO
El desarrollo de la prueba de hipótesis es similar a la anterior, hipótesis
teniendo en cuenta que: si el
1-α
estadístico de prueba Z cayera en la zona de aceptación,
se acepta H0; si Z cayera dentro de
NO
α/2
α/2
NO
la región crítica (zona de rechazo de H0) se rechaza H0 y si estuviera muy próximo a Z* ó Usar
–Z*
0 t para estimar
Z* µ por intervalo deZconfianza
o para realizar un test de hipótesis.
Z* es conveniente agrandar la muestra.
Usar Z (en virtud del teorema central
del límite) para estimar µ por intervalo
Gráfico 3.15. Cuadro guía en inferencia estadística
media
poblacional
de confianzapara
o parala
realizar
un test
de
hipótesis.
NO
NO
G.3.14
¿σ conocido?
SI
¿n>30?
SI
Estas situaciones no se tratan en este curso
¿La población
SI
¿σ conocido?
tiene distribución
normal?
Usar Z para estimar µ por
intervalo de confiannza o
para realizar un test de
hipótesis
SI
NO
NO
Usar t para estimar µ por intervalo de confianza
o para realizar un test de hipótesis.
G.3.15
SIO
Zona de¿σRechazo
conocido?de H
NO
0,05
Usarde
Z (en
Zona deSI
Aceptación
H virtud del teorema central
¿n>30?
del límite)Opara estimar µ por intervalo
de confianza o para realizar un test de
hipótesis.
NO
0
1,64
Estas situaciones no se tratan
en este curso
Z
−0,38
109
Universidad Virtual de Quilmes
G.3.14
Prueba de hipótesis para la proporción poblacional
de Aceptación
de Hutilizado
En la muestra de 2200 Zona
familias
del ejemplo
en intervalos de conO
fianzadepara
la proporción
poblacional, las que venZona
un determinado
Rechazo
de HO
de Rechazo deprograma
HO
Zona
de TV representan el 39,6%.
1-α
Los productores delα/2programa, para decidir
α/2los costos de los espacios
comerciales cuentan con
un
raiting
histórico
del
muestral
–Z*
0
Z* 40%. La evidencia
Z
¿estaría indicando una disminución significativa de la posición del programa
en el raiting?
G.3.14
Para responder a la pregunta se realizará una PPHH con un nivel de significación del 5%.
Entonces, el par de hipótesis para esta PPHH es:
¿La población
tiene distribución
normal?
SI
¿σ
: P = 0,40
H0conocido?
HA: P < 0,40
SI
Usar Z para estimar µ por
intervalo de confiannza o
para realizar un test de
hipótesis
NO
Dado que elNO
tamaño de la muestra es grande, el estadístico proporción muesUsar t para estimar µ por intervalo de confianza
tral tiene distribución normal. El punto
crítico
eltest
estadístico
o para
realizaryun
de hipótesis. de prueba son,
¿σ conocido?
SI
Y
SI
¿n>30?
:
NO
NO
P 0
0 N
Usar Z (en virtud del teorema central
del límite)
para estimar
µ por intervalo
un
deconfianza o para realizar
test de
0 hipótesis. Estas situaciones no se tratan en este curso
respectivamente. Resultando,
Gráfico.3.16.
G.3.15
Zona de Aceptación de HO
Zona de Rechazo de HO
0,05
0
1,64
Z
−0,38
que el estadístico de prueba cae en la zona de aceptación de la H0 (ya que 1,64 < -0,38).
Conclusión: con base en una muestra de 2200 familias y con un nivel de significación de 0,05, la proporción de familias que ven ese programa de TV en
toda la población no habría cambiado significativamente.
6.
Un método de lectura veloz es efectivo en el 70% de los casos. Un nuevo
método intenta mejorar la efectividad y para comprobarlo se toma una
muestra de 205 estudiantes de los cuales 155 mejoraron su lectura. ¿Se puede
concluir que el nuevo método es significativamente mejor que el anterior?
110
Estadistica
Procedimiento para realizar una prueba de hipótesis
Cualquiera sea el parámetro que se someta a una PPHH, el procedimiento involucra los siguientes pasos:
• Formular las hipótesis a contrastar a partir de la comparación de la
evidencia muestral –o del planteo previo a la evidencia (prueba bilateral)– con el valor hipotético del parámetro.
• Elegir el nivel de significación.
• Designar el tipo de distribución de probabilidades del estimador alrededor del parámetro a probar.
• Calcular el o los puntos críticos.
• Estandarizar el estadístico muestral para producir el estadístico de
prueba.
• Observar la zona en la que se ubica el estadístico de prueba respecto del o de los puntos críticos.
• Decidir la aceptación o el rechazo de la hipótesis nula, o –si el estadístico de prueba se encuentra en un entorno muy próximo al punto
crítico– la realización de una nueva prueba seleccionando una muestra más grande.
• Concluir en el marco del problema.
7.
Al aumentar el nivel de significación en una PPHH, la probabilidad de
rechazar una hipótesis nula que en realidad fuera verdadera: ¿aumenta,
disminuye o permanece inalterada?
111
4
Elementos básicos de econometría
Objetivos
• Especificar algunos modelos de relación entre variables económicas.
• Predecir el comportamiento de determinados agentes económicos con base
en los modelos de relación elaborados.
4.1. Introducción
No hay error más común que el de suponer que, porque se hicieron prolongados y exactos cálculos matemáticos, la aplicación del resultado a algún hecho de
la naturaleza conduce a la certeza absoluta.
A.A. Whitehead
(citado por M. J. Moreney en Hechos y Estadísticas)
Un fenómeno económico cualquiera puede entenderse como el resultado de
la acción de múltiples variables que inciden sobre él en distinto grado y que
pueden utilizarse como variables potencialmente explicativas del comportamiento de dicho fenómeno.
En su forma general, el análisis econométrico consiste en estudiar un modelo que relacione la variable Y representativa del fenómeno económico con las
posibles variables explicativas X1, X2,.....,Xk. Tal modelo de relación puede
representarse matemáticamente como
Y = f (X1, X2,.....,Xk)
Donde la función f puede asumir distintas expresiones matemáticas a saber:
lineal, logarítmica, exponencial, potencial, etcétera.
Particularmente un modelo lineal de relación expresa el comportamiento
medio de la variable Y en función del conjunto de variables explicativas Xi y
tiene la siguiente expresión general,
=
Y = α + β1.X1 + β2.X2 +...+ βk.Xk
en la cual α, β1,... βk son los parámetros del modelo.
El análisis de la relación funcional entre la variable a explicar y las variables explicativas se denomina análisis de regresión.
113
Universidad Virtual de Quilmes
El modelo se completa con el análisis de correlación que consiste en estudiar el grado o fuerza de la relación existente entre ambas variables.
Los análisis de regresión y correlación lineales (apartado 4.2.) más simples
corresponden al modelo lineal bivariado en el cual sólo interviene una variable explicativa y cuya expresión matemática es:
Y = α + β.X con parámetros α y β
y es el que desarrollaremos en esta carpeta.
En el caso particular en que la variable explicativa es el tiempo, el modelo corresponde a las denominadas series cronológicas o series de tiempo
(apartado 4.3).
4.2. Análisis de regresión y de correlación
El diagrama de puntos 4.1. es la representación gráfica conjunta de las variables salario quincenal actual y edad de la población de todos los trabajadores
de la empresa cooperativa, de la cual se extrajo la muestra de 20 empleados
de la ME1 de la Unidad I. Sobre dicho gráfico puede observarse también la
recta de regresión poblacional que resume el comportamiento medio de la
nube de puntos.
G.4.1.
Gráfico 4.1.
Salario quincenal actual y edad
1600
Quincena actual
1400
1200
1000
800
600
400
200
0
18 22 26 30 34 38 42 46 50 54 58 62 66
Edad
En este problema partimos de una supuesta población conocida. Sin embargo, en la realidad de los trabajos estadísticos suelen desconocerse los datos
de la totalidad de la población y se trabaja con los datos de una muestra representativa extraída de aquella.
En el diagrama 4.2. se indentifican los datos que conforman la muestra
G.4.2.
ME1 extraídos aleatoriamente de la población, que en lo sucesivo consideraremos desconocida.
Salario quincenal actual y edad
1600
114
ncena actual
1400
1200
1000
800
600
Estadistica
G.4.2.
Gráfico 4.2.
Salario quincenal actual y edad
1600
Quincena actual
1400
1200
1000
800
600
400
200
0
18 22 26 30 34 38 42 46 50 54 58 62 66
ŷ = a + b.x
Edad
A partir de los datos de la muestra se construye la recta de regresión muesY = estimador
+ .X desconocida.
regresión
poblacional
tral ŷ =a-b.x
la cual
será el mejor
de la recta de regresión poblacional Y = α + β.X desconocida.
G.4.3.
Gráfico 4.3.
Salario quincenal actual y edad –muestra–
1600
Quincena actual
1400
1200
1000
800
600
400
ŷ =208,8 + 15,89 x
200
0
18 22 26 30 34 38 42 46 50 54 58 62 66
Edad
Esta recta representa el comportamiento medio de los datos muestrales y es
la que hace mínimo el conjunto de los desvíos entre los valores y de los datos
observados y los valores ŷ de sus correspondientes proyecciones en la recta.
Observando el gráfico 4.4. se pueden notar tales desvíos d = y –ŷ, también
G.4.4.
llamados residuos.
Salario quincenal actual y edad –muestra–
1600
cena actual
1400
1200
1000
800
a
115
Universidad Virtual de Quilmes
Gráfico 4.4.G.4.4.
Salario quincenal actual y edad –muestra–
1600
Quincena actual
1400
1200
1000
a
800
600
400
ŷ =208,8 + 15,89 x
200
0
18 22 26 30 34 38 42 46 50 54 58 62 66
Edad
En el marco del modelo lineal, un valor ŷ obtenido mediante la ecuación de
regresión representa una estimación del comportamiento de la variable Y (salario quincenal actual) para un cierto xi (una determinada edad del trabajador).
La formalización matemática del concepto de que el conjunto de los desvíos es mínimo puede hacerse a través de distintos criterios. Uno de ellos,
que visualiza mejor el problema, es el que considera que la sumatoria de los
valores absolutos de los desvíos debe ser mínima y se expresa:
El criterio de cuadrados
mínimos fue desarrollado por K. F. Gauss en Theoria
motus corporum coelestium, 1809.
Otro es el criterio de cuadrados mínimos, el cual impone como condición que
la suma de los cuadrados de los desvíos debe ser mínima, es decir:
Ecuación de la regresión lineal
A partir del criterio de los cuadrados mínimos se encuentran las expresiones de “a” y “b” con los que se construye la ecuación de regresión muestral ŷ = a-b.x que es la que mejor estima la ecuación de regresión poblacional
Y =α+β.x , cuyos parámetros son α y β.
Los valores de “a” y “b” están dados por
116
Obtención de las expresiones de a y b
Estadistica
Obtención de las expresiones de a y b
Obtención
expresiones
ay ybaby b
Obtención
delaslas
expresiones
Obtención
dedelas
expresiones
dedeade
Obtención de las expresiones de a y b
A partirdebe
de la idea
de que
debe ser míni
partirdede lalaidea
ideadedeque
que
mínima
AApartir
debe serser mínima
yy
A partir
de de
la laidea
debe
ser,mínima
mínima
y quesu expresión
A partir
ideade
de que
que
debe ser
reemplareemplazando
, resulta
reemplazando
por susuexpresión
expresión
resultaypor
reemplazando
por
, resulta
que
zando
ŷ
por
su
expresión
ŷ
=
a-b.x
,
resulta
que
reemplazando
por su expresión
, resulta que debe ser mínima por lo que sus prim
debe serser mínima
mínima por
por lolo que
quesus
susprimeras
primeras
debe
debe
ser
mínima
por
lo
que
sus
primeras
debe ser parciales
mínima por
lo quedesus
primeras
derivadas
parciales
respecto
de a yde
deaby de b deben ser cero, es decir,
parciales
respecto
derivadas
respecto
ay yde
deb bdeben
deben
serderivadas
cero,
esdecir,
decir,
derivadas
parciales
respecto
de
a
ser
cero,
es
debenparciales
ser cero,respecto
es decir,de a y de b deben ser cero, es decir,
derivadas
llegandoaadeterminarse
determinarse el siguiente
sistema
dedellegando
ecuaciones
a normales
determinarse
llegando
siguientesistema
sistemade
ecuaciones
normales el siguiente sistema de ecuaciones normales
llegando
a determinarse elelsiguiente
ecuaciones
normales
llegando a determinarse el siguiente sistema de ecuaciones normales
cuya resolución culmina con las expresiones
En la muestra de los 20 trabajadores, los estadísticos muestrales a y b son,
a = 208,8
y
b = 15,89
y la ecuación de la recta de regresión muestral resulta
La información útil que puede extraerse de la expresión de la ecuación obtenida es la relacionada con la pendiente b=+$15,89/año. Ésta indica que en
la muestra por cada año de diferencia en la edad de los trabajadores hay una
diferencia de $15,89 en el salario. Más precisamente, teniendo en cuenta el
signo de la pendiente, cuando se incrementa en un año la edad de los trabajadores, el salario quincenal actual aumenta $15,89.
Por otro lado, la recta de regresión nos permitirá estimar el salario quincenal
actual de un trabajador de la población que no estuviese en la muestra y cuya
edad fuera, por ejemplo, 48 años.
117
Universidad Virtual de Quilmes
Entonces, el salario quincenal actual estimado para un trabajador de 48 años
será aproximadamente de $971,52.
Coeficiente de correlación lineal
Para estudiar el grado o fuerza de la relación lineal que existe entre dos variables se utiliza como medida el denominado coeficiente de correlación.
El coeficiente de correlación poblacional se denomina ρ y su mejor estimador es el coeficiente de correlación muestral r que se determina como,
Se debe al biómetra inglés
Karl Pearson y es aplicable a variables cuantitativas.
donde SXY es la covarianza o varianza conjunta o variación conjunta entre las
variables aleatorias X e Y, y SX y SY son los desvíos estándar de X e Y respectivamente.
• Cuando la covarianza entre X e Y es nula el coeficiente de correlación es r = 0.
• Cuando hay covariabilidad perfecta entre X e Y y ambas varían en el mismo
sentido, el coeficiente de correlación es r = +1.
• Cuando hay covariabilidad perfecta entre X e Y y ambas varían con sentido
contrario, la correlación es r = -1.
• En cualquier otra situación, el coeficiente de correlación puede ser
-1< r <0 ó 0< r <+1.
G.4.5.
Gráfico 4.5.
G.4.5.
Y
Y
Correlación lineal directa, r entre 0 y+1
Correlación lineal directa, r entre 0 y+1
Y
Y
Correlación lineal directa, r entre 0 y+1
Correlación lineal directa, r entre 0 y+1
X
X
No hay correlación, r muy próximo a 0
Y
X
X
No hay correlación, r muy próximo a 0
Y
X
Para calcular el coeficiente de correlación del ejemplo del salario quincenal
X
actual y la edad de los trabajadores de la empresa cooperativa se puede utilizar la siguiente expresión:
118
Estadistica
resultando r = +0,557. Esto estaría indicando que ambas variables tienen un
mediano grado de correlación directa.
Coeficiente de determinación
Complementariamente a los coeficientes de regresión y de correlación, se presenta una medida denominada coeficiente de determinación r2 que indica
cuánto del comportamiento de Y es explicado o puede entenderse por el modelo de regresión.
Su expresión de cálculo es:
El coeficiente de determinación toma valores entre 0 y 1, y se interpreta como
porcentaje.
En el ejemplo que estamos desarrollando, se tiene un r2 = 0,31. Este resultado indica que en la muestra, el 31% de la variación de los salarios quincenales actuales quedan explicados por las variaciones de las edades de los
trabajadores de la empresa cooperativa.
El análisis de regresión lineal permite hallar la recta que mejor se ajusta
a los datos muestrales.
• La pendiente de la recta b, llamada también coeficiente de regresión,
suministra información sobre la variación de y por cada cambio unitario de x y su signo indica el sentido de la relación.
• La estimación del comportamiento en la población de la variable
explicada Y queda circunscripta a valores de la variable explicativa X
que no estén muy alejados de su rango.
El coeficiente de correlación r y el coeficiente de regresión b comparten la
misma información respecto de si la relación entre las variables es directa o inversa (consecuentemente los numeradores de sus respectivas expresiones son iguales).
• Si la relación entre las variables es directa, la recta será creciente, la
pendiente positiva y el coeficiente de regresión también positivo
variará entre 0 y +1.
• Si la relación entre las variables es inversa, la recta será decreciente,
la pendiente negativa y el coeficiente de regresión también negativo
variará entre -1 y 0.
El coeficiente de determinación r2 es el cuadrado del coeficiente de correlación r y se interpreta en una escala del 0 al 100.
119
Universidad Virtual de Quilmes
Los coeficientes de regresión, de correlación y el de determinación dados son las
herramientas necesarias para estudiar la relación lineal entre dos variables.
1.
Efectuar un análisis de regresión y correlación para las variables:
a. Longitud y peso de la ME4 correspondiente a una muestra de 20
piezas de plástico especiales fabricadas por una determinada empresa.
b. Antigüedad y cantidad de empleados de las pymes de la República
Argentina año 2004/2005.
4.3. Series de tiempo
En el análisis estadístico de un fenómeno económico, social, etc. en el que
cada valor de la variable en estudio esté vinculado a un momento de tiempo,
el enfoque es el de una serie cronológica o serie de tiempo.
En una serie de tiempo, la variable estadística a estudiar es dependiente
de la variable matemática tiempo, es decir que sus valores varían en el transcurso del tiempo.
Son objeto de estudio econométrico, en el marco de una serie cronológica, la
evolución en el tiempo del salario de los trabajadores de un determinado rubro,
de las ventas de los negocios de un centro comercial, de la tasa de desempleo en una región, etcétera.
Modelo matemático de una serie de tiempo
Al estudiar una variable estadística a través del tiempo, cada uno de los valores que ella asume es la resultante de los efectos producidos por distintas causas y esos efectos intervienen en el modelo como componentes del mismo.
Las componentes del modelo son: la tendencia (T) general, las distintas
variaciones cíclicas (C) alrededor de la tendencia y el ruido (R) estadístico.
El modelo matemático genérico usualmente aceptado para las series económicas es,
X=T.C.R
En las series de tiempo
económicas, una componente cíclica periódica importante es la llamada variación estacional (E), para la cual el ciclo dura
un año.
120
Las componentes cíclicas pueden presentarse como periódicas (Cp) y como
no periódicas (Cnp), entonces el modelo matemático finalmente resulta,
X = T . Cp. Cnp . R
Estadistica
donde Cp y Cnp representan, en rigor, familias de componentes con distintas
longitudes de tiempo.
De las componentes señaladas, la única que aquí veremos será la tendencia T, que se expresa como una ecuación lineal obtenida a partir del método de los cuadrados mínimos.
Ejemplo
La siguiente información se extrajo del Anuario Estadístico de la República
Argentina 2000, sección Economía, del diario Clarín y fue elaborada con base
en datos del INDEC.
G.4.6.
Gráfico
4.6.
Balanza comercial argentina en U$S
Año
1984
1985
1986
1987
1988
1989
1990
1991
1992
1993
1994
1995
1996
1997
1998
1999
Exportaciones
8.107
8.396
6.852
6.360
9.135
9.579
12.353
11.978
12.235
13.118
15.839
20.963
23.811
26.432
26.441
23.333
Importaciones
4.585
3.814
4.724
5.818
5.322
4.203
4.077
8.275
14.672
16.784
21.590
20.122
23.762
30.450
31.404
25.508
35
30
25
20
15
Exportaciones
10
5
Importaciones
0
84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99
A partir de la tabla se puede analizar por separado la evolución en el tiempo
Millones
de u$s
de las variables
Exportaciones
e Importaciones. En el gráfico que acompaña
Año
Exportaciones
la tabla,1 los puntos
que
representan
los datos colectados a lo largo del tiem8.107
po se unen
para expresar
la cronología.
2
8.396
3
6.852
Procesaremos
la variable Exportaciones analizando su evolución a lo largo
4
6.360
del tiempo,
destacando
que dicha variable es la única variable estadística en
5
9.135
juego ya6 que el tiempo
es
una variable matemática.
9.579
7
12.353
Si bien este es un caso de estadística univariada, se puede utilizar per8
11.978
fectamente
el recurso
de ajustar por cuadrados mínimos ya empleado ante9
12.235
riormente
la recta de la regresión lineal. En una serie de tiem10 para determinar
13.118
11
15.839será la tendencia.
po, la recta
de ajuste
20.963
Para12calcular la
recta que describa la tendencia T de las exportaciones,
13
23.811
codificaremos
la
variable
14
26.431 independiente tiempo considerando: t = 1 para 1984,
15 1985 y26.441
t = 2 para
así sucesivamente.
16
23.333
121
1996
1997
1998
1999
23.811
26.432
26.441
23.333
23.762
30.450
31.404
25.508
Universidad Virtual de Quilmes
Año
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
Millones de u$s
Exportaciones
8.107
8.396
6.852
6.360
9.135
9.579
12.353
11.978
12.235
13.118
15.839
20.963
23.811
26.431
26.441
23.333
Entonces
T = 2782,55 + 1400,075. t
Una predicción realizada en el marco de una
serie cronológica se denomina
pronóstico y se realiza en cualquier sentido, hacia atrás o hacia
adelante, en el tiempo.
La pendiente b=1400,075 de la tendencia indica que por cada año transcurrido (en el período tomado), las exportaciones aumentaron en promedio 1400,
075 millones de dólares por año.
Usando la recta de tendencia calculada se pueden pronosticar las exportaciones para:
a) El año 2000.
2782,55 + 1400,075 . 17 = 26.583,825 (17 es el código para el año 2000).
Se estima que en el año 2000 las exportaciones fueron del orden de los
26.583,825 millones de dólares.
b) El año 1982.
2782,55 + 1400,075 . (-1) = 1.382,475 (-1 es el código para el año 1982).
Se estima que en el año 1982 las exportaciones fueron del orden de los
1.382,475 millones de dólares.
c) El año 2020.
2782,55 + 1400,075 . 37 = 54.585,325 (37 es el código para el año 2020).
El año para el que se quiere pronosticar está muy alejado del rango
observado; no es conveniente usar el valor calculado como pronóstico
o estimación.
d) El año 2007.
2782,55 + 1400,075 . 24 = 36.384,350 (24 es el código para el año 2007).
Se estima que en el año 2000 las exportaciones fueron del orden de los
36.384,350 millones de dólares.
2.
Realizar las siguientes actividades:
Para la variable Importaciones: calcular la recta de tendencia, interpretar su pendiente y realizar pronósticos.
122
Estadistica
A partir de la información de la siguiente tabla, calcular la recta de tendencia, interpretar su pendiente y realizar pronósticos.
Año
1980
1985
1986
1987
1988
1989
1990
1993
1994
Tasa de desempleo
2,6
6,1
5,6
5,9
6,3
7,8
7,4
9,6
10,8*
Fuente: INDEC , Encuesta Permanente de Hogares.
Fuente: INDEC, Encuesta Permanente de Hogares.
123
Referencias Bibliográficas
CHOU, Ya-Lun (1992), Análisis estadístico, McGraw-Hill, México.
MAYER, P. (1986), Probabilidad y aplicaciones estadísticas, Addison Wesley,
México.
MORONEY, M. J. (1965), Hechos y estdísticas, EUDEBA, Buenos Aires.
SPIEGEL, M.R. (2002), Estadística, McGraw-Hill, México.
TORANZOS, I. F. (1997), Teoría Estadística y Aplicaciones, Macchi, Buenos
Aires.
TUKEY, J. W. (1977), Exploratory Data Analysis, Addison Wesley, U.S.A.
125
Anexo
Anexo
Anexo
Anexo
Tabla 1:
1: Percentiles
Percentiles de
de lala distribución
distribución normal
normal estándar
estándar
Tabla
Tabla 1: Percentiles de la distribución normal estándar
PP
P
ZZ
Z
p
z
z
p
-4,00
z
p
0,00003
-4,00 0,00003
-3,99 0,00003
-4,00
-3,99 0,00003
0,00003
-3,98 0,00003
-3,99
-3,98 0,00003
0,00003
-3,97 0,00004
-3,98
-3,97 0,00003
0,00004
-3,96 0,00004
-3,97
-3,96 0,00004
0,00004
-3,95 0,00004
-3,96
-3,95 0,00004
0,00004
-3,94 0,00004
-3,95
-3,94 0,00004
0,00004
-3,93 0,00004
0,00004
-3,94
-3,93
0,00004
-3,92
0,00004
-3,93
-3,92 0,00004
0,00004
-3,91 0,00004
0,00005
-3,92
-3,91 0,00005
-3,90 0,00005
0,00005
-3,91
-3,90 0,00005
-3,89 0,00005
0,00005
-3,90
-3,89 0,00005
-3,88 0,00005
0,00005
-3,89
-3,88 0,00005
-3,87 0,00005
0,00005
-3,88
-3,87 0,00005
-3,86 0,00006
-3,87
-3,86 0,00005
0,00006
-3,85 0,00006
-3,86
-3,85 0,00006
0,00006
-3,84 0,00006
-3,85
-3,84 0,00006
0,00006
-3,83 0,00006
-3,84
-3,83 0,00006
0,00006
-3,82 0,00007
-3,83
-3,82 0,00006
0,00007
-3,81 0,00007
0,00007
-3,82
-3,81
0,00007
-3,80
0,00007
-3,81
-3,80 0,00007
0,00007
-3,79
0,00008
-3,80
-3,79 0,00007
0,00008
-3,78 0,00008
0,00008
-3,79
-3,78 0,00008
-3,77 0,00008
0,00008
-3,78
-3,77 0,00008
-3,76 0,00008
0,00008
-3,77
-3,76 0,00008
-3,75 0,00008
0,00009
-3,76
-3,75 0,00009
-3,74 0,00009
0,00009
-3,75
-3,74 0,00009
-3,73 0,00010
-3,74
-3,73 0,00009
0,00010
-3,72 0,00010
-3,73
-3,72 0,00010
0,00010
-3,71 0,00010
-3,72
-3,71 0,00010
0,00010
-3,70 0,00011
-3,71
-3,70 0,00010
0,00011
-3,69 0,00011
-3,70
-3,69 0,00011
0,00011
-3,68 0,00011
0,00012
-3,69
-3,68
0,00012
-3,67 0,00012
0,00012
-3,68
-3,67 0,00012
-3,66
0,00013
-3,67
-3,66 0,00012
0,00013
-3,65 0,00013
0,00013
-3,66
-3,65 0,00013
-3,64 0,00013
0,00014
-3,65
-3,64 0,00014
-3,63 0,00014
0,00014
-3,64
-3,63 0,00014
-3,62 0,00014
0,00015
-3,63
-3,62 0,00015
-3,61 0,00015
-3,62
-3,61 0,00015
0,00015
-3,60 0,00016
-3,61
-3,60 0,00015
0,00016
-3,59 0,00017
-3,60
-3,59 0,00016
0,00017
-3,58 0,00017
-3,59
-3,58 0,00017
0,00017
-3,57 0,00018
-3,58
-3,57 0,00017
0,00018
-3,56 0,00019
-3,57
-3,56 0,00018
0,00019
-3,55 0,00019
0,00019
-3,56
-3,55
0,00019
-3,54 0,00019
0,00020
-3,55
-3,54 0,00020
-3,53
0,00021
-3,54
-3,53 0,00020
0,00021
-3,52 0,00021
0,00022
-3,53
-3,52 0,00022
-3,51 0,00022
0,00022
-3,52
-3,51 0,00022
-3,51 0,00022
z
p
z
p
-3,50
z
p
0,00023
-3,50 0,00023
-3,49 0,00024
-3,50
-3,49 0,00023
0,00024
-3,48 0,00025
-3,49
-3,48 0,00024
0,00025
-3,47 0,00026
-3,48
-3,47 0,00025
0,00026
-3,46 0,00027
-3,47
-3,46 0,00026
0,00027
-3,45 0,00028
-3,46
-3,45 0,00027
0,00028
-3,44 0,00029
-3,45
-3,44 0,00028
0,00029
-3,43 0,00029
0,00030
-3,44
-3,43
0,00030
-3,42
0,00031
-3,43
-3,42 0,00030
0,00031
-3,41 0,00031
0,00032
-3,42
-3,41 0,00032
-3,40 0,00032
0,00034
-3,41
-3,40 0,00034
-3,39 0,00034
0,00035
-3,40
-3,39 0,00035
-3,38 0,00035
0,00036
-3,39
-3,38 0,00036
-3,37 0,00036
0,00038
-3,38
-3,37 0,00038
-3,36 0,00039
-3,37
-3,36 0,00038
0,00039
-3,35 0,00040
-3,36
-3,35 0,00039
0,00040
-3,34 0,00042
-3,35
-3,34 0,00040
0,00042
-3,33 0,00043
-3,34
-3,33 0,00042
0,00043
-3,32 0,00045
-3,33
-3,32 0,00043
0,00045
-3,31 0,00045
0,00047
-3,32
-3,31
0,00047
-3,30
0,00048
-3,31
-3,30 0,00047
0,00048
-3,29
0,00050
-3,30
-3,29 0,00048
0,00050
-3,28 0,00050
0,00052
-3,29
-3,28 0,00052
-3,27 0,00052
0,00054
-3,28
-3,27 0,00054
-3,26 0,00054
0,00056
-3,27
-3,26 0,00056
-3,25 0,00056
0,00058
-3,26
-3,25 0,00058
-3,24 0,00058
0,00060
-3,25
-3,24
0,00060
-3,23
0,00062
-3,24
-3,23 0,00060
0,00062
-3,22 0,00062
0,00064
-3,23
-3,22 0,00064
-3,21 0,00064
0,00066
-3,22
-3,21 0,00066
-3,20 0,00066
0,00069
-3,21
-3,20 0,00069
-3,19 0,00069
0,00071
-3,20
-3,19 0,00071
-3,18 0,00071
0,00074
-3,19
-3,18 0,00074
-3,17 0,00076
-3,18
-3,17 0,00074
0,00076
-3,16 0,00079
-3,17
-3,16 0,00076
0,00079
-3,15 0,00082
-3,16
-3,15 0,00079
0,00082
-3,14 0,00084
-3,15
-3,14 0,00082
0,00084
-3,13 0,00087
-3,14
-3,13 0,00084
0,00087
-3,12 0,00087
0,00090
-3,13
-3,12
0,00090
-3,11 0,00090
0,00094
-3,12
-3,11 0,00094
-3,10
0,00097
-3,11
-3,10 0,00094
0,00097
-3,09
0,00100
-3,10
-3,09 0,00097
0,00100
-3,08 0,00100
0,00104
-3,09
-3,08 0,00104
-3,07 0,00104
0,00107
-3,08
-3,07 0,00107
-3,06 0,00107
0,00111
-3,07
-3,06 0,00111
-3,05 0,00114
-3,06
-3,05 0,00111
0,00114
-3,04 0,00118
-3,05
-3,04 0,00114
0,00118
-3,03 0,00122
-3,04
-3,03 0,00118
0,00122
-3,02 0,00126
-3,03
-3,02 0,00122
0,00126
-3,01 0,00131
-3,02
-3,01 0,00126
0,00131
-3,01 0,00131
z
p
z
p
-3,00
z
p
0,00135
-3,00 0,00135
-2,99 0,00139
-3,00
-2,99 0,00135
0,00139
-2,98 0,00144
-2,99
-2,98 0,00139
0,00144
-2,97 0,00149
-2,98
-2,97 0,00144
0,00149
-2,96 0,00154
-2,97
-2,96 0,00149
0,00154
-2,95 0,00159
-2,96
-2,95 0,00154
0,00159
-2,94 0,00159
0,00164
-2,95
-2,94
0,00164
-2,93
0,00169
-2,94
-2,93 0,00164
0,00169
-2,92
0,00175
-2,93
-2,92 0,00169
0,00175
-2,91 0,00175
0,00181
-2,92
-2,91 0,00181
-2,90 0,00181
0,00187
-2,91
-2,90 0,00187
-2,89 0,00187
0,00193
-2,90
-2,89 0,00193
-2,88 0,00193
0,00199
-2,89
-2,88 0,00199
-2,87 0,00199
0,00205
-2,88
-2,87 0,00205
-2,86 0,00212
-2,87
-2,86 0,00205
0,00212
-2,85 0,00219
-2,86
-2,85 0,00212
0,00219
-2,84 0,00226
-2,85
-2,84 0,00219
0,00226
-2,83 0,00233
-2,84
-2,83 0,00226
0,00233
-2,82 0,00240
-2,83
-2,82 0,00233
0,00240
-2,81 0,00240
0,00248
-2,82
-2,81
0,00248
-2,80
0,00256
-2,81
-2,80 0,00248
0,00256
-2,79
0,00264
-2,80
-2,79 0,00256
0,00264
-2,78 0,00264
0,00272
-2,79
-2,78 0,00272
-2,77 0,00272
0,00280
-2,78
-2,77 0,00280
-2,76 0,00280
0,00289
-2,77
-2,76 0,00289
-2,75 0,00289
0,00298
-2,76
-2,75 0,00298
-2,74 0,00307
-2,75
-2,74 0,00298
0,00307
-2,73 0,00317
-2,74
-2,73 0,00307
0,00317
-2,72 0,00326
-2,73
-2,72 0,00317
0,00326
-2,71 0,00336
-2,72
-2,71 0,00326
0,00336
-2,70 0,00347
-2,71
-2,70 0,00336
0,00347
-2,69 0,00357
-2,70
-2,69 0,00347
0,00357
-2,68 0,00357
0,00368
-2,69
-2,68
0,00368
-2,67 0,00368
0,00379
-2,68
-2,67 0,00379
-2,66
0,00391
-2,67
-2,66 0,00379
0,00391
-2,65 0,00391
0,00402
-2,66
-2,65 0,00402
-2,64 0,00402
0,00415
-2,65
-2,64 0,00415
-2,63 0,00415
0,00427
-2,64
-2,63 0,00427
-2,62 0,00427
0,00440
-2,63
-2,62 0,00440
-2,61 0,00453
-2,62
-2,61 0,00440
0,00453
-2,60 0,00466
-2,61
-2,60 0,00453
0,00466
-2,59 0,00480
-2,60
-2,59 0,00466
0,00480
-2,58 0,00494
-2,59
-2,58 0,00480
0,00494
-2,57 0,00508
-2,58
-2,57 0,00494
0,00508
-2,56 0,00508
0,00523
-2,57
-2,56
0,00523
-2,55 0,00523
0,00539
-2,56
-2,55 0,00539
-2,54 0,00539
0,00554
-2,55
-2,54 0,00554
-2,53
0,00570
-2,54
-2,53 0,00554
0,00570
-2,52 0,00570
0,00587
-2,53
-2,52 0,00587
-2,51 0,00587
0,00604
-2,52
-2,51 0,00604
-2,51 0,00604
z
p
z
p
-2,50
z
p
0,00621
-2,50 0,00621
-2,49 0,00639
-2,50
-2,49 0,00621
0,00639
-2,48 0,00657
-2,49
-2,48 0,00639
0,00657
-2,47 0,00676
-2,48
-2,47 0,00657
0,00676
-2,46 0,00695
-2,47
-2,46 0,00676
0,00695
-2,45 0,00714
-2,46
-2,45 0,00695
0,00714
-2,44 0,00714
0,00734
-2,45
-2,44
0,00734
-2,43
0,00755
-2,44
-2,43 0,00734
0,00755
-2,42
0,00776
-2,43
-2,42 0,00755
0,00776
-2,41 0,00776
0,00798
-2,42
-2,41 0,00798
-2,40 0,00798
0,00820
-2,41
-2,40 0,00820
-2,39 0,00820
0,00842
-2,40
-2,39 0,00842
-2,38 0,00842
0,00866
-2,39
-2,38 0,00866
-2,37 0,00866
0,00889
-2,38
-2,37 0,00889
-2,36 0,00914
-2,37
-2,36 0,00889
0,00914
-2,35 0,00939
-2,36
-2,35 0,00914
0,00939
-2,34 0,00964
-2,35
-2,34 0,00939
0,00964
-2,33 0,00990
-2,34
-2,33 0,00964
0,00990
-2,32 0,01017
-2,33
-2,32 0,00990
0,01017
-2,31 0,01017
0,01044
-2,32
-2,31
0,01044
-2,30
0,01072
-2,31
-2,30 0,01044
0,01072
-2,29
0,01101
-2,30
-2,29 0,01072
0,01101
-2,28 0,01101
0,01130
-2,29
-2,28 0,01130
-2,27 0,01130
0,01160
-2,28
-2,27 0,01160
-2,26 0,01160
0,01191
-2,27
-2,26 0,01191
-2,25 0,01191
0,01222
-2,26
-2,25 0,01222
-2,24 0,01255
-2,25
-2,24 0,01222
0,01255
-2,23 0,01287
-2,24
-2,23 0,01255
0,01287
-2,22 0,01321
-2,23
-2,22 0,01287
0,01321
-2,21 0,01355
-2,22
-2,21 0,01321
0,01355
-2,20 0,01390
-2,21
-2,20 0,01355
0,01390
-2,19 0,01426
-2,20
-2,19 0,01390
0,01426
-2,18 0,01426
0,01463
-2,19
-2,18
0,01463
-2,17 0,01463
0,01500
-2,18
-2,17 0,01500
-2,16
0,01539
-2,17
-2,16 0,01500
0,01539
-2,15 0,01539
0,01578
-2,16
-2,15 0,01578
-2,14 0,01578
0,01618
-2,15
-2,14 0,01618
-2,13 0,01618
0,01659
-2,14
-2,13 0,01659
-2,12 0,01659
0,01700
-2,13
-2,12 0,01700
-2,11 0,01743
-2,12
-2,11 0,01700
0,01743
-2,10 0,01786
-2,11
-2,10 0,01743
0,01786
-2,09 0,01831
-2,10
-2,09 0,01786
0,01831
-2,08 0,01876
-2,09
-2,08 0,01831
0,01876
-2,07 0,01923
-2,08
-2,07 0,01876
0,01923
-2,06 0,01923
0,01970
-2,07
-2,06
0,01970
-2,05 0,01970
0,02018
-2,06
-2,05 0,02018
-2,04 0,02018
0,02068
-2,05
-2,04 0,02068
-2,03
0,02118
-2,04
-2,03 0,02068
0,02118
-2,02 0,02118
0,02169
-2,03
-2,02 0,02169
-2,01 0,02169
0,02222
-2,02
-2,01 0,02222
-2,01 0,02222
z
z
-2,00
z
-2,00
-1,99
-2,00
-1,99
-1,98
-1,99
-1,98
-1,97
-1,98
-1,97
-1,96
-1,97
-1,96
-1,95
-1,96
-1,95
-1,94
-1,95
-1,94
-1,93
-1,94
-1,93
-1,92
-1,93
-1,92
-1,91
-1,92
-1,91
-1,90
-1,91
-1,90
-1,89
-1,90
-1,89
-1,88
-1,89
-1,88
-1,87
-1,88
-1,87
-1,86
-1,87
-1,86
-1,85
-1,86
-1,85
-1,84
-1,85
-1,84
-1,83
-1,84
-1,83
-1,82
-1,83
-1,82
-1,81
-1,82
-1,81
-1,80
-1,81
-1,80
-1,79
-1,80
-1,79
-1,78
-1,79
-1,78
-1,77
-1,78
-1,77
-1,76
-1,77
-1,76
-1,75
-1,76
-1,75
-1,74
-1,75
-1,74
-1,73
-1,74
-1,73
-1,72
-1,73
-1,72
-1,71
-1,72
-1,71
-1,70
-1,71
-1,70
-1,69
-1,70
-1,69
-1,68
-1,69
-1,68
-1,67
-1,68
-1,67
-1,66
-1,67
-1,66
-1,65
-1,66
-1,65
-1,64
-1,65
-1,64
-1,63
-1,64
-1,63
-1,62
-1,63
-1,62
-1,61
-1,62
-1,61
-1,60
-1,61
-1,60
-1,59
-1,60
-1,59
-1,58
-1,59
-1,58
-1,57
-1,58
-1,57
-1,56
-1,57
-1,56
-1,55
-1,56
-1,55
-1,54
-1,55
-1,54
-1,53
-1,54
-1,53
-1,52
-1,53
-1,52
-1,51
-1,52
-1,51
-1,51
p
p
p
0,02275
0,02275
0,02330
0,02275
0,02330
0,02385
0,02330
0,02385
0,02442
0,02385
0,02442
0,02500
0,02442
0,02500
0,02559
0,02500
0,02559
0,02619
0,02559
0,02619
0,02680
0,02619
0,02680
0,02743
0,02680
0,02743
0,02807
0,02743
0,02807
0,02872
0,02807
0,02872
0,02938
0,02872
0,02938
0,03005
0,02938
0,03005
0,03074
0,03005
0,03074
0,03144
0,03074
0,03144
0,03216
0,03144
0,03216
0,03288
0,03216
0,03288
0,03362
0,03288
0,03362
0,03438
0,03362
0,03438
0,03515
0,03438
0,03515
0,03593
0,03515
0,03593
0,03673
0,03593
0,03673
0,03754
0,03673
0,03754
0,03836
0,03754
0,03836
0,03920
0,03836
0,03920
0,04006
0,03920
0,04006
0,04093
0,04006
0,04093
0,04182
0,04093
0,04182
0,04272
0,04182
0,04272
0,04363
0,04272
0,04363
0,04457
0,04363
0,04457
0,04551
0,04457
0,04551
0,04648
0,04551
0,04648
0,04746
0,04648
0,04746
0,04846
0,04746
0,04846
0,04947
0,04846
0,04947
0,05050
0,04947
0,05050
0,05155
0,05050
0,05155
0,05262
0,05155
0,05262
0,05370
0,05262
0,05370
0,05480
0,05370
0,05480
0,05592
0,05480
0,05592
0,05705
0,05592
0,05705
0,05821
0,05705
0,05821
0,05938
0,05821
0,05938
0,06057
0,05938
0,06057
0,06178
0,06057
0,06178
0,06301
0,06178
0,06301
0,06426
0,06301
0,06426
0,06552
0,06426
0,06552
0,06552
z
z
-1,50
z
-1,50
-1,49
-1,50
-1,49
-1,48
-1,49
-1,48
-1,47
-1,48
-1,47
-1,46
-1,47
-1,46
-1,45
-1,46
-1,45
-1,44
-1,45
-1,44
-1,43
-1,44
-1,43
-1,42
-1,43
-1,42
-1,41
-1,42
-1,41
-1,40
-1,41
-1,40
-1,39
-1,40
-1,39
-1,38
-1,39
-1,38
-1,37
-1,38
-1,37
-1,36
-1,37
-1,36
-1,35
-1,36
-1,35
-1,34
-1,35
-1,34
-1,33
-1,34
-1,33
-1,32
-1,33
-1,32
-1,31
-1,32
-1,31
-1,30
-1,31
-1,30
-1,29
-1,30
-1,29
-1,28
-1,29
-1,28
-1,27
-1,28
-1,27
-1,26
-1,27
-1,26
-1,25
-1,26
-1,25
-1,24
-1,25
-1,24
-1,23
-1,24
-1,23
-1,22
-1,23
-1,22
-1,21
-1,22
-1,21
-1,20
-1,21
-1,20
-1,19
-1,20
-1,19
-1,18
-1,19
-1,18
-1,17
-1,18
-1,17
-1,16
-1,17
-1,16
-1,15
-1,16
-1,15
-1,14
-1,15
-1,14
-1,13
-1,14
-1,13
-1,12
-1,13
-1,12
-1,11
-1,12
-1,11
-1,10
-1,11
-1,10
-1,09
-1,10
-1,09
-1,08
-1,09
-1,08
-1,07
-1,08
-1,07
-1,06
-1,07
-1,06
-1,05
-1,06
-1,05
-1,04
-1,05
-1,04
-1,03
-1,04
-1,03
-1,02
-1,03
-1,02
-1,01
-1,02
-1,01
-1,01
p
p
p
0,06681
0,06681
0,06811
0,06681
0,06811
0,06944
0,06811
0,06944
0,07078
0,06944
0,07078
0,07215
0,07078
0,07215
0,07353
0,07215
0,07353
0,07493
0,07353
0,07493
0,07636
0,07493
0,07636
0,07780
0,07636
0,07780
0,07927
0,07780
0,07927
0,08076
0,07927
0,08076
0,08226
0,08076
0,08226
0,08379
0,08226
0,08379
0,08534
0,08379
0,08534
0,08692
0,08534
0,08692
0,08851
0,08692
0,08851
0,09012
0,08851
0,09012
0,09176
0,09012
0,09176
0,09342
0,09176
0,09342
0,09510
0,09342
0,09510
0,09680
0,09510
0,09680
0,09853
0,09680
0,09853
0,10027
0,09853
0,10027
0,10204
0,10027
0,10204
0,10383
0,10204
0,10383
0,10565
0,10383
0,10565
0,10749
0,10565
0,10749
0,10935
0,10749
0,10935
0,11123
0,10935
0,11123
0,11314
0,11123
0,11314
0,11507
0,11314
0,11507
0,11702
0,11507
0,11702
0,11900
0,11702
0,11900
0,12100
0,11900
0,12100
0,12302
0,12100
0,12302
0,12507
0,12302
0,12507
0,12714
0,12507
0,12714
0,12924
0,12714
0,12924
0,13136
0,12924
0,13136
0,13350
0,13136
0,13350
0,13567
0,13350
0,13567
0,13786
0,13567
0,13786
0,14007
0,13786
0,14007
0,14231
0,14007
0,14231
0,14457
0,14231
0,14457
0,14686
0,14457
0,14686
0,14917
0,14686
0,14917
0,15151
0,14917
0,15151
0,15386
0,15151
0,15386
0,15625
0,15386
0,15625
0,15625
z
z
-1,00
z
-1,00
-0,99
-1,00
-0,99
-0,98
-0,99
-0,98
-0,97
-0,98
-0,97
-0,96
-0,97
-0,96
-0,95
-0,96
-0,95
-0,94
-0,95
-0,94
-0,93
-0,94
-0,93
-0,92
-0,93
-0,92
-0,91
-0,92
-0,91
-0,90
-0,91
-0,90
-0,89
-0,90
-0,89
-0,88
-0,89
-0,88
-0,87
-0,88
-0,87
-0,86
-0,87
-0,86
-0,85
-0,86
-0,85
-0,84
-0,85
-0,84
-0,83
-0,84
-0,83
-0,82
-0,83
-0,82
-0,81
-0,82
-0,81
-0,80
-0,81
-0,80
-0,79
-0,80
-0,79
-0,78
-0,79
-0,78
-0,77
-0,78
-0,77
-0,76
-0,77
-0,76
-0,75
-0,76
-0,75
-0,74
-0,75
-0,74
-0,73
-0,74
-0,73
-0,72
-0,73
-0,72
-0,71
-0,72
-0,71
-0,70
-0,71
-0,70
-0,69
-0,70
-0,69
-0,68
-0,69
-0,68
-0,67
-0,68
-0,67
-0,66
-0,67
-0,66
-0,65
-0,66
-0,65
-0,64
-0,65
-0,64
-0,63
-0,64
-0,63
-0,62
-0,63
-0,62
-0,61
-0,62
-0,61
-0,60
-0,61
-0,60
-0,59
-0,60
-0,59
-0,58
-0,59
-0,58
-0,57
-0,58
-0,57
-0,56
-0,57
-0,56
-0,55
-0,56
-0,55
-0,54
-0,55
-0,54
-0,53
-0,54
-0,53
-0,52
-0,53
-0,52
-0,51
-0,52
-0,51
-0,51
p
p
p
0,15866
0,15866
0,16109
0,15866
0,16109
0,16354
0,16109
0,16354
0,16602
0,16354
0,16602
0,16853
0,16602
0,16853
0,17106
0,16853
0,17106
0,17361
0,17106
0,17361
0,17619
0,17361
0,17619
0,17879
0,17619
0,17879
0,18141
0,17879
0,18141
0,18406
0,18141
0,18406
0,18673
0,18406
0,18673
0,18943
0,18673
0,18943
0,19215
0,18943
0,19215
0,19489
0,19215
0,19489
0,19766
0,19489
0,19766
0,20045
0,19766
0,20045
0,20327
0,20045
0,20327
0,20611
0,20327
0,20611
0,20897
0,20611
0,20897
0,21186
0,20897
0,21186
0,21476
0,21186
0,21476
0,21770
0,21476
0,21770
0,22065
0,21770
0,22065
0,22363
0,22065
0,22363
0,22663
0,22363
0,22663
0,22965
0,22663
0,22965
0,23270
0,22965
0,23270
0,23576
0,23270
0,23576
0,23885
0,23576
0,23885
0,24196
0,23885
0,24196
0,24510
0,24196
0,24510
0,24825
0,24510
0,24825
0,25143
0,24825
0,25143
0,25463
0,25143
0,25463
0,25785
0,25463
0,25785
0,26109
0,25785
0,26109
0,26435
0,26109
0,26435
0,26763
0,26435
0,26763
0,27093
0,26763
0,27093
0,27425
0,27093
0,27425
0,27760
0,27425
0,27760
0,28096
0,27760
0,28096
0,28434
0,28096
0,28434
0,28774
0,28434
0,28774
0,29116
0,28774
0,29116
0,29460
0,29116
0,29460
0,29806
0,29460
0,29806
0,30153
0,29806
0,30153
0,30503
0,30153
0,30503
0,30503
z
z
-0,50
z
-0,50
-0,49
-0,50
-0,49
-0,48
-0,49
-0,48
-0,47
-0,48
-0,47
-0,46
-0,47
-0,46
-0,45
-0,46
-0,45
-0,44
-0,45
-0,44
-0,43
-0,44
-0,43
-0,42
-0,43
-0,42
-0,41
-0,42
-0,41
-0,40
-0,41
-0,40
-0,39
-0,40
-0,39
-0,38
-0,39
-0,38
-0,37
-0,38
-0,37
-0,36
-0,37
-0,36
-0,35
-0,36
-0,35
-0,34
-0,35
-0,34
-0,33
-0,34
-0,33
-0,32
-0,33
-0,32
-0,31
-0,32
-0,31
-0,30
-0,31
-0,30
-0,29
-0,30
-0,29
-0,28
-0,29
-0,28
-0,27
-0,28
-0,27
-0,26
-0,27
-0,26
-0,25
-0,26
-0,25
-0,24
-0,25
-0,24
-0,23
-0,24
-0,23
-0,22
-0,23
-0,22
-0,21
-0,22
-0,21
-0,20
-0,21
-0,20
-0,19
-0,20
-0,19
-0,18
-0,19
-0,18
-0,17
-0,18
-0,17
-0,16
-0,17
-0,16
-0,15
-0,16
-0,15
-0,14
-0,15
-0,14
-0,13
-0,14
-0,13
-0,12
-0,13
-0,12
-0,11
-0,12
-0,11
-0,10
-0,11
-0,10
-0,09
-0,10
-0,09
-0,08
-0,09
-0,08
-0,07
-0,08
-0,07
-0,06
-0,07
-0,06
-0,05
-0,06
-0,05
-0,04
-0,05
-0,04
-0,03
-0,04
-0,03
-0,02
-0,03
-0,02
-0,01
-0,02
-0,01
-0,01
p
p
p
0,30854
0,30854
0,31207
0,30854
0,31207
0,31561
0,31207
0,31561
0,31918
0,31561
0,31918
0,32276
0,31918
0,32276
0,32636
0,32276
0,32636
0,32997
0,32636
0,32997
0,33360
0,32997
0,33360
0,33724
0,33360
0,33724
0,34090
0,33724
0,34090
0,34458
0,34090
0,34458
0,34827
0,34458
0,34827
0,35197
0,34827
0,35197
0,35569
0,35197
0,35569
0,35942
0,35569
0,35942
0,36317
0,35942
0,36317
0,36693
0,36317
0,36693
0,37070
0,36693
0,37070
0,37448
0,37070
0,37448
0,37828
0,37448
0,37828
0,38209
0,37828
0,38209
0,38591
0,38209
0,38591
0,38974
0,38591
0,38974
0,39358
0,38974
0,39358
0,39743
0,39358
0,39743
0,40129
0,39743
0,40129
0,40517
0,40129
0,40517
0,40905
0,40517
0,40905
0,41294
0,40905
0,41294
0,41683
0,41294
0,41683
0,42074
0,41683
0,42074
0,42465
0,42074
0,42465
0,42858
0,42465
0,42858
0,43251
0,42858
0,43251
0,43644
0,43251
0,43644
0,44038
0,43644
0,44038
0,44433
0,44038
0,44433
0,44828
0,44433
0,44828
0,45224
0,44828
0,45224
0,45620
0,45224
0,45620
0,46017
0,45620
0,46017
0,46414
0,46017
0,46414
0,46812
0,46414
0,46812
0,47210
0,46812
0,47210
0,47608
0,47210
0,47608
0,48006
0,47608
0,48006
0,48405
0,48006
0,48405
0,48803
0,48405
0,48803
0,49202
0,48803
0,49202
0,49601
0,49202
0,49601
0,49601
127
Universidad Virtual de Quilmes
z
p
z
p
0,00
0,01
0,02
0,03
0,04
0,05
0,06
0,07
0,08
0,09
0,10
0,11
0,12
0,13
0,14
0,15
0,16
0,17
0,18
0,19
0,20
0,21
0,22
0,23
0,24
0,25
0,26
0,27
0,28
0,29
0,30
0,31
0,32
0,33
0,34
0,35
0,36
0,37
0,38
0,39
0,40
0,41
0,42
0,43
0,44
0,45
0,46
0,47
0,48
0,49
0,50000
0,50399
0,50798
0,51197
0,51595
0,51994
0,52392
0,52790
0,53188
0,53586
0,53983
0,54380
0,54776
0,55172
0,55567
0,55962
0,56356
0,56749
0,57142
0,57535
0,57926
0,58317
0,58706
0,59095
0,59483
0,59871
0,60257
0,60642
0,61026
0,61409
0,61791
0,62172
0,62552
0,62930
0,63307
0,63683
0,64058
0,64431
0,64803
0,65173
0,65542
0,65910
0,66276
0,66640
0,67003
0,67364
0,67724
0,68082
0,68439
0,68793
0,50
0,51
0,52
0,53
0,54
0,55
0,56
0,57
0,58
0,59
0,60
0,61
0,62
0,63
0,64
0,65
0,66
0,67
0,68
0,69
0,70
0,71
0,72
0,73
0,74
0,75
0,76
0,77
0,78
0,79
0,80
0,81
0,82
0,83
0,84
0,85
0,86
0,87
0,88
0,89
0,90
0,91
0,92
0,93
0,94
0,95
0,96
0,97
0,98
0,99
0,69146
0,69497
0,69847
0,70194
0,70540
0,70884
0,71226
0,71566
0,71904
0,72240
0,72575
0,72907
0,73237
0,73565
0,73891
0,74215
0,74537
0,74857
0,75175
0,75490
0,75804
0,76115
0,76424
0,76730
0,77035
0,77337
0,77637
0,77935
0,78230
0,78524
0,78814
0,79103
0,79389
0,79673
0,79955
0,80234
0,80511
0,80785
0,81057
0,81327
0,81594
0,81859
0,82121
0,82381
0,82639
0,82894
0,83147
0,83398
0,83646
0,83891
z
1,00
1,01
1,02
1,03
1,04
1,05
1,06
1,07
1,08
1,09
1,10
1,11
1,12
1,13
1,14
1,15
1,16
1,17
1,18
1,19
1,20
1,21
1,22
1,23
1,24
1,25
1,26
1,27
1,28
1,29
1,30
1,31
1,32
1,33
1,34
1,35
1,36
1,37
1,38
1,39
1,40
1,41
1,42
1,43
1,44
1,45
1,46
1,47
1,48
1,49
p
0,84134
0,84375
0,84614
0,84849
0,85083
0,85314
0,85543
0,85769
0,85993
0,86214
0,86433
0,86650
0,86864
0,87076
0,87286
0,87493
0,87698
0,87900
0,88100
0,88298
0,88493
0,88686
0,88877
0,89065
0,89251
0,89435
0,89617
0,89796
0,89973
0,90147
0,90320
0,90490
0,90658
0,90824
0,90988
0,91149
0,91308
0,91466
0,91621
0,91774
0,91924
0,92073
0,92220
0,92364
0,92507
0,92647
0,92785
0,92922
0,93056
0,93189
z
1,50
1,51
1,52
1,53
1,54
1,55
1,56
1,57
1,58
1,59
1,60
1,61
1,62
1,63
1,64
1,65
1,66
1,67
1,68
1,69
1,70
1,71
1,72
1,73
1,74
1,75
1,76
1,77
1,78
1,79
1,80
1,81
1,82
1,83
1,84
1,85
1,86
1,87
1,88
1,89
1,90
1,91
1,92
1,93
1,94
1,95
1,96
1,97
1,98
1,99
p
0,93319
0,93448
0,93574
0,93699
0,93822
0,93943
0,94062
0,94179
0,94295
0,94408
0,94520
0,94630
0,94738
0,94845
0,94950
0,95053
0,95154
0,95254
0,95352
0,95449
0,95543
0,95637
0,95728
0,95818
0,95907
0,95994
0,96080
0,96164
0,96246
0,96327
0,96407
0,96485
0,96562
0,96638
0,96712
0,96784
0,96856
0,96926
0,96995
0,97062
0,97128
0,97193
0,97257
0,97320
0,97381
0,97441
0,97500
0,97558
0,97615
0,97670
z
2,00
2,01
2,02
2,03
2,04
2,05
2,06
2,07
2,08
2,09
2,10
2,11
2,12
2,13
2,14
2,15
2,16
2,17
2,18
2,19
2,20
2,21
2,22
2,23
2,24
2,25
2,26
2,27
2,28
2,29
2,30
2,31
2,32
2,33
2,34
2,35
2,36
2,37
2,38
2,39
2,40
2,41
2,42
2,43
2,44
2,45
2,46
2,47
2,48
2,49
p
0,97725
0,97778
0,97831
0,97882
0,97932
0,97982
0,98030
0,98077
0,98124
0,98169
0,98214
0,98257
0,98300
0,98341
0,98382
0,98422
0,98461
0,98500
0,98537
0,98574
0,98610
0,98645
0,98679
0,98713
0,98745
0,98778
0,98809
0,98840
0,98870
0,98899
0,98928
0,98956
0,98983
0,99010
0,99036
0,99061
0,99086
0,99111
0,99134
0,99158
0,99180
0,99202
0,99224
0,99245
0,99266
0,99286
0,99305
0,99324
0,99343
0,99361
z
2,50
2,51
2,52
2,53
2,54
2,55
2,56
2,57
2,58
2,59
2,60
2,61
2,62
2,63
2,64
2,65
2,66
2,67
2,68
2,69
2,70
2,71
2,72
2,73
2,74
2,75
2,76
2,77
2,78
2,79
2,80
2,81
2,82
2,83
2,84
2,85
2,86
2,87
2,88
2,89
2,90
2,91
2,92
2,93
2,94
2,95
2,96
2,97
2,98
2,99
p
0,99379
0,99396
0,99413
0,99430
0,99446
0,99461
0,99477
0,99492
0,99506
0,99520
0,99534
0,99547
0,99560
0,99573
0,99585
0,99598
0,99609
0,99621
0,99632
0,99643
0,99653
0,99664
0,99674
0,99683
0,99693
0,99702
0,99711
0,99720
0,99728
0,99736
0,99744
0,99752
0,99760
0,99767
0,99774
0,99781
0,99788
0,99795
0,99801
0,99807
0,99813
0,99819
0,99825
0,99831
0,99836
0,99841
0,99846
0,99851
0,99856
0,99861
z
3,00
3,01
3,02
3,03
3,04
3,05
3,06
3,07
3,08
3,09
3,10
3,11
3,12
3,13
3,14
3,15
3,16
3,17
3,18
3,19
3,20
3,21
3,22
3,23
3,24
3,25
3,26
3,27
3,28
3,29
3,30
3,31
3,32
3,33
3,34
3,35
3,36
3,37
3,38
3,39
3,40
3,41
3,42
3,43
3,44
3,45
3,46
3,47
3,48
3,49
p
0,99865
0,99869
0,99874
0,99878
0,99882
0,99886
0,99889
0,99893
0,99896
0,99900
0,99903
0,99906
0,99910
0,99913
0,99916
0,99918
0,99921
0,99924
0,99926
0,99929
0,99931
0,99934
0,99936
0,99938
0,99940
0,99942
0,99944
0,99946
0,99948
0,99950
0,99952
0,99953
0,99955
0,99957
0,99958
0,99960
0,99961
0,99962
0,99964
0,99965
0,99966
0,99968
0,99969
0,99970
0,99971
0,99972
0,99973
0,99974
0,99975
0,99976
Tabla 2: Percentiles de la distribución t de Student .
α
tα
128 gl
t0,001 t0,005 t0,01 t0,02 t0,025 t0,05 t0,10 t0,90 t0,975 t0,98 t0,99 t0,995 t0,999
1 -318,29 -63,66 -31,82 -15,89 -12,71 -6,31 -3,08 3,08
2 -22,33 -9,92 -6,96 -4,85 -4,30 -2,92 -1,89 1,89
12,71 15,89 31,82 63,66 318,29
4,30 4,85 6,96 9,92 22,33
z
3,50
3,51
3,52
3,53
3,54
3,55
3,56
3,57
3,58
3,59
3,60
3,61
3,62
3,63
3,64
3,65
3,66
3,67
3,68
3,69
3,70
3,71
3,72
3,73
3,74
3,75
3,76
3,77
3,78
3,79
3,80
3,81
3,82
3,83
3,84
3,85
3,86
3,87
3,88
3,89
3,90
3,91
3,92
3,93
3,94
3,95
3,96
3,97
3,98
3,99
p
0,99977
0,99978
0,99978
0,99979
0,99980
0,99981
0,99981
0,99982
0,99983
0,99983
0,99984
0,99985
0,99985
0,99986
0,99986
0,99987
0,99987
0,99988
0,99988
0,99989
0,99989
0,99990
0,99990
0,99990
0,99991
0,99991
0,99992
0,99992
0,99992
0,99992
0,99993
0,99993
0,99993
0,99994
0,99994
0,99994
0,99994
0,99995
0,99995
0,99995
0,99995
0,99995
0,99996
0,99996
0,99996
0,99996
0,99996
0,99996
0,99997
0,99997
α
Estadistica
tα
gl
t0,001 t0,005 t0,01 t0,02 t0,025 t0,05 t0,10 t0,90 t0,975 t0,98 t0,99 t0,995 t0,999
1 -318,29 -63,66 -31,82 -15,89 -12,71 -6,31 -3,08 3,08
2 -22,33 -9,92 -6,96 -4,85 -4,30 -2,92 -1,89 1,89
3 -10,21 -5,84 -4,54 -3,48 -3,18 -2,35 -1,64 1,64
4
-7,17 -4,60 -3,75 -3,00 -2,78 -2,13 -1,53 1,53
5
-5,89 -4,03 -3,36 -2,76 -2,57 -2,02 -1,48 1,48
6
-5,21 -3,71 -3,14 -2,61 -2,45 -1,94 -1,44 1,44
7
-4,79 -3,50 -3,00 -2,52 -2,36 -1,89 -1,41 1,41
8
-4,50 -3,36 -2,90 -2,45 -2,31 -1,86 -1,40 1,40
9
-4,30 -3,25 -2,82 -2,40 -2,26 -1,83 -1,38 1,38
10 -4,14 -3,17 -2,76 -2,36 -2,23 -1,81 -1,37 1,37
11 -4,02 -3,11 -2,72 -2,33 -2,20 -1,80 -1,36 1,36
12 -3,93 -3,05 -2,68 -2,30 -2,18 -1,78 -1,36 1,36
13 -3,85 -3,01 -2,65 -2,28 -2,16 -1,77 -1,35 1,35
14 -3,79 -2,98 -2,62 -2,26 -2,14 -1,76 -1,35 1,35
15 -3,73 -2,95 -2,60 -2,25 -2,13 -1,75 -1,34 1,34
16 -3,69 -2,92 -2,58 -2,24 -2,12 -1,75 -1,34 1,34
17 -3,65 -2,90 -2,57 -2,22 -2,11 -1,74 -1,33 1,33
18 -3,61 -2,88 -2,55 -2,21 -2,10 -1,73 -1,33 1,33
19 -3,58 -2,86 -2,54 -2,20 -2,09 -1,73 -1,33 1,33
20 -3,55 -2,85 -2,53 -2,20 -2,09 -1,72 -1,33 1,33
21 -3,53 -2,83 -2,52 -2,19 -2,08 -1,72 -1,32 1,32
22 -3,50 -2,82 -2,51 -2,18 -2,07 -1,72 -1,32 1,32
23 -3,48 -2,81 -2,50 -2,18 -2,07 -1,71 -1,32 1,32
24 -3,47 -2,80 -2,49 -2,17 -2,06 -1,71 -1,32 1,32
25 -3,45 -2,79 -2,49 -2,17 -2,06 -1,71 -1,32 1,32
26 -3,43 -2,78 -2,48 -2,16 -2,06 -1,71 -1,31 1,31
27 -3,42 -2,77 -2,47 -2,16 -2,05 -1,70 -1,31 1,31
28 -3,41 -2,76 -2,47 -2,15 -2,05 -1,70 -1,31 1,31
29 -3,40 -2,76 -2,46 -2,15 -2,05 -1,70 -1,31 1,31
30 -3,39 -2,75 -2,46 -2,15 -2,04 -1,70 -1,31 1,31
31 -3,37 -2,74 -2,45 -2,14 -2,04 -1,70 -1,31 1,31
32 -3,37 -2,74 -2,45 -2,14 -2,04 -1,69 -1,31 1,31
33 -3,36 -2,73 -2,44 -2,14 -2,03 -1,69 -1,31 1,31
34 -3,35 -2,73 -2,44 -2,14 -2,03 -1,69 -1,31 1,31
35 -3,34 -2,72 -2,44 -2,13 -2,03 -1,69 -1,31 1,31
36 -3,33 -2,72 -2,43 -2,13 -2,03 -1,69 -1,31 1,31
38 -3,32 -2,71 -2,43 -2,13 -2,02 -1,69 -1,30 1,30
40 -3,31 -2,70 -2,42 -2,12 -2,02 -1,68 -1,30 1,30
42 -3,30 -2,70 -2,42 -2,12 -2,02 -1,68 -1,30 1,30
44 -3,29 -2,69 -2,41 -2,12 -2,02 -1,68 -1,30 1,30
46 -3,28 -2,69 -2,41 -2,11 -2,01 -1,68 -1,30 1,30
48 -3,27 -2,68 -2,41 -2,11 -2,01 -1,68 -1,30 1,30
50 -3,26 -2,68 -2,40 -2,11 -2,01 -1,68 -1,30 1,30
55 -3,25 -2,67 -2,40 -2,10 -2,00 -1,67 -1,30 1,30
60 -3,23 -2,66 -2,39 -2,10 -2,00 -1,67 -1,30 1,30
65 -3,22 -2,65 -2,39 -2,10 -2,00 -1,67 -1,29 1,29
70 -3,21 -2,65 -2,38 -2,09 -1,99 -1,67 -1,29 1,29
80 -3,20 -2,64 -2,37 -2,09 -1,99 -1,66 -1,29 1,29
90 -3,18 -2,63 -2,37 -2,08 -1,99 -1,66 -1,29 1,29
100 -3,17 -2,63 -2,36 -2,08 -1,98 -1,66 -1,29 1,29
110 -3,17 -2,62 -2,36 -2,08 -1,98 -1,66 -1,29 1,29
120 -3,16 -2,62 -2,36 -2,08 -1,98 -1,66 -1,29 1,29
150 -3,15 -2,61 -2,35 -2,07 -1,98 -1,66 -1,29 1,29
200 -3,13 -2,60 -2,35 -2,07 -1,97 -1,65 -1,29 1,29
250 -3,12 -2,60 -2,34 -2,06 -1,97 -1,65 -1,28 1,28
350 -3,11 -2,59 -2,34 -2,06 -1,97 -1,65 -1,28 1,28
500 -3,11 -2,59 -2,33 -2,06 -1,96 -1,65 -1,28 1,28
3000 -3,09 -2,58 -2,33 -2,05 -1,96 -1,65 -1,28 1,28
12,71
4,30
3,18
2,78
2,57
2,45
2,36
2,31
2,26
2,23
2,20
2,18
2,16
2,14
2,13
2,12
2,11
2,10
2,09
2,09
2,08
2,07
2,07
2,06
2,06
2,06
2,05
2,05
2,05
2,04
2,04
2,04
2,03
2,03
2,03
2,03
2,02
2,02
2,02
2,02
2,01
2,01
2,01
2,00
2,00
2,00
1,99
1,99
1,99
1,98
1,98
1,98
1,98
1,97
1,97
1,97
1,96
1,96
15,89
4,85
3,48
3,00
2,76
2,61
2,52
2,45
2,40
2,36
2,33
2,30
2,28
2,26
2,25
2,24
2,22
2,21
2,20
2,20
2,19
2,18
2,18
2,17
2,17
2,16
2,16
2,15
2,15
2,15
2,14
2,14
2,14
2,14
2,13
2,13
2,13
2,12
2,12
2,12
2,11
2,11
2,11
2,10
2,10
2,10
2,09
2,09
2,08
2,08
2,08
2,08
2,07
2,07
2,06
2,06
2,06
2,05
31,82 63,66 318,29
6,96 9,92 22,33
4,54 5,84 10,21
3,75 4,60 7,17
3,36 4,03 5,89
3,14 3,71 5,21
3,00 3,50 4,79
2,90 3,36 4,50
2,82 3,25 4,30
2,76 3,17 4,14
2,72 3,11 4,02
2,68 3,05 3,93
2,65 3,01 3,85
2,62 2,98 3,79
2,60 2,95 3,73
2,58 2,92 3,69
2,57 2,90 3,65
2,55 2,88 3,61
2,54 2,86 3,58
2,53 2,85 3,55
2,52 2,83 3,53
2,51 2,82 3,50
2,50 2,81 3,48
2,49 2,80 3,47
2,49 2,79 3,45
2,48 2,78 3,43
2,47 2,77 3,42
2,47 2,76 3,41
2,46 2,76 3,40
2,46 2,75 3,39
2,45 2,74 3,37
2,45 2,74 3,37
2,44 2,73 3,36
2,44 2,73 3,35
2,44 2,72 3,34
2,43 2,72 3,33
2,43 2,71 3,32
2,42 2,70 3,31
2,42 2,70 3,30
2,41 2,69 3,29
2,41 2,69 3,28
2,41 2,68 3,27
2,40 2,68 3,26
2,40 2,67 3,25
2,39 2,66 3,23
2,39 2,65 3,22
2,38 2,65 3,21
2,37 2,64 3,20
2,37 2,63 3,18
2,36 2,63 3,17
2,36 2,62 3,17
2,36 2,62 3,16
2,35 2,61 3,15
2,35 2,60 3,13
2,34 2,60 3,12
2,34 2,59 3,11
2,33 2,59 3,11
2,33 2,58 3,09
129
Esta edición de 500 ejemplares
se terminó de imprimir en el mes de septiembre de 2009
en el Centro de impresiones de la Universidad Nacional de Quilmes,
Roque Sáenz Peña 352, Bernal, Argentina.