Estadística Aplicada - Dirección General de Educación Técnica y

Anuncio
Estadística Aplicada
Índice
Di Paolo, Claudio Javier
INTRODUCCIÓN. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
OBJETIVOS GENERALES. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
OBJETIVOS PARTICULARES. . . . . . . . . . . . . . . . . . . . . . . . . . 4
CONCEPTOS BÁSICOS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
ESTADÍSTICA DESCRIPTIVA
INTRODUCCIÓN. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
RECOLECCIÓN DE DATOS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
TEORÍA DEL MUESTREO. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .8
TRATAMIENTO DE LOS DATOS. . . . . . . . . . . . . . . . . . . . . . . . 10
TRATAMIENTO POR DATOS AGRUPADOS. . . . . . . . . . . . . .11
Medidas de posición. . . . . . . . . . . . . . . . . . . . . . . . . 14
Medidas de dispersión. . . . . . . . . . . . . . . . . . . . . . . . 17
Estudio de la forma de la curva. . . . . . . . . . . . . . . . . 19
Estudio de la normalidad de la muestra. . . . . . . . . . . 21
DISTRIBUCIONES BIDIMENSIONALES. . . . . . . . . . . . . . . . . . . . 22
CORRELACIÓN. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
INDEPENDENCIA ESTADÍSTICA. . . . . . . . . . . . . . . . . . . . . 24
REGRESIÓN. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
PROBABILIDAD
DEFINICIONES PREVIAS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
DEFINICIONES DE PROBABILIDAD. . . . . . . . . . . . . . . . . . . . . . 30
CÁLCULO DE PROBABILIDAD. . . . . . . . . . . . . . . . . . . . . . . . . 31
PERMUTACIONES. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
COMBINACIONES. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
PROBABILIDAD CONDICIONAL. . . . . . . . . . . . . . . . . . . . . 32
PROBABILIDAD TOTAL. . . . . . . . . . . . . . . . . . . . . . . . . . . .32
TEOREMA DE BAYES. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
VARIABLES ALEATORIAS. . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
V. A. DISCRETAS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
V. A. CONTINUAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
DISTRIBUCIONES PROBABILÍSTICAS. . . . . . . . . . . . . . . . . . . . 35
DISTRIBUCIONES PROBABILÍSTICAS DISCRETAS. . . . . . . . . 35
DISTRIBUCIONES PROBABILÍSTICAS CONTINUAS. . . . . . . . 37
INFERENCIA ESTADÍSTICA
INTRODUCCIÓN. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
LOS ESTIMADORES. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
ESTIMACIÓN PUNTUAL. . . . . . . . . . . . . . . . . . . . . . . . . . . 43
ESTIMACIÓN POR INTERVALOS. . . . . . . . . . . . . . . . . . . . . 44
PRUEBA DE HIPÓTESIS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
ACTIVIDADES
ESTADÍSTICA DESCRIPTIVA. . . . . . . . . . . . . . . . . . . . . . . . . . .51
PROBABILIDAD. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
INFERENCIA ESTADÍSTICA. . . . . . . . . . . . . . . . . . . . . . . . . . . 68
BIBLIOGRAFÍA. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .74
1
Estadística Aplicada
Introducción
Di Paolo, Claudio Javier
En las Escuelas Técnicas nos ocupamos de formar al alumno íntegramente, haciendo énfasis en la prácticas profesionalizantes a partir de un
exigente y continuo entrenamiento.
Somos productores de resultados y, por sobre todo, de información.
Pero más aún, productores de datos; que muchas veces se pierden por
no registrarlos.
Es allí en donde debemos continuar la labor tan importante, que no sólo
culmina en la producción de resultados fruto de la aplicación de las
técnicas, sino, también, en darle tratamiento al conjunto de datos
producidos, a partir de un correcto registro, para poder intervenir en
conclusiones sobre los resultados y poder tomar decisiones que mejoren
la calidad de la educación desde el proceso hasta su producto final.
2
Estadística Aplicada
Objetivos Generales
Di Paolo, Claudio Javier
El propósito de este curso-taller es implementar un plan estratégico
teórico-práctico de técnicas estadísticas, para continuar la labor
desarrollada en el campo práctico e incorporarlas en el campo científicotecnológico (gestión y control de la calidad), valiéndonos de los datos
producidos para darles tratamiento, utilizando como soporte los medios
informáticos; especialmente las hojas de cálculo, que son versátiles, útiles
y fáciles de usar. De esta manera, se desea que el docente se actualice en
el ámbito del uso de las nuevas tecnologías como recursos exigentes para
la mejora de las prácticas educativas, proyecte un camino de trabajo
continuo, incorporando estándares de calidad que puedan ordenar y
organizar el trabajo cotidiano, juzgar la eficacia y precisión de los datos
experimentales, así como también generar conciencia de que estos juicios
pueden perfeccionarse mediante la aplicación de métodos estadísticos.
Se pretende motivar a los docentes en el uso de nuevas tecnologías
acopladas a equipos de laboratorios y/o taller, para la obtención
automática de datos y su posterior análisis, valiéndonos de un conjunto
de herramientas estadísticas, que nos permita proyectar un futuro
(inferencia), establecer intervalos de confianza (márgenes de
aceptabilidad) y acciones correctivas a partir de la detección de errores
(planes de contingencia).
3
Estadística Aplicada
Objetivos Particulares
Di Paolo, Claudio Javier
Que el participante logre:
Analizar y discutir distintos enfoques metodológicos para la enseñanza
teórico - práctica de la estadística, en las instituciones educativas.
Adoptar una posición crítica, responsable, cooperativa y constructiva
en relación al trabajo de campo, de articulación curricular y trabajo en
equipo.
Conocer la posibilidad de acoplar equipos e instrumentos de medición
y ensayo con la informática para el procesamiento automático de los
datos.
Utilizar las hojas de cálculo para la implementación de técnicas
estadísticas.
Aplicar el uso de técnicas estadísticas como herramientas de gestión.
Mejorar las prácticas educativas.
Incorporar estándares de calidad.
Contextualizar la práctica profesional con los contenidos de las
prácticas curriculares.
4
Estadística Aplicada
Conceptos Básicos
Di Paolo, Claudio Javier
ESTADÍSTICA
Muchas son las definiciones propuestas por varios autores; sin ultimar
detalles, todos acuerdan en que la Estadística es la ciencia de recolectar
datos, describirlos, interpretarlos, analizarlos y emitir conclusiones sobre
los resultados.
Cualquiera sea el punto de vista, lo fundamental es la importancia
científica que tiene la estadística, debido al gran campo de aplicación que
posee.
La Estadística se divide en dos áreas:
Estadística descriptiva: consiste en el proceso de la recolección,
clasificación, descripción, representación y análisis de datos a partir de
una muestra. Nos permite conocer la realidad de lo ocurrido.
Estadística inferencial: consiste en la aplicación de técnicas apoyadas en
modelos probabilísticos que a partir de datos muestrales permiten
efectuar estimaciones, decisiones, predicciones u otras generalizaciones
sobre un conjunto mayor de datos.
POBLACIÓN
Es la colección (ó conjunto universo) de individuos, objetos o eventos
cuyas propiedades serán analizadas.
Hay dos tipos de poblaciones:
Población finita: es posible enumerar físicamente cada uno de los elementos que la componen. Ej.: Estudio estadístico sobre libros de una
biblioteca de una escuela.
Población infinita: cuando los elementos que la componen son un
número ilimitado e imposible de contar. Ej.: La población de todas las
personas que podrían tomar ibuprofeno.
MUESTRA
Es un subconjunto representativo de la población.
VARIABLE
Característica de interés sobre cada elemento individual de una población o muestra.
5
Estadística Aplicada
Conceptos Básicos
Di Paolo, Claudio Javier
TIPOS DE VARIABLES
CUANTITATIVAS
Cuando representan una medición.
Discretas: Sólo pueden tomar valores enteros.
Continuas: Pueden tomar cualquier valor real dentro de un intervalo.
CUALITATIVAS
Cuando representan una cualidad.
Escala Nominal: significa asignar arbitrariamente una etiqueta a una
variable.
Por ej.: Sexo: 0 Femenino 1 Masculino
Escala Ordinal: se asignan valores a la variable ordenadamente de
manera tal que el mayor se corresponde a la mejor opción.
Por ej.: 0 Malo 1 Regular 2 Bueno 3 Muy Bueno 4 Excelente
Escala de intervalo: existe un orden entre los valores y además, una
noción de distancia.
Por ej.: la medición de la temperatura que se puede obtener por un
termómetro en grados Fahrenheit.
Escala de razón: la magnitud tiene un sentido físico y existe el cero
absoluto que se puede asignar a la ausencia de información.
Por ej.: la variable edad estudiada en una población.
DATO
Valor de la variable asociada a un elemento de una población o muestra.
Este valor puede ser un número, una palabra o un símbolo.
DATOS
Conjunto de valores recolectados para la variable de cada uno de los
elementos que pertenecen a la muestra.
EXPERIMENTO
Actividad planeada cuyos resultados producen un conjunto de datos.
PARÁMETRO
Valor numérico que resume todos los datos de una población.
ESTADÍSTICO
Valor numérico que resume los datos de una muestra.
6
Estadística Aplicada
Conceptos Básicos
Di Paolo, Claudio Javier
Para interpretar estos conceptos podemos citar como ejemplo el
siguiente caso de estudio:
Un estudiante del colegio está interesado en averiguar el valor promedio
en pesos de los automóviles que pertenecen al cuerpo docente del IPEM
XXX de la ciudad de Córdoba. Cada término se identifica en esta
situación como:
1 POBLACIÓN: el conjunto de todos los automóviles que pertenecen
a todos los miembros del cuerpo docente del IPEM XXX.
2 MUESTRA: es un subconjunto de la población. Por ejemplo podría
ser los automóviles de los docentes de todas las divisiones de cuarto año
del IPEM XXX.
3 VARIABLE: valor en $ de cada automóvil.
4 DATO: El valor en $ de un automóvil en particular. El automóvil del
Profesor Pérez, Juan valuado en $ 25.400.
5 DATOS: Conjunto de valores en $, correspondientes a la muestra
obtenida: $ 25.400; $ 12.800; $ 35.600; $ 17.765.
6 EXPERIMENTO: Método aplicado para seleccionar y recolectar los
datos correspondientes a los automóviles de la muestra y su valor.
7 PARÁMETRO: valor promedio en $, de los automóviles del cuerpo
docente del IPEM XXX.
8 ESTADÍSTICO: Valor promedio en $ de los automóviles, correspondientes a los docentes de todas las divisiones de cuarto año del IPEM
XXX.
7
Estadística Aplicada
Estadística Descriptiva
Di Paolo, Claudio Javier
INTRODUCCIÓN
Antes de comenzar a detallar las mediciones y los cálculos que
planificamos estudiar, es necesario plantear los diversos métodos que
abarca la Teoría del Muestreo, punto de partida para iniciar cualquier
estudio estadístico.
RECOLECCIÓN DE DATOS
Es un proceso complicado y debe realizarse con la mayor cautela y
profesionalismo posible. Podemos incluir los siguientes pasos para
organizar la recolección:
1 Definir los objetivos del estudio.
2 Definir la variable y la población de interés.
3 Definir los esquemas para recolectar y medir los datos.
4 Determinar las técnicas idóneas para realizar el análisis de datos:
descriptivo o inferencial.
TEORÍA DEL MUESTREO
Método que utilizaremos para la recolección de datos. Es tan o más
importante que el desarrollo en sí del estudio; es determinar
fehacientemente una "buena" muestra, lo más representativa e insesgada
posible que se ajuste a la población, para que las conclusiones e
inferencias que se hagan en términos de la población sean "tan buena"
como el conjunto de datos que la determinó.
MÉTODO DE MUESTREO SESGADO O NO PROBABILÍSTICO
Producen valores que difieren sistemáticamente de la población que está
siendo muestreada. Existe una intención para seleccionar un dato. Dos
métodos de este tipo pueden ser:
Muestra por conveniencia: ocurre cuando es posible acceder fácilmente a los elementos de una población de la que se elige la muestra.
Muestra por voluntarios: consta de resultados recolectados a partir de
los elementos de la población que por su propia iniciativa eligen
contribuir con la información necesaria.
MÉTODO DE MUESTREO INSESGADO O PROBABILÍSTICO
Es aquel que no presenta sesgo. Cada dato de la población tiene idéntica
posibilidad de ser elegido para formar parte de la muestra.
Los dos métodos que se utilizan para recolectar datos son los estudios
experimentales y los estudios observacionales.
Muestra de juicio: las muestras son elegidas con base en el hecho de
que son "típicas".
8
Estadística Aplicada
Estadística Descriptiva
Di Paolo, Claudio Javier
Muestra aleatoria o al azar
Método al azar simple: este método permite que todos los
elementos de la población tenga igual posibilidad de ser incluido en la
muestra.
Por ej.: se desea seleccionar a 200 alumnos (n) del IPEM XXX cuya
matrícula total es 1200 alumnos (N). En este caso la probabilidad de
elección de cada alumno, entendiendo a probabilidad como nº de casos
favorables divido nº de casos posibles; es:
P = n/m
P = 200 / 1200
P = 0,17
Método por estratos: para el muestreo estratificado se divide a la
población en varios grupos homogéneos que se diferencian unos de
otros por características especiales; de manera que cada elemento sólo
pueda pertenecer a un grupo. Dentro de este método se encuentra tres
casos especiales:
1 Muestras de igual tamaño: Debe seleccionarse igual número de
elemento en cada grupo.
2 Muestreo proporcional: El tamaño de elementos por grupo se
escoge en forma proporcional al tamaño de la población.
3 Afinación óptima: Este método utiliza la mejor subdivisión posible
de una muestra total.
Por ej.: en el IPEM XXX de los 1.200 alumnos de matrícula, 800
pertenecen al CBU y 400 al CE. Aplicando el método por estratos,
decidimos escoger 60 alumnos de cada grupo, calculamos la probabilidad de ocurrir de cada alumno según su ciclo:
Alumnos del CBU
P = 60 / 800
P = 0,075
Alumnos del CE
P = 60 / 400
P = 0,15
De esta manera observamos que los alumnos del CE tienen mayor
probabilidad de ser escogido pero que ambos son importantes para
nuestro muestreo.
Método por conglomerados: existe situaciones en la que no se dispone de elementos agrupados por estratos y que no se puede aplicar el
método al azar simple. En estos casos los elementos se encuentran de
manera natural agrupados por conglomerados cuyo número si se
conoce.
Por ej.: la población de un país se distribuye en provincias, los habitantes
de una provincia en ciudades, los de una ciudad en barrios,etc. Si se
supone que cada uno de estos conglomerados son muestras representativas de la población total, respecto a la variable que se estudia, es
posible seleccionar al azar algunos de estos conglomerados y a partir de
allí analizar todos sus elementos o una muestra al azar simple.
9
Estadística Aplicada
Estadística Descriptiva
Di Paolo, Claudio Javier
Método de elección sistematizado: una forma práctica para
seleccionar los elementos de la muestra es escoger una muestra
aplicando un intervalo. Así sistematizamos una selección. El cálculo del
intervalo (k) es: k = N (tamaño de la población) / n (tamaño de la
muestra).
Por ej.: de esta manera, si tenemos necesidad de seleccionar alumnos del
IPEM XXX aplicando este método, decimos que 1.200 son los alumnos
y 120 es el número de alumnos que deseo elegir; seleccionaré a un
alumno por cada intervalo, esto es:
k= 1200/120
k= 10; elijo a un alumno por cada 10 alumnos.
Nota: Si el estudio lo realizo con la totalidad de los datos, es decir con la
población, estoy frente a un censo; caso contrario, si selecciono, esto es
aplicando cualquiera de los métodos de muestreo, estoy frente a una
muestra representativa de la población.
TRATAMIENTO DE LOS DATOS
Hay dos maneras de comenzar a tratar los datos, y la que se utilice
depende del nº de datos que conforma a la muestra, que llamaremos
tamaño de la muestra y la denotaremos por (N).
TRATAMIENTO POR DATOS NO AGRUPADOS
Estamos frente al caso de trabajar los datos en forma cruda, sin transformarlos. Es la forma más aproximada y menos erróneas, pero se la puede
emplear siempre que el tamaño de la muestra sea pequeño. Como
contrapartida, podemos decir que si el tamaño de la muestra es pequeño,
creamos una cierta incertidumbre con respecto a cuan representativo es
de la población.
TRATAMIENTO POR DATOS AGRUPADOS
Es el más utilizado porque se emplea en la mayoría de los casos. Nos
detendremos a aplicar las fórmulas, a analizarlas y a programarlas en una
planilla de cálculo para poder dejar una plantilla de trabajo fija que nos
sirva como herramienta de trabajo para todos los estudios que
planteemos realizar.
10
Estadística Aplicada
Estadística Descriptiva
Di Paolo, Claudio Javier
TRATAMIENTO POR DATOS AGRUPADOS
Luego de recolectar los datos, que lo dispondremos organizados en
columnas en forma desordenada; debemos ordenarlos de menor a
mayor.
A partir de la clasificación y ordenación de los datos y calculando el rango
de la distribución como medida de dispersión absoluta, nos dispondremos a agrupar los datos en una Tabla de Distribución de Frecuencias.
R = XM - Xm
Rango = Dato mayor - dato menor
N = Tamaño de la Muestra
1 Determinación de los Intervalos de frecuencia
Al resumir gran cantidad de datos es útil distribuirlos en clases. El
número de intervalos a utilizar es autónomo, pero existe una manera de
calcularlo para guiarse, que es a través de esta fórmula:
m = 1 + 3.33 log N ; donde
m : número de intervalos; N : tamaño de la muestra.
2 Determinación de la amplitud de clase
El rango nos ayuda a determinar la amplitud de clase, llamamos así a la
distancia que debe tener cada clase, siendo ésta una medida constante y a
partir de la cual podemos construir nuestra Tabla de Distribución de
Frecuencias.
A = R / m ; donde
A: amplitud de clase; R: Rango; m: número de intervalos.
3 Marca de clase ( x& )
Es el resultado de aplicar la semisuma, promedio o media aritmética
entre los límites ficticios o entre los límites reales. Al ser la media
aritmética de cada intervalo, lo consideramos como el valor más
representativo y el que utilizaremos para determinar los estadísticos a
calcular.
4 Frecuencias absolutas ( ni )
Se determina así a la cantidad de datos que son incluidos en cada clase.
5 Frecuencias absolutas acumuladas ( f aa )
Se determina así a la cantidad de datos acumulados a partir del intervalo
inmediato anterior. Se aplica la suma acumulada de cada frecuencia hasta
obtener el 100% del tamaño de la muestra.
11
Estadística Aplicada
Di Paolo, Claudio Javier
Estadística Descriptiva
6 Frecuencia relativa y frecuencias relativas acumuladas ( f r )
Se determina así a la proporción de datos representados en cada clase. Se
calcula dividiendo la frecuencia absoluta de cada intervalo con respecto
al tamaño de la muestra. Su valor acumulativo mayor será el 1 que
representa al 100% de la muestra.
A partir del número de intervalos, la amplitud y el rango, construiremos
la tabla de distribución de frecuencias. (Tabla 1)
Tabla 1. Tratamiento por Datos Agrupados. Tabla de Distribución de frecuencias.
Tema de estudio:
Objetivos:
Dato Mayor:
Rango
Tamaño de muestra Cant.de Intervalos
Amplitud de clase
Dato Menor:
R=
N=
a=
m=
Número
de
intervalo
Límite
ficticio
inferior
Límite
real
inferior
Marca
de clase
Límite
real
superior
Límite
ficticio
superior
i
x¢f i
x¢i
&i
x
xi¢¢
x¢f¢ i
Frecuencia Frecuencia Frecuencia Frecuencia Frecuencia Frecuencia
absoluta
absoluta
absoluta
relativa
relativa
relativa
acumulada acumulada
acumulada acumulada
ascendente descendente
ascendente descendente
ni
f aa >
f aa<
fri
f ra >
f ra <
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
12
Estadística Aplicada
7 Representación gráfica
Diagrama de barras o columnas: sistema de ejes de coordenadas; en
las abscisas representa intervalos de clase, y en las ordenadas sus correspondientes frecuencias absolutas, para una variable cuantitativa continua.
9
8
Frecuencias
7
6
5
4
3
2
1
0
1
2
3
4
5
6 7 8 9 10 11 12 13 14
Intervalos de clase
Histograma: se construye a partir de la tabla estadística de tratamiento de los datos, representando sobre cada intervalo, un rectángulo
que tiene a este segmento como base. El criterio para calcular la altura de
cada rectángulo es mantener la proporcionalidad entre las frecuencias
absolutas (o relativas) de cada intervalo y el área de los mismos.
x: límites ficticios inferiores y superiores; y: frec. absolutas o relativas
9
8
7
Frecuencias
Estadística Descriptiva
Di Paolo, Claudio Javier
6
5
4
Polígono de frecuencias
3
2
1
0
//
9,5 14,5 19,5 24,5 29,5 34,5 39,5 44,5 49,5 54,5 59,5 64,5 69,5 74,5 79,5
Límites ficticios
Polígono de frecuencias: a partir del histograma podemos construir
el polígono de frecuencias, que consiste en unir, mediante líneas rectas
de puntos, las marcas de clases contiguas de cada intervalo. El primer y
el último intervalo, adyacentes a ellos, lo supongo con la misma amplitud
y de frecuencia nula para unir la línea de punto (poligonal).
13
Estadística Aplicada
Ojivas: gráfico de una distribución de frecuencias acumuladas
(relativa o absoluta) descendente o ascendente. Esta gráfica indica la
forma como crece la información a través de los intervalos, se puede
utilizar como medición de las variaciones de los grupos. El punto donde
se cortan las dos ojivas, es el punto central de la distribución, es decir, la
mitad de la información (dato correspondiente con la mediana).
55
50
Frecuencias Absolutas
Estadística Descriptiva
Di Paolo, Claudio Javier
45
Frecuencias absolutas
acumuladas Ascendentes
40
35
30 N
25
2
20
15
10
5
~
X
Frecuencias absolutas
acumuladas Descendentes
0 //
9,5 14,5 19,5 24,5 29,5 34,5 39,5 44,5 49,5 54,5 59,5 64,5 69,5 74,5 79,5
Límites ficticios
8 Cálculos y análisis estadísticos
8.1 MEDIDAS DE POSICIÓN
Medidas de posición CENTRAL
Las medidas de centralización son valores que tienden a situarse en el
centro del conjunto de datos ordenados según su magnitud. Las medidas
de centralización más usadas son: Media aritmética, mediana y moda.
Para el cálculo de todas ellas, en el tratamiento por datos agrupados, es
utilizada la marca de clase como la unidad más representativa de cada
intervalo o clase.
Media aritmética o promedio: medida de tendencia central más conocida, se puede aplicar a variables de intervalos ya sean discretos o continuos. Esta medida se define como el promedio de los datos en estudio.
Cálculo de la media aritmética ( x )
m
å x&i .ni
X = i =1
N
La sumatoria de todas las marcas de clases
por sus respectivas frecuencias absolutas
dividido el tamaño de la muestra. O la
sumatoria de todas las marcas de clases
por sus respectivas frecuencias relativas.
14
Estadística Aplicada
Estadística Descriptiva
Di Paolo, Claudio Javier
Existen 2 formas más para calcular la media que no son comúnmente
utilizadas, ellas son: la media geométrica y la media armónica, que
simplemente la mencionaremos.
Mediana: es la medida de tendencia central que divide a cualquier
distribución en dos partes iguales. Esta medida se puede aplicar a
variables de intervalos (discretas y continuas) y variables ordinales.
La mediana es una serie de datos ordenados en orden de magnitud, es el
valor medio si el número de datos es impar o bien la media aritmética de
los valores medios si el número de datos es par.
x)
Cálculo de la mediana ( ~
éN
ù
êë 2 - å f aa úû
~
X = xi¢N +
×a
n
2
xi¢N
2
N
2
åf
aa
ni N
2
a
iN
2
Límite real inferior en donde cae la frecuencia que
divide la distribución en partes iguales
Mitad de las observaciones
Sumatoria de las frecuencias acumuladas anteriores a la
frecuencia que divide a la distribución en partes iguales
Valor de la frecuencia que divide a la distribución
en partes iguales
Amplitud del intervalo
Moda: se define como el valor que presenta la mayor frecuencia,
se usa con variables de intervalos nominales y ordinales. Es comúnmente
utilizada como una medida de popularidad que refleja la tendencia de
una opinión.
Cálculo de la moda ( x̂ )
æ D1 ö
÷÷ × a
Xˆ = xi¢xˆ + çç
D
+
D
2 ø
è 1
xi¢xˆ
Límite real inferior donde está la moda
D1
Diferencia entre la frecuencia modal y la frecuencia
inmediatamente anterior
D2
Diferencia entre la frecuencia modal y la frecuencia
inmediatamente posterior
a
Amplitud del intervalo
Nota: Un estudio puede presentar una moda, si la frecuencia mayor es
única, en este caso se llamará Unimodal; o varias modas, si la frecuencia
mayor se repite en dos o más intervalos, en este caso será Multimodal.
15
Estadística Aplicada
Estadística Descriptiva
Di Paolo, Claudio Javier
Medidas de posición NO CENTRALES
Las medidas de posición no centrales permiten conocer otros puntos
característicos de la distribución. Estos indicadores suelen utilizar una
serie de valores que dividen a la muestra en tramos iguales. Entre ellos
destacamos: cuarteles, deciles y percentiles.
Cuartiles: son 3 valores que distribuyen la serie de datos,
ordenada de forma creciente o decreciente, en cuatro tramos iguales, en
los que cada uno de ellos concentra el 25% de los resultados.
Cálculo de los cuartiles
é k .n
ù
ê 4 - f aa ú
Q = xi¢ + ê
ú×a
n
iq
ê
ú
ë
û
xi¢
k
f aa
niq
a
Límite real inferior que contiene al cuartil
Cuartil a calcular, su valor puede ser 1, 2 o 3.
Frecuencias acumuladas anteriores al intervalo que contiene al
cuartil
Frecuencias absolutas del intervalo que contiene al cuartil
Amplitud del intervalo
Deciles: son 9 valores que distribuyen la serie de datos, ordenada
de forma creciente o decreciente, en diez tramos iguales, en los que cada
uno de ellos concentra el 10% de los resultados.
Cálculo de los deciles
é k .n
ù
ê 10 - f aa ú
Di = xi¢ + ê
ú×a
n
id
ê
ú
ë
û
xi¢
k
f aa
niq
a
Límite real inferior que contiene al decil
Cuartil a calcular, su valor puede ser 1,2,3,4,56,7,8 ó 9
Frecuencias acumuladas anteriores al intervalo que contiene al
decil
Frecuencias absolutas del intervalo que contiene al decil
Amplitud del intervalo
16
Estadística Aplicada
Estadística Descriptiva
Di Paolo, Claudio Javier
Percentiles: son 99 valores que distribuyen la serie de datos,
ordenada de forma creciente o decreciente, en cien tramos iguales, en los
que cada uno de ellos concentra el 1% de los resultados.
Cálculo de los percentiles
é k .n
ù
ê 100 - f aa ú
Pi = xi¢ + ê
ú×a
ê nip
ú
ë
û
xi¢
k
f aa
niq
a
Límite real inferior que contiene al percentil
Percentil a calcular, su valor puede ser 1,2,3...99
Frecuencias acumuladas anteriores al intervalo que contiene al
percentil
Frecuencias absolutas del intervalo que contiene al percentil
Amplitud del intervalo
Nota: Existen otras medidas de posición no centrales que se suelen
utilizar y que su cálculo sólo depende de variar el cociente que determina
en cuantos tramos iguales se distribuye a la muestra, entre otras se
encuentran los quintiles (la divide en 5 partes iguales) y los octiles (en 8
partes iguales).
A partir de las divisiones en las observaciones que se realicen en una
muestra obtendremos algunas coincidencias en los valores originados
por fracciones equivalentes, a saber: el Cuartil 2, el Octil 4, el Decil 5 y el
Percentil 50 con el valor de la Mediana.
¿Qué otras coincidencias encontramos?
8.2 MEDIDAS DE DISPERSIÓN
Para un mayor análisis de las observaciones de una muestra es necesario
ampliarlo para evaluar el grado de homogeneidad entre sus datos, es
decir, estudiar la separación de los datos numéricos a partir de una
medida de centralización. Las medidas de dispersión más utilizadas son:
Rango: Es la medida menos precisa y más sencilla ya que sólo
considera a los extremos. Es la diferencia entre el dato mayor y el dato
menor de las observaciones.
Cálculo del rango
R = XM - Xm
17
Estadística Aplicada
Estadística Descriptiva
Di Paolo, Claudio Javier
Desviación media: mide la distancia absoluta promedio entre cada
uno de los datos, y el parámetro que caracteriza la información.
Usualmente se considera la desviación media con respecto a la media
aritmética:
Cálculo de desviación media
m
DM =
m
å x&
i =1
i
- X .ni
N
Cantidad de intervalos
x& i
Marca de clase de cada intervalo (su valor más representativo)
X
ni
Valor de la media aritmética muestral
N
Tamaño de la muestra
Respectiva frecuencia absoluta de cada intervalo
Varianza: es uno de los parámetros más importantes en
estadística paramétrica, se puede decir que, teniendo conocimiento de la
varianza de una población, se ha avanzado mucho en el conocimiento de
la población misma.
Numéricamente definimos la varianza, como desviación cuadrática
media de los datos con respecto a la media aritmética:
Cálculo de varianza
m
S2 =
m
å (x&
i =1
- X ) .ni
2
i
N
Cantidad de intervalos
x& i
Marca de clase de cada intervalo (su valor más representativo)
X
ni
Valor de la media aritmética muestral
N
Tamaño de la muestra
Respectiva frecuencia absoluta de cada intervalo
Desviación Estándar o Típica: se define como la raíz cuadrada de la
varianza, y es útil a la hora de evaluar y concluir sobre la varianza.
Cálculo de desviación estándar ó típica
S = S2
18
Estadística Aplicada
Estadística Descriptiva
Di Paolo, Claudio Javier
Coeficiente de variación de Pearson: tiene en cuenta el valor de la
media aritmética, para establecer un número relativo, que hace
comparable el grado de dispersión entre dos ó mas variables.
Cálculo de variación de Pearson
C.V . =
S
X
8.3 ESTUDIO DE LA FORMA DE LA CURVA
Las siguientes índices nos permiten medir las características de curva
representada por la serie de datos de la muestra.
La Concentración: mide si los valores de la variable están más o
menos uniformemente repartidos a lo largo de la muestra.
Para medir el nivel de concentración de una distribución de frecuencia se
pueden utilizar distintos indicadores, entre ellos el Indice de Gini.
Cálculo de índice de Gini
m
å (f - q )
I .G. =
åf
i =1
ra >
i
ra >
La sumatoria de las diferencias entre cada
frecuencia relativa acumulada y qi (razón
entre la sumatoria acumulada de cada
marca de clase por sus respectivas
frecuencias absolutas con respecto a la
suma total de cada marca de clase por sus
respectivas frecuencias absolutas); dividido
la sumatoria de las frecuencias relativas
acumuladas ascendentes.
El Índice Gini (IG) puede tomar valores entre 0 y 1:
IG = 0: Concentración mínima. La muestra está uniformemente
repartida a lo largo de todo su rango.
IG = 1: Concentración máxima. Un solo valor de la muestra, acumula el
100% de los resultados.
La Asimetría: mide si la curva tiene una forma simétrica, es decir,
si respecto al centro de la misma (centro de simetría) los segmentos de
curva que quedan a derecha e izquierda son similares. Para medir el nivel
de asimetría se utiliza el llamado Coeficiente de Asimetría de Fisher.
Cálculo de coeficiente de asimetría de Fisher
αF =
m3
S3
3
m
å (x& - X ) × n
Se calcula por momento
de tercer orden, m3 .
i =1
ααF =
i
i
N
S3
19
Estadística Aplicada
Estadística Descriptiva
Di Paolo, Claudio Javier
Los resultados que se determinen a partir del coeficiente pueden ser:
α F = 0 (distribución simétrica; existe la misma concentración de valores
a la derecha y a la izquierda de la media)
CURVA SIMÉTRICA
Eje de
simetría
α F > 0 (distribución asimétrica positiva; existe mayor concentración de
valores a la derecha de la media que a su izquierda)
CURVA ASIMÉTRICA POSITIVA
Eje de
simetría
α F < 0 (distribución asimétrica negativa; existe mayor concentración de
valores a la izquierda de la media que a su derecha)
CURVA ASIMÉTRICA NEGATIVA
Eje de
simetría
La Curtosis: mide si los valores de la distribución están más ó
menos concentrados alrededor de los valores medios de la muestra.
Se definen 3 tipos de distribuciones según su grado de curtosis:
Distribución mesocúrtica: presenta un grado de concentración medio
alrededor de los valores centrales de la variable (el mismo que presenta
una distribución normal).
CURVA MESOCÚRTICA
Eje de
simetría
Distribución leptocúrtica: presenta un elevado grado de concentración
alrededor de los valores centrales de la variable.
CURVA LEPTOCÚRTICA
Eje de
simetría
20
Estadística Aplicada
Estadística Descriptiva
Di Paolo, Claudio Javier
Distribución platicúrtica: presenta un reducido grado de concentración
alrededor de los valores centrales de la variable.
CURVA PLATICÚRTICA
Eje de
simetría
Cálculo de coeficiente de Curtosis
αc =
m4
S4
4
m
Se calcula por momento
de cuarto orden, m4 .
å (x& - X ) × n
i =1
αF =
Los resultados pueden ser los siguientes:
i
i
N
S4
α c = 3 (distribución mesocúrtica o normal). Si es así existe una igual
entre la media, la mediana y la moda.
α c > 3 (distribución leptocúrtica o apuntada).
α c < 3 (distribución platicúrtica).
8.4 ESTUDIO DE NORMALIDAD DE LA MUESTRA
A partir de la media y la desviación estándar muestrales, estudiaremos la
normalidad de una muestra analizando el porcentaje de datos contenidos
en la media más menos un desvío, dos desvíos y tres desvíos.Resultando:
P[x - s; x + s ]= 0.6826
El 68,3 % de los datos están contenidos
P[x - 2 s; x + 2 s ]= 0.9544
El 95,4 % de los datos están contenidos
P[x - 3s; x + 3s ]= 0.9974
El 99,7 % de los datos están contenidos
Si se cumplen estas condiciones podemos decir que estamos frente a una
Distribución Normal.
Campana de Gauss
µ−3σ
µ−2σ
µ=σ
µ
µ+σ
µ+2σ
µ+3σ
Ampliación para el cálculo de las medidas estudiadas
Las fórmulas desarrolladas se aplican para el estudio estadístico por tratamiento de
datos agrupados, es decir, cuando el número de observaciones es lo suficientemente
grande para agruparlos en intervalos; caso contrario, la forma de calcular cada medida varía cambiando la marca de clase por el dato crudo (xi); pues ya no tendremos
intervalos de clases sino un listado ordenado de datos con lo que trabajaremos.
21
Estadística Aplicada
Estadística Descriptiva
Di Paolo, Claudio Javier
DISTRIBUCIONES BIDIMENSIONALES
1 Correlación
El estudio estadístico que involucra a todas las medidas anteriormente
citadas, corresponde al análisis de una sola variable, es decir, es
unidimensional. Pero en Estadística contamos con la necesidad de
cruzar variables, de estudiar y analizar grados de dependencias,
relaciones entre más de una variable de un individuo o cosa.
El estudio de distribuciones bidimensionales, nos permite encontrar
respuestas a estas inquietudes.
La Correlación entre dos o más variables mide el grado de relación entre
ellas y a partir de allí podremos inferir datos y/o concluir observaciones.
Son ejemplos de variables a ser susceptibles de relacionar:
El peso y la estatura de un grupo de adultos.
Edad y peso de un grupo de niños.
Ingresos y gastos de alquileres de un grupo de familias.
Escolaridad e ingreso mensual de un grupo de empleados.
Ventas y ganancias de un almacén de variedades.
Medidas de pH y acidez en leche.
Voltaje y KW en un hogar.
Ausentismo y sueldos en los recibos de haberes.
Cálculo del Coeficiente de Correlación Lineal de Pearson ( rxy )
rxy =
S xy
S xy
SxS y
CoVarianza: grado de variación conjunta de dos variables
m
S xy =
å (x
i =1
i
- X )(yi - Y )
N
Esta fórmula surge de una división entre el numerador que se
corresponde con la CoVarianza de la distribución binomial y el
denominador con la multiplicación de los Desvíos Típicos o Estándar de
cada una de las variables.
rxy =
nå xy - å x å y
[nå x - (å x)][nå y
2
2
2
]
- (å y)
2
22
Estadística Aplicada
Estadística Descriptiva
Di Paolo, Claudio Javier
De esta manera puede suceder que:
S xy > 0 Cuando una de las variables aumenta, también lo hace la otra.
S xy < 0 Cuando una de las variables aumenta, la otra disminuye.
S xy = 0 No hay relación entre los aumentos de una y otra.
Estas relaciones pueden ser de menor o mayor intensidad con la
salvedad de que no sólo depende del grado de variación conjunta entre
las variables sino también de las dispersiones de ellas. Por esta razón se
utiliza el Coeficiente de Correlación Lineal de Pearson ( rxy ) que elimina
este factor.
Interpretaciones del Coeficiente Lineal de Pearson
rxy = 1
Existe una perfecta relación entre las variables
por lo que podemos determinar a partir de una
de ellas el valor de la otra.
rxy = 0
No existe relación entre las variables.
0 £ rxy < 0.3
0.3 £ rxy < 0.7
0.7 £ rxy < 1
La relación es baja, cuanto más próximo a cero
esté, la relación está casi ausente.
La relación es media.
La relación es alta.
De manera tal que para calcular al coeficiente será necesario organizar
los datos en Excel con la siguiente tabla. (Tabla 2)
Tabla 2. Tabla para calcular el coeficiente de Correlación
i
xi
yi
xi .yi
xi2
yi2
1
2
3
4
5
6
7
8
9
10
La representación gráfica de las variables x e y obtenidas a partir de los
datos muestrales, queda reflejada a través de un Diagrama de Dispersión
X e Y; representando, lo que comúnmente se conoce como "nube
estocástica de puntos".
23
Estadística Aplicada
Gráfico de dispersión de los valores x e y
28
26
24
22
20
18
16
Variable Y
Estadística Descriptiva
Di Paolo, Claudio Javier
14
12
10
8
6
4
2
-1
0
1
3
5
Variable X
7
9
11
2 Independencia estadística
Según el teorema de caracterización de independencia, dos variables x e
y son estadísticamente independientes, si la frecuencia relativa conjunta
es igual al producto de las frecuencias relativas marginales, para todas las
variables, esto es:
f r ij = f i · × f · j "i , j
;
Utilizando las frecuencias absolutas la fórmula es:
nij ni· n ·j "i , j
=
×
;
N N N
Los datos correspondientes a las variables x e y se representan en tablas
de frecuencias como la siguiente:
x
y
x1
x2
x3
x4
x5
y1
y2
y3
y4
y5
n11
n21
n31
n41
n51
n12
n22
n32
n42
n52
n13
n23
n33
n43
n53
n14
n24
n34
n44
n54
n15
n25
n35
n45
n55
De manera que los ni· corresponden a la columna de los datos de (y1, xi).
Mientras que los n · j corresponden a la fila de los datos de (x1, yi).
Que se de, igualdad e independencia estadística implica, que las variables
son incorreladas, es decir que rxy =0, no existe dependencia lineal.
En cambio, que rxy =0 significa que las variables x e y están incorreladas
pero no implica que son estadísticamente independientes.
24
Estadística Aplicada
Estadística Descriptiva
Di Paolo, Claudio Javier
3 Regresión
Luego de constatar, con el Coeficiente de Correlación de Pearson, que
dos variables están relacionadas, debemos acudir a un método que nos
permita estimar o predecir qué valores obtendrá una variable a partir de
los valores asignados a la otra. Para ello, debemos establecer una relación
funcional entre las variables, siendo la ecuación, la relación funcional
más simple. Hablamos, de esta manera de una Regresión Lineal.
3.1 REGRESIÓN LINEAL
Se da por la ecuación de la recta del tipo: y = ax + b
Método de los mínimos cuadrados: se emplea para este tipo de predicciones, ya que arroja estimaciones con menor error cuadrático promedio.
A partir de la ecuación de la recta debemos conocer los valores de a y b,
para poder determinar los correspondientes de X e Y.
Cálculo de b (estimada)
b=
nå XY - å X å Y
nå X 2 - ( å X )
ó
2
b=
S xy
S x2
A partir de b (estimada), logro calcular a (estimada).
Cálculo de a (estimada)
a=
å Y - bˆ å X
a = y - b.x
ó
N
Luego y (estimada) es:
yˆ = a + bx
Por lo tanto, si:
b > 0, las dos variables aumentan o disminuyen a la vez.
b < 0, cuando una variable aumenta, la otra disminuye.
Para el caso de determinar x (estimada) a partir de un valor
observacional de y, se emplea la ecuación:
xˆ = a + by
a = x - b. y
b=
nå XY - å X å Y
nå Y 2 - ( å Y)
2
ó
b=
S xy
S x2
25
Estadística Aplicada
Estadística Descriptiva
Di Paolo, Claudio Javier
Bondad del ajuste ó fiabilidad del modelo: a partir del Coeficiente de
Determinación evaluamos el error cometido en cada predicción, entre el
y experimental y el y estimado. Su fórmula es:
Cálculo de
e = Y - Yˆ
Principales características que se deducen a partir de e :
e = Y - Yˆ = 0
å
ei = 0 no podemos tomarlo como medida de bondad del
Como la
ajuste. La suma de errores cuadráticos no presenta este inconveniente
pero sí el de depender del número de observaciones. Por lo tanto,
tomando el Error Cuadrático Medio (ECM) evitamos esta dependencia.
Cálculo del Error Cuadrático Medio
ECM =
åe
2
N
i
³0
El ECM o su raíz cuadrada que se denomina Error de Regresión,
son inversamente proporcionales a la bondad del ajuste.
S eyˆ = 0
El Desvío Típico del Error con respecto a la y estimada es igual a cero
S e2 = S y2 - S y2ˆ
Aquí se da una relación fundamental entre la varianza experimental y la
varianza residual. Como e = 0, entonces S e2 = ECM y de ahí que el
ECM sea un error estimado de la bondad de ajuste ya que es igual a la
varianza residual. Cuanto mayor sea la varianza residual, mayor será la
parte de la variabilidad de Y, que es incapaz de explicarse por la relación
lineal entre X e Y.
Para evaluar la fiabilidad o bondad del ajuste lineal, utilizamos las
siguientes fórmulas en relación a lo explicado anteriormente:
2
r 2 = 1 - S e2
Sx
Cuando la
variable x está
en relación con y
2
r 2 = 1 - S e2
Sy
Cuando la
variable y está
en relación con x
0 £ r 2 £ 1 Si el valor es igual o mayor que 0.75 estamos en condiciones
de dar fiabilidad al modelo. Cuanto más próximo a 1 más fiable; a la
inversa, cuando más cerca de cero menos fiable.
26
Estadística Aplicada
Estadística Descriptiva
Di Paolo, Claudio Javier
3.2 REGRESIÓN NO LINEAL
Regresión Parabólica:
yˆ = a + bx + cx 2
Regresión Potencial: cuando la figura que mejor se ajusta es del tipo
potencial, la forma de hallar los coeficientes para determinar las
estimaciones es aplicando logaritmos.
Y = aX b
log Y = log aX b
log Y = log a + log X b
log Y = log a + b. log X
Luego, aplicando un cambio de variables llevamos la función potencial a
una función lineal para poder determinar los coeficientes a y b.
V = log Y
U = log X
A = log a
V = A + b.U Nueva Función Lineal
Al finalizar la búsqueda de los coeficientes a y b, y poder determinarlo
como función potencial,es necesario aplicar el antilogaritmo de A y de b.
Cálculo de V (estimada)
S
Vˆ = v + UV2 .(U - u )
SU
Para realizar los cálculos parciales y así determinar cada término de la
fórmula, es necesario plantear una tabla con las transformaciones de las
variables según sus igualdades.
Regresión Exponencial: de la misma manera que trabajamos la
Regresión Potencial, debemos aplicar logaritmos para poder transformar
en Función Lineal y así aplicar el Método de los Mínimos Cuadrados:
27
Estadística Aplicada
Estadística Descriptiva
Di Paolo, Claudio Javier
Y = ab X
log Y = log ab X
log Y = log a + log b X
log Y = log a + X . log b
Luego, aplicando un cambio de variables llevamos la función exponencial a una función lineal para poder determinar los coeficientes a y b.
V = log Y
B = log b
A = log a
V = A + B. X Nueva Función Lineal
Al finalizar la búsqueda de los coeficientes a y b y poder determinarlo
como función exponencial, es necesario aplicar el antilogaritmo de A y
de B.
Entonces, para calcular V (estimada) aplico la siguiente fórmula:
S
Vˆ = v + XV2 .( X - x )
Sx
Para realizar los cálculos parciales y así determinar cada término de la
fórmula, es necesario plantear una tabla con las transformaciones de las
variables según sus igualdades.
Regresión Logarítmica:
y = a + b. log( x)
28
Estadística Aplicada
Probabilidad
Di Paolo, Claudio Javier
DEFINICIONES PREVIAS
Debemos dar definiciones previas referentes a la Teoría de los Sucesos
que son vinculadas al estudio de la Probabilidad como soporte para la
Estadística Inferencial o simplemente para cálculos casuísticos:
Espacio Muestral: es el conjunto formado por todos los casos
posibles en la realización de un experimento.
Espacio Muestral Discreto: si es finito o infinito numerable.
Espacio Muestral Continuo: si es infinito numerable.
Diagrama de Árbol: representación gráfica del espacio muestral.
Suceso Aleatorio: cada uno de los posibles subconjuntos que son
partes del espacio muestral.
Suceso Imposible: aquel subconjunto que nunca ocurre en el
espacio muestral. (Conjunto vacío).
Suceso Elemental: suceso formado por un solo resultado del
espacio muestral.
Suceso Compuesto: suceso formado por más de un resultado del
espacio muestral.
Suceso cierto: es aquel que siempre ocurre.
Álgebra de los sucesos
Suceso contrario o complemento: llamamos así al suceso que ocurre
cuando no se realiza. Ejemplo: Suceso contrario de Q a Q.
Unión de sucesos: Dados dos sucesos A y B llamamos unión de sucesos
a ( A È B ) al suceso formado por A o B.
Intersección de sucesos: Dados dos sucesos A y B llamamos
intersección de sucesos a ( A Ç B ) al suceso formado por A y B.
Sucesos incompatibles: dos sucesos son incompatibles cuando su
intersección da como resultado el conjunto vacío. A Ç B = f
Sucesos compatibles: dos sucesos son compatibles cuando su
intersección no da como resultado el conjunto vacío. A Ç B ¹ f
Experimentos
Experimentos deterministas: son aquellos que realizada bajo la misma
forma y mismas condiciones iniciales un experimento, resulta siempre el
mismo resultado. Por ej.: cuando dejamos caer al vacío, un objeto en
reposo desde una misma altura, llega siempre al suelo con una misma
velocidad: v = 2 gh .
Experimento aleatorio: son aquellos experimentos en los que no se
puede predecir el resultado final. Por ej.: lanzamiento de un dado.
29
Estadística Aplicada
Probabilidad
Di Paolo, Claudio Javier
DEFINICIONES DE PROBABILIDAD
NOCIÓN FRECUENTISTA
Desde la perspectiva frecuentista de probabilidad, se observa que en los
experimentos aleatorios, a medida que aumenta el número de experimentos, las frecuencias relativas en las que ocurre un suceso A, f r (A),
tiende a converger hacia cierta cantidad que llamamos probabilidad de
A. De manera que:
f r (A) = nº de ocurrencias de A
N (total de casos)
P[A] = lím f r (A)
N ®¥
La noción frecuentista de probabilidad no puede usarse en la práctica
como definición de probabilidad porque:
Como N (el nº de experimentos) tiende a infinito, requiere infinitos
experimentos para calcular la probabilidad.
A veces no es posible realizar experimentos aleatorios.
Por ej.: calcular la probabilidad de morir jugando a la ruleta rusa con un
revólver; ésto no es posible, ya que necesitamos repetir el experimento
un número demasiado alto de veces para tender a la probabilidad.
REGLA DE LAPLACE
Dadas las explicaciones de la noción frecuentista, podemos definir a la
probabilidad a partir de la Regla de Laplace "Si cualquier experimento da
como resultado un nº finito de valores posibles, sin razón alguna de forzar un valor
por sobre otro, se calcula la probabilidad de un suceso aleatorio A, como:
P[A] = nº de casos favorables de A
nº de casos posibles
AXIOMAS DE LA PROBABILIDAD
Desde otra perspectiva se puede calcular a la probabilidad de un suceso
A, teniendo en cuenta el cumplimiento de los siguientes axiomas para
encontrar: P[A]
1 0 £ P [A ] £ 1
La probabilidad de que se de un suceso A, resulta estar comprendida
entre 0 y 1.
2 P [ W] = 1
La probabilidad de un suceso seguro es igual a 1
Espacio Muestral.
3 P [A È B] = P [A] + P [B ] , si A Ç B = f
La probabilidad de la unión numerable de sucesos disjuntos es igual a la
suma de sus probabilidades (Independencia de Eventos).
30
Estadística Aplicada
Probabilidad
Di Paolo, Claudio Javier
CONSECUENCIAS DE LOS AXIOMAS DE LA PROBABILIDAD
(aplicando la teoría de conjuntos)
1 P [ Ac ] = 1- P [A]
La probabilidad de un complemento del suceso A, es igual uno menos la
probabilidad del suceso A.
2 P [f ] = 0
La probabilidad de un suceso vacío da como resultado cero.
3 P[ A] £ P[ B ] ;si A Í B
Si el suceso A es menor o igual al B, las Probabilidades también serán
menor o igual.
4 0 £ P[A] £ 1
La probabilidad es un número comprendido entre cero y uno.
5 P[A È B ] = P[A] + P[B ] - P[A Ç B ] ;si A Ç B ¹ f
La probabilidad de la unión de sucesos es igual a la suma de sus probabilidades menos la Probabilidad de su intersección, por ser sus sucesos
conjuntivos.
6 P[A È B È C ] =
P[A] + P[B] + P[C] - P[A ÇB]-P[BÇC]-P[A Ç C] + P[A ÇBÇ C],si A ÇBÇC¹ f
Cuando la intersección de 3 o más sucesos es distinto a vacío, la probabilidad de la unión de los sucesos es igual a la sumas de los sucesos de A,
B y C menos sus intersecciones pares, agregando la intersección entre
los 3 conjuntos.
A partir de los axiomas y sus consecuencias, es posible calcular la
probabilidad de un suceso a partir de la teoría de conjuntos.
CÁLCULO DE LA PROBABILIDAD
PERMUTACIONES
Cuando queremos ordenar k elementos de un conjunto de n elementos,
para escoger uno o varios de ellos, las posibilidades de orden son n-k+1
y se lee como permutaciones de n en k.
Cálculo
P(n, k ) =
n!
(n - k )!
31
Estadística Aplicada
Probabilidad
Di Paolo, Claudio Javier
COMBINACIONES O COMBINATORIAS
En cambio, si queremos escoger k elementos de un conjunto de n
elementos, sin importar su orden, n en k combinaciones posibles.
ænö =
n!
ç k ÷ k! (n - k )!
è ø
Coeficiente Binomial de n en k
PROBABILIDAD CONDICIONAL
Cuando queremos calcular la probabilidad de un evento A habiéndose
dado un evento B, utilizamos la fórmula , teniendo en cuenta que la
probabilidad del evento B tiene que ser mayor a cero.
P[A / B ] = P[A Ç B ] ; si P[B ]> 0
P[B ]
P[A / B ] = P[A] × P[ B / A]
PROBABILIDAD TOTAL
Dado un conjunto de sucesos independientes Ai, de manera que
å Ai = W (equivale al espacio muestral), es posible determinar como
probabilidad total, a la sumatoria de cada Probabilidad Condicional dada
por el suceso conocido Bi por su respectiva probabilidad a priori.
n
P[A]= å P[A / Bi ] × P[Bi ]
i =1
TEOREMA DE BAYES
Se aplica al cálculo de la determinación de causas, a partir de una
consecuencia.
P[Ai / B ] =
P[Ai ] × P[ B /Ai ]
k
å P[A j ] × P[B /Aj ]
j =1
P[Ai ]
P[ B /Ai ]
P[Ai / B ]
Probabilidades a priori de las causas o de las hipótesis
Verosimilitudes
Probabilidad a posteriori, es la probabilidad de que el
suceso B, que ya ocurrió, sea la causa del suceso Ai
32
Estadística Aplicada
Probabilidad
Di Paolo, Claudio Javier
VARIABLES ALEATORIAS
VARIABLE ALEATORIA DISCRETA (v.a. discreta)
Se define así a la variable que puede tomar un número finito o infinito
numerable de valores.
Definición
Representación Gráfica
Diagrama de Barras - Análogo al de
Distribución de frecuencias relativas
FUNCIÓN DE
PROBABILIDAD
f
f ( xi ) = P[X = xi ]
(es la probabilidad de que
X tome el valor xi)
3/8
1/8
0
1
2
3
Diagrama de Barras - Análogo al de
Distribución de frecuencias relativas acumuladas
1
FUNCIÓN DE
DISTRIBUCIÓN
F ( xi ) = P [X £ xi ]
7/8
(es la probabilidad de que X
tome un valor inferior o
igual a xi)
4/8
F
1/8
Medidas de tendencia Central y de Dispersión
De forma análoga que en la estadística descriptiva, es posible determinar
para las variables aleatorias, su medida central equivalente a la media que
se llama Esperanza Matemática y se denota por E(x) ó µ; y su medida de
dispersión Varianza (de igual nombre) Var[x].
33
Estadística Aplicada
Probabilidad
Di Paolo, Claudio Javier
El Valor esperado o la Esperanza Matemática para una v.a. discreta se
define como el promedio esperado de valores (a diferencia que en la
estadística aquí no parto de datos conocidos sino de datos esperados); su
cantidad se expresa como:
k
E [X ] = å xi f (xi )
i =1
La varianza de una v.a. discreta se calcula a partir del momento de
segundo orden:
k
s 2 = Var [ X ] = E [(X - E [x ] )2 ] = å (xi - E [X ] )2 f ( xi )
i=1
VARIABLE ALEATORIA CONTINUA (v.a. continua)
Se define así a la variable que puede tomar un número infinito no
numerable de valores.
Definición y propiedades
Representación Gráfica
FUNCIÓN DE
ì f ( x ³ 0)
ï+ ¥
í
ï ò f ( x)dx = 1
î-¥
Dados los valores a y b, de manera que a < b,
la Probabilidad de que se de un valor X entre
a y b es igual al área bajo la curva dado por la
integral definida entre los puntos a y b de la
función de densidad probabilística.
DENSIDAD
La función es mayor que cero.
P[a £ X £ b] = ò f ( x) dx
PROBABILÍSTICA La integral definida en el
intervalo(- ¥;+¥ ) de la función es igual a uno.
Se define como la probabilidad
de un intervalo está dado por
el área que existe entre la
función y las abscisas).
x
f
P[a £ X £ b ]
a
b
X
f (t )dt
-¥
. . . ........ . . . .
(es la probabilidad de que X
tome un valor inferior o
igual a x)
F(x)
f (x)
...
...
DISTRIBUCIÓN
a
...
FUNCIÓN DE
F (x) = P[X £ x] =ò
b
Área=F(x)
x
34
Estadística Aplicada
Di Paolo, Claudio Javier
Probabilidad
Medidas de tendencia Central y de Dispersión
El Valor esperado o la Esperanza Matemática para una v.a. continua,
difiere de una discreta en que se determina a partir de una cantidad
infinita de valores; su cantidad se expresa desde su función de densidad.
+¥
E [X] =ò x. f ( x) dx
-¥
La varianza de una v.a. continua se calcula a partir del momento de
segundo orden.
+¥
s 2 = Var [X ] = E [( X - E [x ] )2] = ò (xi - E [X] )2× f ( x) dx
-¥
DISTRIBUCIONES PROBABILÍSTICAS
Hay leyes de la probabilidad que se aplican a variables aleatorias discretas
y continuas, para su cálculo, y que son base para la inferencia estadística.
DISTRIBUCIONES PROBABILÍSTICAS DISCRETAS
DISTRIBUCIONES
CARACTERÍSTICAS
Consiste en realizar un experimento
una sola vez y observar si cierto
Distribución suceso ocurre(éxito)
ó no (fracaso).
de Bernoulli
p es la probabilidad de que ocurra
(valor 1) y q=1-p
es la probabilidad
de fracaso.
LEY DE PROBABILIDAD
MEDIDAS DE
SUS MOMENTOS
ì0 ® q = 1 - p = P[X = 0]
x ® Ber ( p ) Û X = í
î1 ® p = P[X = 1]
E [X ] = p
Ley de probabilidad
ì q ® Si x = 0
ï
f ( x) = í p ® Si x = 1
ï 0 ® En cualquier otro caso
î
Var[X ] = p × q
x ® B(n, p ) Û X = X 1 + ... + X n
Ley binomial B(n,p)
Donde xi ® Ber ( p ), "i = 1,..., n
que se interpreta
Distribución como la suma de
Binomial
n v.a. independientes Ley de probabilidad
de Bernoulli con el
æ n ö k n-k
mismo parámetro p.
f (k ) = P[X = k ] = çç ÷÷ p × q
èk ø
E [X ] = n × p
Var [X ] = n × p × q
"k = 0,1,..., n
35
Estadística Aplicada
Probabilidad
DISTRIBUCIONES
Di Paolo, Claudio Javier
DISTRIBUCIONES PROBABILÍSTICAS DISCRETAS
CARACTERÍSTICAS
LEY DE PROBABILIDAD
Parte de v.a. indeX 1 , X 2 ,..., X i ,... donde X i ® Ber ( p ), i = 1,2,..., ¥
pendientes de
Bernoulli, pero se
Distribución considera la suma de
geométrica fracasos obtenidos
Ley de probabilidad
hasta la aparición del
primer éxito buscado f ( k ) = P[X = k ] = p × q k "k = 0,1,..., ¥
en la sucesión.
®
Sobre una sucesión X 1 , X 2 ,..., X i ,... donde X i ® Ber ( p ), i = 1,2,..., ¥
de v.a. independienLey de probabilidad
tes de Bernoulli, deæ k + r - 1ö r -1 k
finimos el nº de
÷÷ p × q × p "k = 0,1,..., n
f (k ) = P[X = k ]= çç
Distribución fracasos obtenidos
è r -1 ø
Binomial
hasta la aparición de
k + r -1
r éxitos. Con paráNegativa
Primeros
experimentos
metros r y p se define la Ley Binomial
æ k + r - 1ö r k
÷p ×q
p=ç
negativa.
è
k
Éxito final
Se utiliza para calcular la probabilidad
de ciertos sucesos en
forma proporcional al
Distribución conjunto existente.
Sus parámetros son:
HiperN(tamaño de la pogeométrica
blación); n(cant. de
extracciones sin reemplazamientos) y p
(probabilidad de éxito deseado).
MEDIDAS DE
SUS MOMENTOS
q
p
E [X ] =
Var [X ] =
E [X ] =
q
p2
rq
p
Var [X ] =
rq
p2
ø
X ® Hgeo( N , n, p )
Ley de probabilidad
æ N × pö æ N ×q ö
ç
÷×ç
÷
k ø èn - k ø
P[ X = k ] = è
;
æNö
çn÷
è ø
E [X ] = n × p
Var [X ] = n × p × q ×
N -n
N -1
si máx{ 0, n - Nq } £ k £ mín{ n, Np }
Si N, es muy grande, la distribución hipergeométrica tiende a aproximarse a la distribución binomial.
Cuando un suceso
B(n,p ), donde n × p = λ ,y n ® ¥ (p, es positivo)
tiene una probabilidad muy baja de
Distribución ocurrir, y el nº de ex- Ley de probabilidad
de Poisson o perimentos es muy
e -λ λk , k = 0,1,2,....
[
]
E [X ] =Var [X ] = λ
f
(
k
)
=
P
X
=
k
=
de Sucesos alto, se utiliza esta
k!
distribución.
Se
la
raros (λ)
conoce como una
distribución límite
n > 30, p £ 0,1 Þ B(n, p ) @ Poisson(n × p )
de una distribución
binomial.
36
Estadística Aplicada
Probabilidad
Di Paolo, Claudio Javier
DISTRIBUCIONES PROBABILÍSTICAS CONTINUAS
Las distribuciones que sintetizaremos corresponden a variables aleatorias
continuas unidimensionales, cuyo valor de función de densidad es no
nulo y positivo.
DISTRIBUCIONES
CARACTERÍSTICAS
FUNCIONES DE DENSIDAD Y DISTRIBUCIÓN
MEDIDAS DE
SUS MOMENTOS
X ® Unif (a, b)
Función de densidad
f ( x) =
a£ x£b
si
- - - - - - - - -
E [X ] =
F(x)
-
-
-
-
1,0
-
-
-
-
-
0,8
b+a
2
-
0,6
Var [X ] =
(b - a )2
-
-
-
-
-
f (x)
12
-
-
0,4
-
-
-
Sea X una v.a. continua, la probabilidad
Distribución
de X incluída en [a, b];
Uniforme ó
depende de su longirectangular tud; siendo la probabilidad una constante.
1 ,
b-a
Unif (a=0, b=2)
- - - - -
-
0,0
-
-
-
-
-
0,2
-0,5
0,0
0,5
1,0
1,5
2,0
2,5
Función de densidad y de distribución
3,0
Se define para los reales positivos.
λ , X ® Exp ( λ)
Función de densidad
Es equivalente a la
distribución geométrica discreta; describe procesos en los
Distribución que nos interesa saexponencial ber el tiempo hasta
que ocurre determinado evento, sin
considerar el tiempo
transcurrido en el
que nada pasó.
f ( x) = λ e -λ x ;
si
0< x
Función de distribución
ì1 - e -λ x ; si 0 < x
F ( x) = í
î0 ; en otro caso
1,0
f ( x) = λ e
-λ x
E[ X ] =
1
λ
Var [X ] =
para λ=1
0,8
1
λ2
0,6
0,4
0,2
0,0
0
1
2
3
4
37
Estadística Aplicada
Probabilidad
DISTRIBUCIONES
Di Paolo, Claudio Javier
DISTRIBUCIONES PROBABILÍSTICAS CONTINUAS
CARACTERÍSTICAS
FUNCIONES DE DENSIDAD Y DISTRIBUCIÓN
MEDIDAS DE
SUS MOMENTOS
Para el conjunto de los nº reales.
X ® N ( µ, σ 2 )
Función de densidad
f ( x) =
-1 æ x - µ ö
÷
σ ø
×ç
1
×e 2 è
2π
2
, "x Î
Reales
La forma de la función de densidad es la llamada campana de Gauss.
0,4
N ( µ=0, σ=1)
0,3
σ
σ
0,2
Es la distribución
más importante pues
nos permite determi- 0,1
Distribución nar cuan concentraµ
Normal o dos están los datos
0,0
alrededor
de
la
meGaussiana
-3
-2
-1
0
1
2
3
dia. Es la base que
da inicio al estudio
La figura muestra la Campana de Gauss o la
de la inferencia estafunción de densidad de una v.a. de distribudística.
ción normal. El parámetro µ indica el centro
(parámetro de centralización) y σ el parámetro
de dispersión. La distancia del centro a los
puntos de inflexión es precisamente σ.
E [X ] = µ
Var [X ] = σ 2
~
µ = X = Xˆ = X
Cuanto menor sea σ más concentración de datos cerca de la media habrá (curva alargada), si
σ es más grande, más aplastada será la curva.
Estudio de normalidad
Trabajamos con variables tipificadas de: µ=0
σ=1. Si algunos de estos valores difieren, es
necesario tipificar de manera tal que conseguiremos una nueva variable para trabajar que llamaremos v.a. tipificada z.
µ
z = Xσ
38
Estadística Aplicada
Probabilidad
DISTRIBUCIONES
Di Paolo, Claudio Javier
DISTRIBUCIONES PROBABILÍSTICAS CONTINUAS
CARACTERÍSTICAS
FUNCIONES DE DENSIDAD Y DISTRIBUCIÓN
MEDIDAS DE
SUS MOMENTOS
A partir de µ y σ, estudiaremos la normalidad
de una muestra analizando el porcentaje de
datos contenidos en la media menos un desvío,
dos desvíos y tres desvíos. De manera que:
1) P[X Î µ ± 1σ ] = 0.6826 El 68,3% de los
datos están contenidos.
2) P[X Î µ ± 2σ ] = 0.9544 El 95,4% de los
datos están contenidos.
3) P[X Î µ ± 3σ ] = 0.9974 El 99,7% de los
datos están contenidos.
Si se cumplen estas condiciones podemos decir
que estamos frente a una Distribución Normal.
Distribución
Normal o
Gaussiana
0,4
N ( µ=0, σ=1)
0,3
----------------------
P[X Î µ ± 1σ ] = 0,68
0,2
0,1
-----------------------------------------------
P[X Î µ ± 2σ ] = 0.95
0,0
-3
-2
µ−3σ
Si se cumple que n
es suficientemente
Aproximación grande y p está ubia la Normal cada en un valor no
muy próximo a los
de la
Ley Binomial extremos de 0 y 1, a
partir de la Ley Binomial podemos aproximar a la Normal.
-1
µ−2σ
µ=σ
0
1
µ
µ+σ
2
µ+2σ
3
µ+3σ
Si se cumple:
ìn > 30
ï
X ® B(n, p ) donde ínp > 4 Þ X @ N (np, npq)
ïnq > 4
î
Es posible la aproximación.
Otro indicador viene dado por:
p@q@
1
2
39
Estadística Aplicada
Probabilidad
DISTRIBUCIONES
Di Paolo, Claudio Javier
DISTRIBUCIONES PROBABILÍSTICAS CONTINUAS
CARACTERÍSTICAS
FUNCIONES DE DENSIDAD Y DISTRIBUCIÓN
MEDIDAS DE
SUS MOMENTOS
Si Zi ® N (0,1) , la suma de sus cuadrados respectivos es la distribución que se llama Ley de
Distribución χ 2 con n grados de libertad (χn2 ):
æ
ö
è σi
ø
2
{Z i }in=1 ® N (0,1) Þ å Z i2 ® χn2 Þå ç Xi - µi ÷ ® χ n2
Si consideramos a
la v.a. Zi ® N (0,1), la
2
Distribución v.a. X=Z se distribuye
según
una Ley de 0,4
Chi-Cuadrado
Probabilidad distri( χ2)
bución χ2 con un gra0,3
do de libertad
i =1
i =1
E [X ] = n
--
----
-----
..- - - .- .
- - -- . - - -. - .- .-- - . ---
-3
.-
---
--
--
--
--
-1
--
-.
-
-2
.-
-- -----
--
.-
. .-. -. - --- .- --.--- - - - - - - - - -
-4
N(0,4)
-
--
. -.
.
.-
-.
-----
- .-
.
.-.. - ----.. - --. - --. ---. -- - - -. -
--
---
---
--
-
N(0,2)
.-.- .
-. -
---
0,1
--
---
-.
---
-
0,2
.
.-
Var[X ] = 2n
---
--
--
--
-
N(0,1)
2
0
n
--
( X ® χ ).
n
0
1
-.
--
2
---
-.
--
-.
-.
---
---
- .-
---
--
.- .
-.
- - - - - - - -- -. -- .---.
3
4
Distribución t de Student con n grados de
libertad (t n ):
Dada la v.a. T
T=
Es el cociente entre
la
distribuciónnormal
Distribución
y
la
raíz cuadrada de
t de Student
la distribución ChiCuadrado.
Z
1
n
2
n
® tn
, con n + 1 v.a. indep.
Cálculo de T
T=
X -µ
σ
1 n æ X i - µi ö
÷
åç
n i =1 çè σi ÷ø
2
® tn
Propiedades de la distribución
1) Es de media cero y simétrica con respecto a
la misma.
2) La varianza decrece hasta uno cuando el
número de grados de libertad aumenta.
3) Para un número alto de grados de libertad se
puede aproximar esta distribución a la Normal.
40
Estadística Aplicada
FUNCIONES DE DENSIDAD Y DISTRIBUCIÓN
---
--
-. -. -
. -. -
--
χ42
--
---
χ
---
----
-----
--------
------
- - - -- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
0
2
4
6
8
2
Función de densidad de χn para valores pequeños de n
0,4
t30 t¥ =N(0,1)
t3
--
--
-
--
--
--
---
- -- -
--
--
---
---
---
---
---
--
--
---
--
---
--
-
---
--
---
-- --- ----- --- --
- -- -- ----
----
0,1
--
0,2
t1
---
--
---
- -- - - - - - - - ----- - - ----- - - ----- - - ----- - - ---
----
0,3
0,0
--------------------------------
Distribución
t de Student
--
-------------
--- ---2
. . - .- - . - . . . .
. - . - . - . - - - - - - --- -- - - . - . - . - . - . .
.
.
---- - .- . .
.- - - .- . . 6
.
---.- - .- .
---.
---.----. -. --------
--
--
---
---
0,0
---
--
-
--
0,1
---
0,2
χ22
---
0,3
-- --- -
- --- -- -
---
- - --
------
--- -----------------------------------------------
-4
-2
0
2
Cuando aumentan los grados de libertad, la
distribución t de Student se aproxima a la
distribución normal tipificada.
Esta distribución
se
define como coDistribución
cientes entre distriF de Snedecor
2
buciones χ n
independientes.
MEDIDAS DE
SUS MOMENTOS
---
0,4
- - - - - - - - - - - - - - - - - - - - - - - - - ------------
0,5
--
CARACTERÍSTICAS
--
DISTRIBUCIONES
DISTRIBUCIONES PROBABILÍSTICAS CONTINUAS
--
Probabilidad
Di Paolo, Claudio Javier
4
1
X
mX
F=n =
® Fn ,m
1
n
Y
Y
m
Distribución de Probabilidad de Snedecor, con
(n,m) grados de libertad, de manera que:
Fn ,m ¹ Fm ,n
41
Estadística Aplicada
Probabilidad
DISTRIBUCIONES
Di Paolo, Claudio Javier
DISTRIBUCIONES PROBABILÍSTICAS CONTINUAS
CARACTERÍSTICAS
FUNCIONES DE DENSIDAD Y DISTRIBUCIÓN
--
0,8
---
--
--
--
--
- - .- . - - .-- .
--- .
- ---.
- -.
--
--
.-
- --.----.-- -. - -. - -.
- - - -- .- -- .---.---.- -.
- - - - -----. - -. -- .-- .
- - -- ----.----.-- .
- --- -. - -. -. -
--
--
-
--
-- .-
-
0.0
Distribución
F de Snedecor
.
0,0
.-
0,2
F10, 5
- .--. --. -. --. - -. --. - - -. - . - - - - -. -. - - - - - -
0,4
--- - - - -
--
F10, 20
.
- . - - .-
F10, 10
0,6
MEDIDAS DE
SUS MOMENTOS
0.5
1.0
1.5
--
- --- .---.- - -- . -- -. -- .- - - - - - - - - . - . - . -- -. - - - - - - - - - - - .- .- .- .
----2.0
2.5
3.0
Cuando tenemos n + m v.a. independientes
nos encontramos con el caso de una
Distribución F de Snedecor:
F=
1 n æ Xi - µi ö
÷
åç
n i =1 çè σi ÷ø
æXj1
ç
å
σ
m j =1 çè
j
m
µj
2
ö
÷
÷
ø
2
® Fn ,m
Propiedades de la distribución
Es una distribución asimétrica con densidad de
probabilidad distinta de cero.
F ® Fn ,m Û
1
® Fm ,n
F
42
Estadística Aplicada
Inferencia Estadística
Di Paolo, Claudio Javier
INTRODUCCIÓN
Como el propósito de la Estadística es obtener conclusiones a partir de
la naturaleza de una población, y dado a que hay poblaciones muy
grandes (difíciles de analizar en su plenitud), es necesario partir de
técnicas de muestreo, determinar un sub conjunto de la población
(muestra), lo más representativo posible, y a partir de él generalizar.
Los métodos de la inferencia estadística emplean razonamientos
inductivos, de lo general a lo particular y de lo observado a lo no
observado.
Es costumbre simbolizar las estadísticas con letras romanas y los
parámetros con letras griegas.
Estadística
poblacional
(Muestra)
Media aritmética
Variancia
S²
Desvío estándar
S
R
Coeficiente de correlación
Parámetro
poblacional
(Población)
m
s2
s
r
Para ello, definimos dos categorías dentro de la Inferencia Estadística:
La estimación: El estimador es la herramienta fundamental que
permite caracterizar, mediante propiedades, al "mejor estimador" para
un determinado parámetro de la población.
El Contraste de Hipótesis: A partir de plantear dos hipótesis, una
nula y la otra alternativa, su comparación determinará el acierto o el
error de la suposición inicial.
LOS ESTIMADORES
Se denomina estimador a la regla o método de estimar un valor a la
variable poblacional.
La estimación estadística es el proceso que conduce a la obtención y
análisis de los estimadores.
La estimación estadística se divide en:
1 Estimación puntual o de parámetros.
2 Estimación por intervalos.
ESTIMACIÓN PUNTUAL
Se expresa en función de la muestra aleatoria y tiene por objetivo
aproximar el valor Θi. El estimador no es un valor concreto, sino una
variable aleatoria, que aplicada a la muestra elegida, permite obtener un
valor numérico (estimación).
43
Estadística Aplicada
Inferencia Estadística
Di Paolo, Claudio Javier
Las características deseables para el estimador son:
Consistencia: a medida que la muestra crezca la estimación se aproxime
al parámetro desconocido.
Carencia de sesgo: El valor medio obtenido de la estimación de
diferentes muestras debe ser el valor del parámetro.
Eficiencia: El valor estimado sea lo más acercado al valor parámetro, en
términos de varianza, que su dispersión sea próxima a cero.
Suficiencia: El estimador debería aprovechar toda la información
existente en la muestra.
Estimador de máxima verosimilitud
La función de verosimilitud se obtiene a partir de la función de
densidad, intercambiando los papeles entre parámetro y estimador. En
una función de verosimilitud consideramos que las observaciones x1, . . . ,
xn, están fijadas, y se representa la gráfica con el valor de los valores que
tomaría la función de densidad para todos los posibles valores del
parámetro. El estimador máximo verosímil del parámetro buscado, θmv ,
es aquel que maximiza su función de verosimilitud, V(θ ).
Propiedades de los estimadores de máxima verosimilitud:
1 Son consistentes.
2 Invariantes ante transformaciones.
3 Suficiente
4 Asintóticamente normal y eficiente.
ESTIMACIÓN POR INTERVALOS
En esta estimación buscamos un intervalo que contenga, con cierto
grado de confiabilidad, al parámetro θ ; a este intervalo se lo llama
intervalo de confianza.
P[θˆ1 < θ < θˆ2 ]= 1- α
θˆ1 y θˆ2 Estadística de una muestra aleatoria y conforman los
límites inferior y superior
1- α
Grado de confianza
44
Estadística Aplicada
Inferencia Estadística
Di Paolo, Claudio Javier
De manera que tomando a α cercana a cero, el grado de confianza es
cercano a uno. En forma práctica, tomaremos a α = 0,05; de modo que
el grado de confianza es del 95%.
Si una población sigue una distribución normal de parámetros µ y σ ; y
las muestras son de tamaño n ³ 30, la media muestral sigue una
distribución: X ® N æµ , σ ö
ç
è
n ÷ø
Se trata de encontrar un valor k como muestra la figura:
µ−k
µ
µ+k
Buscaremos al valor k que deje en el intervalo (µ - k ; µ + k ) al (1− α ) .
100 % de la población.
Partiremos de la Normal tabulada Z ® N (0,1) si queremos que el
intervalo buscado contenga a la media muestral X , con (1− α ) de confianza; entonces el área fuera de la zona gris de la gráfica equivale a α, y
como la curva es simétrica, cada región (izquierda y derecha de la zona
gris) mide α . Surge la siguiente gráfica:
2
1−α
α
2
-z α
2
α
2
zα
2
Buscamos ahora, al valor z α que deje en el intervalo æç-z α ; z α ö÷
2
è 2 2ø
al (1− α ) de la población en la N (0,1).
Como en la Normal estándar se cumple que:
α
P æ Z ³ z α ö÷ =
çè
2
2ø
o bien que: P æZ £ zαö = 1- α
÷
çè
2
2ø
Debemos tipificar a la variable para trabajarla como Normal tipificada
N æµ , σ ö de modo que; k - µ = zα , despejando k, obtenemos el
çè
σ
n ÷ø
2
valor deseado:
n
k = µ + σ × zα
n 2
45
Estadística Aplicada
Inferencia Estadística
Di Paolo, Claudio Javier
Entonces, dado el nivel de significación α ó el de confianza 1- α , determinamos el intervalo de probabilidad para la media muestral que será:
æ
ö
σ
σ
× zα; µ+
× zα ÷
çµn 2
n 2ø
è
Ejemplo:
Determinar en una población N (0,1) , el valor que concentra el 75% de
la población en un intervalo simétrico respecto a la media.
Entonces:
1- α = 0,75; α = 0,25; por lo tanto: α = 0,125.
2
Ahora buscamos el valor z0,125 para poder dejar dentro del intervalo al
75% de la población.
0,75
0,125
-z0,125
0,125
z0,125
De modo que:
P( Z ³ z0,125 ) = 0,125 y P( Z ³ z0,125 ) = 0,875 ; entonces z0,125=1,15
Valor obtenido de la tabla.
Casos de una población normal
A) Intervalo para la media de una población normal con varianza
conocida
Sea X1, X2, X3, . . .,Xn , una muestra aleatoria de una población normal
con µ desconocida y σ2 conocida; y si la muestra tiene un tamaño n ³ 30,
o bien la distribución es normal, el intervalo de confianza con nivel de
confianza de 1- α (100%) queda constituido por:
æ
ö
çX - σ ×z ;X + σ ×z ÷
ç
n α2
n α2 ÷ø
è
Si σ es desconocida, se utiliza S en su lugar.
A σ se lo denomina Error típico o estándar.
n
B) Intervalo aproximado para la media de una población normal con
varianza desconocida y tamaño de muestra grande
46
Estadística Aplicada
Inferencia Estadística
Di Paolo, Claudio Javier
Sea X1, X2, X3, . . .,Xn ,una muestra aleatoria de una población normal con
µ y σ2 desconocidas y n ³ 30 (tomando como mayor o igual a 30 las observaciones de la muestra),entonces, la v.a. Z tiene una distribución aproximada normal estándar: Z = X - µ , a consecuencia del Teorema
S/ n
Central del Límite.
Luego, P éX - Z α S < µ < X + Z α S ù = 1− α ,determinan un
ë
2
n
2
nû
intervalo de confianza aproximado al 100% para µ .
C) Intervalo exacto para la media de una población normal con varianza
desconocida
Sea X1, X2, X3, . . .,Xn ,una muestra aleatoria de una población normal con
µ y σ2 desconocidas, tenemos que la variable aleatoria T = X - µ , en
S/ n
donde tiene una distribución t-student con n −1 grados de libertad, de
manera que podemos construir el intervalo de confianza para µ:
P éX - t α ,n-1 S < µ < X + tα ,n-1 S ù = 1− α, con grados de confianza
ë
2
2
n
nû
del 100%.
Error Máximo Admisible
Definimos así, a la diferencia en valor absoluto entre la media
poblacional y la muestral.
µ - X ; en donde µ - X = zα × σ2
n
2
Cálculo del Error Máximo Admisible
E = zα × σ
2
n
Las propiedades que cumple el error máximo admisible son:
1 E es menor cuanto más grande sea n(el tamaño de la muestra),
porque dividimos por n.
2 E es mayor al aumentar el nivel de confianza porque cuando crece
1-α , aumenta z α2 .
3 A partir del valor del Error Máximo Admisible podemos calcular el
tamaño de la muestra despejando en la fórmula y quedará así:
n = æç z α × σ ö÷
è 2 Eø
2
Ejercicio: Al medir un tiempo de reacción, un psicólogo sabe que la
desviación típica del mismo es 0,5 segundos. ¿Cuál es el número de
medidas que debería realizar para que con una confianza del 99%, el
error de estimación no exceda de 0,1 segundos?.
47
Estadística Aplicada
Inferencia Estadística
Di Paolo, Claudio Javier
D) Estimación de una proporción
Si estamos ante el caso de desconocer, en una población, la proporción p
de individuos que posean cierta característica para estudiar y deseamos
establecer el intervalo de confianza para p, con un nivel de confianza de
1-α ,en un tamaño de muestra n ³ 30, este intervalo resultaría:
æ
ç pˆ - z ×
è
pˆ × qˆ
, pˆ - z ×
n
pˆ × qˆ ö
÷
n ø
Diferencia entre intervalos de probabilidad y de confianza
En un intervalo de probabilidad lo que conocemos es la media y la
desviación típica poblacional, y damos el intervalo donde se encontrará
(para un cierto nivel de confianza) la media muestral o la proporción
muestral.
Sin embargo, en un intervalo de confianza entramos ya en el terreno de
la estimación, es decir NO conocemos la media poblacional (y en ocasiones tampoco la desviación típica poblacional) ni la proporción poblacional, sino que sólo conocemos, o podemos calcular, la media muestral o la
proporción muestral, y de lo que se trata es de dar un intervalo en el que
se encuentre la media poblacional (o la proporción poblacional).
El Contraste de Hipótesis o PRUEBA DE HIPÓTESIS
Una hipótesis estadística es una afirmación o conjetura con respecto a la
distribución de una o más variables aleatorias.
Tipos de Hipótesis
Hipótesis simple: Se refiere a un valor exacto que afirmamos o
conjeturamos sobre el parámetro de una distribución.
Ejemplo: Si tenemos una distribución binomial (n,p), la afirmación
p=0,25 es una hipótesis simple, pues asigna un único valor a la variable p.
Hipótesis compuesta: Se refiere a un conjunto de valores aproximado que afirmamos o conjeturamos sobre el parámetro de una
distribución.
Ejemplo: Si tenemos una distribución normal ( µ,σ 2 ), la afirmación µ>σ 2
es una hipótesis compuesta, pues no asigna un único valor a la variable µ,
sino un conjunto de valores posibles que puede tomar.
En general, hay dos hipótesis:
H0 : Hipótesis Nula
H1 : Hipótesis Alternativa
Como ambas hipótesis pueden ser simples o compuestas, surgen cuatro
diferentes tipos de contrastes.
48
Estadística Aplicada
Inferencia Estadística
Di Paolo, Claudio Javier
H0
H1
Simple
Simple
Simple
Compuesta
Compuesta
Simple
Compuesta
Compuesta
A un Contraste de Hipótesis lo definimos como la regla que nos permite
decidir si aceptamos la hipótesis nula o rechazamos la hipótesis
alternativa.
En esto que se llama Toma de Decisiones, podemos cometer errores,
que por supuesto pueden ser calculados; a saber:
Rechazar la H0(Nula)
Aceptar la H0(Nula)
H0 Verdadera
H0 Falsa
Error Tipo I con
probabilidad α
Decisión Correcta
Decisión Correcta
Error Tipo II con
probabilidad α
Se conoce como nivel de significancia a la probabilidad α de cometer el
Error Tipo I.
Contraste de hipótesis en una media de una población normal
Sea X1, X2, X3, . . .,Xn ,una muestra aleatoria de una población normal con
media desconocida (µ) y varianza (σ2) conocida, sabemos que:
X ~ N( µ,σ2 / n ) , y por lo tanto, X - µ ~ N (0,1)
σ2 / n
Queremos contrastar la hipótesis:
H0 : µ = µ0
H1 : µ = µ0
Cuando H0 es cierta, tenemos que:
- µ0
; Z, representa la distancia entre X (el estimador de µ) y
Z= X
σ/ n
su valor esperado µ0 ; por lo tanto, rechazamos H0 cuando la v.a. Z es
grande: Z ³ k ; en donde k es igual z α .
2
49
Estadística Aplicada
Di Paolo, Claudio Javier
Inferencia Estadística
En resumen, puede ocurrir que:
Prueba
De dos colas
De cola inferior
De cola superior
H0 : µ = µ0
H1 : µ < µ0
H0 : µ = µ0
H1 : µ > µ0
Z ³ -α
Z ³α
α
α
H0 : µ = µ0
H1 : µ = µ0
Hipótesis
Z ³α
2
Región de rechazo
α
Error Tipo I
I
Error Tipo II
I
æ z α + µ 0 - µ1 ö 2
σ
n ø
è
æ-zα + µ 0 - µ1 ö
2
σ
n ø
è
Donde
1- I
æ-zα + µ 0 - µ1 ö
2
σ
n ø
è
Donde
µ1 < µ0
I
æ z α + µ 0 - µ1 ö
2
σ
n ø
è
Donde
µ1 > µ0
µ1 = µ0
50
Estadística Aplicada
Actividades
ESTADÍSTICA DESCRIPTIVA
Di Paolo, Claudio Javier
"Hay clases de mentiras: las mentiras, las malditas mentiras y la
estadística". Estas notables palabras dichas por Benjamín Disraeli
(primer ministro británico en el Siglo XIX), representa la cínica visión
que de la estadística tienen muchas personas. Casi toda la gente está
situada en el extremo consumidor de las estadísticas, (extraído de
Estadística elemental. Lo esencial, 3º edición; Johnson - Kuby. Editorial
Thompson, 2007)
1 Calcule la media, mediana, moda, varianza y desviación estándar del
conjunto de datos: 4, 2, 0, 9, 4, 2, -1, 1, -4 y 2.
2 Pregunte a diez personas sus estaturas, registre los datos y calcule:
media, mediana, moda, varianza y desviación estándar.
3 Utilizando la calculadora genere 10 números al azar dentro del
intervalo [0, 1]. Registre los datos y calcule: media, mediana, moda,
varianza y desviación estándar.
4 Escriba sus últimas diez calificaciones y calcule: media, mediana,
moda, varianza y desviación estándar.
5 Calcule la media, mediana, moda, varianza y desviación estándar
aproximado del siguiente conjunto de datos agrupados. Grafique el
histograma.
Intervalo de clase Frecuencia
10 < x > 20
20 < x > 30
30 < x > 40
40 < x > 50
50 < x > 60
4
3
6
5
5
6 Calcule la media, mediana, moda, varianza y desviación estándar
aproximado del siguiente conjunto de datos agrupados. Grafique el
histograma.
Intervalo de clase Frecuencia
0<x> 5
5 < x > 10
10 < x > 15
15 < x > 20
25 < x > 30
30 < x > 55
35 < x > 40
12
23
10
14
6
10
5
7 En el siguiente conjunto de 50 datos, se proporcionan los pesos
(redondeados a kilogramos) de los bebés nacidos durante un
determinado intervalo de tiempo en un hospital:
51
Estadística Aplicada
Actividades
ESTADÍSTICA DESCRIPTIVA
Di Paolo, Claudio Javier
1,814 3,629 1,814 2,722 3,629 2,722 3,175 3,175 3,175 3,629 4,536
4,082 3,175 2,722 4,536 3,629 2,268 4,082 2,722 1,361 3,175 2,722
1,814 3,175 2,722 4,082 3,175 1,814 3,175 2,722 3,629 3,629 4,082
4,990 3,629 3,175 4,536 3,629 2,268 3,175 3,175 2,722 2,268 4,536
3,629 4,082 3,175 2,268 2,722 2,268.
a) Construir la Tabla de Distribución de Frecuencias por Datos
Agrupados.
b) Encontrar las frecuencias relativas.
c) Encontrar las frecuencias acumuladas.
d) Encontrar las frecuencias relativas acumuladas.
e) Dibujar el histograma.
f) ¿Por qué se ha utilizado un histograma para representar estos datos en
lugar de un diagrama de barras?
g) Calcular las medidas de tendencia central.
h) Calcular las medidas de dispersión.
i) Calcular las medidas de forma.
j) ¿Es esta una distribución sesgada? De ser así, ¿en qué dirección?
k) Encontrar el percentil 24. ¿Qué representa?.
8 El siguiente conjunto de datos representa el tiempo de reacción ante
un estímulo auditivo de 50 universitarios:
0,110 0,110 0,126 0,112 0,117 0,113 0,135 0,107 0,122 0,113 0,098
0,122 0,105 0,103 0,119 0,100 0,117 0,113 0,124 0,118 0,132 0,108
0,115 0,120 0,107 0,123 0,109 0,117 0,111 0,112 0,101 0,112 0,111
0,119 0,103 0,100 0,108 0,120 0,099 0,102 0,129 0,115 0,121 0,130
0,134 0,118 0,106 0,128 0,094 0,114.
a) ¿Cuál es la amplitud total de la distribución de los datos?
b) Obtenga la distribución de las frecuencias absolutas y relativas.
c) Obtenga la distribución de las frecuencias acumuladas, absolutas y
relativas.
d) Calcular la media y la varianza a partir de los datos agrupados y
calcular las mismas medidas a partir de los datos sin tratar. ¿De qué
forma resulta más preciso el cálculo?
e) Dibuje el polígono de frecuencias relativas.
f) Dibuje el polígono de frecuencias relativas acumuladas.
9 Con el fin de observar la relación entre la inteligencia y el nivel
socio-económico (medido por el salario mensual familiar) se tomaron
dos grupos, uno con el coeficiente intelectual inferior a 95 y otro formado por los demás; de cada sujeto se registró el salario familiar mensual.
Teniendo en cuenta los resultados que se indican en la siguiente tabla:
52
Estadística Aplicada
Actividades
ESTADÍSTICA DESCRIPTIVA
Di Paolo, Claudio Javier
Nivel socio-económico
(En cientos de pesos)
Intervalo de clase
Entre 4 y 10
Entre 10 y 16
Entre 16 y 22
Entre 22 y 28
Entre 28 y 34
Más de 34
Sujetos con
CI<95
Frecuencia
75
35
20
30
25
15
Sujetos con
CI>95
Frecuencia
19
26
25
30
54
46
a) Dibuje un gráfico que pueda comparar ambos grupos.
b) Calcule las medidas de tendencia central para los sujetos con CI < 95.
c) Calcule las medidas de dispersión para los sujetos con CI > 95.
10 Un estudio consistió en anotar el nº de palabras leídas en 15 segundos por un grupo de 120 sujetos disléxicos y 120 individuos normales:
Nºde palabras leídas
Grupo disléxico Grupo normal
Frecuencia
56
24
16
12
10
2
Aproximadamente 25
26
27
28
29
30 o más
Frecuencia
1
9
21
29
28
32
Calcular:
a) Las medias aritméticas de ambos grupos.
b) Las medianas de ambos grupos.
c) El porcentaje de sujetos disléxicos que superaron la mediana de los
normales.
d) Compare la variabilidad relativa de ambos grupos.
11 La siguiente tabla muestra la composición por edad, sexo y trabajo
de un grupo de personas que padecen tuberculosis pulmonar en una
población en el año 1979:
Edad
14-19
19-24
24-29
29-34
34-39
39-44
Trabajadores
No Trabajadores
Totales
Varón Mujer Total Varón Mujer Total Varón Mujer Total
2
10
32
47
38
22
1
4
10
12
8
4
3
14
42
59
46
26
25
20
15
13
10
7
40
36
50
34
25
18
65
56
65
47
35
25
27
30
47
60
48
29
41
40
60
46
33
22
68
70
107
106
81
51
53
Estadística Aplicada
Actividades
ESTADÍSTICA DESCRIPTIVA
Di Paolo, Claudio Javier
a) Representar gráficamente la distribución de frecuencias de los
trabajadores que padecen tuberculosis.
b) Representar gráficamente la distribución de frecuencias de los varones
no trabajadores que padecen tuberculosis.
c) Representar gráficamente la distribución de frecuencias del número
total de mujeres que padecen tuberculosis.
d) ¿Cuál es la edad en la que se observa con mayor frecuencia que no
trabajan los varones? ¿Y las mujeres? Determinar la edad más frecuente
(sin distinción de sexos ni ocupación).
e) ¿Por debajo de qué edad está el 50% de los varones?
f) ¿Por encima de qué edad se encuentra el 80% de las mujeres?
g) Obtener la media, mediana y desviación típica de la distribución de las
edades de la muestra total.
h) Estudiar la asimetría de las tres distribuciones.
12 En una epidemia de escarlatina, se ha recogido el número de
muertos en 40 ciudades de un país, obteniendo los siguientes resultados:
Nº de muertos 0 1 2 3 4 5 6 7
Ciudades
7 1110 7 1 2 1 1
a) Representar gráficamente los datos.
b) Obtener la distribución acumulada y representarla.
c) Calcular media, mediana y moda.
d) Calcular la varianza y la desviación típica.
e) Porcentaje de ciudades con al menos 2 muertos.
f) Porcentaje de ciudades con más de 3 muertos.
g) Porcentaje de ciudades con a lo sumo 5 muertos.
13 Un fabricante de medicamentos veterinarios, está interesado en la
proporción de animales que padecen infecciones locales, cuya condición
puede ser controlada por un nuevo producto desarrollado por la
empresa. Se condujo un estudio en el que participaron 5000 animales
que padecen infecciones locales y se encontró que en el 80% de los
animales se puede controlar la infección con el medicamento.
Suponiendo que los 5000 animales son representativos del grupo de
animales con infecciones locales, conteste las siguientes preguntas:
a) ¿Cuál es la población?
b) ¿Cuál es la muestra?
c) Identifique el parámetro de interés.
d) Identifique la estadística y proporcione su valor.
e) ¿Se conoce el valor del parámetro?
14 En los siguientes incisos, indique cuál es la variable en estudio y qué
clase de variable es:
a) Color de flores.
b) Razas de bovinos.
54
Estadística Aplicada
Actividades
ESTADÍSTICA DESCRIPTIVA
Di Paolo, Claudio Javier
c) Punto de fusión del manganeso.
d) Altura de tallo.
e) Salarios por hora.
f) Porcentaje de asistencia.
g) Número de pétalos de una flor.
h) Monto de las acciones vendidas.
15 Los alumnos de licenciatura en Economía Agraria de FAUBA realizaron un estudio de las cotizaciones del trigo en cinco campañas consecutivas. Los datos se presentan en la Tabla. Realizar con todos los datos:
Campaña
94-95
95-96
96-97
97-98
98-99
Junio
Julio
Agosto
Septiembre
Octubre
Noviembre
Diciembre
Enero
Febrero
Marzo
Abril
Mayo
Promedio
121.60
116.71
144.57
125.95
139.48
131.68
129.20
121.05
119.53
122.70
126.19
143.90
126.13
171.02
221.52
229.86
229.45
217.40
217.93
200.17
219.00
235.53
238.05
255.93
280.81
226.39
240.36
211.84
189.55
164.83
161.09
135.52
128.37
131.95
135.50
153.79
164.85
165.74
165.28
145.63
143.77
142.44
139.06
138.45
133.19
122.72
111.13
113.11
114.13
115.53
116.83
128.00
110.73
108.40
99.28
101.57
122.03
120.89
105.89
98.05
97.25
100.89
114.73
116.42
108.01
a) Un histograma de frecuencias.
b) Un gráfico de barras ordenado por mes utilizando valores promedio y
de dispersión.
16 Los siguientes datos representan el número de tomates rechazados
por día en un mercado mayorista. Los datos corresponden a 50 días
seleccionados aleatoriamente:
29
12
83
95
28
58
73
23
63
91
80
54
71
86
87
35
91
63
42
15
30
45
47
22
67
23
28
87
44
10
88
61
36
88
45
49
61
8
27
67
35
45
94
20
26
97
84
26
33
19
a) Construya una tabla de frecuencias con 10 clases.
b) Construya un histograma que corresponda a la tabla anterior.
c) ¿Qué valor de la variable es superado por el 50% de las
observaciones?
d) ¿Cuál es el valor de la variable que se presenta un mayor número de
veces?
e) Utilice todos los datos y la tabla de frecuencias para encontrar la
media, el desvío estándar y el coeficiente de variación de los números de
tomates que se rechazan.
55
Estadística Aplicada
Actividades
ESTADÍSTICA DESCRIPTIVA
Di Paolo, Claudio Javier
17 El cultivo de soja en nuestro país se encuentra en expansión. En la
provincia de Buenos Aires, el INTA determinó el rendimiento de 40
plantaciones (en toneladas/ha), obteniendo los siguientes resultados:
Rendimiento tn/ha Nºde campos
0-1
1-2
2-3
3-4
4-5
>5
2
9
10
13
5
1
a) Clasificar y definir la variable.
b) Identificar la unidad experimental, la muestra y la población en el
estudio.
c) Calcular el rendimiento promedio de soja.
d) ¿Cuál es el rendimiento más frecuente?
e) ¿Cuál es el valor de la variable superado por el 50 % de las
observaciones de los rendimientos?
f) Durante el mismo período, en el sur de Santa Fe, se registró un
rendimiento promedio de 3.3 tn/ha, con un desvío estándar de 0.62
tn/ha. ¿Cuál de las 2 producciones fue mayor y cuál más variable?
g) ¿Cuál es el rendimiento superado por el 90 % de los campos
muestreados?
18 El bicho taladro (Platypus mutatus), es una de las plagas más
importantes que afecta la calidad de la madera para uso comercial. Se
determinó la presencia de esa plaga según el número de orificios activos
que presentaban los fustes de álamos de una plantación comercial. Los
resultados fueron los siguientes:
Nº de orificios activos
Nº de fustes
0
12
1
38
2
3
28 16
4
13
5
11
6
9
7
7
8 9 o más
5 1
a) Clasificar y definir la variable.
b) Identificar la unidad experimental, la muestra y la población en el
estudio.
c) Se considera que la madera es apta para comercializarse si presenta, a
lo sumo, 2 orificios activos.
d) ¿Qué porcentaje de los árboles no podrán comercializarse?
e) ¿Cuál es el promedio de orificios en los álamos que pueden
comercializarse y cuál, en los que no pueden?
f) ¿En qué caso el número de orificios activos por fuste es más
homogéneo teniendo en cuenta las dos categorías definidas previamente
(comerciables y no comerciables)?
g) ¿Cuál es el número más frecuente de orificios activos por fuste?
56
Estadística Aplicada
Actividades
ESTADÍSTICA DESCRIPTIVA
Di Paolo, Claudio Javier
h) ¿Cuántos orificios activos por fuste poseen el 25 % de los álamos más
afectados?
i) Entre cuáles valores se encuentra al 80 % de las observaciones
centrales.
19 En una importante empresa láctea hay 600 empleados que cobran
$400, 500 que cobran $600, 100 que cobran $2200 y 5 socios que
perciben $100.000 cada uno. Calcular la media, mediana y la moda y
discutir cuál de estos 3 estadísticos de tendencia central estima mejor el
sueldo de los empleados de la empresa.
20 La tabla siguiente contiene la distribución de frecuencias de la
longitud de tallos de una especie de arbusto dominante del Monte
Pampeano.
Frecuencia
Porcentaje
acumulado
6
41
134
289
419
476
500
1.2
8.2
26.8
57.8
83.8
95.2
100.0
Largo (cm) Frecuencia Porcentaje acumulada
10-15
15-20
20-25
25-30
30-35
35-40
40-45
6
35
93
155
130
57
24
1.2
7.0
18.6
31.0
26.0
11.4
4.8
En base a esta tabla, responda las siguientes preguntas.
a) ¿Cuántos tallos fueron medidos en total?
b) ¿Qué tamaños de tallos es más frecuente encontrar?
c) Discuta la veracidad de la siguiente afirmación: "aproximadamente el
83% de los tallos miden menos de 35 cm".
d) Discuta y argumente la efectividad de una técnica mecánica para el
control de los arbustos (desarbustizado) en la cual, por motivos
operativos, la barra de corte trabaja a 40 cm del nivel del suelo.
21 Ambos histogramas representan la distribución de tamaños (D.A.P.:
diámetro a la altura del pecho) de una población de Prosopis caldenia
(caldén) localizada en Luan Toro, provincia de La Pampa.
57
Estadística Aplicada
Di Paolo, Claudio Javier
Actividades
(a) Histograma de frecuencias relativas
ESTADÍSTICA DESCRIPTIVA
Distribución de tamaños
Frecuencias relativas
0,50
0,25
0,00
0,00
16,00
32,00
48,00
64,00
80,00
DAP (cm)
(b) Histograma de frecuencias relativas acumuladas
Frecuencias relativas
1,00
Distribución de tamaños
0,75
0,50
0,25
0,00
0,00
16,00
32,00
48,00
64,00
80,00
DAP (cm)
En base a los mismos responda:
a) ¿Es la distribución unimodal? Justifique. ¿Cuál es el valor aproximado
de la o las moda/s?
b) ¿Qué porcentaje de fustes comerciables existe si el criterio es que
superen los 48 cm de diámetro?
c) ¿Qué porcentaje de individuos no superan los 16 cm de diámetro?
d) ¿Qué porcentaje aproximado de individuos se hallan dentro del rango
de 30 a 50 cm de diámetro?
58
Estadística Aplicada
Actividades
ESTADÍSTICA DESCRIPTIVA
Di Paolo, Claudio Javier
22 Los siguientes son datos de diámetro (en cm) a la altura del pecho
de ejemplares de Sauce llorón (Salix humboldtiana) creciendo en el delta
del río Paraná:
4,5
14,9
19,5
23,1
14,0
5,4
15,4
19,5
27,2
17,7
6,3 6,8
16,3 16,8
19,5 19,5
28,1 28,6
17,7.
7,7
16,8
20,8
24,9
12,7
16,8
20,8
23,6
12,7
16,8
21,3
11,8
12,7
18,1
21,3
12,2
13,1
18,1
21,3
10,4
13,1
18,1
22,7
16,3
14,9 14,9 14,9
18,6 18,6 19,0
22,7 23,1 23,1
16,3 14,5 14,5
Calcule los estadísticos de tendencia central, el desvío estándar, la
varianza y el coeficiente de variación, en forma agrupada y no agrupada.
Compare los resultados y exprese cual es más preciso. ¿Por qué?
23 Los siguientes datos corresponden a miligramos de glicina por
miligramo de creatinina en la orina de 37 chimpancés:
0,008
0,025
0,011
0,155
0,018
0,036
0,060
0,370
0,056
0,043
0,070
0,019
0,055 0,135 0,052 0,077 0,100 0,026 0,440 0,300
0,100 0,116 0,120 0,110 0,100 0,350 0,100 0,300
0,050 0,080 0,110 0,110 0,120 0,133 0,100 0,100
0,100.
Calcular la media aritmética, el desvío típico, la varianza y el coeficiente
de variación.
24 Las siguientes observaciones corresponden a 80 mediciones de la
emisión (en toneladas) de óxido de azufre de una planta industrial:
31.8;
22.7;
26.8;
19.1;
18.5;
14.4;
26.4;
9.8;
22.7;
15.2;
23.0;
29.6;
17.3;
6.2;
18.0;
22.9;
24.6;
19.4;
11.2;
14.7;
20.5;
26.6;
20.1;
17.0;
23.9;
26.1;
11.0;
20.4;
16.2;
20.8;
24.8;
12.8;
20.9;
21.4;
18.0;
24.3;
13.9;
17.6;
15.5;
19.2;
7.7;
22.5;
9.0;
28.6;
19.4;
21.6;
13.5;
24.6;
13.2;
23.7;
16.7;
16.9;
23.5;
18.4;
18.7;
17.5;
10.7;
19.0;
14.5;
18.1.
25.9;
15.9;
18.1;
9.4;
28.5;
10.5;
27.5;
17.9;
20.1;
24.1;
Realizar el estudio estadístico descriptivo y el análisis de normalidad.
25 En la siguiente tabla se presentan las muestras A y B. Observe que
son iguales, excepto que en lugar del 8 en la muestra A hay un 9 en la B.
A 2 4 5 5 7 8
B 2 4 5 5 7 9
¿Cuál es el efecto de cambiar el 8 por el 9 sobre cada uno de los
siguientes estadísticos?
a) Media b) Mediana c) Moda d) Rango e) Varianza
f) Desviación Estándar
59
Estadística Aplicada
Actividades
ESTADÍSTICA DESCRIPTIVA
Di Paolo, Claudio Javier
26 Se afirma que la adición de un nuevo acelerador disminuye el
tiempo de secada de pintura látex por más de 4%. Se efectuaron varias
muestras de prueba y se obtuvieron las siguientes disminuciones
porcentuales en el tiempo de secada:
5.2 6.4 3.8 6.3 4.1 2.8 3.2 4.7
a) Encuentre la media de la muestra.
b) Encuentre la desviación estándar.
c) ¿Considera usted que estos porcentajes promedian 4 o más? Explique
su repuesta.
27 Se supone que la gasolina bombeada de un gasoducto de suministro
tiene un octanaje nominal de 87.5. Durante 13 días consecutivos se tomó
una muestra que fue analizada y se encontraron los siguientes resultados:
88.6 86.4 87.2 88.4 87.2 87.6 86.8 86.1 87.4 87.3 86.4 86.6 87.1
a) Encuentre la media de la muestra.
b) Encuentre la desviación estándar.
c) ¿Considera usted que estos porcentajes parecen promediar 87.5?
Explique su repuesta.
28 El siguiente conjunto de datos proporciona las edades de 118
conocidos delincuentes que cometieron el robo de un automóvil el año
pasado en Garden City, Michigan.
11 14 15 15 16 16 17 18 19 21 25 36 12 14 15 15 16 16 17 18 19 21 25
39 13 14 15 15 16 17 17 18 20 22 26 43 13 14 15 15 16 17 17 18 20 22
26 46 13 14 15 16 16 17 17 18 20 22 27 50 13 14 15 16 16 17 17 19 20
23 27 54 13 14 15 16 16 17 18 19 20 23 29 59 13 15 15 16 16 17 18 19
20 23 30 67 14 15 15 16 16 17 18 19 21 24 31 14 15 15 16 16 17 18 19
21 24 34.
a) Encuentre la media.
b) Encuentre la mediana.
c) Encuentre la moda.
d) Encuentra el cuartil 1 y el 3.
e) Encuentre la desviación estándar.
f) Encuentra el percentil 10 y 95.
29 A continuación se presentan las longitudes (en mm.) de 100 truchas
cafés que estaban en el estanque 2-B de Happy Acres Fish Hatchery:
15.0 15.3 14.4 10.4 10.2 11.5 15.4 11.7 15.0 10.9 13.6 10.5 13.8 15.0 13.8
14.5 13.7 13.9 12.5 15.2 10.7 13.1 10.6 12.1 14.9 14.1 12.7 14.0 10.1 14.1
10.3 15.2 15.0 12.9 10.7 10.3 10.8 15.3 14.9 14.8 14.9 11.8 10.4 11.0 11.4
14.3 15.1 11.5 10.2 10.1 14.7 15.1 12.8 14.8 15.0 10.4 13.5 14.5 14.9 13.9
10.1 14.8 13.7 10.9 10.6 12.4 14.5 10.5 15.1 15.8 12.0 15.5 10.8 14.4 15.4
14.8 11.4 15.1 10.3 15.4 15.0 14.0 15.0 15.1 13.7 14.7 10.7 14.5 13.9 11.7
15.1 10.9 11.3 10.5 15.3 14.0 14.6 12.6 15.3 10.4.
60
Estadística Aplicada
Actividades
ESTADÍSTICA DESCRIPTIVA
Di Paolo, Claudio Javier
a) Construya la tabla de datos agrupados.
b) Grafique el histograma.
c) Calcule la media.
d) Calcule la mediana.
e) Calcule la moda.
f) Calcule el rango.
g) Calcule el cuartil 1 y el 3.
h) Calcule el cuartil medio.
i) Calcule el percentil 35 y 64.
j) Calcule la desviación estándar.
k) Calcule el percentil 10 y 95.
30 En el siguiente estudio, la media es 8,06 y la varianza es 11,9106:
01 - 03
03 - 04
05 - 07
07 - 09
09 - 11
11 - 13
13 - 15
15 - 17
2
4
6
8
5
3
2
1
Analizar la normalidad.
31 En una ciudad de la Provincia de Bs. As., la población masculina y
femenina se distribuye de la siguiente manera:
Grupo
0 a 9 años
10 a 19 años
20 a 29 años
30 a 39 años
40 a 49 años
50 a 59 años
60 a 69 años
Más de 70 años
Población
Masculina
Población
Femenina
52000
47000
31000
37000
31000
27000
20000
16000
53000
51000
36000
39000
31100
28000
21000
20000
a) Evaluar la relación entre ambas poblaciones.
b) ¿La regresión entre la población masculina y la femenina es lineal?
32 En una tarea de clasificación de patrones que constaba de 10
láminas se obtuvieron los siguientes datos de las diferencias de las
distancias logarítmicas del estímulo a clasificar con respecto a los
prototipos de las dos clases en que podía ser encuadrado y del número
de errores cometidos por los sujetos:
61
Estadística Aplicada
Actividades
ESTADÍSTICA DESCRIPTIVA
Di Paolo, Claudio Javier
Lámina
1
2
3
4
5
6
7
8
9
10
Diferencia 0,71 0,67 1,98 1,61 0,67 1,48 0,25 1,44 1,06 0,95
Nº errores 12 10
4
2
6
5
16
3
4
8
a) Calcule el coeficiente de correlación de Pearson e interprete el
resultado.
b) Determine la recta de regresión que permite predecir el número de
errores en función de la diferencia entre las distancias.
c) De acuerdo con el modelo anterior, indique cual tiene que ser la
diferencia para que no haya errores.
33 En el mismo trabajo del problema anterior, se calculó también la
diferencia de las distancias euclídeas del patrón a clasificar con respecto a
los prototipos de ambas clases, obteniéndose el siguiente resultado:
Lámina
1
2
3
4
5
6
7
8
9
10
Diferencia 9,98 9,97 9,93 9,92 9,99 9,99 9,93 9,93 9,97 8,00
Indique qué distancia le parece mas adecuada para expresar la dificultad
de la tarea y por qué.
34 Se ha medido la motivación ante el estudio a 38 sujetos, antes y
después de participar en un programa de innovación didáctica.
Obteniéndose los siguientes datos:
Sujeto
Pre-prueba
Post-prueba
Sujeto
Pre-prueba
Post-prueba
Sujeto
Pre-prueba
Post-prueba
1
55
65
14
38
48
27
54
68
2
49
53
15
56
48
28
56
61
3
37
57
16
58
64
29
66
55
4
40
51
17
38
67
30
48
56
5
50
66
18
46
48
31
46
58
6
45
60
19
57
61
32
60
65
7
35
51
20
45
59
33
55
68
8
38
53
21
58
69
34
57
58
9
28
62
22
57
64
35
51
49
10
56
57
23
62
69
36
43
66
11
41
58
24
63
62
37
56
62
12
44
51
25
46
60
38
52
65
13
44
48
26
60
61
a) Calcule la recta de regresión que permite predecir los resultados de la
post-prueba en función de las puntuaciones en la pre-prueba y
descomponga la varianza total de las puntuaciones en la post-prueba en
dos componentes.
b) Calcule para cada individuo la diferencia entre el valor pronosticado
por la recta obtenida en el apartado a y el valor observado.
c) Calcule la media y varianza de las diferencias obtenidas en el apartado
anterior y compare los resultados con lo obtenido en el apartado a.
d) Calcule la recta de regresión que permite deducir las puntuaciones en
la pre-prueba a partir del resultado obtenido por los sujetos en la postprueba.
62
Estadística Aplicada
Actividades
PROBABILIDAD
Di Paolo, Claudio Javier
1 Sean A y B dos sucesos aleatorios con:
p(A)= 3
8
p(B)= 1
2
p(A B)= 1
4
Hallar:
a) p(A B)
b) p( A )
c) p( B )
d) p(A B)
e) p(A B)
f) p(A B)
g) p(B A)
2 Sean A y B dos sucesos aleatorios con:
p(A)= 2
3
p(B)= 3
4
p(A B)= 1
4
Hallar:
a) p( A )
b) p( B )
c) p(A B)
d) p(B A)
3 La colección formada por el suceso A, el B, la unión de ambos, su
intersección, y su diferencia, más el suceso seguro y el suceso imposible,
no constituye un sigma-álgebra.
Para demostrarlo basta comprobar que se incumple una de las dos
condiciones. Por ejemplo, el suceso A incumple la segunda porque su
contrario no pertenece a la colección.
4 En una asignatura se ha decidido aprobar a aquellos que superen uno
de los dos parciales. Con este criterio aprobó el 80%, sabiendo que el
primer parcial lo superó el 60% y el segundo el 50% ¿Cuál hubiese sido
el porcentaje de aprobados, si se hubiese exigido superar ambos
parciales?
5 Se sacan dos bolas de una urna que se compone de una bola blanca,
otra roja, otra verde y otra negra. Escribir el espacio muestral cuando:
a) La primera bola se devuelve a la urna antes de sacar la segunda.
b) La primera bola no se devuelve.
6 Tenemos una urna con dos bolas blancas, tres verdes y cinco rojas.
Extraemos al azar dos bolas simultáneamente. Recibimos 200 pesetas si
las dos bolas son blancas, 100 si las dos son verdes y 10 si una es roja y
la otra verde, en los demás casos no recibimos nada.
¿Cuál es el valor esperado de los premios?
63
Estadística Aplicada
Actividades
PROBABILIDAD
Di Paolo, Claudio Javier
7 Una urna tiene ocho bolas rojas, 5 amarilla y siete verdes. Si se extrae
una bola al azar calcular la probabiliidad de:
a) Sea roja.
b) Sea verde.
c) Sea amarilla.
d) No sea roja.
e) No sea amarilla.
8 Una urna contiene tres bolas rojas y siete blancas. Se extraen dos
bolas al azar. Escribir el espacio muestral y hallar la probabilidad de los
sucesos:
a) Con reemplazamiento.
b) Sin reemplazamiento.
9 Se extrae una bola de una urna que contiene 4 bolas rojas, 5 blancas
y 6 negras, ¿cuál es la probabilidad de que la bola sea roja o blanca?
¿Cuál es la probabilidad de que no sea blanca?
10 La prevalencia de la diabetes es del 4%. La glucemia basal
diagnóstica correctamente el 95% de los diabéticos, pero da un 2% de
falsos positivos. Diagnosticada una persona ¿Cuál es la probabilidad de
que realmente sea diabética?
11 En una clase hay 10 alumnas rubias, 20 morenas, cinco alumnos
rubios y 10 morenos. Un día asisten 45 alumnos, encontrar la
probabilidad de que un alumno:
a) Sea hombre.
b) Sea mujer morena.
c) Sea hombre o mujer.
12 Un dado está trucado, de forma que las probabilidades de obtener
las distintas caras son proporcionales a los números de estas. Hallar:
a) La probabilidad de obtener el 6 en un lanzamiento.
b) La probabilidad de conseguir un número impar en un lanzamiento.
13 Se lanzan dos dados al aire y se anota la suma de los puntos
obtenidos. Se pide:
a) La probabilidad de que salga el 7.
b) La probabilidad de que el número obtenido sea par.
c) La probabilidad de que el número obtenido sea múltiplo de tres.
a) La probabilidad de que salga 6 en todos.
b) La probabilidad de que los puntos obtenidos sumen 7.
14 Se lanzan tres dados. Encontrar la probabilidad de que:
a) Salga 6 en todos.
b) Los puntos obtenidos sumen 7.
64
Estadística Aplicada
Actividades
PROBABILIDAD
Di Paolo, Claudio Javier
15 Hallar la probabilidad de que al levantar unas fichas de dominó se
obtenga un número de puntos mayor que 9 o que sea múltiplo de 4.
16 Busca la probabilidad de que al echar un dado al aire, salga:
a) Un número par.
b) Un múltiplo de tres.
c) Mayor que cuatro.
17 Hallar la probabilidad de que al lanzar al aire dos monedas, salgan:
a) Dos caras.
b) Dos cruces.
c) Una cara y una cruz.
18 En un sobre hay 20 papeletas, ocho llevan dibujado un coche las
restantes son blancas. Hallar la probabilidad de extraer al menos una
papeleta con el dibujo de un coche:
a) Si se saca una papeleta.
b) Si se extraen dos papeletas.
c) Si se extraen tres papeletas.
19 Los estudiantes A y B tienen respectivamente probabilidades 1/2 y
1/5 de suspender un examen. La probabilidad de que suspendan el
examen simultáneamente es de 1/10. Determinar la probabilidad de que
al menos uno de los dos estudiantes suspenda el examen.
20 Dos hermanos salen de caza. El primero mata un promedio de 2
piezas cada 5 disparos y el segundo una pieza cada 2 disparos. Si los dos
disparan al mismo tiempo a una misma pieza, ¿cuál es la probabilidad de
que la maten?
21 Un mecanismo eléctrico que contiene cuatro interruptores sólo
funciona cuando todos ellos están cerrados. En sentido probabilístico,
los interruptores son independientes en lo que se refiere al cierre o a la
apertura, y, para cada uno de ellos, la probabilidad de que no funcione es
0,1. Calcúlese la probabilidad de que no funcione el mecanismo en
conjunto, despreciando todas las causas que pueden hacer que el
mecanismo no funcione, excepto los propios interruptores.
22 En un almacén se tiene que despachar 60 pedidos, y se sabe que 5
de ellos son de una cierta mercancía A. Si se cumplimentan los 60
pedidos al azar, ¿cuál es la probabilidad de que el primero y el cuarto
pedido sean de la mercancía A y de que simultáneamente no lo sean el
segundo y el tercero? ¿Cuál es la probabilidad de que en los cuatro
primeros pedidos a cumplimentar haya al menos dos pedidos de la
mercancía A?.
65
Estadística Aplicada
Actividades
PROBABILIDAD
Di Paolo, Claudio Javier
23 Un lote de N objetos contiene k defectuosos, aunque la mayoría,
N-k, están en buenas condiciones. Si se eligen al azar n objetos, ¿cual es
la probabilidad de que los primeros c objetos (c < k) sean defectuosos y
el resto, n-c, no lo sean? ¿Cual es la probabilidad total de que, de los n
objetos elegidos al azar, c sean defectuosos?
24 ¿De cuántas maneras pueden sentarse 10 personas en un banco si
hay 4 sitios disponibles?
25 Las diagonales de un polígono se obtienen uniendo pares de
vértices no adyacentes.
a) Obtener el número de diagonales del cuadrado, el hexágono y el
octógono. Calcularlo para el caso general de un polígono de n lados.
b) ¿Existe algún polígono en el que el número de lados sea igual al de
diagonales?
26 ¿Cuántos números de 4 dígitos se pueden formar con las siguientes
cifras ?: 0,1, . . . ,9.
a) Permitiendo repeticiones.
b) Sin repeticiones.
c) Si el último dígito ha de ser 0 y no se permiten repeticiones.
27 Cuando se arrojan simultáneamente 4 monedas,
a) ¿Cuáles son los resultados posibles que se pueden obtener?
b) ¿Cuántos casos hay en que salgan 2 caras y 2 cruces?
28 Cuatro libros de matemáticas, seis de física y dos de química se
colocan en una estantería. Cuántas colocaciones distintas admiten si:
a) Los libros de cada materia han de estar juntos;
b) Sólo los de matemáticas tienen que estar juntos?
29 En una universidad se ha observado que el 60% de los estudiantes
que se matriculan lo hacen en una carrera de Ciencias, mientras que el
otro 40% lo hacen en carreras de Humanidades. Si un determinado día
se realizan 20 matrículas, calcular la probabilidad de que:
a) haya igual número de matrículas en Ciencias y en Humanidades;
b) el número de matrículas en Ciencias sea menor que en Humanidades;
c) haya al menos 8 matrículas en Ciencias;
d) no haya más de 12 matrículas en Ciencias.
e) Si las cinco primeras matrículas son de Humanidades, calcular la
probabilidad de que:
I. En total haya igual número de matrículas en Ciencias y en
Humanidades;
II. En total haya al menos 6 en Ciencias más que en Humanidades.
66
Estadística Aplicada
Actividades
PROBABILIDAD
Di Paolo, Claudio Javier
30 Si un estudiante responde al azar a un examen de 8 preguntas de
verdadero o falso ¿Cuál es la probabilidad de que acierte 4? ¿Cual es la
probabilidad de que acierte dos o menos?
¿Cuál es la probabilidad de que acierte cinco o más? ¿Cuanto valen la
media y la varianza del número de preguntas acertadas?
31 En una población en la que hay un 40% de hombres y un 60% de
mujeres seleccionamos 4 individuos ¿Cual es la probabilidad de que haya
2 hombres y 2 mujeres? ¿Cual es la probabilidad de que haya más
mujeres que hombres?
32 Sabiendo que la variable Z sigue una distribución Normal cero,
uno, calcule las siguientes Probabilidades:
P(Z< 0,93) P(Z< 1,68) P(Z< -2,27) P(Z< -0,27)
P(Z > 0,62) P(Z > 2,05) P(Z > -1,07) P(Z > -3,39)
P(0,56 < Z< 2,80) P(-2,81 < Z< -0,33) P(-0,85 < Z< 0,72)
33 Siendo Z una N(0,1), calcule los valores de la variable que verifican
las siguientes condiciones:
P(Z< z) = 0,70
P(Z< z) = 0,90 P(Z< z) = 0,35
P(Z< z) = 0,05
P(Z > z) = 0,25 P(Z > z) = 0,05 P(Z > z) = 0,85 P(Z > z) = 0,69
P(-z < Z< z) = 0,90 P(-z < Z< z) = 0,60
34 Partiendo de que X es una variable que sigue una distribución
Normal de media 50 y desviación típica 4, calcule las siguientes
probabilidades:
P(X< 55)
P(X< 59)
P(X< 47,5)
P(X< 45,6)
P(X > 60,4) P(X > 58,64) P(X > 48,2)
P(X > 46,26)
P(52 < X< 54) P(44,5 < X< 49) P(47,25 < X< 53,48)
35 Las calificaciones en un examen siguen una distribución Normal de
media 5,6 y desviación típica 0,8.
a) ¿Qué proporción de alumnos tendrá notas inferiores o iguales a 4?
b) ¿Qué proporción de alumnos aprobará?
c) ¿Qué proporción de alumnos obtendrá Notable o Sobresaliente?
36 Las puntuaciones en un test de ansiedad-rasgo siguen, en una
población de mujeres, una distribución Normal de media 25 y desviación
Típica 10. Si queremos clasificar la población en cuatro grupos de igual
tamaño ¿Cuales serán las puntuaciones que delimiten estos grupos?
37 Una prueba consta de 200 preguntas de verdadero o falso, para un
sujeto que respondiese al azar ¿Cual sería la probabilidad de que
acertase?
a) 50 preguntas o menos.
b) Más de 50 y menos de 100.
c) Más de 120 preguntas.
67
Estadística Aplicada
Actividades
INFERENCIA ESTADÍSTICA
Di Paolo, Claudio Javier
PRUEBA DE HIPÓTESIS
1 Las mediciones del número de cigarrillos fumados al día por un
grupo de diez fumadores es el siguiente: 5, 10, 3, 4, 5, 8, 20, 4, 1, 10.
Realice la prueba de hipótesis H0 : µ=10 vs. H1 : µ<10, suponiendo que
los datos provienen de una muestra tomada al azar por una población
normal.
2 Se cree que la estatura promedio de los mexicanos es de 1.70 me-tros
de estatura. Lleve a cabo la prueba de hipótesis H0 : µ=70 vs.
H1 : µ=70, con el siguiente conjunto de datos: 1.65, 1.75, 1.63, 1.81,
1.74, 1.59, 1.73, 1.66, 1.66, 1.83, 1.77, 1.74, 1.64, 1.69, 1.72, 1.66, 1.55,
1.60, 1.62.
3 En cierto barrio se quiere hacer un estudio para conocer mejor el tipo
de actividades de ocio que gustan más a sus habitantes. Para ello van a
ser encuestados 100 individuos elegidos al azar.
a) Explicar qué procedimiento de selección sería más adecuado utilizar:
muestreo con o sin reposición. ¿Por qué?
b) Como los gustos cambian con la edad y se sabe que en el barrio viven
2.500 niños, 7.000 adultos y 500 ancianos, posteriormente se decide
elegir la muestra anterior utilizando un muestreo estratificado.
Determinar el tamaño muestral correspondiente a cada estrato.
4 Sea la población de elementos: {22, 24, 26}.
a) Escriba todas las muestras posibles de tamaño dos, escogidas
mediante muestreo aleatorio simple.
b) Calcule la varianza de la población.
c) Calcule la varianza de las medias muestrales.
5 La variable altura de las alumnas que estudian en una escuela de
idiomas sigue una distribución normal de media 1,62 m y la desviación
típica 0,12 m. ¿Cuál es la probabilidad de que la media de una muestra
aleatoria de 100 alumnas sea mayor que 1.60 m?
6 Se ha tomado una muestra de los precios de un mismo producto
alimenticio en 16 comercios, elegidos al azar en un barrio de una ciudad,
y se han encontrado los siguientes precios:
95, 108, 97, 112, 99, 106, 105, 100, 99, 98, 104, 110, 107, 111, 103, 110.
Suponiendo que los precios de este producto se distribuyen según una
ley normal de varianza 25 y media desconocida:
a) ¿Cuál es la distribución de la media muestral?
b) Determine el intervalo de confianza,al 95%,para la media poblacional.
68
Estadística Aplicada
Actividades
INFERENCIA ESTADÍSTICA
Di Paolo, Claudio Javier
7 La media de las estaturas de una muestra aleatoria de 400 personas
de una ciudad es 1,75 m. Se sabe que la estatura de las personas de esa
ciudad es una variable aleatoria que sigue una distribución normal con
varianza σ2 = 0,16 m2.
Construye un intervalo, de un 95% de confianza, para la media de las
estaturas de la población.
8 ¿Cuál sería el mínimo tamaño muestral necesario para que pueda
decirse que la verdadera media de las estaturas está a menos de 2 cm de
la media muestral, con un nivel de confianza del 90%?
9 Las ventas mensuales de una tienda de electrodomésticos se
distribuyen según una ley normal, con desviación típica 900 €. En un
estudio estadístico de las ventas realizadas en los últimos nueve meses, se
ha encontrado un intervalo de confianza para la media mensual de las
ventas, cuyos extremos son 4.663 € y 5.839 €.
a) ¿Cuál ha sido la media de las ventas en estos nueve meses?
b) ¿Cuál es el nivel de confianza para este intervalo?
10 Se desea estimar la proporción, p, de individuos daltónicos de una
población a través del porcentaje observado en una muestra aleatoria de
individuos, de tamaño n.
a) Si el porcentaje de individuos daltónicos en la muestra es igual al 30%,
calcula el valor de n para que, con un nivel de confianza de 0,95, el error
cometido en la estimación sea inferior al 3,1%.
b) Si el tamaño de la muestra es de 64 individuos, y el porcentaje de
individuos daltónicos en la muestra es del 35%, determina, usando un
nivel de significación del 1%, el correspondiente intervalo de confianza
para la proporción de daltónicos de la población.
11 En una población una variable aleatoria sigue una ley normal de
media desconocida y desviación típica 2.
a) Observada una muestra de tamaño 400, tomada al azar, se ha
obtenido una media muestra al igual a 50. ¿Calcule un intervalo, con el
97 % de confianza, para la media de la población.
b) Con el mismo nivel de confianza, ¿qué tamaño mínimo debe tener la
muestra para qué la amplitud del intervalo sea, como máximo, 1?
12 Una marca de nueces afirma que, como máximo, el 6% de las nueces están vacías. Se eligieron 300 nueces al azar y se detectaron 21 vacías.
a) Con un nivel de significación del 1%, ¿se puede aceptar la afirmación
de la marca?
b) Si se mantiene el porcentaje muestral de nueces que están vacías y
1-α = 0.95, ¿qué tamaño muestral se necesitaría para estimar la proporción de nueces con un error menor del 1% por ciento?
69
Estadística Aplicada
Actividades
INFERENCIA ESTADÍSTICA
Di Paolo, Claudio Javier
13 La duración de la bombilla de 100 W que fabrica una empresa,
sigue una distribución normal con una desviación típica de 120 horas de
duración. Su vida media está garantizada durante un mínimo de 800
horas. Se escoge al azar una muestra de 50 bombillas de un lote y,
después de comprobarlas, se obtiene una vida media de 750 horas. Con
un nivel de significación de 0,01; ¿habría que rechazar el lote por no
cumplir la garantía?
14 Los siguientes datos corresponden a la longitud medida en
centímetros de 18 pedazos de cable sobrantes en cada rollo utilizado: 9;
3,41; 6,13; 1,99; 6,92; 3,12; 7,86; 2,01; 5,98; 4,15; 6,87; 1,97; 4,01;
3,56; 8,04; 3,24; 5,05 y 7,37. Basados en estos datos ¿podemos decir
que la longitud media de los pedazos de cable es mayor de 4 cm?.
Suponga población normal y tome el nivel de significancia 0,05. La
proposición cuya validez o invalidez queremos probar es "la longitud
promedio de los pedazos de cable es como mucho 4 cm."
15 Un agrónomo mide el contenido promedio de humedad en cierta
variedad de trigo que fue secado especialmente en una muestra de 16
toneladas: 7,2; 6,8; 7,3; 7; 7,3; 7,3; 7,5; 7,3; 7,4; 7,2; 7,6; 7,1; 7,4;
6,7; 7,4 y 6,9. Si el promedio de humedad excede de 7,1 el secado debe
continuar. ¿Debería continuarse con el proceso de secado, de acuerdo
con esta evidencia? Tome un nivel de significancia del 5%.
16 Al medir el diámetro transversal del corazón de los adultos del sexo
masculino y femenino se obtuvieron los siguientes resultados:
Grupo Tamaño de muestra Media muestral (cm) S en cm
Hombres
12
13,21
1,05
Mujeres
9
11
1,01
Suponga que las varianzas de las dos poblaciones son iguales.
¿Proporcionan estos datos suficiente evidencia que indique que el
diámetro transversal promedio del corazón de los hombres es igual al de
las mujeres? Tome un nivel de significancia del 5%.
17 10 personas fueron sometidas a un test antes y después de recibir
cierta instrucción los resultados fueron como sigue:
Individuo 1 2 3 4 5 6 7 8 9 10
Antes
70 84 88 110 105 100 110 67 79 86
Después 115 148 176 191 158 178 179 140 161 157
¿Proporcionan estos datos evidencia suficiente para decir que la
instrucción fue efectiva? Tome un nivel de significancia del 1%.
70
Estadística Aplicada
Actividades
INFERENCIA ESTADÍSTICA
Di Paolo, Claudio Javier
18 Se comparó la eficacia de dos tipos de aceite para evitar el desgaste
en unas piezas. En 13 piezas se utilizó el aceite 1 y en otras 13 el aceite 2.
Las varianzas muestrales fueron 64 y 16 respectivamente. Pruebe la
hipótesis nula según la cual la varianza de las dos poblaciones son
iguales. Tome un nivel de significancia del 5%.
19 Una muestra de 100 empleados que habían estado en contacto con
sangre o derivados de ésta, fue examinada por presentar evidencia
serológica de hepatitis B. Se encontró que 23 de ellos presentaron
reacción positiva. ¿Puede concluirse a partir de estos datos que la
proporción de los positivos es mayor de 0,15? Tome un nivel de
significancia del 5%.
PROBLEMAS DE ESTIMACIÓN PUNTUAL
20 Los siguientes datos corresponden a los pesos (en kilogramos) de
15 hombres escogidos al azar y que trabajan en una empresa:
72, 68, 63, 75, 84, 91, 66, 75, 86, 90, 62, 87, 77, 70, 69.
Estime el peso promedio, su error, y la desviación estándar.
21 Entre los miembros de una comunidad se escogieron 150 personas
al azar y se les preguntó si estaban de acuerdo con los programas que el
gobierno estaba desarrollando para prevenir el consumo de drogas; la
encuesta dió como resultado que 130 sí estaban de acuerdo. Estime la
proporción de los que estaban de acuerdo y el error estándar.
22 De las 50 aulas que tiene un edificio de la facultad de matemáticas
se escogieron al azar 5 y se determinó el número de alumnos que había
en cada una de ellas en la primera hora de clases. Estime el número de
alumnos que hay en el edificio si todas las aulas se encuentran ocupadas
a esa hora, y si el número de alumnos en cada una de las aulas inspeccionadas fue: 24, 35, 16, 30, 28.
, estime el error del número total de estudiantes.
23 Teniendo en cuenta los datos del problema 23, estime el error del
peso promedio.
24 Teniendo en cuenta los datos del problema 25, estime el error del
número total de estudiantes.
71
Estadística Aplicada
Actividades
INFERENCIA ESTADÍSTICA
Di Paolo, Claudio Javier
PROBLEMAS DE ESTIMACIÓN POR INTERVALOS
25 Una muestra aleatoria de 36 cigarrillos de una marca determinada
dio un contenido promedio de nicotina de 3 miligramos. Suponga que el
contenido de nicotina de estos cigarrillos sigue una distribución normal
con una desviación estándar de 1 miligramo.
26 Obtenga e interprete un intervalo de confianza del 95% para el
verdadero contenido promedio de nicotina en estos cigarrillos.
27 El fabricante garantiza que el contenido promedio de nicotina es de
2,9 miligramos, ¿qué puede decirse de acuerdo con el intervalo hallado?
28 El tiempo (en minutos) que tardaron 15 operarios para
familiarizarse con el manejo de una máquina moderna adquirida por la
empresa fue: 3,4; 2,8; 4,4; 2,5; 3,3; 4; 4,8; 2,9; 5,6; 5,2; 3,7; 3; 3,6;
2,8 y 4,8. Suponga que los tiempos se distribuyen normalmente.
a) Determine e interprete un intervalo del 95% de confianza para el
verdadero tiempo promedio
b) El instructor considera que el tiempo promedio requerido por la
población de trabajadores que recibe instrucción sobre esta máquina es
superior a 5 minutos, ¿qué se puede decir de acuerdo con el intervalo
hallado?
29 Se desea medir la diferencia entre dos categorías de empleados en la
actividad de seguros. Una está formada por personas con título superior
y la otra por personas que sólo tienen estudios secundarios. Tomamos
una muestra de 45 empleados entre los primeros y la media de ventas
resulta ser 32. Tomamos 60 empleados del segundo grupo y la media es
25. Suponga que las ventas de los dos grupos se distribuyen normalmente con varianzas de 48 para los titulados superiores y 56 para los de
estudios secundarios.
a) Calcule e interprete un intervalo del 90% de confianza para la
verdadera diferencia de las medias.
b) De acuerdo con el intervalo hallado, ¿hay evidencia de que las medias
sean iguales?
30 Se registraron los siguientes datos, en minutos, que tardan algunos
hombres y mujeres en realizar cierta actividad en una empresa, los cuales
fueron seleccionados aleatoriamente.
HOMBRES
n1=14
Media=17
Varianza=1,5
MUJERES
n2=25
Media=19
Varianza=1,8
72
Estadística Aplicada
Actividades
INFERENCIA ESTADÍSTICA
Di Paolo, Claudio Javier
Suponga que los tiempos para los dos grupos se distribuyen
normalmente y que las varianzas son iguales, aunque desconocidas.
a) Calcule e interprete un intervalo de confianza del 99% para la
verdadera diferencia de medias.
b) De acuerdo con el intervalo hallado, ¿hay evidencia de que los dos
tiempos promedio son iguales?
31 Una fábrica desea saber la proporción de amas de casa que preferirían una aspiradora de su marca. Se toma al azar una muestra de 100
amas de casa y 20 dicen que les gustaría la máquina. Calcule e interprete
un intervalo del 95% de confianza para la verdadera proporción de amas
de casa que preferirían dicha aspiradora.
32 Se está considerando cambiar el procedimiento de manufactura de
partes. Se toman muestras del procedimiento actual así como del nuevo
para determinar si este último resulta mejor. Si 75 de 1.000 artículos del
procedimiento actual presentaron defectos y lo mismo sucedió con 80
de 2.500 partes del nuevo, determine un intervalo de confianza del 90%
para la verdadera diferencia de proporciones de partes defectuosas.
33 Un fabricante de baterías para automóvil asegura que las baterías
que produce duran en promedio 2 años con una desviación estándar de
0,5 años. Si cinco de estas baterías tienen duración 1,5; 2,5; 2,9; 3,2 y 4
años, determine un intervalo del 95% para la varianza e indique si es
cierta la afirmación del fabricante.
34 En una muestra de 1000 nacimientos el número de varones ha sido
542 ¿Puede considerarse, con un nivel de significación del 10%, que en
general nacen más niños que niñas?
35 Los tiempos de reacción, en mili segundos, de 17 sujetos frente a
una matriz de 15 estímulos fueron los siguientes: 448, 460, 514, 488, 592,
490, 507, 513, 492, 534, 523, 452, 464, 562, 584, 507, 461.
Suponiendo que el tiempo de reacción se distribuye Normalmente,
determine un intervalo de confianza para la media a un nivel de
confianza del 95%.
73
Estadística Aplicada
Bibliografía
Di Paolo, Claudio Javier
Francisca Rius Díaz y Francisco Javier Barón López. Bioestadística.
Editorial Thomson. Madrid, España. 2005.
Jesús Esteban García, José M. Bachero Nebot, Olga Ma. Blasco Blasco
y otros. Estadística Descriptiva y nociones de Probabilidad. Editorial Thomson.
Madrid, España. 2005.
Robert Jonson y Patricia Kuby. Estadística Elemental. Lo esencial. Tercera
Edición. Editorial Thomson. México. 2004.
J. G. Kalbfleisch. Probabilidad e inferencia estadística 1. Editorial AC. 1984.
George C. Canavos. Probabilidad y Estadística. Aplicaciones y Métodos.
Editorial Mc Graw-Hill. México. 1988.
Dooglas A. Skoog, Donald M. West. F. James Holler. Stanley R.
Crouch. Fundamentos de Química Analítica. Octava Edición. Editorial
Thomson. Madrid, España. 2005.
Antonio Jara Sánchez-Caro. Estadística. Enero de 2003.
NAVAL EDUCATION AND TRAINING PROFESSIONAL
DEVELOPMENT AND TECHNOLOGY CENTER. Mathematics,
Introduction to Statistics, Number Systems and Boolean Algebra. Edición Agosto
1986. http://courses.cnet.navy.mil
Documentos pdf consultados (teoría y práctica):
Capítulo 7. Inferencia estadística: estimación de parámetros. 15/03/2004.
Raúl Mestas Argüelles. Métodos estadísticos de la Ingeniería. E.U.I.T.I.G.
2003/2004.
Capítulo IV. Inferencia Estadística.
N. Guarín S. Estadística Aplicada. Universidad Nacional de Colombia.
Medellín. Septiembre de 2002.
http://tifon.unalmed.edu.co/~pagudel/estadistica.html
Pedro Cuesta Álvaro. Introducción Técnicas Estadísticas aplicadas a Ciencias
de la Salud. Apoyo a Investigación Servicios Informáticos UCM.
José A. Mayor Gallego. Estadística Descriptiva. Tema 6. Regresión y
Correlación. Departamento de Estadística e Investigación Operativa.
Universidad de Sevilla. 2004-2005.
Di Rienzo, Julio A.; Casanoves, Fernando; González, Laura y otros.
Estadística para las Ciencias Agropecuarias. Cuarta Edición. Córdoba,
Argentina. 2001.
Yolanda Gallardo de Parada; Aurora Inés Gáfaro Rojas; Sandra P.
Valero Ortega. Estadística Básica. Universidad de Pamplona.
Luis Ruiz Maya-Pérez; Javier Martín Pliego. Fundamentos de Inferencia
Estadística. Editorial AC. Madrid, España. Julio de 1999.
José M. Casas Sánchez. Inferencia Estadística para Economía y
Administración de Empresas. Editorial Centro de Estudios Ramón Areces,
S.A.
Alejandro García del Valle. Apuntes de Estadística. Ferrol. 1 de
Septiembre de 1995.
L. A. Rincón. Manual de Probabilidad y Estadística para Computación.
Notas preliminares y ejercicios. Departamento de Matemática. UNAM. 2003.
74
Estadística Aplicada
Bibliografía
Di Paolo, Claudio Javier
J. C. Miller y J. N. Miller. Estadística para Química Analítica. Segunda
Edición. Editorial Addison-Wesley; Iberoamericana. Estados Unidos.
1993.
Juan José Salazar González Marta López Yurda. Ejercicios Resueltos de
Probabilidad. Tenerife, 14 de Agosto de 2001.
José M. Salinas. Problemas de Análisis de Datos.
Algunas de las actividades fueron extraídas de:
http://www.matematicasypoesia.com.es
http://www.vitutor.com
75
Descargar