Subido por Jona Herrán

Apuntes

Anuncio
TP1: Análisis Exploratorio unidimensional
La Estadística es la ciencia que se encarga de obtener, describir e
interpretar los datos. El empleo cuidadoso de los métodos estadísticos
incluye: (1) definir cuidadosamente una situación, (2) obtener los datos, (3)
resumir con precisión los datos y (4) obtener y comunicar las conclusiones
importantes.
El campo de la estadística puede subdividirse a grandes rasgos en dos áreas:
estadística descriptiva y estadística inferencial. La estadística descriptiva o
Análisis Exploratorio de Datos incluye la obtención, presentación y
descripción de los datos muestrales a través de gráficos y métodos
numéricos, es lo que piensa la mayoría de las personas al escuchar la
palabra estadística. La estadística inferencial se refiere a la técnica de
interpretación de los valores resultantes de las técnicas descriptivas y la
toma de decisiones, así como a la obtención de conclusiones relativas a la
población.
Un objetivo típico de la estadística es describir “la población” con base en
información obtenida mediante la observación de relativamente pocos
elementos individuales: la muestra. Una muestra es una determinada
cantidad de unidades (ítems, individuos, objetos, etc.) de los que se extrae
información y que son retirados de un conjunto más grande, al que
denominaremos población. Es necesario aprender cómo clasificar las
generalizaciones contenidas en las pistas proporcionadas por los datos de
la muestra y esbozar una representación de la población. Se estudia la
muestra, pero el interés principal lo constituye la población.
Surgen así, los dos primeros conceptos que un investigador debe identificar:
 POBLACIÓN: es el conjunto de individuos, objetos o eventos cuyas
propiedades serán analizadas. Este conjunto representa TODAS las
medidas de interés del investigador. Se considera que está bien
definida sólo cuando se especifica la lista de elementos que
pertenecen a ella. Por ejemplo: “todos los estudiantes que han
asistido alguna vez a una universidad argentina”. Es importante
escribir “el conjunto de TODOS” O “todos/as los/las…”
Cuando se puede enumerar físicamente a todos los elementos que
componen a una población se dice que la población es finita (“todos
los libros de una biblioteca universitaria”). Cuando los elementos son
ilimitados, se dice que la población es infinita (“todos los granos de
arena en el mar”). La población puede designar: un conjunto de
objetos acerca de los cuales se pretende determinar ciertas
propiedades, hablamos de población de unidades; el conjunto de las
medidas (valores observados de esas propiedades o características
que serán denominadas variables) efectuadas sobre esos objetos,
hablamos de población estadística.
"𝑡𝑜𝑑𝑜𝑠 𝑙𝑜𝑠 𝑝𝑎𝑛𝑎𝑑𝑒𝑟𝑜𝑠 𝑎𝑟𝑔𝑒𝑛𝑡𝑖𝑛𝑜𝑠" → 𝑝𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛 𝑑𝑒 𝑢𝑛𝑖𝑑𝑎𝑑𝑒𝑠
"𝑒𝑑𝑎𝑑 𝑗𝑢𝑏𝑖𝑙𝑎𝑡𝑜𝑟𝑖𝑎 𝑑𝑒 𝑡𝑜𝑑𝑜𝑠 𝑙𝑜𝑠 𝑝𝑎𝑛𝑎𝑑𝑒𝑟𝑜𝑠 𝑎𝑟𝑔𝑒𝑛𝑡𝑖𝑛𝑜𝑠"
→ 𝑝𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛 𝑒𝑠𝑡𝑎𝑑í𝑠𝑡𝑖𝑐𝑎
 MUESTRA: Es un subconjunto de medidas extraídas de la población
de interés. La terminología es análoga a la anterior: si especifica un
conjunto de objetos acerca de los cuales se pretende determinar
ciertas propiedades, hablamos de muestra de unidades; si especifica
el conjunto de las medidas (valores observados de esas propiedades
o característica que serán denominadas variables) efectuadas sobre
esos objetos, hablamos de muestra estadística.
"65 𝑝𝑎𝑛𝑎𝑑𝑒𝑟𝑜𝑠 𝑑𝑒 𝑙𝑎 𝑐𝑖𝑢𝑑𝑎𝑑 𝑑𝑒 𝑆𝑎𝑛𝑡𝑎 𝑅𝑜𝑠𝑎" → 𝑚𝑢𝑒𝑠𝑡𝑟𝑎 𝑑𝑒 𝑢𝑛𝑖𝑑𝑎𝑑𝑒𝑠
"𝑒𝑑𝑎𝑑 𝑗𝑢𝑏𝑖𝑙𝑎𝑡𝑜𝑟𝑖𝑎 𝑑𝑒 65 𝑝𝑎𝑛𝑎𝑑𝑒𝑟𝑜𝑠 𝑑𝑒 𝑙𝑎 𝑐𝑖𝑢𝑑𝑎𝑑 𝑑𝑒 𝑆𝑎𝑛𝑡𝑎 𝑅𝑜𝑠𝑎"
→ 𝑚𝑢𝑒𝑠𝑡𝑟𝑎 𝑒𝑠𝑡𝑎𝑑í𝑠𝑡𝑖𝑐𝑎
 UNIDAD EXPERIMENTAL: el objeto medido, un elemento individual
de la muestra, y por lo tanto de la población. Es importante
mencionar “un/una” y escribir todos los atributos de ese objeto: “un
paciente diabético de 23 años de edad de la localidad de Villa Celina
que trabaja en el mercado central”
La variable es una característica de interés sobre cada elemento
individual de una población o muestra. Es decir que se define sobre la
unidad experimental. Hay dos clases de variables: 1) cualitativas,
clasifican o describen un elemento de la población, contienen una
etiqueta o palabra: “color de pelo”, “ciudad de origen”, “nivel de
satisfacción”. Estas a su vez pueden ser ordinales si especifican un
orden: “evolución de un paciente frente a un tratamiento” o nominales
si no lo hacen: “consume lácteos”, “fuma o no fuma”; y (2) cuantitativas,
cuantifican un elemento de la población. Estas pueden ser discretas si
pueden asumir un número contable (o finito) de valores. Intuitivamente,
la variable discreta puede asumir los valores correspondientes a puntos
aislados a lo largo de un intervalo de recta. Es decir, entre dos valores
cualesquiera siempre hay un hueco. Tienen que ver con conteos:
“número de pacientes enfermos”, “cantidad de manzanas vendidas”,
etc. También pueden ser continuas si pueden asumir una cantidad
incontable de valores. Intuitivamente, la variable continua puede asumir
cualquier valor a lo largo de un intervalo de recta, incluyendo cualquier
valor posible entre dos variables determinadas. Tienen que ver con
mediciones de volumen, peso, tiempo y concentraciones:
“concentración de solutos”, “cantidad de tiempo en realizar un viaje a
Buenos Aires”, etc.
Ordinal (siguen un orden, por
ej. educación, evolución de
Cualitativas (clasifican o
un tratamiento)
describen)
Nominal (no siguen un orden.
Por ej. sexo)
Variables
Discretas (conteos. Por
ej. n° de hijos)
Cuantitativas
(cuantifican)
Continuas (mediciones.
Por ej. altura, peso,
salario)
En un problema es recomendable definir en este orden:
Unidad experimental:
Variable:
Tipo de variable
Población de unidades:
Población estadística:
Muestra de unidades:
Muestra estadística:
 Para el siguiente ejemplo describa la unidad experimental, la población
(estadística y de unidades) y la composición de la muestra (estadística y de
unidades). Determine además la variable de interés y el tipo al cual
corresponde.
Se desea conocer el peso promedio de los huevos de ponedoras Leghorn blanca de
una granja. Para ello se consideraron 20 huevos de tales aves y se determinó el peso
de los mismos.
 Unidad experimental: un huevo de ponedoras Leghorn blanca de una granja
 Variable: peso promedio de un huevo de ponedoras Leghorn blanca de una
granja
 Tipo de variable: cuantitativa continua
 Población de unidad: todos los huevos de ponedoras Leghorn blanca de una
granja
 Población estadística: peso promedio de todos los huevos de ponedoras
Leghorn blanca de una granja
 Muestra de unidad: 20 huevos de ponedoras Leghorn blanca de una granja
 Muestra estadística: peso promedio de 20 huevos de ponedoras Leghorn
blanca de una granja
Si pide especificar el experimento: Verbo en infinitivo (observar,
encuestar, investigar, etc.) + todas las variables. Por ejemplo:
“𝑒𝑠𝑡𝑖𝑚𝑎𝑟 𝑙𝑎 𝑐𝑜𝑛𝑐𝑒𝑛𝑡𝑟𝑎𝑐𝑖ó𝑛 𝑑𝑒 𝑠𝑎𝑙𝑒𝑠 𝑑𝑒 𝑢𝑛𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎 𝑑𝑒 𝑎𝑔𝑢𝑎 𝑑𝑒 𝑙𝑎
𝐿𝑎𝑔𝑢𝑛𝑎 𝐷𝑜𝑛 𝑇𝑜𝑚á𝑠"
Dos aclaraciones:
 la variable tiempo siempre es cuantitativa continua aunque
aparezca discretizada en días, semanas, meses o años. El motivo
es que el tiempo es una variable cronológica, y como tal asume
valores continuos de la recta, pese a que podemos simplificarla
expresándola en números naturales.
 la palabra promedio ubicarla únicamente en el experimento (si el
ejercicio lo pide), dado que es una cantidad que surge como
consecuencia del mismo. Nunca poner promedio en unidad
experimental, variables, poblaciones ni muestras.
A lo largo de este curso, veremos que abordar la solución estadística de
un problema requiere de una secuencia de cinco eventos:
1) Una clara definición de los OBJETIVOS de la experiencia y de la
POBLACIÓN asociada;
2) La decisión de cómo elegir la muestra, llamado PROCEDIMIENTO
MUESTRAL. Un procedimiento muy serio cuya selección depende
de una serie de condiciones;
3) La recolección y el Análisis Exploratorio de los Datos Muestrales;
4) Realizar INFERENCIA sobre la población;
5) Dar una MEDIDA de CONFIABILIDAD de la Inferencia realizada.
Los valores que asume la variable se llaman datos. Las listas de
grandes conjuntos de datos en general no proporcionan una imagen útil. A
veces deseamos condensarlos en una forma más manejable; esto puede
lograrse con ayuda de una distribución de frecuencia: una tabla que
relaciona los valores de una variable con su frecuencia observada, que es
el número de veces que ocurre u observa cada valor. Nos permite ordenar
la información y comenzar a visualizar cierto comportamiento de la
variable. La distribución de frecuencia puede ser: no agrupada si los datos
son incorporados a la tabla de manera individual, habitualmente utilizados
cuando se tienen pocos datos y en variables cuantitativas cuando son
valores discretos; agrupadas, cuando los datos son incorporados a la tabla
en forma de agrupaciones: en variables cuantitativas hablamos de
intervalos o clases, habitualmente utilizados cuando se tienen muchos
datos y valores continuos; y en variable cualitativa de categorías, por
ejemplo las opiniones acerca de un servicio pueden ser positivas (esta
categoría podría incluir las respuestas “excelente, muy satisfecho,
satisfecho”) o negativas (“insatisfecho, pésimo”). Las categorías cualitativas
también pueden agrupar datos cuantitativos de ambos tipos, por ejemplo
estimar el nivel de concentración de arsénico en: negativo si toma el valor
0, leves vestigios si va desde 0 a 0,05, o vestigios si es mayor a 0,05mg/v).
--
n
1
n
--
100
....
FR
FP
Acum. Acum.
....
....
....
....
TOTAL
....
Frecuencia Frecuencia FO
Relativa
Porcentual Acum.
....
Datos
Marca de Frecuencia
individuales/Clases Clases
Observada
o categorías
(solo para
clases)
....
La tabla tiene esta forma:
1
--

Para distribuciones agrupadas, las clases presentan un intervalo
semiabierto: [ , ) o ( , ], siendo indistinta la elección. Las únicas
salvedades que se deben considerar son: la elección de uno u otro tipo de
intervalo debe ser una sola para todas las clases; el mínimo debe estar
contenido en la primera clase (con lo cual, a veces será necesario elegir [ , )
si el valor mínimo de un conjunto de datos se corresponde con el límite
inferior de la clase); el último intervalo es el único que puede ser cerrado a
ambos extremos [ , ] si el valor máximo de un conjunto de datos coincide
con el límite superior de la clase. Lo ideal es no trabajar con menos de 5
clases ni más de 15. Para determinar el número de clases a utilizar, la
fórmula de Sturges proporciona un valor mínimo, resultado de hacer 1 +
3,3log(𝑛),siendo n el número total de datos; y un valor máximo, resultado
de 1 + 3,3ln(𝑛). Para determinar la amplitud o ancho de cada clase se
utiliza ∆=
𝑅𝑎𝑛𝑔𝑜
𝑁° 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜𝑠
=
𝑣𝑎𝑙𝑜𝑟 𝑚á𝑥𝑖𝑚𝑜−𝑣𝑎𝑙𝑜𝑟 𝑚í𝑛𝑖𝑚𝑜
𝑁° 𝑖𝑛𝑒𝑟𝑣𝑎𝑙𝑜𝑠
siendo esos valores
máximo y mínimo los correspondientes a todo el conjunto de datos
numéricos que ofrece un problema. La segunda columna, la marca de
𝑙í𝑚𝑖𝑡𝑒 𝑖𝑛𝑓𝑒𝑟𝑖𝑜𝑟+𝑙í𝑚𝑖𝑡𝑒 𝑠𝑢𝑝𝑒𝑟𝑖𝑜𝑟
clase, es el punto medio de cada clase (
2
)
constituye una medida representativa de todo el rango de valores que
contiene cada clase.
100
--

Las frecuencias absolutas es el conteo de cada valor individual o cada
valor que cae dentro de una clase o categoría. El TOTAL = n de la frecuencia
absoluta debe dar el número total de valores de la variable.

La frecuencia relativa es una proporción de cuánto representa cada
valor de la frecuencia absoluta respecto del total. Se obtiene dividiendo
cada valor observado entre n. El TOTAL debe dar 1, si no es el caso se debe
redondear así: si la suma se pasa de 1, se le saca al valor o clase más
pequeño que no se repita; si la suma no alcanza 1 se le agrega al valor o
clase mayor que no se repita.

La frecuencia porcentual es la frecuencia relativa multiplicada por
100. Su TOTAL debe dar 100.

Cualquiera de las tres columnas sombreadas se puede acumular. La
acumulación nos dice cuántos datos se tienen respecto al total. En la
frecuencia observada acumulada se debe ir sumando cada valor con el
anterior, y la anteúltima celda debe dar n. En la frecuencia relativa
acumulada es lo mismo y la anteúltima celda debe dar 1, lo propio con la
acumulación de la frecuencia porcentual cuyo valor final de la anteúltima
celda debe ser 100. En los tres casos, la fila TOTAL se deja vacío. Cuando un
ejercicio pide armar una tabla de distribución de frecuencias, sin especificar
cuál de las tres columnas acumular, se puede elegir cualquiera de las tres.
Con acumular una es suficiente.
Una vez que los datos están ordenados en una tabla de distribución de
frecuencias se puede elaborar una representación gráfica:
Si la variable es cualitativa el gráfico apropiado es el de torta. Puede usarse
el de barras separadas pero la profe no lo recomienda porque el ancho de
las barras puede prestar a confusión.
Si la variable es cuantitativa continua el gráfico apropiado es el histograma,
cuya altura es la frecuencia observada de cada clase y la base son las clases,
las barras se tocan. Las variables cronológicas continuas constituyen un
caso especial cuyo gráfico típico es el de líneas. En estos se suele preguntar
por la tendencia de las variables y hay que elaborar conclusiones respecto
a la evolución temporal de las mismas en un período de tiempo: si es
creciente, decreciente o estable. Es recomendable identificar patrones a la
hora de elaborar conclusiones.
Si la variable es cuantitativa discreta, las barritas se empiezan a separar de
acuerdo con los valores enteros que toman los conteos, ya no abarcan la
totalidad de valores de un eje, y el gráfico apropiado es el de bastones.
Sobre el eje Y puede ir cualquier frecuencia, la relativa se suele utilizar por
la propiedad de que el área bajo la curva da uno, pero se puede emplear
cualquier frecuencia: absoluta o relativa.
Vinculados con los histogramas y las clases aparecen dos gráficos
relacionados.
Uno es el polígono de frecuencias, que se puede elaborar encima de un
histograma, uniendo los puntos medios de las clases. Cuando una clase está
vacía, igual hay que imaginarse que no lo está y unir la línea al punto medio
de esa clase.
El otro es la Ojiva: una gráfica de línea de una frecuencia acumulada
(cualquiera de las tres) cuyos puntos se trazan sobre los límites superiores
de cada clase.
Todas las representaciones gráficas deben contener una serie de
elementos:
 Titulo descriptivo que identifica la muestra de interés
 Rótulos en los ejes. Los valores para los límites de clase o puntos
medios de clase pueden etiquetarse a lo largo del eje x.
 Referencia: utilizar colores diferentes para una gráfico que muestra
dos o más variables
 Fuente: “gráfico de elaboración propia a partir de datos
suministrados por xx”
Valores Representativos
Vimos que la reducción de datos a través de un gráfico o de una tabla de
frecuencias nos da mucha más información sobre el comportamiento de
una variable que el propio conjunto original de datos. Sin embargo, algunas
veces queremos reducir aún más esos datos, presentando uno o dos valores
que sean “representativos” de toda la serie. Con estos valores logramos
entonces: una reducción drástica de los datos y podemos observar el
comportamiento de la variable. Tenemos dos grandes parámetros: 1) las
medidas de posición central y 2) las medidas de dispersión.
1) Las medidas de posición central son valores numéricos que localizan
de alguna manera el centro de un conjunto de datos. Representan un
centro alrededor del cual se encuentra ubicado el conjunto de los datos, o
la mayoría de ellos. Usualmente, se emplea una de las siguientes medidas:
MODA, MEDIANA y MEDIA (aritmética).
Moda 𝑴𝒐: es la realización más frecuente del conjunto de valores
observados. El valor más grande de la frecuencia observada. En relación a
estos valores los histogramas muestran distintas disposiciones:
Si es unimodal puede ser:
 Simétrica: ambos lados de esta distribución son idénticos (las
mitades son imágenes de espejo).
 Normal: una distribución simétrica se agrupa alrededor de la media
y se hace escasa en los extremos.
 Uniforme (rectangular): todo valor aparece con la misma frecuencia.
 Sesgada: una cola está estirada más que la otra. La dirección de sesgo
está en el lado de la cola más larga.
 En forma de J: no existe cola en el lado del grupo con la frecuencia
más alta.
Si hay dos modas:
 Bimodal: los dos grupos de mayor población están separados por uno
o más grupos. Esta situación con frecuencia implica que dos
poblaciones se estén muestreando.
Mediana 𝑴𝒅(𝑿): es el valor que ocupa la posición central de la serie de
observaciones, cuando estas están ordenadas de acuerdo a sus valores
(creciente o decreciente).
̅: promedio de los valores observados
Media Aritmética 𝒙
Para variables cualitativas, la moda es la única medida de posición
central que se puede calcular; para variables cuantitativas se pueden
calcular las tres medidas de posición central.
A continuación, detallo cómo calcular estos valores para datos
agrupados y datos sin agrupar. Es importante notar que en las tres
expresiones de los datos agrupados toma relevancia la marca de clases
porque es un valor de referencia que representa o nuclea a todos los datos
que cayeron dentro de esa clase:
Parámetro\Tipos de datos
Moda
Notación 𝑀𝑜(𝑥) =
Mediana
Notación 𝑀𝑑(𝑥) =
Datos Agrupados
Profe: marca de clase del intervalo con
mayor frecuencia.
Carpeta: la mitad de la clase que
contiene más frecuencias observadas
Profe: marca de clase del intervalo en
el que se acumula hasta el 50% de los
datos
Carpeta: la mitad de la clase que
contiene una frecuencia porcentual
acumulada más cercano a 50%
Datos Sin Agrupar
Valor que más se repite
Hay que ordenar los datos de
menor a mayor (para esto
utilizar el diagrama Tallo-Hoja) y
hacer el siguiente conteo:
Si la muestra es impar, el dato
que sobra y se ubica
Si la clase acumula hasta un valor que exactamente en la posición
se pasa del 50%, no importa, porque central dejando la misma
la mediana estará dentro de esa clase. cantidad de valores a su
izquierda y a su derecha, ese
dato es la mediana. Es un valor
observado en la muestra.
𝑋(𝑛+1) 𝑠𝑖 𝑛 𝑒𝑠 𝑖𝑚𝑝𝑎𝑟
2
Media Aritmética
̅=
Notación 𝒙
Si la muestra es par, el
promedio de los dos datos
centrales es la mediana. No es
un valor observado en la
muestra justamente por ser el
promedio de dos valores de la
misma.
𝑋(𝑛) + 𝑋(𝑛+1)
2
2
𝑠𝑖 𝑛 𝑒𝑠 𝑝𝑎𝑟
2
IMPORTANTE: la mediana NO
ES la posición central, ES el valor
que ESTÁ en la posición central
Sumatoria de: cada marca de clase 𝑥′𝑖 Suma de todos los valores
multiplicada por su frecuencia observados, dividido por el
absoluta 𝑓𝑖 ; todo eso dividido entre n número total de ellos (osea por
Para k clases:
el número de elementos de la
𝑘
muestra n):
1
𝑛
∑ 𝑥′𝑖 𝑓𝑖
1
𝑛
∑ 𝑥𝑖
𝑖=1
𝑛
𝑖=1
Estos tres valores pueden diferir cuando se trabaja con datos agrupados
respecto a los obtenidos cuando se trabaja con datos sin agrupar. Esto
se da porque al agrupar, estamos organizando la información en
intervalos, cuyo valor de referencia es la marca de clase. Entonces se
pierde la naturaleza individual del dato original y por ello los resultados
obtenidos bajo este procedimiento arrojan ciertas diferencias respecto
al procedimiento sin agrupar. Aun así, si esas diferencias son sutiles, es
debido a que la variable presenta un comportamiento bastante
simétrico (normal), algo que se aprecia al realizar un histograma. El
comportamiento normal es el ideal para la Estadística, por eso en esos
casos se suele decir que la variable es “bien comportada”.
El diagrama Tallo-Hoja es una especie
de paso intermedio entre tener los
datos originales y empezar a agrupar
esos datos. No es una tabla de
distribución de frecuencias ni un
histograma propiamente dicho, pero
sirve para comenzar a ver qué
distribución tiene la variable sin
perder de vista los datos originales. Es
útil en tres situaciones puntuales: el
cálculo de la mediana para datos sin
agrupar en donde hay que contar
posiciones; el cálculo de MAD (que
está asociada a la mediana) una
medida de dispersión que se describe
a continuación; y los cuartiles. El tallo
se escribe a lo largo del eje vertical, a
la izquierda, y está formado por el
conjunto de las clases que tenemos
en una tabla de distribución de
frecuencias. Por cada clase se
desprende una hoja que muestra los
valores que están dentro de cada
clase. Si quisiéramos ajustar una curva, nos permite percibir un
comportamiento de la variable, en relación a dónde hay una mayor
concentración de los datos, puntualmente en cuáles clases. Así podríamos
darnos cuenta qué forma tendrá el histograma en caso de que no lo
hayamos hecho. Por esto el diagrama Tallo-Hoja es un diagrama intermedio
entre una tabla de frecuencias, la muestra y un histograma.
Lo ideal es elaborar el diagrama Tallo-Hoja respetando el orden creciente
de los datos, de manera que podamos hacer el conteo y ver qué valores
están en la posición central para obtener la mediana, por ejemplo. Los
podemos marcar con un círculo y hacer el promedio en caso de que
tengamos un n par.
2) Las medidas de variabilidad o de dispersión son valores numéricos que
describen la cantidad de dispersión, o variabilidad, que se encuentra entre
los datos: los datos agrupados de manera estrecha tienen valores
relativamente pequeños, y aquellos datos que estén más dispersos tienen
valores más grandes. El agrupamiento más cercanamente posible ocurre
cuando los datos no tienen dispersión (todos los datos son del mismo valor);
en esta situación, la medida de dispersión será cero. No hay límite sobre
qué tan dispersos puedan ser los datos; por tanto, las medidas de dispersión
pueden ser muy grandes. Las medidas de variabilidad se definen con
respecto a una medida de posición: incluyen la VARIANZA y el DESVÍO
ESTÁNDAR en relación a la media; y el MAD en relación a la mediana.
La varianza mide cuánto se alejan los datos con respecto a la media en
promedio. La varianza es la media (ose el promedio) de las desviaciones 𝑥 −
𝑥̅ al cuadrado. Las desviaciones nos dicen cuán lejos está cada valor x de la
media 𝑥̅ . Si sumamos todas las desviaciones ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ ) sobre toda la
muestra, obtendríamos cero debido a que 𝑥𝑖 toma valores tanto positivos
como negativos generando un efecto de neutralización. Esto se elimina si
se eleva al cuadrado cada una de las desviaciones ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 . Ahora sí,
̂2 :
sacando el promedio, tenemos la varianza 𝜎
𝑛
̂2 = 1 ∑(𝑥𝑖 − 𝑥̅ )2 → 𝑠𝑖𝑛 𝑎𝑔𝑟𝑢𝑝𝑎𝑟
𝜎
𝑛
𝑖=1
En el práctico 1 usamos la expresión de la varianza que divide sobre 𝑛, más
adelante utilizamos otra expresión alternativa que divide por 𝑛 − 1.
Una vez calculada la varianza se puede calcular el desvío estándar, que es
la raíz cuadrada de este último valor (el resultado positivo de la raíz). El
desvío estándar es la medida de variabilidad o dispersión de los datos por
excelencia:
𝑛
̂2 = √1 ∑(𝑥𝑖 − 𝑥̅ )2 → 𝑠𝑖𝑛 𝑎𝑔𝑟𝑢𝑝𝑎𝑟
𝐷. 𝐸(𝑥) = √𝜎
𝑛
𝑖=1
Para datos agrupados, se utilizan las marcas de clase 𝑥′𝑖 :
𝑛
1
2 = ∑ 𝑓 (𝑥′ − 𝑥̅ )2 → 𝑑𝑎𝑡𝑜𝑠 𝑎𝑔𝑟𝑢𝑝𝑎𝑑𝑜𝑠
̂
𝜎
𝑖
𝑖
𝑖
𝑛
𝑖=1
𝑛
̂2 = √1 ∑ 𝑓𝑖 (𝑥′𝑖 − 𝑥̅ )2 → 𝑑𝑎𝑡𝑜𝑠 𝑎𝑔𝑟𝑢𝑝𝑎𝑑𝑜𝑠
𝐷. 𝐸(𝑥) = √𝜎
𝑛
𝑖=1
Si un ejercicio no aclara si hacer estos cálculos con datos agrupados o sin
agrupar, lo ideal es hacer los cálculos sin agrupar porque el resultado que
se obtiene es más exacto.
El MAD es la medida de dispersión o variabilidad asociada a la mediana.
También muestra cuánto se alejan los datos, pero ahora respecto a la
mediana. Trabajamos de nuevo con el diagrama Tallo-Hoja: restamos cada
dato de la mediana que obtuvimos para datos sin agrupar; con esos
resultados obtenidos de tales diferencias, en valor absoluto, se ordenan de
menor a mayor y se calcula a partir de este ordenamiento, una nueva
mediana (sin agrupar también, viendo si me queda n par o impar). Si tengo
datos agrupados la diferencia que haré será la marca de clase por su
frecuencia observada, menos la mediana que habíamos obtenido para
datos agrupados; se ordenan de menor a mayor; se busca la mediana de
ese conjunto de datos. En este último caso simplemente me acomodo a la
situación de tener datos agrupados. La expresión de MAD es:
𝑀𝐴𝐷 = 𝑀𝑑(|𝑥𝑖 − 𝑀𝑑(𝑥)|) → 𝑠𝑖𝑛 𝑎𝑔𝑟𝑢𝑝𝑎𝑟
𝑀𝐴𝐷 = 𝑀𝑑|(𝑥′𝑖 − 𝑀𝑑(𝑥)) 𝑟𝑒𝑠𝑡𝑎𝑟 𝑓𝑖 𝑣𝑒𝑐𝑒𝑠| → 𝑑𝑎𝑡𝑜𝑠 𝑎𝑔𝑟𝑢𝑝𝑎𝑑𝑜𝑠
Osea es la mediana de los desvíos de cada dato con respecto a su mediana,
en valor absoluto.
IMPORTANTE: medidas de posición central y medidas de dispersión
resumen el comportamiento de la variable en términos numéricos. Cuando
la variable presenta un comportamiento SIMÉTRICO, las tres medidas de
posición central (moda, mediana y media) arrojarán valores similares unas
respecto a la otra. Cuando eso pasa, la mejor medida de posición central es
la media y en consecuencia una buena medida de dispersión es el desvío
estándar. Sin embargo, cuando la muestra no es tan simétrica, es decir,
presenta un comportamiento asimétrico, donde vemos que la gráfica es
sesgada o a izquierda o a derecha, la mejor medida de posición central es
la mediana. Esto es porque la mediana no resulta afectada por los valores
extremos, ella se ubica al centro de la distribución independientemente de
la asimetría que presente. En consecuencia, cuando la muestra no es
simétrica, la mejor medida de posición central es la mediana, y su medida
de dispersión asociada es la MAD.
Coeficiente de variación 𝐂𝐯 =
𝑫.𝑬
̅
𝒙
: es una relación entre la magnitud de la
variabilidad (D.E o MAD) y la magnitud de la media. Si el 𝐶𝑣 es chico (menor
al 80%) significa que la media es representativa del conjunto de datos y
entonces tenemos un conjunto de datos homogéneo. Pero si el 𝐶𝑣 es muy
grande, cercano a 1, la media no es una medida representativa del conjunto
de datos y se tiene un conjunto de datos heterogéneo o muy disperso.
BoxPlot
Es un gráfico que resume por excelencia el comportamiento de la
variable. El Box Plot es un gráfico de caja y brazos (llamados también
bigotes) que van a tener un ancho y largo dependiendo de cómo se
comporte esa variable. Se construye a partir de cinco medidas y permite
conocer mucha información: la simetría de esa variable; la dispersión; y la
presencia o no de valores atípicos o outliers, como también se conoce. Se
utiliza para variables cuantitativas, tanto continuas como discretas, pero es
más importante para las continuas. Las cinco medidas que requiere son el
mínimo y el máximo como extremos de la distribución; y en el medio
aparecen los cuartiles 𝑞1 , 𝑞2 y 𝑞3 . Los cuartiles son medidas de posición.
Las medidas de posición se utilizan para describir la posición que un dato
específico posee en relación con el resto de los datos. Los cuartiles son los
valores de la variable que dividen a la muestra en cuartos. Cada conjunto
de datos posee tres cuartiles tal que:
 1/4 de los datos (25%) son menores que 𝑞1
 1/2 (la mitad) de los datos (50%) son menores que 𝑞2
 3/4 de los datos (75%) son menores que 𝑞3
Para construir el Boxplot seguir estos pasos:
𝑛
1) Ver si la muestra (osea el n) es par o impar. Si es par, hacer 𝑞 = ; si
es impar hacer 𝑞 =
2
𝑛+1
2
2) A partir del valor de q obtenido procedemos a hallar los cuartiles. A
partir de acá será encontrar un valor de la variable en la posición r
que den los cuartiles 𝑞1 y 𝑞3 . Usando los datos del Tallo-Hoja,
buscamos el valor de la posición r tal que:
𝑞1 = 𝑥(𝑟)
Si q es impar, hacer 𝑟
Si q es par, hacer 𝑟
=
𝑞+1
2
y definir
𝑞
𝑞3 = 𝑥(𝑛+1−𝑟)
𝑞1 =
𝑥(𝑟) + 𝑥(𝑟+1)
2
𝑞3 =
𝑥(𝑛+1−𝑟) + 𝑥(𝑛−𝑟)
2
= 2 y definir
3) Para hallar 𝑞2 usamos el mismo criterio que para calcular la mediana
𝑀𝑑(𝑥) (marca de clase con frecuencia acumulada hasta el 50% si
tengo datos sin agrupar o las reglas de par – impar si tengo datos no
agrupados) dado que dicha medida divide al conjunto de datos en
dos partes iguales. Como la mediana un valor que está en el centro
de distribución de los datos, se emplea para definirla como 𝑞2 :
𝑞2 = 𝑀𝑑(𝑥)
4) Calcular el rango intercuartílico, que es la diferencia entre el cuartil 3
y el cuartil 1. Es una diferencia entre los extremos de esa caja.
𝑅𝐼𝑄 = 𝑞3 − 𝑞1
Y multiplicarlo por 1,5 que es un coeficiente que afecta al rango
intercuartílico e indicar que hasta esa altura o valor consideramos los
datos como “dentro de la gráfica”. Cuando los datos se escapan de
ese rango intercuartílico multiplicado por 1,5, 1,5. 𝑅𝐼𝑄 = 1,5(𝑞3 −
𝑞1 ), podemos considerarlos como puntos atípicos (outliers), que
estarían alejados del resto de la distribución.
1,5. 𝑅𝐼𝑄 = 1,5(𝑞3 − 𝑞1 ) → 𝑐𝑜𝑟𝑡𝑒 𝑑𝑒 𝑑𝑎𝑡𝑜𝑠
El brazo superior si ubicamos la caja en vertical, o derecho si la
ubicamos en horizontal, se prolonga hasta:
1,5. 𝑅𝐼𝑄 + 𝑞3 = 1,5(𝑞3 − 𝑞1 ) + 𝑞3 → 𝑏𝑟𝑎𝑧𝑜 𝑠𝑢𝑝𝑒𝑟𝑖𝑜𝑟
Este valor alcanza el máximo observado de la muestra, (y debería
superarlo).
El brazo inferior si ubicamos la caja en vertical, o izquierdo si la
ubicamos en horizontal, se prolonga hasta:
1,5. 𝑅𝐼𝑄 − 𝑞1 = 1,5(𝑞3 − 𝑞1 ) − 𝑞1 → 𝑏𝑟𝑎𝑧𝑜 𝑖𝑛𝑓𝑒𝑟𝑖𝑜𝑟
Este valor alcanza el mínimo observado de la muestra, (y debería
superarlo).
Si al extender los brazos, tanto el superior como el inferior, superan
al valor máximo y mínimo respectivamente, el corte de los brazos se
hace en esos puntos extremos de la muestra. Esto es fundamental
para no seguir generando datos que no existen. Graficando los datos,
en el eje vertical va la variable:
Entre una medida y la otra se encuentra, siempre, un 25% de la información.
Aunque la caja o los brazos sean más largos o más anchos, la proporción
sigue siendo la misma: entre cada medida hay 1/4 de los datos de la
muestra. En tal caso, podemos decir que los datos en una porción de la
gráfica son más dispersos, pero NO significa que en un bigote más largo
haya más datos.
En la caja encontramos el 50% central de los datos. Habitualmente, los
programas estadísticos grafican la mediana, que es la medida de posición
central más robusta o confiable. Si la medida se ubica aproximadamente en
el centro de la caja, podemos decir que el 50% central de los datos es
bastante simétrico.
Cosas que pueden pasar acerca del Box Plot:
 En ocasiones el gráfico puede ser simétrico en toda su extensión, sin
embargo, puede ocurrir que la caja sea muy simétrica pero que
tengamos un brazo más largo que el otro. Ahí diríamos que hay un
50% central de los datos que están concentrados, son normales,
simétricos o se encuentran bien comportados (es todo lo mismo), con
una leve dispersión hacia los valores máximos o mínimos.
 No ver los cuartiles uno y dos; o dos y tres; o que no veamos algún
brazo. Ahí diríamos que los datos están tan concentrados en esas
porciones, que se junta una medida con la otra. El concepto
importante a recordar es: el hecho de que la caja sea más ancha o
más angosta, que los brazos sean más largos o más cortos, que se
vean todas las medidas o que no se vean algunas, no significa que
haya más o menos datos. Significa que hay una mayor o menor
concentración de datos en esa porción de la gráfica.
 Cuando se pidan conclusiones sobre este tipo de gráficos hay que
prestar atención a tres puntos clave: 1) la simetría de la variable: se
observa viendo dónde se ubica la mediana dentro de la caja y en todo
el contexto de la gráfica; 2) la dispersión o variabilidad de los datos:
se analiza observando el ancho de la caja y el largo de los brazos.
Diferenciar en los casos que corresponda si en algún lugar de la
gráfica una porción es más larga o ancha que la otra: allí hay más
dispersión de datos; y 3) la presencia o no de valores atípicos o
outliers: si el brazo superior se extiende hasta un valor que no alcanza
el valor máximo de la muestra, ese máximo es un outlier. Un outlier
significa que se tomaron mal los datos, que hay una medición
extraña, o que la variable presenta un comportamiento extraño. Pero
no estamos capacitados para conjeturar demasiado acerca de esos
puntos atípicos. Solo debemos mencionar si hay o no, cuántos son, y
si están en los valores máximos o mínimos. Si los hay, esos valores
atípicos nunca deben ser eliminados, bajo ningún punto de vista,
dado que son parte de nuestra distribución. Lo que correspondería
como investigador sería buscar una explicación de por qué esos datos
se escapan del resto de la distribución. Si bien son datos que
distorsionan la distribución, merecen una explicación aparte. En
muchos casos han sido motivos de demoras en defensas de trabajos
de investigación justamente por no eliminarlos y tratar de buscarles
una explicación.
 Si pregunta cuál es la distribución que tuvo mayor valor en promedio,
la respuesta tiene que ser dada en términos de la mediana.
Elaborar conclusiones es parte de la secuencia de pasos que se deben llevar
a cabo al momento de abordar un procedimiento estadístico. Forma parte
de la Estadística Descriptiva o Exploratoria. No tienen que ser muy extensas,
a veces mientras más escribimos, podemos estar errando en algunas
cuestiones. Deben focalizarse en el análisis de gráficos y medidas tanto de
posición central como de dispersión. Las conclusiones son tan o más
importantes que saber hacer un cálculo o gráfico. Es fundamental poder
interpretar las diversas herramientas para poder trasladar esas medidas a
la situación que estamos analizando.
TP2: Análisis Exploratorio Bidimensional
En la práctica 1 aprendimos cómo presentar en forma gráfica y
describir numéricamente datos muestrales para una variable. El propósito
de esta práctica es extender tales técnicas para abarcar datos muestrales
que involucran dos variables emparejadas. En este caso, hablamos de datos
de dos variables, que son los valores de dos variables diferentes que se
obtienen del mismo elemento de la población. Cada par de variables puede
ser cualitativas o cuantitativas. A partir de si se tratan de un caso u otro, el
análisis exploratorio sigue un procedimiento distinto, pero el final siempre
será decir si existe dependencia entre ambas o no. Para ello se emplea una
medida que cuantifica la dependencia, denominada coeficiente de
asociación. El coeficiente de asociación de las variables cuantitativas se
llama coeficiente de contingencia C, este va de 0 a 1; y el de las variables
cuantitativas, de Pearson, que va de -1 a 1. En ellos, la proximidad al cero
es sinónimo de independencia.
Cuando tenemos dos variables cualitativas, la información de esas
variables se vuelva en tablas de contingencia o tablas de doble entrada que
muestran la ocurrencia conjunta de ellas.
variable 1 \ Valor de la variable 2: X2 Valor de la variable 2: Y2
TOTAL
variable 2
Valor de la fi X1X2 (fes X1X2)
fi X1Y2 (fes X1Y2)
∑ 𝑓𝑖 𝑡𝑜𝑑𝑎 𝑙𝑎 𝑓𝑖𝑙𝑎 1
variable 1: X1
Valor de la fi Y1X2 (fes Y1X2)
fi Y1Y2 (fes Y1Y2)
∑ 𝑓𝑖 𝑡𝑜𝑑𝑎 𝑙𝑎 𝑓𝑖𝑙𝑎 2
variable 1: Y1
TOTAL
∑ 𝑓𝑖 𝑡𝑜𝑑𝑎 𝑙𝑎 𝑐𝑜𝑙𝑢𝑚𝑛𝑎1 ∑ 𝑓𝑖 𝑡𝑜𝑑𝑎 𝑙𝑎 𝑐𝑜𝑙𝑢𝑚𝑛𝑎 2 Total de la muestra n
La fila del TOTAL y la columna del TOTAL corresponde a lo que se
llama “distribución marginal”: El interior de la tabla, coloreada,
corresponde a la “distribución conjunta”. Los 𝑓𝑖 de cada celda son las
frecuencias observadas para los datos simultáneos que asumen dos
variables.
Esta tabla nos permite obtener elementos como las frecuencias
observadas, las que surgen de la experiencia, osea los datos que brinda el
problema. Son los 𝑓𝑖 de cada celda; y las frecuencias esperadas, el número
que va entre paréntesis al lado de cada frecuencia observada de una celda,
es el valor que deberíamos tener en caso de que las variables fuesen
independientes. La frecuencia esperada de una celda resulta de:
(𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑙𝑎 𝑓𝑖𝑙𝑎 . 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑙𝑎 𝑐𝑜𝑙𝑢𝑚𝑛𝑎)
𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎 𝑛
En la tabla 𝑓𝑒𝑠 se puede redondear a un número natural si los valores que
toma una de las variables están acotados a este conjunto numérico. En este
caso, el valor final de 𝜒 2 puede variar respecto al que calcula un paquete
estadístico.
Cuando en cada celda: restamos la frecuencia observada menos la
frecuencia esperada, luego elevamos al cuadrado y dividimos por la
frecuencia esperada de esa celda, si sumamos esos números de todas las
celdas, obtenemos un parámetro que se llama “chi cuadrado”: 𝜒 2 .
𝑡𝑜𝑑𝑎𝑠 𝑙𝑎𝑠 𝑐𝑒𝑙𝑑𝑎𝑠
2
𝜒 =
∑
(𝑓𝑖 − 𝑓𝑒𝑠)2
𝑓𝑒𝑠
𝜒 2 mide cuánto se alejan las frecuencias observadas, las que se registraron
en un experimento, respecto de las que deberían esperarse si las variables
fuesen independientes.
Para cuantificar si la dependencia entre ambas variables es alta o baja, se
utiliza un coeficiente de contingencia C:
𝜒2
√
𝐶=
𝜒2 + 𝑛
Y para corregir este valor a una mayor precisión, se utiliza el C corregido;
𝐶∗ =
𝐶
√𝑡 − 1
𝑡
donde t es el número mínimo entre dos números: la suma de todas las
columnas de la distribución conjunta (el centro de la tabla), o la suma de
todas las filas también del centro de la tabla. El 𝐶 ∗ es la medida final que
cuantifica la dependencia o no entre dos variables.
Si 𝐶 ∗ es próximo a 0, habrá mayor independencia, si 𝐶 ∗ es próximo a 1,
habrá mayor dependencia entre las variables.
A modo orientativo, podemos utilizar estos valores límites de 𝐶 ∗ :
 0~0,25 refleja una débil o leve dependencia
 0,25~0,75 refleja una moderada dependencia
 0,75~1 refleja una fuerte dependencia
Cuando tenemos dos variables cuantitativas, la información debe ser
resumida en un gráfico de dispersión, es un gráfico de puntos que
corresponden a cada uno de los pares X e Y. A partir de la disposición de
los puntos se puede concluir si parece haber dependencia:
 Si a medida que aumenta una variable, aumenta la otra, es una
dependencia lineal positiva.
 Si a medida que aumenta una variable, disminuye la otra, es
una dependencia lineal negativa.
 Si conocer el resultado de una variable no ayuda a predecir el
comportamiento de la otra, parece no haber dependencia.
En los ejercicios, en general si no se especifica cuál es la variable X y
cuál es la Y, es indistinto cuál es la elección que hagamos. Sin embargo, es
importante empezar a detectar cuál es la variable dependiente Y, la que
varía en función de la variable independiente X, esta última es la que fija el
investigador como valores conocidos.
Para cuantificar la asociación observada entre las variables, se puede
utilizar una medida que juzga cuánto la nube de puntos en el gráfico de
dispersión se aproxima a una recta (relación lineal). Es decir que, al igual
que el de contingencia, se trata de un parámetro que permite cuantificar la
asociación entre las dos variables, en este caso cuantitativas. Por lo tanto,
luego de elaborar el gráfico de dispersión, nos trasladamos a calcular el
coeficiente de correlación de Pearson:
𝑟𝑥𝑦 =
∑𝑛𝑖=1 𝑥𝑖 𝑦𝑖 − 𝑛𝑥̅ 𝑦̅
√(∑𝑛𝑖=1 𝑥𝑖2 − 𝑛𝑥̅ 2 ). (∑𝑛𝑖=1 𝑦𝑖2 − 𝑛𝑦̅ 2 )
𝑟𝑥𝑦 es un número entre -1 y 1:
Si 𝑟𝑥𝑦 > 0  la correlación es lineal positiva
Si 𝑟𝑥𝑦 < 0  la correlación es lineal negativa
Si 𝑟𝑥𝑦 = 0  no existe correlación lineal
Cuando elaboramos una conclusión debemos mencionar dos cuestiones
elementales: el valor del coeficiente de asociación final (𝐶 ∗ o 𝑟𝑥𝑦 ), y las
variables que se están analizando.
Podemos resumir los conceptos de esta práctica a través de este
esquema:
Cualitativas
Tabla de
Contingencia
Dependencia
entre dos
variables
frec. observadas y
frec. esperadas
permiten calcular
𝜒2
Coeficiente de
contingencia
𝐶 y 𝐶∗
Coeficientes de
asociación entre
variables
Cuantitativas
Gráfico de
dispersión
Coeficiente de
correlación de
Pearson 𝑟𝑥𝑦
TP3: Probabilidades
Hasta acá habíamos dicho que la estadística era la ciencia de elegir
una muestra y hacer inferencias sobre la población desconocida de la cual
se extrajo dicha muestra. Para hacer esas inferencias, es necesario estudiar
resultados muestrales, en situaciones en que se conoce la población, de
modo que sea posible comprender el comportamiento de los eventos al
azar. Justamente por esto, la probabilidad algunas veces se denomina como
el “vehículo” de la estadística. El estudio de las probabilidades nos ayuda a
comprender los modelos probabilísticos sobre los que nos basamos para
comprender la inferencia estadística. La Probabilidad y la Estadística se
relacionan así:
En la Teoría de Probabilidades, la población se supone conocida y el
problema consiste en calcular la probabilidad de observar una muestra
particular.
En la Teoría Estadística (inferencial) ocurre exactamente al revés, la
población es supuestamente desconocida, la muestra es conocida y se
desea realizar inferencia acerca de la población.
Por lo tanto:
• La Probabilidad razona de la Población a la Muestra.
• La Estadística (inferencial) razona de la Muestra a la Población.
Probabilidad
Población
Muestra
Estadística
Descriptiva
Estadística
Inferencial
Empezamos definiendo un experimento: es el proceso por el cual
una observación (o medida) es obtenida. Pueden ser:
DETERMINÍSTICOS: son aquellos que repetidos, bajo las mismas
condiciones, dan iguales resultados, por lo tanto, son predecibles (por
ejemplo, los fenómenos físicos o químicos);
ALEATORIOS: son aquellos que admiten dos o más resultados
posibles, y si bien estos resultados se conocen, no puede predecirse con
exactitud Entonces nos preguntamos cuál de ellos va a ocurrir, aún
teniendo en cuenta que pueden repetirse bajo condiciones (casi) idénticas
indefinidamente.
En este contexto nos centraremos en los aleatorios. Es decir,
cualquier acción o proceso cuyo resultado esté sujeto a la incertidumbre;
también se puede decir que es un fenómeno que envuelve cualquier
elemento casual. Por lo tanto, experimentos que pueden ser de interés
incluyen lanzar al aire una moneda una vez o varias veces, seleccionar una
carta o cartas de un mazo, el tiempo de recorrido de la casa al trabajo en
una mañana particular, obtener tipos de sangre de un grupo de individuos
o medir las resistencias a la compresión de diferentes vigas de acero, etc.
Todo experimento tendrá su modelo probabilístico asociado, identificado
por la tríada (𝛺; 𝐴; 𝑃):
Espacio muestral Ω: es el conjunto de todos los posibles resultados
del experimento en cuestión. 𝛺 = {𝜔1 , 𝜔2 , … , 𝜔𝑖 } donde 𝜔𝑖 son
denominados elementos o puntos muestra.
Álgebra de eventos A: cualquier subconjunto A de Ω (A ⊂ Ω), que será
llamado EVENTO. Osea, es cualquier recopilación de resultados contenidos
en el espacio muestral Un evento es simple si consiste en exactamente un
resultado y compuesto si consiste en más de un resultado.
Probabilidad P: la probabilidad asociada a ese evento. De una manera
más formal, es un número que asocia a cada punto muestra (ω) su
probabilidad de ocurrencia, de manera que es posible encontrar P(A) de
cualquier subconjunto A ⊂ Ω. La probabilidad de un evento es la frecuencia
relativa con la que puede esperarse la ocurrencia de dicho evento. Como
resultado de un experimento que se realiza n veces.
𝑃(𝐴) =
𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑣𝑒𝑐𝑒𝑠 𝑞𝑢𝑒 𝑜𝑐𝑢𝑟𝑟𝑖ó 𝐴
𝑛(𝐴)
=
𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑒𝑛𝑠𝑎𝑦𝑜𝑠 (𝑟𝑒𝑠𝑢𝑙𝑡𝑎𝑑𝑜𝑠 𝑝𝑜𝑠𝑖𝑏𝑙𝑒𝑠 𝑑𝑒 𝛺)
𝑛
Propiedades de una probabilidad P(A):
1) Una probabilidad es siempre un valor numérico entre cero y uno
0 ≤ 𝑐𝑎𝑑𝑎 𝑃(𝐴) ≤ 1
Notas acerca de la propiedad 1:
i) La probabilidad es 0 si el evento no puede ocurrir.
ii) La probabilidad es 1 si el evento ocurre todas las veces.
iii) De otro modo, la probabilidad es un número fraccionario entre 0
y 1.
2) La suma de las probabilidades de todos los resultados de un
espacio muestral es igual a exactamente uno.
∑
𝑃(𝐴) = 𝑃(𝛺) = 1
𝑡𝑜𝑑𝑜𝑠 𝑙𝑜𝑠 𝑟𝑒𝑠𝑢𝑙𝑡𝑎𝑑𝑜𝑠
3) Ley de números grandes: cuando aumenta el número de veces que
se repite un experimento, la razón entre el número de sucesos
exitosos y el número de intentos tenderá a aproximarse a la
probabilidad teórica del resultado de un intento individual. Esto
último significa que ante un gran número de ensayos, cada punto
muestral de un espacio muestral es igualmente probable que ocurra.
Lanzar un dado un número de veces muy grandes, a la larga
manifiesta una probabilidad de 1/6 para cada cara del mismo.
Algunas relaciones de la teoría de conjuntos:
Un evento A es simplemente un conjunto, así que las relaciones y
resultados de la teoría elemental de conjuntos pueden ser utilizados para
estudiar eventos. Se utilizarán las siguientes operaciones para crear
eventos nuevos a partir de eventos dados:
 Complemento de un evento 𝐴̅: conjunto de todos los resultados del
espacio muestral que no pertenecen al evento A. Esto implica que:
𝑃(𝐴) + 𝑃(𝐴̅) = 1 → 𝑃(𝐴̅) = 1 − 𝑃(𝐴)
Muy útil cuando se pregunta por la probabilidad de obtener un
evento “al menos una vez”.
𝑷(𝒂𝒍 𝒎𝒆𝒏𝒐𝒔 𝒖𝒏𝒂 𝒐𝒄𝒖𝒓𝒓𝒆𝒏𝒄𝒊𝒂 𝒅𝒆𝒍 𝒆𝒗𝒆𝒏𝒕𝒐 𝑨)
= 𝟏 − 𝑷(𝒏𝒐 𝒉𝒂𝒚𝒂 𝒐𝒄𝒖𝒓𝒓𝒆𝒏𝒄𝒊𝒂𝒔 𝒅𝒆𝒍 𝒆𝒗𝒆𝒏𝒕𝒐 𝑨)
Teniendo en cuenta que dos eventos son mutuamente excluyentes (M.E)
si están definidos de tal manera que la ocurrencia de un evento imposibilita
la ocurrencia de otro. (En otras palabras, son eventos que no comparten
elementos comunes 𝐴ꓵ𝐵 = Ø):
 La unión de dos eventos A y B, denotados por 𝐴ꓴ𝐵 y leídos “A o B”,
es el evento que consiste en todos los resultados que están en A o en
B o en ambos eventos.
𝑃(𝐴ꓴ𝐵) = 𝑃(𝐴) + 𝑃(𝐵) − 𝑃(𝐴𝑈𝐵) → 𝑟𝑒𝑔𝑙𝑎 𝑔𝑒𝑛𝑒𝑟𝑎𝑙 𝑑𝑒 𝑙𝑎 𝑠𝑢𝑚𝑎
𝑃(𝐴ꓴ𝐵) = 𝑃(𝐴) + 𝑃(𝐵) → 𝑠𝑖 𝑠𝑜𝑛 𝑀. 𝐸. 𝑅𝑒𝑔𝑙𝑎 𝑒𝑠𝑝𝑒𝑐𝑖𝑎𝑙 𝑑𝑒 𝑙𝑎 𝑠𝑢𝑚𝑎
 La intersección de dos eventos A y B, denotada por 𝐴ꓵ𝐵 y leída “A y
B”, es el evento que consiste en todos los resultados que están tanto
en A como en B.
 Probabilidad condicional de que un evento ocurrirá: es la frecuencia
relativa con la que puede esperarse que ocurra un evento bajo la
condición de que se conoce información adicional preexistente
acerca de algún otro evento. 𝑃(𝐴|𝐵) se usa para simbolizar la
probabilidad de que el evento A ocurre bajo la condición de que ya
se conoce la existencia del evento B.
𝑃(𝐴ꓵ𝐵)
𝑃(𝐴|𝐵) =
𝑃(𝐵)
Algunas formas de decir o expresar la probabilidad condicional,
𝑃(𝐴|𝐵), son:
La “probabilidad de A, dado B”
La “probabilidad de A, con B conocido”
La “probabilidad de que ocurra A, sabiendo que B ya ocurrió”
 Eventos independientes: dos eventos son independientes si el
suceso (o no suceso) de uno de ellos no nos da información acerca de
la probabilidad de que ocurra el otro. En otras palabras, si la
probabilidad de A permanece sin cambio después que sepamos que
B ha ocurrido (o no ha ocurrido), los eventos son independientes.
𝑃(𝐴|𝐵) = 𝑃(𝐴) o 𝑃(𝐵|𝐴) = 𝑃(𝐵)  eventos independientes
𝑃(𝐴|𝐵) ≠ 𝑃(𝐴) o 𝑃(𝐵|𝐴) ≠ 𝑃(𝐵)  eventos dependientes
Así, la intersección se escribe en forma general:
𝑃(𝐴ꓵ𝐵) = 𝑃(𝐴). 𝑃(𝐵|𝐴) → 𝑟𝑒𝑔𝑙𝑎 𝑔𝑒𝑛𝑒𝑟𝑎𝑙 𝑑𝑒 𝑙𝑎 𝑚𝑢𝑙𝑡𝑖𝑝𝑙𝑖𝑐𝑎𝑐𝑖ó𝑛
Si A y B son independientes:
𝑃(𝐴ꓵ𝐵) = 𝑃(𝐴). 𝑃(𝐵|𝐴) = 𝑃(𝐴). 𝑃(𝐵) → 𝑟𝑒𝑔𝑙𝑎 𝑒𝑠𝑝𝑒𝑐𝑖𝑎𝑙 𝑑𝑒 𝑙𝑎 𝑚𝑢𝑙𝑡𝑖𝑝𝑙𝑖𝑐𝑎𝑐𝑖ó𝑛
Diagrama de árbol:
Muchos problemas de probabilidad pueden representarse por medio de
diagramas de árbol. En estos casos, las reglas de adición y multiplicación
pueden aplicarse con facilidad y es muy útil para tener presentes todas las
posibles combinaciones de las intersecciones y no olvidarse ninguna. Si en
un Bolillero hay 2-bolillas Blancas (B) y 3-bolillas Rojas (R y el experimento
es “Extraer 2 bolillas del Bolillero, sin reposición”
Teniendo esto, se puede construir el espacio muestral y calcular las
probabilidades de que ocurran cada elemento.
𝛺 = {𝐵𝐵, 𝐵𝑅, 𝑅𝐵, 𝑅𝑅}, aplicando la regla del producto se puede calcular
la probabilidad de que ocurra, por ejemplo, B y B:
1 2
2
4 5
20
𝑃(𝐵ꓵ𝐵) = 𝑃(𝐵|𝐵). 𝑃(𝐵) = . =
y así con todos.
Si es con reposición:
Lo mismo de arriba, se pueden definir el espacio muestral y calcular las
probabilidades.
Teorema de la Probabilidad Total y Teorema de Bayes
Teorema de la Probabilidad Total: Si particionamos el espacio
muestral en {𝐴1 , 𝐴2 , … , 𝐴𝑛 } tal que la suma de todos estos elementos da el
espacio muestral; y tomamos un evento cualquiera 𝐵 ⊂ 𝛺. Supongamos
que conocemos la probabilidad de que ocurra este evento para cada
partición, esto es 𝑃(𝐵|𝐴𝑖 ), y que la probabilidad de que ocurra una
partición es conocida, entonces:
𝑛
𝑛
𝑃(𝐵) = ∑ 𝑃(𝐵ꓵ𝐴𝑖 ) = ∑ 𝑃(𝐵|𝐴𝑖 ). 𝑃(𝐴𝑖 )
𝑖=1
𝑖=1
Teorema de Bayes: bajo las mismas condiciones anteriores se tiene:
𝑃(𝐴𝑖 |𝐵) =
𝑃(𝐵ꓵ𝐴𝑖 )
𝑃(𝐵|𝐴𝑖 ). 𝑃(𝐴𝑖 )
= 𝑛
∑𝑖=1 𝑃(𝐵|𝐴𝑖 ). 𝑃(𝐴𝑖 )
𝑃(𝐵)
Esto nos permite hallar las probabilidades de que una partición pueda
causar la ocurrencia de B. Por esta razón, con frecuencia se hace referencia
al teorema de Bayes como el teorema sobre la probabilidad de causas. A
partir de una probabilidad condicional, 𝑃(𝐵|𝐴𝑖 ), que es la que
generalmente da el problema, nos permite obtener una probabilidad
contraria, 𝑃(𝐴𝑖 |𝐵). El denominador de este teorema de Bayes es el dato
que se encuentra a partir de la probabilidad total. Por eso en los problemas
primero se pide utilizar el teorema de la probabilidad total y después se
pide utilizar Bayes.
Siempre que se aplique el teorema de la probabilidad total o el teorema de
Bayes, es importante hacer el esquema de los conjuntos involucrados. El
universo es el espacio muestral y las particiones son los puntos muestrales.
Lo que queremos averiguar es B, un evento que toma elementos de cada
partición. El teorema de Bayes nos podrá pedir “dado B, ¿qué probabilidad
hay de que B sea causado por A2?” por ejemplo.
TP4: Modelos Probabilísticos para Variables Aleatorias Discretas y
Continuas
Si a cada uno de los resultados de un experimento de probabilidad
se asigna un valor numérico, entonces a medida que se observan los
resultados del experimento se observan los valores de una variable
aleatoria. Este valor numérico es el valor de la variable aleatoria.
Variable aleatoria: es una variable que toma un valor numérico único para
cada uno de los resultados que aparecen en el espacio muestral de un
experimento de probabilidad.
En otras palabras, se utiliza una variable aleatoria para denotar los
resultados de un experimento de probabilidad. La variable aleatoria puede
tomar cualquier valor numérico que pertenezca al conjunto de todos los
posibles resultados del experimento. (Se denomina “aleatoria” porque el
valor que toma es el resultado de un evento de probabilidad, o aleatorio.)
En general se representará a las variables aleatorias (v.a.) con letras
mayúsculas: X; Y; Z; etc., y sus valores con letras minúsculas, es decir, x; y;
z, etc.
Las variables numéricas aleatorias se pueden subdividir en dos
clasificaciones: variables aleatorias discretas y variables aleatorias
continuas.
Variable discreta aleatoria: es una variable cuantitativa aleatoria que
puede tomar un número contable de valores.
Variable continua aleatoria: es una variable cuantitativa aleatoria que
puede tomar un número incontable de valores.
En los problemas siempre que se definan las variables, es importante
especificar el tamaño de la muestra porque ella condiciona los parámetros
de los modelos que vamos a usar. Si cambiamos el tamaño de la muestra,
cambiamos esos parámetros. De manera general, las variables se pueden
escribir:
“𝑐𝑎𝑛𝑡𝑖𝑑𝑎𝑑 𝑑𝑒” 𝑜 “𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒” 𝑋 𝐶𝑂𝑆𝐴 (𝑎𝑙𝑢𝑚𝑛𝑜𝑠, 𝑎𝑢𝑡𝑜𝑠, 𝑒𝑚𝑝𝑙𝑒𝑎𝑑𝑜𝑠, 𝑒𝑡𝑐. )
+ “𝑞𝑢𝑒” 𝑇𝐼𝐸𝑁𝐸𝑁 𝑇𝐴𝐿 𝐶𝐴𝑅𝐴𝐶𝑇𝐸𝑅Í𝑆𝑇𝐼𝐶𝐴
+ “𝑒𝑛𝑡𝑟𝑒” 𝑈𝑁 𝑉𝐴𝐿𝑂𝑅 𝐷𝐸 𝐿𝐴 𝑀𝑈𝐸𝑆𝑇𝑅𝐴
Por ejemplo: “número de bicicletas que son de color gris, entre 100,”
Distribución de probabilidad: es una distribución de probabilidades
asociada con cada uno de los valores de una variable aleatoria.(𝑝𝑖 = 𝑃(𝑋 =
𝑥𝑖 )
La relación entre la variable aleatoria y la distribución de probabilidad se
escribe en términos de una función de probabilidad: una regla que asigna
probabilidades a los valores de las variables aleatorias: (𝑥𝑖 , 𝑝𝑖 ). Una función
de probabilidad puede ser tan simple como una lista que empareje los
valores de una variable aleatoria con sus probabilidades. No obstante, una
función de probabilidad se expresa con más frecuencia como fórmula.
Se dice que una variable aleatoria X, de tipo discreto, estará bien definida
si se indican los posibles valores 𝑥1 ; 𝑥2 ; … ; 𝑥𝑘 que puede asumir y las
respectivas probabilidades 𝑝(𝑥1 ); 𝑝(𝑥2 ); … ; 𝑝(𝑥𝑘 ), o equivalentemente, si
conocemos su función de probabilidad (𝑥; 𝑝(𝑥)).
Toda función de probabilidad debe presentar las dos propiedades básicas
de probabilidad: (1) la probabilidad asignada a cada valor de la variable
aleatoria debe estar entre cero y uno, inclusive; y (2) la suma de todas las
probabilidades asignadas a cada valor de la variable aleatoria debe ser igual
a 1, es decir,
Propiedad 1 0 ≤ 𝑐𝑎𝑑𝑎 𝑃(𝑥) ≤ 1
Propiedad 2 ∑toda 𝑥 𝑃(𝑥) = 1
Las
funciones
de
probabilidad se pueden presentar
gráficamente. Cualquiera que sea
la
representación
gráfica
específica
que
se
utilice
(generalmente la de bastones y
para las acumuladas la escalonada
como la imagen de la derecha), los
valores de la variable aleatoria se
grafican en la escala horizontal, y
la probabilidad asociada con cada
valor de la variable aleatoria se grafica en la escala vertical.
Parámetros de población
Con una distribución de probabilidad tenemos una descripción de
una población teórica en vez de una muestra, por lo que los valores de la
media, la desviación estándar y la varianza no son datos estadísticos, sino
parámetros. En la teoría estadística, los parámetros son desconocidos, pero
en este contexto de teoría de probabilidades, estos parámetros son
conocidos y tienen que ver con la probabilidad de ocurrencia de cada uno
de los valores que toma la variable aleatoria. Así, usamos parámetros de
población (media, varianza y desviación estándar) para describir estas
distribuciones de probabilidad, igual que usábamos estadísticas muestrales
para describir muestras.
 La media de una variable aleatoria discreta X frecuentemente se conoce
como su valor esperado o esperanza matemática, y es la suma de (cada x
multiplicada por su propia probabilidad): 𝐸(𝑋) = ∑ 𝑥. 𝑃(𝑥). E(X) es una
medida del centro de la distribución. En esta expresión, P(x) es equivalente
a la frecuencia relativa que aparecía en la definición de media aritmética
que vimos en la estadística descriptiva.
 La varianza de una variable aleatoria discreta X se define en forma muy
semejante que la varianza de datos muestrales: multiplicando cada posible
valor de la desviación de la media al cuadrado, (𝑥 − 𝐸(𝑋))2 , por su propia
probabilidad y luego sumar todos los productos:
2
𝑉𝑎𝑟(𝑋) = ∑ (𝑥 − 𝐸(𝑋)) 𝑃(𝑥)
Con frecuencia no es conveniente usar la fórmula (5.2); puede
reformularse de las siguientes maneras:
𝑉𝑎𝑟(𝑋)
= 𝑠𝑢𝑚𝑎 𝑑𝑒 (𝑥 2 𝑝𝑜𝑟 𝑝𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑)– [𝑠𝑢𝑚𝑎 𝑑𝑒 (𝑥 𝑝𝑜𝑟 𝑝𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑)]2
2
𝑉𝑎𝑟(𝑋) = ∑[𝑥 2 𝑃(𝑥)] − [∑ 𝑥𝑃(𝑥)] = 𝐸(𝑋 2 ) − [𝐸(𝑋)]2
 El Desvío Estándar de una variable aleatoria discreta X es 𝐷. 𝐸. (𝑋) =
√𝑉𝑎𝑟(𝑋), es decir, es la raíz cuadrada positiva de la varianza.
Propiedades de E(X) y Var(X):
Sean X e Y variables aleatorias y c una constante:








𝐸(𝑐) = 𝑐
𝐸(𝑐𝑋) = 𝑐𝐸(𝑋)
𝐸(𝑋 ± 𝑌) = 𝐸(𝑋) ± 𝐸(𝑌)
𝐸(𝑎𝑋 + 𝑏) = 𝑎𝐸(𝑋) + 𝐸(𝑏) = 𝑎𝐸(𝑋) + 𝑏
Si X e Y son V.A. independientes  𝐸(𝑋. 𝑌) = 𝐸(𝑋). 𝐸(𝑌)
𝑉𝑎𝑟(𝑐) = 0
𝑉𝑎𝑟(𝑐𝑋) = 𝑐 2 𝑉𝑎𝑟(𝑋)
Si X e Y son V.A. independientes  𝑉𝑎𝑟(𝑋 ± 𝑌) = 𝑉𝑎𝑟(𝑋) +
𝑉𝑎𝑟(𝑌)
Modelos Para variables Aleatorias Discretas
Dar una distribución para una variable aleatoria es lo mismo que
proponer un modelo probabilístico. De acá en más, 𝑋~𝑌(𝑎) se lee “X tiene
una distribución Y de parámetro 𝑎”. Cada modelo tiene asociado ciertos
parámetros que definen la forma que va a tener un modelo. Si conocemos
los parámetros, conocemos el modelo que vamos usar y sabemos los
valores que va a asumir la variable que vamos a estudiar con este modelo,
podemos calcular las probabilidades asociadas a cada uno de esos valores.
En cada modelo nos interesan tres cosas: cuáles son los valores que
la variable toma; la probabilidad con que toma esos valores; y la Esperanza
y la Varianza.
Para Variables Cuantitativas Discretas:
Los primeros dos modelos que presentamos son de menor
relevancia, mientras que el tercero y el cuarto son muy importantes, son los
que estudiamos en la práctica. Estos últimos dos se desprenden del
segundo.
1) Una variable aleatoria discreta X, que asume los valores
𝑥1 ; 𝑥2 ; … ; 𝑥𝑘 tiene Distribución Uniforme si la probabilidad con que la
variable toma esos valores es la misma e igual a 1/k, cualquiera sea el valor
que toma, esto es:
𝑃(𝑋 = 𝑥𝑖 ) =
1
∀𝑖 = 1,2, … . , 𝑘
𝑘
k es la cantidad de datos que se tienen. Dos ejemplos son: el lanzamiento
de una moneda cuya probabilidad de ocurrencia de la cara, primer
resultado posible, y la cruz, segundo resultado posible, es 1/2 en ambos
casos; el lanzamiento de un dado, misma lógica, la probabilidad de que
salga cada cara del dado es 1/6.
1
 Notación: 𝑋~𝑢 ( )
𝑘
Propiedades:
1
𝐸(𝑋) = ∑ 𝑥 la esperanza es la media aritmética del TP1 porque la
𝑘
probabilidad de ocurrencia es la misma para todos los valores. Entonces se
transforma en la media que ya conocíamos.
1
𝑉𝑎𝑟(𝑋) = {∑[𝑥 2 ] −
𝑘
[∑ 𝑥]2
𝑘
} = 𝐸(𝑋 2 ) − [𝐸(𝑋)]2
2) En el Modelo Bernoulli un experimento se realiza por única vez y consiste
en observar o no una determinada característica. Es decir, se tienen dos
resultados posibles donde uno se considera el éxito y el otro el fracaso.
Una variable aleatoria X que asume apenas los valores “1” y “0” con:
1 = ÉXITO con probabilidad 𝑃(𝑋 = 1) = 𝑝
0 = FRACASO con probabilidad 𝑃(𝑋 = 0) = 1 − 𝑝 = 𝑞 se dice tiene
Distribución Bernoulli de parámetro p.
Una variable aleatoria discreta Bernoulli cuenta el número de éxitos cuando
se realiza un ensayo que contiene dos posibles resultados.
Por ejemplo: Una jeringa se elige al azar de un lote de 500, resulta
defectuosa o no defectuosa. Una persona es elegida al azar de entre 1000,
resulta de sexo femenino o masculino. Una persona es elegida al azar de
entre los habitantes de una ciudad y se le pregunta si está a favor o en
contra de un proyecto municipal.
 Notación: 𝑋~𝐵𝑒𝑟(𝑝)
Propiedades
𝐸(𝑋) = 1(𝑝) + 0(1 − 𝑝) = 𝑝
𝑉𝑎𝑟(𝑋) = [12 · 𝑝 + 02 · (1 − 𝑝)] − 𝑝2 = 𝑝 − 𝑝2 = 𝑝(1 − 𝑝) = 𝑝 · 𝑞
3) El Modelo Binomial es realizar la experiencia Bernoulli más de una vez,
pero un número finito de ensayos.
Supongamos que repetimos un ensayo Bernoulli n-veces, o en otras
palabras, obtenemos una muestra aleatoria de tamaño n de una
Distribución Bernoulli. Supongamos, además, que las repeticiones sean
independientes, esto es, el resultado de un ensayo no tiene ninguna
influencia en el resultado de cualquier otro ensayo. Por lo tanto, una
muestra estará constituida por una secuencia de ÉXITOS y FRACASOS, o si
preferimos de 0 y 1.
Así, una variable aleatoria X definida por “número de éxitos en n-ensayos
Bernoulli independientes” se dice tiene Distribución Binomial de
parámetros n y p si su función de probabilidad está dada por:
𝑛
𝑃(𝑋 = 𝑘) = ( ) 𝑝𝑘 (1 − 𝑝)𝑛−𝑘 , 𝑘 = 0,1,2, … , 𝑛
𝑘
Los ejemplos de tales experimentos son lanzamientos de monedas,
respuestas de examen correcto/equivocado y otros experimentos más
prácticos, como determinar si un producto hace o no su labor prescrita y si
un candidato es electo o no. Hay experimentos en los que los ensayos
tienen muchos resultados que, bajo las condiciones adecuadas, pueden
caber en esta descripción general de ser clasificados en éxito o fracaso. Por
ejemplo, cuando tiramos un solo dado, por lo general consideramos seis
posibles resultados. No obstante, si estamos interesados sólo en saber si
aparece un “uno” o no aparece, hay realmente sólo dos resultados: aparece
el “uno” o aparece “algo más”.
 Notación: 𝑋~𝐵𝑖(𝑛; 𝑝), n es el número de repeticiones del ensayo
Bernoulli y p la probabilidad del éxito; la distribución Bernoulli es el
caso especial 𝑋~𝐵𝑖(1; 𝑝).
Una variable aleatoria 𝑋 ∼ 𝐵𝑖(𝑛; 𝑝) puede asumir (𝑛 + 1) posibles
valores, esto es, tener (𝑛 + 1) posibles éxitos (contando el cero que sería
tener 0 éxitos). el recorrido de X es 𝑅𝑋 = {0, 1, 2, … , 𝑛}. Por ejemplo, si se
hace una encuesta a tres ciudadanos acerca de si votarían a un candidato
político y las respuestas son 0 = NO y 1 = SÍ; los valores que toma la variable
X son; 0 (los tres respondieron que no), 1 (uno respondió que sí y dos que
no), 2(dos respondieron que sí y uno que no), y 3 (los tres respondieron que
sí). En este ejemplo 𝑋 = {0,1,2,3}. Así, los valores que asume la variable
serían (3 + 1).
Propiedades
𝐸(𝑋) = 𝑛𝑝
𝑉𝑎𝑟(𝑋) = 𝑛𝑝𝑞
𝑐𝑜𝑛 𝑞 = 1 − 𝑝
4) El Modelo Poisson es realizar la experiencia Bernoulli más de una vez,
pero un número de ensayos desconocido o muy grande que se puede
considerar infinito; y también cuando p es pequeño de manera que 𝑞 = 1 −
𝑝 es cercano a 1. Por ello proporciona un modelo para la frecuencia relativa
del número de “eventos raros o poco comunes” que ocurren en un intervalo
de tiempo o espacio (o cualquier otra unidad de medida dada).
Una variable aleatoria X definida “número de éxitos en un número grande
(no definido) de ensayos Bernoulli independientes” se dice tiene
Distribución de Poisson de parámetro λ si su función de probabilidad está
dada por:
𝑒 −𝜆 𝜆𝑘
𝑃(𝑋 = 𝑘) =
𝑘!
𝑝𝑎𝑟𝑎 𝑘 = 0,1,2,3, …
Donde λ es un número promedio de éxitos en un intervalo de tiempo. Esto
es porque k va hasta un valor de n tan grande que no se puede fijar, se
utiliza un número promedio de éxitos. Por ello en los problemas aparece
como “x cantidad de aviones por hora” o “y cantidad de empleados que
trabajan en cuarenta minutos” … si cambia la unidad temporal, cambia el
parámetro λ. Esto es importante: en los problemas con modelos Poisson
la distribución estará acotada a una unidad de estudio, sea esta
especialmente temporal. En la práctica se considera un evento raro si el
número de ensayos es por lo menos 50(𝑛 ≥ 50) y 𝑛𝑝 es menor a 5. En tales
casos la distribución binomial puede aproximarse muy bien mediante la
distribución de Poisson con 𝜆 = 𝑛𝑝.
Ejemplos: número de accidentes por mes en una planta fabril; número de
clientes que llegan a un banco en un cuarto de hora; número de bacterias
en un cultivo dado; número de partículas emitidas por una fuente
radioactiva; número de llamadas telefónicas que ingresan a una central
telefónica de un edificio público por hora; número de accidentes
informados, por día, a una compañía de seguros
 Notación: 𝑋~𝑃(𝜆)
Propiedades
𝐸(𝑋) = 𝑉𝑎𝑟(𝑋) = 𝜆
Para Variables Cuantitativas continuas:
Cuando consideramos una variable cuantitativa continua, existen ∞
valores que puede tomar X, y por ende la probabilidad de que tome un valor
exacto siempre es cero.
Ahora tendremos una función f(x), llamada Función de densidad de
probabilidad, cuya área bajo la curva en un intervalo de dos puntos da la
probabilidad 𝑃(𝑎 ≤ 𝑥 ≤ 𝑏) de que la variable aleatoria tome valores entre
𝑏
esos dos puntos. 𝑃(𝑎 ≤ 𝑥 ≤ 𝑏) = ∫𝑎 𝑓(𝑥)𝑑𝑥. Teóricamente, cualquier
función f(•) que sea no negativa y cuyo área total bajo una curva sea igual
a la unidad, caracteriza una variable aleatoria continua y le define un
Modelo Probabilístico. Un general, un modelo probabilístico para una
variable aleatoria continua quedará definido cuando se conozca el Dominio
de la variable (por lo general, R) y una función de densidad de probabilidad.
Propiedades de una función de densidad de probabilidad (válido para
cualquier modelo de variable cuantitativa continua)
∞
𝐸(𝑋) = ∫−∞ 𝑥𝑓(𝑥)𝑑𝑥
∞
𝑉𝑎𝑟(𝑋) = ∫−∞[𝑥 − 𝐸(𝑋)]2 𝑓(𝑥)𝑑𝑥
0 ≤ 𝑓(𝑥) ≤ 1, ∀𝑥
𝑓(𝑥) es una función no decreciente
lim 𝑓(𝑥)𝑥→−∞ = 0
lim 𝑓(𝑥)𝑥→∞ = 1
𝑃(𝑎 ≤ 𝑋 ≤ 𝑏) = 𝐹(𝑏) − 𝐹(𝑎)
𝑃(𝑎 ≤ 𝑋 ≤ 𝑏) = 𝑃(𝑎 < 𝑋 ≤ 𝑏) = 𝑃(𝑎 ≤ 𝑋 < 𝑏) = 𝑃(𝑎 < 𝑋 < 𝑏)
1) La distribución de probabilidad normal emplea dos funciones: una
función para determinar las ordenadas (valores y) de la gráfica que
representa la distribución y una segunda para determinar las
probabilidades. La fórmula 𝑦 = 𝑓(𝑥) =
1 𝑥−𝜇
− (
)
𝑒 2 𝜎
𝜎 √2𝜋
expresa la ordenada (valor
y) que corresponde a cada abscisa (valor x). Cuando se traza una gráfica de
todos estos puntos, la curva normal (en forma de campana) aparecerá
como:
Los parámetros en una normal son μ y σ; tal que −∞ < 𝜇 < ∞, 𝜎 2 >
0.
Nota: cada par diferente de valores para la media, μ, y desviación
estándar, σ, resultarán en una función diferente de distribución de
probabilidad normal.
La siguiente fórmula da la probabilidad asociada con el intervalo de
𝑥 = 𝑎 a 𝑥 = 𝑏:
𝑏
𝑃(𝑎 ≤ 𝑥 ≤ 𝑏) = ∫ 𝑓(𝑥) 𝑑𝑥
𝑎
La probabilidad de que x se encuentre dentro del intervalo de 𝑥 = 𝑎
a 𝑥 = 𝑏 se muestra como el área sombreada en la figura de abajo:
La función de densidad de probabilidad normal se nota 𝑋~𝑁(𝜇; 𝜎 2 )
y tiene las siguientes propiedades:
 𝐸(𝑋) = 𝜇
 𝑉𝑎𝑟(𝑋) = 𝜎 2
 Las figuras a seguir muestran la función de densidad normal
según varía µ para σ fijo; y para σ variando (µ fijo):
 𝐹(𝑥) → 0 cuando 𝑥 → ±∞
 (𝜇 − 𝜎) y (𝜇 + 𝜎) son puntos de inflexión de 𝑓(𝑥)
 𝑥 = 𝜇 es el punto máximo de 𝑓(𝑥) y el valor máximo es
1
√2𝜋𝜎
 𝑓(𝑥) es simétrica en torno de μ, esto es, 𝑓(𝑥 + 𝜇) = 𝑓(𝑥 − 𝜇),
para todos −∞ < 𝑥 < ∞
 Media = Moda = Mediana
 Si µ = 0 y 𝜎 = 1 =⇒ 𝑋 ∼ 𝑁(0, 1) se denomina Distribución
Normal Estándar y esta distribución se encuentra tabulada
𝑋−µ
 Si 𝑋 ∼ 𝑁(µ, 𝜎 2 ) =⇒ 𝑍 =
∼ 𝑁(0, 1).
𝜎
 Siempre es posible calcular 𝑃(𝑎 < 𝑋 < 𝑏) a partir de la
estandarización de la variable aleatoria, esto es:
𝑎−𝜇
𝑋−𝜇
𝐵−𝜇
 𝑃(𝑎 < 𝑋 < 𝑏) = 𝑃 (
<𝑍=
<
)
𝜎
𝜎
𝜎
Las primeras dos fórmulas anteriores que vimos no se usarán para
calcular probabilidades de distribuciones normales. La integral definida que
aparece arriba pertenece al campo del cálculo y su alcance matemático está
fuera de lo que se espera en estadística elemental (estas fórmulas aparecen
con frecuencia como identificación en la parte superior de tablas de
probabilidad normal.) En lugar de ello, usaremos una tabla para hallar
probabilidades para distribuciones normales. Las dos fórmulas se usaron
para generar esa tabla. Antes que aprendamos a usarla, sin embargo, debe
señalarse que la tabla está expresada en forma “estandarizada” de modo
que esta tabla pueda usarse para hallar probabilidades para todas las
combinaciones de valores de la media, μ, y desviación estándar, σ.
Propiedades de la distribución normal estándar:
1. El área total bajo la curva normal es igual a 1.
2. La distribución tiene forma de campana y es simétrica; se extiende
indefinidamente en ambas direcciones, aproximándose, pero sin tocar el
eje horizontal.
3. La distribución tiene una media de 0 y una desviación estándar de 1.
4. La media divide el área en dos: 0.50 a cada lado.
5. Casi toda el área está entre z = –3.00 y z = 3.00.
Las tablas del apéndice son una lista de las probabilidades asociadas con los
intervalos desde la media (ubicada en z = 0.00) hasta un valor específico de
z. Las probabilidades de otros intervalos pueden hallarse usando las
entradas de tabla y las operaciones de adición y sustracción, de acuerdo
con las propiedades precedentes.
Para trabajar en R Commander hay que tener en cuenta que el programa
da las probabilidades acumuladas, por encima de un valor hasta infinito, o
por debajo del mismo hasta menos infinito.
2) Una variable aleatoria continua X, definida en R +, tiene Distribución
Exponencial de parámetro λ, (𝜆 > 0), si su función de densidad de
probabilidad está dada por:
−𝜆𝑥
𝑓(𝑥) = {𝜆𝑒 𝑠𝑖 𝑥 ≥ 0
0 𝑠𝑖 𝑥 < 0
Notación: 𝑋 ∼ 𝜀(𝜆). La gráfica de la función de densidad de probabilidad de
una 𝑋 ∼ 𝜀(𝜆) es:
Propiedades
1
 𝐸(𝑋) =
 Var(X)=
𝜆
1
𝜆2
 La distribución exponencial no tiene memoria. Esto es, si 𝑋 ∼ 𝜀(𝜆),
se verifica: 𝑃(𝑋 ≥ 𝑥 + 𝑦|𝑋 ≥ 𝑥) = 𝑃(𝑋 ≥ 𝑦). La distribución
exponencial es la única distribución absolutamente continua que
satisface esta propiedad.
Ejemplos: Las siguientes variables pueden modelarse a partir de una
exponencial:
1. “Tiempo que transcurre en un centro de llamadas hasta recibir la primera
llamada del día”;
2. “Intervalo de tiempo entre terremotos (de una determinada magnitud)”;
3. “La cantidad de metros de alambre que produce una máquina hasta
encontrar una falla en el alambre´´.
4. En Hidrología la distribución exponencial se utiliza para describir los
“tiempos de interarribo de choques aleatorios a sistemas hidrológicos”,
tales como volúmenes de escorrentía contaminada que entran en los ríos a
medida que la lluvia lava los contaminantes localizados en la superficie del
terreno.
3) Una variable aleatoria continua X tiene Distribución Uniforme con
parámetros 𝑎 y 𝑏 (𝑎 < 𝑏) si su función de densidad de probabilidad está
dada por:
1
𝑓(𝑥) = {(𝑏 − 𝑎) 𝑠𝑖 𝑎 ≤ 𝑥 ≤ 𝑏
0 𝑐𝑎𝑠𝑜 𝑐𝑜𝑛𝑡𝑟𝑎𝑟𝑖𝑜
Notación: 𝑋 ∼ 𝑈(𝑎, 𝑏). La gráfica de la función de densidad de probabilidad
de una variable 𝑋 ∼ 𝑈(𝑎, 𝑏) es:
Propiedades
(𝑎+𝑏)
𝐸(𝑋) =
𝑉𝑎𝑟(𝑋) =
2
(𝑏−𝑎)2
12
0
(𝑥−𝑎)
𝑃(𝑋 ≤ 𝑥) = { (𝑏−𝑎)
1
𝑠𝑖 𝑥 < 𝑎
𝑠𝑖 𝑎 ≤ 𝑥 < 𝑏
𝑠𝑖 𝑥 ≥ 𝑏
TP5: Distribuciones Muestrales
Partimos de una población que generalmente no podemos abarcar
en su totalidad porque tiene gran cantidad de individuos o elementos, y que
está identificada por una media y una varianza. Lo que hicimos en la primera
parte de este curso era tomar, de esa población, una muestra y trabajar
haciendo un análisis exploratorio, siempre de esa muestra, calculando los
estadísticos muestrales: medias, desvíos, medianas, etc. Además, podíamos
resumir la información en gráficos y mostrarla en tablas de distribución de
frecuencias. Ahora supongamos que de una población obtenemos más de
una muestra y que de ellas calculamos las medias, tendríamos un conjunto
de medias muestrales. Ahora tendremos una nueva variable, distribución
de medias muestrales 𝑋̅, conformada por las medias muestrales de la
población {𝑥̅1 ; 𝑥̅2 ; … ; 𝑥̅𝑛 }. Si calculamos la media o esperanza de 𝑋̅,
obtendremos una media que identifica a toda la población. Cuando el
número N de muestras obtenidas se aproxima a infinito, el valor de la media
de 𝑋̅ se aproxima a 𝜇, la media poblacional, y el valor de la varianza de 𝑋̅ se
aproxima a
𝜎2
𝑛
, haciéndose más pequeña conforme aumenta n, el tamaño
de cada una de las N muestras tomadas (osea n es el número de elementos
que tiene cada muestra y N es el número de muestras). Además, el patrón
de comportamiento o distribución muestral de 𝑋̅ tendrá forma de campana
de Gauss. Resumiendo:
Siendo 𝑋̅ = 𝑁 𝑚𝑒𝑑𝑖𝑎𝑠 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙𝑒𝑠 𝑑𝑒 𝑢𝑛𝑎 𝑝𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛. Si 𝑁 → ∞,
entonces:
2
𝜎
𝑋̅~𝑁 (𝜇; ) siendo n el tamaño de cada una de las N muestras
𝑛
En relación a
𝜎2
𝑛
, decimos que siempre la varianza resulta afectada por
el tamaño de la muestra porque si se tienen gran cantidad de datos, como
cuando N tiende a infinito, es más fácil que esa dispersión o heterogeneidad
que estos presentan sea menor y empiece a haber una concentración de
datos en torno a un valor medio. Esto es lo característico de una campana
de Guass. Es por eso que en ese caso, la varianza comienza a disminuir. Por
el contrario, cuando se tienen pocos datos, lo más probable es que estos
reflejen una gran variabilidad y, en tal caso, la varianza será más grade. Por
eso la varianza siempre resulta afectada por el tamaño de cada muestra n.
TP6: INTRODUCCIÓN A LA INFERENCIA ESTADISTICA -Estimación
Puntual y por Intervalos de Confianza
En la primera parte de este curso, hemos visto: ¿cómo resumir
descriptivamente un conjunto de datos?
En la segunda parte, vimos ¿cómo construir Modelos Probabilísticos
para describir un fenómeno o experimento de interés? Ahora, vamos a
REUNIR esos dos tópicos para estudiar una rama muy importante de la
estadística conocida como INFERENCIA ESTADÍSTICA lo cuál implica hacer
afirmaciones sobre características de una población basándonos en las
observaciones de la muestra.
Como recordarás, el teorema central del límite te da cierta
información muy importante acerca de la distribución de medias
muestrales. Específicamente, afirma que en muchos casos (cuando la
muestra aleatoria es suficientemente grande), una distribución de medias
muestrales tiene una distribución normal o aproximadamente normal en
torno a la media de la población. Con esta información es posible hacer
enunciados de probabilidad acerca de la posibilidad de que ocurran ciertos
valores de medias muestrales cuando las muestras se extraen de una
población con una media conocida y una desviación estándar conocida.
Ahora estamos listo para dar un giro a esta situación hacia el caso donde la
media poblacional no es conocida. Extraeremos una muestra, calcularemos
su valor medio y luego haremos una inferencia acerca del valor de la media
poblacional con base en el valor de la media muestral.
El objetivo de la estadística inferencial es usar la información
contenida en los datos muestrales para aumentar nuestro conocimiento de
la población muestreada. Aprenderemos a hacer dos tipos de inferencias:
(1) estimar el valor de un parámetro poblacional y (2) probar una hipótesis
(próximo TP). La distribución de medias muestrales es la clave para hacer
estas inferencias, como se muestra en esta figura:
Figura 1 ( J o h n s o n , 1 0 ° E d ) Lugar donde
la distribución muestral cabe en el proceso
estadístico
Antes de comenzar con un estudio detallado de los problemas
básicos de la Inferencia Estadística, es importante responder tres
preguntas:
1. ¿Cómo seleccionar la muestra?,
2. ¿Qué información pertinente (estadística) será retirada de la
muestra?, y
3. ¿Cómo se comporta la estadística cuando el mismo
procedimiento de elegir la muestra es usado en una población
conocida?
Las tres preguntas conducen a elaborar teoría, respectivamente,
sobre:
1. Procedimientos o Técnicas de Muestreo; constituyen una
especialidad dentro de la estadística, conocida como DISEÑO
DE MUESTREO. Los distintos procedimientos se agrupan en
dos grandes grupos: 1) MUESTREO PROBABILÍSTICO: reúne
todas aquellas técnicas que usan mecanismos aleatorios de
selección de los elementos de la muestra, atribuyendo a cada
uno una probabilidad conocida “a priori” de pertenecer a la
muestra. 2) MUESTREO NO-PROBABILÍSTICO: agrupa a todos
los demás procedimientos, entre los que caben mencionar:
muestreos intencionales, donde los elementos se seleccionan
con ayuda de un especialista, o muestras con voluntarios como
ocurre cuando se quieren probar nuevas técnicas medicinales
o nuevos medicamentos. Ambos procedimientos mencionados
tienen sus ventajes y sus desventajas. Una ventaja del
muestreo probabilístico es que permite medir la “precisión” de
la muestra obtenida, basándose en el resultado contenido en
la propia muestra. Tales medidas son más difíciles de obtener
para los procedimientos no-probabilísticos.
Dentro de las distintas técnicas de selección de la muestra, los
más conocidos (muestreos elementales) son: 1) Muestreo
Aleatorio Simple; 2) Muestreo Aleatorio Sistemático; 3)
Muestreo Aleatorio Estratificado; y 4) Muestreo Aleatorio por
Conglomerados.
En este curso nos concentraremos en el caso más simple de
muestreo probabilístico, conocido como Muestreo Aleatorio
Simple. Este método atribuye, a cada elemento de la
población, la misma probabilidad de selección y el elemento
sorteado es repuesto en la población antes del próximo sorteo.
Una Muestra Aleatoria Simple de tamaño n de una variable
aleatoria X, con una dada distribución, es un conjunto de nvariables aleatorias independientes 𝑋1 , 𝑋2 , … , 𝑋𝑛 cada una de
ellas con la misma distribución de X.
2. Estimadores apropiados (para media, varianza, proporción)
asociados a los objetivos del investigador; el estimador es una
característica de la muestra, o sea una función de
𝑋1 , 𝑋2 , … , 𝑋𝑛 . El valor de una característica obtenida a partir de
los datos de la muestra se usará como una “estimativa” de la
característica poblacional desconocida.
Los estimadores más comunes son:
1
 Media muestral: 𝑋̅ = ∑𝑛𝑖=1 𝑋𝑖
𝑛
 Varianza Muestral: 𝑆 =
2
1
𝑛−1
∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅ )2
 Proporción
Muestral:
𝑝̂ =
#𝑐𝑎𝑠𝑜𝑠 𝑓𝑎𝑣𝑜𝑟𝑎𝑏𝑙𝑒𝑠
#𝑐𝑎𝑠𝑜𝑠 𝑝𝑜𝑠𝑖𝑏𝑙𝑒𝑠
=
∑𝑛
𝑖=1 𝑋𝑖
𝑛
donde
1 𝑠𝑖 𝑒𝑙 𝑖𝑛𝑑𝑖𝑣𝑖𝑑𝑢𝑜 𝑖 𝑒𝑠 𝑝𝑜𝑟𝑡𝑎𝑑𝑜𝑟 𝑑𝑒 𝑙𝑎 𝑐𝑎𝑟𝑎𝑐𝑡𝑒𝑟í𝑠𝑡𝑖𝑐𝑎
𝑋𝑖 = {
0 𝑐𝑎𝑠𝑜 𝑐𝑜𝑛𝑡𝑟𝑎𝑟𝑖𝑜
3. Distribuciones Muestrales de los Estimadores, cuando se
observan los resultados de innumerables estimaciones,
siguiendo el mismo proceso de estimación varias veces.
La estimación puede ser dividida en dos categorías:
• Estimación Puntual, y
• Estimación por Intervalos de Confianza.
La estimación puntual para un parámetro es un número designado
para estimar un parámetro cuantitativo de una población, es el valor de la
correspondiente estadística muestral. Esto es, la media muestral, 𝑥̅ , es la
estimación puntual (valor de un solo número) para la media, 𝜇, de la
población muestreada.
La calidad de un procedimiento (o método) de estimación mejora
bastante si la estadística muestral es menos variable e insesgada a la vez.
La variabilidad de una estadística es medida por el desvío estándar de su
distribución muestral. La media muestral se puede hacer menos variable al
reducir su desvío estándar, 𝜎/√𝑛, lo cual requiere el uso de una muestra
más grande debido a que cuando n aumenta, el error estándar disminuye.
Estimación insesgada: es una estimación cuya distribución muestral
tiene un valor medio igual al valor del parámetro poblacional que se estima.
Una estimación que no es insesgada es una estimación sesgada. La figura 2
ilustra el concepto de ser insesgado y el efecto de variabilidad de la
estimación puntual. El valor A es el parámetro que se estima, y los puntos
representan posibles valores de la estadística que forman la distribución
muestral. Si A representa la media poblacional verdadera, μ, entonces los
puntos representan posibles medias muestrales de la distribución muestral
𝑥̅ .
Figura 2 Efectos de variabilidad y sesgo
Cuando un estimador es insesgado y preciso se dice que es un estimador
“consistente” del parámetro.
Definición: una secuencia 𝜃̂𝑛 de estimadores de un parámetro 𝜃 es
consistente si, ∀ ∈> 0, 𝑃{|𝜃̂𝑛 − 𝜃| > } → 0, cuando 𝑛 → ∞. En la
diapositiva 34 hay otra definición alternativa en términos de límites de
estimadores cuando n tiende a infinito, establecen la propiedades de
ausencia de sesgo y mínima varianza.
Sin embargo, este procedimiento no nos permite juzgar cuál es la
posible magnitud del error que estamos cometiendo. Y a partir de ello,
surge la idea de construir Intervalos de Confianza:
 El ancho del Intervalo de Confianza (IC) aumenta, conforme
aumenta el Coeficiente de Confianza.
 La elección del coeficiente de confianza para una dada situación
depende del grado de confianza deseado para la estimativa.
 Como resultado de esa libertad, se ha vuelto costumbre utilizar
un coeficiente de confianza γ = 0,90, 95 o 99.
Descargar