INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA. Población: El

Anuncio
INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA.
Población: El conjunto de todos los elementos o individuos que
poseen una determinada característica o cualidad de interés.
Existen situaciones en las que no es posible analizar todos los
elementos de la población, como cuando:
-
La población no sea finita.
No existe forma de saber todos los integrantes de la misma.
Gran tamaño de la población.
Muestra: Conjunto de elementos de la población seleccionados de
forma tal que este subconjunto sea representativo de toda la población.
Para garantizar que una muestra sea representativa de la población de
referencia, los elementos de la primera (muestra) han de ser
seleccionados al azar por procedimientos de muestro (muestreo
aleatorio simple, muestreo estratificado, ….).
Inferencia estadística:
Tipos de inferencia:
-
deductiva “de lo general a lo particular”
inductiva “de lo particular a lo general”
La inferencia estadística es inductiva, dado que a partir de la
información de la muestra obtenemos conclusiones que generalizamos
a toda la población.
Las características de interés de la población se les conocen con el
nombre de parámetros poblaciones. Con posterioridad veremos que
supondremos que el comportamiento de la población está gobernado
por una ley de probabilidad f ( x,θ ) , y que las características de interés
de la población sobre los queremos obtener conclusiones los
identificamos con los parámetros o parámetro θ que gobiernan la ley
1
de probabilidad. Utilizaremos la información muestral para obtener
conclusiones acerca de θ .
Al obtener conclusiones con la información de la muestra que
generalizamos al total de la población, estamos incurriendo en un
riesgo o incertidumbre. La forma adecuada de cuantificar ese riesgo o
incertidumbre es a través del concepto de probabilidad.
Ejemplos de inferencia estadística:
-
Se desea conocer el gasto medio por turista en el año 2001.
(±50 millones de turistas visitaron España en 2001).
Se desea saber el porcentaje de votos que sacará un
determinado partido político en las próximas elecciones.
…………………
2
Tipos de inferencia estadística
-
Estimación (puntual y por intervalo).
-
Contraste de Hipótesis.
CONCEPTOS BÁSICOS SOBRE PROBABILIDAD
Experimentos y sucesos aleatorios
Experimento aleatorio: Es aquel en que se sabe cuales son los
posibles resultados del mismo pero no se sabe a priori cual de ellos es
el que se va a producir. En el mejor de los casos se puede llegar a
cuantificar la incertidumbre asociada a cada uno de los posibles
resultados del experimento. Por ejemplo, lanzar una moneda o un
dado.
En el caso del turismo al seleccionar turista:
-
La decisión de ir o no ir a un destino determinado.
El grado de satisfacción con respecto a un servicio,
hotel,…
De un experimento aleatorio conoceremos en principio los posibles
resultados y en el mejor de los casos podremos cuantificar la
incertidumbre/riesgo (probabilidad de ocurrencia) asociada a cada uno
de esos resultados, pero cada vez que se lleve a cabo el experimento
no sabremos que resultado puede adoptar.
Por ejemplo lanzar una moneda al aire:
-
Posibles resultados: cara o cruz
Si la moneda esta bien construida las posibilidades de
obtener cara o cruz son las mismas.
Pero cada vez que lanzamos la moneda la moneda no
sabemos que resultado tendremos.
3
Espacio muestral: Llamaremos espacio muestral al conjunto de todos
los posibles resultados que se pueden obtener de un experimento
aleatorio.
Suceso aleatorio: Llamaremos suceso aleatorio a un subconjunto del
espacio muestral.
Suceso elemental: cada uno de los elementos del espacio muestral.
Por ejemplo al lanzar un dado al aire:
-
Espacio muestral: {1, 2, 3, 4, 5, 6}
Sucesos elementales: {1}, {2}, {3}, {4}, {5} y {6}
Suceso aleatorio “sacar menos de 4” {1, 2, 3} que está
formado por los sucesos elementales {1}, {2} y {3}.
CONCEPTO DE PROBABILIDAD.
La probabilidad es una media que trata de cuantificar de forma
numérica las posibilidades de ocurrencia de un determinado suceso de
un experimento aleatorio.
Las posibilidades se miden en una escala de 0 a 1 donde:
4
Si consideramos un determinado suceso al que llamamos A, se llama
suceso complementario o contrario al suceso A, al suceso que ocurre
cuando no lo hace A y se representa por A .
Finalmente es importante tener presente que, si para un experimento
aleatorio tenemos un total de n sucesos elementales {A1 , A2 ,K , An } y
son excluyentes/disjuntos se cumplirá:
P( Ai ) ≥ 0
P(AiUA j ) = P( Ai ) + P (A j )
(
P U in=1 Ai
) = ∑ P(U
n
i =1
n
i =1 Ai
)=1
Definición clásica de probabilidad.
La forma de calcular la probabilidad asociada a un evento desde el
punto de vista clásico, es a través de la formula de Laplace que
consiste en calcular la probabilidad asociada a un evento A utilizando:
P( A) =
número de casos favorables al evento A
número de casos posibles
El anterior planteamiento es válido si los posibles resultados del
experimento son finitos y no existen razones que favorezcan que
alguno de los posibles resultados pueda suceder de forma más
frecuente que el resto. También es evidente que;
P ( A ) = 1 − P ( A)
Por ejemplo si una baraja esta formada por 4 palos (oros, espadas,
copas y bastos, as, dos, tres, cuatro, cinco, seis, siete, ocho, nueve,
sota, caballo y rey, 48 naipes) las probabilidades de:
5
12 1
=
48 4
4
P(as ) =
48
1
P(bastos ) =
48
P(oros ) =
Probabilidad y frecuencia relativa.
Algunos experimentos se pueden repetir muchas veces. Si los
resultados obtenidos cada vez que se repite o se lleva acabo el
experimento son independientes entre si, es decir, el resultado
obtenido a llevar a cabo el experimento una vez no afecta a los demás
resultados. Podemos calcular la frecuencia relativa f(A) de ocurrencia
de un suceso A como:
f ( A) =
nA
n
Donde:
n: número total de veces que se repite el experimento.
n A : número de veces que ha sucedido el suceso/evento A al repetir n
veces el experimento.
A medida que el número de veces que se repite el experimento (n) va
aumentando el valor de la frecuencia relativa se irá estabilizando en
un valor entre 0 y 1.
6
Frecuencia relativa del suceso cara al lanzar una moneda al aire.
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
1
15 29 43 57 71 85 99 113 127 141 155 169 183 197 211 225 239 253 267 281 295
La probabilidad de un suceso, también puede definirse como el límite
n
al que tiende f ( A) = A cuando el número de veces que se repite el
n
experimento tiende a infinito:
nA
n→∞ n
P( A) = lim f ( A) = lim
n →∞
Por ejemplo si sabemos que un ejecutivo ha viajado a Paris un total de
800 veces y de esas 800 veces ha escogido 500 veces la compañía B
para viajar, podríamos aproximar la probabilidad de que el ejecutivo
vuelva a elegir la compañía B para viajar a Paris utilizando:
P(B ) =
500
= 0.625
800
VARIABLES ALEATORIAS Y DISTRIBUCIONES DE
PROBABILIDADES.
Cada que se realiza un experimento aleatorio sabemos:
-
Los posibles resultados que se pueden obtener (evento).
7
-
-
No sabremos a priori cual de los posibles resultados
obtendremos cada vez que repitamos el experimento
(evento resultante).
Pero podemos intentar cuantificar las posibilidades de
ocurrencia de cada uno de los resultados (probabilidad).
Una forma sencilla de trabajar con todo lo anterior (experimentos
aleatorios, eventos y probabilidades) es a través de las variables
aleatorias.
Concepto de variable aleatoria (v.a).
Una variable aleatoria nos permite trabajar de forma más sencilla con
los experimentos aleatorios al asignar a cada evento un valor dentro
del espacio de los números reales por ejemplo:
Experimento aleatorio Eventos
Lanzar una moneda
Cara
Cruz
Sexo de una persona Hombre
seleccionada al azar
Mujer
Color de pelo
Moreno
Castaño
Rubio
Pelirrojo
v.a.
0
1
0
1
0
1
2
3
Asociado a cada uno de los posibles resultados del experimento
aleatorio, la variable aleatoria adaptará un valor distinto, por lo tanto
para cada valor de la v.a. tendremos asociada una probabilidad.
Se distingue entre variables aleatorias:
-
v.a. discretas: que son las que pueden adoptan número
finito de resultados.
v.a. continuas: que son las que pueden obtener infinitos
valores contenidos en un intervalo.
8
Por ejemplo al encuestar a un turista se le puede preguntar:
- Medio de transporte utilizado (v.a discreta).
- Nacionalidad (v.a discreta).
- Nivel de estudios (v.a discreta).
- Gasto que ha realizado (v.a continua)
……
Distribuciones de probabilidad de variables aleatorias discretas.
Dado que las variables aleatorias discretas solo pueden tomar un
número finito de resultados/valores, lo que se hace es presentar junto a
cada valor de la v.a. la probabilidad de que pueda tomar ese valor.
Llamaremos función de probabilidad (función de cuantía) de una
v.a. discreta a la presentación conjunta de los posibles valores de la
v.a junto con las posibilidades de ocurrencia.
Entonces si tenemos una v.a. discreta X, que puede tomar los valores
x1, x2,..., xn. Y representamos por p1, p2,..., pn las correspondientes
probabilidades de que ocurran estos valores, de manera que, pi =
P(X=xi). Entonces, la función de probabilidad de la variable aleatoria
X viene dada por
xi
x1
x2
M
xn
P(X=xi)
p1
p2
M
pn
1
Por ejemplo en el experimento aleatorio lanzar al aire una moneda
(bien construida) tenemos:
9
xi
P(X=xi)
0 (cara)
0.5
1 (cruz)
0.5
1
En el caso de lanzar un dado al aire (bien construido):
xi
1
2
3
4
5
6
P(X=xi)
1/6
1/6
1/6
1/6
1/6
1/6
1
0,18
0,16
0,14
0,12
0,1
0,08
0,06
0,04
0,02
0
1
2
3
4
5
6
Otra forma de caracterizar la distribución de una v.a. discreta es a
través de la función de distribución o función de probabilidad
acumulada. Que consiste indicar para cada valor de la variable
aleatoria la probabilidad de que esa v.a. tome un valor menor o igual a
ese valor. Se denota utilizando F ( x ) y responde a:
10
F ( x ) = P( X ≤ x )
Para el caso del experimento de lanzar un dado al aire tendríamos:
xi
1
2
3
4
5
6
P(X=xi)
1/6
1/6
1/6
1/6
1/6
1/6
1
F ( xi )P( X ≤ xi )
1/6
2/6
3/6
4/6
5/6
1
1,2
1
0,8
0,6
0,4
0,2
0
1
2
3
4
5
6
Distribuciones de probabilidad de variables aleatorias continuas.
En el caso de las v.a. continuas su distribución de probabilidad se
representa mediante la función de densidad de probabilidad .
La función de densidad de una v.a. continua es la función que
representa la distribución de probabilidad de los infinitos posibles
valores de la v.a. continua.
11
Es importante tener en cuenta que la función de densidad o
probabilidad de que una v.a. continua tome un valor determinado será
igual a cero. Basta pensar que si se ha definido la probabilidad como
número de casos posibles entre número de caso totales, al ser estos
últimos igual a infinito, la probabilidad de que una v.a. continua tome
un valor determinado será cero.
Denotaremos la función de densidad por f ( x ) y cumplirá las
siguientes características:
-
Toma siempre valores no negativos f ( x ) ≥ 0
El area total que se encuentra debajo de la función es igual
a 1.
-
∞
∫− ∞ f (x )dx = 1 .
La probabilidad de la v.a. tome un valor determinada a es
igual a cero. f (a ) = 0
La probabilidad de que la v.a. tome valores comprendidos
entre a y b será igual al área que queda debajo de la
función de densidad f ( x ) entre esos dos valores.
P(a ≤ x ≤ b ) = ∫ f ( x )dx.
b
a
f(x)
a
b
X
12
En cuanto a la función de distribución o función de probabilidad
acumulada F ( x ) (función de densidad acumulada) se define de la
misma manera, es decir:
F ( x ) = P( X ≤ x0 ) = ∫
x0
−∞
f ( x )dx
Como la probabilidad de que la v.a. aleatoria tome valores menores a
ese valor, es decir, el área que queda en la función densidad por
debajo de ese valor.
f (x )
x0
X
Medidas características de una variable aleatoria.
Una vez que se ha presentado las distribuciones de probabilidad de las
v.a. discretas y continuas, estamos en disposición de analizar las
medias que se utilizan para caracterizar a las variables aleatorias. En
concreto veremos una media de posición central (esperanza
matemática o valor esperado) y dos medidas de dispersión (varianza y
desviación típica).
Esperanza matemática o valor esperado E [ ].
13
La esperanza matemática o valor esperado es una media de posición
central, por lo tanto, lo que pretende recoger esta medida es el valor en
torno al cual se distribuye la v.a., o como el propio nombre dice el
valor que esperamos que alcance la v.a. cada vez que obtenemos una
realización del la misma (tiene lugar el experimento aleatorio).
En la estadística descriptiva la manera de obtener una medida de
posición central es a través de la media muestral:
k
1 k
n
n
n
n
x = ∑ xi ni = ∑ xi i = x1 1 + x2 1 + L + xk k =
n i =1
n
n
n
n
i =1
= x1 f1 + x2 f 2 + L + xk f k
Donde f i es la frecuencia relativa. Si n tiende a infinito las
frecuencias relativas tienden hacia la probabilidad. Por lo tanto la
forma natural de calcular el valor esperado para una v.a. discreta será:
xi
x1
x2
M
xn
P(X=xi)
p1
p2
M
pn
1
n
E [ X ] = ∑ xi pi = x1 p1 + x2 p2 + L + xn pn = µ
i =1
En el caso de las variables aleatorias continuas el valor esperado se
obtiene utilizando:
E[X ] = ∫
∞
−∞
xf ( x )dx = µ
14
La esperanza matemática de una variable aleatoria representa el
promedio de todos los posibles valores que puede adoptar dicha v.a..
f (x )
E [X ]
X
Consideremos que disponemos de la distribución de la v.a. valoración
de un determinado hotel por parte de los usuarios, siendo la valoración
1al 4:
xi
1
2
3
4
P(X=xi)
0,29
0,35
0,24
0,12
15
0,40
0,35
0,30
0,25
0,20
0,15
0,10
0,05
0,00
1
2
3
4
El valor esperado será:
n
E [ X ] = ∑ xi pi = 1 × 0.29 + 2 × 0.35 + 3 × 0.24 + 4 × 0.12 = 2,185
i =1
¿Cuál será el valor esperado de lanzar un dado al aire?
Varianza VAR[
] y desviación típica.
Además de disponer de una medida de posición central resulta
interesante disponer de medidas que permitan cuantificar la dispersión
en la distribución de una variable aleatoria. La medida que
utilizaremos será la varianza que mide la dispersión de la distribución
de la variable entorno al valor esperado (media de posición central).
La varianza la obtendremos para las variables aleatorias discretas con:
[
] [
]
VAR[ X ] = E ( X − E ( X ))2 = E ( X − µ )2 =
n
= ∑ ( xi − µ )2 pi = ( x1 − µ )2 p1 + ( x2 − µ )2 p2 + L + ( xn − µ )2 pn
i =1
=σ2
16
Para las variables aleatorias continuas se obtiene utilizando:
[
] [
]
VAR[ X ] = E ( X − E ( X ))2 = E ( X − µ )2 =
∞
(
x − µ )2 f ( x )dx
−∞
=∫
=σ2
f (x )
X
La varianza en el caso anterior de la valoración del hotel respondería
a:
xi
1
2
3
4
P(X=xi)
0,29
0,35
0,24
0,12
( xi − µ ) ( xi − µ )2 ( xi − µ )2 pi
-1,185
-0,185
0,815
1,815
1,404
0,034
0,664
3,294
VAR[ X ]
0,41
0,012
0,157
0,395
0,974
La desviación típica se define como la raíz cuadrada de la varianza:
σ = VAR[ X ]
17
Distribución de probabilidad normal.
Existen muchas leyes de probabilidad o funciones de distribución de
probabilidad. Probablemente la que más se utiliza en la inferencia
estadística aplicada es la conocida como distribución Normal. Esta
distribución, es una distribución continua y fue desarrollada por Gauss
y Laplace, responde a:
X ~ N (µ , σ )
f ( x, µ , σ ) =
E[X ] = µ
1
2πσ
2
e
1 x−µ 

− 
2  σ 2 
2
− ∞ ≤ x ≤ +∞
VAR[ X ] = σ 2
Z=
X −µ
σ
~ N (0,1)
E[X ] = 0
VAR[ X ] = 1
1 2
1 −2x
f ( x, µ , σ ) =
e
2π
− ∞ ≤ x ≤ +∞
18
19
Descargar