Subido por JHOAN VALENTIN TRUJILLO LOPEZ

Apuntes de primero

Anuncio
Apuntes de primero > Introducción al Análisis de Datos >
05. Nociones básicas de probabilidad
Contenidos
1 Nociones básicas de probabilidad
1.
1.
1.1 Experimento aleatorio
2.
2 Probabilidad condicionada
3.
3 La regla del producto y el teorema de Bayes
1.
3.1 Regla o teorema del producto
Nociones básicas de probabilidad
Experimento aleatorio
Definición:


Experimento: proceso mediante el cual podemos obtener un resultado
Aleatorio: interviene el azar.
Características:



Todos los resultados posibles son conocidos con anterioridad
No se puede predecir con certeza el resultado
El experimento puede repetirse todas las veces que se quiera
Un experimento aleatorio es un proceso que se puede repetir indefinidamente en las
mismas condiciones, cuyo resultado no se puede predecir
Conceptos relacionados:


Espacio muestral: resultados posibles de un experimento aleatorio
Suceso: resultado de un experimento aleatorio, o subconjunto del espacio
muestral
Tipos:




Simple o elemental: consta de un solo resultado
Compuesto: consta de dos o más resultados
Seguro: todo el espacio muestral, porque siempre ocurre
Imposible: suceso que no puede ocurrir nunca
Cálculos:



Unión: A U B
Intersección A ∩ B
Complementario: |A
Definición de probabilidad
Clásica: la probabilidad de un suceso es igual al cociente entre el número de casos
favorables de que ocurra ese suceso y el número de casos posibles en el supuesto de
que todos los casos tengan la misma probabilidad de ocurrir.
Número de casos favorables

Probabilidad de suceso = Número de casos posibles
Ej: P (A) = 1/6
Problema: requiere que los sucesos sean equiprobables (no siempre ocurre) y, en
muchos casos, puede resultar difícil la clasificación de los sucesos como favorables y
posibles.
Estadística: límite al que tienen la frecuencia relativa de aparición de un suceso A
cuando el número de ensayos, n, tiende al infinito
Problema: muchas veces no es posible repetir un experimento un gran número de
veces y, si lo es, no es práctico
Axiomática: dado un espacio muestral E, llamamos probabilidad de un suceso A,
definido en el espacio muestral E y que designamos por P (A), a un número real que
asignamos al suceso A, tal que cumple las siguientes propiedades:



0 < P(A) < 1
P(E) = 1
P(A) =1 – (A)
Teorema de la suma: la probabilidad de que ocurra el suceso A o el suceso B es igual
a la probabilidad de que ocurra A más la probabilidad de que ocurran ambos:
P (A U B) = P (A) + P(B) – P (A ∩ B)
Cuando los sucesos A y B son incompatibles:
P (A U B) = P (A) + P(B)
Probabilidad condicionada
Hay situaciones donde la aparición de un suceso A depende de la aparición d otro
suceso B. Diremos, en estos casos, que los sucesos A y B son dependientes.
Para dos sucesos, A y B, la probabilidad de A condicionado a B es igual a la
probabilidad de la intersección dividido por la probabilidad de la condición de B
P (A ∩ B)

P (A B) = P(B)
P (B ∩ A)

P (B A) = P(A)
Si los sucesos son independientes:

P (A B) = P(A)

P (B A) = P(B)
La regla del producto y el teorema de Bayes
Regla o teorema del producto
Si de la probabilidad condicionada
P (A ∩ B)

P (A B) = P(B)
despejamos P (A ∩ B), nos queda:
P (A ∩ B) = P(A) · P (A B)
Cuando los sucesos A y B son independientes:
P (A ∩ B) = P(A) · P (B)
Teorema de Bayes:
P(A) · P (B A)

P (A B) = P(B)
Apuntes de primero > Introducción al Análisis de Datos >
06. Distribuciones discretas de probabilidad
Contenidos
1.
1 Variable aleatoria: definición y tipos
2.
2 Variables aleatorias discretas
1.
2.1 Función de probabilidad
2.
2.2 Función de distribución
3.
3 Media y varianza de una variable aleatoria
4.
4 Distribuciones discretas de probabilidad
1.
4.1 La distribución binomial
Variable aleatoria: definición y tipos
Una variable aleatoria es una función que asigna un número real, y sólo uno, a
cada uno de los resultados de un experimento aleatorio. Las variables
aleatorias se representan por letras mayúsculas de nuestro alfabeto latino y
utilizaremos las minúsculas con subíndices, para los valores concretos de las
variables.
Las variables aleatorias pueden ser discretas o continuas. Discreta cuando la
variable sólo puede tomar un conjunto infinito y numerable de valores (los
números naturales) o finito de valores (número de sucesos). Y continua cuando
puede tomar infinitos valores o un conjunto de valores no numerable.
Variables aleatorias discretas
Función de probabilidad
Se llama función de probabilidad de una variable aleatoria discreta, X, y se
representa por f(x), a aquella función que asocia a cada valor de la variable la
probabilidad de que ésta adopte ese valor. Es decir:
f(x) = P (X=x)
La función de probabilidad de una variable aleatoria discreta puede
representarse mediante un diagrama de barras.
Las dos propiedades que debe cumplir la función de probabilidad son:
1. Para cualquier valor de x, siempre toma valores positivos o nulos:
o x ε X f(x) > 0
2. La suma de todas las probabilidades correspondientes a cada valor de x
es igual a uno:
o ∑ f(x) = f(x1)+f(x2)+...+f(xn) = 1
Función de distribución
La función de distribución de una variable aleatoria X, se representa igual que
la de probabilidad pero en mayúscula: F(x); y es aquella función que asocia a
cada valor de la variable la probabilidad de que ésta adopte ese valor o
cualquier otro inferior.
F(x) = P (X < x)
De la misma forma:
F(x) = P (X < x) = f(x1)+f(x2)+...+f(x)
Retomando el ejemplo anterior calculamos F(0), F(1), F(2) y F(3):
F(0) = P(X < 0) = P(X = 0) = 0,125
F(1) = P (X < 1) = P (X = 0) + P (X = 1) = f(0) + f(1) = 0,125 + 0,375 = 0,5
F(2) = P (X < 2) = P (X = 0) + P (X = 1) + P (X = 2) = f(0) + f(1) + f(2) = 0,125 +
0,375 + 0,375 = 0,875
F(3) = P (X < 3) = P (X = 0) + P (X = 1) + P (X = 2) + P (X = 3) = f(0) + f(1) + f(2)
+ f(3)= 0,125 + 0,375 + 0,375 +0,125 = 1
Las Propiedades que debe cumplir son:
1. Todos los valores que toma la función de distribución de probabilidad
son positivos o nulos:
o x F(x) > 0
2. F(x) es nula, vale 0, para todo valor inferior al menor valor de la variable
aleatoria, x1:
o F(x) = 0 si x < x1
3. F(x) es igual a uno para todo valor igual o superior al mayor valor de la
variable aleatoria, llamando a éste “xk”:
o F(x) = 1 si x > xk
4. La función F(x) es no decreciente ya que es una acumulación o suma de
probabilidades que son siempre positivas o nulas.
5. La probabilidad, P, de que la variable aleatoria X tome valores x
comprendidos entre x1 y x2 (x1 < x < x2) es la diferencia entre los
valores de la función de distribución correspondientes a su valor superior
menos su valor inferior.
o P (x1 < x < x2) = F(x2) – F(x1)
Media y varianza de una variable aleatoria
La media, μ, de una variable aleatoria discreta X viene definida por la siguiente
expresión:
μ = ∑ x.f(x)
La media de una variable X, también se le conoce por esperanza matemática o
valor esperado de X y se representa por E(X).
μ = E(X) = ∑x.f(x) =x0.f(x0) + x1.f(x1) + x2.f(x2)+ x3.f(x3) = 0.0,125 + 1.0,375 +
2.0,750 + 3.0,375 = 1,5
La varianza σ2 de una variable aleatoria discreta X viene definida por:
σ2 = ∑ (x – μ)2. f(x)
Otra alternativa; a veces muy útil, es:
σ2 = E(X 2) - [E(X)]
donde: E(X ) = ∑ x 2.f(x) y [E(X)] es la media elevada al cuadrado.
De la misma forma la desviación típica será la raíz cuadrada de la varianza:
Distribuciones discretas de probabilidad
Para algunas distribuciones discretas se emplean una serie de tablas que facilitan su aplicación
a unos problemas en concreto.
En Ciencias Sociales y de la Salud se trabajan con variables que toman sólo dos valores
(dicotómicas 1 – 0); En este caso se utiliza la distribución binomial.
La distribución binomial
El ensayo anterior de la moneda al aire se denomina Bernouilli, autor de éste. Un experimento
binomial consiste en repetir “n” veces un ensayo Bernouilli. Una variable aleatoria X sigue una
distribución binomial (con parámetros n y p) si expresa el número de realizaciones
independientes “n” con la probabilidad “p” y por tanto (1 – p) de obtener fracaso. Se representa
por B(n, p); donde B indica binomial, n el número de ensayos y p la probabilidad de éxito.
Ejemplo:Si tiramos tres veces la moneda al aire y definimos X como el número de caras, esta
variable seguirá los parámetros n = 3 y p = 0,5. Lo mismo que B(3; 0,5).
Las características fundamentales son:
1. Función de probabilidad:
o f(x) = P(X = x) = x p xq n-x
2. Función de distribución:
o F(x) = P (X < x) =∑ x p x q n-x
3. Media: μ = np
4. Varianza : σ 2 = npq;
donde x es el numero de aciertos, n el número de ensayos, p la probabilidad de éxito de cada
ensayo, q la probabilidad de fracaso (1-p) y el número combinatorio x , que se lee “n sobre x”
es igual a n! / x! (n - x)! . Otras distribuciones discretas: Existen otros modelos de distribuciones
discretas. El modelo Poisson de los “sucesos raros”, que se utilizan en condiciones similares a
las binomiales pero con un elevado número de ensayos y un valor p muy pequeño.
Apuntes de primero > Introducción al Análisis de Datos >
07. Distribuciones continuas de probabilidad
Contenidos
1.
1 La distribución normal
2.
2 Histograma y distribución normal
3.
3 Aproximación de la binomial a la normal
4.
4 La distribución “Chi cuadrado” de Pearson
5.
5 La distribución de "F" de Snedecor
La distribución normal
La distribución normal, campana de Gauss o, curva normal, también definida
por De Moivre.
Características y propiedades:
Si una variable X le aplicamos una transformación lineal Y = bX+a, la nueva
variable se distribuirá normalmente pero con media bμ x + a y la desviación
típica |b|σx . Si restamos la media y dividimos por la desviación típica
obtenemos una nueva variable “z”.
Una distribución normal es simétrica a su media, μ, coincide con su mediana y su
moda.
La curva normal tiene dos puntos de inflexión; dos puntos donde la curva pasa
de ser cóncava a convexa. Estos puntos están a la distancia de una desviación
típica de la media.
Es asintótica en el eje de abscisas, se extiende desde - ∞ hasta + ∞ sin tocar
nunca el eje.
Casos de utilización de las tablas:
En el supuesto que la tabla no recoja el valor, podemos utilizar el más próximo.
1. Cálculo de la probabilidad para valores menores o iguales que una
determinada puntuación típica: En este caso se mira directamente en la
tabla.
2. Cálculo de la probabilidad para valores mayores que una determinada
puntuación: En este supuesto se mira en la tabla la probabilidad que esa
puntuación deja por debajo y se resta a 1.
3. Cálculo de la probabilidad entre dos puntuaciones determinadas: Aquí
se restan las probabilidades que dejan por debajo de sí las dos
puntuaciones típicas.
Histograma y distribución normal
Si disponemos de los datos originales de una variable X, y su distribución es
normal,utilizaremos las tablas III y IV, pero anteriormente transformaremos las
puntuaciones directas en puntuaciones típicas:
Aproximación de la binomial a la normal
Cuando las distribuciones binomiales superan sus valores de 20, se puede
aproximar a la binomial normal. Teniendo una variable X, con distribución
binomial, su media es μ = np y su desviación típica σ = npq.
Para aproximar la distribución binomial a la normal establecemos un intervalo
entre 0,5 a la izquierda y a la derecha:
P [(12-0,5) < x < (12+0,5)]
Sumar y restar el valor 0,5 se llama corrección por continuidad, permitiendo
utilizar las puntuaciones discretas como continuas.
La distribución “Chi cuadrado” de Pearson
En la distribución de Chi cuadrado de Pearson una variable X con distribución
X21, X22, ..., X2n pasa a ser X = X2n. Su media y varianza valdrán μ = n y, σ2
= 2n.
Esta distribución se usa para contrastar si la distribución de una variable se
ajusta a una distribución determinada.
Entre sus propiedades señalamos:
1. Nunca adopta valores menores de 0.
2. Es asimétrica positiva pero a medida que aumentan sus grados de
libertad se va aproximando a la distribución normal.
3. Para n > 30 la podemos aproximar a una distribución N(n, 2n).
Una distribución “t” es el cociente entre una variable N(0,1) y la raíz cuadrada
de X dividida por sus grados de libertad.
Sus características son:
1. Es simétrica, con μ = 0. Su forma es muy parecida a la N(0,1), aunque
menos apuntada.
2. Puede tomar cualquier valor (-∞ +∞).
3. A medida que aumentan los grados de libertad, la distribución se
aproxima más a una distribución normal.
4. La curva es asintótica al eje de abscisas.
Se emplea en estadística inferencial en contrastes. En la tabla VI se muestran
los valores de esta distribución.
La distribución de "F" de Snedecor
Sigue una distribución F con n1 y n2 grados de libertad (Fn1,n2). Siendo “n
1”los grados del numerador y “n2” los del denominador; su media y varianza se
definen:
Se caracteriza por:
1. Es asimétrica positiva por lo que nunca toma valores menores que 0.
2. Si X es variable con distribución F con n1 y n2 grados de libertad, la
variable Y = 1/X es también una distribución F (propiedad recíproca)
Apuntes de primero > Introducción al Análisis de Datos >
08. Estimación
Contenidos
1.
1 Conceptos previos
1.
1.1 Población y muestra
2.
1.2 Muestreo
2.
2 Inferencia estadística
3.
3 Estimación de la media
4.
4 Distribución muestral de la media
5.
5 Error tipico de la media
1.
5.1 La media como estimador
2.
5.2 Estimación de la proporción
3.
5.3 Distribución muestral de la proporción
6 Error típico de la proporción
6.
1.
7.
6.1 La proporción como estimador
7 Intervalos de confianza
1.
7.1 Concepto
2.
7.2 Tamaño de la muestra
3.
7.3 Aplicaciones
4.
7.4 Intervalo de confianza para la media
Conceptos previos
Población y muestra
Población se refiere al conjunto total de elementos que se quieren estudiar una
o más características. Debe estar bien definida. Llamaremos N al número total
de elementos de una población. También se suelen utilizar los términos
individuos, sujetos y casos para referirnos a los elementos de la población.
Cuando se dispone de un censo (listado) de la población, se puede estudiar a
todos ellos.
No siempre es factible estudiar a la totalidad de una población; por lo que se
estudia un subconjunto de los elementos totales; es decir, un muestra.
Llamaremos n al número de los elementos de una muestra.
Muestreo
El muestreo es un proceso de selección con el fin de obtener una muestra lo
más semejante posible a la población y así obtener estimaciones precisas. El
tamaño es una característica esencial; ya que debe ser lo suficientemente
amplia para representar adecuadamente las propiedades de la población y
reducida para que pueda ser examinada en la práctica.
El muestreo probabilístico se conoce la probabilidad asociada a una muestra y
cada elemento de la población tiene una probabilidad conocida de pertenecer a
la muestra. El no-probabilístico se desconoce, o no se tiene en cuenta, la
probabilidad asociada a cada muestra y se selecciona la que más le parezca
representativa al investigador.
Una forma de obtener una muestra de una población homogénea es utilizar:
El muestreo aleatorio simple; por el cual se garantiza que cada elemento de la
población tenga la misma probabilidad de formar parte de la muestra. Primero
se asigna un número a cada elemento y después mediante algún medio
(sorteo, papeletas,...) se elijen tantos elementos como sea necesario para la
muestra.
Cuando los elementos están ordenados o pueden ordenarse se utiliza el
muestreo sistemático. Se selecciona al azar entre los que ocupan los lugares N
. Ejemplo: N = 100; n = 5; 100/5= 20; escogeríamos los n elementos situados
en las posiciones 20. El riesgo de este muestreo es la falta de representación;
que se pudiese dar, del total de los elementos.
Cuando topamos con una población heterogénea, utilizamos el muestreo
estratificado. Se emplea cuando disponemos de información suficiente sobre
alguna característica y podemos elegir una muestra en función del número de
elementos según estas características o estratos.
Ante poblaciones desordenadas y conglomeradas en grupos, se emplea el
muestreo por conglomerados; donde se van seleccionando de todos los
grupos, subgrupos, clases, ... y finalmente de los elementos restantes la
muestra.
De la unión del estratificado y del conglomerado, surge otro muestreo el
polietápico.
En ocasiones el muestreo es muy costoso y se recurre a métodos no
probabilísticos:




El muestreo por cuotas (accidental) se basa en un buen conocimiento de
los estratos o individuos más representativos para la investigación.
Similar al estratificado pero carente del carácter aleatorio.
El muestreo opinático (intencional) muestra el interés por incluir en la
muestra a grupos supuestamente típicos.
El causal (incidental) selección de los individuos de fácil acceso.
Bola de nieve; donde un elemento seleccionado lleva a otro y éste a otro
y así sucesivamente hasta completar la muestra.
Una muestra es representativa si exhibe internamente el mismo grado de
diversidad que la población y es aleatoria si los elementos han sido extraídos al
azar de la población.
Inferencia estadística
El valor estadístico obtenido de una muestra (como media) no será igual al
valor del parámetro de población. Para inferir un parámetro a partir de un
estadístico hay que aplicar herramientas estadísticas de tipo inferencial como la
estimación por intervalo (intervalos de confianza) o contraste de hipótesis.
Estimación de la media
La media muestral es una variable aleatoria que toma un valor según la
muestra concreta que se obtenga. Se denomina distribución muestral de la
media a su función de probabilidad.
La distribución muestral de un estadístico es un concepto central, tanto de la
estimación como del contraste de hipótesis.
Distribución muestral de la media
Una función de probabilidad queda caracterizada por su forma, su media y su
varianza. La media de la distribución muestral de la media (μx) es igual a la
media de la población (μ). La varianza de la distribución muestral de σ la media
es n y la desviación típica de la distribución muestral de la media, denominada
error típico de la media, es σx= σ = σ 2 .
La forma de la distribución original de la media se parece a una distribución
normal aunque la distribución original de la variable en la población no es
normal.
Si la distribución de X en la población no es normal con media μ y desviación
típica σ, entonces la distribución muestral de la X tiende a la normal a medida
que n crece (Teorema Central del Límite), siendo la aproximación buena para n
> 30.
Media, varianza y desviación típica de la variable cuantitativa X en la población
y en la muestra, y de la distribución muestral de la media (X).
Error tipico de la media
La media como estimador
Un estimador es un estadístico que se utiliza para estimar un parámetro.
Por lo que la media de la muestra es un estimador de la media poblacional; y el
valor del estimador en una muestra se denomina estimación o estimación
puntual.
La media muestral X es un estimador insesgado de la media poblacional (μ). El
error típico de la media es un indicador de la precisión de la estimación de la
media; cuanto menor es el error típico, mayor es la precisión. Dependiendo de
la desviación típica de la población y del tamaño de la muestra.
Estimación de la proporción
Para la obtención de la distribución muestral de la proporción se puede hacer
como la media.
Distribución muestral de la proporción
Sea X una variable que sólo toma valores 0 y 1, la proporción de la muestra P
se define como: -Ver archivo adjunto-.
Como P es la media de los valores de X en la muestra, según el Teorema
Central del Límite, a medida que el tamaño crece, la distribución muestral dela
proporción tiende a la normal con media π y varianza π (1 - π) .
Cuanto más alejado esté π de 0,5, más elementos debe tener la muestra para
realizar la aproximación a la normal.
Media, varianza y desviación típica de la variable dicotómica o dicotomizada (X)
en la población y en la muestra, y de la distribución muestral de la proporción
(P):
Error típico de la proporción
La proporción como estimador
La proporción muestral (p) es un estimador insesgado de la proporción
poblacional (π).
El error típico de la proporción, es un indicador de la precisión de la estimación
de la proporción. Cuanto menor es el error típico, mayor es la precisión.
Intervalos de confianza
Concepto
La finalidad de un intervalo de confianza es estimar un parámetro desconocido
de una población a partir de una muestra. Al estimar la media de la población a
partir de una muestra, podemos cometer un error de estimación |X- μ|.
La estimación por intervalo consiste en acotar el error con una alta probabilidad
1 – α (nivel de confianza) de forma que |X- μ| no sea superior a un estimado
máximo (Emáx).
El error de estimación máximo (Emáx) es función de la variabilidad de la
variable en la población, del nivel de confianza (n.c.) y del tamaño de la
muestra:
El n.c. o probabilidad 1 – α significa que si extrajésemos todas las muestras
posibles de una población, calculásemos la media en cada una de ellas y el
intervalo de confianza, una proporción 1 – α de todos los intervalos de
confianza contendrá la media poblacional y una proporción α no lo contendrá.
Tamaño de la muestra
Interesa que un intervalo sea lo más estrecho posible y con alta probabilidad. A
mayor nivel de confianza mayor es el error de estimación máximo, por lo que
más amplio será el intervalo y menos precisa será la estimación. Una forma de
mantener y reducir el error de estimación máximo dado y aumentar el n.c., es
aumentando n.
Otro factor que interviene es la variabilidad de la variable, cuanto mayor sea la
desviación típica de la población, mayor debe ser n para alcanzar una misma
precisión.
Para calcular el tamaño de la muestra desconociendo σ, hay que sustituir en la
ecuación, la desviación típica por la cuasidesviación típica (Sn-1) y z1- α/2 por
tn-1, 1-α/2 (tabla VI).
Aplicaciones
Los pasos para aplicar un intervalo de confianza son los siguientes:





Establecer un error de estimación máximo para un nivel de confianza 1 –
α.
Obtener el tamaño de la muestra n para el error de estimación máximo
especificado.
Extraer una muestra aleatoria de tamaño n y medir la variable.
Calcular el estadístico (es estimador del parámetro) con las medidas
obtenidas.
Calcular los límites del intervalo de confianza.
Intervalo de confianza para la media
Límites de los intervalos de confianza y supuestos para la estimación de la
media:
π es la proporción de la población que no es conocida.
n es el tamaño de la muestra y se debe cumplir nπ(1-π) > 5 para la
aproximación a la normal.
Los límites inferior y superior del intervalo de confianza se obtienen a partir del
error de estimación máximo. Como desconocemos π, que es lo que
precisamente queremos estimar, operamos con la proporción muestral P. Así,
si en Emáx sustituimos π por la proporción muestral P, los límites inferior y
superior del intervalo de confianza son: -Ver archivo adjunto-.
Descargar