Subido por peregrino2002gil

Resumen Temario

Anuncio
UNED
Unidad Didáctica I:
Modelos probabilísticos
discretos
Primer tema de la asignatura de Estadística del Grado en Ingeniería
Informática
25/05/2018
Modelo matemático del azar
Consideremos A un acontecimiento de un experimento aleatorio. Hacemos N veces el
experimento y obtenemos n(A) veces el resultado A, entonces
n(A)
N
se aproxima a un valor fijo
para N grande: P(A) probabilidad empírica de A.
Propiedades:
 0 ≤ n(A) ≤ N ⇒ 0 ≤ P(A) ≤ 1
 Si A ocurre siempre ⇒ n(A) = N ⇒ P(A) = 1
 Si A y B son acontecimientos que no puede ocurrir simultáneamente ⇒ n(A ∪ B) =
n(A) + n(B) ⇒ P(A ∪ B) = P(A) + P(B)
Experimentos aleatorios
Los experimentos aleatorios cumplen:
1) No conocemos de antemano su resultado
2) Sus resultados posibles están bien determinados de antemano (espacio muestral, Ω)
3) Puede repetirse en idénticas condiciones tantas veces como queramos
Operaciones




Unión ⇒ 𝐴 ∪ 𝐵
Intersección ⇒ 𝐴 ∩ 𝐵
Complementario ⇒ 𝐴𝑐
Diferencia ⇒ 𝐴 − 𝐵 = 𝐴 ∩ 𝐵𝑐 = 𝐴\𝐵
Sucesos
 Sucesos incompatibles ⇒ Dos sucesos 𝐴 y 𝐵 son incompatibles si cumplen 𝐴 ∩ 𝐵 = ∅
 Suceso seguro ⇒ Aquel que se cumple siempre ⇒ 𝑃(Ω) = 1
 Suceso imposible ⇒ Aquel que no se cumple nunca ⇒ 𝑃(∅) = 0
Propiedades de la probabilidad
 Probabilidad del suceso complementario ⇒ Si 𝐴 es un suceso, se cumple 𝑃(𝐴) +
𝑃(𝐴𝑐 ) = 𝑃(Ω) = 1 ⇒ 𝑃(𝐴𝑐 ) = 1 − 𝑃(𝐴)
 Probabilidad de la diferencia ⇒ 𝐴 y 𝐵 son dos sucesos ⇒ 𝑃(𝐴 − 𝐵) = 𝑃(𝐴) −
𝑃(𝐴 ∩ 𝐵)
 Probabilidad de la unión de dos sucesos ⇒ Probabilidad de que suceda 𝐴 o suceda
𝐵 ⇒ 𝑃(𝐴 ∪ 𝐵) = 𝑃(𝐴) + 𝑃(𝐵) − 𝑃(𝐴 ∩ 𝐵)
 Probabilidad de monotonía ⇒ Si 𝐵 ⊂ 𝐴, entonces 𝑃(𝐵) ≤ 𝑃(𝐴)
 Desigualdad de Boole ⇒ Dados 𝑛 sucesos 𝐴𝑖 1 ≤ 𝑖 ≤ 𝑛 ⇒ 𝑃(⋃𝑛𝑖=1 𝐴𝑖 ) ≤ ∑𝑛𝑖=1 𝑃(𝐴𝑖 ).
Cuando 𝐴1 ∩ 𝐴2 ∩ … ∩ 𝐴𝑛 = ∅ → Tendremos la igualdad
Asignación de probabilidades
La probabilidad de cualquier suceso 𝐴 es la suma de las probabilidades de los sucesos simples
{𝜔}:
𝑃(𝐴) = ∑ 𝑃(𝜔)
𝜔∈𝐴
donde 𝑃(𝜔) tiene que cumplir:
0 ≤ 𝑃(𝜔) ≤ 1,
∑𝜔∈Ω 𝑃(𝜔) = 1
Regla de Laplace
Si todos los casos posibles son equiprobables, la probabilidad de un suceso es igual al cociente
entre el nº de casos favorables y el nº de casos posibles
𝑃(𝐴) =
𝐶𝑎𝑠𝑜𝑠 𝑓𝑎𝑣𝑜𝑟𝑎𝑏𝑙𝑒𝑠
𝐶𝑎𝑠𝑜𝑠 𝑝𝑜𝑠𝑖𝑏𝑙𝑒𝑠
La elección del espacio muestral influye en el posterior cálculo de probabilidades.
Combinación sin repetición de 𝒏 objetos tomados de 𝒌 en 𝒌
Es una agrupación de 𝑘 objetos elegidos entre los 𝑛 posibles sin repetición alguna. Se calcula
mediante la fórmula:
𝑛!
𝑛
𝐶𝑛,𝑘 =
=( )
𝑘! × (𝑛 − 𝑘)!
𝑘
Variación sin repetición de 𝒏 objetos tomados de 𝒌 en 𝒌
Se trata de una agrupación alineada en recta (en fila) de 𝑘 objetos elegidos entre los 𝑛
disponibles sin repetición alguna. Se calcula mediante la fórmula:
𝑉𝑛,𝑘 =
𝑛!
(𝑛 − 𝑘)!
Variación con repetición de 𝒏 objetos tomados de 𝒌 en 𝒌
Es una agrupación alineada recta (en fila) de 𝑘 objetos elegidos entre los 𝑛 disponibles. En este
caso, los objetos se pueden repetir hasta 𝑘 veces. Se calcula mediante la fórmula:
𝑉𝑅𝑛,𝑘 = 𝑛𝑘
Permutación sin repetición de 𝒏 objetos
Es una agrupación alineada recta (en fila) de todos los objetos disponibles sin repetición
alguna. Es equivalente a una variación de 𝑛 objetos tomados de 𝑛 en 𝑛. Se calcula mediante la
fórmula:
𝑃𝑛 = 𝑛!
Cálculo por el complementario
Cuando la probabilidad que queremos sacar es una unión (disyunción) de dos elementos
(𝐶 = 𝐴 ∪ 𝐵, 𝑃(𝐶)), la cosa se complica. Entonces es preferible calcular su complementario
(𝑃(𝐶 𝑐 )) y después sacar su probabilidad (𝑃(𝐶) + 𝑃(𝐶 𝑐 ) = 1 ⇒ 𝑃(𝐶) = 1 − 𝑃(𝐶 𝑐 ))
Modelos dinámicos
Cuando tenemos un experimento compuesto por dos subexperimentos aleatorios, entonces
los llamaremos dinámicos.
Probabilidades condicionadas
Si 𝐴 y 𝐵 son dos sucesos, con 𝑃(𝐴) > 0, la probabilidad de 𝐵 condicionada por 𝐴 es:
𝑃(𝐵|𝐴) =
𝑃(𝐴 ∩ 𝐵)
𝑃(𝐴)
Propiedades
 𝑃(𝐴|𝐴) = 1
 𝑃(𝐵𝑐 |𝐴) = 1 − 𝑃(𝐵|𝐴)
 𝑃(𝐵1 ∪ 𝐵2 |𝐴) = 𝑃(𝐵1 |𝐴) + 𝑃(𝐵2 |𝐴)
De la fórmula de la probabilidad condicionada se saca:
𝑃(𝐵|𝐴) =
𝑃(𝐴 ∩ 𝐵)
⇒ 𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴)𝑃(𝐵|𝐴)
𝑃(𝐴)
Diagrama de árbol
 Para la construcción de un diagrama en árbol se partirá poniendo una rama para cada
una de las posibilidades, acompañada de su probabilidad
 En el final de cada rama parcial se constituye a su vez, un nudo del cual parten nuevas
ramas, según las posibilidades del siguiente paso, salvo si el nudo representa un
posible final del experimento (nudo final)
 Hay que tener en cuenta: que la suma de probabilidades de las ramas de cada nudo
ha de dar 1
Formula de la probabilidad total
𝑛
𝑃(𝐴) = ∑ 𝑃(𝐵𝑖 )𝑃(𝐴|𝐵𝑖 )
𝑖=1
Fórmula de Bayes
𝑃(𝐴𝑗 |𝐵) =
𝑃(𝐴𝑗 )𝑃(𝐵|𝐴𝑗 )
𝑛
∑𝑖=1 𝑃(𝐴𝑖 )𝑃(𝐵|𝐴𝑖 )
=
𝑃(𝐴𝑗 )𝑃(𝐵|𝐴𝑗 )
𝑃(𝐵)
Sucesos independientes
Dos sucesos serán independientes si se cumple que:
𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴)𝑃(𝐵) ⇒ 𝑃(𝐵|𝐴) = 𝑃(𝐵)
Los sucesos 𝐴𝑖 , 1 ≤ 𝑖 ≤ 𝑛, son independientes si cualquiera que sean 𝑘, 2 ≤ 𝑘 ≤ 𝑛, y los 𝑘
sucesos de la família 𝐴𝑖1 , … , 𝐴𝑖𝑘 , se cumple:
𝑃(𝐴𝑖1 ∩ 𝐴𝑖2 ∩ … ∩ 𝐴𝑖𝑘 ) = 𝑃(𝐴𝑖1 )𝑃(𝐴𝑖2 ) … 𝑃(𝐴𝑖𝑘 )
La probabilidad de cualquier intersección ha de ser igual al producto de las probabilidades
Si 𝑛 = 3: 𝐴1 , 𝐴2 , 𝐴3 ⇒ Podemos crear 3 parejas de sucesos (𝑘 = 2) y un trío (𝑘 = 3) y las
condiciones de independencia son:
 𝑘 = 2:
o
o
o
 𝑘=3
o
𝑃(𝐴1 ∩ 𝐴2 ) = 𝑃(𝐴1 )𝑃(𝐴2 )
𝑃(𝐴1 ∩ 𝐴3 ) = 𝑃(𝐴1 )𝑃(𝐴3 )
𝑃(𝐴2 ∩ 𝐴3 ) = 𝑃(𝐴2 )𝑃(𝐴3 )
𝑃(𝐴1 ∩ 𝐴2 ∩ 𝐴3 ) = 𝑃(𝐴1 )𝑃(𝐴2 ) 𝑃(𝐴3 )
Propiedades
 Si 𝐴𝑖 , 1 ≤ 𝑖 ≤ 𝑛 son sucesos independientes, también lo son sus complementarios y
cualquier colección que obtengamos sustituyendo algunos de los 𝐴𝑖 por sus
complementarios
 Si tres sucesos son independientes, el suceso que resulta de operar dos de ellos es
independiente del tercero
 La independencia de sucesos es particularmente favorable para emplear el método de
cálculo por el complementario
Cálculo de la unión de 𝒏 sucesos independientes
Tenemos que le complementario es 𝑃([⋃𝑛𝑖=1 𝐴𝑖 ]𝑐 ) = 𝑃(⋂𝑛𝑖=1 𝐴𝑐𝑖 )
Como son independientes ⇒ 𝑃(⋂𝑛𝑖=1 𝐴𝑐𝑖 ) = 𝑃(𝐴1𝑐 ) … 𝑃(𝐴𝑐𝑛 ) = (1 − 𝑃(𝐴1 )) … (1 − 𝑃(𝐴𝑛 ))
Conclusión: 𝑃(⋃𝑛𝑖=1 𝐴𝑖 ) = 1 − ∏𝑛𝑖=1(1 − 𝑃(𝐴𝑖 ))
Experimentos independientes
La independencia de los subexperimentos proporciona un método general para construir
espacios probabilísticos como producto de los asociados a cada experimento.
Variables aleatorias discretas
Aplicación/Función ⇒ Concepto matemático para describir algo que asocia un nº a cada
elemento de un conjunto.
Una variable aleatoria, 𝑋, definida sobre un espacio de probabilidad (Ω, P) es una función
X: Ω → ℝ
Si 𝑋 es una variable aleatoria ⇒ {𝑋 = 𝑥} representa a los sucesos 𝜔 tales que 𝑋(𝜔) = 𝑥:
{𝑋 = 𝑥} = {𝜔|𝑋(𝜔) = 𝑥} = 𝑋 −1 (𝑥)
Indicador de un suceso 𝑨 ⇒ Nos dice que si ocurre = 1 si no 0:
1
𝐼𝐴 (𝜔) = {
0
𝑠𝑖 𝜔 ∈ 𝐴
𝑠𝑖 𝜔 ∉ 𝐴
Racha ⇒ Serie maximal de resultados iguales
Distribución de una variable
Distribución de probabilidad 𝒑(𝒙) ⇒ Función que nos enseña el modo de repartirse la
probabilidad entre los valores posibles de la variable
Distribución de una función 𝒀 = 𝒈(𝑿) ⇒ Consideremos una variable aleatoria 𝑋. Cualquier
función 𝑌 = 𝑔(𝑋) es una variable aleatoria, porque asigna un valor a cada resultado posible.
Valor esperado de una variable
Valor esperado (esperanza matemática o media) ⇒ Promedio de los valores que toma la
variable ponderado por la probabilidad con que toma cada valor (“centro de gravedad de la
distribución”). 𝑋 es una variable aleatoria discreta, su esperanza 𝐸{𝑋}
𝐸{𝑋} = ∑ 𝑥𝑃(𝑋 = 𝑥)
𝑥∈𝑋(Ω)
Valor esperado de una función de una variable aleatoria ⇒ 𝑋: variable aleatoria; 𝑌 = 𝑔(𝑋)
función de 𝑋. Podemos promediar respecto a los valores de 𝑋 en lugar de hallar la función de
probabilidad de 𝑌, mediante:
𝐸{𝑌} = 𝐸{𝑔(𝑋)} = ∑ 𝑔(𝑥)𝑃(𝑋 = 𝑥)
𝑥∈𝑋(Ω)
Esperanza de una función lineal ⇒ Si 𝑌 = 𝑎𝑋 + 𝑏 ⇒ 𝐸{𝑎𝑋 + 𝑏} = 𝑎𝐸{𝑋} + 𝑏
Varianza y momentos de una variable
Dada una variable X, los valores esperados de las funciones de la forma 𝑔(𝑥) = 𝑥 𝑚 se
denominan momentos de 𝑋. Así:
 𝜇1 = 𝐸{𝑋} momento de primer orden
 𝜇2 = 𝐸{𝑋 2 } momento de segundo orden
 𝜇𝑟 = 𝐸{𝑋 𝑟 } momento de orden 𝑟
Desviación cuadrática respecto a la media ⇒ Mide el error que cometemos al sustituir un
valor posible, 𝑥, por 𝐸{𝑋}
𝑔(𝑋) = (𝑋 − 𝐸{𝑋})2
Varianza de 𝑿 ⇒ Dispersión promedio de los valores de 𝑋 respecto de 𝐸{𝑋}
𝜎𝑋2 = 𝐸{(𝑋 − 𝐸{𝑋})2 } = 𝐸{𝑋 2 } − (𝐸{𝑋})2
La varianza cumple:
2
 𝜎𝑋+𝑏
= 𝜎𝑋2 invariante por traslación 𝑋 → 𝑋 + 𝑏
2
 𝜎𝑎𝑋+𝑏
= 𝑎2 𝜎𝑋2 por cambio de escala 𝑋 → 𝑎𝑋
Desigualdad de Chebyshev
Consideremos una variable 𝑋 de media 𝜇 y varianza 𝜎𝑋2 . La probabilidad de que 𝑋 tome valores
más alejados de la media 𝜇 que un nº dado 𝑎 > 0, es estimar la probabilidad del suceso
|𝑋 − 𝜇| > 𝑎:
𝜎𝑋2
𝑃(|𝑋 − 𝜇| > 𝑎) ≤ 2
𝑎
2
2
 Si 𝑎 = 𝜎𝑋 → 𝑃 ≤ 1
 Si 𝑎2 = 2𝜎𝑋2 → 𝑃 ≤ 0.5
“normalizando” la probabilidad 𝜀 = 𝜎𝑋 𝑎 :
𝑃(|𝑋−, 𝑢| > 𝜀) ≤
1
𝑎2
donde para 𝑎 ≤ 1 dará 𝑃 ≥ 1 (solución trivial) y solución no trivial para 𝑎 > 1
Entropía de una variable aleatoria
La entropía asociada a una variable aleatoria 𝑋 es el valor esperado de la esperanza de
– 𝑙𝑜𝑔 𝑝(𝑋), donde 𝑝(𝑥) es la función de probabilidad de 𝑋. La entropía de 𝑋 se representa por
𝐻(𝑋).
1
1
𝐻(𝑋) = 𝐸 {log 2
= − ∑ 𝑝(𝑥) log 𝑝(𝑥)
} = ∑ 𝑝(𝑥) log
𝑝(𝑋)
𝑝(𝑥)
𝑥∈𝑋(Ω)
𝑥∈𝑋(Ω)
La entropía de una variable aleatoria 𝑋 es una medida de la incertidumbre asociada a ella. Si
𝑙𝑜𝑔 es base 2 → [𝐻] = 𝑏𝑖𝑡
Distribución de Bernoulli
Tras un experimento aleatorio sólo nos interesa saber si cierto suceso ha ocurrido o no, por
ejemplo:, tirar una moneda al aire y mirar si sale cara o cruz.
Solo hay un parámetro, 𝑝, probabilidad de que salga o no:
𝑃(𝑋 = 0) = 1 − 𝑝
𝑃(𝑋 = 1) = 𝑝
Valor esperado 𝜇 = 𝐸{𝑋} = 𝑝
Momento a segundo orden 𝜇2 = 𝐸{𝑋 2 } = 𝑝
Varianza 𝜎𝑋2 = 𝐸{𝑋 2 } − (𝐸{𝑋})2 = 𝑝(1 − 𝑝)
Distribución binomial
Mirar tras realizar 𝑛 pruebas si ha ocurrido el suceso. Por ejemplo, lanzar 𝑛 veces una moneda
de probabilidad 𝑝 de que salga cara (veces que ha salido cara de la 𝑛 tiradas)
Depende de dos variables: 𝑛, 𝑝
Probabilidad de que el suceso pase 𝒌 veces:
𝑃(𝑋 = 𝑘) = (𝑛𝑘)𝑝𝑘 (1 − 𝑝)𝑛−𝑘 , para 𝑘 = 0,1, … , 𝑛
Si 𝑛 = 1 recuperamos la distribución de Bernoulli
Media y varianza:
 𝜇 = 𝑛𝑝
 𝜎2 = 𝑛𝑝(1 − 𝑝)
Distribución geométrica
Seria lanzar repetidas veces una moneda hasta que sale la primera cara y contar el número de
lanzamientos (𝑘).
Si 𝑝 es la probabilidad de que salga cara, y hemos sacado 𝑘 cruces seguidas:
𝑃(𝑋 = 𝑘) = 𝑝(1 − 𝑝)𝑘−1 , si 𝑘 = 1,2,3, …
Media y varianza:
1
 𝜇=𝑝
 𝜎𝑋2 =
1−𝑝
𝑝2
Al realizar cálculos con las distribuciones geométricas, en muchas ocasiones es preciso sumar
una serie geométrica, recordemos que la fórmula de la suma de una serie geométrica de
razón 𝒓 es
∞
𝑟
∑
𝑟𝑘 =
, 𝑣á𝑙𝑖𝑑𝑎 𝑠𝑖 |𝑟| < 1
1−𝑟
𝑘=1
Distribución de Poisson
Cuando contamos cuántas veces ha ocurrido un suceso que tiene un probabilidad muy
pequeña de que ocurra en un intervalo de tiempo; por ejemplo los procesos de desintegración
radiactiva
Depende del parámetro 𝜆 > 0, y la función de probabilidad es:
𝑃(𝑋 = 𝑘) = 𝑒 −𝜆
𝜆𝑘
𝑘!
Media y varianza: 𝜇 = 𝜎𝑋2 = 𝜆
Cálculo recursivo
Tanto el cálculo de la distribución binomial como la de Poisson contienen factoriales en la
fórmula de la probabilidad
El cálculo del factorial no es aconsejable en programación, por lo que se recurre al método
recursivo
Se trata de calcular el próximo valor a partir del anterior
Binomial
𝑃(𝑋 = 𝑘 + 1) =
𝑝 𝑛−𝑘
𝑃(𝑋 = 𝑘)
1−𝑝𝑘+1
Posisson
𝑃(𝑋 = 𝑘 + 1) =
𝜆
𝑃(𝑋 = 𝑘)
𝑘+1
Vectores aleatorios discretos
Vectores aleatorios discretos ⇒ Vectores obtenidos a partir de variables discretas
(𝑋1 , 𝑋2 , … , 𝑋𝑛 ) definidas sobre un mismo espacio de probabilidad.
Se obtienen de medir simultáneamente varias magnitudes de un mismo elemento.
Distribución conjunta de un vector aleatorio
Función de probabilidad conjunta del vector (𝑋, 𝑌):
𝑝(𝑖, 𝑗) = 𝑃(𝑋 = 𝑖, 𝑌 = 𝑗),
𝑖 ∈ 𝑋(𝛺),
Cualquier conjunto o matriz de números (𝑝(𝑖, 𝑗)),
distribución conjunta siempre que cumpla:
𝑖 ∈ 𝑋(𝛺),
𝑗 ∈ 𝑌(𝛺)
𝑗 ∈ 𝑌(𝛺), define una
𝑝(𝑖, 𝑗) ≥ 0 y ∑𝑖∈𝑋(Ω) ∑𝑗∈𝑌(Ω) 𝑝(𝑖, 𝑗) = 1
Cálculo de probabilidades a partir de la distribución conjunta
 Cálculo de la probabilidad mediante condiciones
 Dado un vector (𝑋, 𝑌), y alguna restricción sobre ellas, 𝐵, su probabilidad:
𝑃((𝑋, 𝑌) ∈ 𝐵) = ∑ 𝑃(𝑋 = 𝑖, 𝑌 = 𝑗)
(𝑖,𝑗)∈𝐵
Distribuciones marginales
Cuando sólo ponemos restricción en una de las variables:
𝑃(𝑋 = 𝑖) = ∑ 𝑃(𝑋 = 𝑖, 𝑌 = 𝑗) ,
𝑖 ∈ 𝑋(Ω) (𝑓𝑖𝑗𝑎𝑚𝑜𝑠 𝑋)
𝑗∈𝑌(Ω)
𝑃(𝑌 = 𝑗) = ∑ 𝑃(𝑋 = 𝑖, 𝑌 = 𝑗) ,
𝑗 ∈ 𝑌(Ω) (𝑓𝑖𝑗𝑎𝑚𝑜𝑠 𝑌)
𝑖∈𝑋(Ω)
El conjunto {𝑃(𝑋 = 𝑖)}𝑖∈𝑋(𝛺) define la distribución unidimensional de 𝑋. El conjunto
{𝑃(𝑌 = 𝑗)}𝑗∈𝑌(𝛺) define la distribución unidimensional de 𝑌.
Definiendo la distribución 𝑃(𝑋, 𝑌) en tabla, 𝑃(𝑋 = 𝑖) es la suma de las probabilidades de la fila
𝑖-ésima (para 𝑃(𝑌 = 𝑗) para la columna 𝑗-ésima).
Valores esperados en una distribución conjunta
Por extensión del caso unidimensional, la esperanza matemática de una función del vector
aleatorio, 𝑓(𝑋, 𝑌), se define por:
𝐸{𝑓(𝑋, 𝑌)} = ∑
∑ 𝑓(𝑖. , 𝑗)𝑃(𝑋 = 𝑖, 𝑌 = 𝑗)
𝑖∈𝑋(Ω) 𝑗∈𝑌(Ω)
Valor esperado de la suma de dos variables
Cualesquiera que sean las variables 𝑋1 , 𝑋2 , … , 𝑋𝑛 , se cumple:
𝐸{𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛 } = 𝐸{𝑋1 } + 𝐸{𝑋2 } + ⋯ + 𝐸{𝑋𝑛 }
Covarianza de dos variables
La covarianza entre dos variables es un parámetro de la distribución conjunta que mide la
variación simultánea de 𝑋 e 𝑌:
𝜎𝑋,𝑌 = 𝐸{(𝑋 − 𝐸{𝑋})(𝑌 − 𝐸{𝑌})}
que no es más que la esperanza de la función
𝑓(𝑋, 𝑌) = (𝑋 − 𝐸{𝑋})(𝑌 − 𝐸{𝑌})
Coeficiente de correlación
𝜌𝑋,𝑌 =
𝜎𝑋,𝑌
√𝜎𝑋2 𝜎𝑌2
con −1 ≤ 𝜌𝑋,𝑌 ≤ 1. Nos indica el grado de ajuste lineal entre las variables, de tal manera que
si 𝜌𝑋,𝑌 → 0 las variables están descorrelacionadas (incorreladas).
Propiedades del valor esperado
El valor esperado 𝐸 (esperanza) es un operador lineal de 𝑋 e 𝑌:
𝐸{𝑎𝑋 + 𝑏𝑌} = 𝑎𝐸{𝑋} + 𝑏𝐸{𝑌}
Aplicando la linealidad la covarianza queda:
𝜎𝑋,𝑌 = 𝐸{𝑋𝑌} − 𝐸{𝑋}𝐸{𝑌}
Distribuciones condicionadas
De la definición de probabilidad condicionada, se sigue que la probabilidad del suceso 𝑋 (para
todos sus valores) condicionada a que sabemos que 𝑌 = 𝑦
𝑃(𝑋 = 𝑥|𝑌 = 𝑦) =
𝑃(𝑋 = 𝑥, 𝑌 = 𝑦)
,
𝑃(𝑌 = 𝑦)
𝑥 ∈ 𝑋(Ω)
También se puede interpretar de un modo dinámico de dos sorteos, primer el sorteo de 𝑌
(respecto a la distribución marginal) y después el valor de 𝑋 respecto a la distribución marginal
de 𝑌.
La esperanza matemática de la distribución 𝑋|𝑌 = 𝑗
𝐸{𝑋|𝑌 = 𝑗} = ∑ 𝑖𝑃(𝑋 = 𝑖|𝑌 = 𝑗)
𝑖∈𝑋(Ω)
herramienta muy útil ya que reduce el problema a otros menores.
Variables aleatorias independientes
Dos variables aleatorias 𝑋, 𝑌 definidas sobre un mismo espacio de probabilidad son
independientes si se cumple
𝑃(𝑋 = 𝑖, 𝑌 = 𝑗) = 𝑃(𝑋 = 𝑖)𝑃(𝑌 = 𝑗)
para cada 𝑖 ∈ 𝑋(𝛺), 𝑗 ∈ 𝑌(𝛺). La independencia de 𝑋 e 𝑌 es una propiedad de su distribución
conjunta.
La independencia de dos variables significa que saber que 𝑌 = 𝑗 no altera la probabilidad
marginal de 𝑋, cualquiera que sea 𝑌
La condición de independencia de dos sucesos es simétrica: si 𝑋 es independiente de 𝑌, 𝑌 será
también independiente de 𝑋
Si dos variables 𝑋 e 𝑌 son independientes, cualquier suceso 𝐴 definido por una condición
sobre 𝑋 es independiente de cualquier suceso 𝐵 definido por una condición sobre 𝑌
𝑃(𝑋 ∈ 𝐴, 𝑌 ∈ 𝐵) = 𝑃(𝑋 ∈ 𝐴)𝑃(𝑌 ∈ 𝐵)
Así mismo, la propiedad de las variables independientes implica que dos funciones de 𝑋 e 𝑌,
𝑓(𝑋) y 𝑔(𝑌), también son independientes.
Conjuntos y sucesiones de variables independientes
Las variables 𝑋1 , 𝑋2 , … , 𝑋𝑛 , son independientes si se verifica
𝑛
𝑃(𝑋1 = 𝑥1 , 𝑋2 = 𝑥2 , … , 𝑋𝑛 = 𝑥𝑛 ) = ∏ 𝑃(𝑋𝑘 = 𝑥𝑘 )
𝑘=1
cualquiera que sean 𝑥𝑘 ∈ 𝑋𝑘 (𝛺), 1 ≤ 𝑘 ≤ 𝑛.
Para que sean independientes lo tienen que ser dos a dos, tres a tres, cuatro a cuatro, etc.
Generalizando a sucesiones infinitas ⇒ Las variables de una sucesión {𝑋𝑛 }∞
𝑛=1 son
independientes si las variables de cualquier subconjunto finito lo son.
Esperanza del producto de variables independientes
Si dos variables, 𝑋 e 𝑌, son independientes, la esperanza y el producto de las variables
conmutan y se verifica
𝐸{𝑋𝑌} = 𝐸{𝑋}𝐸{𝑌}
Si 𝑓 y 𝑔 son funciones de las variables 𝑋, 𝑌 independientes, entonces 𝑓(𝑋) y 𝑔(𝑌) son
independientes y cumple
𝐸{𝑓(𝑋)𝑔(𝑌)} = 𝐸{𝑓(𝑋)}𝐸{𝑔(𝑌)}
De manera general ⇒ Si 𝑋𝑖 , 1 ≤ 𝑖 ≤ 𝑛, son independientes y 𝑓𝑖 , 1 ≤ 𝑖 ≤ 𝑛, son funciones, las
variables 𝑓𝑖 (𝑋𝑖 ) son independientes y se cumple:
𝑘
𝑘
𝐸 {∏ 𝑓𝑖 (𝑋𝑖 ) } = ∏ 𝐸{𝑓𝑖 (𝑋𝑖 )}
𝑖=1
𝑖=1
Varianza de la suma de variables independientes
Si 𝑋 e 𝑌 son variables independientes con varianzas finitas, la varianza de la suma de las
variables es igual a la suma de las varianzas:
2
𝜎𝑋+𝑌
= 𝜎𝑋2 + 𝜎𝑌2
Generalizando ⇒ Si 𝑋𝑖 , 1 ≤ 𝑖 ≤ 𝑛, son independientes y tienen varianzas finitas, se cumple
𝜎𝑋21 +𝑋2 +···+𝑋𝑛 = 𝜎𝑋21 + 𝜎𝑋22 + ⋯ + 𝜎𝑋2𝑛
Leyes de los grandes números
Consideremos una serie de pruebas repetidas independientes de un mismo experimento que
modelamos en una sucesión 𝑋1 , 𝑋2 , … de variables aleatorias independientes. Todas con igual
distribución y media y varianza 𝜇, 𝜎 2 .
Si 𝑋’𝑛 es la media aritmética de los valores observados en las 𝑛 primeras pruebas
𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛
𝑋𝑛′ =
𝑛
entonces si 𝑛 → ∞
lim 𝑃(|𝑋𝑛′ − 𝜇| > 𝜀) = 0
𝑛→∞
la probabilidad de que 𝑋’𝑛 se aleje de la media 𝜇 en más de una cantidad 𝜀 irá a cero así como
aumentamos 𝑛.
UNED
Unidad Didáctica II:
Modelos probabilísticos
continuos
Segundo tema de la asignatura de Estadística del Grado en Ingeniería
Informática
26/05/2018
Puntos al azar en el continuo
Para el caso del discreto, la regla de Laplace que nos proporcionaba la probabilidad venia dado
por:
𝑐𝑎𝑠𝑜𝑠 𝑓𝑎𝑣𝑜𝑟𝑎𝑏𝑙𝑒𝑠
𝑐𝑎𝑠𝑜𝑠 𝑝𝑜𝑠𝑖𝑏𝑙𝑒𝑠
En el continuo, la probabilidad es la relación entre el tamaño geométrico de las regiones
formadas por los puntos “favorables” y los “posibles”.
Probabilidad geométrica ⇒ Si se elige un punto 𝑃 al azar en un conjunto 𝐴 de algun espacio
euclideo ℝ, ℝ2 , ℝ3 , etc, la probabilidad de que el punto elegido pertenezca a 𝐵 ⊂ 𝐴 es
𝑃(𝑃 ∈ 𝐵) =
𝑚𝑒𝑑𝑖𝑑𝑎(𝐵)
𝑚𝑒𝑑𝑖𝑑𝑎(𝐴)
La probabilidad geométrica nos deja elegir la dimensión para plantear el problema.
Función de densidad de una variable aleatoria
La función densidad de probabilidad cumple:
𝑓(𝑥) ≥ 0
∞
∫ 𝑓(𝑡)𝑑𝑡 = 1
−∞
La probabilidad de un suceso 𝑋 ∈ 𝐼, dónde 𝐼 es un intervalo, se obtiene mediante la integral
𝑃(𝑋 ∈ 𝐼) = ∫ 𝑓(𝑡)𝑑𝑡
𝐼
Interpretación gráfica
El área total de la función densidad de probabilidad es igual a 1.
El área por debajo de la función densidad de probabilidad representa la probabilidad.
El área de una región equivale a la probabilidad de obtener un resultado de dicho intervalo.
𝑏
𝑃(𝑋 ∈ (𝑎, 𝑏)) = ∫ 𝑓(𝑡)𝑑𝑡
𝑎
Valor esperado de una variable continua
La esperanza matemática o valor esperado de una variable 𝑋 con función de densidad 𝑓 es la
integral:
∞
𝐸{𝑋} = ∫ 𝑡𝑓(𝑡)𝑑𝑡
−∞
siempre que la integral sea finita
Si la integral es infinita, se dice que la variable no tiene valor medio.
Valor esperado de una función
Valor esperado de una función 𝑌 = 𝑔(𝑋)
∞
𝐸{𝑔(𝑋)} = ∫ 𝑔(𝑡)𝑓(𝑡)𝑑𝑡
−∞
donde 𝑔(𝑋) es la función de densidad de 𝑋
La varianza de 𝑋, se define como la esperanza de la función 𝑔(𝑋) = (𝑋 − 𝐸{𝑋})2
∞
𝜎𝑋2
= ∫ (𝑡 − 𝐸{𝑋})2 𝑓(𝑡)𝑑𝑡 = 𝐸{𝑋 2 } − (𝐸{𝑋})2
−∞
Función de densidad uniforme
Paradigma: elegir un punto al azar en un intervalo [𝑎, 𝑏]
1
𝑓(𝑥) = {𝑏 − 𝑎
0
 Esperanza ⇒ 𝐸{𝑋} =
𝑥 ∈ [𝑎. 𝑏]
𝑥 ∉ [𝑎. 𝑏]
𝑎+𝑏
2
𝑏2 +𝑎𝑏+𝑎 2
3
(𝑏−𝑎)2
 Momento a segundo orden ⇒ 𝐸{𝑋 2 } =
 Varianza ⇒ 𝜎𝑋2 = 𝐸{𝑋 2 } − (𝐸{𝑋})2 =
12
Función de densidad exponencial
Paradigma: Tiempo que tarda en desintegrarse un átomo de una masa de material radioactivo
o tiempo de funcionamiento de un dispositivo hasta que se avería.
0
𝑓(𝑥) = { −𝜆𝑥
𝜆𝑒
𝑥<0
𝑥≥0
Depende de un parámetro 𝜆 > 0 (si 𝜆 ↑ la exponencial decae más rápidamente)
1
 Esperanza ⇒ 𝐸{𝑋} = 𝜆
 Momento a segundo orden ⇒ 𝐸{𝑋 2 } =
1
𝜆2
1
 Varianza ⇒ 𝜎𝑋2 = 𝐸{𝑋 2 } − (𝐸{𝑋})2 = 𝜆2
Función de densidad normal
Definida por
𝑓(𝑥) =
1
√2𝜋𝜎
𝑒
−
(𝑥−𝜇)2
2𝜎2
Depende de dos parámetros: 𝜇 (media de distribución) y 𝜎 (𝜎 2 varianza)
Familia de distribuciones 𝒩(𝜇, 𝜎)
𝒩(0, 1) ⇒ Función de densidad con 𝜇 = 0 y 𝜎 = 1
Propiedades
 Si 𝑋 es una variable con distribucion 𝒩(𝜇, 𝜎) y 𝑎, 𝑏 ∈ ℝ, entonces 𝑎𝑋 + 𝑏 tiene
distribucion normal de media y varianza:
𝐸{𝑎𝑋 + 𝑏} = 𝑎𝐸{𝑋} + 𝑏 = 𝑎𝜇 + 𝑏
2
2
𝜎𝑎𝑋+𝑏
= 𝜎𝑎𝑋
= 𝑎2 𝜎𝑋2 = 𝑎2 𝜎 2
 Si 𝑋 tiene distribucion 𝒩(𝜇, 𝜎), la variable 𝑍 =
𝑋−𝜇
𝜎
tiene distribución 𝒩(0,1).
Funciones de distribución
La función de distribución, 𝐹(𝑥), en cada punto 𝑥, devuelve el valor de la probabilidad
acumulada en el intervalo (−∞, 𝑥] (lo que es la probabilidad de que la variable aleatoria 𝑋
tome valores menores o iguales a 𝑥) ⇒ 𝐹(𝑥) = 𝑃(𝑋 ≤ 𝑥) función de distribución de 𝑋.
Caracterización de las funciones de distribución
Toda función de distribución 𝐹 verifica:
 𝐹 es no decreciente ⇒ Si 𝑥 < 𝑥′, se tiene 𝐹(𝑥) ≤ 𝐹(𝑥 ′ )
 𝐹 es continua por la derecha
 Se cumple lim𝑥→∞ 𝐹(𝑥) = 1 y lim𝑥→−∞ 𝐹(𝑥) = 0
De la misma manera que si se cumplen las tres condiciones, entonces esta función 𝐹 es una
función de distribución.
La función de distribución es válida tanto para variable continua como discreta.
Variable continua ⇒ Variable 𝑋 continua con función densidad 𝑓(𝑥); la función de distribución
será:
𝑥
𝐹𝑋 (𝑥) = 𝑃(𝑋 ≤ 𝑥) = ∫ 𝑓(𝑡)𝑑𝑡
−∞
Función de distribución de una transformada
Dada 𝑋, variable aleatoria con funcion de distribucion 𝑔(𝑥), la función de distribución de
𝑌 = 𝑓(𝑋) será en el intervalo 𝐼 = (−∞, 𝑦]
𝐹𝑌 (𝑦) = 𝑃(𝑌 ≤ 𝑦) = 𝑃(𝑔(𝑋) ≤ 𝑦) = 𝑃(𝑋 ∈ 𝑔−1 (𝐼))
Transformaciones lineales
Conocemos la distribución de 𝑋 con función densidad 𝑓𝑋 (𝑥) y función de distribución 𝐹𝑋 (𝑥);
𝑌 = 𝑎𝑋 + 𝑏, 𝑎 > 0, entonces:
𝑦−𝑏
𝑦−𝑏
) = 𝐹𝑋 (
)
𝑎
𝑎
𝑑
𝑑
𝑦−𝑏
𝑑 𝑦−𝑏
𝑦−𝑏
1
𝑦−𝑏
𝐹𝑌′ (𝑦) =
𝐹𝑌 (𝑦) =
𝐹𝑋 (
)=
(
) 𝑓𝑋 (
) = 𝑓𝑋 (
)
𝑑𝑦
𝑑𝑦
𝑎
𝑑𝑦
𝑎
𝑎
𝑎
𝑎
𝐹𝑌 (𝑦) = 𝑃(𝑌 ≤ 𝑦) = 𝑃(𝑎𝑋 + 𝑏 ≤ 𝑦) = 𝑃 (𝑋 ≤
Funciones de densidad conjunta
Distribución bidimensional continua ⇒ Diremos que un vector aleatorio (𝑋, 𝑌) tiene
distribucion de probabilidad continua si existe una función 𝑓(𝑥, 𝑦), que denominaremos
función de densidad bidimensional conjunta (o función de densidad conjunta) tal que
𝑃(𝑋 ∈ 𝐼1 , 𝑌 ∈ 𝐼2 ) = ∬ 𝑓(𝑥, 𝑦)𝑑𝑦𝑑𝑥
𝐼1 ×𝐼2
También cumplirá entonces:
𝑃((𝑋, 𝑌) ∈ 𝐵) =
∬ 𝑓(𝑥, 𝑦)𝑑𝑦𝑑𝑥
(𝑥,𝑦)∈𝐵
𝑓(𝑥, 𝑦) será función de densidad conjunta si verifica:
 𝑓(𝑥, 𝑦) ≥ 0, para −∞ < 𝑥 < +∞, −∞ < 𝑦 < +∞
 𝑓(𝑥, 𝑦)𝑑𝑥𝑑𝑦 = 1
Funciones de densidad marginales
Si (𝑋, 𝑌) es un vector aleatorio con densidad conjunta 𝑓(𝑥, 𝑦), cada una de sus componentes
𝑋 e 𝑌 tienen distribución unidimensional continua que se calcula a partir de la conjunta
∞
∞
𝑓𝑋 (𝑥) = ∫−∞ 𝑓(𝑥, 𝑦)𝑑𝑦
𝑓𝑌 (𝑦) = ∫−∞ 𝑓(𝑥, 𝑦)𝑑𝑥
𝑓𝑋 (𝑥) y 𝑓𝑌 (𝑦), densidades marginales de 𝑋 e 𝑌.
En 𝑥 acumulamos toda la densidad de probabilidad que tienen los puntos (𝑥, 𝑦), con 𝑥 fijo e 𝑦
variable.
Para el cálculo de probabilidad para un intervalo 𝐵:
∞
𝑃(𝑋 ∈ 𝐵) = ∫ ∫ 𝑓(𝑥, 𝑦)𝑑𝑦𝑑𝑥 = ∫ 𝑓𝑋 (𝑥)𝑑𝑥
𝑥∈𝐵 −∞
𝑥∈𝐵
Funciones de densidad condicionadas
Si el vector (𝑋, 𝑌) tiene función de densidad conjunta 𝑓(𝑥, 𝑦), la función de densidad de la
variable condicionada 𝑌|𝑋 = 𝑥 es igual a
𝑓(𝑥, 𝑦)
𝑓𝑦|𝑥 (𝑦) = { 𝑓𝑋 (𝑥)
0
𝑠𝑖 𝑓𝑋 (𝑥) > 0
𝑠𝑖 𝑓𝑋 (𝑥) = 0
Independencia de dos valores
Independencia de valores ⇒ Si el vector (𝑋, 𝑌) tiene función de densidad conjunta 𝑓(𝑥, 𝑦),
decimos que las variables 𝑋 e 𝑌 son independientes si se cumple
𝑓(𝑥, 𝑦) = 𝑓𝑋(𝑥)𝑓𝑌(𝑦), para cada par (𝑥, 𝑦)
Modelos dinámicos continuos
De la función de densidad condicionada podemos sacar:
𝑓(𝑥, 𝑦) = 𝑓𝑋 (𝑥)𝑓(𝑦|𝑥)
Valores esperados y momentos
Si 𝑋 e 𝑌 son dos variables aleatorias con función de densidad conjunta 𝑓(𝑥, 𝑦), la esperanza
matematica de una funcion 𝑔(𝑥, 𝑦)
∞
∞
𝐸{𝑔(𝑋, 𝑌)} = ∫ ∫ 𝑔(𝑥, 𝑦)𝑓(𝑥, 𝑦)𝑑𝑦𝑑𝑥
−∞ −∞
supuesto que la integral exista.
Valor esperado de una función lineal
𝐸{𝑎𝑋 + 𝑏𝑌} = 𝑎𝐸{𝑋} + 𝑏𝐸{𝑌}
Valor esperado de funciones independientes ⇒ Si 𝑋 e 𝑌 son dos variables independientes y 𝑔
y ℎ son dos funciones medibles, 𝑔(𝑋) y ℎ(𝑋) son independientes y se cumple:
𝐸{𝑔(𝑋)ℎ(𝑌)} = 𝐸{𝑔(𝑋)}𝐸{ℎ(𝑌)}
Varianza y covarianza de un vector aleatorio
Varianza de una variable aleatoria 𝑿 𝐸{𝑔(𝑋)} con 𝑔(𝑋) = (𝑋 − 𝐸{𝑋})2
𝜎𝑋2 = 𝐸{(𝑋 − 𝐸{𝑋})2 }
Covarianza entre las variables 𝐗 e 𝐘 ⇒ Es el valor esperado de 𝑔(𝑋, 𝑌) = (𝑋 − 𝐸{𝑋})(𝑌 −
𝐸{𝑌})
𝐶𝑜𝑣𝑋𝑌 = 𝐸{(𝑋 − 𝐸{𝑋})(𝑌 − 𝐸{𝑌})}
 La covarianza mide la co-variacion de las variables
 Propiedad ⇒ 𝐶𝑜𝑣𝑋𝑌 = 𝐸{𝑋𝑌} − 𝐸{𝑋}𝐸{𝑌}
 Coeficiente de correlación ⇒ 𝜌𝑋,𝑌 =
𝐶𝑜𝑣𝑋𝑌
𝜎𝑋 𝜎𝑌
⇒ Nº adimensional que mide el grado de
asociación lineal entre 𝑋 e 𝑌.
 Si 𝜎𝑋,𝑌 = 0 ⇒ 𝜌𝑋𝑌 = 0, variables incorrelacionadas (⇍)
UNED
Unidad Didáctica III:
Muestreo aleatorio
Tercer tema de la asignatura de Estadística del Grado en Ingeniería
Informática
26/05/2018
Muestras aleatorias
Muestra ⇒ Datos obtenidos mediante la observación repetida del fenómeno o de fenómenos
relacionados
Supongamos que de una variable 𝑋 conocemos el tipo de distribución, pero no conocemos sus
parámetros. Para adquirir información sobre estos se realizan 𝒏 observaciones (repeticiones)
del experimento con 𝑥𝑖 valor observado 𝑖-esimo: (𝑥1 , 𝑥2 , … , 𝑥𝑛 ) muestra aleatoria de 𝑋.
Tamaño de la muestra es 𝑛.
Muestra aleatoria simple ⇒ Cuando las observaciones están formadas por repeticiones
independientes.
La inferencia estadística hace sus análisis y elabora previsiones en base a diversas funciones
calculadas a partir de los datos muestrales, cualquier función de los valores de la muestra se
denomina estadístico. Ejemplo: la media de la muestra
Estadístico → Función de los valores muestrales
Distribución de la muestra ⇒ Una muestra aleatoria simple, de tamaño 𝑛, de una variable
aleatoria 𝑋 es un vector aleatorio (𝑋1 , 𝑋2 , … , 𝑋𝑛 ) de variables independientes con la misma
distribución que 𝑋; si 𝑋 es discreta con función de probabilidad 𝑝(𝑥), la función de
probabilidad de la muestra será
𝑝(𝑥1 , … , 𝑥𝑛 ) = 𝑝(𝑥1 )𝑝(𝑥2 ) … 𝑝(𝑥𝑛 )
y si 𝑋 es continua con funcion de densidad 𝑓(𝑥), la función de densidad conjunta de la
muestra será
𝑓(𝑥1 , … , 𝑥𝑛 ) = 𝑓(𝑥1 )𝑓(𝑥2 ) … 𝑓(𝑥𝑛 )
Dos importantes razones teóricas avalan al muestreo aleatorio simple. La primera razón es la
disminución de la variabilidad conforme aumenta el tamaño de la muestra, sabemos que si la
variable 𝑋 tiene media 𝜇 y varianza 𝜎 2 , la media de la muestra, 𝑋̅,
̅𝑋̅̅𝑛̅ =
tiene media 𝜇 y varianza
𝜎2
,
𝑛
𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛
𝑛
lo que significa que al aumentar el tamaño de la muestra la
variabilidad del estadístico media muestral disminuye y sus valores están más y más
concentrados alrededor del valor 𝜇, lo que nos hace esperar que ̅𝑋̅̅𝑛̅ sea un valor que permita
obtener buenas aproximación de 𝜇 si el tamaño de la muestra es suficientemente grande. Esta
observación tiene una importancia crucial, pues supone que podemos mejorar nuestro
conocimiento de un fenómeno mediante observaciones repetidas del mismo. La segunda
razón se basa en la ley de los grandes números y precisa que la media de la muestra converge
a la desconocida media de 𝑋 cuando 𝑛 → ∞.
Al aumentar el tamaño de la muestra, la media de la muestra, ̅𝑋̅̅𝑛̅, cada vez se aproxima más al
valor teórico (𝜇, desconocido) tal que si 𝑛 → ∞ ⇒ ̅𝑋̅̅𝑛̅ → 𝜇 (ley de los grandes números). Esto
también es válido para cualquier momento, p. ej.: (𝑋12 , 𝑋22 , … , 𝑋𝑛2 )
La distribución empírica obtenida de la muestra (se entiende la distribución discreta que se
obtiene de elegir al azar uno de los valores muestrales) también se aproxima hacia la
distribución de la población. Sera una función escalera:
𝐹𝑛∗ (𝑥) =
𝑛º 𝑒𝑙𝑒𝑚𝑒𝑛𝑡𝑜𝑠 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙𝑒𝑠 ≤ 𝑥
,
𝑛
𝑝𝑎𝑟𝑎 𝑐𝑎𝑑𝑎 𝑥 ∈ ℝ
Teorema Glivenko - Cantelli ⇒ La función de distribucion empírica converge uniformemente
hacia la función de distribución de la población con probabilidad uno
Distribuciones que se presentan en le muestreo
Tomamos una muestra aleatoria simple: (𝑋1 , 𝑋2 , … , 𝑋𝑛 ) de una población 𝑋.
Tipos de distribución:
 Distribución Gamma
 Distribución 𝜒 2 (ji-cuadrado)
 Distribución 𝑡 de Student
Distribución Gamma
Estudio de fenómenos con distribución exponencial de parámetro 𝜆 > 0.
El instante 𝑇 en que ocurre la 𝑛-ésima observación del fenómeno:
𝑇 = 𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛
La función de densidad de 𝑇 para 𝑡 > 0 es la función de densidad de gamma:
𝛾(𝑛, 𝜆)(𝑥) = 𝑓𝑛,𝜆 (𝑡) =
𝜆𝑛 𝑛−1 −𝜆𝑡
𝑡
𝑒
Γ(𝑛)
Válida para 𝑛 > 0 (no solo enteros) y Γ(𝑛) es para normalizar y cumple:
Γ(𝑝 + 1) = 𝑝Γ(𝑝)
Γ(𝑝) = (𝑝 − 1)Γ(𝑝 − 1) = (𝑝 − 1)(𝑝 − 2)Γ(𝑝 − 2) = ⋯ = (𝑝 − 1)(𝑝 − 2)(𝑝 − 3) … 1Γ(1)
con Γ(1) = 1. Si 𝑝 es entero ⇒ Γ(𝑝) = (𝑝 − 1)!
∞
Γ(𝑛) = ∫ 𝑡 𝑛−1 𝑒 −𝑡 𝑑𝑡
0
Distribución 𝝌𝟐 de Pearson
Para una población descrita por una variable aleatoria unidimensional 𝑋, con distribución
teórica 𝒩(0,1)
La distribución suma de los cuadrados: ∑𝑛𝑖=1 𝑋𝑖2 es la distribución 𝜒 2 (ji-cuadrado):
𝑓𝑛 (𝑦) =
1
𝑛
𝑦2
𝑛
𝑛
22 Γ ( )
2
−1 −
𝑒
𝑦
2
𝑛 1
Pertenece al modelo de la distribución gamma con 𝑓𝑛 (𝑦) = 𝑔 (2 , 2)
La distribución 𝜒 2 solo depende de un parámetro, 𝑛.
La media y la varianza de 𝜒 2 ⇒ 𝐸{𝑌} = 𝐸{∑𝑛𝑖=1 𝑋𝑖2 } = 𝑛, 𝜎𝑌2 = 2𝑛
2
Si 𝑌1 e 𝑌2 son variables aleatorias independientes con distribuciones 𝜒𝑛2 y 𝜒𝑚
, entonces
𝑚+𝑛 2
2
𝑌 = 𝑌1 + 𝑌2 = ∑𝑖=1 𝑋𝑖 tiene distribución 𝜒𝑛+𝑚
Si (𝑋1 , … , 𝑋𝑛 ) es una muestra aleatoria simple con distribución 𝒩(0, 𝜎), el estadístico
1
𝑌𝑛 = 𝜎2 ∑𝑛𝑖=1 𝑋𝑖2 tiene distribución 𝜒𝑛2 .
En este caso, el estadístico media muestral y la varianza muestral 𝑠 2 :
𝑛
1
𝑋̅ = ∑ 𝑋𝑖
𝑛
𝑛
𝑠2 =
𝑖=1
1
∑(𝑋𝑖 − 𝑋̅)2
𝑛
𝑖=1
𝑋̅ y 𝑠 2 son independientes
Teorema de Fisher ⇒ Si 𝑌 = 𝑛
𝑠2
,
𝜎2
2
su distribucion sera 𝑋𝑛−1
Distribución 𝒕 de Student
Si (𝑋1 , … , 𝑋𝑛 ) es una muestra aleatoria simple de una población 𝒩(𝜇, 𝜎), el estadístico de
Student tiene distribución 𝑡 de Student tiene distribución 𝑡 de Student con 𝑛 − 1 grados de
libertad:
𝑋̅ − 𝜇
𝑌 = √𝑛 − 1
𝑠
−𝑛+1
𝑛+1
1 Γ( 2 )
𝑡2 2
𝑓𝑛 (𝑡) =
(1 + )
𝑛
√𝑛𝜋 Γ (𝑛)
2
Está definida para (−∞, ∞) y es simétrica respecto al origen
UNED
Unidad Didáctica IV:
Inferencia estadística
Cuarto tema de la asignatura de Estadística del Grado en Ingeniería
Informática
26/05/2018
Inferencia estadística
Inferencia estadística ⇒ Proceso de extraer conclusiones generales válidas para toda la
población a partir de una muestra aleatoria tomada por esta.
Punto de partida ⇒ Se conoce parcialmente el modelo estadístico del fenómeno estudiado. Se
pretende mejorar esta información a partir de la información obtenida de las muestras
aleatorias.
Estimaciones por punto
A partir de las observaciones muestrales 𝑋1 , 𝑋2 , … , 𝑋𝑛 , un estimador puntual de un parámetro
es un estadístico 𝑇(𝑋1 , … , 𝑋𝑛 ) (que es función de las muestras (𝑥2 , … , 𝑥𝑛 )).
Si queremos estimar 𝜃 → El valor estimado a partir del muestreo: 𝜃̂ = 𝑇(𝑥1 , … , 𝑥𝑛 ).
La cuestión va a ser elegir el estadístico que adoptaremos como estimador.
Estimadores insesgados
Sesgo y estimador insesgado ⇒ Si 𝑇(𝑋1 , 𝑋2 , … , 𝑋𝑛 ) es un estimador del parámetro 𝜃, la
diferencia
𝑏 = 𝐸{𝑇} − 𝜃
es el sesgo del estimador
Si 𝑏 = 0 → El estimador se denomina centrado o insesgado
Estimadores sesgados e insesgados ⇒ La media muestral, 𝑋̅, es un estimador insesgado de la
media de la población. La cuasivarianza muestral 𝑆 2 es un estimador insesgado de la varianza
de la población. La varianza muestral 𝑠 2 es un estimador sesgado de 𝜎 2 y tiene un sesgo
𝑏=−
𝜎2
𝑛
𝑛
1
𝑋̅ = ∑ 𝑋𝑖
𝑛
𝑖=1
𝑛
𝑆2 =
1
∑(𝑋𝑖 − 𝑋̅)2
𝑛−1
𝑛
𝑠2 =
𝑖=1
1
∑(𝑋𝑖 − 𝑋̅)2
𝑛
𝑖=1
Sesgo (𝑏) y varianza (𝜎 2 )
Generalmente 𝜎 2 , varianza del estimador, disminuya con 𝑛 ⇒ La precisión aumenta con el
tamaño de la muestra, pero si el estimador está sesgado, la mayor parte de las estimaciones
estarán sistemáticamente apartadas del valor a estimar (1ª diana)
La aspiración de la Inferencia estadística no es que cada estimación de en el blanco, si no
desarrollar un método para estimar que, aplicada muchas veces, produzca un alto porcentaje
de estimaciones aceptables
Estadísticos suficientes
Estimador suficiente ⇒ Un estadístico es suficiente para la estimación de un parámetro si la
distribución de la muestra condicionada por el estadístico es independiente del parámetro.
Dada una población con función de distribución 𝐹(𝑥, 𝜃) y una muestra aleatoria simple,
(𝑋1 , … , 𝑋𝑛 ), de esta población, decimos que un estadístico 𝑇(𝑋1 , … , 𝑋𝑛 ) es suficiente para
estimar 𝜃 si la distribución de la muestra, condicionada por el valor del estadístico 𝑇, no
depende de 𝜃.
Criterio general para considerar el estadístico suficiente ⇒ Teorema de factorización
Consideramos una población cuya distribución según la función 𝐹(𝑥, 𝜃), y una muestra
aleatoria simple (𝑋1 , … , 𝑋𝑛 ) representemos por 𝑓(𝑥1 , … , 𝑥𝑛 ) la función de probabilidad (de
densidad si es continua). Condición necesaria y suficiente para que un estadístico 𝑇(𝑋1 , … , 𝑋𝑛 )
sea suficiente es que 𝑓(𝑥1 , … , 𝑥𝑛 ) se puede factorizar como
𝑓(𝑥1 , … , 𝑥𝑛 ) = 𝑔(𝑇(𝑥1 , … , 𝑥𝑛 ), 𝜃)ℎ(𝑥1 , … , 𝑥𝑛 )
siendo 𝑔 una función que solo depende de la muestra a través del valor 𝑇(𝑥1 , … , 𝑥𝑛 ) que toma
el estadístico y ℎ(𝑥1 , … , 𝑥𝑛 ) una función que no depende de 𝜃.
Estimadores de máxima verosimilitud
Tirar 100 veces una moneda y todas den cara, no nos hace pensar que este equilibrada,
aunque la estadística nos permita el capricho.
Principio de máxima verosimilitud ⇒ La aparición de un suceso debe ser atribuida a aquel
modelo, entre los posibles modelos probabilísticos del fenómeno aleatorio, que haga máxima
la probabilidad de que ocurra el suceso.
Estimador de máxima verosimilitud
 Población con distribución de parámetro 𝜃 (desconocido que toma valores en un
espacio paramétrico 𝛩).
 (𝑋1 , … , 𝑋𝑛 ) muestra aleatoria simple de esta población
 𝑓(𝑥1 , … , 𝑥𝑛 ; 𝜃) su función de probabilidad (densidad en continuo).
La función
𝜃 ↦ 𝑓(𝑥1 , … , 𝑥𝑛 ; 𝜃)
función de verosimilitud de la muestra (𝑥1 , … , 𝑥𝑛 ).
Un estimador 𝜃̂ = 𝜃̂(𝑥1 , … , 𝑥𝑛 ) es estimador de máxima verosimilitud de 𝜃 si para cada
(𝑥1 , … , 𝑥𝑛 ) la función de verosimilitud alcanza su máximo cuando 𝜃 = 𝜃̂:
𝑓(𝑥1 , … , 𝑥𝑛 ; 𝜃̂) = max 𝑓(𝑥1 , … , 𝑥𝑛 ; 𝜃)
𝜃∈Θ
Intervalos de confianza
Para un muestreo de un estimador centrado, 𝑇, de parámetro 𝜃, la varianza de 𝑇 tiende a 0
aumentando 𝑛 ⇒ Los valores de 𝑇 se agruparán alrededor de 𝜃.
Si conocemos la distribución en el muestreo del estadístico 𝑇 y su valor observado en una
realización de la muestra podemos diseñar un método para determinar unos márgenes de
variación alrededor de 𝑇 entre los que esperamos que se encuentre el parámetro ⇒
Estimación por intervalos de confianza
Estimación por intervalos de confianza ⇒ Emplea la información obtenida de la muestra para
reducir la incertidumbre sobre la variación de 𝜃.
El intervalo numérico:
(𝑥̅ − 𝑧𝛼
𝜎
√𝑛
, 𝑥̅ + 𝑧𝛼
𝜎
√𝑛
)
se denomina intervalo de confianza para 𝜽 con nivel de confianza 𝜶, 0 < 𝛼 < 1 (confianza del
100𝛼 %)
La amplitud del intervalo es 2𝑧𝛼 𝜎/√𝑛
Método de la cantidad pivotal para la construcción de intervalos de confianza
𝑇(𝑋1 , … , 𝑋𝑛 ; 𝜃) estadístico con distribución independiente de 𝜃. Fijamos 0 < 𝛼 < 1 ⇒ Se
pueden determinar dos constantes tq:
𝑃(𝑐1 ≤ 𝑇(𝑋1 , … , 𝑋𝑛 ; 𝜃) ≤ 𝑐2 ) ≥ 𝛼
Si podemos separar 𝑇 de la parte que depende de 𝜃
𝑐1 ≤ 𝑇(𝑋1 , … , 𝑋𝑛 ; 𝜃) ≤ 𝑐2 ⇒ 𝑡1 (𝑋1 , … , 𝑋𝑛 ; 𝑐1 ) ≤ 𝑔(𝜃) ≤ 𝑡2 (𝑋1 , … , 𝑋𝑛 ; 𝑐2 )
𝑃(𝑡1 (𝑋1 , … , 𝑋𝑛 ; 𝑐1 ) ≤ 𝑔(𝜃) ≤ 𝑡2 (𝑋1 , … , 𝑋𝑛 ; 𝑐2 )) ≥ 𝛼
de donde sacamos un intervalo de confianza con nivel de confianza 𝛼.
Intervalos de confianza para los parámetros de las distribuciones normales
Consideremos una población con distribución 𝒩(𝜇, 𝜎), de la que tomamos una muestra
aleatoria simple (𝑋1 , … , 𝑋𝑛 ). Sea 𝑧𝛼 , un valor que cumple 𝑃(𝑍 > 𝑧𝛼 ) =
𝛼
2
siendo 𝑍 una
variable normal 𝒩(0,1). Entonces el intervalo numérico
(𝑥̅ − 𝑧𝛼
𝜎
√𝑛
, 𝑥̅ + 𝑧𝛼
𝜎
√𝑛
)
es el intervalo de confianza para la media 𝜇 con nivel de confianza 𝛼, donde 0 < 𝛼 < 1 (o
100𝛼 %)
Consideremos una población con distribución 𝒩(𝜇, 𝜎), de la que queremos conocer 𝜇, pero
desconocemos la varianza 𝜎. Tomamos de esta población una muestra aleatoria simple
(𝑋1 , … , 𝑋𝑛 ). Sea 𝑡𝑛−1;𝛼 el valor que cumple 𝑃(𝑡𝑛−1 > 𝑡𝑛−1;𝛼 ) =
𝛼
2
siendo 𝑡𝑛−1 una variable de
Student con 𝑛 − 1 grados de libertad. Entonces el intervalo numérico
(𝑥̅ − 𝑡𝑛−1;𝛼
𝑆
√𝑛
, 𝑥̅ + 𝑡𝑛−1;𝛼
𝑆
√𝑛
)
es el intervalo de confianza para la media 𝜇 con nivel de confianza 𝛼, donde 0 < 𝛼 < 1 (o del
100𝛼 %).
𝑆 es la covarianza muestral (estimador insesgado de la varianza de la población)
𝑛
1
𝑆 =
∑(𝑥𝑖 − 𝑥̅ )2
𝑛−1
2
𝑖=1
Consideremos una población con distribución 𝒩(𝜇, 𝜎), de la que no conocemos ni 𝜇 ni 𝜎.
Queremos calcular 𝜎
El teorema de Fisher asegura que el estadístico
𝑛
𝑛𝑠 2
1
= 2 ∑(𝑋𝑖 − 𝑋̅)2
2
𝜎
𝜎
𝑖=1
tiene una distribución
2
(ji) 𝜒𝑛−1
𝛼
2
Fijado el nivel de confianza 𝛼, en la tabla de 𝜒 2 podemos encontrar dos valores: 𝜒𝑛−1
(1 − 2 )
𝛼
2
y 𝜒𝑛−1
( 2 ) tal que:
𝛼
𝛼
2
𝑃 (𝜒 2 > 𝜒𝑛−1
(1 − )) = 1 −
2
2
𝛼
𝛼
2
𝑃 (𝜒 2 > 𝜒𝑛−1
( )) =
2
2
que verifica:
𝛼
𝑛𝑠 2
𝛼
2
2
𝑃 (𝜒𝑛−1
(1 − ) < 2 < 𝜒𝑛−1
( )) = 𝛼
2
𝜎
2
Despejando 𝑠 2 , obtenemos:
𝑃(
𝑛𝑠 2
𝑛𝑠 2
2
<
𝜎
<
𝛼
𝛼 )=𝛼
2
2
𝜒𝑛−1
(2 )
𝜒𝑛−1
(1 − 2 )
Contraste de hipótesis
Contrastes o test de hipótesis ⇒ Técnicas de inferencia que persiguen descartar ciertas
conjeturas acerca de un modelo probabilístico como consecuencia de la información aportada
por una muestra.
 Hipótesis nula ⇒ La hipótesis previa
 Hipótesis alternativa ⇒ Valores que nos quedan después de descartar la hipótesis
nula
La 𝐻0 sólo será rechazada si hay una fuerte evidencia en su contra; la falta de rechazo de 𝐻0
no es una prueba de hipótesis, sino que es falta de evidencia en su contra.
 Hipótesis simples ⇒ Hipótesis que determinan unívocamente el modelo probabilístico
 Hipótesis compuestas ⇒ Hipótesis que contienen varios posibles distribuciones de
población
Planteamiento general de los contrastes de hipótesis
Región crítica de un test ⇒ Subconjunto de las muestras que llevan a rechazar la hipótesis
nula. Se denota por 𝐶 (𝑐 ∈ 𝐶)
 Si 𝑋 > 𝑐, entonces rechazamos 𝐻0
 Si 𝑋 ≤ 𝑐, entonces no rechazamos 𝐻0
Nos encontramos con cuatro casos:
𝑯𝟎 es cierta
𝑯𝟎 es falsa
Rechazar 𝑯𝟎
Error tipo I
Decisión correcta
No rechazar 𝑯𝟎 Decisión correcta
Error tipo II
Limitar o controlar de alguna manera la frecuencia con que suceden estos dos errores es el
principal objetivo de los contrastes de hipótesis
Las probabilidades de cometer estos errores:
𝑃(Error tipo I) = 𝑃(Rechazar H0|H0 cierta) = 𝑃(𝐶|H0 cierta)
𝑃(Error tipo II) = 𝑃(No rechazar H0|H0 falsa) = 𝑃(𝐶 𝑐 |H0 falsa)
Disminuir 𝐶, aumenta su complementario 𝐶 𝑐 , lo que aumenta la probabilidad de error tipo
II → Disminuir un error, aumenta la posibilidad el otro.
Criterio para el diseño de un test de hipótesis
1) Fijar, en función de las hipótesis y el contexto del problema, una cota para la
probabilidad de cometer el error tipo I. Esta cota es el nivel de significación del
contraste y se representa por 𝛼.
2) Elegir entre los tests cuya probabilidad de error de tipo I es menor que 𝛼, el test que
hace mínima la probabilidad del error de tipo II.
Potencia del test (𝜷) ⇒ Probabilidad de rechazar la hipótesis nula 𝐻0, cuando el valor del
parámetro es 𝜃1 .
𝛽(𝜃1 ) = 𝑃(𝐶|𝜃 = 𝜃1 ) = 1 − 𝑃(Error tipo II)
El test óptimo para contrastar la hipótesis simple 𝐻0: 𝜃 = 𝜃0 frente a la alternativa simple
𝐻1: 𝜃 = 𝜃1 se alcanza eligiendo, entre los tests que tienen un nivel de significación menor o
igual que un valor prefijado, 𝛼, el contraste que tenga máxima potencia 𝛽(𝜃1 ).
Lema de Neyman-Person
Consideremos una población cuya distribución depende de un parámetro 𝜃 desconocido
supongamos que tiene distribución continua con función de densidad 𝑓(𝑥, 𝜃). La función de
densidad de una muestra aleatoria de tamaño 𝑛 sabemos que es igual a:
𝑓(𝑥1 , … , 𝑥𝑛 ; 𝜃) = 𝑓(𝑥1 ; 𝜃) … 𝑓(𝑥𝑛 ; 𝜃)
el test de máxima potencia para contrastar la hipótesis 𝜃 = 𝜃0, frente a 𝜃 = 𝜃1 tiene una
región crítica definida por
𝑓(𝑥1 , … , 𝑥𝑛 ; 𝜃1 )
>𝑐
𝑓(𝑥1 , … , 𝑥𝑛 ; 𝜃0 )
para alguna constante 𝑐.
Contrastes de hipótesis unilaterales y bilaterales
La mayor parte de los problemas corresponden a parámetros unidimensionales con hipótesis
de algunos de los casos siguientes:
Caso 1: 𝐻0: 𝜃 = 𝜃0 frente a 𝐻1: 𝜃 > 𝜃0
Caso 2: 𝐻0: 𝜃 = 𝜃0 frente a 𝐻1: 𝜃 < 𝜃0
Caso 3: 𝐻0: 𝜃 ≤ 𝜃0 frente a 𝐻1: 𝜃 > 𝜃0
Caso 4: 𝐻0: 𝜃 ≥ 𝜃0 frente a 𝐻1: 𝜃 < 𝜃0
Caso 5: 𝐻0: 𝜃 = 𝜃0 frente a 𝐻1: 𝜃 ≠ 𝜃0
Los casos 1-4 son hipótesis unilaterales, y el caso 5 es hipótesis bilateral.
Caso 5 ⇒ Generalmente se elige una región crítica simétrica:
{𝑋̅ > 𝑐} ∪ {𝑋̅ < −𝑐}
Contrastes de bondad del ajuste
Estos contrastes están diseñados para verificar si las proporciones en las que la población, se
reparte en diversas clases o categorías se ajustan a determinado patrón.
Se aplica a los individuos de una población de tal manera que puedan dividirse en un número 𝑘
de grupos: 𝐶1 , … , 𝐶𝑘 sobre los cuales la hipótesis 𝐻0 indica sus frecuencias 𝑝1 , … , 𝑝𝑘 con las
que deberían presentarse. El contraste de 𝐻0 se basa en la obtención de una muestra
aleatoria de tamaño 𝑛, con la cual calcular las frecuencias reales observadas 𝑝
̂,
̂𝑛
1 …,𝑝
 Clases:
 𝐻0
 Muestra
𝐶1
𝑝1
𝑝
̂1
𝐶2
𝑝2
𝑝
̂2
…
…
…
𝐶𝑛
𝑝𝑛
𝑝
̂𝑛
Se basa en un estadístico que mide la discrepancia entre las 𝑝̂𝑖 y las 𝑝𝑖 (observadas y
esperadas)
Discrepancia 𝑫
𝑛
𝑛
𝑖=1
𝑖=1
(𝑝̂𝑖 − 𝑝𝑖 )2
𝑝̂𝑖 2
𝐷 = 𝑛∑
= 𝑛 (1 − ∑ )
𝑝𝑖
𝑝𝑖
Valores pequeños de 𝐷 indican que no hay diferencias importantes. Valores grandes de 𝐷
indica escasa concordancia.
Región crítica del contraste
{𝐷 > 𝑑∗ } ⇒ rechazo de 𝐻0
En las circunstancias descritas, supuesto que el tamaño muestral es grande (𝑛 > 30 y
𝑛𝑝𝑖 > 5 ∀𝑝𝑖 ), si 𝐻0 es cierta, 𝐷 tiene distribución 𝜒 2 con 𝑘 − 1 grados de libertad, siendo 𝑘 el
nº de categorías en las que se ha clasificado la población
UNED
Unidad Didáctica V:
Modelos de optimización
Quinto tema de la asignatura de Estadística del Grado en Ingeniería
Informática
27/05/2018
Sistemas y modelos
Problema de decisión óptima ⇒ Cuando un decisor (individuo, grupo, institución) tiene que
elegir entre diversas alternativas, disponiendo de un criterio para comparar dichas
alternativas.
El objetivo del decisor es encontrar la solución del problema (que resulte mejor según el
criterio)
Ejemplo ⇒ Problema de selección de la cartera
 Decisor ⇒ Individuo (o banco) que tiene dinero y lo quiere invertir
 Alternativas ⇒ Bonos, acciones, inmuebles, pisos, pagares, etc
 Criterio ⇒ Depende del punto de vista:
o de rentabilidad ⇒ Inversión de rentabilidad máxima
o de riesgo ⇒ Inversión de mínimo riesgo
Sistemas
Conjunto de hombres (individuo, grupo, institución,…) y máquinas (ingenio mecánico que hace
cierta tarea, estructura social que responde a unas reglas de conducta) que actúan de modo
interactivo en un determinado ámbito.
Cuando los hombres actúan sobre las máquinas, la respuesta de las máquinas afecta a los
sistemas. Objetivo ⇒ Encontrar la mejor manera de diseñar y operar el sistema.
Modelos
Representación aproximada de un sistema real
Tipos de modelos
 Físicos ⇒ Se puede tocar (maqueta)
 Formales ⇒ Descripción abstracta (oral, dibujos, matemática)
Modelo matemático de optimización
Elementos
 Variables ⇒ Números reales que representan las alternativas del sistema
 Restricciones ⇒ Igualdades o desigualdades que ligan las variables y las relacionan
entre sí (condiciones del sistema)
 Función objeto ⇒ Función que depende de las variables y sirve para comparar las
alternativas
Fases para la creación de un modelo
1)
2)
3)
4)
5)
Análisis del sistema
Formulación del modelo
Solución del modelo
Validación del modelo ⇒ Si no es válido volver al 2
Puesta en práctica de la solución
Características de los modelos de optimización
Características que presentan normalmente las situaciones reales y cuál puede ser su
tratamiento para considerarlas dentro de un modelo de optimización
 Objetivo
o Múltiples objetivos en conflicto entre sí (bueno, bonito y barato, todo es
incompatible)
o Optimización multiobjetivo y difusa ⇒ Construir una única función criterio
mediante la ponderación de los objetivos individuales. La ponderación se
jerarquiza la importancia relativa de cada objetivo parcial
o Optimización por metas ⇒ Fijar unos niveles mínimos aceptables para todos
los objetivos menos uno, y optimizar éste cumpliendo los requisitos mínimos
de los otros objetivos
o Optimización ⇒ Tanto puede ser un proceso de maximización (mayor precio)
como minimización (menor gasto)
 Variables
o Variables ⇒ Representación numérica de las alternativas del modelo. Su
elección es clave. Tipos ⇒ Controlables (precio), incontrolables (número de
ventas, v)
o Constantes ⇒ Cantidades que influyen pero que nadie puede modificar
porque representa una definición o condición natural o física.
o Parámetros ⇒ Cantidades elegidas por el decisor, el cual fija su valor para
cada aplicación concreta del modelo (a)
 Restricciones
o Condiciones que describen el comportamiento del modelo. Ecuaciones e
inecuaciones que relacionan las variables (v), constantes (c) y parámetros (p).
o Tipos
 Restricciones de definición ⇒ Describen igualdades físicas
 Restricciones empíricas ⇒ Describen relaciones causa - efecto entre v,
c, p
 Restricciones normativas ⇒ Describen cuál debe ser el
comportamiento del sistema en el futuro (exigencias del decisor sobre
requisitos mínimos, inversiones máximas, etc) (la relación sacada de
datos históricos no suele ser buena, ya que corresponde al
comportamiento bajo una situación diferente). Es deseable que las
funciones sean continuas, derivables, etc. para una mayor rapidez de
resolución
 Restricciones de acotación ⇒ Acotación de las variables (dentro de un
intervalo)
 Datos
o La incorporación de según qué datos responde a una mayor o menor
complejidad del modelo
o Deben ser cuantitativos, si no los métodos de optimización no son los
adecuados para tratarlos
 Solución
o No todos los problemas tienen solución o, al menos, de manera eficiente (en
tiempo, p.e.)
o Los algoritmos funcionará mejor si las restricciones son funciones suaves
(derivables y continuas), tenemos las variables acotadas, etc.
o Si el algoritmos falla, hay que simplificar el modelo y modificar los requisitos
 Optimización dinámica
o El proyecto de optimización tiene lugar en el tiempo → Objetivos, variables,
restricciones … dependerán del tiempo (los objetivos pueden cambiar a largo
plazo, las variables controlables pueden dejar de serlo, las restricciones
pueden cambiar, los datos pueden dejar de ser representativos, etc).
o Se deben considerar variables y restricciones dependientes del tiempo.
o Optimización dinámica ⇒ Estrategia de resolución temporal, que resuelve en
etapas, donde cada etapa es resuelta mediante técnica de optimización
estática
Formulación de un problema de programación
Planteamiento general
Dadas 𝑛 variables 𝑥1 , … , 𝑥𝑛 , hay que optimizar la función 𝑓(𝑥1 , … , 𝑥𝑛 ) [función objetivo] sujeta
a unas restricciones 𝑔𝑖 (𝑥1 , … , 𝑥𝑛 ) ≥ 0, ℎ𝑗 (𝑥1 , … , 𝑥𝑛 ) = 0
 Optimización ⇒ Maximización o minimización
 Solución factible o realizable ⇒ Cualquier vector (𝑥1 , … , 𝑥𝑛 ) que verifique todas las
restricciones
 Solución óptima ⇒ Solución factible que optimiza la función objetivo
Características y tipos de problemas
 Problema de programación lineal ⇒ Todas las funciones del problema son lineales
(rectas)
 Problema de programación cuadrática ⇒ Función objetivo cuadrática y las demás
lineales
 Problema de programación no lineal ⇒ Si alguna de las funciones del problema es no
lineal
 Problema de programación entera ⇒ Alguna variable sólo toma valores enteros
 Problema de programación estocástica ⇒ En el planteamiento entran consideraciones
de probabilidad
 Problema de programación dinámica ⇒ En la formulación del problema entra el
tiempo
Modelo general de programación lineal
Formal general del problema
Intención ⇒ Simplificar el proceso para poder hacer un programa efectivo general. Dos
posibles formas finales:
 Forma canónica del problema ⇒ Restricciones todas tipo ≤ 𝑏𝑖 con todas las variables
no negativas ≥ 0 y maximización de 𝑓(𝑥1 , … , 𝑥𝑛 ) = 𝑧 función objetivo
 Forma standard ⇒ Restricciones todas de igualdad = 𝑏𝑖 con todas las variables no
negativas ≥ 0 y maximización de 𝑓(𝑥1 , … , 𝑥𝑛 ) = 𝑧 función objetivo
Formulaciones equivalentes
Solución teórica del problema
Consideramos el problema standard con vectores y matrices reales:
𝑀𝑎𝑥 𝑧 = 𝑐 𝑡 𝑥
𝐴𝑥 = 𝑏
𝑥≥0
 Programa o solución realizable o factible ⇒ Conjunto de 𝑥 que satisfacen todas las
restricciones (incluidas las de no negatividad)
 Región factible ⇒ Conjunto de soluciones factibles del problema
 Matriz básica o base del sistema lineal (𝑩) ⇒ Matriz cuadrada de dimensión 𝑚 y
rango 𝑚 sacada de las columnas de 𝐴
 Matriz no básica 𝑵 ⇒ Matriz residual de 𝑛 − 𝑚 columnas cuando sacamos 𝐵 de 𝐴
 Variables básicas (respecto 𝑩) 𝒙𝑩 ⇒ 𝑚 variables asociadas a las columnas de la matriz
𝐵
 Variables no básicas (respecto 𝑩) 𝒙𝑵 ⇒ 𝑛 − 𝑚 variables restantes
 Solución básica ⇒ Vector que es solución de 𝐵𝑥 𝐵 = 𝑏
 Programa básico asociado a 𝑩 ⇒ Solución básica tal que ≥ 0 (verifica todas las
restricciones incluida la de no negatividad)
 Vértice ⇒ Cada uno de los puntos de la región factible cuyas coordenadas se
corresponden con los valores de un programa básico
 Arista o cara ⇒ Cada segmento de recta de restricción comprendido entre dos vértices
 Frontera ⇒ Conjunto de soluciones factibles sobre una arista
 Interior ⇒ Conjunto de soluciones que no están en la frontera
 Programa básico óptimo ⇒ Programa básico que maximiza la función objetivo
(sustituyendo un programa básico, solución básica ≥ 0, el valor de la función objetivo
𝑧 es máxima)
 Programa óptimo ⇒ Programa (básico o no) donde la función objetivo alcanza el valor
máximo (igual al básico óptimo)
 Región óptima ⇒ Conjunto de programas óptimos
 Valor óptimo ⇒ Valor que toma la función objetivo en un programa óptimo
Teorema fundamental de la programación lineal
Dado un problema en forma standard:
 Si existe al menos un programa ⇒ Existe al menos un programa básico
 Si existe al menos un programa óptimo ⇒ Existe al menos un programa básico óptimo
Entonces para resolver un programa basta encontrar los vértices de la región factible
(programas básicos) y comprobar cuál de ellos maximiza la función objetivo (el que lo haga
será un programa básico óptimo)
Situaciones especiales en los problemas de programación lineal
 Múltiples óptimos ⇒ Tendremos infinitas soluciones óptimas (las que están sobre la
arista óptima)
 Región factible no acotada ⇒ Tipos de soluciones
o Valor óptimo infinito ⇒ El problema es no acotado con valor óptimo infinito
o Valor óptimo finito ⇒ Toma un valor óptimo finito
 Región factible vacía ⇒ Ningún punto satisface todas las restricciones. El problema
será no factible y no tiene solución óptima (independientemente de la función
objetivo)
Descargar