ING. IND. - 2do Sem - PROBABILIDAD

Anuncio
UNIDAD 1: ESTADISTICA DESCRIPTIVA.
INTRODUCCION, NOTACION SUMATORIA.
Habitualmente el propósito de la Estadística Aplicada es el de sacar conclusiones de una
población en estudio, examinando solamente una parte de ella denominada muestra.
Este proceso, denominado Inferencia Estadística, suele venir precedido de otro,
denominado Estadística Descriptiva, en el que los datos son ordenados, resumidos y
clasificados con objeto de tener una visión más precisa y conjunta de las observaciones,
intentando descubrir de esta manera posibles relaciones entre los datos, viendo cuales
toman valores parecidos, cuales difieren grandemente del resto, destacando hechos de
posible interés, etc.
También están entre los objetivos de la Estadística Descriptiva el presentarlos de tal modo
que permitan sugerir o aventurar cuestiones a analizar en mayor profundidad, así como
estudiar si pueden mantenerse algunas suposiciones necesarias en determinadas inferencias
como la de simetría,, normalidad, homocedasticidad, etc.
El propósito de este libro es el de dar conceptos y explicar técnicas que permitan realizar
ambos procesos, a los cuales de forma conjunto se les suele denominar Análisis de Datos.
FUENTE: http://thales.cica.es/rd/Recursos/rd99/ed99-0278-01/est_des1.html
Una de las ramas de la Estadística más accesible a la mayoría de la población es la
Descriptiva. Esta parte se dedica única y exclusivamente al ordenamiento y
tratamiento mecánico de la información para su presentación por medio de tablas y de
representaciones gráficas, así como de la obtención de algunos parámetros útiles para
la explicación de la información.
La Estadística Descriptiva es la parte que conocemos desde los cursos de educación
primaria, que se enseña en los siguientes niveles y que, por lo general, no pasa a ser
un análisis más profundo de la información. Es un primer acercamiento a la
información y, por esa misma razón, es la manera de presentar la información ante
cualquier lector, ya sea especialista o no. Sin embargo, lo anterior no quiere decir que
carezca de metodología o algo similar, sino que, al contrario, por ser un medio
accesible a la mayoría de la población humana, resulta de suma importancia considerar
para así evitar malentendidos, tergiversaciones o errores.
FUENTE: http://www.uaq.mx/matematicas/estadisticas/xu3.html
La estadística descriptiva es una ciencia que analiza series de datos (por ejemplo, edad de una
población, altura de los estudiantes de una escuela, temperatura en los meses de verano, etc) y
trata de extraer conclusiones sobre el comportamiento de estas variables.
Las variables pueden ser de dos tipos:
Variables cualitativas o atributos: no se pueden medir numéricamente (por ejemplo:
nacionalidad, color de la piel, sexo).
Variables cuantitativas: tienen valor numérico (edad, precio de un producto, ingresos anuales).
Las variables también se pueden clasificar en:
Variables unidimensionales: sólo recogen información sobre una característica (por ejemplo:
edad de los alunmos de una clase).
Variables bidimensionales: recogen información sobre dos características de la población (por
ejemplo: edad y altura de los alumnos de una clase).
Variables pluridimensionales: recogen información sobre tres o más características (por ejemplo:
edad, altura y peso de los alumnos de una clase).
Por su parte, las variables cuantitativas se pueden clasificar en discretas y continuas:
Discretas: sólo pueden tomar valores enteros (1, 2, 8, -4, etc.). Por ejemplo: número de hermanos
(puede ser 1, 2, 3....,etc, pero, por ejemplo, nunca podrá ser 3,45).
Continuas: pueden tomar cualquier valor real dentro de un intervalo. Por ejemplo, la velocidad de
un vehículo puede ser 80,3 km/h, 94,57 km/h...etc.
Cuando se estudia el comportamiento de una variable hay que distinguir los siguientes conceptos:
Individuo: cualquier elemento que porte información sobre el fenómeno que se estudia. Así, si
estudiamos la altura de los niños de una clase, cada alumno es un individuo; si estudiamos el
precio de la vivienda, cada vivienda es un individuo.
Población: conjunto de todos los individuos (personas, objetos, animales, etc.) que porten
información sobre el fenómeo que se estudia. Por ejemplo, si estudiamos el precio de la vivienda
en una ciudad, la población será el total de las viviendas de dicha ciudad.
Muestra: subconjunto que seleccionamos de la población. Así, si se estudia el precio de la
vivienda de una ciudad, lo normal será no recoger información sobre todas las viviendas de la
ciudad (sería una labor muy compleja), sino que se suele seleccionar un subgrupo (muestra) que
se entienda que es suficientemente representativo.
FUENTE: http://www.aulafacil.com/CursoEstadistica/CursoEstadistica.htm
La estadística descriptiva es una ciencia que analiza series de datos (por ejemplo, edad de una
población, altura de los estudiantes de una escuela, temperatura en los meses de verano, etc) y
trata de extraer conclusiones sobre el comportamiento de estas variables.
Las variables pueden ser de dos tipos:
Variables cualitativas o atributos: no se pueden medir numéricamente, representan
caracteristicas de las variables (por ejemplo: nacionalidad, color de la piel, sexo).
Variables cuantitativas: tienen valor numérico (edad, precio de un producto, ingresos anuales).
Las variables también se pueden clasificar en:
Variables unidimensionales: sólo recogen información sobre una característica (por ejemplo:
edad de los alunmos/as de una clase).
Variables bidimensionales: recogen información sobre dos características de cada elemento
de la población simultaneamente (por ejemplo: edad y altura de los alumnos/as de una clase).
Variables multidimensionales: recogen información sobre tres o más características de cada
elemnto (por ejemplo: edad, altura y peso de los alumnos/as de una clase).
Por su parte, las variables cuantitativas se pueden clasificar atendiendo a los valores que
pueden tomar en discretas y continuas:
Discretas: sólo pueden tomar valores enteros (1, 2, 8, -4, etc.). Por ejemplo: número de
hermanos (puede ser 1, 2, 3....,etc, pero, por ejemplo, nunca podrá ser 3,45).
Continuas: pueden tomar cualquier valor real dentro de un intervalo. Por ejemplo, la velocidad
de un vehículo puede ser 80,3 km/h, 94,57 km/h...etc.
Independientemente del tipo de variable con el que se este trabajando, cuando se estudia el
comportamiento de las mismas hay que distinguir claramente los siguientes conceptos:
Individuo: cualquier elemento que porte información sobre el fenómeno que se estudia. Así, si
estudiamos la altura de los niños de una clase, cada alumno o alumna es un individuo; si
estudiamos el precio de la vivienda, cada vivienda es un individuo.
Población: conjunto de todos los individuos (personas, objetos, animales, etc.) que porten
información sobre el fenómeo que se estudia. Por ejemplo, si estudiamos el precio de la
vivienda en una ciudad, la población será el total de las viviendas de dicha ciudad.
Muestra: subconjunto que seleccionamos de la población. Así, si se estudia el precio de la
vivienda de una ciudad, lo normal será no recoger información sobre todas las viviendas de la
ciudad (sería una labor muy compleja), sino que se suele seleccionar un subgrupo (muestra) que
se entienda que es suficientemente representativo.Una muestra representativa será un
subconjunto de elementos de una población obtenidos de forma aleatoria de ella (al azar), es
decir habiendo sido elegidos sin ningún criterio de selección.
FUENTE: http://nutriserver.com/Cursos/Bioestadistica/Estadistica_Descriptiva.html
DATOS NO AGRUPADOS.
MEDIDAS DE TENDENCIA CENTRAL Y DE DISPERSIÓN
Estadística sumaria.
Podemos usar una serie de números conocidos como estadística sumaria para describir las
características del conjunto de datos. Dos de estas características son de particular importancia
para los responsables de tomar decisiones: la de tendencia central y la de dispersión.
Tendencia central: la tendencia central se refiere al punto medio de una distribución. Las medidas
de tendencia central se conocen como medidas de posición.
Dispersión: se refiere a la extensión de los datos en una distribución, es decir, al grado en que las
observaciones se distribuyen.
Sesgo: las curvas que representan los puntos de datos de un conjunto de datos pueden ser
simétricas o sesgadas. Las curvas simétricas, tienen una forma tal que una línea vertical que pase
por el punto más alto de la curva dividirá el área de ésta en dos partes iguales. Cada parte es una
imagen espejo de la otra. En las curvas sesgadas, los valores de su distribución de frecuencias
están concentrados en el extremo inferior o en el superior de la escala de medición del eje
horizontal. Los valores no están igualmente distribuidos. Las curvas pueden estar sesgadas hacia
la derecha (positivamente sesgadas) o sesgadas hacia la izquierda (negativamente sesgadas).
Curtosis: cuando medimos la curtosis de una distribución, estamos midiendo su grado de agudeza.
La media aritmética.
Cuando nos referimos al "promedio" de algo, estamos hablando de la media aritmética.
Para encontrar la media aritmética, sumamos los valores y el resultado lo dividimos entre el
número de observaciones.
Símbolos convencionales.
Una muestra de una población consiste en n observaciones, con una media de x (léase equis
testada). Las medidas que calculamos para una muestra se conocen como estadística.
La notación es diferente cuando calculamos medidas para la población entera, es decir, para el
grupo que contiene a todos los elementos que estamos describiendo. La media de una población
se simboliza con μ (letra griega mi). El número de elementos de una población se denota con la
letra mayúscula cursiva N. Por lo general, en estadística utilizamos letras del alfabeto latino para
simbolizar la información sobre las muestras y letras del griego para referirnos a la información
sobre poblaciones.
Cálculo de la media a partir de datos no agrupados.
Media de la población:
μ = ∑x / N
x = ∑x / n
Para calcular esta media, sumamos todas las observaciones. Los estadísticos se refieren a este
tipo de datos como datos no agrupados.
Cálculo de la media de datos agrupados:
Una distribución de frecuencias consta de datos agrupados en clases. Cada valor de una
observación cae dentro de alguna de las clases. No sabemos el valor individual de cada
observación. A partir de la información de la tabla, podemos calcular fácilmente una estimación del
valor de la media de estos datos agrupados.
De haber usado los datos originales sin agrupar, podríamos haber calculado el valor real de la
media.
Para encontrar la media aritmética de datos agrupados, primero calculamos el punto medio de
cada clase. Para lograr que los puntos medios queden en cifras cerradas, redondeamos las
cantidades. Después, multiplicamos cada punto medio por la frecuencia de las observaciones de
dicha clase, sumamos todos los resultados y dividimos esta suma entre el número total de
observaciones de la muestra.
x =  (f x) / n
f = frecuencia de observaciones de cada clase
x= punto medio de cada clase de la muestra
n = número de observaciones de la muestra
Codificación:
Mediante esta técnica, podemos eliminar el problema de tener puntos medios muy grandes o
inconvenientes. En lugar de utilizar los puntos medios reales para llevar a efecto nuestros cálculos,
podemos asignar enteros consecutivos de valor pequeño, conocidos como códigos, a cada uno de
los puntos medios. El entero cero puede ser asignado a cualquier punto medio, pero para que
nuestros enteros sean pequeños, asignaremos cero al punto medio de la parte media de la
distribución (o la parte más cercana a ésta). Podemos asignar enteros negativos a los valores
menores a dicho punto medio y enteros positivos a los valores más grandes.
Los estadísticos usan xo para representar el punto medio al que se le ha asignado el código 0 y u
para el punto medio codificado:
x = xo + w [(u f)] / n
w = ancho numérico del intervalo de clase
u = código asignado a cada punto medio de clase
Ventajas y desventajas de la media aritmética.
La media aritmética, en su carácter de un solo número que representa a un conjunto de datos
completo, tiene importantes ventajas:
1. Se trata de un concepto familiar para la mayoría de las personas y es intuitivamente claro.
2. Cada conjunto de datos tiene una media, es una medida que puede calcularse y es única
debido a que cada conjunto de datos posee una y sólo una media.
3. Es útil para llevar a cabo procedimientos estadísticos como la comparación de medias de
varios conjuntos de datos.
Desventajas:
1. Puede verse afectada por valores extremos que no son representativos del resto de los
datos.
2. Resulta tedioso calcular la media debido a que utilizamos cada uno de los puntos de dato
de nuestro cálculo.
3. Somos incapaces de calcular la media para un conjunto de datos que tiene clases de
extremo abierto, ya sea en el inferior o en el superior de la escala.
SUGERENCIA:
La media aritmética, a menudo, puede mal interpretarse si los datos no entran en un grupo
homogéneo.
La mediana.
La mediana es un solo valor calculado a partir del conjunto de datos que mide la observación
central de éstos. Esta sola observación es la más central o la que está más en medio en el
conjunto de números. La mitad de los elementos están por encima de este punto y la otra mitad
está por debajo.
Cálculo de la mediana a partir de datos no agrupados:
Para hallar la mediana de un conjunto de datos, primero hay que organizarlos en orden
descendente o ascendente. Si el conjunto de datos contiene un número impar de elementos, el de
en medio en el arreglo es la mediana. Si hay un número par de observaciones, la mediana es el
promedio de los dos elementos de en medio.
Mediana = (n + 1) / 2
Cálculo de la mediana a partir de datos agrupados:
1. Encontrar qué observación de la distribución está más al centro (Mediana = (n + 1) / 2).
2. Sumar las frecuencias de cada clase para encontrar la clase que contiene a ese elemento
más central.
3. Determinar el número de elementos de la clase y la localización de la clase que contiene al
elemento mediano.
4. Determinar el ancho de cada paso para pasar de una observación a otra en la clase
mediana, dividiendo el intervalo de cada clase entre el número de elementos contenido en
la clase.
5. Determinar el número de pasos que hay desde el límite inferior de la clase mediana hasta
el elemento correspondiente a la mediana.
6. Calcular el valor estimado del elemento mediano multiplicando el número de pasos que se
necesitan para llegar a la observación mediana por el ancho de cada paso. Al producto
sumarle el valor del límite inferior de la clase mediana.
7. Si existe un número par de observaciones en la distribución, tomar el promedio de los
valores obtenidos para el elemento mediano calculados en el paso número 6.
Un método más sencillo:
m = {[(n + 1) / 2 – (F + 1)] / fm} w + Lm
m = mediana de la muestra
n = número total de elementos de la distribución
F = suma de todas las frecuencias de clase hasta, pero sin incluir, la clase mediana
fm = frecuencia de la clase mediana
w = ancho de intervalo de clase
Lm = límite inferior del intervalo de clase mediano
Ventajas y desventajas de la mediana:
Los valores extremos no afectan a la mediana tan intensamente como a la media. La mediana es
fácil de entender y se puede calcular a partir de cualquier tipo de datos – incluso a partir de datos
agrupados con clases de extremo abierto – a menos que la mediana entre en una clase de extremo
abierto.
Podemos encontrar la mediana incluso cuando nuestros datos son descripciones cualitativas, en
lugar de números.
Ciertos procedimientos estadísticos que utilizan la mediana son más complejos que aquellos que
utilizan la media. Debido a que la mediana es una posición promedio, debemos ordenar los datos
antes de llevar a cabo cualquier cálculo. Esto implica consumo de tiempo para cualquier conjunto
de datos que contenga un gran número de elementos. Por consiguiente, si deseamos utilizar una
estadística de muestra para estimar un parámetro de población, la media es más fácil de usar que
la mediana.
La moda.
La moda es una medida de tendencia central diferente de la media, pero un tanto parecida a la
mediana, pues en realidad no se calcula mediante algún proceso aritmético ordinario. La moda es
aquel valor que más se repite en el conjunto de datos.
En ocasiones, el azar hace que un solo elemento no representativo se repita lo suficiente para ser
el valor más frecuente del conjunto de datos. Es por esta razón que rara vez utilizamos la moda de
un conjunto de datos no agrupados como medida de tendencia central.
Por esta razón, siempre que utilizamos la moda como medida de tendencia central de un conjunto
de datos, debemos calcular la moda de datos agrupados (buscar la clase modal).
Cálculo de la moda de datos agrupados:
Cuando los datos ya se encuentran agrupados en una distribución de frecuencias, podemos poner
que la moda está localizada en la clase que contiene el mayor número de elementos, es decir, en
la clase que tiene mayor frecuencia. Para determinar un solo valor para la moda a partir de esta
clase modal:
Mo = Lmo + [d1 / (d1 + d2 )] w
Lmo = límite inferior de la clase modal.
d1 = frecuencia de la clase modal menos la frecuencia de la clase que se encuentra
inmediatamente por debajo de ella.
d2 = frecuencia de la clase modal menos la frecuencia de la clase que se encuentra
inmediatamente por encima de ella.
w = ancho del intervalo de la clase modal.
Ventajas y desventajas de la moda:
La moda, al igual que la mediana, se puede utilizar como una posición central para datos tanto
cualitativos como cuantitativos.
También, al igual que la mediana, la moda no se ve mayormente afectada por los valores
extremos. Incluso si los valores extremos son muy altos o muy bajos, nosotros escogemos el valor
más frecuente del conjunto de datos como el valor modal. Podemos utilizar la moda sin importar
qué tan grandes o qué tan pequeños sean los valores del conjunto de datos, e independientemente
de cuál sea su dispersión.
La podemos utilizar aun cuando una o más clases sean de extremo abierto.
Muy a menudo, no existe un valor modal debido a que el conjunto de datos no contiene valores que
se presenten más de una vez. En otras ocasiones, cada valor es la moda, pues cada uno de ellos
se presenta el mismo número de veces. Otra desventaja consiste en que cuando los datos
contienen dos, tres o más modas, resultan difíciles de interpretar y comparar.
Comparación entre la media, la mediana y la moda.
Cuando trabajamos un problema de estadística, debemos decidir si vamos a utilizar la media, la
mediana o la moda como medidas de tendencia central. Las distribuciones simétricas que sólo
contienen una moda, siempre tienen el mismo valor para la media, la mediana y la moda. En tales
casos, no es necesario escoger la medida de tendencia central, pues ya está hecha la selección.
En una distribución positivamente sesgada (es decir, sesgada hacia la derecha), la moda todavía
se encuentra en el punto más alto de la distribución, la mediana está hacia la derecha de la moda y
la media se encuentra todavía más a la derecha de la moda y la mediana.
En una distribución negativamente sesgada, la moda sigue siendo el punto más alto de la
distribución, la mediana está hacia la izquierda de ella y la media se encuentra todavía más a la
izquierda de la moda y la mediana.
Cuando la población está sesgada negativa o positivamente, con frecuencia la mediana resulta ser
la mejor medida de posición, debido a que siempre está entre la moda y la media. La mediana no
se ve altamente influida por la frecuencia de aparición de un solo valor como es el caso de la
moda, ni se distorsiona con la presencia de valores extremos como la media.
SUGERENCIA
La selección de la media, la mediana o la moda, en ocasiones, depende de la práctica común de
una industria en particular (salario medio de los obreros, precio mediano de una casa, familia
modal para el diseño de automóviles).
La dispersión.
Al igual que sucede con cualquier conjunto de datos, la media, la mediana y la moda sólo nos
revelan una parte de la información que necesitamos acerca de las características de los datos.
Para aumentar nuestro entendimiento del patrón de los datos, debemos medir también su
dispersión, extensión o variabilidad.
La dispersión es importante porque:
1. Proporciona información adicional que permite juzgar la confiabilidad de la medida de
tendencia central. Si los datos se encuentran ampliamente dispersos, la posición central es
menos representativa de los datos.
2. Ya que existen problemas característicos para datos ampliamente dispersos, debemos ser
capaces de distinguir que presentan esa dispersión antes de abordar esos problemas.
3. Quizá se desee comparar las dispersiones de diferentes muestras. Si no se desea tener
una amplia dispersión de valores con respecto al centro de distribución o esto presenta
riesgos inaceptables, necesitamos tener habilidad de reconocerlo y evitar escoger
distribuciones que tengan las dispersiones más grandes.
Medidas de dispersión.
La dispersión puede medirse en términos de la diferencia entre dos valores seleccionados del
conjunto de datos. Las medidas de distancia son: el alcance, el alcance interfractil y el alcance
intercuartil.
Alcance.
Es la diferencia entre el más alto y el más pequeño de los valores observados.
Alcance = valor de la observación más alta – valor de la observación más pequeña
El alcance es fácil de entender y de encontrar, pero su utilidad como medida de dispersión es
limitada. Sólo toma en cuenta los valores más alto y más bajo de una distribución y no considera
ninguna otra observación del conjunto de datos. Ignora la naturaleza de la variación entre todas las
demás observaciones, y se ve muy influido por los valores extremos.
Las distribuciones de extremo abierto no tienen alcance, pues no existe un valor más alto o más
bajo en la clase de extremo abierto.
Alcance interfractil.
En una distribución de frecuencias, una fracción o proporción dada de los datos cae en un fractil o
por debajo de éste. La mediana, por ejemplo, es el fractil 0,5, puesto que la mitad de los datos es
menor o igual a este valor. Los fractiles son parecidos a los porcentajes. En una distribución
cualquiera, el 25% de los datos está en el fractil 0,25 o por debajo de éste; igualmente, 25% de los
datos cae en el vigésimo quinto percentil o por debajo de éste. El alcance interfractil es una medida
de la dispersión entre dos fractiles de una distribución de frecuencias, es decir, la diferencia entre
los valores de los dos fractiles.
Los fractiles tienen nombres especiales, dependiendo del número de partes iguales en que se
dividen los datos. Los fractiles que los dividen en 10 partes iguales se conocen como deciles. Los
cuartiles dividen los datos en cuatro partes iguales. Los percentiles dividen el conjunto de datos en
100 partes iguales.
Alcance intercuartil.
El alcance intercuartil mide aproximadamente qué tan lejos de la mediana tenemos que ir en
cualquiera de las dos direcciones antes de que podamos recorrer una mitad de los valores del
conjunto de datos. Para calcular este alcance, dividimos nuestros datos en cuatro partes, cada una
de las cuales contiene 25% de los elementos de la distribución. Los cuartiles son, entonces, los
valores más alto y más bajo de estas cuatro partes, y el alcance intercuartil es la diferencia entre
los valores del primer cuartil y el tercer cuartil.
SUGERENCIA
El punto fractil es siempre el punto en el o debajo del cual cae la proporción establecida de valores.
Medidas de desviación promedio.
Las descripciones más comprensivas de la dispersión son aquellas que tratan con la desviación
promedio con respecto a alguna medida de tendencia central. Dos de tales medidas son la
varianza y la desviación estándar. Ambas medidas nos dan una distancia promedio de cualquier
observación del conjunto de datos con respecto a la media de la distribución.
Varianza de la población.
Cada población tiene una varianza, que se simboliza con  2 (sigma cuadrada). Para calcular la
varianza de una población, dividimos la suma de las distancias al cuadrado entre la media y cada
elemento de la población entre el número total de observaciones de dicha población.
 2 =  (x -  )2 / N
 2 = varianza de la población.
x = elemento u observación.
 = media de la población.
N = número total de elementos de la población.
Para la varianza, las unidades son el cuadrado de las unidades de los datos. Estas unidades no
son intuitivamente claras o fáciles de interpretar. Por esta razón, tenemos que hacer un cambio
significativo en la varianza para calcular una medida útil de la desviación, que sea menos confusa.
Esta medida se conoce como la desviación estándar, y es la raíz cuadrada de la varianza. La
desviación estándar, entonces, está en las mismas unidades que los datos originales.
Desviación estándar de la población.
La desviación estándar de la población, o  , es simplemente la raíz cuadrada de la varianza de la
población. Como la varianza es el promedio de las distancias al cuadrado que van desde las
observaciones a la media, la desviación estándar es la raíz cuadrada del promedio de las
distancias al cuadrado que van desde las observaciones a la media. La desviación estándar está
en las mismas unidades que las que se usaron para medir los datos.
La raíz cuadrada de un número positivo puede ser tanto positiva como negativa. Cuando tomamos
la raíz cuadrada de la varianza para calcular la desviación estándar, los estadísticos solamente
consideran la raíz cuadrada positiva.
Para calcular la varianza o la desviación estándar, construimos una tabla utilizando todos los
elementos de la población.
Usos de la desviación estándar.
La desviación estándar nos permite determinar, con un buen grado de precisión, dónde están
localizados los valores de una distribución de frecuencias con relación a la media. El teorema de
Chebyshev dice que no importa qué forma tenga la distribución, al menos 75% de los valores caen
dentro de + 2 desviaciones estándar a partir de la media de la distribución, y al menos 89% de los
valores caen dentro de + 3 desviaciones estándar a partir de la media.
Con más precisión:



Aproximadamente 68% de los valores de la población cae dentro de + 1 desviación
estándar a partir de la media.
Aproximadamente 95% de los valores estará dentro de + 2 desviaciones estándar a partir
de la media.
Aproximadamente 99% de los valores estará en el intervalo que va desde tres
desviaciones estándar por debajo de la media hasta tres desviaciones estándar por arriba
de la media.
Resultado estándar:
La desviación estándar es también útil para describir qué tan lejos las observaciones individuales
de una distribución de frecuencias se apartan de la media de la distribución. Una medida que se
conoce como resultado estándar nos da el número de desviaciones estándar que una observación
en particular ocupa por debajo o por encima de la media:
Resultado estándar = (x -  ) / 
Cálculo de la varianza y la desviación estándar utilizando datos agrupados:
 2 =  f(x -  )2 / N
 2 = varianza de la población.
x = punto medio de cada una de las clases.
 = media de la población.
N = número total de elementos de la población.
f = frecuencia de cada una de las clases.
 = √
desviación estándar de una muestra:
2
Para calcular la varianza y la desviación estándar de una muestra, utilizamos las mismas fórmulas,
sustituyendo  por x y N con n – 1.
s2 =  (x - x)2 / (n – 1)
¿Por qué utilizamos n – 1 como denominador en lugar de N? Los especialistas en estadística
pueden demostrar que si tomamos muchas muestras de una población dada, si encontramos la
varianza de la muestra para cada muestra y promediamos los resultados, entonces este promedio
no tiende a tomar el valor de la varianza de la población, a menos que tomemos n – 1 como
denominador de los cálculos.
Al igual que utilizamos la desviación estándar de la población para derivar los resultados estándar
de la misma, podemos también usar la desviación estándar de la muestra para calcular los
resultados estándar de la muestra. Estos resultados indican a cuántas desviaciones estándar se
halla una observación en particular por arriba o por debajo de la media de la muestra.
Resultado estándar de la muestra = (x – x) / s
SUGERENCIAS
Las letras griegas siempre se refieren a parámetros de la población y las letras latinas se refieren a
estadísticas de la muestra.
Recordar utilizar N como denominador cuando se calcula la desviación estándar de la población,
pero n – 1 para calcular la desviación estándar de la muestra.
Dispersión relativa: el coeficiente de variación.
La desviación estándar es una medida absoluta de la dispersión que expresa la variación en las
mismas unidades que los datos originales.
La desviación estándar no puede ser la única base para la comparación de dos distribuciones. Si
tenemos una desviación estándar de 10 y una media de 5, los valores varían en una cantidad que
es el doble de la media misma. Si, por otro lado, tenemos una desviación estándar de 10 y una
media de 5.000, la variación con respecto a la media es insignificante. En consecuencia, no
podemos conocer la dispersión de un conjunto de datos hasta que conocemos su desviación
estándar, su media y cómo se compara la desviación estándar con respecto a la media.
Lo que necesitamos es una medida relativa que nos proporcione una estimación de la magnitud de
la desviación con respecto a la magnitud de la media. El coeficiente de variación es una de estas
medidas relativas de dispersión. Se relaciona la desviación estándar y la media, expresando la
desviación estándar como porcentaje de la media.
Coeficiente de variación = ( /  ) * 100
FUENTE: http://www.aulafacil.com/CursoEstadistica/Lecc-4-est.htm
Medidas de posición central
Las medidas de posición nos facilitan información sobre la serie de datos que estamos analizando.
Estas medidas permiten conocer diversas características de esta serie de datos.
Las medidas de posición son de dos tipos:
a) Medidas de posición central: informan sobre los valores medios de la serie de datos.
b) Medidas de posición no centrales: informan de como se distribuye el resto de los valores de la
serie.
a) Medidas de posición central
Las principales medidas de posición central son las siguientes:
1.- Media: es el valor medio ponderado de la serie de datos. Se pueden calcular diversos tipos de
media, siendo las más utilizadas:
a) Media aritmética: se calcula multiplicando cada valor por el número de veces que se repite. La
suma de todos estos productos se divide por el total de datos de la muestra:
(X1 * n1) + (X2 * n2) + (X3 * n3) + .....+ (Xn-1 * nn-1) + (Xn * nn)
Xm =
---------------------------------------------------------------------------------------
n
b) Media geométrica: se eleva cada valor al número de veces que se ha repetido. Se multiplican
todo estos resultados y al producto fiinal se le calcula la raíz "n" (siendo "n" el total de datos de la
muestra).
Según el tipo de datos que se analice será más apropiado utilizar la media aritmética o la media
geométrica.
La media geométrica se suele utilizar en series de datos como tipos de interés anuales, inflación,
etc., donde el valor de cada año tiene un efecto multiplicativo sobre el de los años anteriores. En
todo caso, la media aritmética es la medida de posición central más utilizada.
Lo más positivo de la media es que en su cálculo se utilizan todos los valores de la serie, por lo que
no se pierde ninguna información.
Sin embargo, presenta el problema de que su valor (tanto en el caso de la media aritmética como
geométrica) se puede ver muy influido por valores extremos, que se aparten en exceso del resto de
la serie. Estos valores anómalos podrían condicionar en gran medida el valor de la media,
perdiendo ésta representatividad.
2.- Mediana: es el valor de la serie de datos que se sitúa justamente en el centro de la muestra (un
50% de valores son inferiores y otro 50% son superiores).
No presentan el problema de estar influido por los valores extremos, pero en cambio no utiliza en
su cálculo toda la información de la serie de datos (no pondera cada valor por el número de veces
que se ha repetido).
3.- Moda: es el valor que más se repite en la muestra.
Ejemplo: vamos a utilizar la tabla de distribución de frecuencias con los datos de la estatura de los
alumnos que vimos en la lección 2ª.
Variable
(Valor)
x
Frecuencias absolutas
Simple
Acumulada
x
x
Frecuencias relativas
Simple
Acumulada
x
x
1,20
1
1
3,3%
3,3%
1,21
1,22
4
4
5
9
13,3%
13,3%
16,6%
30,0%
1,23
2
11
6,6%
36,6%
1,24
1,25
1,26
1,27
1,28
1,29
1,30
1
2
3
3
4
3
3
12
14
17
20
24
27
30
3,3%
6,6%
10,0%
10,0%
13,3%
10,0%
10,0%
40,0%
46,6%
56,6%
66,6%
80,0%
90,0%
100,0%
Vamos a calcular los valores de las distintas posiciones centrales:
1.- Media aritmética:
Xm =
(1,20*1) + (1,21*4) + (1,22 * 4) + (1,23 * 2) + ......... + (1,29 * 3) + (1,30 * 3)
------------------------------------------------------------------------------------------------30
Luego:
Xm =
1,253
Por lo tanto, la estatura media de este grupo de alumnos es de 1,253 cm.
2.- Media geométrica:
X=
((1,20^ 1) * (1,21^4) * (1,22^ 4) * .....* (1,29^3)* (1,30^3)) ^ (1/30)
Xm =
1,253
Luego:
En este ejemplo la media aritmética y la media geométrica coinciden, pero no tiene siempre por
qué ser así.
3.- Mediana:
La mediana de esta muestra es 1,26 cm, ya que por debajo está el 50% de los valores y por arriba
el otro 50%. Esto se puede ver al analizar la columna de frecuencias relativas acumuladas.
En este ejemplo, como el valor 1,26 se repite en 3 ocasiones, la media se situaría exactamente
entre el primer y el segundo valor de este grupo, ya que entre estos dos valores se encuentra la
división entre el 50% inferior y el 50% superior.
4.- Moda:
Hay 3 valores que se repiten en 4 ocasiones: el 1,21, el 1,22 y el 1,28, por lo tanto esta seria
cuenta con 3 modas.
FUENTE: http://www.aulafacil.com/CursoEstadistica/Lecc-4-est.htm
MEDIDAS DE TENDENCIA CENTRAL O MEDIDAS DE POSICION, LOCALIZACION,
CENTRALIZACION.
Una medida de posición o tendencia central es un valor que se calcula para un
grupo de datos y que se utiliza para describirlos de alguna manera.
Media aritmética (valor promedio).
Es el valor típico de la serie. Se define como la división de la suma de todos los
valores entre el número de elementos o valores.
x
n
X 
X  Media Aritmetica
 x  Suma de las muestras
n  numero total de las muestras
Propiedades.




La media es única.
Si se suma o se resta un elemento, la media también cambia
Si se le suma una constante a la muestra original, la
media se modifica de igual magnitud.
La suma algebraica de las variables con respecto a la media es = 0.
(X
i
 X)  0
25
5
5
2  6  7  8  2   x  25
X 
 (2  5)  (6  5)  (7  5)  (8  5)  (2  5)
 3  1  2  3  ( 3)  0
Calculo de la media aritmética.
a) Serie simple o datos no agrupados
X 1  X 2 .... X n  x

N
N
399
X 
 13.3
30
X 
b) Datos organizados:
X 
Pm1 f 1  Pm2 f 2 .... Pmn f n
 Pmf

f 1  f 2 ... f n
f
Lim. Clase
9-10.5
10.6-12.1
12.2-13.7
Front. clase
8.5-10
10-11.5
11.5-13
f
4
8
3
Pmf
39
90.8
38.85
13.8-15.3
15.4-16.9
17-18.5
X
13-14.5
14.5-16
17.75
9
3
3
x=30
130.95
48.45
53.25
401.3
 Pmf 4013
.

 13.37
f
30
MODA= MODO= Mo
Dato estadístico que se repite con mayor frecuencia.
a) Serie simple.




Unimodal: cuando se repite un solo número varias veces
Bimodal: serie se repiten 2 veces igual número de veces.
Multimodal: serie se repiten más de 2 veces
Nula: cuando no hay ningún número que se repita.
b) Datos agrupados.
 1 
i
M 0  L1  
 1   2 
93


M 0  13  
.)
 (15
 (9  3)  (9  3) 
 6 
 13  
. )  13  0.75  13.75
 (15
 6  6
MEDIANA = Md.
Es el dato que divide a la serie en 2 partes iguales.
a) Serie simple:
Md 
n  1 30  1 31


 155
.
2
2
2
b) Datos agrupados:
n
 
Md  Li   2
 fm

 115
.  15
.  13

 30

f
 12 

 (i )  115
 (15
.  2
.)

 3 



MEDIA GEOMETRICA = G = GM
a) Serie simple:
G
G
X 1 * X 2 *.....* X n
log X 1  log X 2 ... log X n 33.45

 111
. Anti log  12.88  13
n
30
b) Datos agrupados:
log Pm1 f 1  log Pm2 f 2 ..... log pmn f n
 log Pmf
f 1  f 2 .... f n
N
log 9.75(4)  log 1135
. (8)  log 12.95(3)  lg 14.55(9)  log 1615
. (3)  log 17.75(3)
G
30
3.95  8.93  3.33  10.46  3.62  3.74 3353
.
G

 111
. Anti log  12.88  13
30
30
G

MEDIA ARMONICA = Ho
a) Datos no organizados:
Ho 
n
1
X1
Ho 


1
1
.....
X2
Xn

n
1
x
30
 1  1   1   1   1   1   1   1   1   1 
  2    2    4    4    3   5    4    3    2   
 9   10   11  12   13  14   15  16   17   18 
30
 12.5  13
240
b) Datos agrupados
Ho 
Ho 
N
f1
f
f
 2 ..... n
Pm1 Pm2
Pmn

N
f
 Pm
30
4
8
3
9
3
3





4.75 1135
.
12.95 14.55 1615
.
17.75
30
30


 13.04  13
0.41  0.70  0.23  0.621  018
.  017
.
2.30
FUENTE: http://www.micromegas.com.mx/apuntes/documents/estadis1-1/esta04.doc
MEDIDAS DE DISPERSIÓN:
Breve Introducción
Hasta el momento hemos estudiado los valores centrales de la distribución, pero también es importante
conocer si los valores en general están cerca o alejados de estos valores centrales, es por lo que surge la
necesidad de estudiar medidas de dispersión.
Rango:
Es la primera medida que vamos a estudiar, se define como la diferencia existente entre el valor mayor y el
menor de la distribución,. Lo notaremos como R. Realmente no es una medida muy significativa e la mayoría
de los casos, pero indudablemente es muy fácil de calcular.
Hemos estudiado varias medidas de centralización, por lo que podemos hablar de desviación con respecto a
cualquiera de ellas, sin embargo, la mas utilizada es con respecto a la media.
Desviación: Es la diferencia que se observa entre el valor de la variable y la media aritmética. La
denotaremos por di .
No es una medida, son muchas medidas, pues cada valor de la variable lleva asociada su correspondiente
desviación, por lo que precisaremos una medida que resuma dicha información.
La primera solución puede ser calcular la media de todas las desviaciones, es decir, si consideramos como
muestra la de todas las desviaciones y calculamos su media. Pero esta solución es mala pues como veremos
siempre va a ser 0.
Luego por lo tanto esta primera idea no es valida, pues las desviaciones positivas se contrarrestan con las
negativas.
Para resolver este problema, tenemos dos caminos:


Tomar el valor absoluto de las desviaciones. Desviación media
Elevar al cuadrado las desviaciones. Varianza.
Desviación media:
Es la media de los valores absolutos de las desviaciones, y la denotaremos por d m.
Varianza:
Es la media de los cuadrados de las desviaciones, y la denotaremos por
o también por
.
Aunque también es posible calcularlo como:
Este estadístico tiene el inconveniente de ser poco significativo, pues se mide en el cuadrado de la unidad de
la variable, por ejemplo, si la variable viene dada en cm. La varianza vendrá en cm 2.
Desviación típica:
Es la raíz cuadrada de la varianza, se denota por Sx o  x.
Este estadístico se mide en la misma unidad que la variable por lo que se puede interpretar mejor.
Otros dos estadísticos importantes son la cuasivarianza y la cuasidesviación típica, que como veremos cuando
estudiemos el tema de estimación estadística, son los estimadores de la varianza y desviación típica
poblacionales respectivamente.
Cuasivarianza:
Es una medida de dispersión, cuya única diferencia con la varianza es que dividimos por N-1, la
representaremos por
o
y la calcularemos de la siguiente forma:
Cuasidesviación típica:
La raíz cuadrada de la cuasivarianza y la denotaremos por SN—1 o  N-1.
Todas estas medidas de dispersión vienen influidas por la unidad en la que se mide la variable, esto implica
que si cambiamos de unidad de medida, los valores de estos estadísticos se vean a su vez modificados.
Además, no permite comparar por ejemplo, en un grupo de alumnos si los pesos o las alturas presentan mas
dispersión. Pues no es posible comparar unidades de distinto tipo.
Precisamos por lo tanto, una medida "escalar", es decir, que no lleve asociado ninguna unidad de medida.
Coeficiente de Variación:
Es un estadístico de dispersión que tiene la ventaja de que no lleva asociada ninguna unidad, por lo que nos
permitirá decir entre dos muestras, cual es la que presenta mayor dispersión. La denotaremos por C.V.
Ejemplo
Veamos por último un ejemplo de cómo se calculan todas estas medidas.
45
55
6
6
50
300
-19,4
116,4
2258,16
15000
55
65
10
16
60
600
-9,4
94
883,6
36000
65
75
19
35
70
1330
0,6
11,4
6,84
93100
75
85
11
46
80
880
10,6
116,6
1235,96
70400
85
95
4
N=
50
50
90
360
3470
20,6
82,4
1697,44
32400
420,8
6082
246900
=
Dm=
=
C.V.=
FUENTE: http://thales.cica.es/rd/Recursos/rd97/UnidadesDidacticas/53-1-upunt152.html
Caracterización de las Distribuciones
A.- Medidas de Tendencia Central
Media aritmética
Suma de los valores de una serie de medidas respecto del número de
valores existentes. Su cálculo equivale a  xi/n, siendo n el tamaño
de la muestra y xi cada uno de los valores.
Mediana
Valor que queda en el centro tras la división de una serie de valores
ordenados en dos partes iguales, una superior y una inferior. Para
determinarla debe seguirse los siguientes pasos:
-ordenar los datos de menor a mayor
-si el número de datos es impar corresponde al que queda en el
centro
-si el número de datos es par corresponde al valor medio de los dos
datos centrales
Moda
Valor que se presenta con más frecuencia en una serie de
mediciones.
B.- Medidas de Dispersión
Amplitud
Diferencia entre los valores mayor y menor de un conjunto de datos
obtenidos en una medición.
Coeficiente de
variación
Equivale a la desviación típica expresada en porcentaje respecto de la
media aritmética. Es la desviación típica partido por la media
aritmética.
Desviación estandar Medida de la dispersión de una distribución de frecuencias respecto
de su media. Equivale a la raiz cuadrada de la varianza. Se expresa
como  si corresponde a la población total o como s si corresponde
a una muestra de la población
Rango
Medida equivalente a la amplitud
Valor Z
Medida del número de desviaciones estandar que un valor se aleja
de la media
Z= (xi - X) / s o Z= (xi -  ) / 
Varianza
Medida de la variación de una serie de observaciones respecto de la
media. Equivale a la dispersión respecto de la media en una serie de
datos continuos. Su cálculo corresponde a:  (xi-  )2/n si
corresponde a la población total o  (xi- X)2/(n-1) si corresponde a
una muestra de esa población, siendo  o X la media, n el tamaño
de la población o de la muestra y xi cada uno de los valores.
C.- Divisiones en una Distribución
Percentiles
Números que dividen una distribución de frecuencias obtenida
en una medición, en cien partes ordenadas y de igual área.
Cuartil
División de una distribución en 4 subgrupos iguales y
ordenados.
Desviación intercuartiles Valor de la distancia entre el primer cuartil y el tercer cuartil
D.- Otras Caracterizaciones de la Distribución
Intervalo de confianza Rango de valores dentro del cual se encuentra un parámetro con
una determinada probabilidad (esta probabilidad es el denominado
nivel de confianza)
Kurtosis
Parámetro que indica lo apuntada o aplanada que ésta una
distribución observada con respecto a una distribución normal.
Límite de confianza
Puntos extremos de un intervalo de confianza. Su cálculo se realiza
según la fórmula:
Limites = medida de tendencia central  (Z x Dispersión/ n);
siendo la medida de tendencia central la media para datos
continuos o la proporción medida para discontinuos, la dispersión
será la desviación estandar en datos continuos y el valor proporción
x (1-proporción) para datos discontinuos, Z es el valor de la t de
Student para un determinado nivel de confianza y n es el tamaño
de la muestra estudiada.
FUENTE: http://eie.unizar.es/RATIO/formC/formCa6.htm
MEDIDAS DE DISPERSION
Son medidas que indican la variación que tienen los datos con respecto a la
media.
1) 1) Para un conjunto de datos el RANGO se obtiene como la diferencia de los
valores del dato mayor menos el dato menor.
Esta es una medida que es poco utilizada debido a que únicamente
considera el valor de los datos extremos sin considerar el comportamiento
de los demás datos.
Ejemplo:
1,2,100 = 99
15,17,16,18,21,18,16,19,20,16,15,20 R=6
2) 2) DESVIACION DE LA MEDIA
Cuando se tiene un conjunto de n datos ( no agrupados ) la desviación de la
n
DM 
 X1 X
i 1
N
media se obtiene mediante la siguiente expresión:
Y representa el promedio de los valores con los cuales cada dato se aleja de la
media.
Ejemplo:
Obtener la desviación media para el siguiente conjunto de datos:
4,13,20,14,17,15,11,30,6,10.
n
DM 

i 1
 n

1
  Xi  X 
X1 X
 i 1


N
N
n
X 
 Xi
i 1
N
X  14


4  13  20  14  17  15  11  30  6  10
10
1  4  14  13  14  20  14  14  14  17  14 


10   15  14  11  14  30  14  6  14  10  14 
1
 (10  1  6  0  3  1  16  8  4)
10
1

 (52)
10
DM  5.2

Significa que los datos que se encuentran alejados en promedio 5.2
unidades de la media, es decir, que la mayoría de los datos están comprendidos
entre:
X
8.8 – 5.2
14
5.2 19.2
Para obtener la desviación media cuando se tiene un conjunto de datos
agrupados se emplea la siguiente fórmula:
k
DM 
 Mi  X
i 1
k
 fi
i 1
Donde:
k = número de subintervalos
fi = frecuencia del intervalo i
Mi = marca de clase del intervalo i
Ejemplo:
Determine la desviación media para el siguiente conjunto de datos:
Intervalo
0-20
20-40
40-60
60-80
80-100
100-120
120-140

fi
7
12
35
17
22
11
3
107
Mi
10
30
50
70
90
110
130
fiMi
70
360
1750
1190
1980
1210
390
6950
Mi-X
-54.95
-34.95
-14.95
5.05
25.05
45.05
65.05
fi|Mi-X|
384.65
419.4
523.25
85.85
551.1
495.55
195.15
2654.95
6950
107
X  64.95
X 
1. Se calcula la media:
k
fiMi

X   Mi  X
1
DM  i 
kfi
 fi
2654.95
107
DM  24.81
DM 
i 1
2.
Significa que la mayoría de datos están en el intervalo:
X
-24.81
64.95
24.81
3) 3) VARIANZA Y DESVIACION ESTANDAR.

2
  Xi  X 

2
n
Cuando se tiene un conjunto de n datos la varianza se determina mediante la
siguiente expresión: ( Varianza = ², s² ).
Cuando se tiene una muestra
 ( Xi  X ) 2
S2 
n 1
Cuando se tiene una población.

2

S
S2
La desviación estandar es igual a la raíz cuadrada de la varianza, (
desviación estándar = , S).
Ejemplo:
Obtener la varianza y la desviación estándar para los siguientes datos:
4,13,10,18,22,19,14,17,25,33.
4  13  10  18  22  19  14  17  25  33
 Xi
X 
X
10
n
X  17.5
  4  17.5 2  (13  17.5) 2  (10  17.5) 2  


2
2
2


(
18

17
.
5
)

(
22

17
.
5
)

(
19

17
.
5
)

1
S2  

10  (14  17.5) 2  (17  17.5) 2  (25  17.5) 2  


 (33  17.5) 2

S2 
1  182.25  20  25  56.25  0.25  20.25  2.25 


10  12.25  0.25  56.25  240.25

S 2  59.05
Varianza:
S2 
1
 ( Xi  X ) 2
n
Desviación Estándar:
S 2  59.05
S  7.68
VARIANZA Y DESVIACION ESTANDAR PARA DATOS AGRUPADOS.
Cuando se tiene un conjunto de datos agrupados, la varianza se determina
( para el siguiente conjunto ) mediante la siguiente expresión:
( Xi  X ) 2

S  S2
2
S 
n
Ejemplo:
Calcular la varianza y desviación estándar para el siguiente conjunto de
datos:
Intervalo
0-4
5-9
10-14
15-19
20-24
25-29
30-34
35-39

X 
S
2
fi
3
12
20
14
18
7
10
8
92
 fiMi
n
Mi
2
7
12
17
22
27
32
37
fiMi
6
84
240
238
396
189
320
296
1769
Mi-X
-17.22
-12.22
-7.22
-2.22
2.78
7.78
12.78
17.78
(Mi-X)²
296.52
149.52
52.12
4.98
7.72
60.52
163.32
316.12
fi(Mi-X)²
889.56
1791.84
1042.4
68.88
138.96
423.64
1633.2
2528.96
8517.44
1769
92
X  19.22
X 
 fi ( Mi  X )

2
n
8517.44
S2 
92
2
S  92.58
S  2 92.58
S  9.62
CARACTERISTICAS DE LA DESVIACION ESTANDAR.
1) 1) Cuando se tiene un conjunto de datos que son aprox. simétricos, es
decir que su gráfica se acerca o la siguiente:
50% 50%
~
X  X  X
El intervalo que se encuentra en: [ X-; X+ ] contiene aproximadamente el
68.27% del total de los datos:
68.27%
X-
X
X +
2) 2) En el intervalo [ X-2; X+2 ] se encuentra el 95.45% de los datos
aproximadamente.
95.45%

2

X 
( X  2 )
2 ( X  2 )
3) 3) En el intervalo [X-3; X+3 ] se encuentran el 99.63% del total de datos.
99.63%
3 2  X  2 3
4) 4) Cuando se tienen varios conjuntos de datos que tienen el mismo valor
de la desviación estándar, sus gráficas se encuentran desplazadas hacia la
izquierda o hacia la derecha una con respecto a las otras dependiendo del
valor que tengan sus medias:
X3
X1
X2



X 3  X1
X 2  X1
5) 5) Cuando se tienen varios conjuntos de datos, cuyo valor de la desviación
estándar varia y el valor de la media es el mismo, sus gráficas se aprox. a
las siguientes:
X
1   2   3 1 2 3
COEFICIENTE DE VARIACION.
Para un conjunto de datos el coeficiente de variación se define como la
desviación estándar dividida entre las medias, es decir:

CV 
X
Gráficamente se representa como porcentaje.
Ejemplo:
Determine el coeficiente de variación para el siguiente conjunto de datos:
Intervalo
0-20
20-40
40-60
60-80
80-100
100-120
120-140
140-160

Fi
7
19
35
70
80
67
40
20
338
Mi
10
30
50
70
90
110
130
150
fiMi
70
570
1750
2900
7200
7370
5200
3000
30,060
Mi-X
-78.9
-58.9
-38.9
-18.9
1.1
21.1
41.1
61.1
(Mi-X)²
6225.2
3469.2
1513.2
357.2
1.21
445.2
1689.2
3732.2
fi(Mi-X)²
43575.4
65914.8
52962
25004
96.8
29828.4
67568
74664
359,613.4
CV 


X
CV  36%
S
2
32.6
 0.36
88.9
 fi ( Mi  X )

2
n
359613.4
S2 
338
2
S  1063.9
X 
 fiMi
 fi
30060
338
X  88.9
X 
S  32.6
Constituyen el porcentaje comprendido
Hasta el 1er. Intervalo.
68.27%
X-
Intervalo
100-150
150-200
200-250
250-300
300-350
350-400
400-450
Fi
15
40
75
114
97
62
37
CV 

Mi
125
175
225
275
325
375
425

X
X +
FiMi
1875
7000
16875
31350
31525
23250
15725
Mi-X
-173.8
-123.8
-73.8
-25.8
26.2
76.2
126.2
(Mi-X)²
30206.44
15326.44
5446.44
566.44
686.44
5806.44
15926.44
fi(Mi-X)²
453096.6
613057.6
408483
64574.16
66584.16
359999.28
589278.28
176.2
31046.44
683021.68
3238095.28
83.71
 0.28
298.8
X
CV  28%
450-500
22
475
462

10450
138050
138050
462
X  298.80
X 
Mi  X )
fi (fiMi
S X
 fin
2
2
3238095.28
462
2
S  7008.86
S2 
S  83.71
FUENTE: http://www.micromegas.com.mx/apuntes/documents/estadistica/estadis8.htm
MEDIA, MEDIANA Y MODA PARA DATOS AGRUPADOS
MEDIA ARITMÉTICA
Cuando los datos se presentan en una distribución de frecuencias, todos los valores que
caen dentro de un intervalo de clase dado se consideran iguales a la marca de clase, o
punto medio, del intervalo. Las fórmulas
k
X = f1X1 + f2X2 + ...+fkXk = fjXj = fX = fX
j=1
----------------------------f1 + f2 + ...+ fk
------ ------k
f
fj
------N
j=1
k
X = A +  fjdj = A + fd
j=1
-----------k
 fj
-----------N
j=1
son válidas para tales datos agrupados si interpretamos Xj como la marca de clase, fj con su
correspondiente frecuencia de clase, A como cualquier marca de clase conjeturada y
dj = Xj – A como las desviaciones Xj con respecto de A.
Los cálculos con las dos ecuaciones anteriores se llaman métodos largos y cortos,
respectivamente .
Si todos los intervalos de clase tienen idéntica anchura c, las desviaciones dj = Xj - A
pueden expresarse como cuj, donde uj pueden ser 0, 1, 2, 3,..., y la segunda fórmula se
convierte en
k
X = A + fjuj = A+ fu c
j=1
-------N
------------N
que es equivalente a la ecuación X = A + cu. Esto se conoce como método de compilación
para calcular la media. Es un método muy breve y debe usarse siempre para datos
agrupados con intervalos de clase de anchuras iguales. Se debe notar que en el método de
compilación los valores de la variable X se transforman en los valores de la variable u de
acuerdo con X = A + cu.
LA MEDIANA
La mediana de un conjunto de números en magnitud es o el valor central o la media de los
dos valores centrales.
Para datos agrupados, la mediana obtenida por interpolación viene dada por
Mediana = L1 + N/2 - (f)1
-------------fmediana
c
donde:
L1 = frontera inferior de la clase de la mediana.
N = Número de datos (frecuencia total)
(f)1 = suma de frecuencias de las clases inferiores a la de la mediana.
fmediana = frecuencia de la clase de la mediana.
c = anchura del intervalo de clase de la mediana.
Geométricamente la mediana es el valor de X (abscisa) que corresponde a la recta vertical
que divide un histograma en dos partes de igual área. Ese valor de X se suele denotar por X.
LA MODA
La moda de un conjunto de números es el valor que ocurre con mayor frecuencia; es decir,
el valor más frecuente. La moda puede no existir, e incluso no ser única en caso de existir.
En el caso de datos agrupados donde se haya construido una curva de frecuencias para
ajustar los datos, la moda será el valor (o los valores) de X correspondiente al máximo (o
máximos) de la curva. Ese valor de X se denota por X.
La moda puede deducirse de una distribución de frecuencias o de un histograma a partir de
la fórmula
Moda = L1 + 1
c
----------1 + 2
donde:
L1 = frontera inferior de la clase modal.
1 = exceso de la frecuencia modal sobre la de la clase inferior inmediata.
2 = exceso de la frecuencia modal sobre la clase superior inmediata.
c = anchura del intervalo de clase modal
FUENTE: http://html.rincondelvago.com/media-mediana-y-moda-para-datosagrupados.html
Cálculo de las medidas de posición en datos agrupados
Cuando los datos están agrupados en distribución de frecuencias las fórmulas varían un
poco.
Clases
x
f
F
fx
29.5-34.5
32
1
1
32
34.5-39.5
37
3
4
111
39.5-44.5
42
8
12
336
44.5-49.5
47
9
21
423
49.5-54.5
52
7
28
364
54.5-59.5
57
4
32
228
59.5-64.5
62
3
35
186
64.5-69.5
67
3
38
201
69.5-74.5
72
2
40
144
40
2025
Total
Donde:
x es el punto medio de clase
f es la frecuencia absoluta
F es la frecuencia acumulada
fx es el producto del punto medio por la frecuencia absoluta
Moda (datos agrupados)
Donde :
L = Limite inferior de la clase modal.
d1 = Diferencia entre la frecuencia de la clase modal y la frecuencia de la clase anterior.
d2 = Diferencia entre la frecuencia de la clase modal y la frecuencia de la clase posterior.
C = Intervalo de clase.
Por ejemplo :
Primero se localiza la clase modal que es aquella en la que hay la mayor densidad de
frecuencia por unidad de intervalo y luego aplicar la formula.
La clase es : 44.5 - 49.5
Entonces:
Mo = 44.5 + 1 * 5
1+2
= 44.5 + 1.67 = 46.17
Mediana (datos agrupados)
Donde :
n = Número total de observaciones.
L = Limite inferior de la clase que contiene la mediana.
f = Frecuencia de la clase que contiene la mediana.
F = Frecuencia acumulada "menos de" de la clase anterior.
C = Intérvalo de clase.
La determinación de la clase que contiene la mediana se hace dividiendo n/2 y viendo en
cual clase quedó este acumulado. En el ejemplo es la clase 44.5 - 49.5 ya que en ésta quedó
el 20° dato.
Media aritmética (datos agrupados)
Es la suma de los productos de la frecuencia por el punto medio divididos por la frecuencia
acumulada total.
x =  fx = 2025 = 50.62
n
40
Percentiles (datos agrupados)
Donde:
Pm = Percentil m.
m = Número del percentil deseado.
n = Número total de observaciones.
L = Limite inferior de la clase donde esta el percentil.
f = Frecuencia de la clase que contiene el percentil.
F = Frecuencia acumulada de la clase anterior a la que contiene el percentil
C = Intervalo de clase.
Cálculo del P72
Primero se determina la clase donde esta el percentil deseado así :
m/100 * n = 72/100 * 40 = 28.8
O sea que el P72 es el 28.8° término de la serie y éste queda en la clase 54.5 - 59.5.
P72 = 54.5 + 28.8 - 28 * 5 = 55.5
4
FUENTE: http://cosmech.tripod.com/Estadistica/medidas1.htm
A PARTIR DE UN CONJUNTO DADO DE DATOS
REPRESENTARLOS MEDIANTE UN HISTOGRAMA,
POLIGONO DE FRECUENCIAS, OJIVAS, ETC.
HISTOGRAMA
Un histograma es un resumen gráfico de la variación de un conjunto de datos. La naturaleza gráfica
del histograma nos permite ver pautas que son difíciles de observar en una simple tabla numérica.
Esta herramienta se utiliza especialmente en la Comprobación de teorías y Pruebas de validez.
Cómo interpretar los histogramas:
Sabemos que los valores varían en todo conjunto de datos. Esta variación sigue cierta pauta. El
propósito del análisis de un histograma es, por un lado, identificar y clasificar la pauta de variación,
y por otro desarrollar una explicación razonable y relevante de la pauta. La explicación debe
basarse en los conocimientos generales y en la observación de las situaciones específicas y debe
ser confirmada mediante un análisis adicional. Las pautas habituales de variación más comunes son
la distribución en campana, con dos picos, plana, en peine, sesgada, truncada, con un pico aislado,
o con un pico en el extremo.
Construcción de un histograma:
PASO 1
Determinar el rango de los datos: RANGO es igual al dato mayor menos el dato menor; R = > - <
PASO 2
Obtener en número de clases, existen varios criterios para determinar el número de clases ( o
barras). Sin embargo ninguno de ellos es exacto. Algunos autores recomiendan de cinco a quince
clases, dependiendo de como estén los datos y cuántos sean. Un criterio usado frecuentemente es
que el número de clases debe ser aproximadamente ala raíz cuadrada del número de datos, por
ejemplo, la raíz cuadrada de 30 ( número de artículos) es mayor que cinco, por lo que se
seleccionan seis clases.
PASO 3
Establecer la longitud de clase: es igual al rango entre el número de clases.
PASO 4
Construir los intervalos de clases: Los intervalos resultan de dividir el rango de los datos en relación
al resultado del PASO 2 en intervalos iguales.
PASO 5
Graficar el histograma: se hace un gráfico de barras, las bases de las barras son los intervalos de
clases y altura son la frecuencia de las clases. Si se unen los puntos medios de la base superior de
los rectángulos se obtiene el polígono de frecuencias.
Ejemplo :
A una fabrica de envases de vidrio, un cliente le está exigiendo que la capacidad de cierto tipo de
botella sea de13 ml, con una tolerancia de más menos 1 ml. La fábrica establece un programa de
mejora de calidad para que las botellas que se fabriquen cumplan con los requisitos del cliente.
Ejemplos de otros tipos de representaciones gráficas:
Hay histogramas donde se agrupan los datos en clases, y se cuenta cuántas observaciones
(frecuencia absoluta) hay en cada una de ellas. En algunas variables ( variables cualitativas) las
clases están definidas de modo natural, p.e sexo con dos clases: mujer, varón o grupo sanguíneo
con cuatro: A, B, AB, O. En las variables cuantitativas, las clases hay que definirlas explícitamente
(intervalos de clase).
Se representan los intervalos de
clase en el eje de abscisas (eje
horizontal) y las frecuencias,
absolutas o relativas, en el de
ordenadas (eje vertical).
A veces es más útil representar
las frecuencias acumuladas.
O representar simultáneamente
los histogramas de una variable
en dos situaciones distintas.
Otra forma muy frecuente, de
representar dos histogramas de
la misma variable en dos
situaciones distintas.
Otra forma
En las variables cuantitativas o
en las cualitativas ordinales se
pueden representar polígonos de
frecuencia en lugar de
histogramas, cuando se
representa la frecuencia
acumulativa, se denomina ojiva.
FUENTE: http://www.gestiopolis.com/recursos/documentos/fulldocs/ger/histograma.htm
Ejemplos de tipos de representaciones gráficas
Histogramas: Se agrupan los datos en clases, y se cuenta cuántas observaciones
(frecuencia absoluta) hay en cada una de ellas. En algunas variables (variables
cualitativas) las clases están definidas de modo natural, p.e sexo con dos clases:
mujer, varón o grupo sanguíneo con cuatro: A, B, AB, O. En las variables cuantitativas,
las clases hay que definirlas explícitamente (intervalos de clase).
Se
representan
los intervalos
de clase en el
eje de
abcisas (eje
horizontal) y
las
frecuencias,
absolutas o
relativas, en
el de
ordenadas
(eje vertical).
A veces es
más útil
representar
las
frecuencias
acumuladas.
O representar
simultáneamente
los histogramas
de una variable
en dos
situaciones
distintas.
Otra forma
muy
frecuente, de
representar
dos
histogramas
de la misma
variable en
dos
situaciones
distintas.
Otra más
En las
variables
cuantitativas
o en las
cualitativas
ordinales se
pueden
representar
polígonos de
frecuencia en
lugar de
histogramas,
cuando se
representa la
frecuencia
acumulativa,
se denomina
ojiva.
FUENTE: http://www.hrc.es/bioest/Ejemplos_histo.html

Un histograma es un diagrama de barras que se utiliza para representar una
distribución de frecuencias agrupadas de datos cuantitativos.

Un histograma debe tener:
o
o
o
Un título para identificar la población de donde salen los datos.
El eje horizontal en donde se colocan los valores de las clases.
El eje vertical en donde se representa el número de datos en cada una de las
clases. También se puede utilizar la frecuencia relativa para hacer el
histograma.
FUENTE:
http://ciencias.bc.inter.edu/ohernand/internet/drmg1010/estadistica/graficas/tsld011.htm
El histograma es un tipo de gráfica de barras verticales donde las clases o intervalos
aparecen en el eje horizontal y la frecuencia absoluta o relativa de cada clase en el eje
vertical.
En el eje horizontal cada barra se extiende desde el límite inferior de cada clase hasta el
límite inferior de la próxima clase. Por lo tanto el ancho de las barras corresponde a la
amplitud de los intervalos. Los valores de la variable para los límites inferiores de cada
intervalo aparecen en el eje horizontal.
El eje vertical indica la frecuencia absoluta o relativa de los datos incluidos en los
intervalos. La altura de cada barra corresponde a la frecuencia absoluta o relativa del
intervalo.
Nota:
Algunos autores establecen los llamados límites exactos de cada intervalo
para calcular la amplitud del intervalo y por ende el ancho de las barras que
componen el histograma. (Véase Hinkle capt.2)
El histograma se utiliza para representar datos que corresponden a los valores de
una variable cuantitativa continua. Para indicar esta continuidad de la variable no
se dejan espacios entre las barras.
En ciertas ocasiones la forma del histograma se parece mucho a la del diagrama
de tallo y hoja. Esto ocurre cuando los tallos corresponden con las clases del
histograma de forma que cada tallo incluya los mismos datos de la clase
correspondiente. En dichos casos si se gira el diagrama de tallo y hoja 90 grados
en contra de las manecillas del reloj se puede observar una gráfica muy semejante
a la del histograma.
El histograma permite visualizar la forma de la distribución de frecuencias. Sin
embargo, cuando se quieren comparar dos distribuciones diferentes es necesario
recurrir a otro tipo de gráfica que facilite más la comparación.
2. Gráfica del Histograma
FUENTE : http://rrpac.upr.clu.edu:9090/~amenend/histograma.htm
Distribución de frecuencias acumuladas
Frecuencia Relativa acumulada: Es la suma de las frecuencias relativas anteriores
más la frecuencia relativa en que se encuentre.
Polígono de frecuencias relativas: Se obtiene el histograma de las frecuencias relativas
y se traza una línea recta a la mitad de cada rectángulo formando un polígono (no
cerrado).
Ojiva del diagrama de frecuencia relativa acumulada: Es un diagrama de líneas de las
frecuencias relativas acumuladas.
Ejemplo :
a) El primer día de clases del semestre pasado se les preguntó a 50 estudiantes, a cerca
del tiempo (en mínutos) que tardan para desplazarse de su casa a la universidad.
Datos
20 35 25 15 5 20 25 30 20 20
30 15 15 20 20 25 25 20 20 10
20 25 45 20 5 25 40 25 25 20
30 25 35 20 30 15 30 25 20 10
10 5 10 15 25 40 25 10 20 15
1. Construya un histograma de frecuencias relativas
2. Construya un polígono de frecuencias relativas
3. Construya un histograma de frecuencia relativa acumulada
4. Construya un ojiva Diagrama de frecuencia relativa acumulada
Solución:
P1) Se calcula el número de clases :
, donde n = número de clase
donde:
K = Número de clases
N = Número de datos = 50
por lo que el Número de clases K = 6.
P2) Se calcula el ancho de la
clase:
1. Construya un histograma de frecuencias relativas
P1) Se construye la tabla con los datos anteriores.
Ancho de clase (7)
Límite de clase
Clases Límite Límite Marca Frecuencia Frecuencia Frecuencia
inferior superior de
Relativa
clase
Relativa Acumulada
1
5
11
8
8
0.16
0.16
2
12
18
15
10
0.2
0.36
3
19
25
22
22
0.44
0.8
4
26
32
29
5
0.1
0.9
5
33
39
36
4
0.08
0.98
6
40
46
43
1
0.02
1
50
1
P2) Con los datos de la tabla se construye el histograma de frecuencias relativas.
2. Construya un polígono de frecuencias relativas
En el histograma de frecuencias relativas se traza el polígono de frecuencias relativas,
como sigue:
3. Se construye un histograma de frecuencia relativa acumulada
4. Se construye la ojiva del Diagrama de las frecuencias relativas acumuladas
FUENTE:
http://mailweb.udlap.mx/~ccastane/Syllabus_Mat_Estadistica/Notas_Mat_Estadistica/Ca
pitulo_4/Cap_4_5/Cap_4_5.html
Gráficos para variables continuas
Cuando las variables son continuas, utilizamos como diagramas diferenciales los
histogramas y los polígonos de frecuencias.
Un histograma se construye a partir de la tabla estadística, representando sobre cada
intervalo, un rectángulo que tiene a este segmento como base. El criterio para calcular la
altura de cada rectángulo es el de mantener la proporcionalidad entre las frecuencias
absolutas (o relativas) de cada intervalo y el área de los mismos.
El polígono de frecuencias se construye fácilmente si tenemos representado previamente el
histograma, ya que consiste en unir mediante lineas rectas los puntos del histograma que
corresponden a las marcas de clase. Para representar el polígono de frecuencias en el primer
y último intervalo, suponemos que adyacentes a ellos existen otros intervalos de la misma
amplitud y frecuencia nula, y se unen por una línea recta los puntos del histograma que
corresponden a sus marcas de clase. Obsérvese que de este modo, el polígono de
frecuencias tiene en común con el histograma el que las áreas de la gráficas sobre un
intervalo son idénticas. Veanse ambas gráficas diferenciales representadas en la parte
superior de la figura 1.8.
El diagrama integral para una variable continua se denomina también polígono de
frecuencias acumulado, y se obtiene como la poligonal definida en abcisas a partir de los
extremos de los intervalos en los que hemos organizado la tabla de la variable, y en
ordenadas por alturas que son proporcionales a las frecuencias acumuladas. Dicho de otro
modo, el polígono de frecuencias absolutas es una primitiva del histograma. Véase la parte
inferior de la figura 1.8, en la que se representa a modo de ilustración los diagramas
correspondientes a la variable cuantitativa continua expresada en la tabla siguiente:
Intervalos ci ni Ni
0 -- 2
1 2
2
2 -- 4
3 1
3
4 -- 6
5 4
7
6 -- 8
7 3 10
8 - 10
9 2 12
12
Figura: Diagramas diferenciales e integrales para
una variable continua.
1.9.4.5 Ejemplo
La siguiente distribución se refiere a la duración en horas (completas) de un lote de 500
tubos:
Duración en horas Número de tubos
300 -- 500
50
500 -- 700
150
700 -- 1.100
275
más de 1.100
25
Total 500



Representar el histograma de frecuencias relativas y el polígono de frecuencias.
Trazar la curva de frecuencias relativas acumuladas.
Determinar el número mínimo de tubos que tienen una duración inferior a 900
horas.
Solución: En primer lugar observamos que la variable en estudio es discreta (horas
completas), pero al tener un rango tan amplio de valores resulta más conveniente agruparla
en intervalos, como si de una variable continua se tratase. La consecuencia es una ligera
perdida de precisión.
El último intervalo está abierto por el límite superior. Dado que en él hay 25 observaciones
puede ser conveniente cerrarlo con una amplitud ``razonable''. Todos los intervalos excepto
el tercero tienen una amplitud de 200 horas, luego podríamos cerrar el último intervalo en
1.300 horas1.2.
Antes de realizar el histograma conviene hacer una observación importante. El histograma
representa las frecuencias de los intervalos mediante áreas y no mediante alturas. Sin
embargo nos es mucho más fácil hacer representaciones gráficas teniendo en cuenta estas
últimas. Si todos los intervalos tienen la misma amplitud no es necesario diferenciar entre
los conceptos de área y altura, pero en este caso el tercer intervalo tiene una amplitud doble
a los demás, y por tanto hay que repartir su área en un rectángulo de base doble (lo que
reduce su áltura a la mitad).
Así será conveniente añadir a la habitual tabla de frecuencias una columna que represente a
las amplitudes ai de cada intervalo, y otra de frecuencias relativas rectificadas, fi', para
representar la altura del histograma. Los gráficos requeridos se representan en las figuras
1.9 y 1.10.
Intervalos
ai
ni
fi
fi '
Fi
300 -- 500
200
50
0,10 0,10 0,10
500 -- 700
200
150
0,30 0,30 0,40
700 -- 1.100
400
275
0,55 0,275 0,95
1.100 -- 1.300 200
25
0,05 0,05 1,00
n=500
Figura: Histograma. Obsérvese que la altura del histograma en cada
intervalo es fi' que coincide en todos con fisalvo en el intervalo 700 -1.100 en el que
ya que la amplitud de ese intervalo es
doble a la de los demás.
Figura: Diagrama acumulativo de frecuencias relativas
Por otro lado, mirando la figura 1.9 se ve que sumando frecuencias relativas, hasta las 900
horas de duración hay
0,10 + 0,30 + 0,275 = 0,675 = 67,5 % de los tubos.
Esta cantidad se obtiene de modo más directo viendo a qué altura corresponde al valor 900
en el diagrama de frecuencias acumuladas (figura 1.10).
Como en total son 500 tubos, el número de tubos con una duración igual o menor que 900
horas es
, redondeando, 338 tubos.
Tabla: Principales diagramas según el tipo de variable.
Tipo de variable
Diagrama
V. Cualitativa
Barras, sectores, pictogramas
V. Discreta
Diferencial (barras)
Integral (en escalera)
V. Continua
Diferencial (histograma, polígono de frecuencias)
Integral (diagramas acumulados)
FUENTE: http://ftp.medprev.uma.es/libro/node10.htm
La representación gráfica de una distribución de frecuencias depende del tipo de datos que
la constituya.
a. Datos correspondientes a un carácter cualitativo
La representación gráfica de este tipo de datos está basada en la proporcionalidad de
las áreas a las frecuencias absolutas o relativas. Veremos dos tipos de
representaciones:
1. Diagrama de sectores:
Está representación gráfica consiste en dividir un círculo en tantos sectores
circulares como modalidades presente el carácter cualitativo, asignando un
ángulo central a cada sector circular proporcional a la frecuencia absoluta ni,
consiguiendo de esta manera un sector con área proporcional también a ni.
Ejemplo:
Así, los ángulos que corresponden a las cuatro modalidades de la tabla
adjunta serán:
Número de casos Ángulo(grados)
Rehusaron cirugía
26
234°
Rehusaron radiación
3
27°
Empeoraron por
una enfermedad
ajena al cáncer
10
90°
Otras causas
1
9°
Y su representación en un diagrama de sectores será:
2. Diagrama de rectángulos:
Esta representación gráfica consiste en construir tantos rectángulos como
modalidades presente el carácter cualitativo en estudio, todos ellos con base
de igual amplitud. La altura se toma igual a la frecuencia absolua o relativa
(según la distribución de frecuencias que estemos representando),
consiguiendo de esta manera rectángulos con áreas proporcionales a las
frecuencias que se quieren representar.
Ejemplo:
La representación gráfica de la distribución de frecuencias absolutas del
ejemplo anterior será de la forma:
b. Datos sin agrupar correspondientes a un carácter cuantitativo
Estudiaremos dos tipos de representaciones gráficas, correspondientes a
distribuciones de frecuencias (absolutas o relativas) no acumuladas y acumuladas.
1. Diagrama de barras:
Consiste en levantar, para cada valor de la variable, una barra cuya altura sea
su frecuencia absoluta o relativa, dependiendo de la distribución de
frecuencias que estemos representando.
Ejemplo:
Así, la representación gráfica de la distribución de frecuencias del ejemplo
del nº de hijos será:
2. Diagrama de frecuencias acumuladas:
Esta representación gráfica se corresponde con la de una función constante
entre cada dos valores de la variable a representar, e igual en cada tramo a la
frecuencia relativa acumulada (o absoluta acumulada si se trata de
representar una distribución de frecuencias absolutas) hasta el menor de los
dos valores de la variable que construyen el tramo en el que es constante.
Ejemplo:
También para el ejemplo del Número de Hijos, se tendrá un diagrama de
frecuencias acumuladas como el del siguiente gráfico:
c. Datos agrupados en intervalos correspondientes a un carácter cuantitativo
Al igual que antes, existen también dos tipos de representaciones gráficas
dependiendo de si la distribución de frecuencias en estudio es de datos acumulados
o de datos sin acumular.
1. Histograma:
Al ser esta representación una representación por áreas, hay que distinguir si
los intervalos en los que aparecen agrupados los datos son de igualamplitud
o no.
Si la amplitud de los intervalos es constante, dicha amplitud puede tomarse
como unidad y al ser
Frecuencia (área) = amplitud del intervalo · altura
la altura correspondiente a cada intervalo puede tomarse igual a la
frecuencia.
Si los intervalos tienen diferente amplitud, se toma alguna de ellas como
unidad (generalmente la menor) y se levantan alturas para cada intervalo de
forma que la ecuación anterior se cumpla.
Ejemplo:
En el ejemplo de los Niveles de Colinesterasa, al tener los intervalos igual
amplitud, la representación gráfica será:
Ejemplo:
Si tuviéramos una distribución de frecuencias como la siguiente,
correspondiente a puntuaciones obtenidas en un test psicológico y en la que
los intervalos son de diferente amplitud
Ii
ni
fi
0-20
8
8/70
20-30
9
9/70
30-40
12
12/70
40-45
10
10/70
45-50
9
9/70
50-60
10
10/70
60-80
8
8/70
80-100
4
4/70
?ni= 70
?fi=1
Tomando la amplitud 5 como unidad, deberemos levantar para el primer
intervalo una altura de 2/70 para que el área sea la freceuncia relativa 8/70.
Procediendo de la misma manera con el resto de los intervalos obtendríamos
como representación gráfica la figura siguiente:
Obsérvese que la suma de todas las áreas debe ser 1, tanto si los intervalos
de la distribución de frecuencias relativas son o no de igual amplitud.
2. Polígono de frecuencias acumuladas:
Se utiliza para representar distribuciones de frecuencias (relativas o
absolutas) acumuladas. Consiste en representar la gráfica de una función que
una por segmentos las alturas correspondientes a los extremos superiores de
cada intervalo, tengan o no todos igual amplitud, siendo dicha altura igual a
la frecuencia acumulada, dando una altura cero al extremo inferior del
primer intervalo y siendo constante a partir del extremo superior del último.
Ejemplo:
Así, para el ejemplo de los Niveles de Colinesterasa, el polígono de
frecuencias relativas acumuladas tendrá una representación gráfica de la
forma:
FUENTE: http://thales.cica.es/rd/Recursos/rd99/ed99-0278-01/est_des4.html
Polígonos de frecuencias.
Son otra forma de representar gráficamente distribuciones tanto de frecuencias simples como
relativas. Para construir un polígono de frecuencias señalamos éstas en el eje vertical y los valores
de la variable que estamos midiendo en el eje horizontal. A continuación, graficamos cada
frecuencia de clase trazando un punto sobre su punto medio y conectamos los resultantes puntos
sucesivos con una línea recta para formar un polígono.
Se añaden dos clases, una en cada extremo de la escala de valores observados. Estas dos nuevas
clases que contienen cero observaciones permiten que el polígono alcance el eje horizontal en
ambos extremos de la distribución.
Un polígono de frecuencias es sólo una línea que conecta los puntos medios de todas las barras
de un histograma. Por consiguiente, podemos reproducir el histograma mediante el trazado de
líneas verticales desde los límites de clase y luego conectando tales líneas con rectas horizontales
a la altura de los puntos medios del polígono.
Un polígono de frecuencias que utiliza frecuencias relativas de puntos de dato en cada una de las
clases, en lugar del número real de puntos, se conoce como polígono de frecuencias relativas. Este
polígono tiene la misma forma que el polígono de frecuencias construido a partir del mismo
conjunto de datos, pero con una escala diferente en los valores del eje vertical.
Ventajas de los histogramas:


Los rectángulos muestran cada clase de la distribución por separado.
El área de cada rectángulo, en relación con el resto, muestra la proporción del número total
de observaciones que se encuentran en esa clase.
Ventajas de los polígonos de frecuencias:



Es más sencillo que su correspondiente histograma.
Traza con más claridad el perfil del patrón de datos.
Se vuelve cada vez más liso y parecido a una curva conforme aumentamos el número de
clases y el número de observaciones.
Un polígono alisado mediante el aumento de clases y de puntos de dato se conoce como curva de
frecuencias.
Ojivas.
Una distribución de frecuencias acumuladas nos permite ver cuántas observaciones están por
encima de ciertos valores, en lugar de hacer un mero registro del número de elementos que hay
dentro de los intervalos.
La gráfica de una distribución de frecuencias acumuladas se conoce como ojiva.
En ocasiones, la información que utilizamos se presenta en términos de frecuencias acumuladas
"mayores que". La ojiva adecuada para tal información tendría una inclinación hacia abajo y hacia
la derecha, en lugar de tener una inclinación hacia arriba y a la derecha.
Podemos construir una ojiva de una distribución de frecuencias relativas de la misma manera en
que trazamos la ojiva de una distribución de frecuencias absolutas. Sólo habrá un cambio: la
escala del eje vertical.
Del ordenamiento de datos podemos construir distribuciones de frecuencias. A partir de las
distribuciones de frecuencias podemos construir distribuciones de frecuencias acumuladas. A partir
de éstas podemos trazar una ojiva. Y de esta ojiva podemos aproximar los valores que tenemos en
el ordenamiento de datos. Sin embargo, no podemos recobrar de manera normal los datos
originales exactos a partir de cualquiera de las representaciones gráficas que hemos analizado.
FUENTE: http://server2.southlink.com.ar/vap/datos.htm
Polígonos de frecuencia:
El polígono de frecuencias es una representación gráfica de la distribución de
frecuencias que resulta esencialmente equivalente al histograma y se obtiene uniendo
mediante segmentos los centros de las bases superiores de los rectángulos del
histograma (es decir, los puntos de las marcas de clase).
Véase que para cerrar la figura, se une la línea quebrada con lo que sería la marca de
clase (sobre la superficie del eje horizontal) anterior a la primera y posterior a la
última registrada
Ojiva:
La misma idea de unir los centros de las bases superiores de los rectángulos de la
distribución del histograma de frecuencias acumuladas, da lugar al polígono de
frecuencias acumuladas u ojiva.
FUENTE:
http://www.liccom.edu.uy/bedelia/cursos/metodos/material/estadistica/var_cuanti.html
Generalmente se parte de la información representada en tablas antes de de poder llevar a
cabo el aspecto gráfico. La representación más común utilizada en la estadística descriptiva
se encuentra la siguiente:
Diagramas de barras. Se utiliza para representar datos cualitativos y cuantitativos,
con datos de tipo discreto. En el eje x se representan los datos ordenados en clases
mientras que en el eje y se pueden representar frecuencias absolutas o relativas.
Gráfica o diagramas de barras
25
20
Frecuencias

15
10
5
0
primera
tercera
quinta
clases
primera
segunda
tercera
cuarta
quinta
sexta

Histogramas.
Los histogramas de frecuencias son gráficas que representan un conjunto de datos que
se emplean para representar datos de una variable cuantitativa. En el eje horizontal o de
las abscisas se representan los valores tomados por la variable, en el caso de que los
valores considerados sean continuos la forma de representar los valores es mediante
intervalos de un mismo tamaño llamados clases. En el eje vertical se representan los
valores de las frecuencias de los datos. Las barras que se levantan sobre la horizontal y
hasta una altura que representa la frecuencia. Un punto importante en el manejo de la
información bajo el uso de histogramas es el hecho de poder comparar, bajo un proceso
en control, que a medida que se crecen las clase tiene aproximadamente la forma de
una campana centrada, que como veremos posteriormente, es la de una de las
distribuciones mas importantes conocidas como frecuencia normal o gaussiana.
Histograma de frecuencias
25
Frecuencias
20
15
10
5
0
pr i mer a
t er cer a
qui nt a
clases
primera

Polígono de frecuencias
segunda
tercera
cuarta
quinta
sexta
Alternativo al histograma de frecuencias podemos representar la información a través de los
llamados polígonos de frecuencias. Estos se construyen a partir de los puntos medios de
cada clase. La utilización de los puntos medios o marcas de clase son llevados al escenario
gráfico mediante la utilización de los polígonos de frecuencias. Se construye uniendo los
puntos medios de cada clase localizados en las tapas superiores de los rectángulos
utilizados en los histogramas de las gráficas. Su utilidad se hace necesaria cuando desean
destacarse las variables de tendencia central, como son media, modas y medianas.
Poligonos de frecuencias
25
Frecuencias
20
15
10
5
0
pr i mer a
t er cer a
qui nt a
clases

Diagrama de sectores
primera
segunda
tercera
cuarta
quinta
sexta
Este tipo de diagramas puede ser de dos tipo, se puede considerar una figura geométrica en
la que la información se distribuye dentro de la figura como puede ser una dona o un anillo
en el que cada porción dentro de la figura representa la información porcentual del total de
datos. La segunda opción es la utilización de pasteles en los que una porción del pastel
determinada por sectores individuales la información para ese sector especifico.
Frecuencias a través de sectores, los cuales
pueden ser como el que se muestra a continuación
5%
4% 3%
16%
15%
10%
11%
15%
21%

primera
segunda
tercera
cuarta
sexta
septima
octava
novena
quinta
Cartogramas.
Son gráficos en los que se puede agrupar para una misma clase diferentes frecuencias, por
lo que se hace apropiado su uso cuando se desea analizar tres diferentes resultados
obtenidos, con diferentes frecuencias pero con una misma clase.
18
16
14

Pirámides de población.
Este gráfico se construye utilizando pirámides para construir la representación de los datos
bajo cierta clase, la diferencia de información considerada entre cada clase será dada por el
tamaño de la pirámide. En ocasiones la frecuencia de cada clase se coloca en el extremo
superior de cada clase, sin embargo también, al igual que en las anteriores puede resultar
útil colocar información, como el porcentaje de información en la punta de cada pirámide.
Pirámides de frecuencias
25
21
Frecuencias
20
15
15
14
16
10
8
5
0
3
primera
t ercera
quint a
clases
primera

segunda
tercera
cuarta
quinta
sexta
Diagramas lineales.
El diagrama lineal representa la información comparando las clases y frecuencias. En
cierta forma el polígono de frecuencias corresponde a un diagrama lineal, esto debido a
que se utilizan este tipo de diagramas para obtener la gráfica de la información. En otras
ocasiones la comparación de las clases son números con respecto a números, como el
ejemplo que se muestra a continuación. Los diagramas lineales suelen utilizarse para
destacar la dependencia entre dos variables, como veremos en le tema de dependencia
lineal.
2500
2000
1500
1000
500
0
1965
1970
1975
1980
1985
Serie1

Pictogramas
El pictograma consiste en la utilización de símbolos utilizados para representar un conjunto
de datos, en el caso de la representación de datos individuales a través de barras hemos
utilizado los pictogramas, sin embargo en áreas especificas convendría analizar el conjunto
de datos.
FUENTE: http://148.216.10.83/estadistica/graficas.htm
UNIDAD 2: FUNDAMENTOS DE
PROBABILIDAD.
CONJUNTOS Y TECNICAS DE CONTEO.
En muchos problemas podemos establecer un espacio muestral equiprobable y entonces el
problema de calcular probabilidades se convierte en un problema de contar de cuántas
maneras se puede hacer algo.
Para empezar con algo sencillo, veamos este problema. Tengo tres progamas para ver
correo electrónico: Mail, Pine y ZMail; además recibo dos tipos de mensajes: de trabajo y
personales. Ud. me sorprende viendo un mensaje y anota el tipo de programa y el tipo de
mensaje que estoy viendo. ¿Cuántos puntos tiene el espacio muestral?
Casi automáticamente hemos contestado que son 6. Si alguien no nos cree, podemos
escribirle cuales son.
Sin saberlo hemos estado haciendo uso de lo que se llama Principio Fundamental del
Conteo. Copio aquí la forma en que se expone en la página 11 del libro de texto:
Si una operación puede realizarse en n1 formas y si por cada una de éstas, una segunda
operación puede llevarse a cabo en n2 formas, entonces las dos operaciones pueden
realizarse juntas en n1n2 formas.
Aquí tiene un problema que nos puede ayudar a ejemplificar su uso. Para hacer un código
se van a usar 3 letras distintas y 4 dígitos distintos a cero. ¿Cuántos códigos diferentes se
pueden hacer?
Consideramos elaborar uno de estos códigos como si hubiera siete huecos, los primeros tres
a llenar con letras, los otros cuatro con números. El primer hueco puede ser llenado con
cualquiera de las 27 letras con que contamos, pensemos que ya ha sido llenado. No importa
con cuál letra haya sido llenado, para el siguiente hueco tenemos de nuevo 27 letras que
podemos usar; es decir que hay 272 formas diferentes de llenar los primeros dos huecos.
Esto que razonamos aquí es el contenido del principio fundamental. Habiéndolo razonado,
podemos ahora aplicarlo de manera automática, pero teniendo cuidado con su hipótesis
... y si por cada una ...
Aplicándolo al resto de los huecos llegamos a que hay: 27394 códigos distintos posibles.
FUENTE: http://w3.mor.itesm.mx/~cmendoza/ma835/ma83507.html
Técnicas de conteo
Las técnicas de conteo para encontrar el numero de arreglos posibles de objetos
en un conjunto o conjuntos son esenciales en el estudio de la probabilidad. Al
contar los arreglos se puede enlistar o representar todos en forma ramificada es
decir esta representación se hace en la forma de un árbol denominado diagrama
de árbol.
Ej.- Un contador tiene dos sacos negro y beige y 4 camisas: celeste, café, blanca y
azul de cuantas manera puede combinarse y representar con un diagrama de
árbol.
Saco
Negro
Contador
Beige
2
Camisas
Posibles arreglos:
Celeste
Café
Blanco
Azul
Negro-celeste
Negro-café
Negro-blanco
Negro-azul
Celeste
Café
Blanco
Azul
Beige-celeste
Beige-café
Beige-blanco
Beige-azul
x
4
=
8
Principio Fundamental del Proceso de Contar
De la sección anterior se puede establecer una manera eficiente de contar
considerando el principio de multiplicación, el cual llamaremos: Principio
fundamental del proceso de contar quedando explícitamente de la siguiente
manera: Si en una primera decisión se puede hacer de “n” formas diferentes y una
segunda decisión en “m” formas diferentes entonces las dos decisiones se pueden
hacer en “n” por “m” o sea “nm” formas diferentes en el orden dado.
Ej.- Cuantas palabras de 4 letras (sin significado) se puede formar con las letras
de la palabra verónica, sin usar mas de una vez cada una de las letras,
8 x 7 x 6 x 5 = 1680
Ej.- Cuantos números de 3 dígitos se pueden formar con los dígitos 6,7,8,9 si :
a) no deben repetirse los dígitos 4 x 3 x 2 = 24
b) deben repetirse los dígitos.
4 x 4 x 4 = 64
Compruébalo
a)
678
679
687
689
697
698
b)
666
667
668
669
676
677
678
679
686
687
688
689
696
697
698
699
768
769
786
789
796
798
867
869
876
879
896
897
967
968
976
978
986
987
766
767
768
769
776
777
778
779
786
787
788
789
796
797
798
799
866
867
868
869
876
877
878
879
886
887
888
889
896
897
898
899
966
967
968
969
976
977
978
979
986
987
988
989
996
997
998
999
Ej.- cuántos números de cuatro dígitos de pueden formar con los dígitos del 0-9 si:
a) los dígitos pueden repetirse
9 x 10 x 10 x 10 = 9000
b) los dígitos no pueden repetirse
9x9x8x7
= 4536
c) el ultimo digito debe ser ocho y no pueden repetirse 8 x 8 x 7 x 1
= 448
Ej.- Cuántos juegos de placas para autos que contengan tres letras seguidas de
tres dígitos utilizando para ello las 27 letras del alfabeto y los números del 0-9 si:
a) las letras y dígitos no deben repetirse
27 x 26 x 25 x 10 x 9 x 8
= 12636000
b) las letras y dígitos pueden repetirse
27 x 27 x 27 x 10 x 10 x 10
c) debe iniciar con la letra R
1 x 26 x 25 x 10 x 10 x 10
1 x 26 x 25 x 10 x 9 x 8
650000 + 468000
= 19683000
= 650000
= 468000
= 1118000
Ej.- Se tienen seis hombres y cinco mujeres y se quieren acomodar en una hilera
de butacas de tal manera que las mujeres ocupen los lugares pares , en cuantas
formas se pueden acomodar?
6 x 5 x 5 x 4 x 4 x 3 x 3 x 2 x 2 x 1 x 1 = 86400
FUENTE: http://apuntes.rincondelvago.com/probabilidad_8.html#
Técnicas de Conteo
De manera general se considera la probabilidad de un evento, como el número de
eventos positivos partido el número eventos global en el espacio muestral. Pero para
determinar este último valor, hay varias formas para hacerlo, en esto consisten las técnicas
de conteo.
Principio fundamental del conteo:
Hipótesis: Un evento puede realizarse de n1 maneras, un segundo de n2 maneras y un késimo evento de nk maneras.
Conclusión: El número de maneras en que puede suceder una sucesión de los k eventos en
el orden indicado es de:
n1*n2*...*nk
Demostración:
Por inducción sobre el número de eventos tenemos que para el primer evento,
tenemos n1 formas de hacerlo y no hay nada que probar. Supongamos que para k-1 eventos
el número de maneras en que suceden es n1n2...nk-1 entonces, para los k eventos, tenemos
que para cada uno de los nk eventos tenemos n1n2...nk-1 maneras de realizarlos, por lo que
existen n1n2...nk formas de que los eventos sucedan, por lo tanto queda probado el principio
fundamental de conteo.
Ejemplo:
Supongamos que existe un código de seguridad que intercala dos letras con dos
números y deseamos saber el número de códigos que se pueden emitir en total:
Tomemos 26 letras y 10 números, entonces el número sería de:
26*10*26*10=676,000 códigos
Permutaciones
En ocasiones es necesario tomar de una lista de n objetos, r elementos y colocarlos
en un orden determinado, a esto se le llama una permutación de los n objetos r tomados. La
notación que utilizaremos será nPr, que dice que de n objetos permutamos r de ellos, claro
está que esta función está definida en los números enteros y que no es posible que r>n,
porque no podríamos tomar más objetos que los n disponibles.
Teorema:
Hipótesis: Existen n elementos de los cuales se eligen en orden r.
Conclusión: Entonces el número de posibles formas en que se elijan los elementos es
nPr=n!/(n-r)!=(n-r+1)*(n-r+2)*…*(n)
Demostración :
Por inducción, si deseamos tomar un solo elemento, existen efectivamente n formas
de hacerlo que coincide con la hipótesis del teorema, supongamos que para r-1 elementos a
tomar, en realidad existen n!/(n-r+1)! formas de hacerlo.
Desarrollemos esta última expresión: 1*2*3*...(n-r+1)*(n-r+2)*...*n/(1*2*3*...*(nr+1))=(n-r+2)* (n-r+3)*...*n, entonces para tomar el r-ésimo elemento tendríamos el
número de formas en que suceden los eventos anteriores y el número de formas en que
sucede el último evento (de acuerdo con el principio general de conteo) por lo tanto, para
tomar el r-ésimo elemento, existen n-r+1 formas de hacerlo, debido a que se han sacado (r1) elementos (n-(r-1))=n-r+1, por lo tanto, obtenemos que el número de formas para tomar
los r elementos es:
(n-r+1)*(n-r+2)*…*(n)=nPr
Con lo que queda mostrado el teorema.
Corolario:
Hipótesis: Se tienen n elementos y se eligen n al azar
Conclusión: La forma en que se pueden extraer es n!
La demostración es obvia sustituyendo n en lugar de r en el teorema precedente.
Permutaciones con repeticiones
Teorema:
Hipótesis: Sea el número de objetos de los cuales hay n1 iguales entre sí, n2, ... nk iguales
entre sí.
Conclusión:
n!/(n1!...nk!)
Es el número de permutaciones distintas de dichos objetos.
Demostración:
Supongamos que tenemos 1 objeto que se repite n1 veces y que n es un número
cualquiera, entonces tenemos que existen r=n-n1 objetos distintos entre sí, los cuales se
agrupan en n!/(n-r)! formas distintas, con lo que tenemos que el teorema cumple para el
caso 1.
Supongamos que hay k-1 objetos que se repiten n1, n2, ..., nk-1 veces respectivamente
y que el número de formas en que se permutan es
m!/(n1!*n2!*...*nk-1!)
Donde m=n1+n2+...+nk-1, entonces, si ahora introducimos nk-1 elementos de un késimo objeto, entonces tenemos que el mismo se repite nk veces, por el principio
fundamental de conteo, entonces habría m!/(n1!*n2!*...*nk-1!), multiplicado por el número
de formas en que se puede permutar dicho elemento, lo cual es n!/(n-nk)!, pero si tomamos
n= n1+n2+...+nk, tendremos que n=m+nk  m=n-nk , de donde el número de formas en que
se pude agrupar es
(m!/(n1!*n2!*...*nk-1!))*( n!/(n-nk)!)= (m!/(n1!*n2!*...*nk-1!))*( n!/(m)!)= n!/(n1!...nk!)
que es lo que se deseaba mostrar.
Combinaciones:
Para estudiar este problema, démonos una colección de n objetos. Entonces si
tomamos r elementos sin importar el orden en que los tomemos, decimos que hemos
realizado una combinación de r elementos de los n disponibles. El número posible de
combinaciones de r elementos de n disponibles lo denotaremos por:
nCr
Teorema:
Hipótesis: Existen n elementos en un conjunto de los cuales se toman r.
Conclusión: El número de posibles combinaciones es:
nCr=n!/(r!*(n-r)!)
Demostración
Sabemos que si tomamos r elementos de una colección de n, si nos fijamos del
ordenen que lo tomamos, tenemos n!/(n-r)!, pero a la vez, si consideramos que en una
combinación no importa el orden. Sabemos que para colocar r elementos en r posiciones
hay r! formas de hacerlo, así que para cada una de las n!/(n-r)! formas en que se pueden
tomar los elementos hay que quitar r!, tenemos que precisamente hay n!/(r!*(n-r)!)
distintas combinaciones de r elementos de n posibles.
FUENTE: http://www.doschivos.com/Stat1/Stat0.htm
TÉCNICAS DE CONTEO
A) A) CONCEPTO.
Suponga que se encuentra al final de una línea de ensamble final de un producto y que un
supervisor le ordena contar los elementos de un lote que se ha manufacturado hace unas
horas y del que se desconoce el número de productos que lo constituyen, de inmediato
usted empezará a contar un producto tras otro y al final informará al supervisor que son,
48, 54 u otro número cualquiera. Ahora suponga que ese mismo supervisor le plantea la
siguiente pregunta ¿cuántas muestras o grupos será posible formar con los productos del
lote, si las muestras o grupos a formar son de ocho elementos cada una de ellas?.
En el primer caso el cuantificar los elementos del lote no presenta dificultad alguna
para la persona encargada de hacerlo, pero cuando se le hace el segundo
planteamiento, al tratar de formar las muestras o grupos de ocho elementos la
persona encargada empezará a tener dificultad para hacerlo, en casos como este es
necesario hacer uso de las técnicas de conteo para cuantificar los elementos del evento
en cuestión (el número de muestras posibles a formar de ocho elementos), luego, ¿qué
son las técnicas de conteo?
Las técnicas de conteo son aquellas que son usadas para enumerar eventos difíciles de
cuantificar.
Ejemplos en los que definitivamente haremos uso de las técnicas de conteo serían:
-¿Cuántas comisiones pro limpieza del instituto se pueden formar si hay 150 alumnos
que desean ayudar en esta tarea y se desea formar comisiones de ocho alumnos?
-¿Cuántas representaciones de alumnos pueden ser formadas a) si se desea que estas
consten solo de alumnos de Ingeniería Química?, b) se desea que el presidente sea un
químico?, c) se desea que el presidente y tesorero sean químicos? Para todos los casos,
se desea que las representaciones consten de once alumnos.
-¿Cuántas maneras tiene una persona de seleccionar una lavadora, una batidora y dos
licuadoras, si encuentra en una tienda 8 modelos diferentes de lavadoras, 5 modelos
diferentes de batidoras y 7 modelos diferentes de licuadoras?
Se les denomina técnicas de conteo a: las combinaciones, permutaciones y diagrama
de árbol, las que a continuación se explicarán y hay que destacar que éstas nos
proporcionan la información de todas las maneras posibles en que ocurre un evento
determinado.
Las bases para entender el uso de las técnicas de conteo son el principio multiplicativo
y el aditivo, los que a continuación se definen y se hace uso de ellos.
FUENTE: http://www.doschivos.com/Stat1/Stat0.htm
PRINCIPIO MULTIPLICATIVO.
Si se desea realizar una actividad que consta de r pasos, en donde el primer paso de la
actividad a realizar puede ser llevado a cabo de N1 maneras o formas, el segundo paso
de N2 maneras o formas y el r-ésimo paso de Nr maneras o formas, entonces esta
actividad puede ser llevada a efecto de;
N1 x N2 x ..........x Nr maneras o formas
El principio multiplicativo implica que cada uno de los pasos de la actividad deben ser
llevados a efecto, uno tras otro.
Ejemplos:
1) 1) Una persona desea construir su casa, para lo cuál considera que puede
construir los cimientos de su casa de cualquiera de dos maneras (concreto o
block de cemento), mientras que las paredes las puede hacer de adobe, adobón
o ladrillo, el techo puede ser de concreto o lámina galvanizada y por último los
acabados los puede realizar de una sola manera ¿cuántas maneras tiene esta
persona de construir su casa?
Solución:
Considerando que r = 4 pasos
N1= maneras de hacer cimientos = 2
N2= maneras de construir paredes = 3
N3= maneras de hacer techos = 2
N4= maneras de hacer acabados = 1
N1 x N2 x N3 x N4 = 2 x 3 x 2 x 1 = 12 maneras de construir la casa
El principio multiplicativo, el aditivo y las técnicas de conteo que posteriormente
se tratarán nos proporcionan todas las maneras o formas posibles de como se
puede llevar a cabo una actividad cualquiera.
2) 2) ¿Cuántas placas para automóvil pueden ser diseñadas si deben constar de
tres letras seguidas de cuatro números, si las letras deben ser tomadas del
abecedario y los números de entre los dígitos del 0 al 9?, a. Si es posible repetir
letras y números, b. No es posible repetir letras y números, c. Cuántas de las
placas diseñadas en el inciso b empiezan por la letra D y empiezan por el cero,
d. Cuantas de las placas diseñadas en el inciso b empiezan por la letra D
seguida de la G.
Solución:
a. a. Considerando 26 letras del abecedario y los dígitos del 0 al 9
26 x 26 x 26 x 10 x 10 x 10 x 10 = 75,760,000 placas para automóvil que es
posible diseñar
b. b. 26 x 25 x 24 x 10 x 9 x 8 x 7 = 78,624,000 placas para automóvil
c. c. 1 x 25 x 24 x 1 x 9 x 8 x 7 = 302,400 placas para automóvil
d. d. 1 x 1 x 24 x 10 x 9 x 8 x 7 = 120,960 placas para automóvil
3) 3) ¿Cuántos números telefónicos es posible diseñar, los que deben constar de
seis dígitos tomados del 0 al 9?, a. Considere que el cero no puede ir al inicio de
los números y es posible repetir dígitos, b. El cero no debe ir en la primera
posición y no es posible repetir dígitos, c. ¿Cuántos de los números telefónicos
del inciso b empiezan por el número siete?, d. ¿Cuántos de los números
telefónicos del inciso b forman un número impar?.
Solución:
a. a. 9 x 10 x 10 x 10 x 10 x 10 = 900,000 números telefónicos
b. b. 9 x 9 x 8 x 7 x 6 x 5 = 136,080 números telefónicos
c. c. 1 x 9 x 8 x 7 x 6 x 5 = 15,120 números telefónicos
d. d. 8 x 8 x 7 x 6 x 5 x 5 = 67,200 números telefónicos
PRINCIPIO ADITIVO.
Si se desea llevar a efecto una actividad, la cuál tiene formas alternativas para ser
realizada, donde la primera de esas alternativas puede ser realizada de M maneras o
formas, la segunda alternativa puede realizarse de N maneras o formas ..... y la última
de las alternativas puede ser realizada de W maneras o formas, entonces esa actividad
puede ser llevada a cabo de,
M + N + .........+ W maneras o formas
Ejemplos:
1) 1) Una persona desea comprar una lavadora de ropa, para lo cuál ha pensado
que puede seleccionar de entre las marcas Whirpool, Easy y General Electric,
cuando acude a hacer la compra se encuentra que la lavadora de la marca W
se presenta en dos tipos de carga ( 8 u 11 kilogramos), en cuatro colores
diferentes y puede ser automática o semiautomática, mientras que la lavadora
de la marca E, se presenta en tres tipos de carga (8, 11 o 15 kilogramos), en dos
colores diferentes y puede ser automática o semiautomática y la lavadora de la
marca GE, se presenta en solo un tipo de carga, que es de 11 kilogramos, dos
colores diferentes y solo hay semiautomática. ¿Cuántas maneras tiene esta
persona de comprar una lavadora?
Solución:
M = Número de maneras de seleccionar una lavadora Whirpool
N = Número de maneras de seleccionar una lavadora de la marca Easy
W = Número de maneras de seleccionar una lavadora de la marca General
Electric
M = 2 x 4 x 2 = 16 maneras
N = 3 x 2 x 2 = 12 maneras
W = 1 x 2 x 1 = 2 maneras
M + N + W = 16 + 12 + 2 = 30 maneras de seleccionar una lavadora
2 ) Rafael Luna desea ir a las Vegas o a Disneylandia en las próximas vacaciones de verano, para ir a
las Vegas él tiene tres medios de transporte para ir de Chihuahua al Paso Texas y dos medios de
transporte para ir del Paso a las Vegas, mientras que para ir del paso a Disneylandia él tiene cuatro
diferentes medios de transporte, a) ¿Cuántas maneras diferentes tiene Rafael de ir a las Vegas o a
Disneylandia?, b) ¿Cuántas maneras tiene Rafael de ir a las Vegas o a Disneylandia en un viaje
redondo, si no se regresa en el mismo medio de transporte en que se fue?.
Solución:
a) V = maneras de ir a las Vegas
D = maneras de ir a Disneylandia
V = 3 x 2 = 6 maneras
D = 3 x 4 = 12 maneras
V + D = 6 + 12 = 18 maneras de ir a las Vegas o a Disneylandia
b) V = maneras de ir y regresar a las Vegas
D = maneras de ir y regresar a Disneylandia
V = 3 x 2 x 1 x 2 = 12 maneras
D = 3 x 4 x 3 x 2 = 72 maneras
V + D = 12 + 72 = 84 maneras de ir a las Vegas o a Disneylandia en un viaje
redondo
¿Cómo podemos distinguir cuando hacer uso del principio multiplicativo y cuando del
aditivo?
Es muy simple, cuando se trata de una sola actividad, la cual requiere para ser llevada
a efecto de una serie de pasos, entonces haremos uso del principio multiplicativo y si la
actividad a desarrollar o a ser efectuada tiene alternativas para ser llevada a cabo,
haremos uso del principio aditivo.
PERMUTACIONES.
Para entender lo que son las permutaciones es necesario definir lo que es una
combinación y lo que es una permutación para establecer su diferencia y de esta
manera entender claramente cuando es posible utilizar una combinación y cuando
utilizar una permutación al momento de querer cuantificar los elementos de algún
evento.
COMBINACIÓN Y PERMUTACION.
COMBINACIÓN:
Es todo arreglo de elementos en donde no nos interesa el lugar o posición que ocupa
cada uno de los elementos que constituyen dicho arreglo.
PERMUTACIÓN:
Es todo arreglo de elementos en donde nos interesa el lugar o posición que ocupa cada
uno de los elementos que constituyen dicho arreglo.
Para ver de una manera objetiva la diferencia entre una combinación y una
permutación, plantearemos cierta situación.
Suponga que un salón de clase está constituido por 35 alumnos. a) El maestro desea
que tres de los alumnos lo ayuden en actividades tales como mantener el aula limpia o
entregar material a los alumnos cuando así sea necesario.
b) El maestro desea que se nombre a los representantes del salón (Presidente,
Secretario y Tesorero).
Solución:
a) a) Suponga que por unanimidad se ha elegido a Daniel, Arturo y a Rafael
para limpiar el aula o entregar material, (aunque pudieron haberse
seleccionado a Rafael, Daniel y a Enrique, o pudo haberse formado cualquier
grupo de tres personas para realizar las actividades mencionadas
anteriormente).
¿Es importante el orden como se selecciona a los elementos que forma el grupo de
tres personas?
Reflexionando al respecto nos damos cuenta de que el orden en este caso no tiene
importancia, ya que lo único que nos interesaría es el contenido de cada grupo,
dicho de otra forma, ¿quiénes están en el grupo? Por tanto, este ejemplo es una
combinación, quiere decir esto que las combinaciones nos permiten formar grupos
o muestras de elementos en donde lo único que nos interesa es el contenido de los
mismos.
b) b) Suponga que se han nombrado como representantes del salón a Daniel
como Presidente, a Arturo como secretario y a Rafael como tesorero, pero
resulta que a alguien se le ocurre hacer algunos cambios, los que se muestran a
continuación:
CAMBIOS
PRESIDENTE: Daniel
SECRETARIO: Arturo
TESORERO:
Rafael
Arturo
Daniel
Rafael
Rafael
Daniel
Arturo
Daniel
Rafael
Arturo
Ahora tenemos cuatro arreglos, ¿se trata de la misma representación?
Creo que la respuesta sería no, ya que el cambio de función que se hace a los
integrantes de la representación original hace que definitivamente cada una de las
representaciones trabaje de manera diferente, ¿importa el orden de los elementos
en los arreglos?. La respuesta definitivamente sería sí, luego entonces las
representaciones antes definidas son diferentes ya que el orden o la forma en que
se asignan las funciones sí importa, por lo tanto es este caso estamos tratando con
permutaciones.
A continuación obtendremos las fórmulas de permutaciones y de combinaciones, pero antes hay que
definir lo que es n! (ene factorial), ya que está involucrado en las fórmulas que se obtendrán y usarán
para la resolución de problemas.
n!= al producto desde la unidad hasta el valor que ostenta n.
n!= 1 x 2 x 3 x 4 x...........x n
Ejem.
10!=1 x 2 x 3 x 4 x.........x 10=3,628,800
8!= 1 x 2 x 3 x 4 x.........x 8=40,320
6!=1 x 2 x 3 x 4 x..........x 6=720, etc., etc.
Obtención de fórmula de permutaciones.
Para hacer esto, partiremos de un ejemplo.
¿Cuántas maneras hay de asignar los cuatro primeros lugares de un concurso de
creatividad que se verifica en las instalaciones de nuestro instituto, si hay 14
participantes?
Solución:
Haciendo uso del principio multiplicativo,
14x13x12x11 = 24,024 maneras de asignar los primeros tres lugares del concurso
Esta solución se debe, a que al momento de asignar el primer lugar tenemos a 14
posibles candidatos, una vez asignado ese lugar nos quedan 13 posibles candidatos
para el segundo lugar, luego tendríamos 12 candidatos posibles para el tercer
lugar y por último tendríamos 11 candidatos posibles para el cuarto lugar.
Luego si n es el total de participantes en el concurso y r es el número de
participantes que van a ser premiados, y partiendo de la expresión anterior,
entonces.
14x13x12x11= n x (n - 1) x (n - 2) x .......... x (n – r + 1)
si la expresión anterior es multiplicada por (n – r)! / (n – r)!, entonces
= n x (n –1 ) x (n – 2) x ......... x (n – r + 1) (n – r)! / (n – r)!
= n!/ (n – r)!
Por tanto, la fórmula de permutaciones de r objetos tomados de entre n objetos es:
n Pr 
n!
( n  r )!
Esta fórmula nos permitirá obtener todos aquellos arreglos en donde el orden es
importante y solo se usen parte (r) de los n objetos con que se cuenta, además hay
que hacer notar que no se pueden repetir objetos dentro del arreglo, esto es, los n
objetos son todos diferentes.
Entonces, ¿ qué fórmula hay que usar para arreglos en donde se utilicen los n objetos
con que se cuenta?
Si en la fórmula anterior se sustituye n en lugar de r, entonces.
nPn= n!/ (n –n)! = n! / 0! = n! / 1 = n!
Como 0! = 1 de acuerdo a demostración matemática, entonces
nPn= n!
Ejemplos:
1) 1) ¿Cuantas representaciones diferentes serán posibles formar, si se desea que
consten de Presidente, Secretario, Tesorero, Primer Vocal y Segundo Vocal?, sí
esta representación puede ser formada de entre 25 miembros del sindicato de
una pequeña empresa.
Solución:
Por principio multiplicativo:
25 x 24 x 23 x 22 x 21 = 6,375,600 maneras de formar una representación de ese
sindicato que conste de presidente, secretario, etc., etc.
Por Fórmula:
n = 25,
25P5
r=5
= 25!/ (25 –5)! = 25! / 20! = (25 x 24 x 23 x 22 x 21 x....x 1) / (20 x 19 x 18 x ... x 1)=
= 6,375,600 maneras de formar la representación
2) a. ¿Cuántas maneras diferentes hay de asignar las posiciones de salida de 8 autos
que participan en una carrera de fórmula uno? (Considere que las posiciones de
salida de los autos participantes en la carrera son dadas totalmente al azar) b.
¿Cuántas maneras diferentes hay de asignar los primeros tres premios de esta carrera
de fórmula uno?
Solución:
a. Por principio multiplicativo:
8 x 7 x 6 x 5 x 4 x 3 x 2 x 1= 40,320 maneras de asignar las posiciones de salida de los
autos participantes en la carrera
Por Fórmula:
n = 8, r = 8
8P8=
8! = 8 x 7 x 6 x 5 x 4 x......x 1= 40,320 maneras de asignar las posiciones de salida
......etc., etc.
b. Por principio multiplicativo:
8 x 7 x 6 = 336 maneras de asignar los tres primeros lugares de la carrera
Por fórmula:
n =8, r = 3
= 8! / (8 – 3)! = 8! / 5! = (8 x 7 x 6 x 5 x ........x1)/ (5 x 4 x 3 x......x1) = 336 maneras
de asignar los tres primeros lugares de la carrera
8P3
3) 3) ¿Cuántos puntos de tres coordenadas ( x, y, z ), será posible generar con
los dígitos 0, 1, 2, 4, 6 y 9?, Si, a. No es posible repetir dígitos, b. Es posible
repetir dígitos.
Solución:
a. Por fórmula
n = 6, r = 3
6P3
= 6! / (6 – 3)! = 6! / 3! = 6 x 5 x 4 x 3! / 3! = 6 x 5 x 4 = 120 puntos posibles
Nota: este inciso también puede ser resuelto por el principio multiplicativo
b. Por el principio multiplicativo
6 x 6 x 6 = 216 puntos posibles
¿Cuál es la razón por la cuál no se utiliza en este caso la fórmula?. No es utilizada
debido a que la fórmula de permutaciones sólo se usa cuando los objetos no se repiten,
esto quiere decir que en el inciso a. Los puntos generados siempre van a tener
coordenadas cuyos valores son diferentes ejem. (1, 2, 4), (2, 4, 6), (0, 4, 9), etc. etc.,
mientras que los puntos generados en el inciso b. Las coordenadas de los puntos
pueden tener valores diferentes o repeticiones de algunos valores o pueden tener todas
las coordenadas un mismo valor ejem. (1, 2, 4), (1, 2, 2), (1, 1, 1), etc., etc.
4) 4) a. ¿Cuántas maneras hay de asignar las 5 posiciones de juego de un equipo
de básquetbol, si el equipo consta de 12 integrantes?, b. ¿Cuántas maneras hay
de asignar las posiciones de juego si una de ellas solo puede ser ocupada por
Uriel José Esparza?, c. ¿Cuántas maneras hay de que se ocupen las posiciones
de juego si es necesario que en una de ellas este Uriel José Esparza y en otra
Omar Luna?
Solución:
a. Por fórmula:
n = 12,
r=5
12P5 = 12! / (12 – 5 )! = 12 x 11 x 10 x 9 x 8 = 95,040 maneras de asignar las
cinco posiciones de juego
a. Por principio multiplicativo:
1 x 11 x 10 x 9 x 8 =7,920 maneras de asignar las posiciones de juego
Por fórmula:
1 x 11P4 = 1 x 11! / (11 – 4)! = 11! / 7! = 11 x 10 x 9 x 8 = 7,920 maneras de
asignar las posiciones de juego con Uriel José en una determinada posición
a. Por principio multiplicativo
1 x 1 x 10 x 9 x 8 = 720 maneras de ocupar las diferentes posiciones de juego
Por fórmula:
1 x 1 x 10P3 = 1 x 1 x 10! / (10 – 3)! = 10! / 7! = 10 x 9 x 8 = 720 maneras de
ocupar las posiciones de juego con Uriel José y Omar Luna en posiciones
previamente definidas
5) 5) Cuántas claves de acceso a una computadora será posible diseñar, si debe
constar de dos letras, seguidas de cinco dígitos, las letras serán tomadas del
abecedario y los números de entre los dígitos del 0 al 9. a. Considere que se
pueden repetir letras y números, b. Considere que no se pueden repetir letras y
números, c. ¿Cuántas de las claves del inciso b empiezan por la letra A y
terminan por el número 6?, d. ¿Cuántas de las claves del inciso b tienen la letra
R seguida de la L y terminan por un número impar?
Solución:
a. Por principio multiplicativo:
26 x 26 x 10 x 10 x 10 x 10 x 10 = 67,600,000 claves de acceso
Por fórmula:
26P2
x 10P5 = 26 x 25 x 10 x 9 x 8 x 7 x 6=19,656,000 claves de acceso
a. a.
Por fórmula:
1 x 25P1 x 9P4 x 1 = 1 x 25 x 9 x 8 x 7 x 6 x 1 = 75,600 claves de acceso que
empiezan por la letra A y terminan por el número 6
b. b. Por fórmula:
1 x 1 x 9P4 x 5 = 1 x 1 x 9 x 8 x 7 x 6 x 5 =15,120 claves de acceso que tienen
la letra R seguida de la L y terminan por un número impar.
PERMUTACIONES CON REPETICION.
En los casos anteriores se han obtenido permutaciones en donde todos los elementos utilizados para
hacer los arreglos son diferentes. A continuación se obtendrá una fórmula que nos permite obtener las
permutaciones de n objetos, cuando entre esos objetos hay algunos que son iguales.
Ejemplo:
Obtenga todas las permutaciones posibles a obtener con las letras de la palabra OSO.
Solución:
Para obtener la fórmula, es necesario primero suponer que todas las letras de la palabra OSO son
diferentes y para diferenciarlas pondremos subíndices a las letras O, por lo que quedaría, O1SO2, y las
permutaciones a obtener serían:
3P3
= 3! = 6
definiendo las permutaciones tenemos que estas serían,
O1SO2, O2SO1, SO1O2, SO2O1, O1O2S, O2O1S
¿Pero realmente podemos hacer diferentes a las letras O?, eso no es posible, luego entonces
¿cuántos arreglos reales se tienen?
Como:
O1SO2 = O2SO1
SO1O2 = SO2O1
O1O2S= O2O1S



Arreglos reales
OSO
SOO
OOS
Entonces se observa que en realidad sólo es posible obtener tres permutaciones con las
letras de la palabra OSO debido a que las letras O son idénticas, ¿pero qué es lo que nos
hizo pensar en seis arreglos en lugar de tres?, el cambio que hicimos entre las letras O
cuando las consideramos diferentes, cuando en realidad son iguales.
Para obtener los arreglos reales es necesario partir de la siguiente expresión:
El número de arreglos reales = No. de permutaciones considerando a todos los objetos como
diferentes
Los cambios entre objetos iguales
El número de arreglos reales = 3! / 2! = 3 x 2! / 2! = 3
Por tanto la fórmula a utilizar sería;
nPx1 , x2 ........,xk 
n!
x1! x2 !.......xk !
Donde:
nPx1,x2,......, xk = Número total de permutaciones que es posible obtener con n objetos,
entre los que hay una cantidad x1 de objetos de cierto tipo, una cantidad x2 de objetos
de un segundo tipo,...... y una cantidad xk de objetos del tipo k.
n = x1 + x2 + ...... + xk
Ejemplos:
1) 1) Obtenga todas las señales posibles que se pueden diseñar con seis
banderines, dos de los cuales son rojos, tres son verdes y uno morado.
Solución:
n = 6 banderines
x1 = 2 banderines rojos
x2 = 3 banderines verdes
x3 = 1 banderín morado
6P2,3,1
= 6! / 2!3!1! = 60 señales diferentes
2) 2) a.¿Cuántas claves de acceso a una computadora será posible diseñar con
los números 1,1,1,2,3,3,3,3?, b.¿cuántas de las claves anteriores empiezan por
un número uno seguido de un dos?, c. ¿cuántas de las claves del inciso a
empiezan por el número dos y terminan por el número tres?
Solución:
a. n = 8 números
x1 = 3 números uno
x2 = 1 número dos
x3 = 4 números cuatro
8P3,1,4
= 8! / 3!1!4! = 280 claves de acceso
b. n = 6 (se excluye un número uno y un dos)
x1 = 2 números uno
x2 = 4 números tres
1 x 1 x 6P2,4 = 1 x 1 x 6! / 2!4! = 15 claves de acceso
El primer número uno nos indica el número de maneras como es posible colocar en la
primera posición de la clave de acceso un número uno, debido a que todos los números
uno son iguales, entonces tenemos una sola manera de seleccionar un número uno para
la primera posición, el siguiente número uno nos indica el número de maneras como se
colocaría en la segunda posición el número dos y la expresión siguiente nos indica todos
los arreglos posibles que es posible diseñar con los números restantes.
c. n = 6 (se excluye un número dos y un tres)
x1 = 3 números uno
x2 = 3 números tres
1 x 6P3,3 x1 = 1 x 6! / 3!3! = 20 claves de acceso
El número uno inicial nos indica que existe una sola manera de seleccionar el número
dos que va en la primera posición del arreglo, mientras que el número uno final nos
indica que hay una sola manera de seleccionar el número tres que va al final del
arreglo aún y cuando haya cuatro números tres, como estos son iguales al diseñar una
permutación es indistinto cuál número tres se ponga, ya que siempre se tendrá el
mismo arreglo y la expresión intermedia nos indica todos los arreglos posibles a
realizar con los números restantes.
3) 3) ¿De cuántas maneras es posible plantar en una línea divisoria de un
terreno dos nogales, cuatro manzanos y tres ciruelos?
Solución:
n = 9 árboles
x1 = 2 nogales
x2 = 4 manzanos
x3 = 3 ciruelos
9P2,4,3
= 9! / 2!4!3! = 1260 maneras de plantar los árboles
4) 4) Si un equipo de fútbol soccer femenil participa en 12 juegos en una
temporada, ¿cuántas maneras hay de que entre esos doce juegos en que
participa, obtenga 7 victorias, 3 empates y 2 juegos perdidos?
Solución:
n = 12 juegos
x1 = 7 victorias
x2 = 3 empates
x3 = 2 juegos perdidos
12P7,3,2 = 12! / 7!3!2! = 7,920 maneras de que en la temporada este
equipo logre siete victorias, tres empates y dos juegos perdidos.
PRUEBAS ORDENADAS.
Se le llama prueba ordenada al hecho de seleccionar r objetos de entre n objetos
contenidos en una urna uno tras otro. Una prueba ordenada puede ser llevada a
efecto de dos maneras:
1) 1) Con sustitución (con reemplazo).- En este caso se procede a seleccionar el
primer objeto de entre los n que hay, se observa de qué tipo es y se procede a
regresarlo a la urna, luego se selecciona el siguiente objeto, lo anterior se
repite hasta que se han extraído los r objetos de la prueba, por tanto el número
de pruebas ordenadas de con sustitución se obtiene:
Número total de pruebas ordenadas con sustitución = n x n x n x .........x n = nr
Hay n maneras de seleccionar el primer objeto, luego al seleccionar el segundo
objeto, dado que se ha regresado a la urna el primer objeto, también se tendrán n
objetos y así sucesivamente.
2) 2) Sin sustitución (sin reemplazo).- En este caso se procede a seleccionar el
primer objeto, el cual no es regresado a la urna, luego se selecciona el segundo
objeto, lo anterior se repite hasta completar los r objetos de la prueba, por lo
que el número total de pruebas ordenadas sin sustitución se obtiene:
Número total de pruebas ordenadas sin sustitución = n(n-1)(n-2).........(n-r +1) = nPr
Hay n maneras de seleccionar el primer objeto, luego al seleccionar el segundo
objeto, hay n –1 maneras, dado que el primer objeto no se regresa a la urna, luego
cuando se extrae el r-ésimo objeto, hay (n –r +1) de que sea seleccionado.
Ejemplos:
1) 1) ¿Cuántas maneras hay de que se asignen tres premios de un sorteo en
donde el primer premio es una departamento, el segundo premio es un auto y
el tercer premio es un centro de cómputo, si los participantes en este sorteo son
120 personas, a.sí la asignación se puede hacer con sustitución, b.sí la
asignación se puede hacer sin sustitución.
Solución:
a. Por principio multiplicativo:
120 x 120 x 120 = 1,728,000 maneras de asignar los premios
Por fórmula: n =120,
r = 120
nr = 1203 = 1,728,000 maneras de asignar los tres premios
Hay que considerar que en este caso, al regresar cada boleto que es extraído de la
urna, las personas que participan en el sorteo tienen la posibilidad de no ganar
uno solo de los premios, de ganar un premio, dos de los premios o los tres premios.
Cosa que generalmente no ocurre.
b. Por principio multiplicativo:
120 x 119 x 118 = 1,685,040 maneras de asignar los premios
Por fórmula:
n = 120,
r=3
= 120! / (120 – 3)! = 120! / 117! = 120 x 119 x 118 = 1,685,040 maneras de
asignar los premios
120P3
Hay que hacer notar que en este caso, como los boletos que son seleccionados ya no
regresan a la urna de donde fueron extraídos, los participantes solo pueden recibir
un premio en caso de que fueran de los afortunados. Esta es la forma en que
generalmente se efectúa un sorteo.
2) 2) ¿Cuántas formas hay de asignar las primeras cinco posiciones de una carrera de
autos de fórmula K, si participan 26 autos en esta carrera?. Considere que la
asignación es totalmente al azar.
Solución:
Esta asignación debe ser sin sustitución, esto es, se trata de una prueba ordenada sin
sustitución, por lo que la solución es la que se muestra.
n = 26,
r=5
26P5 = 26! / (26 – 5)! = 26! / 21! = 26 x 25 x 24 x 23 x 22 = 7,893,600 maneras de asignar
las cinco primeras posiciones de salida
3) 3) ¿Cuántas formas hay de asignar el orden de participación de las primeras 5
concursantes de 11 finalistas de un concurso de Miss Mundo?
Solución:
Esta asignación debe realizarse sin sustitución, por lo que se trata de una prueba
ordenada sin sustitución.
n = 11, r = 5
= 11! / (11 – 5)! = 11! / 6! = 11 x 10 x 9 x 8 x 7 = 55,440 maneras de asignar la
participación
11P5
PARTICIONES ORDENADAS.
Se le llama partición ordenada al hecho de repartir n objetos en células de una
cantidad de x1 objetos, x2 objetos,......y xk objetos.
Para deducir la fórmula de particiones ordenadas partiremos de un ejemplo.
¿Cuántas maneras hay de repartir 10 libros diferentes entre tres alumnos, si al
primero le daremos 2, al segundo 3 y el resto al tercer alumno?
Ejemplos de esta partición serían las siguientes si se numeran los libros del 1 al 10;
2
1
4
2
4
5
3
8
7
9
10

8
1
5
3
6
7
9
10
Solución:
Lo primero que debemos hacer es seleccionar 2 libros de los 10 que se tienen para el
primer alumno, esto es;
10C2
= 10! / (10 – 2)!2! = 10! / 8!2! = 45 maneras de seleccionar los libros
Luego se seleccionan 3 libros de los 8 que quedan para el segundo alumno;
8C3
= 8! / (8 – 3)!3! = 8! / 5!3! = 56 maneras
Y por último se procederá a seleccionar cinco libros de los cinco que quedan para el
tercer alumno, lo que se muestra a continuación;
5C5
= 5! / (5 –5)!5! = 5! / 0!5! = 1 manera
Por tanto el número total de particiones ordenadas en células de 2, 3 y 5 elementos se
determina:
10C2*8C3*5C5
= (10! / (10 – 2)!2!)*(8! / (8 – 3)!3!)*(5! / (5 – 5)!5!) = 10!
/2!3!5!
La expresión anterior nos recuerda a la fórmula utilizada para encontrar las
permutaciones de n objetos, entre los cuales hay algunos objetos que son iguales, por
lo que usaremos la misma fórmula para encontrar las particiones ordenadas.
Por tanto la fórmula para las particiones ordenadas sería:
nPx1 , x2 .........., xk 
n!
x1! x2 !.......xk !
Esta fórmula sólo puede ser utilizada cuando se reparten todos los objetos, no parte de
ellos, en ese caso se usarán combinaciones.
Donde:
nPx1,x2,.....,xk = Total de particiones ordenadas o reparticiones que es posible hacer
cuando los n objetos son repartidos en grupos de x1 objetos, x2 objetos ...... y xk
objetos.
n = x1 + x2 + ......+ xk
Ejemplos:
1) 1) ¿Cuántas maneras hay de repartir 9 juguetes entre tres niños, si se
desea que al primer niño le toquen 4 juguetes, al segundo 2 y al tercero
3 juguetes?
Solución:
Por combinaciones,
9C4*5C2*3C3
= 126*10*1= 1260 maneras de repartir los juguetes
Por fórmula,
n=9
x1 = 4
x2 = 2
x3 =3
9P4,2,3
= 9! / 4!2!3! = 1,260 maneras de repartir los juguetes
2) 2) ¿Cuántas maneras hay de repartir los mismos 9 juguetes entre tres
niños, si se desea darle 3 al primer niño, 2 al segundo niño y 2 al tercer
niño?
Solución:
En este caso únicamente se puede dar solución por combinaciones, ya que
no es posible usar la fórmula debido a que se reparten solo parte de los
juguetes.
9C3*6C2*4C2
= 84*15*6 = 7,560 maneras de repartir los juguetes (solo se
reparten 7 y quedan dos juguetes)
3) 3) a. ¿Cuántas maneras hay de que se repartan 14 libros diferentes
entre 3 alumnos, si se pretende que al primer alumno y al segundo les
toquen 5 libros a cada uno y al tercero le toque el resto?, b. ¿Cuántas
maneras hay de que se repartan los libros si se desea dar 5 libros al
primer alumno, 3 al segundo y 2 libros al tercer alumno?
Solución:
a. a.
Por fórmula:
n = 14
x1 = 5
x2 = 5
x3 = 4
14P5,5,4 = 14! / 5!5!4! = 21,021 maneras de repartir los libros en grupos
de 5, 5 y 4 libros
b. b. Por combinaciones:
14C5*9C3*6C2
= 2,002*84*15 = 2,522,520 maneras de repartir 10 de los 14
libros en grupos de 5, 3 y 2 libros
4) 4) a.¿Cuántas maneras hay de repartir a 12 alumnos en 4 equipos de 3
personas cada uno de ellos para que realicen prácticas de laboratorio
diferentes?, b. ¿Cuantas maneras hay de que se repartan los 12 alumnos
en 4 equipos de 3 personas si se va a realizar una misma práctica?
Solución:
a. a. En este caso al ser prácticas de laboratorio diferentes, es posible
resolver el problema por combinaciones o por la fórmula, dado que se
reparten todos los alumnos
Por fórmula:
n = 12
x1 = 3 práctica 1
x2 = 3 práctica 2
x3 = 3 práctica 3
x4 = 3 práctica 4
12P3,3,3,3
= 12! / 3!3!3!3! = 369,600 maneras de repartir a los estudiantes en
cuatro equipos de 3 personas para realizar prácticas diferentes
b. b. En este caso lo más probable es que se crea que la solución es igual
que la que se ha dado al inciso a, pero esto no puede ser debido a que si
se desea repartir a los alumnos para realizar una misma práctica, el
orden en el que se hace la repartición no tiene importancia, ya que al
equipo de tres personas les da lo mismo quedar en el primer equipo a
quedar en el segundo o tercero, ya que la práctica a realizar es la
misma, entonces la solución es;
12P3,3,3,3
* 1 /4! = 12! / 3!3!3!3! * 1 / 4! = 369,600 / 4! = 15,400 maneras de
repartir a los alumnos en equipos de 3 personas para realizar una misma
práctica
Al multiplicar la solución que se da al inciso a, por 1/4! se está quitando el
orden de los grupos, que en este caso no nos interesa.
DIAGRAMA DE ARBOL.
Un diagrama de árbol es una representación gráfica de un experimento que consta de
r pasos, donde cada uno de los pasos tiene un número finito de maneras de ser llevado
a cabo.
Ejemplos:
1.Un médico general clasifica a sus pacientes de acuerdo a: su sexo (masculino o
femenino), tipo de sangre (A, B, AB u O) y en cuanto a la presión sanguínea (Normal,
Alta o Baja). Mediante un diagrama de árbol diga en cuantas clasificaciones pueden
estar los pacientes de este médico?
Solución:
A
B
M
AB
O
N
A
B
N
A
B
N
A
B
A
F
B
N
A
B
AB
O
B
A
B
Si contamos todas las ramas terminales, nos damos cuenta que el número de
clasificaciones son 2 x 4 x 3 = 24 mismas que podemos enumerar;
MAN, MAA, MAB, MBN, MBA, MBB, etc, etc.
2) 1) Dos equipos denominados A y B se disputan la final de un partido de
baloncesto, aquel equipo que gane dos juegos seguidos o complete un total de
tres juegos ganados será el que gane el torneo. Mediante un diagrama de árbol
diga de cuantas maneras puede ser ganado este torneo,
Solución:
A = gana el equipo A
B = gana el equipo B
A
A
A
A
B
A
B
B
B
A
A
A
A
B
B
B
B
B
En este diagrama se muestran que hay solo diez maneras de que se gane el torneo,
que se obtienen contando las ramas terminales de este diagrama de árbol, las que
es posible enumerar;
AA, ABB, ABAA, ABABA, ABABB, etc, etc.
3) 2) Un hombre tiene tiempo de jugar ruleta cinco veces como máximo, él
empieza a jugar con un dólar, apuesta cada vez un dólar y puede ganar o
perder en cada juego un dólar, él se va a retirar de jugar si pierde todo su
dinero, si gana tres dólares (esto es si completa un total de cuatro dólares) o si
completa los cinco juegos, mediante un diagrama de árbol, diga cuántas
maneras hay de que se efectué el juego de este hombre.
Solución:
$4
G
$3
G
P $2
P
$2
$1
$2
G
G $4
$3
G
G$3
P
$1
$3
G
$2
G
P
$1
P
$0
P
$0
P $0
G $4
P $2
G $2
P
$1
P $0
Si contamos las ramas terminales nos daremos cuenta que hay 11 maneras de que este
hombre lleve a cabo sus apuestas, en este diagrama se han representado los cinco
juegos o apuestas que este hombre tiene tiempo de jugar.
PROBLEMAS PROPUESTOS
1. Si una prueba se compone de 12 preguntas de verdadero-falso, a. ¿de cuantas
maneras diferentes un estudiante puede dar una respuesta para cada pregunta?, b. Sí
de antemano el maestro le dice que la primera pregunta es verdadera, ¿cuántas
maneras tiene de contestar esta prueba?.
a. r=4,096 maneras b. r=2,048 maneras
2. Un fabricante tiene dificultades para obtener registros consistentes de resistencias a
la tensión entre tres máquinas localizadas en la planta de producción, el laboratorio
de investigación y el laboratorio de control de calidad , respectivamente, al mismo
tiempo hay cuatro posibles técnicos –Tomás, Enrique, Rafael y Javier- quienes operan
al menos una de las máquinas a prueba regularmente, a. ¿cuántos pares operadormáquina deben incluirse en un experimento planeado en el que cada operador maneje
todas las máquinas?, b. Si se requiere que cada par operador-máquina pruebe ocho
especimenes, ¿cuántos especimenes de prueba se necesitan para el procedimiento
íntegro? Nota: un espécimen se destruye cuando se mide su resistencia a la tensión.
a. a.
r=12 pares
b. r=96
especimenes
3. Un inspector de construcciones tiene que revisar el cableado de un nuevo de
departamentos, ya sea el lunes, el martes, miércoles o jueves, a las 8 A. M., a las 10 A.
M. o a las 2 P. M. , a. ¿cuántas maneras tiene este inspector de hacer las revisiones del
cableado?, b. Obtenga las maneras en que el inspector puede realizar las revisiones
del cableado, haciendo uso ahora de un diagrama de árbol. a y b. r=12 maneras
4. Si los cinco finalistas de un torneo internacional de golf son España, Estados
Unidos, Portugal, Uruguay y Japón, a. Diga de cuantas maneras es posible que se
otorgue un primero, segundo lugar y tercer lugar, b. Considerando que el primer
lugar lo gana Portugal y el segundo lo gana Estados Unidos, ¿cuantas maneras hay de
que se otorguen los lugares antes mencionados?. a. r=60 maneras, b. r=3 maneras
5. Una computadora de propósito especial contiene tres conmutadores, cada uno de
los cuáles puede instalarse de tres maneras diferentes. ¿De cuantas maneras diferentes
puede instalarse el banco de conmutadores de la computadora?
r= 27 maneras
6. ¿De cuantas maneras ordenadas puede programar un director de televisión seis
comerciales en los seis intermedios para comerciales durante la transmisión televisiva
del primer tiempo de un partido de hockey?, si, a. los comerciales son todos diferentes,
b. dos de los comerciales son iguales, c. Si hay cuatro comerciales diferentes, uno de
los cuales debe aparecer tres veces, mientras que cada uno de los otros debe aparecer
una sola vez.
a. r=720 maneras b. r=360 maneras c. r=120 maneras
7. Determine el número de maneras en las que un fabricante puede seleccionar dos de
las quince ubicaciones para un almacén.
r=105 maneras
8. Una caja de 12 baterías recargables, contiene una defectuosa, ¿de cuantas maneras
un inspector puede seleccionar tres de las baterías y, a. obtener la defectuosa, b. no
obtener la defectuosa.
a. r=55 maneras, b. r=165 maneras
9. El departamento de suministros tiene ocho diferentes motores eléctricos y cinco
diferentes interruptores de arranque. ¿De cuantas maneras pueden seleccionarse dos
motores y dos conmutadores para un experimento de una antena de rastreo?, r=280
maneras
10. A los participantes de una convención se les ofrecen 6 recorridos por día para
visitar lugares de interés durante los tres días de duración del evento. ¿ En cuantas
formas puede una persona acomodarse para hacer alguno de ellos? r=18 formas
11. Un determinado zapato se fabrica en 5 estilos diferentes y en 4 colores distintos
para cada uno. Si la zapatería desea mostrar a su clientela pares de zapatos en todos
los estilos y colores, ¿cuántos pares distintos deberán colocar en el aparador? r=20
12. Un estudiante de primer año debe tomar un de ciencia, uno de humanidades y otro
de matemáticas. Si puede escoger entre cualquiera de 6 cursos de ciencias, 4 de
humanidades y 4 de matemáticas, ¿cuántas maneras tiene de seleccionar las materias?
r=96 maneras
13. Un urbanista de una nueva subdivisión ofrece a los clientes prospectos para la
compra de una casa, la posibilidad de seleccionar cualquiera de 4 diseños diferentes,
tres sistemas de calefacción, cochera con puertas o sin ellas, y patio o pórtico, ¿cuántos
planes distintos están disponibles para el comprador?
r= 48 planes
14. Si una prueba de selección múltiple consta de 5 preguntas, cada una con 4 posibles
respuestas, de las cuales solo una es correcta, a. ¿en cuantas formas diferentes puede
un estudiante escoger una respuesta para cada pregunta?, b. ¿en cuantas formas
puede un estudiante escoger una alternativa para cada pregunta y tener todas las
respuestas incorrectas?
a. r= 1024 b. r=243
15. Un testigo de un accidente de tránsito en el que el causante huyó, le indica al
policía que el número de matrícula del automóvil tenía las letras DUH seguidas por
tres dígitos, el primero de los cuales era un cinco. Sí el testigo no puede recordar los
otros dos dígitos, pero está seguro de que los tres eran diferentes, encuentre el número
máximo de registros de automóvil que debe verificar la policía.
r=72 registros
16. a) ¿De cuantas maneras pueden formarse 6 personas para subir a un autobús?,
b.si tres de ellas insisten en seguirse una a la otra, ¿en cuantas formas es esto
posible?,c.Si dos personas se rehúsan a seguirse una a la otra?
a. r=720 b. r=144 c. r=480 maneras
17. a) ¿cuántos números de tres dígitos pueden formarse con los dígitos 0, 1, 2, 3, 4, 5,
y 6, si cada uno solo puede usarse solo una vez?, b) ¿cuántos de estos números son
nones?, c) ¿cuántos son mayores que 330? a. r=180 b. r=75 c. r=105 números
18. ¿En cuantas formas pueden sentarse en una línea 4 niños y 5 niñas, si deben
colocarse alternadamente?
r=2880 formas
19. Cuatro matrimonios compraron 8 lugares para un concierto. ¿En cuantas formas
diferentes pueden sentarse a. sin restricciones?, b. si se sientan por parejas?, c. si
todos los hombres se sientan juntos a la izquierda de todas las mujeres?
a. r=40,320 b. r=384 c. r=576
20. ¿Cuántos menús que consisten de sopa, emparedado, postre y un refresco se puede
ofrecer si se puede seleccionar entre 4 sopas diferentes, 3 clases de emparedados, 5
postres y 4 refrescos?
r=240 menús
21. ¿En cuantas formas pueden llenarse las 5 posiciones iniciales de un equipo de
baloncesto con 8 jugadores que pueden ocupar cualquiera de ellas? r=6720 formas
59280
22. Se sacan tres boletos de la lotería, de un grupo de 40, para el primero, segundo y
tercer premios. Encuentre el número de puntos muestrales en  para otorgarlos si
cada concursante conserva solo un boleto.
r=59,280 puntos
23. ¿En cuantas formas pueden plantarse, a lo largo de la línea divisoria de una
propiedad, 3 robles, 4 pinos y 2 arces, si no se distingue entre los árboles de la misma
clase?
r=1,260 formas
24. Nueve personas salen de viaje para esquiar en tres vehículos cuyas capacidades
son de 2, 4 y 5 pasajeros, respectivamente. ¿En cuántas formas es posible transportar
a las 9 personas hasta el albergue con todos los vehículos?
r=4,410 formas
25. ¿Cuántas formas hay de seleccionar a 3 candidatos de un total de 8 recién
graduados y con las mismas capacidades para ocupar vacantes en una firma
contable?
R=56,,21,,10 formas
26. En un estudio que realizaron en california, el decano Lester Breslow y el doctor
James Enstrom de la School of Public Health de la University of California en los
Angeles, se concluyó que al seguir 7 sencillas reglas de salud, la vida de un hombre
puede alargarse, en promedio 11 años, y la de las mujeres siete. Estas 7 reglas son: no
fumar, hacer ejercicio regularmente, tomar alcohol solo en forma moderada, dormir
siete u ocho horas, conservar un peso apropiado, desayunar y no comer entre
alimentos. ¿En cuantas formas puede una persona adoptar cinco de estas reglas, a. si
actualmente las viola todas?, b. si nunca toma bebidas alcohólicas y siempre
desayuna?
a. r=21 formas
b.r=10 formas
27. Un dispositivo Biomecánico para emergencias médicas puede operar 0, 1 o 2 veces
por noche. Trace un diagrama de árbol para demostrar que existen 10 maneras
diferentes en las que puede operar para un total de 6 veces en cuatro noches.
FUENTE: http://www.itchihuahua.edu.mx/academic/industrial/sabaticorita/index.html
CONCEPTO CLASICO DE FRECUENCIA RELATIVA.
FRECUENCIA RELATIVA ACUMULADA:
La frecuencia relativa acumulada de un intervalo se obtiene sumando la
frecuencia relativa del intervalo con la frecuencia relativa de los intervalos
anteriores ( la frecuencia relativa acumulada del último intervalo es igual a 1 ).
Si la frecuencia relativa acumulada de cada intervalo se multiplica por 100
se obtiene la “ FRECUENCIA RELATIVA ACUMULADA PORCENTUAL “.
Ejemplo:
Completar la siguiente tabla de distribución:
Intervalo
0-9
11-20
22-31
33-42
44-53
55-64
66-75
77-86
Frecuencia Intervalo Marca Tamaño Frecuencia
Real
de
Acumulada
clase
4
1-10
4.5
11
4
15
10-21
15.5
11
19
23
21-32
26.5
11
42
45
32-43
37.5
11
87
30
43-54
48.5
11
117
18
54-65
59.5
11
135
12
65-76
70.5
11
147
7
76-87
81.5
11
154
Frecuencia Frec. Rel. Frec. Rel.
Relativa Porcentual Acumulada
0.02
0.09
0.14
0.29
0.19
0.11
0.07
0.04
2%
9%
14%
29%
19%
11%
7%
4%
0.02 0.02
0.11 0.12
0.25 0.27
0.54 0.56
0.73 0.75
0.84 0.87
0.91 0.95
0.95 0.100
Frec. Rel.
Acum.
Porcentual
2%
12%
27%
56%
75%
87%
95%
100%
REPRESENTACION GRAFICA.
Los datos que se tienen en una tabla de frecuencia se pueden representar
gráficamente mediante algunas de las siguientes formas:
















Barras
+Histograma ( de frecuencia )
Polígonos ( de frecuencia )
Circulograma
Curvas
Cartogramas
Pictogramas
Tabla de Valores
Localización Gráfica
FUENTE: http://www.micromegas.com.mx/apuntes/documents/estadistica/estadis4.htm
La frecuencia relativa es la proporción del valor de la frecuencia absoluta de cada clase en
relación al total de las observaciones de la variable. Dicho de otra manera, la frecuencia
relativa de la clase
(con
, siendo k el número de categorías de la variable) es el
cociente , entre las frecuencias absolutas de dicha clase y el número total de observaciones
Categorías de la variable Frecuencia Absoluta Frecuencia Relativa
...
...
...
...
...
...
1
Si se multiplica la frecuencia relativa por cien, obtenemos el porcentaje de cada categoría
en relación al total de casos.
Categorías de la
variable
Frecuencia
Absoluta
Frecuencia
Relativa
...
...
...
...
...
...
Porcentajes
1
La tabla que presenta las clases o categorías de las variable y sus respectivas frecuencias se
llama distribución de frecuencias (indica cómo la frecuencia total se distribuye entre las
clases).
FUENTE:
http://www.liccom.edu.uy/bedelia/cursos/metodos/material/estadistica/var_cuali.html
FRECUENCIA RELATIVA:
Es el porcentaje que representa la frecuencia absoluta de determinado intervalo con respecto al total de datos
proporcionados.
FRECUENCIA ACOMULADA:
Es la suma acumulativa de las frecuencias absolutas de cada uno de los intervalos.
FRECUENCIA ACUMULADA RELATIVA:
Es el porcentaje que expresa la frecuencia acumulada con respecto al total de datos proporcionados.
Los números extremos 60 y 62 de la tabla anterior se conocen como los limites de clase.
El numero menor 60 es el limite inferior de la clase y el 62 es el superior.
El punto medio de clase que también se llama marca de clase se obtiene sumando los limites inferior y superior y dividiendo
entre dos.
A veces se necesita obtener lo que llamamos frontera de clase o limites exactos y esto se logra efectuando una suma entre
el límite inferior de la clase inmediata cuyo resultado se divide entre dos.
FUENTE: http://html.rincondelvago.com/datos-estadisticos.html
ESPACIO MUESTRAL Y EVENTOS.
La Estadística, y por tanto el Cálculo de Probabilidades, se ocupan de los denominados
fenómenos o experimentos aleatorios.
El conjunto de todos los resultados posibles diferentes de un determinado experimento
aleatorio se denomina Espacio Muestral asociado a dicho experimento y se suele
representar por Ω. A los elementos de Ω se les denomina sucesos elementales.
Así por ejemplo, el espacio muestral asociado al experimento aleatorio consistente en el
lanzamiento de una moneda es Ω= {Cara, Cruz}; el espacio muestral asociado al
lanzamiento de un dado es Ω={1, 2, 3, 4, 5, 6}, siendo Cara y Cruz los sucesos elementales
asociados al primer experimento aleatorio y 1, 2, 3, 4, 5 y 6 los seis sucesos elementales del
segundo experimento aleatorio.
A pesar de la interpretación que tiene el espacio muestral, no es más que un conjunto
abstracto de puntos (los sucesos elementales), por lo que el lenguaje, los conceptos y
propiedades de la teoría de conjuntos constituyen un contexto natural en el que desarrollar
el Cálculo de Probabilidades.
Sea A el conjunto de las partes de , es decir, el conjunto de todos los subconjuntos de Ω. En
principio, cualquier elemento de A, es decir, cualquier subconjunto del espacio muestral
contendrá una cierta incertidumbre, por lo que trataremos de asignarle un número entre 0 y
1 como medida de su incertidumbre. En Cálculo de Probabilidades dichos subconjuntos
reciben en el nombre de sucesos, siendo la medida de la incertidumbre su probabilidad. La
tripleta (Ω,A,P) recibe el nombre de espacio probabilístico.
Por tanto, asociado a todo experimento aleatorio existen tres conjuntos: El espacio muestral
, la clase de los sucesos, es decir, el conjunto de los elementos con incertidumbre asociados
a nuestro experimento aleatorio A, y una función real, P:A [0, l], la cual asignará a cada
suceso (elemento de A) un número entre cero y uno como medida de su incertidumbre.
Advertimos no obstante, que la elección del espacio muestral asociado a un experimento
aleatorio no tiene por qué ser única, sino que dependerá de que sucesos elementales
queramos considerar como distintos y del problema de la asignación de la probabilidad
sobre esos sucesos elementales.
Ejemplo: : "Urna"
Consideremos el experimento aleatorio consistente en extraer una bola al azar de una urna
compuesta por tres bolas rojas, dos blancas y una verde.
Podemos considerar como espacio muestral
Ω1= {ω1, ω2, ω3}
en donde sea ω1 = bola roja, ω2= bola blanca y ω3 = bola verde, aunque también podíamos
haber considerado como espacio muestral el conjunto
Ω1= {ω1, ω2, ω3, ω4, ω5, ω6}
en donde ωi = bola roja, i = 1,2,3, ωi = bola blanca, i= 4,5 y ω6= bola verde, haciendo las
bolas distinguibles.
Ambos pueden ser considerados espacios muéstrales del experimento descrito, eligiendo el
que más nos convenga, por ejemplo, a la hora de asignar la probabilidad a los sucesos
elementales de uno u otro espacio muestral.
Respecto a la clase de los sucesos A, es natural que ésta tenga una estructura tal que permita
hablar no solo de sucesos sino también de su unión, intersección, diferencia,
complementario, etc., debiendo ser la clase A, en consecuencia, cerrada a dichas
operaciones entre "conjuntos" (entre sucesos). Esta es la situación del conjunto de las partes
cuando es finito o inclusive numerable (caso, por ejemplo, del espacio muestral asociado al
experimento aleatorio consistente en lanzar una moneda hasta que salga cara por primera
vez). En otras ocasiones en las que sea un conjunto continuo (por ejemplo, cuando
estudiamos el tiempo que tarda un isótopo radioactiva en volverse inestable), deberá ser A
un conjunto estrictamente más pequeño que el conjunto de las partes de Ω.
En todo caso podemos pensar en A como en el conjunto que contiene todos los elementos
de interés, es decir, todos los sucesos a los que les corresponde una probabilidad.
Apuntemos además algunas peculiaridades del Cálculo de Probabilidades respecto a la
teoría de conjuntos. Aquí, el conjunto vacio 0 recibe el nombre de suceso imposible,
definido como aquel subconjunto de que no contiene ningún suceso elemental y que
corresponde a la idea de aquel suceso que no puede ocurrir.
De forma análoga, el espacio total recibe el nombre de suceso seguro al recoger dicha
denominación la idea que representa.
Llamaremos sucesos incompatibles a aquellos cuya intersección sea el suceso imposible.
Por último, digamos que la inclusión de sucesos, A B, se interpreta aquí como que siempre
que se cumpla el suceso A se cumple el B; por ejemplo, siempre que salga el 2 (suceso A)
sale par (suceso B).
Ejemplo: "Lanzamiento de un dado"
El espacio probabilístico asociado al experimento aleatorio consistente en el lanzamiento de
un dado, tendrá como espacio muestras Ω={1,2,3,4,5,6} y como espacio de sucesos el
conjunto de las partes por ser Ω finito, el cual contiene 26 elementos,
A = { Φ, {1}, {2}, {3}, {4}, {5}, {6}, {1,2}, {1,3}, {1,4}, {1,5}, {1,6}, {2,3}, {2,4},
{2,5}, {2,6}, {3,4}, {3,5}, {3,6}, {4,5}, {4,6}, {5,6}, {1,2,3}, {1,2,4}, {1,2,5}, {1,2,6},
{1,3,4}, {1,3,5}, {1,3,6}, {1,4,5}, {1,4,6}, {1,5,6}, {2,3,4}, {2,3,5}, {2,3,6}, {2,4,5},
{2,4,6}, {2,5,6}, {3,4,5}, {3,4,6}, {3,5,6}, {4,5,6}, {1,2,3,4}, {1,2,3,5}, {1,2,3,6},
{1,2,4,5}, {1,2,4,6}, {1.,2,5,6}, {1,3,4,5}, {1,3,4,6}, {1,3,5,6}, {1,4,5,6}, {2,3,4,5},
{2,3,4,6}, {2,3,5,6}, {2,4,5,6}, {3,4,5,6}, {1,2,3,4,5}, {1,2,3,4,6}, {1,2,3,5,6}, {1,2,4,5,6},
{1,3,4,5,6}, {2, 3, 4, 5, 6}, Ω }.
Obsérvese que este conjunto contiene los sucesos sobre los que habitualmente se tiene
incertidumbre, como por ejemplo que salga un número par, {2,4,6}, o un número mayor
que cuatro, {5,6}, o simplemente que salga un seis, {6}, y que como se ve es cerrado
respecto de las operaciones entre conjuntos.
El último elemento del espacio probabilístico es la probabilidad, que como antes dijimos
está definida sobre A, asignando a cada suceso un número entre 0 y 1. Este es el objetivo de
la siguiente sección.
FUENTE: http://thales.cica.es/rd/Recursos/rd99/ed99-0278-01/probab1.html
Formalización de la probabilidad
Convenios: Los textos en color malva corresponden a un mayor nivel de formalización
y pueden ser omitidos en una primera lectura.
Experimento Aleatorio: experimento que puede ser repetido bajo "las mismas
condiciones", del que puede establecerse el conjunto de sus posibles resultados, pero
no predecir un resultado concreto.
Espacio muestral: conjunto de posibles resultados.
Punto muestral: elemento del espacio muestral.
Suceso: cualquier subconjunto del espacio muestral.
Si representamos el espacio muestral por  y a los sucesos por A: A Dado que el
conjunto vacío es subconjunto de cualquier conjunto (y que todo conjunto es
subconjunto de sí mismo (, tanto el conjunto vacío como el espacio muestral son
sucesos.
Un problema a tener en cuenta es que dado un experimento, podemos encontrar
más de un espacio muestral.
Ejemplo 1: una mujer portadora de hemofilia tiene 3 hijos ¿Cuál es el espacio
muestral apropiado para estudiar la posible hemofilia de estos?
Opción a: Cada hijo puede padecer hemofilia (s) o no (n), por tanto
1={sss, ssn, sns, nss, snn, nsn, nns, nnn}
Donde, por ejemplo, 'sns' significa el primero y el tercero la padecen y el segundo no.
Hay que asegurarse que no se olvida ninguno.
En este espacio muestral, el suceso "dos hijos padecen hemofilia" se representa como
A1={ssn, sns, nss} y el suceso "los dos primeros no la padecen" como A 2={nns, nnn}
Opción b: Pueden padecer hemofilia los tres hijos (3), dos (2), ...
2={3, 2, 1, 0}
En este espacio muestral, el suceso "dos hijos padecen hemofilia" es A 1={2} y el
suceso "los dos primeros no la padecen" no se puede representar porque en el espacio
muestral no está contemplado el orden.
FUENTE: http://www.hrc.es/bioest/Probabilidad_12.html
Eventos
Cuando se realiza un experimento, que es cualquier proceso que produce un
resultado o una observación, se van a obtener un conjunto de valores. A este conjunto
de valores que puede tomar una variable se le denomina espacio muestral.
Por ejemplo: Si se tiene un dado cualquiera, el espacio muestral (EM) es
EM={1,2,3,4,5,6}.
Si existen más de una variable, el espacio muestral está formado por las
combinaciones de valores de cada una de las variables.
Si tomamos un subconjunto cualquiera del espacio muestral tenemos lo que se
denomina un evento, y si éste consta de un solo elemento entonces es un evento
elemental.
Como se puede uno imaginar, existen eventos que siempre, no importa el número de
experimentos o su situación, ocurren, y en cambio existen otros que nunca ocurren.
Los que siempre ocurren son los eventos seguros, y los que nunca son los eventos
imposibles.
Sin embargo, no todos los resultados son al azar, pues si un experimento es cualquier
proceso entonces los resultados pueden tomar cualquier tipo de valor. Por esta razón,
se define como experimento aleatorio al proceso en el que se pueden predecir con
certeza la ocurrencia de sus eventos, con excepción del seguro o del imposible. Hay
que hacer la observación que esta definición habla en términos generales y no
específicamente sobre algún experimento en particular.
A aquélla variable que está asociada a un experimento de este tipo se le denomina
variable aleatoria.
En cambio, a un experimento no aleatorio se le denomina experimento
determinístico.
Cuando hablamos de varios eventos dentro del mismo experimento se pueden dar
varios casos.
Si dos o más eventos no pueden ocurrir simultáneamente, se llaman eventos
mutuamente excluyentes, es decir, que la intersección de ambos eventos es vacía.
Por otro lado, en ocasiones un evento o más eventos dependen de otro evento previo,
es decir, un evento A ocurre dado que ocurrió un evento B. Si existe este tipo de
relación entre eventos se dice que son eventos dependientes o condicionados (el
evento A depende del evento B, o el resultado del evento A está condicionado al
resultado del evento B). Por otro lado, si no existe tal relación entre eventos se dice
que son eventos independientes. Los criterios de dependencia o de independencia
se definirán más adelante, en términos de probabilidad condicional.
4. Probabilidad de eventos
Para calcular la probabilidad de eventos es necesario que éstos se comporten de una
maner más o menos estable. Precisamente, se echa mano de la regularidad
estadística, que es la propiedad de los fenómenos aleatorios, y que consiste en que al
aumentar el número de repeticiones de un experimento en condiciones prácticamente
constantes, la frecuencia relativa de ocurrencia para cada evento tiende a un valor fijo.
Sin embargo, al momento de definir la probabilidad de un evento podemos tomar en
cuenta los siguientes criterios:
1. La probabilidad subjetiva de un evento se la asigna la persona que hace el
estudio, y depende del conocimiento que esta persona tenga sobre el tema.
Precisamente por su carácter de subjetividad no se considera con validez
científica, aunque en la vida diaria es de las más comúnes que se utilizan al no
apoyarse más que en el sentido común y los conocimientos previos, y no en
resultados estadísticos.
2. La probabilidad frecuencial de un evento es el valor fijo al que tienden las
frecuencias relativas de ocurrencia del evento de acuerdo a la regularidad
estadística. Esta definición sería la más real, pero proporciona probabilidades
aproximadas, es decir, proporciona estimaciones y no valores reales. Además,
los resultados son a posteriori, pues se necesita realizar el experimento para
poder obtenerlo. (Para ver un ejemplo haz click aquí.)
3. La probabilidad clásica de un evento E, que denotaremos por P(E), se
define como el número de eventos elementales que componen al evento E,
entre el número de eventos elementales que componen el espacio muestral:
Es la definición más utilizada porque supone de antemano, y se necesita como
requisito indispensable, que todos los eventos elementales tienen la misma
probabilidad de ocurrir.
FUENTE: http://www.uaq.mx/matematicas/estadisticas/xu4.html
AXIOMAS Y TEOREMAS.
AXIOMAS Y TEOREMAS.
Para el cálculo de probabilidades hay que tomar en cuenta los Axiomas y Teoremas
que a continuación se enumeran.
1)La probabilidad de que ocurra un evento A cualquiera se encuentra entre cero y
uno.
0  p(A)  1
2)La probabilidad de que ocurra el espacio muestral  debe de ser 1.
p() = 1
3)Si A y B son eventos mutuamente excluyentes, entonces la p(AB) = p(A) + p(B)
Generalizando:
Si se tienen n eventos mutuamente excluyentes o exclusivos A1, A2, A3,.....An, entonces;
p(A1A2.........An) = p(A1) + p(A2) + .......+ p(An)
TEOREMAS
TEOREMA 1. Si  es un evento nulo o vacío, entonces la probabilidad de que ocurra


debe ser cero.
A
p()=0
DEMOSTRACIÓN:
Si sumamos a un evento A cualquiera, como  y A son dos eventos mutuamente
excluyentes, entonces p(A)=p(A) +p()=p(A). LQQD
TEOREMA 2. La probabilidad del complemento de A, Ac debe ser, p(Ac)= 1 – p(A)

A
Ac
DEMOSTRACIÓN:
Si el espacio muestral , se divide en dos eventos mutuamente exclusivos, A y Ac luego
=AAc, por tanto p()=p(A) + p(Ac) y como en el axioma dos se afirma que p()=1,
por tanto, p(Ac)= 1 - p(A) .LQQD
TEOREMA 3. Si un evento A  B, entonces la p(A)  p(B).

B
A
B\A
DEMOSTRACIÓN:
Si separamos el evento B en dos eventos mutuamente excluyentes, A y B \ A (B menos
A), por tanto, B=A(B \ A) y p(B)=p(A) +p(B \ A), luego entonces si p(B \ A)0
entonces se cumple que p(A)p(B). LQQD
TEOREMA 4. La p( A \ B )= p(A) – p(AB)
A
B
A\B

AB
DEMOSTRACIÓN: Si A y B son dos eventos cualquiera, entonces el evento A se
puede separar en dos eventos mutuamente excluyentes, (A \ B) y AB, por tanto,
A=(A \ B)(AB), luego p(A)=p(A \ B) + p(AB), entonces, p(A \ B) = p(A) – p(AB).
LQQD
TEOREMA 5. Para dos eventos A y B, p(AB)=p(A) + p(B) – p(AB).
A
B
AB
DEMOSTRACIÓN:

Si AB = (A \ B)  B, donde (A \ B) y B son eventos mutuamente excluyentes, por lo
que p(A  B) = p(A \ B) + p(B) y del teorema anterior tomamos que p(A \ B) = p(A) –
p(AB), por tanto, p(AB) = p(A) + p(B) – p(AB). LQQD
COROLARIO:
AB
C
Para tres eventos A, B y C, p(ABC) = p(A) + p(B) + p(C) AB
– p(AB) – p(AC) –
(BC) + p(ABC).
A
B

C
AC
FUENTE: http://www.itchihuahua.edu.mx/academic/industrial/sabaticorita/index.html
AXIOMAS
El término axioma, originariamente significó dignidad; y por derivación se ha
llamado axioma a lo que es digno de ser estimado, creído y valorado. En su
acepción más clásica el vocablo axioma equivale al de principio que, por su
dignidad misma, es decir, por ocupar cierto lugar en un sistema de proposiciones,
debe estimarse como verdadero.
Para Aristóteles los axiomas son principios evidentes que constituyen el
funcionamiento de toda ciencia. En suma, Aristóteles define el axioma como una
proposición que se impone inmediatamente al espíritu y que es indispensable, a
diferencia de la tesis, que no puede demostrarse y que no es indispensable. En tal
caso los axiomas son proposiciones irreductibles, principios generales a los que se
reducen todas las demás proposiciones y en los cuales éstas se apoyan
necesariamente.
El axioma posee, por así decirlo, un imperativo que obliga al asentimiento una vez
que ha sido enunciado y entendido. Los axiomas pueden ser llamados también
BC
nociones comunes como los enunciados del tipo siguiente: "dos cosas iguales a una
tercera son iguales entre sí", y "el todo es mayor que la parte".
Al no lograrse demostrar esos axiomas se tendió cada vez más a definir los axiomas
mediante las dos notas ya antes apuntadas: indemostrabilidad y evidencia. Las
proposiciones que podían ser demostradas y no eran evidentes se llamaron
teoremas. Y las que no podían ser demostradas ni eran evidentes por sí mismas
recibieron el nombre de postulados.
Esta terminología tradicional ha experimentado grandes modificaciones. En efecto,
está basada en gran parte en una concepción del axioma como proposición
"evidente" y, por lo tanto, está teñida de cierto "intuicionismo" (en sentido
sicológico) que no todos los autores admiten.
Se ha impuesto el cambio en la terminología desde el momento en que se ha
rechazado que los axiomas fuesen nociones comunes y en que se ha visto que
pueden elegirse diversos postulados, cada uno de los cuales da origen a un sistema
deductivo diferente. Esto ha producido un primer efecto: atenuar y hasta borrar por
entero la distinción entre axioma y postulado.
A estos cambios han contribuido sobre todo la matemática y la metalógica
contemporáneas. Estas distinguen entre axiomas y teoremas. Los primeros son
enunciados primitivos (a veces llamados también postulados) aceptados como
verdaderos sin probar su validez; los segundos son enunciados cuya validez se
somete a prueba.
Axiomas y teoremas son, por lo tanto, elementos integrantes de todo sistema
deductivo. Usualmente la definición del concepto de teorema requiere el uso del
concepto de axioma (así como el uso de los conceptos de regla de inferencia y de
prueba) mientras que el concepto de axioma es definido por enumeración.
Podemos manifestar que ha habido dos distintas orientaciones en la concepción de
los axiomas. Una de estas orientaciones destaca la intuitividad y autoevidencia de
los axiomas; la otra destaca su formalidad e inclusive se resiste a adscribir a ningún
axioma el predicado "es verdadero". Esta última orientación, llamada formalista, es
la que más se ha impuesto hoy día.
3.2. VERDAD RELATIVA Y OBJETIVA
El término verdad, desde su acepción más general, expresa una igualdad o
conformidad entre inteligencia (el conocimiento intelectual) y el ser (Adaequatio
intellectus et rei [adecuación del entendimiento y de la cosa]), y, en su sentido más
profundo, una total interpenetración de ambos.
A nosotros, la verdad se nos presenta en primer lugar como verdad de nuestro
conocer; esta verdad del conocimiento (verdad lógica) es propia del juicio y consiste
en que el pensamiento se asimila al ser, en cuanto que expresa como existente el
objeto real. Nuestra verdad humana no sirve de norma al ser, sino al revés: es
medida por él (al menos en el conocimiento especulativo), se indica que el
pensamiento está determinado por el ser, "legitimado" por éste.
Esta conformidad no exige que el pensamiento reproduzca el objeto según todos los
aspectos posibles y, en este sentido, haya de constituir un conocimiento adecuado,
antes bien, basta un conocimiento inadecuado con tal que los aspectos y notas del
objeto pensado en el juicio se encuentren realmente en aquel; en otros términos: la
verdad exige sólo una adecuación o igualación (adaequatio) al objeto formal
(objeto) considerado en cada caso.
La verdad auténtica es "universalmente válida", o sea, vale para todo intelecto
cognoscente; lo que es verdadero para uno no puede ser falso para otro; en este
sentido toda verdad es "absoluta" (objetiva) y no hay verdad alguna "relativa", es
decir, de sentido diverso según la diversidad de sujetos.
3.2.1. VERDAD RELATIVA?
El relativismo se caracteriza por una cierta interpretación del concepto de verdad.
La verdad finita, como conformidad del conocimiento con su objeto implica, sin
duda, esencialmente una relación, y en este aspecto es relativa. Pero sólo cabe
hablar de relativismo cuando se considera como norma de la verdad no el objeto
acerca del cual se emite un juicio sino cualquier otra cosa, por ejemplo, la estructura
del sujeto, la índole especial de las condiciones culturales.
Mientras el objeto es una medida de la verdad válida para todos los sujetos,
enteramente igual sean cuales fueren las condiciones en que se verifique el
conocimiento, este módulo común desaparece tan pronto como se le busca en sitio
distinto del objeto mismo. La verdad deviene entonces relativa en el sentido
particular de que existe para un sujeto y puede simultáneamente no existir para otro.
Con ello el relativismo renuncia al principio de contradicción y a la validez
universal de la verdad.
En cambio, no hay relativismo cuando se admite que nuestro conocimiento puede,
según sean la fuerza y demás condiciones del conocer, comprender el objeto con
mayor o menor perfección, pero nunca de manera exhaustiva. Debemos añadir que
frecuentemente y de hecho en nuestros conocimientos se dan influencias distintas
del puro objeto, pero tales influencias no constituyen el fundamento de ninguna
verdad relativa.
No es argumento en favor del relativismo la variabilidad de nuestro conocimiento
sensorial, según las circunstancias de situación y tiempo, pues el conocimiento
intelectual puede elevarse sobre ellas indicando la posición espacial y temporal del
observador. Habría conocimiento desde el punto de vista, con sentido de relativismo
o perspectivismo, si sobre un objeto unívocamente determinado pudieran, desde un
mismo punto de vista, formularse juicios diversos y, a la vez, verdaderos.
El relativismo, en la acepción aquí enunciada nada tiene que ver con la teoría de la
relatividad. Asimismo ha de distinguirse del relacionismo que disuelve el ser en
meras relaciones. Contra el relativismo universal hablan:
1) El hecho de que indudablemente poseemos conocimientos verdaderos
absolutamente, es decir, válidos para todo entendimiento, por ejemplo, los
juicios sobre hechos simples de conciencia;
2) El que el relativismo universal incurre en contradicción interna cuando
afirma haber descubierto la naturaleza relativa de la verdad.
Pues si la conoce como es en sí, la conoce de manera universalmente válida. Si el
relativismo estuviese en lo cierto, nunca podríamos descubrir que así ocurre.
3.2.2. VERDAD OBJETIVA
El término verdad se usa primariamente en dos sentidos: para referirse a una
proposición y para referirse a una realidad. En el primer caso se dice de una
proposición que es verdadera diferenciándose de la falsa. En el segundo caso se dice
de una realidad que es verdadera diferenciándose de la aparente, ilusoria, irreal,
inexistente, etc.
No siempre es fácil distinguir entre dos sentidos de verdad porque una proposición
verdadera se refiere a una realidad y de una realidad se dice que es verdadera. Pero
puede destacarse un aspecto de la verdad sobre el otro. Es lo que ocurrió en la idea
de verdad que predominó en los comienzos de la filosofía. Los filósofos griegos
comenzaron por buscar la verdad frente a la falsedad, la ilusión, la apariencia, etc.
La verdad era en este caso idéntica a la realidad, y ésta última era considerada como
idéntica a la permanencia, a lo que es.
Los griegos no solamente se ocuparon de la verdad como realidad. Igualmente se
ocuparon de la verdad como propiedad de ciertos enunciados, de los cuales se dice
que son verdaderos. Aunque antes de Aristóteles ya se había concebido la verdad
como propiedad de ciertos enunciados, la más celebrada fórmula al respecto es la
que se encuentra en Aristóteles: "Decir de lo que es que no es, o de lo que no es que
es, es falso; decir de lo que es que es, y de lo que no es que no es, es verdadero".
Aristóteles expresó por primera vez límpidamente lo que luego se llamará
"concepción lógica", y que sería más adecuado llamar "concepción semántica" de la
verdad. Por tanto, no hay verdad sin enunciado. En rigor, no hay enunciado como
tal, pues un enunciado lo es siempre de algo. Para que un enunciado sea verdadero
es menester que haya algo de lo cual se afirme que es verdad: sin la cosa no hay
verdad, pero tampoco la hay sólo con la cosa. Esta relación del enunciado con la
cosa enunciada ha sido llamada luego correspondencia o adecuación; la verdad es
verdad del enunciado en cuanto corresponde con algo que se adecua al enunciado.
Los autores para quienes la proposición es fundamentalmente una serie de signos,
han sostenido que la verdad es la conjunción o separación de signos; por ejemplo, la
conjunción del signo "oro" con el signo "amarillo" o la separación del signo "oro"
del signo "verde", lo que da las proposiciones estimadas verdaderas: "el oro es
amarillo", "el oro no es verde". Es una concepción de la verdad que puede llamarse,
según los casos, nominal o literal; si la verdad reside pura y simplemente en el
modo como se hallan unidos o separados ciertos signos, el que una serie de signos
sea declarada verdadera y otra falsa dependerá únicamente de los mismos signos.
Ahora bien, el signo puede ser considerado como expresión física de un concepto
mental, el cual puede ser considerado como manifestación de un concepto formal, el
mismo que puede ser considerado como apuntado a una cosa, a una situación, a un
hecho, etc. La verdad aparece, entonces, como conveniencia de signos con signos,
de pensamientos con pensamientos, de conceptos con conceptos y de realidades con
realidades, y a su vez como adecuación de una serie dada de signos, pensamientos y
conceptos con un hecho real.
Los escolásticos trataron de conjugar los diversos modos de entender la verdad,
considerando que la verdad es una propiedad trascendental del ente y es convertible
con el ente. La verdad como verdad trascendental, llamada también a veces verdad
metafísica y luego verdad ontológica, es definida como la conformidad o
conveniencia del ente con la mente, pues el verum como uno de los trascendentales
es la relación del ente con el intelecto. Ello presupone que el ente es inteligible, ya
que de lo contrario no podría haber la conformidad mentada.
La verdad puede entenderse como la conformidad de la mente con la cosa, o
adecuación de la mente con la cosa. Este tipo de verdad se ha llamado verdad
lógica, y ésta puede entenderse como conocimiento o como unión del juicio con lo
juzgado, distinguiéndose una verdad gnoseológica y una propiamente lógica.
La verdad trascendental es lo verdadero como realidad; la verdad gnoseológica es la
verdad en cuanto se halla en el intelecto; la verdad lógica es la verdad en cuanto
adecuación del enunciado con la cosa; la verdad que puede llamarse nominal es la
conformidad del signo con otro.
Jorge Guillermo Hegel (1770-1831) intenta, desde el idealismo, llegar hasta la
verdad absoluta, llamada por él la verdad filosófica. La verdad es matemática o
formal cuando se reduce al principio de contradicción; es histórica o concreta
cuando concierne a la existencia singular, es decir, a las determinaciones no
necesarias del contenido de esta existencia. Pero es verdad filosófica o absoluta
cuando se opera una síntesis de lo formal con lo concreto, de lo matemático con lo
histórico. Así, lo falso y negativo existen, no como un momento de la verdad, sino
como una existencia separada que queda anulada y absorbida cuando, con el devenir
de lo verdadero, se alcanza la idea absoluta de la verdad en y para sí misma.
La fenomenología del espíritu es de este modo la preparación para la lógica como
ciencia de lo verdadero en la forma de lo verdadero. La verdad absoluta es la
filosofía misma, el sistema de la filosofía. Es propio del concepto de verdad
sustentado por Hegel el hecho de que la verdad sea, en cuanto ontológica, una
totalidad indivisible sobre la cual se destaca cualquier enunciado parcial de lo
verdadero o de su negación: el hecho, en suma, de que lo "verdadero sea el todo".
La indagación de la verdad, realizada por Edmund Husserl (1859-1938) al hilo del
estudio de las relaciones entre la verdad y la evidencia conduce al concepto de
verdad como una situación objetiva (en cuanto correlato de un acto identificador) y
a una identidad o plena concordancia entre lo mentado y lo dado como tal (en
cuanto correlato de una identificación de coincidencia), pero este concepto se refiere
a lo objetivo, en tanto que en las relaciones ideales entre las esencias significativas
de los actos coincidentes hay que entender la verdad como la idea correspondiente a
la forma de acto, es decir, la idea de la adecuación absoluta como tal. En un tercer
sentido, la verdad puede designarse como el vivir en la evidencia el objeto dado, en
el modo del objeto mentado, y, finalmente, desde el punto de vista de la intención,
la verdad es el resultado de la aprehensión de la relación de evidencia.
Martín Heidegger (1889-1976) niega que la verdad sea primariamente la adecuación
del intelecto con la cosa y sostiene, de acuerdo con el primitivo significado griego,
que la verdad es el descubrimiento. La verdad queda convertida en un elemento de
la existencia, la cual descubre el ser en su estado de degradación y lo descubre en su
estado de autenticidad. La verdad como descubrimiento puede darse sólo en el
fenómeno de estar en el mundo propio de la Existencia y en él radica el fundamento
del fenómeno originario de la verdad.
El descubrimiento de lo velado es así una de las formas de ser del estar en el mundo.
Pero el descubrimiento no es sólo el descubridor sino lo descubierto. La verdad es,
en un sentido originario, la revelación de la Existencia a la cual pertenece
primitivamente tanto la verdad como la falsedad. Por eso la verdad se descubre
únicamente cuando la Existencia se revela a sí misma en cuanto manera de ser
propia. Y toda verdad no es verdadera en tanto que no haya sido descubierta.
Por eso hay verdad sólo en tanto hay Existencia, y ser únicamente en tanto que hay
verdad. Cierta porción de la filosofía contemporánea va aproximándose a una
noción de verdad que, sin caer en un completo irracionalismo, procura solucionar o
evitar los conflictos que el intelectualismo tradicional había suscitado.
La verdad resulta ser así, según William James (1842-1910), no una adecuación de
la vida a su satisfacción, sino de toda noción y de todo acto al bien. La verdad es,
por consiguiente, una forma o especie del bien; el juicio de existencia es al mismo
tiempo un juicio de valor. Por eso, las "consecuencias prácticas" de que habla
William James no son solamente utilitarias, sino también mentales y teóricas. La
única diferencia entre un pragmatista y un antipragmatista en el problema de la
verdad radica sólo, según James, en el hecho de que cuando los pragmatistas hablan
de verdad se refieren exclusivamente a algo acerca de las ideas, es decir, a su
practicabilidad o posibilidad de funcionamiento, en tanto que cuando los
pragmatistas hablan de la verdad quieren decir frecuentemente algo acerca de los
objetos.
Debemos decir que el pensamiento actual busca por diversos caminos una noción de
verdad que, superando el relativismo y el utilitarismo manifiestos en las primeras
reacciones contra la abstracción, valga a su vez como absoluta.
José Ortega y Gasset (1883-1955) examina por qué se da por supuesto que hay un
ser o verdad de las cosas que el hombre parece tener que averiguar, hasta el punto
de que el hombre ha sido definido como el ser que se ocupa de conocer el ser que
las cosas o, en otros términos, como el animal racional que hace funcionar su razón
por el mero hecho de poseerla. El hombre necesita justificar por qué en algunas
ocasiones se dedica a averiguar el ser de las cosas.
Tal averiguación no puede proceder simplemente de una curiosidad; por el
contrario, mientras la filosofía tradicional afirmaba que el hombre es curioso y
rebajaba así la ciencia al nivel de una afición, el pensamiento actual, que niega la
supuesta intelectualidad esencial del hombre, sostiene que éste se ve obligado a
conocer porque el conocimiento es el acto que le salva del naufragio en la
existencia. El saber se convierte de esta forma en saber a qué atenerse.
De ahí que sea erróneo (según dicho pensador) suponer sin más que las cosas
poseen un ser y que el hombre tiene que descubrirlo; lo cierto es que las cosas no
tienen por sí mismas un ser y por eso, para no verse perdido, el hombre tiene que
inventárselo. Ser es, por consiguiente, lo que hay que hacer. Pero entonces la verdad
no será simplemente la tradicional adecuación entre el ser y el pensar. Verdad será
aquello sobre lo cual el hombre sabrá a qué atenerse, el ponerse en claro consigo
mismo respecto a lo que cree de las cosas.
En la época contemporánea los lógicos han presentado un concepto de verdad
llamado concepto semántico; según el cual la expresión "es verdadera" (así como la
expresión "es falso") es un predicado metalógico. Esto significa que una definición
adecuada de la verdad tiene que ser dada en un metalenguaje. Este metalenguaje
debe contener las expresiones del lenguaje acerca del cual se habla.
Según esto, se trata de construir una definición objetivamente justificada,
concluyente y formalmente correcta de la expresión "proposición verdadera", y esto
requiere, además de una demostración de las ambigüedades adscritas al lenguaje
conversacional, un análisis del concepto de verdad o, mejor dicho, de la definición
de "proposición verdadera".
Según Jaime Balmes (1810-1848) podemos hablar de verdades fundamentales, que
según el parecer de varios escolásticos, deben suponerse sin justificación crítica en
toda investigación gnoseológica, admitiéndose tres: el principio de contradicción
(primum principium), la existencia del yo que investiga (primum factum) y la
capacidad de la razón para la verdad (prima conditio). Tales verdades no son
ciertamente susceptibles de una demostración propiamente dicha ni la necesitan;
pero no pueden substrarse a la reflexión crítica ni a la justificación.
Nosotros, ratificando lo indicado al introducir este tema, debemos manifestar que
por analogía con la verdad del juicio, puede también llamarse verdadero un
concepto en cuanto supone un juicio verdadero, y una percepción sensorial en
cuanto que por su conformidad con la realidad conduce a un juicio asimismo
verdadero.
Distinta de la verdad del conocimiento es la verdad del ser (verdad ontológica u
óntica, según otros) que conviene al ser mismo y denota una conformidad de éste
con el conocimiento intelectual.
Cuando la verdad ontológica se considera, junto con la unidad y la bondad, como
uno de los atributos "trascendentales", es decir, propios sin excepción de todo ente,
con ello se significa primariamente aquella conformidad de todo ente con el
pensamiento, en cuya virtud puede devenir objeto de éste; y considerando este
aspecto, tenemos por fundamento firme de la inclusión de la verdad ontológica entre
los atributos trascendentales del ente, el que nuestra razón se encuentre ordenada
ilimitadamente a él.
En el orden ontológico, esta inteligencia del ente se halla motivada por el hecho de
que todo ser no divino está formado según las ideas de la mente de Dios. Verdad
ontológica denota, en último término, que el ente tiene su medida en una idea divina
y que, por lo tanto, desde este punto de vista, está impregnado de inteligencia. Así,
las verdades del conocimiento y del ser de las criaturas tienen su supremo
fundamento ontológico en la verdad divina, en la que el ser y el conocer son una
misma cosa; la frase "Dios es luz" expresa simbólicamente estas ideas.
El fundamento de la verdad está en Dios: aunque en las cosas hay muchas esencias
o formas, y por tanto muchas verdades individuales, la verdad de todas ellas estriba
en Dios. La verdad de nuestro entendimiento depende de su conformidad con las
cosas; pero la verdad de las cosas nace de su conformidad con el entendimiento
divino.
El alma juzga de la verdad de las cosas por la verdad primera, la cual se refleja en
nuestro espíritu a la manera que la luz en un espejo. Esto se realiza por la facultad
que se nos ha dado para conocer los principios tan pronto como se nos ofrecen.
Así se explica cómo la verdad es eterna. No lo es, si se la considera únicamente en
cuanto está en nuestro entendimiento; pero lo es, en cuanto se funda en el
entendimiento divino. Si no hubiese un entendimiento eterno, no habría verdad
eterna.
De esta teoría resulta lo que debe pensarse de la cuestión sobre las ideas que dividió
a las escuelas de Platón y Aristóteles. La esencia divina incluye la representación
inteligible de todas las cosas: así, pues, las ideas de todo están en Dios; o más bien,
hay en Dios una idea innata que equivale a todas las reales y posibles. La idea en
Dios no es otra cosa que la esencia divina. De aquel manantial de luz, dimana por la
creación la fuerza intelectual de todos los entendimientos finitos; pues el convenir
todos estos en las primeras verdades, prueba la existencia de un entendimiento
superior que a todos los ilumina.
FUENTE: http://www.ucsm.edu.pe/rabarcaf/procon03.htm
ESPACIO FINITO EQUIPROBABLE.
ESPACIOS FINITOS EQUIPROBABLES.
Sea  un espacio muestral que contiene n elementos,  = a1, a2, a3,....,an, si a cada uno
de los elementos de  le asignamos una probabilidad igual de ocurrencia, pi = 1/n por
tener n elementos , entonces estamos transformando este espacio muestral en un
espacio finito equiprobable, el que debe cumplir con las siguientes condiciones:
1. Las probabilidades asociadas a cada uno de los elementos del espacio muestral
deben ser mayores o iguales a cero, pi  0.
2. La sumatoria de las probabilidades asociadas a cada elemento del espacio
muestral debe de ser igual a 1.
pi = 1
En caso de que no se cumpla con las condiciones anteriores, entonces no se trata de un
espacio finito equiprobable.
Solo en el caso de espacios finitos equiprobables, si deseamos determinar la
probabilidad de que ocurra un evento A cualquiera, entonces;
p(A) = r*1/n = r/n
p(A) = maneras de ocurrir el evento A/ Número de elementos del espacio muestral
r = maneras de que ocurra el evento A
1/n = probabilidad asociada a cada uno de los elementos del espacio muestral
n = número de elementos del espacio muestral
Ejemplos:
1. Se lanza al aire una moneda normal (una moneda perfectamente equilibrada)
tres veces, determine la probabilidad de que: a. Aparezcan puros sellos, b.
Aparezcan dos águilas, c. Aparezcan por lo menos dos águilas.
Solución:
Para calcular las probabilidades de este problema, hay que definir el espacio
muestral en cuestión; si representamos los tres lanzamientos de la moneda
mediante un diagrama de árbol, encontraremos que el espacio muestral o el
conjunto de todos los resultados posibles es:
 = AAA, ASS, SAS, SSA, AAS, SAA, ASA, SSS
a. A = evento de que aparezcan puros sellos = SSS
p(A) = p(aparezcan puros sellos) = p(SSS) = 1/8 = 0.125
¿Porqué un octavo?, sí el espacio muestral consta de 8 elementos como se ha
observado, entonces la probabilidad asociada a cada uno de los elementos del
espacio muestral es de 1/8, por ser un espacio finito equiprobable ya que cada uno
de los elementos mostrados tiene la misma probabilidad de ocurrencia.
b. B = evento de que aparezcan dos águilas = AAS, SAA, ASA
p(B) = p(aparezcan dos águilas) = p(AAS, SAA, ASA) = 1/8 + 1/8 + 1/8 = 3/8 =
0.375
c. C = evento de que aparezcan por lo menos dos águilas = AAS, SAA, ASA,
AAA
p(C) = p(AAS, SAA, ASA, AAA)=p(aparezcan dos águilas) + p(aparezcan tres
águilas)
p(C) = 4/8 = 1/2 = 0.5
2. En un lote de producción que consta de 20 computadoras personales de cierta
marca, se ha detectado que 4 tienen defectos de tipo operacional. 1. Si se
selecciona al azar una computadora, a. Determine la probabilidad de que la
computadora seleccionada tenga defectos de tipo operacional, b. ¿cuál es la
probabilidad de que no tenga defectos de tipo operacional?. 2. Si se seleccionan
al azar 4 computadoras de este lote, determine la probabilidad de que: a. Solo
tres tengan defectos de tipo operacional, b. Por lo menos dos tengan defectos de
tipo operacional, c. Como máximo una tenga defectos de tipo operacional.
Solución:
Para el punto 2.1, cuando se selecciona de un lote un solo elemento, entonces el
espacio muestral está compuesto de entes unitarios, que son cada una de las
computadoras,
 = 20 computadoras
a. A = evento de que una computadora tenga defectos de tipo operacional
p(A) = 5/20 = 0.25
b. B = evento de que una computadora no tenga defectos de tipo operacional
p(B) = 1 - p(A) = 1 – 0.25 = 0.75
2.2 2.2 Al seleccionar del lote más de una computadora, el espacio muestral ya no
estará compuesto por entes unitarios, estará formado por todos los grupos que
se puedan formar de 4 computadoras seleccionadas de entre 20 que se tienen,
20C4 = 4,845 maneras de seleccionar las cuatro computadoras al azar
Dicho de otra forma serían 4,845 muestras de cuatro computadoras, entre estas
muestras hay algunas que contienen puras computadoras defectuosas o puras sin
defectos y otras muestras que tienen una mezcla de computadoras con defectos y
sin defectos.
a. C = evento de que tres de las computadoras seleccionadas tengan defectos de
tipo operacional
C = 4C3*16C1 = 4*16 = 64 muestras de cuatro computadoras que contienen tres
defectuosas
p(C) = 64/ = 64/4,845 = 0.013209
b. D = evento de que dos o más computadoras tengan defectos de tipo operacional
D = 2 con defectos, 3 con defectos o 4 con defectos
D = 4C2*16C2 + 4C3*16C1 + 4C4*16C0 = 6*120 + 4*16 + 1 = 720 + 64 + 1 = 785
El evento D consta de 785 muestras, en las que por lo menos dos de las cuatro
computadoras seleccionadas tienen defectos.
p(D) = número de elementos del evento D/ número de elementos del espacio
muestral
p(D) = 785/ = 785/4,845 = 0.162022
c. E = evento de que como máximo una de las computadoras seleccionadas tenga
defectos de tipo operacional
E = 0 con defectos o 1 con defectos
E = 4C0*16C4 + 4C1*16C3 = 1*1,820 + 4*560 = 1820 + 2240 = 4,060 muestras
El evento E contiene 4,060 muestras que contienen una o ninguna computadora
defectuosa, por lo que;
p(E) = 4,060/ = 4,060/4,845 = 0.83797
¿Porqué utilizar combinaciones para obtener la probabilidad en lugar de
permutaciones?, en este caso no se habla de algún orden para seleccionar las
computadoras es el motivo por el cual se usaron combinaciones, pero si decimos
que se toman cuatro computadoras del lote y se pregunta, ¿cuál es la probabilidad
de que la primera y segunda computadora seleccionada tengan defectos de tipo
operativo y que la tercera y cuarta no tengan defecto alguno?
En este caso el espacio muestral se determina haciendo uso de permutaciones ya
que se trata de una prueba ordenada; como se observa a continuación:
 = 20P4 = 20!/(20 – 4)! = 20!/16! = 116,280 maneras de seleccionar cuatro
computadoras una tras otra
F = evento de que la primera y segunda computadora tengan defectos y que la
tercera y cuarta no tengan defectos
F = 4P2*16P2 = 4 x 3 x 16 x 15 = 2,880 muestras en donde la primera y segunda
computadora tienen defectos y la tercera y cuarta no tienen defectos
p(F) = 2,880/116,280 = 0.024767
3. Se seleccionan dos números al azar de entre los dígitos del 1 al 9, a. Determine
la probabilidad de que ambos números seleccionados sean pares, b. Determine
la probabilidad de que ambos números sean impares.
Solución:
Para obtener el espacio muestral de este problema podemos hacer uso de un
diagrama de árbol en donde se represente la selección del primer número y luego
la del segundo número, encontrándose que los pares de números a elegir serían 36,
como se muestran a continuación.
(1,2)
(1,3)
 = (1,4)
(1,5)
(1,6)
(1,7)
(1,8)
(1,9)
(2,3)
(2,4)
(2,5)
(2,6)
(2,7)
(2,8)
(2,9)
(3,4)
(3,5)
(3,6)
(3,7)
(3,8)
(3,9)
(4,5)
(4,6)
(4,7)
(4,8)
(4,9)
(5,6) (6,7) (7,8) (8,9)
(5,7) (6,8) (7,9)
(5,8) (6,9)
(5,9)
a. Definiendo un evento A = evento de que los dos números seleccionados sean
pares
Luego, A = (2,4, (2,6), (2,8), (4,6), (4,8), (6,8)
p(A) = 6/36 = 1/6 = 0.1667
b. B = evento de que los dos números seleccionados sean impares
Luego, B = (1,3), (1,5), (1,7), (1,9), (3,5), (3,7), (3,9), (5,7), (5,9), (7,9)
p(B) = 10/36 = 5/18 = 0.2778
Otra forma de resolver este problema es haciendo uso de combinaciones, donde;
 = 9C2 = 36 maneras de seleccionar los dos números
a. A = selección de dos números de entre (2, 4, 6 y 8), 4C2 = 6 maneras de
seleccionar dos números pares
p(A) = 4C2/9C2 = 6/36 = 1/6 = 0.1667
b. B = selección de dos números impares, se seleccionan de entra (1, 3, 5, 7 y 9),
5C2 = 10 maneras de hacer la selección 
p(B) = 10/36 = 5/18 = 0.2778
4. Dada la siguiente tabla referente a la producción de flechas para camión de
carga pesada; se inspeccionan 200 flechas del tipo A y B, 300 del tipo C y 400
del tipo D, a continuación se presentan los resultados obtenidos en la
inspección:
DEFECTO A
B
I
54 23
II
28 12
S-DEF
118 165
TOTAL
200 200
TIPO DE FLECHA
C
D
TOTAL
40
15
132
14
5
59
246
380
909
300
400
1100
Se selecciona una flecha al azar de las inspeccionadas, determine la probabilidad
de que: a. La flecha seleccionada sea del tipo B, b. La flecha seleccionada no tenga
defectos, c. La flecha seleccionada tenga defectos del tipo II, d. La flecha
seleccionada tenga cualquier tipo de defecto.
Solución:
a. p( flecha sea tipo B) = 200/1,100 = 0.18182
b. p(flecha no tenga defectos) = 909/1,100 = 0.82636
c. p(flecha con defectos del tipo II) = 59/1,100 = 0.05363
d. p(flecha tenga cualquier tipo de defecto) = p(def tipo I) + p(def tipo II) =
= 132/1,100 + 59/1,100 = (132 +59)/1,100 = 191/1,100 = 0.17364
5. Se diseñan placas para automóvil que consten de tres letras seguidas de cuatro
dígitos, las letras se toman del abecedario y los números de los dígitos del 0 al 9,
no se repiten letras y números, si se selecciona una placa al azar de las que se
han diseñado, determine la probabilidad de que: a. La placa empiece por la
letra D, b. La placa empiece por la letra D seguida de E, c. La placa termine
por el número 4, d. La placa termine por el número 43, e. Si a un tránsito se le
ha dado a la fuga un infractor, y recuerda que las placas empiezan por la letra
E y terminan por el número 9¿cuántas placas tendrá que revisar el tránsito?, él
alcanzó a ver que no se repetían letras y números, determine también la
probabilidad de que encuentre al infractor.
Solución:
a. El espacio muestral será:
 = 26P3*10P4 = 26 x 25 x 24 x 10 x 9 x 8 x 7 = 78, 624,000 placas
El espacio muestral está formado por todas las placas que es posible diseñar,
A = evento de que una placa empiece por la letra D
A = 1*25P2*10P4 = 1 x 25 x 24 x 10 x 9 x 8 x 7 = 3,024,000 placas
p(A) = 3,024,000/78,624,000 = 0.03846
b. B = evento de que la placa empiece por la letra D seguida de la E
B = 1 x 1 x 24 x 10P4 = 1 x 1 x 24 x 10 x 9 x 8 x 7 = 120,960 placas
p(B) = 120,960/78,624,000 = 0.0015385
c. C = evento de que la placa termine por el número cuatro
C = 26P3*9P3*1 = 26 x 25 x 24 x 9 x 8 x 7 x 1= 7,862,400 placas
p(C) = 7,862,400/78,624,000 = 0.10
d. D = evento de que la placa termine por el número 43
D = 26P3*8P2 x 1 x 1 = 26 x 25 x 24 x 8 x 7 x 1 x 1 = 873,600 placas 
p(D) = 873,600/78,624,000 = 0.01111
6. Se lanza al aire un dado normal dos veces, a. ¿cuál es la probabilidad de que la
suma de los números que aparecen sea de por lo menos siete?, b. ¿cuál es la
probabilidad de que la suma de los números que aparecen sea mayor de siete?,
c. ¿cuál es la probabilidad de que la suma de los números que aparecen sea de
cómo máximo cinco?, d. ¿cuál es la probabilidad de que en el primer
lanzamiento aparezca el número tres?
Solución:
a. Lo primero que hay que hacer es definir el espacio muestral correspondiente,
si hacemos uso de un diagrama de árbol en donde representemos el primer
lanzamiento del dado y luego su segundo lanzamiento y obtendremos lo
siguiente:
(1,1) (2,1) (3,1) (4,1) (5,1) (6,1)
(1,2) (2,2) (3,2) (4,2) (5,2) (6,2)
 = (1,3) (2,3) (3,3) (4,3) (5,3) (6,3)
(1,4) (2,4) (3,4) (4,4) (5,4) (6,4)
(1,5) (2,5) (3,5) (4,5) (5,5) (6,5)
(1,6) (2,6) (3,6) (4,6) (5,6) (6,6)
Como se observa,  = 36 elementos cada uno de los cuales tiene la misma
probabilidad de ocurrir, por lo que;
a. A = evento de que la suma de los números que aparecen sea de por lo menos
siete
A = 21 elementos que son los que suman siete o más
(6,1)
(5,2)
A = (4,3)
(3,4)
(2,5)
(1,6)
(6,2)
(5,3)
(4,4)
(3,5)
(2,6)
(6,3)
(5,4) (6,4)
(4,5) (5,5) (6,5)
(3,6) (4,6) (5,6) (6,6)
p(A) = 21/36 = 0.58333
b. B = evento de que la suma de los números que aparecen sea mayor de siete
B = 15 elementos, que son los que suman más de siete, 8 o más
B=
(6,2)
(5,3)
(4,4)
(3,5)
(2,6)
(6,3)
(5,4) (6,4)
(4,5) (5,5) (6,5)
(3,6) (4,6) (5,6) (6,6)
p(B) = 15/36 = 0.41667
c. C = evento de que la suma de los números que aparecen sea de cómo máximo cinco
C = 10 elementos, los que suman 5 o menos
(1,1) (2,1) (3,1) (4,1)
C = (1,2) (2,2) (3,2)
(1,3) (2,3)
(1,4)
p(C) = 10/36 = 5/18 = 0.27778
d. D = evento de que en el primer lanzamiento aparezca el número tres
D = (3,1) (3,2) (3,3) (3,4) (3,5) (3,6)
p(D) = 6/36 = 1/6 = 0.16667
FUENTE: http://www.itchihuahua.edu.mx/academic/industrial/sabaticorita/index.html
PROBABILIDAD CONDICIONAL E INDEPENDENCIA.
PROBABILIDAD CONDICIONAL
Sea  un espacio muestral en donde se ha definido un evento E, donde p(E)0, si
deseamos determinar la probabilidad de que ocurra un evento A (el que también
es definido en el mismo espacio muestral), dado que E ya ocurrió, entonces
deseamos determinar una probabilidad de tipo condicional, la que se determina
como se muestra;

p( A | E ) 
p( A  E )
p( E )
E
Donde:
AE
A
p(AE) = probabilidad de que ocurra A dado que E ya ocurrió
p(AE) = probabilidad de que ocurra A y E a un mismo tiempo
p(E) = probabilidad de que ocurra E
Luego;
P( A  E ) 
P( E ) 
A  E

 E

Por tanto:
P( A | E ) 
A  E
E
Donde:
AE= número de elementos comunes a los eventos A y E
E= número de elementos del evento E
Luego entonces podemos usar cualquiera de las dos fórmulas para calcular la
probabilidad condicional de A dado que E ya ocurrió.
Ejemplos:
1. Se lanza al aire dos dados normales, si la suma de los números que aparecen es
de por lo menos siete, a. determine la probabilidad de que en el segundo dado
aparezca el número cuatro, b. Determine la probabilidad de que ambos números
sean pares, c. Determine la probabilidad de que en el primer dado aparezca el
numero dos.
Solución:
El espacio muestral es el mismo que cuando se lanza un dado dos veces y se
muestra a continuación;
(1,1) (2,1) (3,1) (4,1) (5,1) (6,1)
(1,2) (2,2) (3,2) (4,2) (5,2) (6,2)
 = (1,3) (2,3) (3,3) (4,3) (5,3) (6,3)
(1,4) (2,4) (3,4) (4,4) (5,4) (6,4)
(1,5) (2,5) (3,5) (4,5) (5,5) (6,5)
(1,6) (2,6) (3,6) (4,6) (5,6) (6,6)
a. a. Para calcular una probabilidad condicional es necesario definir los eventos
A y E, siendo estos,
A = evento de que en el segundo dado aparezca el número cuatro,
E = evento de que la suma de los números que aparecen sea de por lo menos siete,
(que es que es el evento que está condicionando)
E = 21 elementos, los que suman siete o más
(6,1)
(5,2) (6,2)
E = (4,3) (5,3) (6,3)
(3,4) (4,4) (5,4) (6,4)
(2,5) (3,5) (4,5) (5,5) (6,5)
(1,6) (2,6) (3,6) (4,6) (5,6) (6,6)
A = 6 elementos, los que en el segundo dado aparece el cuatro
A = (1,4) (2,4) (3,4) (4,4) (5,4) (6,4)
Luego,
AE = (3,4) (4,4) (5,4) (6,4), AE= 4 elementos
Por tanto;
p(AE) = AE/ E= 4/21 = 0.19048
b. b. E = evento de que la suma de los números que aparecen sea de por lo
menos siete
(6,1)
(5,2) (6,2)
E = (4,3) (5,3) (6,3)
(3,4) (4,4) (5,4) (6,4)
(2,5) (3,5) (4,5) (5,5) (6,5)
(1,6) (2,6) (3,6) (4,6) (5,6) (6,6)
A = evento de que ambos números sean pares
(2,2) (4,2) (6,2)
A = (2,4) (4,4) (6,4)
(2,6) (4,6) (6,6)
(6,2)
AE = (4,4) (6,4)
AE= 6 elementos
(2,6) (4,6) (6,6)
p(AE) = AE/ E
= 6/ 21
= 0.28571
c. c. E = evento de que la suma de los números que aparecen sea de por lo
menos
siete
(6,1)
(5,2) (6,2)
E = (4,3) (5,3) (6,3)
(3,4) (4,4) (5,4) (6,4)
(2,5) (3,5) (4,5) (5,5) (6,5)
(1,6) (2,6) (3,6) (4,6) (5,6) (6,6)
A = evento de que en el primer dado aparezca el número dos
(2,1)
(2,2)
A = (2,3)
(2,4)
(2,5)
(2,6)
AE = (2,5),
AE= 1 elemento
P(AE) = AE/E
= 1/21
= 0.04762
2.Se seleccionan al azar dos números de entre los números del 1 al 9, si la suma de
los números que aparecen es par, a. Determine la probabilidad de que ambos
números sean pares, b. Determine la probabilidad de que ambos números sean
impares.
Solución:
 = 9C2 = 36 maneras de seleccionar dos números de entre nueve que se tienen
(1,2)
(1,3) (2,3)
(1,4) (2,4) (3,4)
 = (1,5) (2,5) (3,5) (4,5)
(1,6) (2,6) (3,6) (4,6) (5,6)
(1,7) (2,7) (3,7) (4,7) (5,7) (6,7)
(1,8) (2,8) (3,8) (4,8) (5,8) (6,8) (7,8)
(1,9) (2,9) (3,9) (4,9) (5,9) (6,9) (7,9) (8,9)
a. a.
E = evento de que la suma de los números que se seleccionan sea par
(1,3)
(2,4)
E = (1,5) (3,5)
(2,6) (4,6)
(1,3) (3,7) (5,7)
(2,8) (4,8) (6,8)
(1,9) (3,9) (5,9) (7,9)
E = 16 elementos 
A = evento de que ambos números sean pares
(2,4)
A = (2,6) (4,6)
(2,8) (4,8) (6,8)
A = 6 elementos
(2,4)
AE = (2,6) (4,6)
(2,8) (4,8) (6,8)
AE = 6 elementos ,
p(AE) = AE/ E= 6/16 = 0.375
b. b. E = evento de que la suma de los números seleccionados es par
(1,3)
(2,4)
E = (1,5) (3,5)
(2,6) (4,6)
(1,3) (3,7) (5,7)
(2,8) (4,8) (6,8)
(1,9) (3,9) (5,9) (7,9)
A = evento de que ambos números sean impares
(1,3)
A = (1,5) (3,5)
(1,7) (3,7) (5,7)
(1,9) (3,9) (5,9) (7,9)
A = 10 elementos,
(1,3)
AE = (1,5) (3,5)
(1,7) (3,7) (5,7)
(1,9) (3,9) (5,9) (7,9)
AE= 10 elementos;
p(AE)= AE/ E= 10/16 = 0.625
Este ejercicio también puede ser resuelto haciendo uso de las combinaciones; el
espacio muestral puede ser definido;
 = 9C2 = 36 maneras de seleccionar los dos números
a. a.
E = evento de que la suma de los números seleccionados sea par
Para que la suma de dos números sea par, forzosamente ambos deben ser pares o
impares, por tanto,
E = selección de dos números pares o de dos impares = 4C2 + 5C2
A = evento de que ambos números sean pares
A = 4C2 
AE = 4C2 = 6 maneras de seleccionar dos números pares 
AE= 6 elementos
p(AE) = AE/E= 6/16 = 0.375
b. b. E = evento de que la suma de los números seleccionados sea par
E = 4C2 + 5C2 = 16 maneras de seleccionar dos números de entre nueve
A = evento de que ambos números sean impares
A = 5C2 = 10 maneras de seleccionar dos números impares
AE= 5C2 = 10 
p(AE= AE/E= 10/16 = 0.625
3. Dada la siguiente tabla referente a la producción de flechas para camión de carga
pesada; se inspeccionan 200 flechas del tipo A y B, 300 del tipo C y 400 del tipo D, a
continuación se presentan los resultados obtenidos en la inspección;
DEFECTO
I
II
S - DEF
TOTAL
A
54
28
118
200
TIPO
B
23
12
165
200
FLECHA
C
D
40
15
14
5
246
380
300
400
TOTAL
132
59
909
1100
a. a. Si se selecciona una flecha al azar y resulta que es una flecha del tipo B,
¿cuál es la probabilidad de que no tenga defectos, b. Si la flecha seleccionada es
del tipo C, ¿cuál es la probabilidad de que tenga defectos del tipo II?, c. Si la
flecha seleccionada tiene defectos del tipo I, ¿cuál es la probabilidad de que sea
del tipo A, d. ¿cuál es la probabilidad de que una flecha no tenga defectos?, e.
¿cuál es la probabilidad de que una flecha tenga defectos?
Solución:
a. Definiremos los eventos;
E = evento de que la flecha seleccionada sea del tipo B = 200 elementos o flechas
A = evento de que la flecha seleccionada no tenga defectos = 909 flechas o
elementos
AE = 165 elementos del tipo B y que no tienen defectos
p(AE) = AE/E= 165/200 = 0.825
b. b. E = evento de que la flecha sea del tipo C =300 flechas
A = evento de que la flecha tenga defectos del tipo II =59 flechas
AE = 14 flechas del tipo C y que tienen defectos del II 
p(AE) =AE/E= 14/300 = 0.04667
c. c.
E = evento de que la flecha tenga defectos del tipo I = 132 flechas
A = evento de que la flecha sea del tipo A = 200 flechas
AE = 54 flechas con defectos del tipo I y del tipo A
p(AE) = AE/E= 54 / 132 = 0.40901
d. En este caso se trata de una probabilidad simple, ya que no hay un evento que
esté condicionando al evento del cual se desea determinar su probabilidad
D = evento de que una flecha no tenga defectos = 909 flechas
 = 1100 flechas
p(D) = 909/1100 = 0.82636
d. d. F = evento de que una flecha tenga defectos = 132 + 59 = 191 flechas
 = 1100 flechas
p(F) = 191 / 1100 = 0.17364
4. Una pareja de recién casa dos ha decidido formar una familia de solo tres hijos, a.
determine la probabilidad de que tenga puros hijos varones, b. ¿cuál es la
probabilidad de que tenga como máximo un hijo varón, c. ¿cuál es la probabilidad de
que su segundo hijo sea varón, d. Si esta familia tiene por lo menos una hija, ¿cuál es
la probabilidad de que el segundo hijo sea varón?, e. Si esta familia tiene como
máximo un hijo varón, ¿cuál es la probabilidad de que tenga puras hijas?
Solución:
Lo primero que hay que obtener para resolver este problema es el espacio muestral,
para lo cual nos podemos ayudar con un diagrama de árbol en donde representemos
uno tras otro el nacimiento de cada uno de sus hijos, en donde solo consideraremos
partos de un solo bebé, no múltiples y se considera que existe la misma probabilidad
de que nazca un varón o una niña.
Y el espacio muestral obtenido es:
H = niño
M = niña
 = HHH, HHM, HMH, MHH, HMM, MHM, MMH, MMM
a. a.
A = evento de que la familia tenga puros hijos varones
A = HHH
p(A) = 1/8 = 0.125
b. b. B = evento de que la familia tenga como máximo un hijo varón
B = ningún hijo varón o un hijo varón= MMM, HMM, MHM, MMH
p(B) = 4/8 = 1/2 =0.5
c. c. C = evento de que el segundo hijo de la familia sea varón
C = HHH, HHM, MHH, MHM 
P(C) = 4/8 =1/2 = 0.5
d. d. Como en este caso se trata de calcular una probabilidad de tipo
condicional, se requiere definir dos eventos, el evento E que es el que
condiciona y el evento A;
E = evento de que la familia tenga por lo menos una hija
E = tenga una o más hijas
E = HHM, HMH, MHH, HMM, MHM, MMH, MMM= 7 elementos
A = evento de que el segundo hijo sea varón
A =  HHH, HHM, MHH, MHM 
AE =  HHM, MHH, MHM = 3 elementos
Luego;
p(AE) = AE/E= 3/7 = 0.42857
e. e. E = evento de que la familia tenga como máximo un hijo varón
A = evento de que la familia tenga puras hijas
E = MMM, MHM, MMH, HMM= 4 elementos
A = MMM
AE = MMM = 1 elemento
P(AE) = AE/E= 1/4 = 0.25
5. Según las estadísticas, la probabilidad de que un auto que llega a cierta
gasolinera cargue gasolina es de 0.79, mientras que la probabilidad de que ponga
aceite al motor es de 0.11 y la probabilidad de que ponga gasolina y aceite al motor
es de 0.06, a. Sí un auto carga gasolina, ¿cuál es la probabilidad de que ponga
aceite?, b. Sí un auto pone aceite al motor, ¿cuál es la probabilidad de que ponga
gasolina?
Solución:
a. a. E = evento de que un auto cargue gasolina
b. b.
p(E) = 0.79
A = evento de que un auto ponga aceite al motor
P(A) = 0.11
AE = evento de que un auto ponga gasolina y aceite
p(AE) = 0.07
p(AE) = p(AE)/p(E) = 0.07/ 0.79 = 0.0881
c. c.
E = evento de que un auto ponga aceite al motor
P(E) = 0.11
A = evento de que un auto ponga gasolina
P(A) = 0.79
AE = evento de que un auto ponga aceite al motor y ponga gasolina
P(AE) = 0.07
P(AE) = p(AE)/ p(E) = 0.07/0.11 = 0.63636
6.- La probabilidad de que un auto de carreras cargue gasolina en cierto circuito
en la primera media hora de recorrido es de 0.58, la probabilidad de que cambie
de neumáticos en esa primera media hora de recorrido es de 0.16, la probabilidad
de que cargue gasolina y cambie de neumáticos en la primera media hora de
recorrido es de 0.05, a. ¿Cuál es la probabilidad de que cargue gasolina o cambie
de neumáticos en la primera media hora de recorrido?, b. ¿cuál es la probabilidad
de que no cargue combustible y de neumáticos en la primera media hora de
recorrido, c. Si el auto cambia de neumáticos en la primera media hora de
recorrido, ¿cuál es la probabilidad de que cargue combustible también?, d. Si el
auto carga combustible en la primera media hora de recorrido, ¿cuál es la
probabilidad de que cambie de neumáticos también?
Solución:
a. a. A = evento de que cargue gasolina en la primera media hora de
recorrido
P(A) = 0.58
B = evento de que cambie de neumáticos en la primera hora de recorrido
P(B) = 0.16
AB = evento de que cargue combustible y cambie de neumáticos en la
primera hora de recorrido
P(AB) = 0.05
P(cargue gasolina o cambie de neumáticos) = p(AB) = p(A) + p(B) –
p(AB) = 0.58 + 0.16 – 0.05 = 0.69
b. b. p( no cargue combustible y no cambie de neumáticos) = 1 – p(AB)
= 1 – 0.69 = 0.31
c. c. E = evento de que el auto cambie de neumáticos en la primera
media hora de recorrido
A = evento de que el auto cargue combustible en la primera media hora de
recorrido
p(AE) = p(AE)/ p(E) = 0.05/0.16 = 0.3125
d. d. E = evento de que el auto cargue combustible en la primera media
hora de recorrido
A = es el evento de que el auto cambie de neumáticos en la primera media
hora de recorrido
p(AE) = p(AE)/p(E) = 0.05/0.58 = 0.08621
FUENTE: http://www.itchihuahua.edu.mx/academic/industrial/sabaticorita/index.html
Probabilidades bajo condiciones de independencia estadística.
Cuando se presentan dos eventos, el resultado del primero puede tener un efecto en el resultado
del segundo, o puede no tenerlo. Esto es, los eventos pueden ser dependientes o independientes.
Existen tres tipos de probabilidades que se presentan bajo independencia estadística:



Marginal.
Conjunta.
Condicional.
Probabilidades marginales bajo independencia estadística.
Una probabilidad marginal o incondicional es la probabilidad simple de presentación de un evento.
Probabilidades conjuntas bajo condiciones de independencia estadística.
La probabilidad de dos o más eventos independientes que se presentan juntos o en sucesión es el
producto de sus probabilidades marginales:
P (AB) = P(A) X P(B)
Un árbol de probabilidad muestra los resultados posibles y su respectiva probabilidad.
Probabilidades condicionales bajo independencia estadística.
Simbólicamente, la probabilidad condicional se escribe:
P(B/A)
Y se lee "la probabilidad de que se presente el evento B, dado que el evento A se ha presentado".
La probabilidad condicional es la probabilidad de que un segundo evento (B) se presente, si un
primer evento (A) ya ha sucedido.
Para eventos estadísticamente independientes, la probabilidad condicional de que suceda el
evento B dado que el evento A se ha presentado, es simplemente la probabilidad del evento B:
P(B/A) = P(B)
SUGERENCIA:
Una buena verificación de los cálculos para obtener la probabilidad conjunta consiste en recordar
que para cada intento, el total de probabilidades resultantes debe sumar 1.
Probabilidades bajo condiciones de dependencia estadística.
La dependencia estadística existe cuando la probabilidad de que se presente algún suceso
depende o se ve afectada por la presentación de algún otro evento. Los tipos de probabilidad bajo
condiciones de dependencia estadística son:



Condicional.
Conjunta.
Marginal.
Probabilidad condicional bajo dependencia estadística.
P(B/A) = P(BA) / P(A)
Probabilidades conjuntas bajo condiciones de dependencia estadística.
P(BA) = P(B/A) x P(A)
O
P(BA) = P(A/B) x P(B)
Probabilidades marginales bajo condiciones de dependencia estadística.
Las probabilidades marginales bajo dependencia estadística se calculan mediante la suma de las
probabilidades de todos los eventos conjuntos en los que se presenta el evento sencillo.
FUENTE: http://server2.southlink.com.ar/vap/PROBABILIDAD.htm
Probabilidad Condicional y Teorema de Bayes
Util en diagnóstico, i.e., probabilidad de H dado E.
Para cada
, con
, la probabilidad condicional de h dado e o
(probabilidad a posteriori) es:
En la práctica
Defn: los eventos
no se obtiene fácilmente, sin embargo
son (mutuamente) independientes si:
sí:
Defn: los eventos
son condicionalmente independientes dado un evento
, si:
Si h y e son independientes:
.
Eduardo Morales
1999-06-18
FUENTE: http://dns1.mor.itesm.mx/~emorales/Cursos/RdeC/node147.html
FORMULAS DE PROBABILIDAD CONDICIONAL:
FUENTE: http://www.elosiodelosantos.com/sergiman/div/forcond.html
Probabilidad condicionada.
En el cálculo de las probabilidades de algunos sucesos, el valor de dicha probabilidad vará
en función del conocimiento de determinadas informaciones relativas a estos sucesos.
Veamos un ejemplo.
Si disponemos de una urna que contiene cuatro bolas numeradas del 1 al 4, extraemos una
bola y seguidamente la volvemos a introducir para realizar una segunda extracción, la
probabilidad de extraer, por ejemplo, la bola número 3 en la segunda extracción es la
misma que en la primera.
Si realizamos el mismo proceso sin reemplazar la bola extraída la probabilidad de extraer,
por ejemplo, la bola número 3 en la segunda extracción dependerá de la bola extraída en
primer lugar.
Sean A y B dos sucesos tal que P( A ) 0, se llama probabilidad de B condicionada a A,
P(B/A), a la probabilidad de B tomando como espacio muestral A, es decir, la probabilidad
de que ocurra B dado que ha sucedido A.
De esta igualdad se deduce:
P( B
A ) = P( B/A ) · P( A )
La fórmula anterior adopta la forma para tres sucesos, A, B y C:
P( A B C ) = P( A ) · P( B/A ) · P( C/A B )
Esta fórmula admite una generalización para un número cualquiera de sucesos.
Ejemplo:
Consideremos el experimento de "lanzar un dado al aire". Calculemos, por ejemplo, la
probabilidad de obtener un 3 sabiendo que ha salido un número impar:
Definimos los sucesos A="sacar 3" y B= {1,3,5}; entonces, P(A/B)=1/3 puesto que si
sabemos que ha salido un número impar, los casos posibles ahora son 3 y los casos
favorables al suceso A sólo 1.
Probabilidad condicionada.
El conocimiento de que ha ocurrido el suceso A modifica, en algunas ocasiones, la
probabilidad del suceso B, pero en otras no. Los sucesos en los que, conociendo que uno ha
ocurrido, no se modifica la probabilidad del otro, decimos que son independientes y, si se
modifica, decimos que son dependientes entre sí.
Decimos que dos sucesos A y B son independientes entre sí si la ocurrencia de uno de ellos
no modifica la probabilidad del otro, es decir, si
P( B/A ) = P( B )
ó
P( A/B ) = P( A )
Decimos que dos sucesos A y B son dependientes entre sí si la ocurrencia de uno de ellos
modifica la probabilidad del otro, es decir, si
P( B/A )
P( B )
ó
P( A/B )
P( A )
Como consecuencia inmediata de la definición se tiene:

Dos sucesos A y B son independientes si se cumple:
P( A

B ) = P( A ) · P( B )
Tres sucesos A, B y C son independientes si se cumplen a la vez:
P( A
P( A
B ) = P( A ) · P( B )
P( A
C ) = P( A ) · P( C )
P( B
C ) = P( B ) · P( C )
B
C ) = P( A ) · P( B ) · P( C )
FUENTE: http://thales.cica.es/rd/Recursos/rd98/Matematicas/28/matematicas-28.html
TEOREMA DE BAYES.
TEOREMA DE BAYES
Sea  un espacio muestral que está formado por los eventos A1, A2, A3,.....,An
mutuamente excluyentes, luego,
 = A1A2A3.....An
A1

A3
B
A2
A4
An
Luego si ocurre un evento B definido en , observamos que;
B
=
B
(A1B)(A2B)(A3B).....(AnB)
=
(A1A2A3.....An)B
=
Donde cada uno de los eventos AiB son eventos mutuamente excluyentes, por lo que
p(B) = p(A1B) + p(A2B) + p(A3B) +......+ p(AnB)
y como la p(AiB) = p(Ai)p(BAi) , o sea que la probabilidad de que ocurra el evento
Ai y el evento B es igual al teorema de la multiplicación para probabilidad
condicional, luego;
p(B) = p(A1)p(BA1) + p(A2)p(BA2) + p(A3)p(BA3) + p(An)p(BAn)
Si deseamos calcular la probabilidad de que ocurra un evento A i dado que B ya
ocurrió, entonces;
P( Ai | B ) 
p( Ai  B )
p( Ai ) p( BAi )

p( B )
p( A1 ) p( BA1 )  p( A2 ) p( BA2 )  .... p( An ) p( BAn )
La expresión anterior es el teorema de Bayes, que como se observa es una simple
probabilidad condicional.
Ejemplos:
1. 1. Tres máquinas denominadas A, B y C, producen un 43%, 26% y 31% de la
producción total de una empresa respectivamente, se ha detectado que un 8%,
2% y 1.6% del producto manufacturado por estas máquinas es defectuoso, a.
Se selecciona un producto al azar y se encuentra que es defectuoso, ¿cuál es la
probabilidad de que el producto haya sido fabricado en la máquina B?, b. Si el
producto seleccionado resulta que no es defectuoso, ¿cuál es la probabilidad de
que haya sido fabricado en la máquina C?
Solución:
Para resolver este problema nos ayudaremos con un diagrama de árbol;
8%
D
43% A
92% ND
26% B
2% D
98% ND
31% C
1.6% D
98.4% ND
a. a.
Definiremos los eventos;
D = evento de que el producto seleccionado sea defectuoso (evento que
condiciona)
A = evento de que el producto sea fabricado en la máquina A
B = evento de que el producto sea fabricado por la máquina B
C = evento de que el producto sea fabricado por la máquina C
P(BD) = p(BD)/p(D) = p(B)p(DB)/p(A)p(DA) + p(B)p(DB) +
p(C)p(DC)
P(BD) = (0.26*0.02)/(0.43*0.08 + 0.26*0.02 + 0.31*0.016)
= 0.0052/0.04456
=0.116697
b. b. ND = evento de que el producto seleccionado no sea defectuoso (evento que
condiciona)
A = evento de que el producto sea fabricado en la máquina A
B = evento de que el producto sea fabricado por la máquina B
C = evento de que el producto sea fabricado por la máquina C
P(CND)=p(CND)/p(ND)=p(C)p(NDC)/p(A)p(NDA)
p(B)p(NDB) + p(C)p(NDC)
+
= 0.31*0.984/(0.43*0.92 + 0.26*0.98 + 0.31*0.984)
= 0.30504/0.95544
=0.31927
2. 2. Una empresa recibe visitantes en sus instalaciones y los hospeda en
cualquiera de tres hoteles de la ciudad; Palacio del Sol, Sicomoros o Fiesta Inn,
en una proporción de 18.5%, 32% y 49.5% respectivamente, de los cuales se ha
tenido información de que se les ha dado un mal servicio en un 2.8%, 1% y 4%
respectivamente, a. Si se selecciona a un visitante al azar ¿cuál es la
probabilidad de que no se le haya dado un mal servicio?,b. Si se selecciona a un
visitante al azar y se encuentra que el no se quejó del servicio prestado, ¿cuál es
la probabilidad de que se haya hospedado en el Palacio del Sol?, c. Si el
visitante seleccionado se quejó del servicio prestado, ¿cuál es la probabilidad
de que se haya hospedado en e hotel Fiesta Inn?
3. 3. Solución: Haciendo uso de un diagrama de árbol;
2.8% Q
18.5%
PS
97.2% NQ
1.0% Q
32%
S
99.0% NQ
4.0% Q
49.5%
FI
96.0%
a. a.
NQ
NQ = evento de que un visitante no se queje del servicio
PS = evento de que un visitante haya sido hospedado en el hotel Palacio del Sol
S = evento de que un visitante haya sido hospedado en el hotel Sicómoro
FI = evento de que un visitante haya sido hospedado en el hotel Fiesta Inn
P(NQ) = p(PS)p(NQPS) + p(S)p(NQS) + p(FI)p(NQFI) =
= 0.185*0.972 + 0.32*0.99 + 0.495*0.96
= 0.17982 + 0.3168 + 0.4752
= 0.97182
b. b. NQ = evento de que un visitante no se queje del servicio
PS = evento de que un visitante haya sido hospedado en el hotel Palacio del Sol
S = evento de que un visitante haya sido hospedado en el hotel Sicomoro
FI = evento de que un visitante haya sido hospedado en el hotel Fiesta Inn
P(PSNQ)=p(PSNQ)/p(NQ)
=(0.185*0.972)/(0.185*0.972+0.32*0.99+0.495*0.96)=
= 0.17982/(0.17982 + 0.3168 + 0.4752)
= 0.17982/0.97182
= 0.1850342
c. c.
Q = evento de que un visitante se queje del servicio
FI = evento de que un visitante haya sido hospedado en el hotel Fiesta Inn
P(FIQ) = p(FIQ)/p(Q)
= 0.495*0.04/(0.185*0.028 + 0.32*0.01 + 0.495*0.04)
=0.0198/( 0.00518 + 0.0032 + 0.0198)
= 0.0198/0.02818
= 0.7026
FUENTE: http://www.itchihuahua.edu.mx/academic/industrial/sabaticorita/index.html
Teorema de Bayes.
En el año 1763, dos años después de la muerte de Thomas Bayes (1702-1761), se publicó
una memoria en la que aparece, por vez primera, la determinación de la probabilidad de las
causas a partir de los efectos que han podido ser observados. El cálculo de dichas
probabilidades recibe el nombre de teorema de Bayes.
Teorema de Bayes
Sea A1, A2, ...,An un sistema completo de sucesos, tales que la probabilidad de cada uno de
ellos es distinta de cero, y sea B un suceso cualquier del que se conocen las probabilidades
condicionales P(B/Ai). entonces la probabilidad P(Ai/B) viene dada por la expresión:
En los problemas relacionados con la probabilidad, y en particular con la probabilidad
condicionada, así como con la probabilidad total y el teorema de Bayes, es aconsejable que,
con la información del problema, construyas una tabla de contingencia o un diagrama de
árbol.
Ejercicio 8-1:
Tres máquinas, A, B y C, producen el 45%, 30% y 25%, respectivamente, del total de las
piezas producidas en una fábrica. Los porcentajes de producción defectuosa de estas
máquinas son del 3%, 4% y 5%.
a. Seleccionamos una pieza al azar; calcula la probabilidad de que sea defectuosa.
b. Tomamos, al azar, una pieza y resulta ser defectuosa; calcula la probabilidad de
haber sido producida por la máquina B.
c. ¿Qué máquina tiene la mayor probabilidad de haber producido la citada pieza
defectuosa?
Solución:
Sea D= "la pieza es defectuosa" y N= "la pieza no es defectuosa". La información del
problema puede expresarse en el diagrama de árbol adjunto.
a. Para calcular la probabilidad de que la pieza elegida sea
defectuosa, P(D), por la propiedad de la probabilidad total,
P(D) = P(A) · P(D/A) + P(B) · P(D/B) + P(C) · P(D/C) =
= 0.45 · 0.03 + 0.30 · 0.04 + 0.25 · 0.05 = 0.038
b. Debemos calcular P(B/D). Por el teorema de Bayes,
c. Calculamos P(A/D) y P(C/D), comparándolas con el valor de P(B/D) ya calculado.
Aplicando el teorema de Bayes, obtenemos:
La máquina con mayor probabilidad de haber producido la pieza defectuosa es A
Ejercicio 8-2:
Tenemos tres urnas: A con 3 bolas rojas y 5 negras, B con 2 bolas rojas y 1 negra y C con 2
bolas rojas y 3 negras. Escogemos una urna al azar y extraemos una bola. Si la bola ha sido
roja, ¿cuál es la probabilidad de haber sido extraída de la urna A?
Solución:
Llamamos R= "sacar bola roja" y N= "sacar bola negra". En el diagrama
de árbol adjunto pueden verse las distintas probabilidades de ocurrencia
de los sucesos R o N para cada una de las tres urnas.
La probabilidad pedida es P(A/R). Utilizando el teorema de Bayes,
tenemos:
FUENTE: http://thales.cica.es/rd/Recursos/rd98/Matematicas/28/8.html
Teorema de Bayes
Si los sucesos Ai son una partición y B un suceso tal que p(B)  0
Demostración
Aplicaciones
Diagnóstico médico (en general clasificaciones no biunívocas): El diagnóstico consiste
en establecer la enfermedad de un paciente, a partir de una serie de síntomas. Pero
los síntomas y las enfermedades no están ligados de un modo biunívoco.
Llamemos Ei al conjunto de enfermedades
E1: tuberculosis pulmonar; E2 :cáncer de pulmón; E3: bronquitis obstructiva; etc.
y Si a los síntomas y síndromes asociados con las mismas.
S1: tos; S2: estado febril; S3: hemotisis; etc.
La información accesible en los libros de patología, o en un archivo de historias clínicas
es del tipo.
Para E1: algunos (digamos el 20%) tienen hemotisis; muchos (80%) tienen tos; etc.
y lo mismo para las demás enfermedades.
En términos de probabilidad condicionada, esta información es
p(S3|E1) = 0,2; p(S1|E1) = 0,8 etc.
para diagnosticar la tuberculosis se ha de evaluar, para los síntomas que presenta el
paciente p(E1|Si) para lo que se puede usar el teorema de Bayes si las enfermedades
forman una partición (son mutuamente excluyentes y se consideran todas las
enfermedades compatibles con el síntoma) y se conocen sus prevalencias.
Nótese que un mismo conjunto de síntomas podría dar lugar a un diagnóstico diferente
en poblaciones en las que las prevalencias fueran diferentes.
Pruebas diagnósticas: Supóngase una prueba diagnóstica, por ejemplo nivel de glucosa
en sangre, en ayunas, para diagnosticar la diabetes. Se considera que la prueba es
positiva si se encuentra un nivel por encima de un cierto valor, digamos 120 mg/l.
Para evaluar la prueba, (habrá que hacerlo para distintos valores de corte) se somete a
la misma a una serie de individuos diabéticos diagnosticados por otro procedimiento
(el patrón de oro o "gold standar") y a una serie de individuos no diabéticos. Los
resultados se pueden representar en una tabla de doble entrada
Patrón de oro
Prueba
NE
E
-
a
b
r
+
c
d
s
t
u
Si la prueba fuera perfecta b=c=0, desgraciadamente nunca ocurre. Se denomina
coeficiente falso-positivo (CFP) al cociente c/t, y es una estimación de la probabilidad
condicionada p(+|NE), se denomina coeficiente falso-negativo (CFN) al cociente b/u, y
es una estimación de la probabilidad condicionada p(-|E). Estos dos coeficientes
cuantifican los dos errores que la prueba puede cometer y caracterizan a la misma.
Simétricamente, los coeficientes que cuantifican los aciertos son la sensibilidad,
p(+|E), y la especificidad p(-|NE).
Cuando la prueba se usa con fines diagnósticos (o de "screening") interesa calcular
p(E|+) y/o p(NE|-).
Como E y NE son una partición, usando el Teorema de Bayes
y
Nótese que ambas dependen de la prevalencia de la enfermedad: una prueba
diagnóstica que funciona muy bien en la clínica Mayo, puede ser inútil en el Hospital
Ramón y Cajal.
Ejemplo 9:
una prueba diagnóstica para la diabetes tiene un CFP de 4% y un CFN del 5%. Si la
prevalencia de la diabetes en la población donde se usa es del 7% ¿cuál es la
probabilidad de que sea diabético un individuo en el que la prueba dé positiva? y ¿de
que no lo sea uno en el que dé negativo?
p(+|NE) = 0,04  p(-|NE) = 0,96
p(-|E) = 0,05  p(+|E) = 0,95
p(E) = 0,07  p(NE) = 0,93
y
Pruebas en serie: Cuando se aplican pruebas en serie, para cada prueba p(E) y p(NE),
serán la p(E|+) y p(NE|+) de la prueba anterior (si dio positiva) o p(E|-) y p(NE|-) si
dio negativa.
FUENTE: http://www.hrc.es/bioest/Probabilidad_18.html
UNIDAD 3: MODELOS ANALITICOS DE
FENOMENOS ALEATORIOS DISCRETOS.
DEFINICION DE VARIABLE ALEATORIA DISCRETA.
VARIABLE ALEATORIA DISCONTINUA O DISCRETA.
Se dice que una Variable aleatoria Discreta o Discontinua X, tiene un conjunto definido de valores posibles x1,x2,x3,…..xn
con probabilidades respectivas p1,p2,p3,…..pn., Es decir que sólo puede tomar ciertos valores dentro de un campo de
variación dado. Como X ha de tomar uno de los valores de este conjunto, entonces p1 + p2 +…+ pn=1.
En general, una variable aleatoria discreta X representa los resultados de un espacio muestral en forma tal que por P(X =
x)se entenderá la probabilidad de que X tome el valor de x. De esta forma, al considerar los valores de una variable aleatoria
es posible desarrollar una función matemática que asigne una probabilidad a cada realización x de la variable aleatoria X.
Esta función recibe el nombre de función de la probabilidad.
Ejemplo.- Sea el experimento aleatorio consistente en lanzar una moneda al aire. Los sucesos elementales del experimento,
<<que salga cara>>, <<que salga cruz>>, no vienen representados por los números, por lo que casa suceso elemental se
le hace corresponder un número real. Así al suceso elemental <<que salga cara>> se le hace corresponder el número “1” y
al suceso elemental <<que salga cruz>> se le hace corresponder el número “2”.
La variable aleatoria será: X = (1,2).
Se trata de una variable aleatoria discontinua o discreta, ya que únicamente puede adoptar los valores 1 y 2.
FUENTE: http://html.rincondelvago.com/variables-aleatorias.html
VARIABLE ALEATORIA DISCRETA.
DISTRIBUCIÓN BINOMIAL.
Concepto de variable aleatoria.
Se llama variable aleatoria a toda aplicación que asocia a cada elemento del espacio
muestral de un experimento, un número real.
Ejemplo:
Sea el experimento que consiste en lanzar tres monedas al aire. El espacio muestral será:
E  ccc, ccx, cxc, xcc, cxx, xcx, xxc, xxx
Si a cada elemento de E le hacemos corresponder, por ejemplo, el número de caras, hemos
definido una variable aleatoria.
ccc  3; xcc 2; xxc 1; ccx  2
cxx  1; xxx  0; cxc  2; xcx  1
Se utilizan letras mayúsculas para designar las v.a. y sus respectivas letras minúsculas para
los valores concretos de las mismas.
Variable aleatoria discreta.
Es la que solo puede tomar determinados valores.
La variable aleatoria número de caras en el lanzamiento de tres monedas sólo puede tomar
los valores 0, 1, 2 y 3. (Es discreta).
La variable aleatoria suma de las caras superiores en el lanzamiento de dos dados puede
tomar solamente los valores 2, 3, 4, 5, 6, 7, 8, 9, 10, 11 y 12. (Es también discreta)
Función de probabilidad de una v.a. discreta.
Es la aplicación que asocia a cada valor x de la v.a. X su probabilidad p.
Los valores que toma una v.a. discreta X y sus correspondientes probabilidades suelen
disponerse en una tabla con dos filas o dos columnas llamada tabla de distribución de
probabilidad:
X
P( X  x i )
x1
x2
x3
xn
p1
p2
p3
pn
En toda función de probabilidad se verifica que p1  p2  p3 
 pn  1
Ejemplo: La v.a. “número de caras en el lanzamiento de tres monedas” tiene la siguiente
función de probabilidad:
Nº de caras
f(x)= P( X  xi )
0
1
1 3
8 8
2
3
8
3
1
8
Función de distribución de una v.a. discreta.
Sea X una v.a. cuyos valores suponemos ordenados de menor a mayor.
Se llama función de distribución de la variable X a la función que asocia a cada valor de la
v.a. la probabilidad acumulada hasta ese valor, es decir, F ( x)  p( X  x)
Media, varianza y desviación típica de una variable aleatoria discreta.
Se llama de una v.a. discreta X, que toma los valores x1 , x2 , x3 ........x n con probabilidades
p1 , p2 , p3 ............ pn al valor de la siguiente expresión:    xi . pi
La varianza viene dada por la siguiente fórmula:
 2   xi2 . pi   2 , bien  2   ( xi  ) 2 . pi
La desviación típica es la raiz cuadrada de la varianza.
Ejercicio.
La distribución de probabilidad de una v.a. X viene dada por la siguiente tabla:
xi
pi
1
0,1
2
0,3
3
4
0,2
5
0,3
¿Cuánto vale p(X=3)
Calcula la media y la varianza.
Solución:
La suma de todas las probabilidades es 1, por tanto,
0,1  0,3  p( X  3)  0,2  0,3  1 luego p(X=3)=0,1
Formamos la siguiente tabla:
xi
1
2
3
4
5
pi
0,1
0,3
0,1
0,2
0,3
xi . p i
0,1
0,6
0,3
0,8
1,5
xi2 . p i
0,1
1,2
0,9
3,2
7,5
   xi . pi  0,1  0,6  0,3  0,8  1,5  3,3
 2   xi2 . pi   2  12,9  (3,3) 2  2,01
Experimento de Bernoulli
Es un experimento que tiene las siguientes características:
1. En cada prueba del experimento sólo son posibles dos resultados: el suceso ha llamado
A llamado éxito y el suceso A llamado fracaso.
2. El resultado obtenido en cada prueba es independiente de los resultados anteriores.
3. La probabilidad del suceso A es constante y no varía de unas pruebas a otras.
La distribución de probabilidad de este experimento recibe el nombre de distribución
binomial de parámetros n y p
n es el número de pruebas del experimento y p es la probabilidad del éxito.
Si representamos por X la variable aleatoria binomial que representa el número de éxitos
obtenidos en las n del experimento, podemos escribir:
 n
p(obtener r éxitos )=p(X=r)=   p r .(1  p) n r
r 
Esta expresión recibe el nombre de función de probabilidad de una distribución binomial o
de Bernoulli.
Dado que en este tipo de experiencias los cálculos pueden ser laboriosos, se han construido
unas tablas que nos proporcionan la probabilidad de que la variable X tome distintos
valores, según los distintos valores de n y r.
Media y varianza de una distribución binomial.
Media:   n. p
Varianza:  2  n. p.q; q  1  p
Desviación típica:   n. p.q
Ejercicios resueltos.
1.- Calcula la probabilidad de que una familia que tiene 4 hijos, 3 de ellos sean varones.
Solución: Se trata de un experimento de Bernoulli donde n=4 y p=1/2
 4
1
p(obtener 3 varones)=P(X=3)=  .0.5 3.0,51 
4
3
Recuerda:
 4
  es un número combinatorio cuyo valor se obtiene así:
3
 4  4.3.2
  
 3  3.2.1
 m  m.(m  1).(m  2)......hasta tener n factoresen el numerador
m!
En general   

n.(n - 1).(n - 2).....3.2.1
n!.(m  n)!
n 
2.- Se tiene una moneda trucada de modo que la probabilidad de sacar cara es cuatro veces
la de sacar cruz. Se lanza 6 veces la moneda. Calcula las siguientes probabilidades:
 Obtener dos veces cruz.
 Obtener a lo sumo dos veces cruz.
Solución:
Calculamos en primer lugar la probabilidad de cara y de cruz:
p(cara)+p(cruz)=1. Si llamamos x a la probabilidad de sacar cruz, podemos escribir:
4x+x=1; 5x=1; x=0,2
Así resulta: p(cruz)=0,2 y p(cara)=0,8
Es una distribución binomial de parámetros n=6 y p=0,2
Probabilidad de obtener dos veces cruz:
6
p( X  2)   .(0,2) 2 .(0,8) 4  15.(0,04).(0,4096)  0,24
 2
Probabilidad de obtener a lo sumo dos veces cruz:
p( X  2)  p( X  0)  p( X  1)  p( X  2) 
 6
 6
6
=  .(0,2) 0 .(0,8) 6   .(0,2)1 .(0,8) 5   .(0.2) 2 .(0.8) 4  0,90
 0
1 
 2
3.- La probabilidad de que un alumno de 1º de Bachillerato repita curso es de 0,3. Elegimos
20 alumnos al azar. ¿Cuál es la probabilidad de que haya exactamente 4 alumnos
repetidores?
Solución:
Se trata de una binomial de parámetros 20 y 0,3, es decir, B(20; 0,3)
Si X es el número de alumnos que repiten,
 20
20!
p( X  4)   .0,3 4.0,716 
.0,3 4.0,716  0,13
4!.16!
4 
4.- Calcula la esperanza matemática, la varianza y la desviación típica de la variable
aleatoria X, cuya función de probabilidad viene dada por la siguiente tabla:
xi
p( X  x i )
-4
0,1
-1
0,5
2
0,3
5
0,1
Solución:
La esperanza matemática es la media:   (4).0,1  (1).0,5  2.0,3  5.0,1  0,2
 2   xi2 . pi   2  (4) 2 .0,1  (1) 2 .0,5  2 2.0,3  52.0,1  0,2 2  5,76
  5,76  2,4
5.- Sea la siguiente función de probabilidad:
xi
pi
1
0,2
3
0,2
5
0,4
7
0,1
9
0,1
Escribe la función de distribución y calcula: p( X  5) y p(3  X  7)
Solución:
xi
F(x)=P(X ≤ xi)
1
0,2
3
0,4
5
0,8
7
0,9
9
1
FUENTE: http://www.mundofree.com/fsanchezf/prob_est.htm
FUNCION DE PROBABILIDAD Y DE DISTRIBUCION,
VALOR ESPERADO, VARIANZA Y DESVIACION
ESTANDAR.
Función de Probabilidad f(x)
Consideremos una v.a. discreta X, que toma los valores x1, x2, ..., xn. Supongamos que
conocemos la probabilidad de que la variable X tome dichos valores, es decir, se conoce
que
p(X=x1) = p1 , p(X=x2) = p2, p(X=x3) = p3, ..., p(X=x1) = pn ,
en general p(X=xi) = pi
La función de probabilidad f(x) de la v.a. X es la función que asigna a cada valor xi de la
variable su correspondiente probabilidad pi.
La representación gráfica más usual de la función de probabilidad es un diagrama de barras
no acumulativo.
Función de Distribución F(x)
En muchas ocasiones no nos interesa tanto conocer la probabilidad de que la v.a. X tome
exactamente un determinado valor xi, cuanto la probabilidad de que tome valores menores
o iguales que un cierto valor xi. En tales casos es necesario acumular los distintos valores
de la función de probabilidad hasta el valor deseado. Se trata de una nueva aplicación
llamada función de distribución.
Sea X una variable aleatoria discreta, cuyos valores se suponen ordenados de menor a
mayor. Se llama función de distribución de la variable X, y se simboliza por F(x), a la
función
es decir, asocia a cada valor de la v.a. discreta la probabilidad acumulada hasta ese valor (la
probabilidad de que la v.a. tome valores menores o iguales a xi).
Podemos expresar la función de distribución de la siguiente forma:
Su representación gráfica tiene forma escalonada, siendo los saltos coincidentes con las
probabilidades pi correspondientes a los valores xi de la variable X.
Parámetros de una Variable Aleatoria Discreta
Tanto la varianza como la desviación típica son medidas de dispersión, de tal manera que
cuanto menores son estos dos parámetros más agrupados se encuentran los valores de la
distribución entorno a los valores centrales. Por contra, para valores grandes de la varianza
o la desviación típica los datos de la distribución se encuentran muy dispersos.
FUENTE: http://personal5.iddeo.es/ztt/Tem/t18_variable_aleatoria_discreta.htm
Supongamos que un experimento aleatorio tiene las siguientes características:




En cada prueba del experimento sólo son posibles dos resultados: el suceso
A (éxito) y su contrario(fracaso).
El resultado obtenido en cada prueba es independiente de los resultados
obtenidos anteriormente.
La probabilidad del suceso A es constante, la representamos por p, y no
varía de una prueba a otra. La probabilidad de  es 1- p y la
representamos por q .
El experimento consta de un número n de pruebas.
Todo experimento que tenga estas características diremos que sigue el modelo de la
distribución Binomial. A la variable X que expresa el número de éxitos obtenidos en cada
prueba del experimento, la llamaremos variable aleatoria binomial.
La variable binomial es una variable aleatoria discreta, sólo puede tomar los valores 0, 1, 2,
3, 4, ..., n suponiendo que se han realizado n pruebas. Como hay que considerar todas las
maneras posibles de obtener k-éxitos y (n-k) fracasos debemos calcular éstas por
combinaciones (número combinatorio n sobre k).
La distribución Binomial se suele representar por B(n,p) siendo n y p los parámetros de
dicha distribución.
Función de Probabilidad de la v.a. Binomial
Función de probabilidad de la distribución Binomial o también denominada función de la
distribución de Bernoulli (para n=1). Verificándose: 0  p  1
Como el cálculo de estas probabilidades puede resultar algo tedioso se han construido
tablas para algunos valores de n y p que nos facilitan el trabajo.
Ver Tabla de la Función de Probabilidad de la Binomial
Parámetros de la Distribución Binomial
Función de Distribución de la v.a. Binomial
siendo k el mayor número entero menor o igual a xi.
Esta función de distribución proporciona, para cada número real xi, la probabilidad de que
la variable X tome valores menores o iguales que xi.
El cálculo de las F(x) = p( X x) puede resultar laborioso, por ello se han construido tablas
para algunos valores de n y p que nos facilitan el trabajo.
Sea X una variable aleatoria discreta correspondiente a una distribución binomial.
Ejemplo 1
Una máquina fabrica una determinada pieza y se sabe que produce un 7 por 1000 de piezas
defectuosas. Hallar la probabilidad de que al examinar 50 piezas sólo haya una defectuosa.
Solución :
Se trata de una distribución binomial de parámetros B(50, 0'007) y debemos calcular la
probabilidad p(X=1).
Ejemplo 2
La probabilidad de éxito de una determinada vacuna es 0,72. Calcula la probabilidad de a
que una vez administrada a 15 pacientes:
a) Ninguno sufra la enfermedad
b) Todos sufran la enfermedad
c) Dos de ellos contraigan la enfermedad
Solución :
Se trata de una distribución binomial de parámetros B(15, 0'72)
Ejemplo 3
La probabilidad de que el carburador de un coche salga de fábrica defectuoso es del 4 por
100. Hallar :
a) El número de carburadores defectuosos esperados en un lote de 1000
b) La varianza y la desviación típica.
Solución :
FUENTE: http://personal5.iddeo.es/ztt/Tem/t19_distribucion_binomial.htm
DISTRIBUCION BINOMIAL.
DISTRIBUCIÓN BINOMIAL
Las características de esta distribución son:
a) a) En los experimentos que tienen este tipo de distribución, siempre se
esperan dos tipos de resultados, ejem. Defectuoso, no defectuoso, pasa, no pasa,
etc, etc., denominados arbitrariamente “éxito” (que es lo que se espera que
ocurra) o “fracaso” (lo contrario del éxito).
b) b) Las probabilidades asociadas a cada uno de estos resultados son
constantes, es decir no cambian.
c) c) Cada uno de los ensayos o repeticiones del experimento son independientes
entre sí.
d) d) El número de ensayos o repeticiones del experimento (n) es constante.
A partir de un ejemplo. Desarrollaremos una fórmula que nos permita cualquier
problema que tenga este tipo de distribución.
Ejemplo:
Se lanza al aire una moneda normal 3 veces, determine la probabilidad de que
aparezcan 2 águilas.
Solución:
Antes de empezar a resolver este problema, lo primero que hay que hacer es
identificarlo como un problema que tiene una distribución binomial, y podemos
decir que efectivamente así es, ya que se trata de un experimento en donde solo se
pueden esperar dos tipos de resultados al lanzar la moneda, águila o sello, cutas
probabilidades de ocurrencia son constantes, cada uno de los lanzamientos es
independiente de los demás y el número de ensayos o repeticiones del experimento
son constantes, n = 3.
Para dar solución a este problema, lo primero que hay que hacer es un diagrama
de árbol, en donde representaremos los tres lanzamientos, de ahí se obtendrá el
espacio muestral y posteriormente la probabilidad pedida, usando la fórmula
correspondiente.
A = águila, S = sello
1/2
1/2
A
A
1/2
S
1/2
A
1/2
S
A
1/2
S
1/2
A
1/2
S
A
1/2
1/2
S
1/2
A
1/2
S
1/2
S
=AAA, AAS, ASA, ASS, SAA, SAS, SSA, SSS
Para obtener la fórmula, definiremos lo siguiente:
n = número de lanzamientos de moneda
x = número de “éxitos” requeridos = número de águilas = 2
p = probabilidad de “éxito”= p(aparezca águila) =1/2
q = probabilidad de “fracaso”= p(aparezca sello) =1/2
Entonces podemos partir de la siguiente expresión para desarrollar la fórmula;
P(aparezcan 2 águilas)=(No. De ramas del árbol en donde ap. 2 águilas)(probabilidad
asociada a cada rama)
Entonces el número de ramas en donde aparecen dos águilas se puede obtener;
Enumerando las ramas de interés, estas serían: AAS, ASA, SAA, ¿QUÉ TIPO DE
ARREGLOS SON ESTOS ELEMENTOS DEL ESPACIO MUESTRAL?, Son
permutaciones en donde algunos objetos son iguales, entonces, el número de ramas se
puede obtener con la fórmula correspondiente,
nPx1,x 2 ,...xk 
n!
x1 ! x2 !...xk !
donde n = x1+x2+...+xk
sustituyendo en esta fórmula, tenemos lo siguiente;
nPx ,n x 
n!
x! ( n  x )!
esta fórmula puede ser sustituida por la de combinaciones, solo en el caso de dos tipos
de objetos, si hay más de dos tipos de objetos, definitivamente solo se usa la fórmula
original, como se observará en el caso de la distribución multinomial, pero ¿porqué
vamos a cambiar de fórmula?, simplemente porque en todos los libros de texto que te
encuentres vas a encontrar la fórmula de combinaciones en lugar de la de
permutaciones, que es la siguiente,
nCx 
n!
x! ( n  x )!
y sustituyendo valores, nos damos cuenta de que efectivamente son 3 las ramas de
interés, que son donde aparecen dos águilas, donde n = 3, x = 2.
3
C2 
3!
3!
3x 2!


 3ram as
2! ( 3  2 )! 2! !1! 2!1!
¿Y la probabilidad asociada a cada rama?
Probabilidad asociada a cada rama = p(águila)*p(águila)*p(sello)= p*p*q = p2q=
x n x
=p q
Luego la fórmula de la distribución Binomial sería:
p( n, x, p )n Cnx p x q nx
donde:
p(x, n, p) = probabilidad de obtener en n ensayos x éxitos, cuando la probabilidad de
éxito es p
Dando solución al problema de ejemplo tenemos lo siguiente:
n = 3, x = 2, p = ½
p( n  3, x  2, p  1 / 2 ) 3 C 2 ( 1 / 2 )2 ( 1 / 2 )32 
3! 1 1
1 3
* *  3* 
2!1! 4 2
8 8
Para calcular la media y la desviación estándar de un experimento que tenga una
distribución Binomial usaremos las siguientes fórmulas:
Media o valor esperado.
  nP
Donde:
n = número de ensayos o repeticiones del experimento
P = probabilidad de éxito o la probabilidad referente al evento del cual se desea
calcular la media que se refiere la media
Q = complemento de P
Desviación estándar.
  nPQ
Ejemplos:
1. Se dice que el 75% de los accidentes de una planta se atribuyen a errores
humanos. Si en un período de tiempo dado, se suscitan 5 accidentes, determine
la probabilidad de que; a) dos de los accidentes se atribuyan a errores
humanos, b) como máximo 1 de los accidentes se atribuya a errores de tipo
humano, c) tres de los accidentes no se atribuyan a errores humanos.
Solución:
a) n = 5
x = variable que nos define el número de accidentes debidos a errores humanos
x = 0, 1, 2,...,5 accidentes debidos a errores de tipo humano
p = p(éxito) = p(un accidente se deba a errores humanos) = 0.75
q = p(fracaso) = p(un accidente no se deba a errores humanos) = 1-p = 0.25
p( x  2,n  5, p  0.75)5 C2( 0.75)2( 0.25)52  (10 )( 0.5625)( 0.015625)  0.08789
b)
p( x  0,1,n  5, p  0.75)  p( x  0 )  p( x  1 )5 C0( 0.75)0( 0.25)50 
5
C1( 0.75)1( 0.25)51  0.000976 0.014648 0.015624
c) En este caso cambiaremos el valor de p;
n =5
x = variable que nos define el número de accidentes que no se deben a
errores de tipo humano
x = 0, 1, 2,...,5 accidentes debidos a errores humanos
p = p(probabilidad de que un accidente no se deba a errores humanos) =
0.25
q = p(probabilidad de que un accidente se deba a errores humanos) = 1-p =
0.75
p( x  3,n  5, p  0.25)5 C3( 0.25)3( 0.75)53  (10 )( 0.015625)( 0.5625)  0.08789
2. Si la probabilidad de que el vapor se condense en un tubo de aluminio de
cubierta delgada a 10 atm de presión es de 0.40, si se prueban 12 tubos de ese
tipo y bajo esas condiciones, determine la probabilidad de que: a) el vapor se
condense en 4 de los tubos, b) en más de 2 tubos se condense el vapor, c) el
vapor se condense en exactamente 5 tubos.
Solución:
a) n =12
x = variable que nos define el número de tubos en que el vapor se condensa
x = 0, 1, 2, 3,...,12 tubos en el que el vapor se condensa
p =p(se condense el vapor en un tubo de Al a 10 atm)= 0.40
q = p(no se condense el vapor en un tubo de Al a 10 atm) = 1-p=0.60
p( x  4,n  12, p  0.40 )12 C4 ( 0.40 )4 ( 0.60 )12 4  ( 495)( 0.0256)( 0.016796) 
= 0.21284
b) p(X=3, 4, ...,12, n=12, p=0.40) = p(x=3)+p(x=4)+…+p(x=12)= 1-p(x=0,1,2)=
 1

12
C0 ( 0.40 )0 ( 0.60 )12 0 12 C1( 0.40 )1( 0.60 )12 1 12 C2 ( 0.40 )2 ( 0.60 )122
 1  0.002176 ( 12 )( 0.4 )( 0.003627)  ( 66 )( 0.16 )( 0.006047)
= 1-0.002176+0.0174096+0.06385632= 1- 0.08344192= 0.91656
c)
p( x  5,n  12, p  0.40 )12 C5( 0.40 )5( 0.6 )125  ( 792)( 0.01024)( 0.0279936) 
= 0.22703

3. La probabilidad de que el nivel de ruido de un amplificador de banda ancha
exceda de 2 dB (decibeles) es de 0.15, si se prueban 10 amplificadores de banda
ancha, determine la probabilidad de que; a) en solo 5 de los amplificadores el
nivel de ruido exceda los 2 dB, b) por lo menos en 2 de los amplificadores, el
ruido exceda de 2 dB, c)que entre 4 y 6 amplificadores no se excedan de los 2
dB, d)encuentre el número esperado de amplificadores que se exceden de un
nivel de ruido de 2dB y su desviación estándar.
Solución:
a)n =10
x =variable que nos define el número de amplificadores de banda ancha que su
nivel de ruido excede de 2 dB
x = 0, 1, 2,...,10 amplificadores en los que el nivel de ruido excede de los 2 dB
p = P(un amplificador exceda su nivel de ruido de 2 dB) = 0.15
q = p(un amplificador no exceda su nivel de ruido de 2 dB =1-p= 0.85
p( x  5,n  10, p  0.15)10 C5( 0.15)5( 0.85)105  ( 252)( 0.00007593)( 0.4437053) 
= 0.00849
b)p(x=2,3,...,10, n=10, p=0.15)= 1- p(x = 0,1) =
1 

10
C0 ( 0.15 )0 ( 0.85 )100 10 C1 ( 0.15 )1 ( 0.85 )101

= 1 – (0.19687+(10)(0.15)(0.231617)=1-0.544296 = 0.455705
c) n=10
x= variable que nos define el número de amplificadores de banda ancha que su nivel
de ruido no excede de 2 dB
x= 0, 1, 2,...,10 amplificadores que su nivel de ruido no excede de los 2 dB
p = p(un amplificador no exceda su nivel de ruido de 2 dB) = 0.85
q = p(un amplificador exceda su nivel de ruido de 2 dB) = 1- p = 0.15
p( x  4,5,6,n  10, p  0.085)10 C4( 0.85)4( 0.15)104 10 C5( 0.85)5( 0.15 )105 10 C6( 0.85)6( 0.15)106 
=(210)(0.522)(0.00001139)+(252)(0.4437)(0.000075937)+(210)(0.3771495)(0.00005063)=
=0.001249 + 0.00849 + 0.00400997 = 0.01374897
d)n=10, p=0.15, q=1-p=0.85
  np  ( 10 )( 0.15 )  1.5  2amplificadores
Interpretación:
Se espera que 2 de los 10 amplificadores probados se excedan de un nivel de ruido de
2 Db
  npq  (10 )( 0.15)( 0.85)  1.1291 1amplificador
Interpretación:
Este experimento puede variar en 2  1 amplificador, esto es, de 1 a 3 amplificadores
que se excedan de un nivel de ruido de 2 dB
FUENTE: http://www.itchihuahua.edu.mx/academic/industrial/sabaticorita/index.html
DISTRIBUCIONES BIDIMENSIONALES
RESULTAN DE ESTUDIAR FENÓMENOS EN LOS QUE PARA CADA
OBSERVACIÓN SE OBTIENE UN PAR DE MEDIDAS Y, EN CONSECUENCIA, DOS
VARIABLES.
Ejemplos.




Talla y peso de los soldados de un regimiento.
Calificaciones en Física y Matemáticas de los alumnos de una clase.
Gastos de publicidad y ventas de una fábrica.
Etc.
Estas variables resultantes de la observación de un fenómeno respecto de dos
modalidades se llaman variables estadísticas bidimensionales.
Los valores de una variable estadística bidimensional son pares de números reales de la
forma (xi, yi).
Representados en un sistema de ejes cartesianos se obtiene un conjunto de puntos llamado
diagrama de dispersión o nube de puntos.
Ejemplo: Nube de puntos de la distribución dada por la tabla siguiente:
Notas de Matemáticas y Física de 10 alumnos
Matemáticas 5
6
2
9
4
Física
4
5
3
8
4
5
5
1
2
3
2
7
6
Notas
de
Física
Notas de Matemáticas
Parámetros estadísticos.
Media de la variable X:
x
Media de la variable Y:
y
n x
Varianza de la variable X: s x2 
Varianza de la variable Y: s y2 
Covarianza: s xy 
Correlación.
n x y
i
N
i
i
i
i
N
 ni y i
N
 ni xi2
N
 ni yi2
 x. y
N
x
2
y
2
7
8
Estudia la relación o dependencia que existe entre dos variables que intervienen en una
distribución bidimensional.
Coeficiente de correlación lineal.
Es un número que mide el grado de dependencia entre las variables X e Y.
s xy
Se mide mediante la siguiente fórmula: r 
s x .s y
Su valor está comprendido entre – 1 y 1.
 Si r = -1 ó r = 1 todos los valores de la variable bidimensional se encuentran situados
sobre una recta.
 Si – 1< r < 0 se dice que las variables X e Y están también en dependencia aleatoria. La
correlación es negativa.
 Si 0 < r < 1 la correlación es positiva. Las variables X e Y están también en
dependencia aleatoria.
La correlación es tanto más fuerte a medida que r se aproxima a –1 ó 1 y es tanto más débil
a medida que se aproxima a 0.
Recta de regresión.
Tenemos una distribución bidimensional y representamos la nube de puntos
correspondiente. La recta que mejor se ajusta a esa nube de puntos recibe el nombre de
recta de regresión. Su ecuación es la siguiente:
Recta de regresión de y sobre x:
yy 
s xy
xx 
s xy
s x2
( x  x)
( y  y)
s y2
A partir de esta recta podemos calcular los valores de x conocidos los de y. La fiabilidad
que podemos conceder a los cálculos obtenidos viene dada por el coeficiente de
correlación: si r es muy pequeño no tiene sentido realizar ningún tipo de estimaciones.
Si r es próximo a – 1 ó 1, las estimaciones realizadas estarán cerca de los valores reales.
Si r = 1 o r = -1 , las estimaciones realizadas coincidirán con los valores reales.
Recta de regresión de x sobre y:
Ejercicios resueltos.
1.- Una compañía de seguros considera que el número de vehículos (Y) que circulan por
una determinada autopista a más de 120 kms/h, puede ponerse en función del número de
accidentes (X) que ocurren en ella.
Durante 5 días obtuvo los siguientes resultados:
X
5
7
2
1
9
Y
15
18
10
8
20
a) Calcula el coeficiente de correlación lineal.
b) Si ayer se produjeron 6 accidentes, ¿cuántos vehículos podemos suponer que circulaban
por la autopista a más de 120 kms/h?
c) ¿Es buena la predicción?
Solución:
Disponemos los cálculos de la siguiente forma:
(Accidente Vehículos
s)
yi
xi2
xi
5
15
25
7
18
49
2
10
4
1
8
1
9
20
81
24
71
160
x
x
i
N
s y2 
24

 4,8 ;
5
y
N
a)
2
i
2
y 
r
s xy
s x .s y
y
y
i
N
71

 14,2 ;
5
s
1113
 14,2 2  20,96 ; s xy 
5

13,64
8,96. 20,96
yi2
xiyi
225
324
100
64
400
1113
75
126
20
8
180
409
x

2
x
N
x y
i
i
N
2
i
2
x 
 x. y 
160
 4,8 2  8,96
5
409
 4,8.14,2 =13,64
5
 0,996
b) Recta de regresión de y sobre x:
yy 
s xy
s x2
( x  x)
13,64
( x  4,8) ; y  14,2  1,53( x  4,8)
8,96
Para x = 6, y  14,2  1,53(6  4,8) , es decir, y = 16,04. Podemos suponer que ayer
circulaban 16 vehículos por la autopista a más de 120 kms/h.
c) La predicción hecha es buena ya que el coeficiente de correlación está muy
próximo a 1.
2.- Las calificaciones de 40 alumnos en psicología evolutiva y en estadística han sido las
siguientes:
y  14,2 
X
calif. en psicol.
3
4
5
6
6
7
7
Y
calif. en estad.
2
5
5
6
7
6
7
Número
de alumnos.
4
6
12
4
5
4
2
8
10
9
10
1
2
Obtener la ecuación de la recta de regresión de calificaciones de estadística respecto de las
calificaciones de psicología.
¿Cuál será la nota esperada en estadística para un alumno que obtuvo un 4,5 en psicología?
Solución:
Se pide la recta de regresión de y sobre x:
yy 
s xy
( x  x)
s x2
Disponemos los datos de la siguiente forma:
xi
yi
ni
nixi
3
2
4
12
4
5
6
24
5
5
12
60
6
6
4
24
6
7
5
30
7
6
4
28
7
7
2
14
8
9
1
8
10
10
2
20
40
220
x
n x
s xy 
s
2
x
i
i
N

n x y
i
i
N
n x

i
N
2
i
220
 5,5 ;
40
i
 x. y 
2
x 
nixi2
36
96
300
144
180
196
98
64
200
1314
niyi
8
30
60
24
35
24
14
9
20
224
y
n y
i
N
i

niyi2
16
150
300
144
245
144
98
81
200
1378
nixiyi
24
120
300
144
210
168
98
72
200
1336
224
 5,6
40
1336
 (5,3).(5,6)  33,4  30,8  2,6
40
1314
 (5,6) 2  32,85  30,25  2,6
40
Sustituyendo en la ecuación de la recta de regresión, resulta:
2,6
y  x  0,1
y  5,6 
( x  5,5) , es decir,
2,6
Si un alumno que tiene una nota de 4,5 en psicología, la nota esperada en estadística será:
y(4,5) = 4,5 + 0,1 = 4,6
Se sustituye en la recta de regresión.
La fiabilidad viene dada por el coeficiente de correlación: r 
s xy
s x .s y
s x  s x2  2,6  1,61
s xy  2,6 ;
s
2
y
n y

i
2
i
N
y resulta r 
2
y 
1378
 (5,6) 2  3,09 ;
40
s y  3,09  1,75
2,6
 0,92
(1,61).(1,75)
La correlación es positiva, es decir, a medida que aumenta la nota de estadística aumenta
también la nota en psicología. Su valor está próximo a 1 lo que indica que se trata de una
correlación fuerte, las estimaciones realizadas están cerca de los valores reales.
Tablas de doble entrada.
En las distribuciones bidimensionales, cuando hay pocos pares de valores, se procede como
hemos hecho, es decir, enumerándolos. Si algún par está repetido se pone dos veces, pero
cuando el número de datos es grande, se recurre a las tablas de doble entrada.
En cada casilla se pone la frecuencia correspondiente al par de valores que definen esa casilla.
Ejemplo:
x
y
0
1
2
0
2
3
0
1
1
4
5
2
0
1
3
Lo que indica el número de veces que está cada par. El par (0, 1) está 3 veces.
El par (1, 2) está 5 veces. Etc.
Ejercicios propuestos.
1.- Las notas obtenidas por 10 alumnos en Matemáticas y en Música son:
Alumnos
Mat. Mús.
1
6
6,5
2
4
4,5
3
8
7
4
5
5
5
3,5
4
6
7
8
7
5
7
8
10
10
9
5
6
10
4
5
a) Calcula la covarianza, las varianzas y el coeficiente de correlación.
b) ¿Existe correlación entre las dos variables?
c) Calcula la recta de regresión. ¿Cuál será la nota esperada en Música para un alumno que
hubiese obtenido un 8,3 en Matemáticas?
(Soluc. 3,075; 3,76; 2,96; 0,92; y = 1,6 + 0,817x; 8,38)
2.- Cinco niñas de 2, 3, 5, 7 y 8 años de edad pesan respectivamente 14, 20, 30, 42 y 44 Kg.
Halla la ecuación de la recta de regresión de la edad sobre el peso. ¿Cuál sería el peso
aproximado de una niña de 6 años?.
( Sol. x = 0,192y-0,76; 35,2 Kg.)
3.- La tabla adjunta da el índice de mortalidad de una muestra de población en función del
consumo diario de cigarrillos:
Número de cigarrillos
x
3
5
6
15
20
Índice de mortalidad
y
0,2
0,3
0,4
0,5
0,7
a) Determina el coeficiente de correlación e interpreta el resultado.
b) Halla la recta de regresión de y sobre x
c) ¿Cuál será el índice de mortalidad para un consumidor de 40 cigarrillos diarios?
FUENTE: http://www.mundofree.com/fsanchezf/prob_est.htm
DISTRIBUCION HIPERGEOMETRICA.
DISTRIBUCIÓN HIPERGEOMÉTRICA.
Los experimentos que tienen este tipo de distribución tienen las siguientes características:
a) a) Al realizar un experimento con este tipo de distribución, se esperan dos tipos de
resultados.
b) b) Las probabilidades asociadas a cada uno de los resultados no son constantes.
c) c) Cada ensayo o repetición del experimento no es independiente de los demás.
d) d) El número de repeticiones del experimento (n) es constante.
Ejemplo:
En una urna o recipiente hay un total de N objetos, entre los cuales hay una cantidad a de
objetos que son defectuosos, si se seleccionan de esta urna n objetos al azar, y sin
reemplazo, ¿cuál es la probabilidad de obtener x objetos defectuosos?
Solución:
Luego;
p( x ,n ) 
a
C x * N a Cn x
N Cn
donde:
p(x,n) = probabilidad de obtener x objetos defectuosos de entre n seleccionados
a
Cx* N a Cn x  muestras de n objetos en donde hay x que son defectuosos y n-x
buenos
N
Cn    todas las muestras posibles de seleccionar de n objetos tomadas de entre N
objetos en total = espacio muestral
Considerando que en la urna hay un total de 10 objetos, 3 de los cuales son defectuosos,
si de seleccionan 4 objetos al azar, ¿cuál es la probabilidad de que 2 sean defectuosos?
Solución:
N = 10 objetos en total
a = 3 objetos defectuosos
n = 4 objetos seleccionados en muestra
x = 2 objetos defectuosos deseados en la muestra
p( x  2,n  4 ) 
3
C2*10  3 C4  2
10 C4
3!
7!
*
C* C
( 3  2 )!2! ( 7  2 )!2!
 3 2 7 2 

10!
10 C4
( 10  4 )!4!
3!
7!
3x2 x1! 7 x6 x5!
*
*
5!2!  3x2 x7 x6 * 4! 
 1!2! 5!2!  1!2!
10!
10x9 x8 x7 x6!
10x9 x8 x7 2!2!
6!4!
6!4!
donde:
3x 2 x7 x6

10 x9 x8 x 7
probabilidad asociada a cada muestra de 4 objetos que se
seleccionaron, con lo que se demuestra que las probabilidades no son constantes
4!

2!2!
formas o maneras de obtener 2 objetos defectuosos entre los 4
seleccionados = muestras de 4 objetos entre los que 2 son defectuosos
Como se observa en el desarrollo de la solución del problema, la pretensión es
demostrar que las probabilidades asociadas a cada uno de los resultados no son
constantes.
Luego la probabilidad de obtener 2 objetos defectuosos entre los 4 seleccionados al
azar sería:

3x 2 x7 x6
4!
252 24 6048
*

*

 0.30
10 x9 x8 x7 2!2! 5040 4 20160
Ejemplos:
1. Para evitar que lo descubran en la aduana, un viajero ha colocado 6 tabletas
de narcótico en una botella que contiene 9 píldoras de vitamina que son
similares en apariencia. Si el oficial de la aduana selecciona 3 tabletas
aleatoriamente para analizarlas, a) ¿Cuál es la probabilidad de que el viajero
sea arrestado por posesión de narcóticos?, b) ¿Cuál es la probabilidad de que
no sea arrestado por posesión de narcóticos?.
Solución:
a) N = 9+6 =15 total de tabletas
a = 6 tabletas de narcótico
n = 3 tabletas seleccionadas
x = 0, 1, 2, o 3 tabletas de narcótico = variable que nos indica el número de tabletas
de narcótico que se puede encontrar al seleccionar las 3 tabletas
p(viajero sea arrestado por posesión de narcóticos) = p(de que entre las 3 tabletas
seleccionadas haya 1 o más tabletas de narcótico)
 p( x  1,2ó3tabletas; n  3 ) 

6
C1* 9 C2 6 C2* 9 C1 6 C3* 9 C0



15 C3
15 C3
15 C3
( 6 )( 36 ) ( 15 )( 9 ) ( 20 )( 1 ) 216  135  20 371




 0.81538
455
455
455
455
455
otra forma de resolver;
p(el viajero sea arrestado por posesión de narcóticos) = 1 – p(de que entre las
tabletas seleccionadas no haya una sola de narcótico)
 1  p( x  0; n  3 )  1 
6
C0* 9 C3

15 C3
( 1 )( 84 )
 0.184615  0.815385
455
b) b) p(no sea arrestado por posesión de narcóticos)
 1
 p( x  0; n  3 ) 

6
C0* 9 C3

15 C3
( 1 )( 84 )
 0.184615
455
2. De un lote de 10 proyectiles, 4 se seleccionan al azar y se disparan. Si el lote
contiene 3 proyectiles defectuosos que no explotarán, ¿cuál es la probabilidad
de que , a) los 4 exploten?, b) al menos 2 no exploten?
Solución:
a) N = 10 proyectiles en total
a = 7 proyectiles que explotan
n = 4 proyectiles seleccionados
x = 0, 1, 2, 3 o 4 proyectiles que explotan = variable que nos define el número de
proyectiles que explotan entre la muestra que se dispara
p( x  4; n  4 ) 
b) N = 10 proyectiles en total
a = 3 proyectiles que no explotan
7
C4* 3C0 ( 35 )(1 ) 35


 0.16667
210
210
10 C4
n = 4 proyectiles seleccionados
x = 0, 1, 2 o 3 proyectiles que no explotan
p(al menos 2 no exploten) = p( 2 o más proyectiles no exploten) = p(x = 2 o 3; n=4) =

3
C2* 7 C2 3 C3* 7 C1 ( 3 )( 21)  ( 1 )( 7 ) 63  7
70



 0.333333
210
210
210
10 C4
3. a)¿Cuál es la probabilidad de que una mesera se rehúse a servir bebidas
alcohólicas únicamente a dos menores de edad si verifica aleatoriamente solo 5
identificaciones de entre 9 estudiantes, de los cuales 4 no tienen la edad
suficiente?, b) ¿Cúal es la probabilidad de que como máximo 2 de las
identificaciones pertenezcan a menores de edad?
Solución:
a) N = 9 total de estudiantes
a = 4 estudiantes menores de edad
n = 5 identificaciones seleccionadas
x = variable que nos define el número de identificaciones que pertenecen a
personas menores de edad
x = 0, 1, 2, 3 o 4 identificaciones de personas menores de edad
p( x  2,n  5 ) 
4
C2 * 5 C3
9
C5

( 3 )(10 )
 0.238095
126
b) N = 9 total de estudiantes
a = 4 estudiantes menores de edad
n = 5 identificaciones seleccionadas
x = variable que nos define el número de identificaciones que pertenecen a personas
menores de edad
x = 0, 1, 2, 3 o 4 identificaciones de personas menores de edad
p( x  0,1,2; n  5 ) 
4
C0* 5 C5  4 C1* 5 C4  4 C2* 5 C3 ( 1 )(1 )  ( 4 )( 5 )  ( 6 )(10 )


126
9 C5

1  20  60
81

 0.64286
126
126
4. Una compañía manufacturera utiliza un esquema para la aceptación de los
artículos producidos antes de ser embarcados. El plan es de dos etapas. Se preparan
cajas de 25 para embarque y se selecciona una muestra de 3 para verificar si tienen
algún artículo defectuoso. Si se encuentra uno, la caja entera se regresa para
verificarla al 100%. Si no se encuentra ningún artículo defectuoso, la caja se embarca.
a)¿Cuál es la probabilidad de que se embarque una caja que tiene tres artículos
defectuosos?, b)¿Cuál es la probabilidad de que una caja que contiene solo un artículo
defectuoso se regresa para verificación?
DISTRIBUCIÓN HIPERGEOMETRICA GENERALIZADA.
Características:
a) a) Al realizar un experimento con este tipo de distribución, se esperan
más de dos tipos de resultados.
b) b) Las probabilidades asociadas a cada uno de estos resultados no son
constantes.
c) c) Los ensayos o repeticiones del experimento no son independientes
entre sí.
d) d) El número de repeticiones del experimento n, es constante.
Entonces en este caso se tienen más de dos tipos de objetos, por lo que la
fórmula a utilizar sería:
p( x , y ,n ) 
a
Cx* b C y* N  a b Cn  x  y
N
Cn
donde:
N = x + y + z = total de objetos
a = total de objetos del primer tipo
b = total de objetos del segundo tipo
c = N-a-b = total de objetos del tercer tipo
n = objetos seleccionados en la muestra
x = objetos del primer tipo en la muestra
y = objetos del segundo tipo en la muestra
z = n-x-y = objetos del tercer tipo en la muestra
Ejemplos:
1.En un lote de productos se tienen 20 productos sin defectos, 3 con defectos menores
y 2 con defectos mayores, se seleccionan al azar 5 productos de este lote, determine la
probabilidad de que a) 3 de los productos seleccionados no tengan defectos y 1 tenga
defectos menores, b) 4 de los productos seleccionados no tengan defectos y 1 tenga
defectos menores.
Solución:
a)N= 20+3+2 =25 total de artículos
a=20 productos sin defectos
b= 3 productos con defectos menores
N-a-b= 2 productos con defectos mayores
n= 5 productos seleccionados en la muestra
x = 3 productos sin defectos en la muestra = variable que nos define el # de productos
sin defectos en la muestra
y = 1 producto con defectos menores en la muestra = variable que nos define el # de
productos con defectos menores en la muestra
z = n-x-y = 5-3-1 = 1 producto con defectos mayores en la muestra = variable que nos
define el # de productos con defectos mayores en la muestra
C * C* C
( 1140)( 3 )( 2 ) 6840
p( x  3, y  1,n  5 )  20 3 3 1 2 1 

 0.128741
53130
53130
25 C5
b)N= 25
a=20 productos sin defectos
b= 3 productos con defectos menores
N-a-b= 2 productos con defectos mayores
n= 5 productos seleccionados en la muestra
x = 4 productos sin defectos en la muestra = variable que nos define el # de productos
sin defectos en la muestra
y = 1 producto con defectos menores en la muestra = variable que nos define el # de
productos con defectos menores en la muestra
z = n-x-y = 5-4-1 = 0 productos con defectos mayores en la muestra = variable que nos
define el # de productos con defectos mayores en la muestra
p( x  4 , y  1; n  5 ) 

20
C 4 * 3 C1* 2 C 0
25 C 5
( 4845)( 3 )(1 ) 14535

 0.27357
53130
53130
3.Un club de estudiantes extranjeros tiene en sus listas a 2 canadienses, 3 japoneses, 5
italianos y 2 alemanes. Si se selecciona aleatoriamente un comité de 4 estudiantes,
encuentre la probabilidad de que: a)estén representadas todas las nacionalidades,
b)estén representadas todas las nacionalidades, excepto la italiana.
Solución:
a) N = 12 estudiantes
a = 2 Canadienses
b = 3 Japoneses
c = 5 Italianos
N-a-b-c = 2 Alemanes
n = 4 estudiantes seleccionados para formar comité
x = 1 estudiante Canadiense en el comité seleccionado
y = 1 estudiante Japonés en el comité seleccionado
z = 1 estudiante Italiano en el comité seleccionado
n-x-y-z = 1 estudiante Alemán en el comité seleccionado
p( x  1, y  1, z  1; n  4 ) 

2
C1* 3 C1* 5 C1* 2 C1
12 C4
( 2 )( 3 )( 5 )( 2 ) 60

 0.121212
495
495
b) N = 7 estudiantes quitando a los Italianos
a = 2 Canadienses
b = 3 Japoneses
N-a-b = 2 Alemanes
n = 4 estudiantes seleccionados para formar comité
x = 1 o 2 estudiantes Canadienses en el comité seleccionado
y = 1 o 2 estudiantes Japoneses en el comité seleccionado
n-x-y= 1 o 2 estudiantes Alemanes en el comité seleccionado
p(estén representadas todas las nacionalidades, excepto la italiana)
p( x  1, y  1,n  4 )  p( x  1, y  2,n  4 )  ( x  2, y  1,n  4 ) 
C* C* C
C* C * C
C * C* C
 2 1 3 1 2 22 1 3 2 2 12 2 3 1 2 1
7 C4
7 C4
7 C4
FUENTE: http://www.itchihuahua.edu.mx/academic/industrial/sabaticorita/index.html
DISTRIBUCIÓN HIPERGEOMETRICA
La distribución Binomial es importante en muestreos con reemplazo.
Supongamos que queremos conocer el # de elementos defectuosos presentes en una muestra de ‘n’ elementos,
extraídos de una urna que contiene ‘N’ elementos de los cuales ‘M’ están defectuosos. Si la extracción es con
reemplazo entonces la probabilidad de escoger x elementos defectuosos tendrá un comportamiento Binomial,
es decir:
Sin embargo, lo correcto en un caso como el de inspección, sería hacer la selección sin reemplazo, en cuyo
caso en la 1ª. selección la probabilidad de que salga defectuoso es M/N, pero la segunda vez seria (M-1)/(N-1)
ó M/(N-1) si antes salió defectuoso o no (# de casos favorables / # de casos posibles).
- Los casos posibles son
.
- En cuanto a los casos favorables se debe considerar lo siguiente:
Los x éxitos (defectuosos) pueden ser elegidos desde los M posibles de
formas diferentes y cada forma
de estas es combinada con las formas diferentes de escoger ‘n-x’ elementos no defectuosos que son:
.
En consecuencia x éxitos y n-x fracasos pueden elegir de
formas o maneras diferentes.
Luego, la probabilidad de escoger x elementos defectuosos en una muestra de n elementos sin reemplazo será:
la cual da lugar a la distribución conocida como Hypergeométrica.
Esperanza matemática de la Hypergeométrica:
Supongamos que n elementos de la muestra son seleccionados desde los N de la población manera secuencial.
Si definimos la VA:
Entonces,
Luego,
, nos señala el # de elementos defectuosos de la muestra de n elementos.
y como E[Xi] = 1. p(Xi=1) + 0 . p(Xi=0) = p(Xi=1) = M/N, se tiene que:
E[ X ] = n . M/N
El calculo de la Varianza es problemático porque las Xi no son independientes y en consecuencia hay que
considerar indicadores no considerados hasta ahora (Covarianzas). El resultado es:
COMPARACIÓN DE LA HYPERGEOMETRICA Y LA BINOMIAL
Para que la probabilidad de éxito (p=M/N) se mantenga mas o menos constante y en ese caso se pueda aplicar
la Binomial, la N debe ser muy grande (tender a infinito). En algunos casos prácticos, usualmente se acepta
esta aproximación cuando n  N/10 . Por otro lado en otras situaciones practicas no importa demasiado
muestrar con o sin reemplazo cuando N, M y N-M son mayores que n.
FUENTE: http://strix.ciens.ucv.ve/~teorprob/guiasteoricas/cap4/cap4.html
DISTRIBUCION GEOMETRICA.
DISTRIBUCIÓN GEOMÉTRICA.
Esta distribución es un caso especial de la Binomial, ya que se desea que ocurra un éxito por primera
y única vez en el último ensayo que se realiza del experimento, para obtener la fórmula de esta
distribución, haremos uso de un ejemplo.
Ejemplo:
Se lanza al aire una moneda cargada 8 veces, de tal manera que la probabilidad de
que aparezca águila es de 2/3, mientras que la probabilidad de que aparezca sello
es de 1/3, Determine la probabilidad de que en el último lanzamiento aparezca una
águila.
Solución:
Si nosotros trazamos un diagrama de árbol que nos represente los 8 lanzamientos
de la moneda, observaremos que la única rama de ese árbol que nos interesa es
aquella en donde aparecen 7 sellos seguidos y por último una águila; como se
muestra a continuación:
SSSSSSSA
Sí denotamos;
x = el número de repeticiones del experimento necesarias para que ocurra un
éxito por primera y única vez = 8 lanzamientos
p = probabilidad de que aparezca una águila = p( éxito) = 2/3
q = probabilidad de que aparezca un sello = p(fracaso) = 1/3
Entonces la probabilidad buscada sería;
P(aparezca
una
águila
en
lanzamiento)=p(S)*p(S)*p(S)*p(S)*p(S)*p(S)*p(S)*p(A) =
el
último
x1
=q*q*q*q*q*q*q*p = q p
Luego, la fórmula a utilizar cuando se desee calcular probabilidades con esta
distribución sería;
p( x )  q x1 p
Donde:
p(x) = probabilidad de que ocurra un éxito en el ensayo x por primera y única vez
p = probabilidad de éxito
q = probabilidad de fracaso
Resolviendo el problema de ejemplo;
x = 8 lanzamientos necesarios para que aparezca por primera vez una águila
p = 2/3 probabilidad de que aparezca una águila
q = 1/3 probabilidad de que aparezca un sello
81
p(x=8) = ( 1 / 3 ) ( 2 / 3 )  0.0003048
Ejemplos:
1. Sí la probabilidad de que un cierto dispositivo de medición muestre una
desviación excesiva es de 0.05, ¿cuál es la probabilidad de que; a) el sexto de
estos dispositivos de medición sometidos a prueba sea el primero en mostrar
una desviación excesiva?, b) el séptimo de estos dispositivos de medición
sometidos a prueba, sea el primero que no muestre una desviación excesiva?.
Solución:
a) a) x = 6 que el sexto dispositivo de medición probado sea el primero
que muestre una variación excesiva
p = 0.05 =probabilidad de que un dispositivo de medición muestre una
variación excesiva
q = 0.95 =probabilidad de que un dispositivo de medición no muestre una
variación excesiva
61
p(x = 6) = ( 0.95 ) ( 0.05 )  0.03869
b) b) x = 5 que el quinto dispositivo de medición probado, sea el primero
que no muestre una desviación excesiva
p = 0.95 = probabilidad de que un dispositivo de medición no muestre una
variación excesiva
q = 0.05 = probabilidad de que un dispositivo de medición muestre una
variación excesiva
51
p(x = 5) = ( 0.05 ) ( 0.95 )  0.0000059
2. Los registros de una compañía constructora de pozos, indican que la
probabilidad de que uno de sus pozos nuevos, requiera de reparaciones en el
término de un año es de 0.20. ¿Cuál es la probabilidad de que el quinto pozo
construido por esta compañía en un año dado sea el primero en requerir
reparaciones en un año?.
Solución:
x = 5 que el quinto pozo sea el primero que requiera reparaciones en un año
p = 0.20 = probabilidad de que un pozo requiera reparaciones en el término de un
año
q = 0.80 = probabilidad de que un pozo no requiera reparaciones en el término de
un año
51
p(x = 5) = ( 0.80 ) ( 0.20 )  0.08192
FUENTE: http://www.itchihuahua.edu.mx/academic/industrial/sabaticorita/index.html
Distribución geométrica ( o de fracasos)
Consideramos una sucesión de v.a. independientes de Bernouilli,
Una v.a. X sigue posee una distribución geométrica,
, si esta es la suma del
número de fracasos obtenidos hasta la aparición del primer éxito en la sucesión
Por ejemplo
.
De este modo tenemos que la ley de probabilidad de X es
6.4.6.1 Observación
Es sencillo comprobar que realmente f es una ley de probabilidad, es decir,
. Para ello basta observar que la sucesión
es una progresión
geométrica de razón q, a la que podemos aplicar su fórmula de sumación:
6.4.6.2 Observación
En la distribución geométrica el conjunto de posibles valores que puede tomar la variable
( ) es infinito numerable, mientras que en la de Bernouilli y en la binomial, estos eran en
número finito.
La función característica se calcula teniendo en cuenta que de nuevo aparece la sumación
de los términos de una progresión geométrica, pero esta vez de razón eit q:
La media y varianza de esta variable aleatoria son:
6.4.6.3 Ejemplo
Un matrimonio quiere tener una hija, y por ello deciden tener hijos hasta el nacimiento de
una hija. Calcular el número esperado de hijos (entre varones y hembras) que tendrá el
matrimonio. Calcular la probabilidad de que la pareja acabe teniendo tres hijos o más.
Solución: Este es un ejemplo de variable geométrica. Vamos a suponer que la probabilidad
de tener un hijo varón es la misma que la de tener una hija hembra. Sea X la v.a.
Es claro que
Sabemos que el número esperado de hijos varones es
esperado en total entre hijos varones y la niña es 2.
, por tanto el número
La probabilidad de que la pareja acabe teniendo tres o más hijos, es la de que tenga 2 o más
hijos varones (la niña está del tercer lugar en adelante), es decir,
Hemos preferido calcular la probabilidad pedida mediante el suceso complementario, ya
que sería más complicado hacerlo mediante la suma infinita
6.4.6.4 Observación
La distribución exponencial también puede ser definida como el número de pruebas
realizadas hasta la obtención del primer éxito (como hubiese sido más adecuado en el
ejemplo anterior). En este caso es un ejercicio sencillo comprobar que X sólo puede tomar
valores naturales mayores o iguales a 1, y que:
FUENTE: http://ftp.medprev.uma.es/libro/node71.htm
En estadística la distribución geométrica es una distribución probabilidad discreta con un
parámetro p cuya función de densidad para valores discretos
es
P(X = x) = p(1 - p)x - 1
Su función de distribución es
El parámetro p (la probabilidad de éxito de un experimento) fija la media estadística E(X) =
1 / p y la varianza V(X) = (1 - p) / p2.
Ejemplo
El número de tirar una cifra determinada con un dado x veces seguidas es una distribución
geométrica con el parámetro p = 1 / 6.
FUENTE: http://es.wikipedia.org/wiki/Distribuci%C3%B3n_geom%C3%A9trica
DISTRIBUCION GEOMETRICA.
Para describir esta distribución se debe considerar un experimento aleatorio de
Bernoulli. Cuando en un experimento de esta naturaleza existen observaciones
independientes y deseamos conocer la probabilidad de que hasta la observación X
aparezca por primera ocasión el éxito, se usa la función de probabilidad conocida como
geométrica.
Con razonamientos similares y funciones, llegamos a concluir que la probabilidad
de que se tenga el primer evento exitoso en el n_ésimo experimento es:
P ( X  x )  q x 1 p
f ( x )  q * q * q*......*q * p  q x 1 p
p( x  x )  q x 1 P
x  1,2,3,......
pq 1
Para que exista el primer éxito, es necesario que anteriormente haya x-1 fracasos.
TEORIA DEL MUESTREO.
Muestra: es parte de una población de objetos, personas, empresas o cosas que es
representativa del total de elementos que conforma el universo.
Población: es la totalidad de las posibles observaciones o medidas que se estén
considerando en alguna investigación de cuyo conjunto, se toma una muestra.
Parámetro: es una medida que describe alguna característica de la población.
Estadístico: es una medida que describe alguna característica de la muestra.
Símbolos más usuales
Tamaño de la muestra
Media aritmética
Varianza
Desviación estándar
Proporción
Población Parámetro
N
M
²

P
Muestra Estadistico
n
x
S²
S
p
Errores en datos estadísticos.
La precisión de los datos estadísticos es un requisito importante para su uso
efectivo en el análisis de los problemas de negocios y económicos. Se pueden distinguir 2
tipos de errores en los datos provenientes de una encuesta.
Error de muestreo: es la diferencia obtenida entre los resultados de una encuesta por
muestreo y los que se hubiesen obtenido de un censo de la población, conducido bajos
los mismos procedimientos.
17 Promed=142.4 / 17 = 8.4
5 Promed= 40.8 / 5 = 8.1
Cuando se hace una investigación en lugar de encuestar a todo el universo o la
población, se toma una muestra que sea representativa del universo.
Se supone que la distribución de la población puede aproximarse de manera
considerable siempre y cuando la muestra sea lo suficiente grande, siendo por lo tanto la
distribución de frecuencias de la muestra satisfactoriamente representativa de la
población muestreada.
Con respecto a la teoría de muestreo se conocen 2 teoremas para 2 casos
diferentes de la distribución de la media muestral.
FUENTE: http://www.micromegas.com.mx/apuntes/documents/estadis1-1/esta10.doc
DISTRIBUCION MULTINOMIAL
DISTRIBUCIÓN MULTINOMIAL.
Características:
a) a) Al llevar a cabo un experimento con esta distribución se esperan más de
dos tipos de resultados.
b) b) Las probabilidades asociadas a cada uno de los resultados son constantes.
c) c) Cada uno de los ensayos o repeticiones del experimento son independientes.
d) d) El número de repeticiones del experimento, n es constante.
Al igual que hicimos con la distribución binomial, en este caso partiremos de un
ejemplo para obtener la fórmula general para resolver problemas que tengan este
tipo de distribución.
Ejemplo:
Se lanza al aire un dado normal, 5 veces, determine la probabilidad de que
aparezca dos números uno, dos números tres y un número cinco.
Solución:
Si pensamos en la forma que se han resuelto otros problemas, lo primero que se
me ocurre es trazar un diagrama de árbol que nos muestre los 5 lanzamientos del
dado; esto sería muy laborioso, y se muestra parte del mismo a continuación;
1
2
1
1
3
2
4.....
3
5
2º lanzamiento
4
6
5
5ºlanzamiento 6
2
3
a
4
1
2
1er lanzamiento
5
3
4
6
6
2º lanzamiento
5
Del diagrama de árbol se obtendría el espacio muestral y enseguida se
determinarían las probabilidades requeridas. En lugar de lo anterior,
obtendremos una fórmula a partir de la siguiente expresión:
p(aparezcan dos unos, dos tres y un cinco)=(número de ramas en donde haya dos
unos, dos tres y un cinco)(probabilidad asociada a cada una de las ramas)
Para esto definiremos lo siguiente:
n = número de lanzamientos del dado
x1 = número de veces que aparece el número 1 = 2
x2 = número de veces que aparece el número 2 = 0
x3 = número de veces que aparece el número 3 = 2
x4 = número de veces que aparece el número 4 = 0
x5 = número de veces que aparece el número 5 = 1
p1 = probabilidad de que aparezca el número 1 = 1/6
p2 = probabilidad de que aparezca el número 2 = 1/6
p3 = probabilidad de que aparezca el número 3 = 1/6
p4 = probabilidad de que aparezca el número 4 = 1/6
p5 = probabilidad de que aparezca el número 5 = 1/6
p6 = probabilidad de que aparezca el número 6 = 1/6
Luego, ¿cómo obtendremos el número de ramas donde aparecen dos números 1, dos
números 3 y un número 5?
Enunciando algunas de las ramas, tenemos lo siguiente;
(1, 1, 5, 3, 3), (5, 1, 1, 3, 3), (1, 3, 3, 1, 5), ... etc, etc.
¿Qué tipo de arreglos son estos, combinaciones, permutaciones o que?
SON PERMUTACIONES EN DONDE HAY OBJETOS IGUALES.
Por tanto el número de ramas se puede obtener de la siguiente manera:
El número de ramas =
Y en forma general,
5
P2 ,2 ,1 
5!
120

 30
2!2!1!
4
n
Px1 ,x2 ,...xk 
n!
x1 ! x2 !...xk !
Luego la probabilidad asociada a cada una de las ramas, sería;
p(asociada a cada una de las ramas) = p(#1)p(#1)p(#3)p(#3)p(#5)=p1*p1*p3*p3*p5=
=p12*p32*p5
Por tanto la fórmula general será:
p( x1 , x2 ,...xk ,n ) 
n!
x
x
xk
p1 1 p 2 2 ....pk
x1 ! x2 !...xk !
donde:
p(x1, x2,....,xk, n) = probabilidad de que en n ensayos aparezcan x1 objetos del primer
tipo, x2 objetos del segundo tipo.......y xk objetos del último tipo.
n = x1+x2+....xk
Resolviendo el ejemplo;
n=5
x1 = número de veces que aparece el número 1 = 2
x2 = número de veces que aparece el número 3 = 2
x3 = número de veces que aparece el número 5 = 1
p1= probabilidad de que aparezca el número 1 = 1/6
p2 = probabilidad de que aparezca el número 2 = 1/6
p3 = probabilidad de que aparezca el número 3 = 1/6
p  ( x1  1, x2  2, x3  1,n  5 ) 
5!
( 1 / 6 )2 ( 1 / 6 )2 ( 1 / 6 )1  ( 30 )( 0.0001286 )  0.003858
2!2!1!
Ejemplos:
1. Las probabilidades son de 0.40, 0.20, 0.30 y 0.10, respectivamente, de que un delegado
llegue por aire a una cierta convención, llegue en autobús, en automóvil o en tren. ¿Cuál es la
probabilidad de que entre 9 delegados seleccionados aleatoriamente en esta convención a) 3
hayan llegado por aire, 3 en autobús, 1 en auto y 2 en tren?, b) 4 hayan llegado por aire, 1 en
autobús y 2 en auto?, c) 5 hayan llegado en auto?
Solución:
a) n = 9
x1= # de delegados que llegan por aire = 3
x2= # de delegados que llegan en autobús = 3
x3= # de delegados que llegan en auto = 1
x4= # de delegados que llegan en tren = 2
p1 = probabilidad de que un delegado llegue por aire = 0.40
p2 = probabilidad de que un delegado llegue en autobús = 0.20
p3 = probabilidad de que un delegado llegue en auto = 0.30
p4 = probabilidad de que un delegado llegue en tren = 0.10
p( x1  3, x2  3, x3  1, x4  2; n  9 ) 
b) n=9
x1 = 4 por aire;
x2 = 1 en autobús;
x3 = 2 en auto;
x4 = 2 en tren;
9!
( 0.40 )3 ( 0.20 )3 ( 0.30 )1( 0.10 )2  0.0077414
3!3!1!2!
p1 = 0.40
p2 = 0.20
p3 = 0.30
p4 = 0.10
p( x1  4, x2  1, x3  2, x4  2; n  9 ) 
9!
( 0.40 )4 ( 0.20 )1( 0.30 )2 ( 0.30 )2  0.15676
4!1!2!2!
c)
n=9
x1= 5 lleguen en auto;
p1 = 0.30
x2 = 4 (lleguen por aire o autobús o tren); p2 = 0.40+0.20+0.10 = 0.70
p( x1  5, x2  4; n  9 ) 
9!
( 0.30 )5 ( 0.70 )4  0.073514
5!4!
2. De acuerdo con la teoría de la genética, un cierto cruce de conejillo de indias resultará en
una descendencia roja, negra y blanca en la relación 8 : 4 : 4. Encuentre la probabilidad de
que entre 8 descendientes, a) 5 sean rojos, 2 negros y un blanco, b) 3 sean rojos y 2 sean
negros.
Solución:
a)
n=8
x1 = 5 rojos;
x2 = 2 negros;
x3 = 1 blanco;
p1= prob. Sean rojos = 8/16 = 0.50
p2 = prob. Sean negros = 4/16 = 0.25
p3 = prob. Sean blancos = 4/16 = 0.25
p( x1  5, x2  2, x3  1; n  8 ) 
b)
n=8
x1 = 3 rojos;
x2 = 2 negros;
p1 = 0.50
p2 = 0.25
8!
( 0.50 )5 ( 0.25 )2 ( 0.25 )1  0.082031
5!2!1!
x3 = 3 blancos;
p3 = 0.25
p( x1  3, x2  2, x3  3; n  8 ) 
8!
( 0.50 )3 ( 0.25 )2 ( 0.25 )3  0.068359
3!2!3!
3.Según una encuesta preliminar acerca del voto que los ciudadanos darán por los candidatos
para gobernador del estado se ha detectado que aproximadamente un 52% votará por el
partido verde, un 40% por el partido azul y un 8% por los partidos restantes, si se seleccionan
aleatoriamente 6 personas con edad de votar, determine la probabilidad de que: a) 2 voten
por el partido verde, 1 por el azul y 3 por el resto de los partidos, b) 2 voten por el partido
verde y 4 por el azul.
Solución:
a) n = 6
x1= 2 voten por partido verde; p1= prob. de que una persona vote por partido verde = 0.52
x2= 1 vote por partido azul;
p2 = prob. de que una persona vote por partido azul = 0.40
x3= 3 voten por otros partidos; p3 = prob. de que una persona vote por otros partidos = 0.08
p( x1  2, x2  1, x3  3 : n  6 ) 
6!
( 0.52 )2 ( 0.40 )1( 0.08 )3  0.0033226
2!1!3!
b)n = 6
x1= 2 voten por el partido verde; p1= prob. de que una persona vote por partido verde=0.52
x2= 4 vote por partido azul;
p2 = prob. de que una persona vote por partido azul = 0.40
x3= 0 voten por otros partidos; p3 = prob. de que una persona vote por otros partidos = 0.08
FUENTE: http://www.itchihuahua.edu.mx/academic/industrial/sabaticorita/index.html
DISTRIBUCION MULTINOMIAL.
Si los sucesos E1, E2, ....., Ek pueden ocurrir con frecuencias P1, P2,.....,Pk
respectivamente, entonces la probabilidad, entonces la probabilidad de E1, E2, ....., Ek
ocurran hasta X1, X2, ....., Xk veces, respectivamente es:
X 1 ! X 2 !... X k ! 1 2
P x1 P x 2 ..... Pk x1
N!
Donde:
X 1  X 2 ... X k  N
Esta distribución, que es una generalización de la distribución binomial, se llama
distribución multinomial, ya que la fórmula es el término general en el desarrollo
multinomial:
( P1  P2 ..... Pk ) N
Ejemplo:
¿Cuál es la probabilidad si se lanza un dado 12 veces, cuál es la probabilidad de
obtener 1,2,3,4,5,6 puntos exactamente 2 veces cada uno.
X 1 ! X 2 !... X k ! 1 2
P x1 P x 2 ..... Pk x1
N!
 0.289%
64

(0.000000000387)  7484400(0.000000000387)  0.00289 * 100
479001600
(2 * 1)(2 * 1)(2 * 1)(2 * 1)(2 * 1)(2 * 1)

(0.027)(0.027)(0.027)(0.027)(0.027)(0.027)
12 * 11 * 10 * 9 * 8 * 7 * 6 * 5 * 4 * 3 * 2 * 1
2! 2! 2! 2! 2! 2!  6   6   6   6   6   6 
           
 1  1  1  1  1  1
12!
2
2
2
2
2
2
FUENTE: http://www.micromegas.com.mx/apuntes/documents/estadis1-1/esta09.doc
La distribución multinomial es similar a la distribución binomial, con la diferencia de que en lugar
de dos posibles resultados en cada ensayo, puede haber múltiples resultados:
Ejemplo de distribución binomial: a unas elecciones se presentaron 2 partidos políticos: el
POPO obtuvo un 70% de los votos y el JEJE el 30% restante. ¿Cuál es la probabilidad de que al
elegir 5 ciudadanos al azar, 4 de ellos hallan votado al JEJE?
Ejemplo de distribución multinomial: a esas elecciones se presentaron 4 partidos políticos: el
POPO obtuvo un 40% de los votos, el JEJE el 30%, el MUMU el 20% y el LALA el 10% restante.
¿Cuál es la probabilidad de que al elegir 5 ciudadanos al azar, 3 hayan votado al POPO, 1 al
MUMU y 1 al LALA?
La distribución multinomial sigue el siguiente modelo:
Donde:
X1 = x1: indica que el suceso X1 aparezca x1 veces (en el ejemplo, que el partido POPO lo hayan
votado 3 personas)
n: indica el número de veces que se ha repetido el suceso (en el ejemplo, 5 veces)
n!: es factorial de n (en el ejemplo: 5 * 4 * 3 * 2 * 1)
p1: es la probabilidad del suceso X1 (en el ejemplo, el 40%)
Veamos el ejemplo:
Luego:
P = 0,0256
Es decir, que la probabilidad de que las 5 personas elegidas hayan votado de esta manera es tan
sólo del 2,56%
Nota: 0! es igual a 1, y cualquier número elevado a 0 es también igual a 1
Veamos otro ejemplo:
En una fiesta, el 20% de los asistentes son españoles, el 30% franceses, el 40% italiano y el 10%
portugueses. En un pequeño grupo se han reunido 4 invitados: ¿cual es la probabilidad de que 2
sean españoles y 2 italianos?
Aplicamos el modelo:
Luego
P = 0,0384
Por lo tanto, la probabilidad de que el grupo esté formado por personas de estos países es tan sólo
del 3,84%.
FUENTE: http://www.aulafacil.com/CursoEstadistica/Lecc-31-est.htm
DISTRIBUCION DE POISSON
DISTRIBUCIÓN DE POISSON.
Características:
En este tipo de experimentos los éxitos buscados son expresados por unidad de área,
tiempo, pieza, etc, etc,:
- # de defectos de una tela por m2
- # de aviones que aterrizan en un aeropuerto por día, hora, minuto, etc, etc.
- # de bacterias por cm2 de cultivo
- # de llamadas telefónicas a un conmutador por hora, minuto, etc, etc.
- # de llegadas de embarcaciones a un puerto por día, mes, etc, etc.
Para determinar la probabilidad de que ocurran x éxitos por unidad de tiempo, área,
o producto, la fórmula a utilizar sería:
p( x , ) 
x  
x!
donde:
p(x, ) = probabilidad de que ocurran x éxitos, cuando el número promedio de
ocurrencia de ellos es 
 = media o promedio de éxitos por unidad de tiempo, área o producto
 = 2.718
x = variable que nos denota el número de éxitos que se desea que ocurra
Hay que hacer notar que en esta distribución el número de éxitos que ocurren por
unidad de tiempo, área o producto es totalmente al azar y que cada intervalo de
tiempo es independiente de otro intervalo dado, así como cada área es independiente
de otra área dada y cada producto es independiente de otro producto dado.
Ejemplos:
1. Si un banco recibe en promedio 6 cheques sin fondo por día, ¿cuáles son las
probabilidades de que reciba, a) cuatro cheques sin fondo en un día dado, b) 10
cheques sin fondos en cualquiera de dos días consecutivos?
Solución:
a) a) x = variable que nos define el número de cheques sin fondo que
llegan al banco en un día cualquiera = 0, 1, 2, 3, ....., etc, etc.
 = 6 cheques sin fondo por día
 = 2.718
( 6 )4 ( 2.718)6 ( 1296)( 0.00248)
p( x  4,  6 ) 

 0.13392
4!
24
b)
x= variable que nos define el número de cheques sin fondo que llegan al
banco en dos días consecutivos = 0, 1, 2, 3, ......, etc., etc.
 = 6 x 2 = 12 cheques sin fondo en promedio que llegan al banco en dos
días consecutivos
Nota:  siempre debe de estar en función de x siempre o dicho de otra
forma, debe “hablar” de lo mismo que x.
p( x  10,  12 ) 
( 12 )10 ( 2.718)12 ( 6.191736410 )( 0.000006151)

 0.104953
10!
3628800
2. En la inspección de hojalata producida por un proceso electrolítico continuo, se
identifican 0.2 imperfecciones en promedio por minuto. Determine las
probabilidades de identificar a) una imperfección en 3 minutos, b) al menos
dos imperfecciones en 5 minutos, c) cuando más una imperfección en 15
minutos.
Solución:
a) a) x = variable que nos define el número de imperfecciones en la
hojalata por cada 3 minutos = 0, 1, 2, 3, ...., etc., etc.
 = 0.2 x 3 =0.6 imperfecciones en promedio por cada 3 minutos en la
hojalata
p( x  1,  0.6 ) 
( 0.6 )1( 2.718)0.6 ( 0.6 )( 0.548845)

 0.329307
1!
1
b) b) x = variable que nos define el número de imperfecciones en la
hojalata por cada 5 minutos = 0, 1, 2, 3, ...., etc., etc.
 = 0.2 x 5 =1 imperfección en promedio por cada 5 minutos en la hojalata
 ( 1 )0 ( 2.718)1 ( 1 )( 2.718)1 
 
p( x  2,3,4,etc....  1 )  1  p( x  0,1,  1 )  1  

0
!
1
!


=1-(0.367918+0.367918) = 0.26416
c) c) x = variable que nos define el número de imperfecciones en la
hojalata por cada 15 minutos = 0, 1, 2, 3, ....., etc., etc.
 = 0.2 x 15 = 3 imperfecciones en promedio por cada 15 minutos en la
hojalata
p( x  0,1,  3 )  p( x  0,  3 )  p( x  1,  3 ) 
( 3 )0 ( 2.718)3 ( 3 )1( 2.718)3


0!
1!
= 0.0498026 +
0.149408 = 0.1992106
FUENTE: www.itchihuahua.edu.mx/academic/industrial/sabaticorita/index.html
En estadística la distribución de Poisson es una distribución de probabilidad discreta con
un parámetro λ < 0 cuya función de masa para sucesos
es
Aquí e significa el número e y x! significa el factorial de x.
La distribución de Poisson describe el número de sucesos en una unidad de tiempo de un
proceso de Poisson. Muchos fenómenos se modelan como un proceso de Poisson, por
ejemplo las llamadas en una empresa o los accidentes en una carrera.
El valor esperado y la varianza de una variable aleatoria X de distribución Poisson son
E[X] = V[X] = λ
FUENTE: http://es.wikipedia.org/wiki/Distribuci%C3%B3n_Poisson
La Distribución de Poisson se llama así en honor a Simeón Dennis Poisson (1781-1840), francés
que desarrolló esta distribución basándose en estudios efectuados en la última parte de su vida.
La distribución de Poisson se emplea para describir varios procesos, entre otros la distribución
de las llamadas telefónicas que llagan a un conmutador, la demanda (necesidades) de servicios
en una institución asistencial por parte de los pacientes, los arribos de los camiones y
automóviles a la caseta de cobro y el número de accidentes en un cruce. Los ejemplos citados
tienen un elemento en común, pueden ser descritos por una variable aleatoria discreta que
asume valores enteros (0,1,2,3,4,5 y así sucesivamente).
El número de enfermos que llegan a un consultorio en cierto intervalo de tiempo será de
0,1,2,3,4,5 o algún otro número entero. De manera análoga, si se cuenta el número de
automóviles que llegan a una caseta de cobro durante un periodo de diez minutos, el número
será entero.
Características de los procesos que producen una distribución de la probabilidad de Poisson.
El número de vehículos que pasan por una caseta de cobro en las horas de mayor tráfico sirve
como ejemplo para mostrar las características de una distribución de probabilidad de Poisson.
El promedio (media) de los arribos de vehículos por hora de gran tráfico puede estimarse a
partir de los datos anteriores del tráfico.
Si dividimos las horas de gran tráfico en periodos (intervalos) de un segundo cada uno,
encontraremos que los siguientes enunciados son verdaderos:
a) La probabilidad de que exactamente un vehículo llegue por segundo a una caseta individual
es un número muy pequeño y es constante para que cada intervalo de un segundo.
b) La probabilidad de que dos o más vehículos lleguen en un intervalo de un segundo es tan
reducida que podemos asignarle un valor cero.
c) El número de vehículos que llegan en determinado intervalo de un segundo es independiente
del momento en que el intervalo de un segundo ocurre durante la hora de gran tráfico.
d) El número de llegadas en cualquier intervalo de un segundo no depende del número de
arribos de cualquier otro intervalo de un segundo.
Ahora bien, podemos generalizar partiendo de las cuatro condiciones que hemos descrito en
este ejemplo, si estas condiciones se cumplen nos apoyaremos en una distribución de
probabilidad de Poisson para describirlos.
Cálculo de probabilidades mediante la distribución de Poisson.
La distribución de Poisson, según hemos señalado, se refiere a ciertos procesos que pueden ser
descritos con una variable aleatoria discreta. La letra X suele representar esa variable y puede
además asumir valores enteros (0,1,2,3 etc..) . Utilizamos la letra X mayúscula para
representar la variable aleatoria y la x minúscula para designar un valor específico que puede
asumir la X mayúscula. La probabilidad de exactamente x ocurrencias en una distribución de
Poisson se calcula mediante la fórmula:
P(x) =  x * e- / x!
 x = Lambda
(número medio de ocurrencias por intervalo de tiempo) elevada a la potencia x.
e- = e= 2.71828 elevado a la potencia de lambda negativa.
x! = x factorial.
Ejemplo :
Supóngase que estamos investigando la seguridad de un crucero muy peligroso. Los archivos de
la policía indican una media de cinco accidentes por mes en él. El número de accidentes está
distribuido conforme a la distribución de Poisson, y la división de seguridad en carreteras quiere
calcular la probabilidad de exactamente 0,1,2,3 y 4 accidentes en un mes determinado.
Aplicando la fórmula anterior:
P(0) = (5)0 (e-5) /0! = 0.00674
P(1) = (5)1 (e-5) /1! = 0.03370
P(2) = (5)2 (e-5) /2! = 0.08425
P(3) = (5)3 (e-5) /3! = 0.14042
P(4) = (5)4 (e-5) /4! = 0.17552
Para saber cual es la probabilidad en 3 o menos, sumaremos las probabilidades de 0,1,2,3 lo
que será igual a :
P(0) = 0.00674
P(1) = 0.03370
P(2) = 0.08425
P(3) = 0.14042
P(3 o menos) = 0.26511
Dado que la probabilidad de que haya 3 o menos accidentes es de 0.26511 entonces la
probabilidad de que ocurran más de tres debe ser = 1 –0.26511 = 0.73489.
La distribución de Poisson como una aproximación a la distribución binomial.
Algunas veces, si se desea evitar el tedioso trabajo de calcular las distribuciones binomiales, se
puede usar a cambio la de Poisson, pero debe cumplir con ciertas condiciones como :
n=>20
p=<0.05
En los casos en que se satisfacen tales condiciones, podemos sustituir la media de la
distribución binomial en lugar de la media de la distribución de Poisson de modo que la fórmula
quedaría así:
P(x) = (np) X * e-np /x!
FUENTE:
http://www.gestiopolis.com/recursos/experto/catsexp/pagans/eco/44/distripoisson.htm
Distribución de Poisson (o de los sucesos raros)
Una v.a. X posee una ley de distribución de probabilidades del tipo Poisson cuando
Este tipo de leyes se aplican a sucesos con probabilidad muy baja de ocurrir, obteniéndose
como la distribución límite de una sucesión de variable binomiales,
,y
(por tanto
, donde
).
La demostración de esto consiste en
En general utilizaremos la distribución de Poisson como aproximación de experimentos
binomiales donde el número de pruebas es muy alto, pero la probabilidad de éxito muy
baja. A veces se suele utilizar como criterio de aproximación:
La ley de Poisson la podemos encontrar tabulada en la tabla número 2, para ciertos valores
usuales de .
La función característica de
es
de lo que se deduce que valor esperado y varianza coinciden
6.4.12.1 Ejemplo
Cierta enfermedad tiene una probabilidad muy baja de ocurrir, p=1/100.000. Calcular la
probabilidad de que en una ciudad con 500.000 habitantes haya más de 3 personas con
dicha enfermedad. Calcular el número esperado de habitantes que la padecen.
Solución: Si consideramos la v.a. X que contabiliza el número de personas que padecen la
enfermedad, es claro que sigue un modelo binomial, pero que puede ser muy bien
aproximado por un modelo de Poisson, de modo que
Así el número esperado de personas que padecen la enfermedad es
. Como
, existe una gran dispersión, y no sería extraño encontrar que en realidad hay
muchas más personas o menos que están enfermas. La probabilidad de que haya más de tres
personas enfermas es:
FUENTE: http://ftp.medprev.uma.es/libro/node74.htm
Distribución de Poisson
Los experimentos que resultan en valores numéricos de una variable aleatoria X, misma
que representa el número de resultados durante el intervalo de tiempo dado o una región
específica, frecuentemente se llaman experimentos de Poisson. El intervalo de tiempo dado
puede ser de cualquier duración de tiempo, por ejemplo un minuto, un día, una semana, un
mes o inclusive un año. De aquí que un experimento de Poisson puede generar
observaciones para la variable aleatoria X que representa el número de algún evento en un
lapso de tiempo dado.
Un experimento de Poisson sugiere del proceso de Poisson y tiene las siguientas
propiedades:
1. El número de resultados que ocurren en un intervalo de tiempo o región específicos
es independiente de el número que ocurre en cualquier otro intervalo disjunto de
tiempo o región del espacio disjunto.
2. La probabilidad de que un resultado muy sencillo ocurra en un intervalo de tiempo
muy corto o en una región pequeña es proporcional a la longitud del intervalo de
tiempo o al tamaño de la región.
3. La probabilidad de que más de un resultado ocurra en un intervalo de tiempo tan
corto o en esa región tan pequeña es despreciable.
La distribución de probabilidad de la variable aleatoria de Poisson X que representa el
número de resultados que ocurren en un intervalo de tiempo dado, indicado por t es:
FUENTE: http://delta.cs.cinvestav.mx/~mcintosh/oldweb/s1998/alejandro/node3.html
APROXIMACIÓN DE POISSON A LA BINOMIAL.
En este caso se determinarán probabilidades de experimentos Binomiales, pero que dadas sus
características, es posible aproximarlas con la distribución de Poisson, estas características son, n
 ( n es muy grande) y p0 (p es muy pequeña), por lo que:
  
x
p( x ,n, p )n Cx p q
x
n x

x!
La expresión anterior solo se cumple cuando n  y p0, solo en este caso, si esto no se cumple, la
aproximación no se puede llevar a efecto, por lo que la fórmula a utilizar en este caso sería:
p( x , ) 
x  
x!
Donde:
 == np = número esperado de éxitos = tasa promedio de éxitos
n = número de repeticiones del experimento
p = probabilidad de éxito = p(éxito)
Una regla general aceptable es emplear esta aproximación si n20 y p0.05: sí
n100, la aproximación es generalmente excelente siempre y cuando np10.
Ejemplos:
1. 1. Se sabe que el 5% de los libros encuadernados en cierto taller tienen
encuadernaciones defectuosas. Determine la probabilidad de que 2 de 100
libros encuadernados en ese taller, tengan encuadernaciones defectuosas,
usando, a) la fórmula de la distribución Binomial, b) la aproximación de
Poisson a la distribución Binomial.
Solución:
a) n = 100
p = 0.05 = p(encuadernación defectuosa) = p(éxito)
q = 0.95 = p(encuadernación no defectuosa) = p(fracaso)
x = variable que nos define el número de encuadernaciones defectuosas en la
muestra = = 0, 1, 2, 3,....,100 encuadernaciones defectuosas
P( x  2,n  100, p  0.05)100 C2( 0.05)2( 0.95)98  ( 4950)( 0.05)2( 0.95)98  0.0812
b)n = 100 encuadernaciones
p = 0.05
 = np = (100)(0.05)= 5
x = variable que nos define el número de encuadernaciones defectuosas en la
muestra = = 0, 1, 2, 3,....,100 encuadernaciones defectuosas
p( x  2,  5 ) 
x  
x!

( 5 )2 ( 2.718)5
 0.0843
2!
Al comparar los resultados de las probabilidades con una y otra distribución, nos
damos cuenta de que la diferencia entre un cálculo y otro es de tan solo 0.0031, por lo
que la aproximación de Poisson es una buena opción para calcular probabilidades
Binomiales.
2.Un fabricante de maquinaria pesada tiene instalados en el campo 3840 generadores
de gran tamaño con garantía. Sí la probabilidad de que cualquiera de ellos falle
durante el año dado es de 1/1200 determine la probabilidad de que a) 4 generadores
fallen durante el año en cuestión, b) que más 1 de un generador falle durante el año en
cuestión.
Solución:
a) n = 3840 generadores
p = 1/1200 = probabilidad de que un generador falle durante el año de garantía
 = np = (3840)(1/1200) = 3.2 motores en promedio pueden fallar en el año de garantía
x = variable que nos define el número de motores que pueden fallar en el año de
garantía =
= 0, 1, 2, 3,....,3840 motores que pueden fallar en el año de garantía
p( x  4,  3.2 ) 
( 3.2 )4 ( 2.718)3.2
 0.17815
4!
b) p(x=2,3,4,....,3840;=3.2)=1-p(x=0,1;=3.2) =
 ( 3.2 )0 ( 2.718)3.2 ( 3.2 )1( 2.718)3.2 

 1  

0!
1!


=1- (0.04078 + 0.13048) = 0.82874
3. En un proceso de manufactura, en el cual se producen piezas de vidrio, ocurren
defectos o burbujas, ocasionando que la pieza sea indeseable para la venta. Se sabe
que en promedio 1 de cada 1000 piezas tiene una o más burbujas. ¿Cuál es la
probabilidad de que en una muestra aleatoria de 8000 piezas, menos de 3 de ellas
tengan burbujas?
Solución:
n = 8000 piezas
p = 1/1000= 0.001 probabilidad de que una pieza tenga 1 o más burbujas
 = np = (8000)(1/1000) = 8 piezas en promedio con 1 o más burbujas
x = variable que nos define el número de piezas que tienen 1 o más burbujas =
= 0,1, 2, 3,....,8000 piezas con una o más burbujas
p( x  0,1,2;   8 ) 
( 8 )0 ( 2.718)8 ( 8 )1( 2.718)8 ( 8 )2 ( 2.718)8



0!
1!
2!
= 0.000336 + 0.002686 + 0.010744 = 0.013766
FUENTE: http://www.itchihuahua.edu.mx/academic/industrial/sabaticorita/index.html
UNIDAD 4: MODELOS ANALITICOS DE
FENOMENOS ALEATORIOS CONTINUOS.
DEFINICION DE VARIABLE ALEATORIA CONTINUA.
Variable aleatoria continua.
Es aquella que puede tomar infinitos valores dentro de un intervalo de la recta real. Por
ejemplo, la duración de las bombillas de una determinada marca y modelo.
En el caso de variables aleatorias continuas no tiene sentido plantearse probabilidades de
resultados aislados, por ejemplo, probabilidad de que una bombilla dure 100 horas, 22
minutos y 16 segundos. La probabilidad sería 0.
El interés de estas probabilidades está en conocer la probabilidad correspondiente a un
intervalo. Dicha probabilidad se conoce mediante una curva llamada función de densidad y
suponiendo que bajo dicha curva hay un área de una unidad.
Conociendo esta curva, basta calcular el área correspondiente para conocer la probabilidad
de un intervalo cualquiera.
La función de densidad de una v.a. continua cumple las siguientes condiciones:
 Sólo puede tomar valores comprendidos entre 0 y 1: 0  f ( x)  1

El área encerrada bajo la curva es igual a la unidad:



f ( x).dx  1 .
Ejercicio:
x
con x  0,6. Comprueba que es una función de densidad y calcula
18
p(2  x  5)
Sea f ( x) 
Solución:
Para que sea función de densidad

6
0
x
dx tiene que valer 1. Veamos:
18
6
x
1  x2 
1  36

0 18 dx  18  2   18  2  0   1
0
6
5
x
1  x2 
1  25 4  21 7
p(2  x  5)  
dx        

2 18
18  2  2 18  2 2  36 12
5
Función de distribución.
Como en el caso de la v.a. discreta, la función de distribución proporciona la probabilidad
acumulada hasta un determinado valor de la variable, es decir, F ( x)  p( X  x) .
Cumple las siguientes condiciones:
 Su valor es cero para todos los puntos situados a la izquierda del menor valor de
la variable.
 Su valor es 1 para todos los puntos situados a la derecha del mayor valor de la
variable.
Media y varianza de una v.a. continua.
Existe cierta correspondencia entre la variable aleatoria discreta y la continua:
Variable aleatoria discreta
   xi . p i
Variable aleatoria continua
   x pi  
   x 2 f ( x)dx   2
2
Lo que es

2
i
pasa a ser

2
b
   x. f ( x).dx
a
2
y lo que es pi pasa a ser f (x)
b
a
Ejercicio 1.
La función de densidad de una v.a. continua viene definida por :
2 x si 0  x  1
f ( x)  
0 en el resto
a) Halla la función de distribución.
b) Calcula la media y la varianza.
Solución:
a) La función de distribución se obtiene integrando la función de densidad, es decir,
A la izquierda de 0, su valor 0.
A la derecha de 1, su valor es 1
x
Entre 0 y 1: F ( x)  p( X  x)   2 xdx  x 2
0

x
0
 x2
0 si x  0

es decir, F ( x)  x 2 si 0  x  1
1 para x  1

b
1
a
0
b) Cálculo de la media:    x. f ( x).dx   x.2 x.dx 
b
1
a
0
2
3
Cálculo de la varianza:  2   x 2 f ( x)dx   2   x 2 .2 x.dx 
4 1

9 18
Ejercicio 2.
Calcula la media, la varianza y la desviación típica de una v.a. que tiene como función de
x3
con x  1,5
densidad: f ( x) 
24
Solución:
5
b
Media:    x. f ( x).dx  
a
b
x3
1 5 2
1  x 3 3x 2 
29
x.
dx 
( x  3x)dx 
 
 

1
24
24
24  3
2 1
9
Varianza:    x f ( x)dx    
2
2
2
a
5
5
1
x3
1 5
 29 
 29 
x
dx      ( x 3  3x 2 )dx    
24
24 1
 9
 9
1  x4
104
 29 
3

 1,28 .
  x    
24  4
81
1  9 
2
Desviación típica:   1,28  1,13
2
2
2
Ejercicio 3.
x2 1
con x  2,5 , una función de densidad.
36
a) Calcula su función de distribución.
b) Calcula p(3  x  4) .
Sea f ( x) 
Solución:
x2 1
1 x
1 3
x 3  3x  2

a) F ( x)  p( X  x)  
dx   ( x 2  1)dx  ( x  x) 
3
2
36
36 2
36
108
2
 Su valor es cero para todos los puntos situados a la izquierda de 2
 Su valor es 1 para todos los puntos situados a la derecha de 5
x
x
4
b) p(3  x  4)  
4
3

x2 1
1 4 2
1  x3
1 x 3  3x 
17


dx 
( x  1)dx  
 x  
 

3
36
36
36  3
 3 36 3  3 54
4
FUENTE: http://www.mundofree.com/fsanchezf/prob_est.htm
Variables aleatorias continuas
Definición 3.6 Sea una variable aleatoria con valores en y
una densidad de probabilidad sobre . Se dice que es una
variable aleatoria continua de densidad
de se tiene:
La ley de la variable aleatoria
densidad
si para todo intervalo
es la ley continua sobre
, de
.
Para determinar la ley de una variable aleatoria continua, hay que
calcular su densidad. De manera equivalente, la ley de una variable
continua se determina dando la probabilidad de que ella pertenezca
a un intervalo cualquiera. Es lo que hemos hecho para nuestro
ejemplo de base, el llamado a Random, que es una variable
aleatoria continua, de densidad
continua
igual a :
de densidad
. Una variable aleatoria
, cae entre
y con una probabilidad
Mientras más grande sea la densidad
en un segmento, mayores
serán las probabilidades de que caiga en ese segmento, lo cual
justifica el término ``densidad''.
Como ya hemos observado para Random, la probabilidad de que
una variable aleatoria continua caiga en un punto cualquiera es
nula.
En consecuencia:
Observemos también que el modificar una densidad en un número
finito o numerable de puntos, no cambia de las integrales sobre los
segmentos y en consecuencia la ley de probabilidad asociada
tampoco cambia. El valor que toma la densidad en un punto
particular, no es importante. Por ejemplo Random tiene como
densidad a
pero da lo mismo usar
. Como en los casos
discretos, debemos conocer algunos ejemplos básicos. Las
densidades se dan en un punto cualquiera de .
Ley uniforme.
La ley uniforme sobre un intervalo es la ley de ``sorteos al azar'' en
un intervalo. Si
el intervalo
función:
son dos números reales, la ley uniforme sobre
se denota por
. Ella tiene por densidad a la
Random es una variable aleatoria de ley uniforme
.
Ley exponencial.
Las leyes exponenciales modelan intervalos de tiempo o duraciones
aleatorias, como la vida de una partícula en física. La ley
exponencial de parámetro
densidad a la función:
se denota por
. Ella tiene por
Ley normal.
La ley normal, ley de Gauss o Laplace-Gauss es la más célebre de
las leyes de probabilidad. Su éxito y su omnipresencia en las
ciencias de la vida vienen del Teorema del Límite Centrado que
estudiaremos más adelante. La ley normal de parámetros
se denota por
y
. Ella tiene por densidad a la función:
Las leyes exponenciales y normales constituyen el núcleo de las
familias de leyes clásicas que se encuentran mas frecuentemente
en estadística.
Ley de Weibull.
La ley de Weibull de parámetros
y
, denotada por
, tiene por densidad:
Se la emplea como modelo de duración aleatoria, principalmente en
fiabilidad (duración de funcionamiento sin roturas, duración de
reparación). La ley
es la ley
.
Ley gamma.
La ley gamma de parámetros
tiene por densidad:
y
, denotada por
donde
es la ``función gamma'', definida por
. Para
entero,
y
, la ley
es llamada ley
de chi cuadrado con grados de libertad y se denota por
.
Esta es la ley de la suma de los cuadrados de variables aleatorias
independientes de ley
, se emplea para las varianzas
empíricas de muestras gaussianas. La ley
exponencial
.
es la ley
Ley beta.
La ley beta de parámetros
por densidad:
y
, denotada por
tiene
Esta familia de leyes nos provee de modelos no uniformes para
variables aleatorias acotadas. Si unas variables aleatorias
independientes siguen la ley uniforme
, sus estadígrafos de
orden (valores reordenadas) siguen leyes beta.
Ley log-normal.
La ley log-normal
es la ley de una variable aleatoria, de
valores positivos, cuyo logaritmo sigue la ley
densidad a la función:
. Ella tiene por
En medicina, numerosos parámetros fisiológicos son modelados
empleando leyes log-normales.
Ley de Student.
La ley de Student con
relación
grados de libertad,
, es la ley de la
, donde las variables aleatorias
independientes, de ley
densidad a la función:
,
de ley
e
son
. Ella tiene por
Se la utiliza para estudiar la media empírica de una muestra
gaussiana.
Ley de Fisher.
La ley de Fisher de parámetros
la relación
y
, donde
independientes de leyes
por densidad a la función:
(enteros positivos) es la ley de
e
son dos variables aleatorias
y
respectivamente. Ella tiene
Se la emplea para comparar las varianzas de muestras gaussianas.
FUENTE: http://www.math-info.univ-paris5.fr/~ycart/emel/cours/mp/node13.html
FUNCION DE DENSIDAD Y ACOMULATIVA.
La función de densidad de probabilidad normal
Es bien conocido que el clasificador de Bayes minimiza la probabilidad de error de
clasificación. Recordando la regla de clasificación de Bayes,
Seleccionar
si P(
| X) > P(
| X) para toda j
i.
o de otra forma,
Seleccionar
si P(X|
)
> P(X|
)
para toda j
i.
esta regla está determinada por la función de densidad de probabilidad, p (X| ). Así,
suponiendo conocidas las probabilidades a priori, el cálculo de la densidad de probabilidad
es un requisito indispensable para poder clasificar por esta regla cualquier patrón X y si se
conoce la forma funcional de P(X|
) el problema es trivial.
Entre las funciones de densidad de probabilidad, la función de densidad normal
(gaussiana) es la más tratada en la Literatura por su tratabilidad analítica y sus interesantes
propiedades. Algunas de ellas son:
1. Parámetros que especifican la distribución. La función de densidad normal queda
completamente especificada por pocos parámetros. En el caso unidimensional,
bastan únicamente dos parámetros: la media y la varianza. En el caso
multidimensional, el vector medio y la matriz de covarianza.
2. Incorrelación e independencia. Dado un conjunto de patrones que siguen una
distribución normal, si las variables asociadas están incorreladas, entonces son
independientes.
3. Justificación física. La suposición de normalidad es una aproximación razonable
para la mayor parte de los datos tomados de la Naturaleza. Esto es cierto, en
particular, para variables aleatorias que son suma de otras variables y el teorema
central del límite puede aplicarse.
La función de densidad normal es acertada en situaciones en las que un conjunto de
patrones de una determinada clase toman valores en un rango contínuo y alrededor
de un patrón promedio. Esto es, considera que los patrones de clases diferentes
tienen distintos valores pero los valores de los patrones de una clase son lo más
parecidos posible.
4. Densidades marginales y condicionadas. Las densidades marginales y
condicionadas de una distribución normal son también normales.
5. Invarianza frente a transformaciones lineales. La distribución que sigue
cualquier combinación lineal de una variable aleatoria normal es también normal
(con diferentes parámetros). Además, siempre es posible encontrar una
transformación lineal y no singular que hace que la nueva matriz de covarianza sea
diagonal, esto es, siempre puede encontrarse, para una distribución normal, un
nuevo conjunto de ejes tal que las nuevas variables son independientes en este
nuevo sistema.
Esta propiedad es particularmente interesante cuando se aplican transformaciones
lineales a los datos, con objeto de resaltar algunas características que se ponen de
manifiesto con estas transformaciones.
Además, desde un punto de vista práctico (dada su tratabilidad analítica) la relación
calidad-costo de la clasificación es mucho mejor que con otros modelos más complejos y
los clasificadores diseñados bajo esta suposición son clasificadores robustos.
2.1 La función de densidad de probabilidad normal unidimensional
La forma de funcional de la función de densidad de probabilidad normal para una variable
es la siguiente:
(1)
P (x|
)=
exp
-
que inidica la probabilidad de que, asumiendo que la clase cierta sea
observado tenga el valor x. En la ecuación 1,
= E [ x|
, el patrón
] es la media de la clase i.
)2|
= E [ (x -
] es la varianza de la clase i.
La función de densidad de probabilidad normal (unidimensional) está completamente
especificada por dos parámetros:
por P (x|
)
N(
,
y
. Por simplicidad, la ecuación 1 se suele abreviar
).
En la figura 2 representamos tres funciones de densidad de probabilidad normales de media
0 y varianzas: 0.15, 1 y 2. Observar la forma simétrica y de ``campana'' que caracteriza a
estas funciones. Recordar que el área bajo cada campana es 1 por lo que, informalmente
hablando, las campanas bajas serán anchas mientras que las campanas estrechas serán altas.
La ``anchura'' de las campanas está en relación inversa con el valor de la varianza: a menor
varianza, los datos estarán más concentrados alrededor de la media y por lo tanto, la
probabilidad de encontrar un valor cercano a la media aumenta: la altura de la campana es
mayor.
Figura 2: Tres fdp normales de media 0 y varianzas: 0.15, 1 y 2
Una propiedad interesante y útil de la función de densidad normal es la siguiente: el área
bajo la curva de la función de densidad de probabilidad normal puede calcularse de forma
precisa según el número de desviaciones típicas (ver figura 3).
Figura 3: Areas bajo la curva de la fdp gaussiana en función del número de desviaciones
típicas
Este valor indica la proporción de la población que se encuentra en determinados intervalos
centrados en la media. Así, si
es el valor medio y
es la desviación típica,

El 68.3% de las observaciones están en el intervalo [
-

El 95.4% de las observaciones están en el intervalo [
-2 ,
+ 2 ].

El 99.7% de las observaciones están en el intervalo [
-3 ,
+ 3 ].
En la práctica,
y
,
+
].
son desconocidos y deben estimarse a partir de los prototipos de la
clase
. En la literatura pueden encontrarse diferentes estimadores para estos parámetros.
Nosotros utilizaremos los siguientes estimadores, que tienen la propiedad de no estar
sesgados:
(2)
xj
=
(3)
(xj-
=
)2
donde:
Ni es el número de prototipos de la clase i.
xj es el j-ésimo prototipo de la clase i.
2.2 La función de densidad de probabilidad normal multidimensional
La forma de funcional de la función de densidad de probabilidad normal para d variables es
una extensión directa de la expresión dada en la ecuación 4:
(4)
P (X|
)=
exp
-
(X-
T
)
(X-
)
donde:
= E [ X|
] es el vector medio de la clase i,
= E [ (X |
)(X -
)T|
| es el determinante de
] es la matriz de covarianza de la clase i,
;/DD>
es la matriz inversa de
(X -
,
)T es el vector traspuesto de (X -
).
La función de densidad de probabilidad normal multivariante está completamente
especificada por los parámetros recogidos en
suele abreviar por P (X|
)
N(
,
y
. Por simplicidad, la ecuación 4 se
).
En la figura 4 mostramos la representación de una función de densidad de probabilidad
normal para un conjunto de patrones bidimensionales
Figura 4: Representación de una fdp normal bidimensional
En la práctica, los parámetros que definen la distribución,
=
=
son desconocidos y deben estimarse a partir del conjunto de prototipos. Estimadores no
sesgados de
y
son:
(5)
=
Xl
(6)
=
(Xl )(Xl- )T
donde Ni es el número de prototipos de la clase i y Xl es el l-ésimo prototipo de esa clase.
Ejemplo
Disponemos de un conjunto de 5 prototipos de una clase ( ). Los patrones
(bidimensionales) correspondientes son los siguientes:
X1 = [10, 10]T, X2 = [9, 9]T, X3 = [11, 11]T, X4 = [11, 9]T, X5 = [9, 11]T
Se trata de calcular el vector medio y la matriz de covarianza utilizando los estimadores
dados en 5 y 6.
El cálculo del vector medio es directo:
=
Xl =
+
+
+
+
=
=
mientras el cálculo de la matriz de covarianza requiere el cálculo previo de
los vectores (Xl -
(X1 -
)=
(X2 -
)=
):
-
=
-
=
(X3 y de las matrices (Xl -
(X1 -
(X2 -
)=
)(Xl-
)(X1-
)(X2-
-
(X4 -
)=
-
=
(X5 -
)=
-
=
=
)T:
)T =
)T =
[ 0, 0 ] =
[- 1, - 1 ] =
(X3 -
)(X3-
)T =
[ 1, 1 ] =
(X4 -
)(X4-
)T =
[ 1, - 1 ] =
(X5 -
)(X5-
)T =
[- 1, 1 ] =
Finalmente,
=
+
+
+
+
=
=
=
=
Así, los parámetros que definen la densidad de probabilidad de esta clase, estimados a partir
del conjunto de prototipos disponibles son:
=
=
Pueden calcularse individualmente los elementos de la matriz de covarianza a partir de la
siguiente expresión:
(7)
=
(Xjl -
)(Xkl -
) j, k = 1, 2,..., d
donde Xjl es la componente j-ésima del prototipo l-ésimo de la clase
componente j-ésima del vector medio de la clase
y
es la
.
De esta manera los cálculos se pueden implementar sin necesidad de realizar cálculos
matriciales.
Ejemplo
Sobre el ejemplo anterior,
=
{(10 - 10)(10 - 10) + (9 - 10)(9 - 10) + (11 - 10)(11 - 10) +
+ (11 - 10)(11 - 10) + (9 - 10)(9 - 10)} =
=
{(10 - 10)(10 - 10) + (9 - 10)(9 - 10) + (11 - 10)(11 - 10) +
+ (11 - 10)(9 - 10) + (9 - 10)(11 - 10)} =
=
{0 + 1 + 1 - 1 - 1} = 0
{(10 - 10)(10 - 10) + (9 - 10)(9 - 10) + (11 - 10)(11 - 10) +
+ (9 - 10)(11 - 10) + (11 - 10)(9 - 10)} =
=
{0 + 1 + 1 + 1 + 1} = 1
{0 + 1 + 1 - 1 - 1} = 0
{(10 - 10)(10 - 10) + (9 - 10)(9 - 10) + (11 - 10)(11 - 10) +
+ (9 - 10)(9 - 10) + (11 - 10)(11 - 10)} =
{0 + 1 + 1 + 1 + 1} = 1
Los resultados obtenidos son, obviamente, iguales que los anteriores.
A continuación enumeraremos algunas propiedades interesantes y muy útiles de la matriz
de covarianza.
1. La matriz de covarianza es simétrica y (semi)definida positiva.
Que la matriz sea simétrica indica que
=
por lo que si la estimación se
realiza utilizando la expresión 7 tan sólo habrá que calcular las componentes de la
diagonal y las de uno de los dos triángulos. En definitiva, de calcular d2
componentes se pasa a calcular únicamente d (d + 1)/2.
El hecho de que sea definida positiva implica que | | > 0 por lo que la expresión 4
puede calcularse sin problemas, al ser el radicando del denominador estrictamente
positivo.
2. El valor de covarianza
es la covarianza de la clase i entre las variables j y k ( j,
k = 1, 2,..., d j k) y se interpreta como la relación o dependencia entre estas dos
variables.
3. Los valores de la diagonal de la matriz de covarianza son las varianzas de las
variables individuales.
De la expresión 7, para un j fijo y cuando k = j tenemos que
(Xjl -
=
=
con lo que
=
(Xjl-
)(Xjl -
) =
)2
.
4. Si
= 0, las variables j y k son estadísticamente independientes. Si no, existe
correlación entre ellas.
Figura 5: A) Variables independientes. B) Variables correladas
FUENTE: http://www-etsi2.ugr.es/depar/ccia/rf/www/tema2_00-01_www/node3.html
Distribución uniforme o rectangular
Se dice que una v.a. X posee una distribución uniforme en el intervalo [a,b],
si su función de densidad es la siguiente:
Con esta ley de probabilidad, la probabilidad de que al hacer un experimento aleatorio, el
valor de X este comprendido en cierto subintervalo de [a,b] depende únicamente de la
longitud del mismo, no de su posición. Cometiendo un pequeño abuso en el lenguaje,
podemos decir que en una distribución uniforme la probabilidad de todos los puntos del
soporte es la misma 6.2.
Teniendo en cuenta que si
la función de distribución de
,
es:
Figura: Función de densidad y de distribución de
La función característica es
Como esta distribución es muy simple, vamos a calcular sus momentos más usuales
directamente a partir de la definición, en lugar de usar la función característica:
FUENTE: http://ftp.medprev.uma.es/libro/node77.htm
Distribución exponencial
La distribución exponencial es el equivalente continuo de la distribución geométrica
discreta. Esta ley de distribución describe procesos en los que:


Nos interesa saber el tiempo hasta que ocurre determinado evento, sabiendo que,
el tiempo que pueda ocurrir desde cualquier instante dado t, hasta que ello ocurra en
un instante tf, no depende del tiempo transcurrido anteriormente en el que no ha
pasado nada.
Ejemplos de este tipo de distribuciones son:



El tiempo que tarda una partícula radiactiva en desintegrarse. El conocimiento de la
ley que sigue este evento se utiliza en Ciencia para, por ejemplo, la datación de
fósiles o cualquier materia orgánica mediante la técnica del carbono 14, C14;
El tiempo que puede transcurrir en un servicio de urgencias, para la llegada de un
paciente;
En un proceso de Poisson donde se repite sucesivamente un experimento a
intervalos de tiempo iguales, el tiempo que transcurre entre la ocurrencia de dos
sucesos consecutivos sigue un modelo probabilístico exponencial. Por ejemplo, el
tiempo que transcurre entre que sufrimos dos veces una herida importante.
Concretando, si una v.a. continua X distribuida a lo largo de
densidad es
, es tal que su función de
se dice que sigue una distribución exponencial de parámetro
,
.
Figura: Función de densidad, f, de una
.
Un cálculo inmediato nos dice que si x>0,
luego la función de distribución es:
Figura: Función de distribución, F, de
, calculada como el área que
deja por debajo de sí la función de densidad.
Para calcular el valor esperado y la varianza de la distribución exponencial, obtenemos en
primer lugar la función característica
para después, derivando por primera vez
y derivando por segunda vez,
Entonces la varianza vale
6.8.4.1 Ejemplo
En un experimento de laboratorio se utilizan 10 gramos de
. Sabiendo que la
duración media de un átomo de esta materia es de 140 días, ¿cuantos idas transcurrirán
hasta que haya desaparecido el
de este material?
Solución: El tiempo T de desintegración de un átomo de
exponencial:
es una v.a. de distribución
Como el número de átomos de
existentes en una muestra de 10 gramos es enorme, el
histograma de frecuencias relativas formado por los tiempos de desintegración de cada uno
de estos átomos debe ser extremadamente aproximado a la curva de densidad, f. Del mismo
modo, el polígono de frecuencias relativas acumuladas debe ser muy aproximado a la curva
de su función de distribución F. Entonces el tiempo que transcurre hasta que el
del
material radiactivo se desintegra es el percentil 90, t90, de la distribución exponencial, es
decir
Figura: Como el número de átomos (observaciones) es extremadamente alto en
10 gramos de materia, el histograma puede ser aproximado de modo excelente por
la función de densidad exponencial, y el polígono de frecuencias acumuladas por la
función de distribución.
6.8.4.2 Ejemplo
Se ha comprobado que el tiempo de vida de cierto tipo de marcapasos sigue una
distribución exponencial con media de 16 años. ¿Cuál es la probabilidad de que a una
persona a la que se le ha implantado este marcapasos se le deba reimplantar otro antes de
20 años? Si el marcapasos lleva funcionando correctamente 5 años en un paciente, ¿cuál es
la probabilidad de que haya que cambiarlo antes de
años?
Solución: Sea T la variable aleatoria que mide la duración de un marcapasos en una
persona. Tenemos que
Entonces
En segundo lugar
Luego como era de esperar, por ser propio a un mecanismo exponencial,
o sea, en la duración que se espera que tenga el objeto, no influye en nada el tiempo que en
la actualidad lleva funcionando. Es por ello que se dice que ``la distribución exponencial no
tiene memoria".
FUENTE: http://ftp.medprev.uma.es/libro/node78.htm
DISTRIBUCION NORMAL.
DISTRIBUCIÓN NORMAL
o campana de Gauss-Laplace
Esta distribución es frecuentemente utilizada en las aplicaciones estadísticas. Su propio
nombre indica su extendida utilización, justificada por la frecuencia o normalidad con la
que ciertos fenómenos tienden a parecerse en su comportamiento a esta distribución.
Muchas variables aleatorias continuas presentan una función de densidad cuya gráfica tiene
forma de campana.
En otras ocasiones, al considerar distribuciones binomiales, tipo B(n,p), para un mismo
valor de p y valores de n cada vez mayores, se ve que sus polígonos de frecuencias se
aproximan a una curva en "forma de campana".
En resumen, la importancia de la distribución normal se debe principalmente a que hay
muchas variables asociadas a fenómenos naturales que siguen el modelo de la normal





Caracteres morfológicos de individuos (personas, animales, plantas,...) de
una especie, p.ejm. tallas, pesos, envergaduras, diámetros, perímetros,...
Caracteres fisiológicos, por ejemplo: efecto de una misma dosis de un
fármaco, o de una misma cantidad de abono.
Caracteres sociológicos, por ejemplo: consumo de cierto producto por un
mismo grupo de individuos, puntuaciones de examen.
Caracteres psicológicos, por ejemplo: cociente intelectual, grado de
adaptación a un medio,...
Errores cometidos al medir ciertas magnitudes.


Valores estadísticos muestrales, por ejemplo : la media.
Otras distribuciones como la binomial o la de Poisson son aproximaciones
normales, ...
Y en general cualquier característica que se obtenga como suma de muchos factores.
FUNCIÓN DE DENSIDAD
Empleando cálculos bastante laboriosos, puede demostrarse que el modelo de la función de
densidad que corresponde a tales distribuciones viene dado por la fórmula
Representación gráfica de esta función de densidad
La distribución normal queda definida por dos parámetros, su media y su desviación típica
y la representamos así
FUNCIÓN DE DISTRIBUCIÓN




Puede tomar cualquier valor (- , + )
Son más probables los valores cercanos a uno central que llamamos media 
Conforme nos separamos de ese valor , la probabilidad va decreciendo de igual
forma a derecha e izquierda (es simétrica).
Conforme nos separamos de ese valor , la probabilidad va decreciendo de forma
más o menos rápida dependiendo de un parámetro , que es la desviación típica.
F(x) es el área sombreada de esta gráfica
TIPIFICACIÓN
Por tanto su función de densidad es
y su función de distribución es
siendo la representación gráfica de esta función
a la variable Z se la denomina variable tipificada de X, y a la curva de su función de
densidad curva normal tipificada.
Característica de la distribución normal tipificada (reducida, estándar)





No depende de ningún parámetro
Su media es 0, su varianza es 1 y su desviación típica es 1.
La curva f(x) es simétrica respecto del eje OY
Tiene un máximo en este eje
Tiene dos puntos de inflexión en z =1 y z = -1
Aproximación de la Binomial por la Normal (Teorema de De Moivre) :
Demostró que bajo determinadas condiciones (para n grande y tanto p como q no estén
próximos a cero) la distribución Binomial B(n, p) se puede aproximar mediante una
distribución normal
Debemos tener en cuenta que cuanto mayor sea el valor de n, y cuanto más próximo sea p
a 0.5, tanto mejor será la aproximación realizada. Es decir, basta con que se verifique
gracias a esta aproximación es fácil hallar probabilidades binomiales, que para valores
grandes de n resulten muy laboriosos de calcular.
Hay que tener en cuenta que para realizar correctamente esta transformación de una
variable discreta (binomial) en una variable continua (normal) es necesario hacer una
corrección de continuidad.
FUENTE: http://personal5.iddeo.es/ztt/Tem/t21_distribucion_normal.htm
1. DISTRIBUCIÓN NORMAL.
Características:
a) a) Es generada por una variable de tipo continuo, denominada x;
- x  
b) b) La función que nos define esta distribución es:
f ( x ,  , 2 ) 
2
2
1
 ( x   ) / 2
 2
- x  
Al dar a la función los valores de  , 2 y valores a x, obtendremos la
distribución en cuestión, la que tiene forma de campana, por lo que
también se le conoce como campana de Gauss. Hay un número infinito
de funciones de densidad Normal, una para cada combinación de  y .
La media  mide la ubicación de la distribución y la desviación estándar
 mide su dispersión.
c) Es simétrica con respecto a su eje vertical.
d) Es asintótica con respecto a su eje horizontal; esto quiere decir que
jamás va a tocar el eje de las equis.
e) El área total bajo la curva es 1.
f) Sí sumamos a   , se observará que aproximadamente el 68.26% de
los
datos se encuentran bajo la curva, si sumamos a   2, el 95.44%
de los datos estará entre esos límites y si sumamos a   3, entonces el
99.74% de los datos caerá dentro de esos límites. Esta característica es a la
vez una forma empírica y rápida de demostrar si los datos que se analizan
tienen una distribución Normal; ya que para trabajar los datos con esta
distribución, debe verificarse que efectivamente así se distribuyen, ya que
de no hacerlo, las decisiones que en un momento dado se tomarán de un
análisis de los datos con la distribución Normal, serían erróneas.
¿Cómo se determinan probabilidades con la distribución Normal?
De acuerdo a como se trataron las distribuciones de probabilidad continuas
en la unidad III, lo más lógico es que la función f(x, , 2), se integre entre
los límites de la variable x; esto es,
b
p( a  x  b )   f ( x ,  , 2 )dx
a
La integral anterior nos daría el área bajo la curva de la función, desde a
hasta b, que corresponde o es igual a la probabilidad buscada.
Debido a la dificultad que se presenta para integrar esta función cada vez
que sea necesario, lo que se hace es tipificar el valor de la variable x, esto es,
x se transforma en un valor de z, de la siguiente manera:
x
z
 valor

Este valor de z es buscado en una tabla donde vienen áreas asociadas a este
valor, y haciendo uso de los valores tabulados, se determina la probabilidad
requerida. La tabla que es usada para calcular las probabilidades es la que
nos dá el área que se muestra a continuación:
0
Z
Ejemplos:
1. 1. El acero que se utiliza para tuberías de agua a menudo se recubre
internamente con un mortero de cemento para evitar la corrosión. En un
estudio de los recubrimientos de mortero de una tubería empleada en un
proyecto de transmisión de agua en California (Transportation Engineering
Journal, Noviembre de 1979) se especificó un espesor de 7/16 pulgadas para
el mortero. Un gran número de mediciones de espesor dieron una media de
0.635 pulgadas y una desviación estándar de 0.082 pulgadas. Sí las
mediciones de espesor, tenían una distribución Normal, ¿qué porcentaje
aproximado fue inferior a 7/16 de pulgada?
Solución:
x = variable que nos define el espesor del mortero en pulgadas
 = 0.635 pulgadas
 = 0.082 pulgadas
X = 7/16
=0.635
Z
Z
7 / 16  0.635 0.4375  0.635

 2.4085  2.41
0.082
0.082
p(z = -2.41) = 0.492
p(x  7/16 pulgadas) = 0.5- p(z = -2.41) = 0.5-0.492 = 0.008
Por tanto, 0.008 x 100% = 0.8% de los recubrimientos de mortero tienen un espesor
menor de 7/16 pulgadas
2. 2. Un tubo fluorescente estándar tiene una duración distribuida
Normalmente, con una media de 7,000 horas y una desviación estándar
de 1,000 horas. Un competidor ha inventado un sistema de iluminación
fluorescente compacto que se puede insertar en los receptáculos de
lámparas incandescentes. El competidor asegura que el nuevo tubo
compacto tiene una duración distribuida Normalmente con una media
de 7,500 horas y una desviación estándar de 1,200 horas. a. ¿Cuál tubo
fluorescente tiene mayor probabilidad de tener una duración mayor de
9,000 horas? b. ¿Cuál tubo tiene mayor probabilidad de tener una
duración de menos de 5,000 horas?
Solución:
a) Tubo 1
X1 = variable que nos define la duración en horas de un tubo fluorescente
 = 7,000 horas
 = 1,000 horas
Tubo 2
X2 = variable que nos define la duración del tubo fluorescente del
competidor
 = 7,500 horas
 = 1,200 horas
=7000
z1 
9,000  7 ,000
 2.00
1,000
X= 9000
p(z1 = 2.00) = 0.4772
p(x1  9,000 horas) = 0.5 – p(z1 = 2.00) = 0.5 – 0.4772 = 0.0228
=7500
z2 
9,000  7 ,500
 1.25
1,200
X = 9000
p(z2 = 1.25) = 0.3944
p(x2  9,000 horas) = 0.5 – p(z2 = 1.25) = 0.5 –0.3944 = 0.1056
Por tanto el tubo fluorescente del competidor tiene una probabilidad mayor
de durar más de 9,000 horas.
b)
z1 
5,000  7 ,000
 2.00
1,000
p(z1 = -2.00) = 0.4772
p(x1  5,000 horas) = 0.5 – p(z1 = -2.00) = 0.5 – 0.4772 = 0.0228
X = 5000
z2 
= 7500
5,000  7 ,500
 2.08
1,200
p(z2 = -2.08) = 0.4812
p(x2  5,000 horas) = 0.5 – p(z2 = - 2.08) = 0.5 – 0.4812 = 0.0188
Por tanto, el tubo fluorescente que tiene una mayor probabilidad de durar
menos de 5,000 horas es el del primer fabricante.
3. 3. La distribución de la demanda (en número de unidades por unidad
de tiempo) de un producto a menudo puede aproximarse con una
distribución de probabilidad Normal. Por ejemplo, una compañía de
comunicación por cable ha determinado que el número de interruptores
terminales de botón solicitados diariamente tiene una distribución
Normal, con una media de 200 y una desviación estándar de 50.
a) a) ¿En qué porcentaje de los días la demanda será de menos de
90 interruptores?
b) b) ¿En qué porcentaje de los días la demanda estará entre 225 y
275 interruptores?
c) c) Con base en consideraciones de costos, la compañía ha
determinado que su mejor estrategia consiste en producir una
cantidad de interruptores suficiente para atender plenamente la
demanda en 94% de todos los días. ¿Cuantos interruptores
terminales deberá producir la compañía cada día?
Solución:
a) X = variable que nos indica el número de interruptores
demandados por día a una compañía de cable
 = 200 interruptores por día
 = 50 interruptores por día
 = 200
X = 90
z
90  200
 2.20
50
p(z = - 2.20) = 0.4861
p(x  90) = 0.5 – p(z = -2.20) = 0.5 – 0.4861 = 0.0139
Por tanto, 0.0139 x 100% = 1.39% de los días se tendrá una
demanda menor de 90 interruptores.
b)
 = 200
X2 = 275
X1 = 225
z1 
225  200
 0.50
50
p(z1= 0.50) = 0.1915
z2 
275  200
 1.50
50
p(z2 = 1.50) = 0.4332
p(225 x  275) = p(z2) – p(z1) = 0.4332 – 0.1915 = 0.2417
Por tanto, 0.2417 x 100% = 24.17% de los días se tendrá una
demanda entre 225 y 275 interruptores.
c) c) En este caso se trata de determinar que valor toma x cuando se
pretende cumplir con el 94% de la demanda de todos los días.
Por tanto despejaremos de la fórmula de z;
94%
 = 200
X=¿
Z
Z 
x

;
x =  + z
x =  + z(p = 0.44) = 200 + z(p = 0.44)(50) =
= 200 + (1.55)(50) = 277.5  278 interruptores
terminales por día
¿cómo se obtiene el valor de z?
En la tabla buscamos la z que corresponde a una probabilidad de
0.44 y nos damos cuenta de que no existe un valor exacto de 0.44 por
lo que tomamos los valores de área más cercanos; luego,
z(p = 0.4394) = 1.50;
z(p = 0.4406) = 1.60
Por tanto si interpolamos, encontramos que el valor de z para una
probabilidad de 0.44 es de 1.55, y es el valor que se sustituye en la
ecuación.
¿Cuál es la razón de usar un área de 0.44 en lugar de una de 0.94
para buscar en la tabla el valor de z?
Es muy simple, la tabla que estamos usando es una tabla que solo
trabaja con áreas que son definidas de la media hasta el valor de x y
x puede estar tanto del lado derecho de la media, como del lado
izquierdo de la media, es por esto que el área a utilizar es de 0.44
que se encuentra al lado derecho de la media.
FUENTE: http://www.itchihuahua.edu.mx/academic/industrial/sabaticorita/index.html
TEOREMA DE SHEBYSHEV
o
Teorema de Chebyshev: Para un conjunto cualquiera de observaciones (muestra o población), la
proporción mínima de los valores que se encuentran dentro de k desviaciones estándares desde la
media es al menos 1 - 1/k2, donde k es una constante mayor que 1.
FUENTE: http://html.rincondelvago.com/medidas-de-dispersion.html
La desigualdad de Chebyshev es un resultado estadístico que ofrece una cota inferior a la
probabilidad de que el valor de una variable aleatoria con varianza finita esté a una cierta
distancia de su esperanza matemática o de su media; equivalentemente, el teorema
proporciona una cota superior a la probabilidad de que los valores caigan fuera de esa
distancia respecto de la media. El teorema es aplicable incluso en distribuciones que no
tienen forma de "curva de campana" y acota la cantidad de datos que están o no "en
medio".
Teorema: Sea X una variable aleatoria de media μ y varianza finita σ2. Entonces, para todo
número real k > 0,
Para ilustrar este resultado, supongamos que los artículos de Wikipedia tienen una
extensión media de 1000 caracteres y una desviación típica de 200 caracteres. De la
desigualdad de Chebyshev se deduce que al menos el 75% de los artículos tendrán una
extensión comprendida entre 600 y 1400 caracteres (k = 2).
Otra consecuencia del teorema es que para cada distribución de media μ y desviación típica
finita σ, al menos la mitad de los valores caerán en el intervalo (μ-√2 σ, μ+√2 σ).
Las cotas proporcionadas por la desigualdad de Chebyshev, en general, no se pueden
mejorar; es posible construir una variable aleatoria cuyas cotas de Chebyshev sean
exactamente iguales a las probabilidades reales. Sin embargo, en general el teorema
proporcionará cotas poco precisas.
El teorema puede ser útil a pesar de las cotas imprecisas porque se aplica a una amplia
gama de variables que incluye las que están muy alejadas de la distribución normal, y
porque las cotas son fáciles de calcular. El teorema se emplea para demostrar la ley débil de
los números grandes.
El teorema recibe su nombre del matemático Pafnuty Chebyshev.
FUENTE: http://es.wikipedia.org/wiki/Desigualdad_de_Chebyshev
UNIDAD 5: REGRESION Y CORRELACION
SIMPLE.
REGRESION LINEAL SIMPLE Y CURVILINEA.
En un problema de regresión, los carácteres no son considerados
de la misma forma. Uno de ellos es el carácter ''a explicar'', los otros
son ''explicativos''. Vamos primero a considerar el caso de dos
carácteres,
(explicativo) e
(a explicar). ''Explicar'' significa aquí
expresar una dependencia funcional de
manera tal de prever el valor de
individuo ,
conociendo el de
, y si se observa un valor
en un nuevo individuo, daremos
carácter
como función de
, de
. Si para todo
del carácter
como predicción del
en este nuevo individuo. La situación ideal donde
no se encuentra nunca en la práctica. Más bien se buscará,
en una familia fija de funciones, aquella para la que los
encuentran más cerca de los
por el error cuadrático medio:
se
. La cercanía se mide en general
(3.2)
Hablamos entonces de regresión en el sentido de los mínimos
cuadrados. Las diferencias entre los valores observados
y los
valores que predice el modelo
, se llaman los residuos. Si el
modelo se ajusta de manera tal que la serie de los residuos sea
centrada (de media nula), entonces el error cuadrático
es la
varianza de los residuos. La regresión lineal consiste en buscar
entre las funciones afines. La solución se expresa de manera simple
a partir de las carácterísticas de
e
.
Proposición 3.5 Sean
e
dos muestras observadas sobre una
misma población de tamaño
de
en
definida por:
Si
(el carácter
un mínimo en:
. Denotemos por
no es constante), la función
la función
admite
y
El valor de este mínimo es:
Definición 3.6 Llamamos recta de regresión lineal de
la recta de ecuación
Demostración: Si fijamos
:
a
.
,
es un polinomio de grado
en . El alcanza su mínimo para un
anule. Calculando:
Obtenemos por tanto
sobre
tal que la derivada se
. Substituimos este valor en
Esta función es un polinomio de grado en , que alcanza su
mínimo en el punto donde se anula su derivada. Obtenemos:
sea:
Pongamos:
y
Tenemos entonces para todo par
:
El valor del mínimo es:
Como se esperaba, el error cuadrático minimal es menor cuando la
correlación es más fuerte.
Es importante observar la diferencia de los roles que desempeñan
e . Geométricamente, la recta de regresión lineal de con
respecto a minimiza la suma de las distancias verticales de los
puntos
a la recta. La recta de regresión lineal de
con
respecto a
minimiza las distancias horizontales. Las dos rectas se
cortan en el centro de gravedad,
, de la nube de puntos. La
separación entre las dos rectas es mayor cuando la correlación es
más débil.
La predicción es la primera aplicación de la regresión lineal. A
continuación tenemos las estaturas en centímetros (muestra ) y el
peso en kilogramos ( ) de
Niño
1
2
3
niños de años.
4
5
6
7
8
9
10
Estatura 121 123 108 118 111 109 114 103 110 115
Peso
25 22 19 24 19 18 20 15 20 21
Las carácterísticas numéricas toman los siguientes valores:
Gráfico 14: Estatura y peso de niños de 6 años: recta
de regresión.
Hacer una regresión lineal quiere decir que se piensa que el peso
debe crecer, en general, proporcionalmente a la estatura. La recta
de regresión lineal constituye un modelo de predicción. Por ejemplo
diremos que el peso promedio de un niño de 6 años que mide 120
centímetros será de
kg. Evidentemente esta
predicción no es infalible. Ella sólo da un orden de magnitud. El
valor observado será probablemente distinto y el error previsible
será del orden de
kg.
Como segunda aplicación se puede extender el ajuste por cuantiles
a familias de leyes invariantes por transformaciones afines, como
las leyes normales . Sea una muestra continua de tamaño para
la cual queremos verificar si ella podría haber salido de una ley
normal
, con parámetros
y
desconocidos. Para
, denotemos como siempre por
los estadígrafos de
orden. Si la hipótesis de normalidad es pertinente, entonces
debe estar cerca del cuantil
de la ley
Recordemos que si una variable aleatoria
entonces
decir que para todo
sigue la ley
:
sigue la ley
.
,
. Esto es lo mismo que
Denotemos por
la ley
los valores de la función cuantil de
en los puntos
. Si la hipótesis de normalidad se
verifica, los puntos de coordenadas
de la recta de ecuación
con respecto a las
deberían estar cercanos
. Una regresión lineal de las
nos da a la vez una estimación de los valores
de y , y una indicación sobre la calidad del ajuste (figura 15).
Antes de que existieran los programas de cálculo, se vendía papel
''gausso-aritmético'', graduado en las abscisas según los cuantiles
de la ley
. Bastaba poner en las ordenadas los valores de las
para trazar a mano la recta de regresión lineal, que lleva el
nombre de ''recta de Henry'', por el nombre del coronel que inventó
este método en el siglo XIX para estudiar el alcance de los cañones.
Gráfico 15: Estaturas de niños de 6 años. Cuantiles de
la ley normal
y estadígrafos de orden.
Superposición de la recta de Henry.
El problema de la regresión es determinar en una familia de
funciones dada, cual es la función que minimiza el error cuadrático
(3.2). Pero es frecuente que no haya una solución explícita. Para
ciertas familias de funciones, se transforma el problema de manera
tal de llevarlo a una regresión lineal. Presentamos aquí algunos
casos frecuentes.
Familia
Funciones
Transformación
Forma afín
exponencial
potencia
inversa
logística
Como ejemplo de aplicación, vamos a tomar el problema del ajuste
por los cuantiles para la familia de leyes de Weibull, las cuales se
emplean frecuentemente para modelar tiempos de sobrevida en
medicina o tiempos de funcionamiento en fiabilidad. La función
cuantil de la ley de Weibull
es:
Sea
una muestra que queremos ajustar por una ley de Weibull de
parámetros
orden
y
desconocidos. Para
debe estar cerca del cuantil
, el estadígrafo de
.
o sea:
Pongamos
y
. Los puntos
deberían estar cerca de la recta de ecuación
. Una regresión lineal nos dará no
solamente los valores para y , sino también una indicación sobre
la calidad del ajuste. Antes de los programas de cálculo, existía
también un ''papel Weibull'', graduado de manera tal que se podía
automatizar este caso particular de regresión no lineal.
FUENTE: http://www.math-info.univ-paris5.fr/~ycart/emel/cours/sd/node14.html
Regresión Lineal Simple (Recta de Regresión)
El problema de la regresión lineal simple entre dos variables X y Y se reduce a calcular la
recta de regresión que mejor represente su distribución conjunta. Los datos se presentan
como una matriz de dos columnas:
siendo (xi, yi), con i= 1, 2, ..., n, el i-ésimo par observado.
Se pretende ajustar un modelo de la forma
yi=a xi+b+ei
bajo las siguientes hipótesis:
1. La variable respuesta yi depende de la variable explicativa xi de forma lineal (con
pendiente a y ordenada en origen b), más un factor residual aleatorio ei.
2. Los residuos tienen distribución normal de media 0 y varianza
desconocida.
3. Estos factores aleatorios son independientes entre sí.
Los parámetros de la recta de regresión, a y b, se calculan siguiendo el criterio de los
mínimos cuadrados, lo que lleva a los siguientes resultados:
siendo
y
las medias de ambas variables estadísticas.
La varianza residual
es desconocida, siendo su estimador insesgado
Definiendo el coeficiente de correlación como
,
que sólo toma valores en el intervalo [-1, 1], nos da una idea de hasta qué punto el ajuste
lineal es razonable:



Si r es próximo a -1: el ajuste es aceptablemente bueno, distribuyéndose las
observaciones (xi, yi) alrededor de una recta de pendiente negativa.
Si r es próximo a 0: el ajuste no es aceptable, indicando que no existe relación lineal
entre las variables.
Si r es próximo a +1: el ajuste es aceptablemente bueno, distribuyéndose las
observaciones (xi, yi) alrededor de una recta de pendiente positiva.
El contraste de independencia entre las variables es más objetivo que la simple observación
del coeficiente de correlación r. Así se plantea comprobar si los datos observados
corroboran o no la hipótesis nula:
H0: "la variable explicativa X no influye en la respuesta Y".
frente a la alternativa:
H1: "la variable explicativa X influye linealmente en la respuesta Y".
Mediante el estadístico de contraste
que se distribuye como una tn-2 de Student, se puede contrastar la hipótesis nula H0 al nivel
de significación del 5%.
Caso
Se dispone de los datos de ocho anestesias de diferente duración, efectuadas con un anestésico volátil y del
tiempo en que se restablece la conciencia suficiente como para contar hacia atrás desde un número
determinado sin error:
Duración
Duración
anestesia (min)
despertar (min)
150
13
127
16
160
21
210
20
250
16
130
13
60
12
55
14
Se intenta probar la hipótesis de que la duración del despertar no está influida por la de la anestesia.
El coeficiente de correlación para esta muestra es de 0.562231, a medio camino entre el 0 y el 1, no
permitiendo dar una respuesta segura sobre el contraste; en cambio, el estadístico A toma un valor de 1.66531,
del que se puede deducir que la hipótesis no puede rechazarse al nivel del 5%; en conclusión, no hay indicios
de que la duración del despertar esté linealmente relacionada con el tiempo de duración de la anestesia. Si se
hubiese rechazado la hipótesis de independencia, se podrían ajustar los datos a la recta de ecuación
y = 0.03 x + 11.62,
siendo x la duración de la anestesia e y la del despertar.
(Fuente: J. Gil Cebrián (1995) Estadística no paramétrica. RA-MA, Madrid.)
FUENTE: http://es.geocities.com/riotorto/regr/regr_simple/regr_simple.htm
FORMULAS DE REGRESION LINEAL SIMPLE:
FUENTE: http://www.elosiodelosantos.com/sergiman/div/forpear.html
Predicción en regresión lineal simple.
Como se comentó anteriormente hay dos objetivos básicos en el ajuste de un
modelo de regresión:
- Conocer la relación existente entre la variable respuesta y las variables
regresoras. En el caso de la regresión lineal simple se estima la mejor
recta de regresión que relaciona la variable Y con la variable X y se
cuantifica la importancia de dicha relación por medio del coeficiente de
correlación, r.
- Utilizar el modelo de regresión ajustado para “predecir” el valor de la
variable respuesta Y cuando la variable regresora toma un valor
determinado, X = xt.
En esta sección se estudia este segundo objetivo. Ésto es, estimada la recta de
regresión, ¿cómo predecir el valor de Y sabiendo que la variable regresora toma
el valor X = xt? Ante esta pregunta, se deben distinguir dos situaciones diferentes:
Estimar la media de la distribución condicionada de Y/X = xt : E
mt.
=
Se quiere responder a preguntas del tipo: “¿cuál es el gasto medio en material
informático de las empresas que tienen unos ingresos globales de 300 millones
anuales?”.
Predecir el valor de la variable respuesta en un individuo de la población
en estudio del que se sabe que X = xt. Esto es, predecir un valor de la
variable condicionada Y/X=xt
Se quiere responder a preguntas del tipo: “La empresa MEGA tiene unos ingresos
anuales de 300 millones, ¿cuál será el gasto en material informático de esta
empresa?”.
6.9.1 Estimación de las medias condicionadas.
Una vez calculada la recta de regresión de la variable Y respecto a X,
se quiere estimar el parámetro mt = E
. Para ello, como estimador se
utiliza el que proporciona la recta de regresión, sustituyendo xt por x en la
ecuación de la recta,
(6.19)
Este estimador verifica las siguientes propiedades:
1. Es centrado o insesgado, E
2. La varianza es,
= mt.
(6.20)
3. donde
(6.21)
4. nt se denomina número equivalente de observaciones para estimar mt.
5.
Teniendo en cuenta que en una muestra de tamaño n, la varianza de
la media muestral es V ar = 2/n, la interpretación de nt es la siguiente:
“la información que proporciona la muestra, de tamaño n, de datos bivariantes
n
para estimar mt es la misma que proporcionaría una muestra de
i=1
tamaño nt de observaciones univariantes de una población con distribución igual
a la de Y/X = xt”.
6.
De la expresión de nt se deduce que este valor será mayor cuanto
más próximo esté xt de . Y si xt = se verifica que nt = n.
7.
La inversa de nt, htt = 1/nt se denomina valor de influencia de la
observación xt (muy utilizado el nombre en inglés leverage) y se verá más
adelante que es una medida de la influencia de la observación
(si
este es uno de los datos muestrales) en el cálculo de la recta de regresión.
8. La distribución del estimador t es normal,
9.
En la práctica el estadístico anterior no se puede utilizar para
calcular intervalos de confianza de mt porque es desconocido. Por ello,
se sustituye por su estimador R y bajo la hipótesis de normalidad se
obtiene la siguiente distribución,
(6.22)
La distribución dada en (6 .22) permite calcular intervalos de confianza de mt
con un nivel de confianza , de la siguiente forma,
(6.23)
Al utilizar el modelo de regresión lineal para estimar una media condicionada
o predecir una observación debe de tenerse en cuenta que el método
proporciona resultados aceptables dentro del rango de valores muestrales de la X
(interpolar), aquí está garantizado que 1 < nt < n. Si xt es un punto muy alejado de
(aún estando dentro de la nube de observaciones está muy alejado del centro
de la misma) entonces nt 1 y la varianza de t será muy grande con lo que se
obtienen estimaciones con poca precisión (mucha variabilidad). El caso opuesto
es que xt = y, por tanto, nt = n, ahora la varianza de t es 2/n, la menor posible.
Por otra parte, si se quiere predecir fuera del rango de valores muestrales de
X (extrapolar), entonces xt - puede ser muy grande y, en consecuencia, nt 0, lo
que hace que la precisión de la estimación de mt sea muy pequeña por tener el
estimador t una varianza muy grande y, por tanto, obtener resultados con muy
poca validez.
6.9.2 Predicción de una observación.
Se quiere predecir el valor de la variable aleatoria Y/X = xt teniendo en cuenta
que se ha ajustado una recta de regresión. El problema es conceptualmente
diferente del anterior, ya que en el apartado anterior se estima un parámetro (la
media condicionada) y ahora se quiere predecir el resultado de una variable
aleatoria. El predictor que se utiliza t se obtiene como aquel que minimize el
Error Cuadrático Medio de Predicción. Esto es, t se obtiene como el valor que
minimiza la siguiente función
Al resolver este problema de minimización se obtiene como predictor el
resultado de sustituir el valor de xt en la recta de regresión calculada,
Por tanto, la predicción de Y/X = xt es la misma que la estimación de mt pero
su varianza aumenta ya que la variabilidad debida a la muestra
se
incrementa con la variabilidad propia de la variable aleatoria que se quiere
predecir
. Ahora la varianza de la predicción es
Var(
t
- yt) =
Por la hipótesis de normalidad y razonando como en el apartado anterior se
obtiene
Utilizando esta distribución se puede calcular un “intervalo de predicción” para
yt, con un nivel de confianza , de la siguiente forma
Por ser la var
mucho mayor que la var
, los intervalos de predicción de yt
son mucho mayores que los intervalos de confianza de mt.
FUENTE: http://www.udc.es/dep/mate/estadistica2/sec6_9.html
¿Cómo realizar una Regresión lineal simple?
Una hoja Excel que contiene los datos y de resultados de este ejemplo puede ser descargado
haciendo clic aquí. Los datos proceden de Lewis T. and Taylor L.R. (1967). Introduction to
Experimental Ecology, New York: Academic Press, Inc.. Corresponden a 237 niños detallados por
su sexo, su edad en meses, su tamaño en inch (1 inch = 2.54 cm), y su peso en libras (1 libra =
0.45 kg).
En utilizar la regresión lineal simple, nuestro objetivo es estudiar como el peso varía en función del
tamaño, y si una relación lineal tiene una orientación. Nos restringimos aquí al caso de las chicas.
Se trata aquí de una regresión lineal simple, porque una sola variable explicativa es utilizada (el
tamaño). En un tutorial sobre la Regresión lineal simple, este ejemplo es reproducido con el fin de
estudiar la influencia de la edad sobre está relación. Un tutorial sobre el ANCOVA reproduce este
ejemplo con el fin de añadir el sexo (variable cualitativa) como variable explicativa, y los datos que
corresponde a los varones son entonces tomados en cuenta.
Una vez XLSTAT iniciado, elija el comando XLSTAT/Modelización/Regresión o haga clic en el
botón "Regresión" de la barra de herramientas "Modelización".
Una vez el botón presionado, aparece el cuadro de diálogo que corresponde a la regresión. Puede
elegir entonces los datos en la hoja Excel. La "Variable a modelizar" corresponde a la variable
explicada (o variable dependiente), es decir en este caso preciso, el peso. La variable cuantitativa
explicativa es aquí tamaño. Queremos explicar aquí la variabilidad del peso por la del tamaño. La
opción "Referencias presentes" se deja activada ya que la primera línea de columnas incluye el
número de las variables. Dejamos seleccionada la opción "Individuos" ya que analizaremos las
predicciones y los residuos para validar la hipótesis de normalidad de la regresión, e identificar
valores extremos.
Una vez que haga clic en el botón "OK", los cálculos empiezan y los resultados son visualizados. El
primer cuadro de resultados proporciona los coeficientes de ajuste del modelo. El R² (coeficiente de
determinación) proporciona una idea del % de variabilidad de la variable a modelizar, explicado por
la variable explicativa. Mientras más cerca está de 1 este coeficiente, mejor es el modelo.
En nuestro caso, 56% de la variabilidad del peso es explicada par el tamaño. El resto de la
variabilidad es debido a efectos (variables explicativas) que no son tenidas en cuenta en este
ejemplo.
El cuadro de análisis de la varianza es un resultado que debe ser atentamente analizado (ver a
continuación). Es en este nivel que comprobamos si podemos considerar que la variable explicativa
seleccionada (el tamaño) originan una cantidad de información significativa al modelo (hipótesis
nulo H0) o no. En otros términos, es una manera de comprobar si la media de la variable a
modelizar (el peso) bastaría con describir los resultados obtenidos o no.
La prueba del F de Fisher es utilizada. Dado que la probabilidad asociada al F, en este caso, es
inferior de 0.0001, significa que nos arriesgamos de menos del 0.01% concluyendo que la variable
explicativa origina una cantidad de información significativa al modelo.
El siguiente cuadro proporciona los detalles sobre el modelo y es esencial en cuanto el modelo
debe ser utilizado para realizar previsiones, simulaciones o si debe ser comparado a otros
resultados, por ejemplo los coeficientes que obtendríamos para los varones. Vemos que si el
parámetro del tamaño tiene un intervalo de confianza bastante restringido, el de la constante del
modelo es bastante importante. La ecuación del modelo es proporcionada abajo del cuadro. El
modelo enseña que en los límites proporcionados por las observaciones del intervalo de la variable
tamaño, cada vez que el tamaño aumenta de un inch, el peso aumenta de 4 libras.
El cuadro siguiente expone el análisis de los residuos. Los residuos centrados reducidos deben
tener una atención particular, dado que las hipótesis vinculadas a la regresión lineal, deben ser
distribuidos según una ley normal N(0,1). Eso significa, entre otros, que 95% de los residuos deben
encontrarse en el intervalo [-1.96, 1.96]. Dado que el escaso número de datos del que disponemos
aquí, cualquier valor fuera de este intervalo es revelador de un dato sospechoso. Hemos utilizado
la herramienta DataFlagger de XLSTAT, con el fin de demostrar rápidamente los valores que se
encuentran fuera del intervalo [-1.96, 1.96].
Podemos aquí identificar cuatro observaciones dudosas (26, 38, 64, 69, 77), en 111 observaciones.
Este análisis de los residuos no anula la hipótesis de normalidad.
El primer gráfico permite visualizar los datos, la recta de regresión, y los dos intervalos de
confianza (el intervalo alrededor de la media del estimador es lo más cerca de la curva, el segundo
es el intervalo alrededor de la estimación puntual). Vemos así claramente una tendencia lineal,
pero con una intensa variabilidad alrededor de la recta. Los 5 valores sospechosos están fuera del
segundo intervalo de confianza.
El tercer grafico parece enseñar que los residuos crecen en función del peso.
El histograma de los residuos centrados reducidos permite señalar rápidamente y visualmente la
presencia de valores fuera del intervalo [-2, 2].
En conclusión, el tamaño permite explicar 56% de la variabilidad del peso. Para explicar la
variabilidad sobrante, otras fuentes de variabilidad deben entonces ser utilizadas en el modelo. En
el tutorial sobre la regresión lineal múltiple, la edad es añadida como segunda variable explicativa.
FUENTE: http://www.xlstat.com/demo-rege.htm
Análisis de un caso de un modelo de regresión lineal simple.
En esta sección se presenta el desarrollo en detalle de un supuesto práctico del
modelo de regresión lineal simple, en los cálculos se utiliza toda la teoría
expuesta en este capítulo.
Ejemplo 6.3.
“Se desea estudiar la posible relación entre los gastos en material
informático, en múltiplos de cien mil euros, de una empresa
y sus ingresos
globales, en millones de euros,
. Para ello se recoge una muestra de datos
anuales de gastos e ingresos de 65 empresas, los datos muestrales son los de la
tabla adjunta. Estudiar la posible existencia de una relación lineal entre la
variable respuesta gasto en material informático y la variable
regresora ingreso global”.
X: “Ingresos
globales”
20
50
100
200
300
400
500
Y
“gastos en
material
informát.”
25
13
43
36
30
14
17
7
.
.
15
25
28
17
35
29
20
26
14
6
25
61
46
23
45
28
24
37
.
.
57
46
54
69
62
71
67
36
41
62
75
107
72
53
53
77
63
74
87
.
91
94
100
93
92
90
109
97
111
87
121
113
90
109
118
117
125
121
122
119
Estadísticos básicos de las variables X e Y.
Estimadores de los coeficientes de la recta de regresión son
la recta de regresión estimada es
o bien,
que indica que por cada millón de euros de ingreso en una empresa se utiliza
20.040 euros en material informático.
Figura 6.9. Datos y recta ajustada.
Figura 6.10. Residuos del modelo.
Se calculan las predicciones de las observaciones muestrales
, a partir de los cuales se obtiene la varianza residual
y los residuos
Intervalos de confianza al 95% ( = 0'05) para los tres parámetros del
modelo.
Para
Para
2
,
0
Para
,
1
Nota: si se hubiese planteado el problema de forma inversa y se quisiera
calcular la recta de regresión del ingreso
respecto al gasto
, se obtiene,
o despejando, para comparar con la recta de regresión de Y sobre X,
Se comprueba que las dos rectas de regresión no coinciden (observar la Figura
6.11.).
Figura 6.11. Gráfica de las dos rectas de regresión.
Contrastes individuales (contrastes de la t).
Contraste C1, H0 :
1
= 0 frente a H1 :
1
0.
Del p-valor próximo a cero1 se concluye que la variable regresora X influye
linealmente en la variable dependiente Y.
Contraste C0, H0 :
0
= 0 frente a H1 :
0
0.
Tabla ANOVA. Contraste de regresión.
Con los datos del problema se obtiene la siguiente tabla ANOVA
Tabla ANOVA
Fuentes Variación Suma Cuadrados Gr. libertad Varianzas
Por la recta
75.602'5
1
Residual
8.544'7
63
Global
84.147'1
64
e
2
= 75.602'5
R
Y
2
2
= 135'6
= 1.314'8
El contraste de la F es
se rechaza la no influencia de la recta de regresión. Este resultado es
exactamente el mismo que se obtiene en el contraste individual de la t relativo a
1. El motivo es que se está estudiando un modelo de regresión con una sola
regresora y, por tanto, el estudio de la influencia del modelo es equivalente al
estudio de la influencia de la única regresora. El significado de los contrastes
individuales de la t y del contraste conjunto de la F (contraste de regresión)
serán diferentes en modelos de regresión con más de una variable explicativa.
Contraste de linealidad.
Dado que para cada valor de X se tienen varios valores de Y se pueden
calcular las medias muestrales condicionadas, lo que permite descomponer la
suma de los residuos al cuadrado y obtener la siguiente tabla ANOVA
Tabla ANOVA
Fuentes Variación Suma Cuadrados Gr. libertad Varianzas
Por la recta
75.602'5
1
e
2
= 75.602'5
2
R,1
scR(1)
314'7
5
scR(2)
8.229'9
58
R,2
Residual
8.544'7
63
R
Global
84.147'1
64
Y
2
= 62'94
2
= 141'89
2
= 135'6
= 1.314'8
Se calcula el estadístico del contraste de linealidad de la F
Se acepta claramente la hipótesis de que la función de regresión es lineal.
Coeficiente de determinación y correlación lineal simple.
El coeficiente de determinación es
El modelo de regresión lineal construído explica el 89'85% de variabilidad de la
variable respuesta.
El coeficiente de correlación lineal muestral es,
Existe una alta correlación positiva.
Estimación de la media condicionada.
“Se quiere estimar el gasto medio en material informático de las empresas
cuyos ingresos globales son de 300 y 800 millones anuales, respectivamente.
Calcular intervalos de confianza al 90% para dichas medias condicionadas.”
Para las empresas con 300 millones de ingresos se obtiene
Se calcula el número de observaciones equivalentes
La varianza del estimador es
El intervalo de confianza es
Para x = 800, se obtiene
Comparando los intervalos de confianza obtenidos se observa que el relativo a
x = 800 tiene una longitud mucho mayor que en el caso de x = 300. Esto es debido
a que el punto x = 300 está más cerca de la media muestral x = 233'231 que el
segundo punto x = 800.
Predicción.
“Predecir el gasto en material informático de la empresa MEGA1 y MEGA2
cuyos ingresos globales son de 300 y 800 millones, respectivamente. Calcular
intervalos de predicción al 90% para dichas predicciones”.
Para la empresa MEGA1, con x = 300, la predicción de gasto es
Con varianza
El intervalo de predicción es
Para la empresa MEGA2, con x = 800, se obtiene la predicción
El intervalo de predicción es
En el cuadro adjunto se comparan las longitudes de los intervalos de
confianza obtenidos
Longitud de los I.C. al 90%
x = 300
x = 800
Estimación de mt
5'180
16'770
Predicción de yt
39'227
42'346
En la Figura 6.12. se representa la nube de puntos del problema estudiado, la
recta de regresión estimada, los intervalos de confianza de las medias
condicionadas al 90% (los más próximos a la recta) y los intervalos de predicción
al 90%.
Figura 6.12. Recta de regresión
FUENTE: http://www.udc.es/dep/mate/estadistica2/sec6_11.html
CORRELACION.
ANALISIS DE RELACION Y CORRELACION
Los análisis se realizarán sobre las variables cuantitativas, ya que Stat Graphics no hace
el análisis, estudio y graficas de las variables cualitativas. Por lo tanto se tomaran como
variables dependientes e independientes, solo aquellas que se pueden ingresar en el
sistema, como numéricas (las de character no pueden ser analizadas).
Regresión para pronóstico de corte transversal.
Tipo de Regresión: Simple


Variable dependiente: X4 (Número de cursos de educación continua
terminados)
Variable Independiente:X2 (Número de horas extra)
Variable independiente X4 (Eje X)
Variable dependiente X2 (Eje Y)
Plot of Fitted Model
240
200
X2
160
120
80
40
0
0
2
4
6
8
10
X4
Ecuación del modelo lineal: X2= 85.7147+1.90585X4
De la cual se deduce: Que el intercepto con el eje Y es 85.7147 y que cada vez
que se incrementa en una unidad el número de cursos de educación continua
terminados, aumenta en un 1.90585 las horas extras trabajadas.
1.COEFICIENTE DE CORRELACION: r =R2 = 0.05370561
Como la pendiente es positiva, el coeficiente de correlación también es positivo.
Existe una relación de 0.0536071 entre las variables, la cual es una relación mas
bien débil.
2.COEFICIENTE DE DETERMINACIÓN: R2 = 0.00288435 O 0.288435%
El número de cursos de educación continua, determinan el número de horas extra
que trabajan los empleados en un 0.002874, por lo que se vé lo determina muy
poco
3. ESTIMACIÓN DE LA VARIANZA DE ERRORES: Se2 = SCE/n-2
CONTRASTES- INTERVALOS DE CONFIANZA
 
Y= BO+B1Xi
Se= 1.69363
La pendiente mide el grado de inclinación y la relación entre las dos variables.
S2B1=Se2/ (Xi2-(n*X2 ))
=0.0000001
SB1=0.000380
1-=95%
= 5%
t 0.025; 48 = 2.0106
LI= 1.90585 – (2.016*0.000380)= 1.1.905084
LS= 1.90585 + (2.016*0.000380)=1.906616
1.905084B11.906616
PRUEBAS DE HIPÓTESIS
H0 : B= 0
H1: B 0
Rechaza si: tc-t /2 y tc t /2

tc= B1-B1/ Sb1
tc=1.90585-0/ 0.000380
tc=5013.3787
t 0.025, 48 =2.0106
5013.3787  2.0106
Rechaza H0. Acepta H1
Regression Analysis - Linear model: Y = a + b*X
----------------------------------------------------------------------------Dependent variable: X4
Independent variable: X2
----------------------------------------------------------------------------Standard
T
Parameter
Estimate
Error
Statistic
P-Value
----------------------------------------------------------------------------Intercept
2,1437
0,43722
4,90302
0,0000
Slope
0,00151342
0,0040615
0,372625
0,7111
-----------------------------------------------------------------------------
Analysis of Variance
----------------------------------------------------------------------------Source
Sum of Squares
Df Mean Square
F-Ratio
P-Value
----------------------------------------------------------------------------Model
0,39827
1
0,39827
0,14
0,7111
Residual
137,682
48
2,86837
----------------------------------------------------------------------------Total (Corr.)
138,08
49
Correlation Coefficient = 0,0537061
R-squared = 0,288435 percent
Standard Error of Est. = 1,69363
The StatAdvisor
--------------The output shows the results of fitting a linear model to describe
the relationship between X4 and X2. The equation of the fitted model
is
X4 = 2,1437 + 0,00151342*X2
Since the P-value in the ANOVA table is greater or equal to 0.10,
there is not a statistically significant relationship between X4 and
X2 at the 90% or higher confidence level.
The R-Squared statistic indicates that the model as fitted explains
0,288435% of the variability in X4. The correlation coefficient
equals 0,0537061, indicating a relatively weak relationship between
the variables. The standard error of the estimate shows the standard
deviation of the residuals to be 1,69363. This value can be used to
construct prediction limits for new observations by selecting the
Forecasts option from the text menu.


Variable independiente: X2 (Número de horas extra) (Eje X)
Variable dependiente: X4 (Número de cursos de educación continua
terminados) (Eje Y)
Plot of Fitted Model
10
X4
8
6
4
2
0
0
40 80 120 160 200 240
X2
Ecuación del modelo lineal : X2=85.7147+1.90585X4
De la cual se deduce: Que el intercepto con el eje Y es 85.7147 y que cada vez que se
incrementa en una unidad las horas extra , aumenta en un 1.90585 el número de cursos de
educación continua terminados.
X2 = Horas extra (Variable independiente : X)
X4 = Cursos de educación continua terminados (Variable dependiente : Y)
1.COEFICIENTE DE CORRELACION: : r =R2
=0.0537061
Como la pendiente es positiva, el coeficiente de correlación también es positivo.
Existe una relación de 0.0537061 entre las variables, la cual es una relación mas bien débil.
2.COEFICIENTE DE DETERMINACIÓN: R2 = 0.00288435
El número de horas extra que trabajan los empleados, determinan la cantidad de cursos de
educación continua en un 0.002884, por lo que se vé lo determina muy poco
3. ESTIMACIÓN DE LA VARIANZA DE ERRORES: Se2 = SCE/n-2 Se= 60.1012
CONTRASTES- INTERVALOS DE CONFIANZA
 
Y= BO+B1Xi
La pendiente mide el grado de inclinación y la relación entre las dos variables.
S2B1=Se2/ (Xi2-(n*X2 ))
=0.283698
SB1=0.532633
1-=95%
= 5%
t 0.025; 48 = 2.016
LI= 1.90585 – (2.016*0.532633)= 0.832062
LS= 1.90585 + (2.016*0.532633)=2.979638
0.832062B12.979638
PRUEBAS DE HIPÓTESIS
H0 : B= 0
H1: B 0
Rechaza si: tc-t /2 y tc t /2
 
tc= B1-B1/ Sb1
tc=1.90585-0/ 0.532633
tc=3.578167
t 0.025, 48 =2.0106
3.578167  2.0106
Rechaza H0. Acepta H1
ANÁLISIS DE UNA VARIABLE (INDEPENDIENTE)
Regression Analysis - Linear model: Y = a + b*X
----------------------------------------------------------------------------Dependent variable: X2
Independent variable: X4
----------------------------------------------------------------------------Standard
T
Parameter
Estimate
Error
Statistic
P-Value
----------------------------------------------------------------------------Intercept
85,7147
14,4303
5,93993
0,0000
Slope
1,90585
5,11467
0,372625
0,7111
-----------------------------------------------------------------------------
Analysis of Variance
----------------------------------------------------------------------------Source
Sum of Squares
Df Mean Square
F-Ratio
P-Value
----------------------------------------------------------------------------Model
501,544
1
501,544
0,14
0,7111
Residual
173383,0
48
3612,15
----------------------------------------------------------------------------Total (Corr.)
173885,0
49
Correlation Coefficient = 0,0537061
R-squared = 0,288435 percent
Standard Error of Est. = 60,1012
The StatAdvisor
--------------The output shows the results of fitting a linear model to describe
the relationship between X2 and X4. The equation of the fitted model
is
X2 = 85,7147 + 1,90585*X4
Since the P-value in the ANOVA table is greater or equal to 0.10,
there is not a statistically significant relationship between X2 and
X4 at the 90% or higher confidence level.
The R-Squared statistic indicates that the model as fitted explains
0,288435% of the variability in X2. The correlation coefficient
equals 0,0537061, indicating a relatively weak relationship between
the variables. The standard error of the estimate shows the standard
deviation of the residuals to be 60,1012. This value can be used to
construct prediction limits for new observations by selecting the
Forecasts option from the text menu.
Stat Graphics unicamente hace el análisis de variables cuantitativas, por eso tomaremos como
variables independientes solo tomaremos a las variables cuantitativas.
1.Variable Independiente: X2 (Horas extra)
Scatterplot for X2
0 40 80 120 160 200 240
Analysis Summary
X2
Data variable: X2
50 values ranging from 0,0 to 225,0
The StatAdvisor
--------------This procedure is designed to summarize a single sample of data.
It will calculate various statistics and graphs. Also included in the
procedure are confidence intervals and hypothesis tests. Use the
Tabular Options and Graphical Options buttons on the analysis toolbar
to access these different procedures.
Summary Statistics for X2
Count = 50
Average = 90,06
Variance = 3548,67
Standard deviation = 59,5707
Minimum = 0,0
Maximum = 225,0
Range = 225,0
Stnd. skewness = 1,02431
Stnd. kurtosis = -1,32
The StatAdvisor
--------------This table shows summary statistics for X2. It includes measures
of central tendency, measures of variability, and measures of shape.
Of particular interest here are the standardized skewness and
standardized kurtosis, which can be used to determine whether the
sample comes from a normal distribution. Values of these statistics
outside the range of -2 to +2 indicate significant departures from
normality, which would tend to invalidate any statistical test
regarding the standard deviation. In this case, the standardized
skewness value is within the range expected for data from a normal
distribution. The standardized kurtosis value is within the range
expected for data from a normal distribution.
FUENTE: http://apuntes.rincondelvago.com/analisis-de-relacion-y-correlacion.html
Otra forma de análisis bivariado es la correlación y regresión de variables numéricas y discretas. El concepto de
correlación y regresión se basa en el grado de relación que poseen dos variables numéricas entre si.
El coeficiente de correlación permite predecir si entre dos variables existe o no una relación o dependencia
matemática.
Supongamos que queremos estudiar la correlación existente entre peso y altura de un grupo de personas tomadas al
azar. Sometemos los datos recogidos de peso y altura al análisis de correlación y encontramos el coeficiente de
correlación entre ambas, que se representa con la letra r. El r = 0.78. Esto significa que a mayor altura correspondería
mayor peso.
Los coeficientes de correlación r siempre oscilan entre valores de 1 y –1. El valor cero 0 significa que no existe
correlación entre ambas variables. Un valor positivo indica que a incrementos en la variable A se producen
incrementos proporcionales en B y un valor negativo indica lo contrario.
Podemos graficar la correlación entre las dos variables a través de una gráfica de dos ejes (abscisas y ordenadas)
cartesianos.
En el siguiente gráfico observamos la correlación entre potencia de motor de un automóvil y consumo en Litros por
cada 100 Km. El r = 0.87 (correlación positiva). (SPSS). Evidentemente a mayor potencia se observa mayor consumo
de combustible. El valor de significación para ese r es de una p < 0.01. Esto quiere decir que la correlación entre
potencia y consumo no es aleatoria.
En el siguiente gráfico encontramos la relación existente entre peso del automóvil en kg. y aceleración 0 a 100 Km. /
hora en segundos. El r = - 0.56 con una p < 0.05. Esto significa que existe una correlación negativa significativa, entre
peso del auto y respuesta de la aceleración. Automóviles más pesados presentan una respuesta más tardía y
viceversa. (SPSS)
Para interpretar el coeficiente de correlación, Colton a dado los siguientes lineamientos generales:





Valor de r de 0 a 0.25 implica que no existe correlación entre ambas variables.
Valor de r de 0.25 a 0.50 implica una correlación baja a moderada.
Valor de r de 0.50 a 0.75 implica correlación moderada a buena.
Valor de r de 0.75 o mayor, implica una muy buena a excelente correlación.
Estos rangos de valores se pueden extrapolar a correlaciones negativas también.
Se debe tener cuidado al analizar la correlación entre dos variables, de que ambas varíen juntas permanentemente.
Esto parece redundante, pero es importante. Por ejemplo, si correlacionamos edad y altura. La altura irá aumentando
con la edad hasta un determinado punto en donde ya no aumentará más.
FUENTE: http://www.medal.org.ar/stadhelp/Std00014.htm
Correlación.
Recordemos que para el caso de una variable, la varianza era un parámetro que nos mostraba cuanta
variación existía entre la media un conjunto de datos. En el mismo tenor, estamos en determinar la
dependencia entre dos variables por lo que una primera propuesta es construir una medida que nos permita en
forma análoga tratar la “variación”.
Se define la covarianza como la variación que existe entre los datos de dos variables, expresada como:
S xy 
donde
xi
y yi
 x
i
 x  y i  y 
n
son las variables para n datos que intervienen en el estudio.
En realidad la correlación es una medida sobre el grado de relación entre dos variables, sin importar cual es
la causa y cual es el efecto. La dependencia de la que se habla en este sentido es la dependencia entre la
varianza de las variables.
Como hemos visto el manejo de unidades adimensionales nos permiten tener un coeficiente sobre el que de
forma cómoda se pueda trabajar, por lo que podemos dividir entre el producto de las desviaciones de las
variables, es decir:
r
S xy
n S x S y 
los valores para este coeficiente están comprendidos entre -1 y 1.
Se tiene los siguientes criterios para r
 r 1


rr0


r  1
la correlación lineales perfect a,direct a o correlación lineal posit iva
no exist e correlación lineal o correlación lineal nula
la correlación lineales perfect a,inversa o correlación lineal negat iva
entre mas se aproxima a los valores 1 y -1 la aproximación a una correlación se considera buena. Cuando
mas se aleja de 1 o de -1 y se acerca a cero se tiene menos confianza en la dependencia lineal por lo que una
aproximación lineal será lo menos apropiado, sin embargo no significa que no existe dependencia, lo único
que podemos decir es que la dependencia no es lineal. Un valor positivo para r indica que a medida que una
variable crece la otra también lo hace, por el contrario si su valor es negativo, lo que podemos decir es que a
medida que una variable crece la otra decrece.
Una vez que se determina que existe dependencia lineal un aspecto sumamente relevante es el investigar las
características del modelo matemático que relaciona una variable con otra, así de esta forma podemos decir,
una variable puede clasificarse como
determinístico y probabilistico. El modelo determinístico, que no será abordado en este curso, esta ligado a
la ecuación que regula de forma determinante el comportamiento de un fenómeno, así por ejemplo podemos
determinar a partir de la obtención de una ecuación sobre el potencial de frenado en un material, que ante
cambios de la longitud de onda la relación es lineal no permitirá predecir cuales serán sus valores.
Ecuaciones que permiten ver como es la oposición a la corriente eléctrica, o resistencia eléctrica, al aumentar
la temperatura de un metal, entre otros, es un claro indicio de una ecuación que es determinística, en ella se
podrá describir como cambiara la resistencia eléctrica del material en cuestión ante el aumento de una
temperatura en el material. Por otro lado, los fenómenos probabilísticos están sujetos a la modelos que
aunque puedan ser descritos por una ecuación no implica que todos los valores que intervienen en el estudio
puedan ser localizados en el gráfico que los representan, y por supuesto un dato mas no es garantía que sea
localizado en la ecuación.
FUENTE: http://148.216.10.83/estadistica/correlacion.htm
Correlación.
Al ajustar un modelo de regresión múltiple a una nube de observaciones es importante disponer
de alguna medida que permita medir la bondad del ajuste. Esto se consigue con los coeficientes
de correlación múltiple.
8.6.1 Coeficiente de correlación múltiple.
En el estudio de la recta de regresión se ha definido el coeficiente de correlación lineal simple (o
de Pearson) entre dos variables X e Y , como
(8.25)
donde s
es la covarianza muestral entre las variables X e Y ; sX y sY son las desviaciones típicas
muestrales de X e Y , respectivamente.
El coeficiente de correlación lineal simple es una medida de la relación lineal existente entre
las variables X e Y.
En general cuando se ajusta un modelo estadístico a una nube de puntos, una medida de la
bondad del ajuste es el coeficiente de determinación, definido por
(8.26)
Si el modelo que se ajusta es un modelo de regresión lineal múltiple, a R se le denomina
coeficiente de correlación múltiple y representa el porcentaje de variabilidad de la Y que explica
el modelo de regresión.
Como scE < scG, se verifica que 0 < R2 < 1. Si R2 = 1 la relación lineal es exacta y si R2 = 0 no
existe relación lineal entre la variable respuesta y las variables regresoras.
El coeficiente de correlación múltiple R es igual al coeficiente de correlación lineal simple
entre el vector variable respuesta y el vector de predicciones ,
El coeficiente de correlación múltiple R presenta el inconveniente de aumentar siempre que
aumenta el número de variables regresoras, ya que al aumentar k (número de variables
regresoras) disminuye la variabilidad no explicada, algunas veces de forma artificial lo que puede
ocasionar problemas de multicolinealidad. Si el número de observaciones n es pequeño, el
coeficiente R2 es muy sensible a los valores de n y k. En particular, si n = k + 1 el modelo se ajusta
exactamente a las observaciones. Por ello y con el fin de penalizar el número de variables
regresoras que se incluyen en el modelo de regresión, es conveniente utilizar el coeficiente de
determinación corregido por el número de grados de libertad, 2. Este coeficiente es similar al
anterior, pero utiliza el cociente de varianzas en lugar del cociente de sumas de cuadrados. Para
su definición se tiene en cuenta que
Cambiando las sumas de cuadrados por varianzas se obtiene el coeficiente de determinación
corregido por el número de grados de libertad, 2, definido como sigue
(8.27)
Ahora es fácil deducir la siguiente relación entre los dos coeficientes de determinación
(8.28)
También es fácil relacionar el estadístico del contraste de regresión múltiple con el coeficiente
de determinación, obteniendo
(8.29)
8.6.2 Correlación Parcial
Sea
un conjunto de variables aleatorias, el coeficiente de correlación parcial entre
Xi y Xj es una medida de la relación lineal entre las variables Xi y Xj una vez que se ha eliminado
en ambas variables los efectos debidos al resto de las variables del conjunto
. Al
coeficiente de correlación parcial entre X1 y X2 se le denotará por r12·3...k·
Para una mejor interpretación de este concepto, considérese el conjunto de cuatro variables
, se desea calcular el coeficiente de correlación parcial entre las variables X1 y X2.
Para ello, se procede de la siguiente forma,
1. Se calcula la regresión lineal de X1 respecto de X3 y X4
donde e1·34 son los residuos del ajuste lineal realizado.
2. Se calcula la regresión lineal de X2 respecto de X3 y X4
X2
donde e2.34 son los residuos del ajuste lineal realizado.
3. El coeficiente de correlación parcial entre X1 y X2 es el coeficiente de correlación lineal
simple entre las variables e1.34 y e2.34,
Por tanto, el coeficiente de correlación lineal se define siempre dentro de un conjunto de
variables y no tiene interpretación ni sentido si no se indica este conjunto de variables.
Relación entre los coeficientes de correlación.
Sea el conjunto de variables
, entonces se verifica la siguiente relación entre los
coeficientes de correlación lineal simple y el coeficiente de correlación parcial,
(8.30)
Cálculo del coeficiente de correlación parcial.
En un modelo de regresión múltiple
se puede calcular fácilmente el coeficiente de correlación parcial entre la variable respuesta Y y
una variable regresora Xi controlado por el resto de variables regresoras. Para ello se utiliza el
estadístico del contraste individual de la t respecto a la variable Xi y que se definió
anteriormente como
obteniéndose la siguiente relación
(8.31)
donde C =
excepto el índice i.
el conjunto de índices de todas las variables regresoras
FUENTE: http://www.udc.es/dep/mate/estadistica2/sec8_6.html
Coeficiente de correlación múltiple
Definición. En el contexto del análisis de la regresión lineal simple el coeficiente de
correlación múltiple establece una medida del grado de asociación lineal entre la
variable respuesta y la variable predictora, concretamente entre la variable respuesta y
la recta de regresión estimada. Se define, a partir de los n pares de observaciones,
mediante
Su cuadrado, R2, denominado coeficiente de determinación múltiple, puede
interpretarse como el porcentaje de variabilidad de Y explicada o debida a la recta
de regresión, en tanto que puede comprobarse que
Cuando todos los puntos se encuentran sobre la recta de regresión estimada, es decir,
"el ajuste es perfecto", la suma de cuadrados de residuos, SSE, toma el valor cero y ,
por tanto, R2 = 1. El denominador de la última expresión es una medida de la
variabilidad total de las n observaciones de la variable respuesta.
FUENTE: http://e-stadistica.bio.ucm.es/glosario2/coef_corre.html
Descargar