Probabilidad y Estad´ıstica - Universidad Michoacana de San

Anuncio
Probabilidad y Estadı́stica
por Marı́a Luisa Pérez Seguı́
Introducción
Se presenta aquı́ el material correspondiente a un curso de Probabilidad y Estadı́stica, el
cual se imparte en la Facultad de Ciencias Fı́sico-Matemáticas de la Universidad Michoacana.
Se propone en las notas un curso introductorio a los vastos temas de probabilidad y
estadı́stica. En vista que el curso va dirigido a estudiantes de segundo año de una carrera de
matemáticas, los temas no pueden tratarse de manera muy rı́gida ni abstracta. El enfoque
es mediante numerosos ejemplos para ilustrar los principios del razonamiento teórico en
Probabilidad y las aplicaciones de la Estadı́stica.
Marı́a Luisa Pérez Seguı́
Fac. Cs. Fı́sico-Matemáticas
Universidad Michoacana de San Nicolás de Hidalgo
i
Índice
ii
1.
Qué estudian la Probabilidad y la Estadı́stica
La probabilidad y la estadı́stica estudian el comportamiento de procesos aleatorios. Lo
“aleatorio” de un proceso puede venir de diferentes lados:
Realmente es aleatorio.
Falta de información.
Falta de poder deductivo.
La estadı́stica también, a veces, nos proporciona un resumen de los datos, para que los
podamos entender. Esto, claro, lleva sus problemas también, porque a veces se confunde el
resumen de los datos con los datos. Si sólo tenemos el promedio de las cosas, muchas veces
eso no cuenta “toda la historia”. Incluso el promedio, la media, la media geométrica, la
varianza, el segundo momento, etc, no cuentan toda la historia.
En términos generales
La probabilidad supone que se conoce exactamente cómo funciona determinado proceso
aleatorio y trata de concluir qué se observará.
La estadı́stica comienza de las observaciones y trata de inferir cómo funciona un proceso
aleatorio.
Probabilidad
Va de lo general a lo particular
Perfecta
Independiente
Muy matemática
Estadı́stica
Va de lo particular a lo general
Sujeta a todo tipo de errores, interpretaciones, etc.
Se necesita entender probabilidad primero
Menos matemática
Entender los principios de probabilidad y estadı́stica sirve para tomar decisiones de la
vida cotidiana; para no dejarse engañar por los polı́ticos, las noticias, etc.
La aplicación matemática y técnica de la probabilidad y estadı́stica ha tenido varios
grandes éxitos:
Ciencias Naturales: Fı́sica, Biologı́a, Quı́mica, etc.
Medicina: Revolucionada por la estadı́stica y estudios doblemente a ciegas.
Ciencias Sociales: Polı́tica (elecciones), Psicologı́a, Economı́a, etc.
Finanzas: También ha ocasionado problemas enormes.
Los problemas de mala interpretación de la Estadı́stica son varios. Podemos enunciar
algunos:
1
Confundir causalidad con correlación. Dos cosas están correlacionadas si por lo general
ocurrren juntas; sin embargo no tiene por qué ser cierto que una sea causa de la otra.
Un ejemplo muy burdo de esto serı́a decir que usar zapatos grandes hace que uno
juegue bien basquetbol.
Coincidencia. Los sucesos cotidianos son innumerables. Tratar de explicar uno de ellos
simplemente porque otro ocurrió al mismo tiempo es un error muy común. Ejemplos de esto son las supuestas premoniciones, los milagros curativos, etc. Inclusive,
la cantidad de eventos que pueden analizarse es enorme, ası́ que algunas gráficas se
parecen (es decir, existe corrrelación entre ellas) aunque los eventos son completamente ajenos (ver, por ejemplo, http://www.xatakaciencia.com/psicologia/correlacion-noimplica-causalidad-hay-que-decirlo-mas).
Encuestas sin representatividad. Aquı́ un ejemplo extremo serı́a preguntar en una avenida a los conductores si tienen coche y luego inferir que casi todas las personas tienen
coche.
2
2.
Introducción a la Probabilidad
Empezaremos por dar un “modelo general” de cómo funciona la probabilidad y luego
veremos técnicas para calcularla. Es necesario conocer todas las posibilidades que pudieran
llegar a ocurrir. Esto, en el mundo real, no ocurre siempre, claro.
En determinada situación, al conjunto de todas las posibles situaciones que podrı́an llegar
a ocurrir se le llama espacio muestral. Denotaremos este conjunto por Ω.
2.1 Ejemplo. (a) Si lanzamos una moneda una vez, Ω = {A, S}.
(b) Si lanzamos una moneda dos veces, entonces Ω = {AA, AS, SA, SS}.
El espacio muestral Ω podrı́a ser finito o infinito pero, más importante que eso, Ω podrı́a
ser discreto o continuo.
La probabilidad discreta es cuando no hay noción de “cercanı́a” entre las cosas que pueden
ocurrir (usualmente, cuando es finito), como por ejemplo tiros de monedas, dados, votaciones,
etc. En la probabilidad continua hay toda una gama de posibilidades muy “cercanas” unas
de otras, como temperatura, tiro con arco, etc.
Vamos a empezar a estudiar la probabilidad discreta y luego veremos sus “analogı́as”
con la probabilidad continua. Básicamente, para probabilidad discreta hay que saber contar.
Para probabilidad continua hay que saber cálculo o análidis matemático. Podemos pensar
que la probabilidad continua es el lı́mite de la probabilidad discreta.
En un espacio muestral discreto Ω, cada elemento x ∈ Ω tiene asociada un número entre
0 y 1, que es su probabilidad de ocurrir. Lo denotamos por P (x).
Cualquier subconjunto del espacio muestral se llama suceso o evento.
La suma de todas las probabilidades en un suceso A es la probabilidad del suceso, denotada por P (A).
Si A = Ω se debe tener, por definición, P (Ω) = 1
2.2 Nota. Es importante señalar que el que se puedan sumar las probabilidades individuales de los elementos depende fuertemente del que el espacio sea discreto. Por ejemplo,
si tenemos una región circular del plano, lo natural serı́a que la probabilidad de escoger
un determinado punto en esa región sea 0, pero la suma de 00 s es 0. Para poder estudiar
probabilidad de este tipo se necesita introducir conceptos como de medida. Un estudio ası́
corresponde al Análisis Matemático bastante más complicado que el propósito de este curso.
2.3 Ejemplo. (a) Lanzamos una moneda “justa”. ¿Cuál es el espacio muestral y cuales
son las probabilidades?
Ω = {A, S} y las probabilidades son 1/2 para ambas.
3
(b) Lanzamos una moneda y seguimos lanzándola una y otra vez, hasta que salga águila, y
entonces nos detenemos. El espacio muestral es
Ω = {A, SA, SSA, SSSA, SSSSA, ...}
Las probabilidades son:
1
P (A) = ,
2
1
P (SA) = ,
4
1
P (SSA) = ,
8
...
(c) Supongamos que tiramos dos dados y nos fijamos en su suma. Entonces el espacio muestral
es
Ω = {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12}.
Sin embargo, es claro aquı́ que los elementos tienen diferentes probabilidades. ♦
En el ejemplo anterior vimos que en un espacio muestral los elementos pueden tener
diferente probabilidad de ocurrir. Muchas veces conviene modificar el espacio para que todos
los elementos sean equiprobables, es decir, que tengan la misma probabilidad. Esto facilita
el cálculo de probabilidades y la razón es que simplemente se puede tomar la probabilidad
de un suceso A como
P (A) =
# veces que ocurre A
|A|
=
# total de casos
|Ω|
2.4 Ejemplo. Modificar el ejemplo ?? para lograr equiprobabilidad y calcular la probabilidad de que la suma sea 11 y también de que sea 12.
Solución.
Ω = {(1, 1), (1, 2), (1, 3), (2, 1), ...} = {1, 2, . . . , 6}2
Las formas en que se suma 11 son 2: (5, 6) y (6, 5). Sólo hay una forma de lograr 12: (6, 6).
1
2
= 18
y la de
Como el espacio muestral tiene 36 elementos, la probabilidad de lograr 11 es 36
1
lograr 12 es 36 . ♦
Pero entonces se vuelve muy importante poder contar cosas de manera eficiente. Dedicaremos a esto la siguiente sección.
2.5 Ejercicio. Explicar por qué se cuentan por separado las opciones (5, 6) y (6, 5) en
??.
2.1.
Conteo
Esta sección es un repaso de los temas básicos del conteo.
4
2.6 Ejemplo. ¿Cuántos números enteros de tres o menos cifras hay?
Solución. La respuesta a esta pregunta es fácil: Hay 1000 pues son todos los números
enteros del 0 al 999. Esta solución no nos enseña gran cosa. Retomemos ahora el problema
buscando una solución constructiva; esto es, para cualquier n = 1, 2, 3, . . ., la cantidad de
números de hasta n + 1 cifras se puede obtener de la cantidad de números de hasta n cifras:
simplemente se multiplica por 10. Vamos a describir con detalle este procedimiento:
Números de a lo más una cifra hay 10, a saber, 0, 1, 2, 3, 4, 5, 6, 7, 8 y 9. Para contar los
de hasta dos cifras (del 0 al 99) no necesitamos escribirlos todos; basta con observar que la
primera cifra puede ser cualquiera de los 10 dı́gitos 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, y por cada uno de
éstos hay 10 terminaciones distintas; por ejemplo, los números de dos cifras que empiezan con
4 son: 40, 41, 42, 43, 44, 45, 46, 47, 48 y 49, diez en total; lo mismo para cada una de las otras
decenas. Ası́ la cantidad de enteros entre 0 y 99 es 10×10 = 100. El siguiente paso es análogo:
Para contar los números de hasta tres cifras hay que agregar un dı́gito (posiblemente 0) a
cada uno de los 100 números de 2 o menos cifras; como hay diez posibilidades la respuesta
será 10 × 100 = 1000. ♦
Este procedimiento de “construir sobre lo ya construido” que hemos utilizado se llama
procedimiento inductivo . Muchas demostraciones de propiedades y fórmulas de números
naturales se basan en él. Más adelante se estudiará esto con detalle. El principio combinatorio
que manejamos en el ejemplo anterior (y que manejaremos en los siguientes) es:
2.7. Principio Fundamental de Conteo. Si una cierta tarea puede realizarse de m
maneras diferentes y, para cada una de esas formas, una segunda tarea puede realizarse de
n maneras distintas, entonces las dos tareas juntas pueden realizarse (en ese orden) de mn
formas diferentes.
2.8 Ejemplo. ¿Cuántas palabras de tres letras se pueden formar si se dispone de un
alfabeto con dos letras: a y b. (Nota: Son permisibles palabras como bba.)
Solución. Procederemos como en el ejemplo anterior. En este caso conviene ilustrarlo
haciendo un “diagrama árbol”:
5
Resolvamos ahora el ejemplo utilizando nuestro Principio Fundamental de Conteo. Con, la primera para la letra inicial, la segunda para la letra central
sideremos tres casillas:
y la tercera para la letra final. En cada casilla hay dos elecciones posibles: la letra a o la
letra b. La respuesta es entonces 2 × 2 × 2 = 8. El procedimiento inductivo es como sigue:
En la primera casilla hay 2 posibilidades para elegir la letra. Una vez formada una palabra
de una letra: a o b, para agrandarla a una palabra de dos letras hay dos posibilidades, ası́
que palabras de dos letras hay 2 × 2 = 4. Para completar cada una de éstas a una palabra
de tres letras hay dos posibilidades; entonces hay 4 × 2 = 8 palabras de tres letras. ♦
2.9 Ejemplo. ¿Cuántas placas distintas hay con dos letras a la izquierda y tres números
a la derecha? (Nota: Consideraremos el alfabeto de 27 letras castellanas.
Solución. Seguimos el procedimiento de las casillas del ejemplo anterior:
27 × 27 × 10 × 10 × 10 = 729 000. ♦
| {z } |
{z
}
lugares
para letras
lugares
para números
2.10 Ejemplo. ¿Cuántas banderas bicolores se pueden formar si se dispone de 4 lienzos
de tela de colores distintos y un asta? (Nota: Banderas como rojo-rojo no son permisibles;
por otro lado, es importante el color que queda junto al asta, de esta manera banderas como
rojo-azul y azul-rojo se consideran distintas.)
Solución. En este caso consideramos dos casillas. La de la izquierda, digamos, representa
el lienzo junto al asta, el cual tiene 4 elecciones posibles. Una vez elegido éste, el color para
la derecha se puede escoger de 3 formas (pues no se permite la repetición de colores). Ası́
hay 4 × 3 = 12 formas distintas de formar las banderas. ♦
2.11 Ejercicio. Escribir todas las banderas que pueden formarse según el ejemplo anterior si los colores son rojo (R), azul (A), verde (V ) y blanco (B).
6
2.12 Ejemplo. Misma pregunta que en el ejemplo anterior pero ahora suponiendo que
no hay asta. (En este caso no habrá distinción entre las banderas rojo-azul y azul-rojo.)
Solución. Para resolver este ejemplo analicemos la respuesta del ejemplo anterior. En
aquél, en la colección total de las 12 banderas posibles podemos aparear cada bandera con
su opuesta; por ejemplo la bandera azul-verde la apareamos con la bandera verde-azul. Cada
una de las del ejemplo anterior se esta contando dos veces y, por tanto, la respuesta es
12
= 6. ♦
2
2.13 Ejercicio. En el resultado del ejercicio ?? aparear cada una de las banderas con
su opuesta. Dar una lista de 6 banderas que ilustre la respuesta del ejemplo ??.
2.14 Ejemplo. ¿De cuántas formas se pueden sentar 5 personas en 5 sillas numeradas
del 1 al 5?
Solución. En el asiento #1 se puede sentar cualquiera de las 5 personas; para cada elección
de la primera persona, la segunda puede ser cualquiera de las 4 restantes; ası́ en las dos
primeras sillas el número de elecciones posibles es 5 × 4 = 20. Continuamos de manera
análoga. Para simplificar dibujemos 5 casillas simbolizando los 5 asientos. Sobre cada casilla
escribamos el número respectivo de posibilidades y multipliquemos:
5 × 4 × 3 × 2 × 1 = 120. ♦
Si n es un número natural, el producto de todos los números naturales del 1 al n aparece
muy frecuentemente en problemas de combinatoria; se llama n factorial o factorial de n
y se denota por n!. (Ası́ la respuesta del ejemplo ?? es 5! = 120.)
Alejándose de la interpretación de n! como el producto de los naturales de 1 a n, se define
0! = 1;
esto permite incluir el caso n = 0 en algunas fórmulas en las que interviene n!. Entonces
0!
1!
2!
3!
4!
=
=
=
=
=
1
1
1×2=2
1×2×3=6
1 × 2 × 3 × 4 = 24.
Es fácil darse cuenta que el número 5 del ejemplo ?? y el que sean personas y asientos
en lugar de cualquier otra cosa no es relevante; podemos generalizarlo como sigue:
7
El número Pn de distintas formas en que se pueden ordenar n objetos es n!. Cada una de
las listas ordenadas que se forman con los n objetos se llama permutación (de los objetos).
Tenemos entonces que el número de permutaciones de n objetos es Pn = n!.
2.15 Ejemplo. De un grupo de 5 estudiantes quiere elegirse una comisión de 3 para que
cada uno visite un museo de una lista de 3 museos. ¿Cuántas comisiones distintas se pueden
formar?
Solución. Utilizando el esquema de casillas (cada una representando un museo) como
arriba, tenemos que el resultado es
5 × 4 × 3 = 60. ♦
2.16 Ejemplo. De un grupo de 5 estudiantes quiere elegirse una comisión de 3 para que
juntos visiten un museo (el mismo todos). ¿Cuántas comisiones diferentes se pueden formar?
Solución. Hay que observar que la diferencia entre este ejemplo y el anterior es que no
importa el orden en la elección. En el ejemplo anterior habı́a distición entre las casillas pues
cada una representaba un museo en particular distinto a los otros; en éste no hay distinción
entre las casillas pues, por ejemplo, una comisión en que se haya elegido la sucesión de
alumnos Ana-Beto-Carlos se considerará igual a la sucesión Beto-Carlos-Ana y también
igual a la sucesión Ana-Carlos-Beto. Nuestro interés es entonces determinar en la cantidad
5 × 4 × 3, en cuántas sucesiones aparece el mismo conjunto de alumnos. Para responder
esto conviene plantear esta parte del ejemplo al revés: Consideremos un conjunto fijo de 3
personas, por ejemplo el formado por Ana (A), Beto (B) y Carlos (C) y contemos de cuántas
formas se pueden ordenar estos 3. Observemos que el número de formas es precisamente el
número de permutaciones de las 3 personas, o sea, P3 = 3! = 6. Entonces cada grupo de 3
personas se está contando 6 veces en el producto 5 × 4 × 3, ası́ que la respuesta al ejemplo
será
5×4×3
= 10. ♦
3!
2.17 Ejercicio. En los ejemplos ?? y ?? supongamos que el grupo de los 5 alumnos está
formado por Ana (A), Beto (B), Carlos (C), Daniel (D) y Elena (E). Hacer la lista de los
60 arreglos de estos alumnos en los que se elige 3 para visitar museos distintos, agrupando
en esa lista las colecciones que resultan iguales si todos van a un mismo museo.
En el ejemplo anterior aprendimos el siguiente principio:
2.18. El número de colecciones (en las que el orden no importa) con r elementos que se
pueden seleccionar dentro de un conjunto de n elementos (n ≥ r ≥ 1) es
n × (n − 1) × · · · × (n − (r − 1))
.
r!
8
Este número recibe el nombre de combinaciones de n en r y se denota por nr . Dicho
de otra manera, el número de subconjuntos de r elementos que tiene un conjunto con n
elementos es nr . (En el ejemplo ??, n = 5 y r = 3 y la respuesta es 53 .) Nótese que la
fórmula ?? no tiene sentido para n = 0; sin embargo sı́ tiene sentido hablar del número
de subconjuntos con 0 elementos dentro de un conjunto con n elementos; sabemos que este
número es 1 pues sólo hay un conjunto sin elementos que es el llamado conjunto vacı́o.
Definimos entonces
n
= 1.
0
2.19 Ejercicio. Sea X = {a, b, c, d, e}. Escribir todos los subconjuntos de X con
(a) 0 elementos,
(b) 1 elemento,
(c) 2 elementos,
(d) 3 elementos,
(e) 4 elementos y
(f) 5 elementos.
Verificar que en cada caso el número de subconjuntos obtenido sea 5r y que el número
total de subconjuntos sea 25 = 32.
2.20 Ejercicio. Basándose en la interpretación de nr como el número de subconjuntos
de r elementos dentro de un conjunto con n elementos, explicar por qué
n
n
=
.
r
n−r
2.21 Ejercicio. Calcular
7
2
,
7
5
,
5
5
y
9
4
.
Con la intención de simplificar la fórmula ?? sobre las combinaciones de n en r, observemos que, para 1 ≤ r ≤ n − 1, el numerador se puede “completar” a n! multiplicando
por (n − r)!; si lo “completamos” deberemos compensar dividiendo también por (n − r)!.
Tendremos entonces que para r = 1, 2, . . . , n − 1,
2.22.
n
n!
.
=
r!(n − r)!
r
Recordemos que se ha definido 0! = 1 y n0 = 1; notemos entonces que si sustituimos
r = 0 (y, posiblemente también n = 0) en el lado derecho de la fórmula ?? obtendremos
n!
n!
= 1. De la misma manera, al sustituir r = n obtendremos n!0!
= 1. Ası́, también en estos
0!n!
casos extremos vale la fórmula ??.
2.23 Ejercicio. Volver a hacer los ejercicios ?? y ?? utilizando la fórmula ??.
9
2.24 Ejemplo. De un grupo de 10 niños y 15 niñas se quiere formar una colección de 5
jóvenes que tenga exactamente 2 niñas. ¿Cuántas colecciones distintas se pueden formar?
15×14
Solución. La elección de las 2 niñas se puede hacer de 15
= 2! = 105 formas. Como
2
deben ser 5 en total y debe haber 2 niñas exactamente, entonces los niños serán 3; éstos se
= 120 formas. Por tanto el resultado es 105×120 = 12 600. ♦
pueden escoger de 10
= 10×9×8
3!
3
Como hemos visto, al determinar cantidades buscamos simplificar nuestras cuentas utilizando “homogeneidades” en el problema. Con este propósito, en algunas ocasiones es conveniente dividir en casos de manera que en cada uno de ellos haya homogeneidad, y después
sumar las respuestas. Un ejemplo muy simple de esto serı́a el siguiente: Si tenemos 4 paquetes
de 100 hojas de papel y otros 3 paquetes de 200 hojas cada uno, entonces el número total
de hojas que tenemos es
4 × 100 + 3 × 200 = 1000.
Comparemos el siguiente ejemplo con el anterior, tomando en cuenta la búsqueda de
homogeneidades, como acabamos de decir.
2.25 Ejemplo. De un grupo de 10 niños y 15 niñas se quiere formar una colección de 5
jóvenes que tenga a lo más 2 niñas. ¿Cuántas colecciones distintas se pueden formar?
Solución. Vamos a resolver este ejemplo como el anterior pero separando por casos y
después sumando las respuestas de cada uno de los casos.
10
Caso 1: Que la colección tenga 2 niñas exactamente: 15
= 12 600.
2
3
10
Caso 2: Que la colección tenga exactamente 1 niña: 15
= 3 150.
1
4
10
Caso 3: Que la colección no tenga niñas: 15
= 252.
0
5
La respuesta al ejemplo es 12 600 + 3 150 + 252 = 16 002. ♦
2.26 Ejemplo. Un grupo de 15 personas quiere dividirse en 3 equipos de 5 personas
cada uno. Cada uno tendrá una labor especı́fica distinta a las demás. ¿De cuántas formas
distintas es posible hacer la distribución?
Solución.
Escojamos uno por uno los equipos. La elección del primer equipo puede hacerse
15
equipo ya sólo habrá 10 personas de dónde
de 5 = 3 003 formas; para elegir el segundo
10
escoger, por tanto éste se podrá elegir de 5 = 252 formas. El tercer equipo quedará formado
automáticamente con la elección de los otros dos. Entonces el número de formas de hacer la
elección sucesiva es 3 003 × 252 × 1 = 756 756. ♦
2.27 Ejemplo. Un grupo de 15 personas quiere dividirse en 3 equipos de 5 personas
cada uno. Todos los equipos tendrán la misma labor. ¿De cuántas formas es posible hacer la
10
distribución?
Solución. En este caso no hay distinción entre los equipos ası́ que hay que dividir el
resultado del ejemplo anterior entre 3!, que es el número de permutaciones de los equipos.
La respuesta es entonces 126 126. ♦
2.28 Ejemplo. En una bolsa hay 3 pelotas rojas y 2 azules. Se quiere formar una fila
con todas ellas. ¿De cuántas maneras distintas puede quedar la fila?
Solución. Primera forma. Consideremos todas las permutaciones de las 5 pelotas y contemos cuántas de esas permutaciones son indistinguibles entre sı́. Las permutaciones de las
5 pelotas sabemos que son 5! = 120. En cualquiera de las permutaciones fijémonos en la
ubicación de las pelotas rojas; por ejemplo − roja − roja roja. éstas pueden revolverse
entre sı́ (3! veces) formando colecciones indistinguibles, y lo mismo ocurre con las del otro
color. Vamos a explicar lo anterior con más detalle: Denotemos las pelotas rojas por R1 , R2
y R3 , y las azules por A1 y A2 . Entonces las siguientes listas (en las que se han permutado
las rojas pero se han dejado fijas las azules) representan la misma colección:


A1 R1 A2 R2 R3
A1 R1 A2 R3 R2 


A1 R2 A2 R1 R3 


A1 R2 A2 R3 R1  .


A1 R3 A2 R1 R2 
A1 R3 A2 R2 R1
Estas 3! listas deben considerarse como una sola. Además, en cada una de ellas también se
pueden revolver las azules entre sı́ (2! permutaciones). Entonces al considerar las permutaciones de las 5 pelotas, cada arreglo se está contando 3! × 2! = 12 veces en lugar de 1. La
5!
= 10.
respuesta al ejemplo es pues 3!2!
Segunda forma. Primero podemos contar las posibilidades para colocar las pelotas rojas
en los 5 lugares disponibles; esto nos dará la elección de 3 lugares, que puede hacerse de
5
= 10 maneras.
Para colocar las 2 azules ya sólo sobran 2 lugares ası́ que esto se puede
3
2
hacer de 2 = 1 forma. El resultado es 10 × 1 = 10. ♦
2.29 Ejercicio. Escrı́banse las 10 filas distintas que se pueden formar con las pelotas en
el ejemplo ??.
2.30 Ejemplo. En una bolsa hay 3 pelotas rojas y 2 azules. ¿Cuántas filas distintas de
3 pelotas se pueden formar?
Solución. Como son 5 pelotas en total pero sólo se van a considerar filas de 3, hay que dejar
dos pelotas sin colocar. Consideraremos los distintos casos por separado y después sumaremos
3!
= 3 arreglos
las respuestas parciales. Si las dos pelotas que quedan fuera son rojas, hay 1!2!
3!
3!
con las restantes. Análogamente hay 3! = 1 fila que deja las 2 pelotas azules fuera, y 2!1!
=3
11
filas que dejan una azul y una roja fuera. La respuesta al ejemplo es 3 + 1 + 3 = 7. ♦
2.31 Ejercicio. Escribir los 7 arreglos de pelotas del ejemplo ?? .
En algunas ocasiones, para poder hacer bien las cuentas, nuestra búsqueda de homogeneidad nos lleva a que es más fácil contar lo opuesto de lo que queremos y después restar de
un total. Ilustramos esto con el siguiente ejemplo.
2.32 Ejemplo. ¿De cuántas maneras pueden ordenarse en un estante 3 cuadernos rojos,
4 azules y 2 verdes, si los verdes no deben quedar juntos?
Solución. Conviene contar primero todas las ordenaciones posibles y después restar aquéllas
en las que los verdes quedan juntos. El número total de filas (incluyendo aquéllas en que los
9!
= 1260. Para contar las que tienen juntos los cuadernos verdes
verdes quedan juntos es 3!4!2!
pensemos éstos como pegados formando un solo cuaderno; ahora determinemos el número de
8!
= 280. La respuesta al ejemplo
arreglos con 3 cuadernos rojos, 4 azules y 1 verde; éste es 3!4!
es 1260 − 280 = 980. ♦
2.33. Los ejemplos siguientes se refieren a la baraja usual de pókar: Cada carta tiene
un sı́mbolo llamado número que puede ser cualquiera de los 13 sı́mbolos siguientes: A, 2,
3, 4, 5, 6, 7, 8, 9, 10, J, Q o K, y otro sı́mbolo llamado palo que puede ser cualquiera de
los 4 siguientes: ♠ (espada), ♥ (corazón), ♦ (diamante) o ♣ (trébol). Todos los palos
se combinan con todos los números para formar la baraja completa con 13 × 4 = 52 cartas
como se ilustra a continuación:
A♥
2♥
3♥
4♥
5♥
6♥
7♥
8♥
9♥
10♥
J♥
Q♥
K♥
A♦
2♦
3♦
4♦
5♦
6♦
7♦
8♦
9♦
10♦
J♦
Q♦
K♦
A♠
2♠
3♠
4♠
5♠
6♠
7♠
8♠
9♠
10♠
J♠
Q♠
K♠
A♣
2♣
3♣
4♣
5♣
6♣
7♣
8♣
9♣
10♣
J♣
Q♣
K♣
Se llama mano de pókar cualquier colección de 5 cartas de la baraja. La siguiente
nomenclatura es usual:
par: dos cartas del mismo número.
tercia: tres cartas del mismo número.
pókar: cuatro cartas del mismo número.
full: una tercia y un par.
flor: cinco cartas del mismo palo.
corrida: cinco cartas con numeración consecutiva (según el orden en que se escribieron
arriba, pero permitiendo A también como número final, en seguida de K).
Observemos que el número total de manos de pókar es 52
= 2 598 960.
5
12
2.34 Ejemplo. ¿Cuántas manos de pókar tienen tercia exactamente (es decir, que no
sea full ni pókar).
Solución. Primera forma. Ponemos 5 casillas: las tres primeras para la tercia y las otras
dos para las otras cartas. La primera carta se puede escoger arbitrariamente; la segunda sólo
tiene 3 posibilidades pues debe tener el mismo número que la primera; la tercera ya sólo
puede ser elegida de 2 maneras distintas; como no importa el orden de estas 3 cartas, este
número deberá dividirse entre 3!. La cuarta carta se debe escoger dentro de las 48 que son de
número distinto al de la tercia. Para la quinta carta ya sólo sobran 44 cartas pues el número
debe ser también distinto. La cuarta y quinta pueden haberse escogido en cualquier orden
por lo que se deberá dividir entre 2!.
48 × 44
52 × 3 × 2
×
= 54 912.
3! }
2! }
| {z
| {z
tercia
cartas distintas
Segunda forma. También formamos primero la tercia pero eligiendo antes el número que le
corresponderá: Tenemos 13 números para escoger y, una vez escogido el número, las 3 cartas
que forman
la tercia deben escogerse dentro de 4 posibles; entonces el número de tercias
4
es 13 3 . Para escoger las otras dos cartas utilizando este mismo método razonamos como
sigue: Hay que escoger 2 números (pues queremos que las otras 2 cartas sean de números
distintos) dentro de los 12 que sobran; esta elección se puede hacer entonces de 12
formas.
2
En cada uno de estos números que se hayan elegido hay que escoger 1 carta, cosa que puede
hacerse de 41 formas. El resultado escrito en esta forma es
2
4
12 4
,
13
×
3
2
1
que, desde luego, también es igual a 54 912. ♦
2.35 Ejemplo. ¿Cuántas manos de pókar tienen dos pares (distintos) exactamente?
Solución. Procedemos como en el ejemplo ??.
Primera forma.
1er par
2o par
z }| { z }| {
52 × 3 48 × 3
2!
2! × 44 = 123 552.
2!
(Nota: Hay que dividir entre 2! porque no importa el orden entre los dos pares.)
Segunda forma.
2
13 4
× 44 = 123 552. ♦
2
2
13
2.36 Ejemplo. ¿Cuántas manos de pókar tienen corrida?
Solución. El número más bajo de la corrida puede ser cualquiera de los siguientes: A,
2, 3, 4, 5, 6, 7, 8, 9 o 10, que son 10 posibilidades. Pongamos 5 casillas; la primera casilla
será para la carta de número menor, la siguiente casilla será para el siguiente número, y ası́
sucesivamente hasta la quinta casilla que será para la carta con el número mayor. Una vez
escogido el número menor para la corrida, todos los demás números quedan determinados y
lo único que falta escoger es el palo. Entonces la cantidad de corridas es 10×4×4×4×4×4 =
10 240. ♦
Los métodos de conteo nos permiten a veces probar ciertas fórmulas. Un ejemplo muy
sencillo de esto es la prueba de la conmutatividad del producto de naturales, la cual estamos
acostumbrados a tomarla como verdadera; sin embargo, si lo pensamos con cuidado, para
m, n ∈ N, la expresión m × n significa, por definición, la suma de n consigo mismo m veces,
mientras que n × m representa la suma de m consigo mismo n veces. Ası́ expresados no
es claro por qué es válida la igualdad m × n = n × m. Sin embargo es claro que ambas
expresiones cuentan cuántos puntos hay en una configuración rectangular de puntos con
m renglones y n columnas y, como cuentan lo mismo, entonces son iguales. Veremos otros
ejemplos más complicados en los que se prueban fórmulas combinatorias.
2.37 Ejemplo. Probar la fórmula de Gauss
1 + 2 + 3 + ··· + n =
n(n + 1)
.
2
Solución. Contaremos las colecciones de 2 elementos que pueden escogerse dentro de
un conjunto de n + 1 elementos de dos maneras diferentes. La comparación de los dos resultados nos demostrará la veracidad de la fórmula. Consideremos ası́ el conjunto X =
{x1 , x2 , . . . , xn+1 }. Pongamos los subconjuntos de X que tienen dos elementos en una lista,
como sigue:
{x1 , x2 }, {x1 , x3 }, {x1 , x4 }, · · ·
{x2 , x3 }, {x2 , x4 }, · · ·
{x3 , x4 }, · · ·
{x1 , xn+1 },
{x2 , xn+1 },
{x3 , xn+1 },
..
.
{xn−1 , xn+1 }.
De esta lista es fácil observar que el número de subconjuntos de X con 2 elementos es
precisamente lo que aparece del lado izquierdo en la igualdad que queremos probar. Por otro
lado, sabemos que el número de subconjuntos de 2 elementos que tiene un conjunto con n + 1
elementos es n+1
, que es precisamente lo que aparece en el miembro derecho de la igualdad,
2
y ası́ queda completa la demostración. ♦
14
2.38 Ejemplo. Probar que si m, n y r son naturales con 0 ≤ r ≤ m, n, entonces
m n
m+n
m n
m
n
m
n
=
+
+
+ ··· +
.
r
0
r
1
r−1
2
r−2
r
0
Solución. Ambas expresiones cuentan la cantidad de subconjuntos de r elementos dentro
de de un conjunto de m + n elementos: La de la izquierda lo hace directamente; en la de
la derecha se piensa al conjunto de m + n elementos partido en dos conjuntos, uno de m
elementos y otro de n elementos; para tomar un subconjunto de r elementos se consideran
las distintas posibilidades de cuántos elementos se escogen dentro del primer conjunt (y el
resto dentro del otro). ♦
2.39 Teorema. Teorema del Binomio de Newton. Sean a y b números arbitrarios
y sea n un número natural. Entonces
n n
n n−1
n n−r r
n n
n
(a + b) =
a +
a b + ··· +
a b + ··· +
b .
0
1
r
n
Demostración. La expresión (a + b)n significa que tenemos que multiplicar a + b consigo
mismo n veces. Entonces, al desarrollar todo el producto, los términos que obtenemos están
dados por todas las posibles elecciones de los números a o b en cada uno de los n factores
(por ejemplo, (a + b)3 = (a + b)(a + b)(a + b) = aaa + aab + aba + abb + baa + bab + bba + bbb =
a3 + 3a2 b + 3ab2 + b3 ). Observemos entonces que los términos obtenidos son de la forma as br ,
con 0 ≤ s, r ≤ n y s + r = n, es decir, s = n − r. Ahora notemos que an−r br aparece cada
vez que se eligió b en r de los factores y a en el resto, ası́ que el número de veces que aparece
este término es nr . Al agrupar términos semejantes tenemos la fórmula deseada. ♦
2.40 Ejercicio. Utilizar el Teorema del Binomio para probar la fórmula
n
n
n
n
n
n
+
+
+ ··· =
+
+
··· .
0
2
4
1
3
5
¿Qué interpretación se puede dar a esta fórmula en términos de subconjuntos de un conjunto?
2.41 Ejemplo. ¿Cuántos números menores que 10 000 no son divisibles ni por 2, ni por
3, ni por 5?
Solución. A 10 000 habrá que restarle la cantidad de números divisibles por alguno de 2,
3 o 5. Sin embargo esto hay que hacerlo con cuidado para evitar repeticiones; por ejemplo,
los números que son divisibles tanto por 2 como por 3 se consideran dos veces: al contar los
divisibles por 2 y al contar los divisibles por 3. Vamos a determinar primero, por separado,
cuántos múltiplos hay de cada una de las distintas combinaciones entre 2, 3 y 5.
15
Hay 5 000 números divisibles por 2,
3 333 divisibles por 3,
2 000 divisibles por 5,
1 666 divisibles por 6,
1 000 divisibles por 10,
666 divisibles por 15 y
333 divisibles por 30.
Al restarle a 10 000 la cantidad de números divisibles por 2 y luego los divisibles por 3 y
a continuación los divisibles por 5:
10 000 − (5 000 + 3 333 + 2 000),
los que son divisibles por 6, por 10 o por 15 pero no por 30 se habrán quitado dos veces
cada uno, y los que son múltiplos de 30 se habrán quitado tres veces. Entonces al agregar a
la cuenta los que son múltiplos de 6, de 10 o de 15, los que son divisibles por 30 se habrán
quitado primero tres veces al restar los múltiplos de 2, de 3, y de 5, y después se habrán
vuelto a sumar tres veces al sumar los múltiplos de 6 y los de 10 y los de 15, ası́ que tendremos
que restarlos. La respuesta al ejemplo es pues:
10 000 − (5 000 + 3 333 + 2 000) + (1 666 + 1 000 + 666) − 333 = 2 666. ♦
El método que se utilizó en ejemplo anterior se llama método de inclusión y exclusión y
en general es como sigue:
2.42 Proposición. Principio de Inclusión y Exclusión. Supongamos que tenemos n
conjuntos A1 , A2 , . . . , An (posiblemente con elementos en común). Entonces el número total
k de elementos que tienen entre todos es igual a k1 − k2 + k3 − k4 + − · · · kn , donde k1 es la
suma de los elementos que pertenecen a (por lo menos) uno de los conjuntos, k2 es la suma
de los elementos que pertenecen a (por lo menos) dos de los conjuntos, y ası́ sucesivamente
hasta kn , que es el número de elementos en común a todos los conjuntos. (Utilizando el
lenguaje usual de teorı́a de conjuntos donde |X| denota el número de elementos de un
conjunto X, ∪ es el sı́mbolo usual de unión y ∩ es el sı́mbolo usual de intersección, tenemos:
k = |A1 ∪ A2 ∪ · · · ∪ An |, k1 = |A1 | + |A2 | + · · · + |An |, k2 = |A1 ∩ A2 | + |A1 ∩ A3 | + · · · + |A1 ∩
An | + |A2 ∩ A3 | + · · · + |An−1 ∩ An |, y ası́ sucesivamente hasta kn = |A1 ∩ A2 ∩ · · · ∩ An |.)
Demostración. Tomemos un elemento cualquiera y supongamos, por ejemplo, que el elemento pertenece a los conjuntos Ai1 , Ai2 , . . . , Air para cierta r, y sólo a éstos. Entonces el
número de veces que dicho elemento se considera en la suma k1 − k2 + k3 − k4 + − · · · kn es
r
r
r
r
r
−
+
−
+ −···
,
1
2
3
4
r
16
que, por el ejercicio ??, es igual a 0r = 1. Entonces la suma k1 − k2 + k3 − k4 + − · · · kn
cuenta cada elemento exactamente una vez, que es lo que querı́amos demostrar. ♦
2.43 Ejercicio. En cierta escuela hay 100 alumnos. De ellos 50 saben inglés, 30 saben
alemán y 30 saben francés. Además 10 saben inglés y francés, 14 saben francés y alemán,
11 saben inglés y alemán, y 6 saben los tres idiomas. Determinar cuántos alumnos no saben
ninguno de los tres idiomas.
2.44 Ejercicio. ¿De cuántas maneras diferentes se pueden ordenar 8 personas alrededor
de una mesa redonda? (Nota: Dos distribuciones se considerarán iguales si una se puede
obtener de la otra mediante un giro.)
2.45 Ejercicio. ¿De cuántas maneras distintas se pueden sentar 5 personas en una fila
de 8 asientos numerados del 1 al 8?
2.46 Ejercicio. ¿Cuántas diagonales tiene un polı́gono regular de n lados?
2.47 Ejercicio. Probar la Fórmula de Pascal:
n+1
n
n
=
+
,
r+1
r
r+1
para r y n números enteros con 0 ≤ r < n.
2.48 Ejercicio. El Triángulo de Pascal está definido como el triángulo de números
en el que el renglón número n aparecen los n + 1 números
n
n
n
n
n
,
,
,··· ,
,
.
0
1
2
n−1
n
Se muestran a continuación los primeros 4 renglones del Triángulo de Pascal. Utilizar la
fórmula del ejercicio anterior para construir los 10 primeros renglones.
1
1
1
1
1
2
3
4
1
3
6
1
4
1
2.49 Ejercicio. Probar de dos maneras distintas (una, viendo que ambos lados de la
igualdad cuentan lo mismo, y la otra, usando el teorema del binomio) la siguiente fórmula
para n ∈ N:
n
n
n
n
+
+
+ ··· +
= 2n .
0
1
2
n
17
2.50 Ejercicio. De un grupo de 24 personas se quiere elegir 5 representantes de la
siguiente forma: Pedro y Luis deben estar en el grupo elegido. Hay 8 mujeres en total pero a
lo más deben figurar 2 en el grupo. ¿De cuántas maneras distintas puede hacerse la elección?
2.51 Ejercicio. De un grupo de 30 socios de un club se quiere elegir una mesa directiva con un presidente, un secretario y 3 equipos de 2 personas cada uno. ¿Cuántas mesas
directivas distintas se pueden formar?
2.52 Ejercicio. De un conjunto de 10 botes de distintos colores se quiere escoger 5 de
tal manera que 3 sean para dulces y 2 sean para chocolates. ¿De cuántas formas distintas es
posible hacer la elección?
2.53 Ejercicio. Se dispone de una colección de 30 pelotas divididas en 5 tamaños distintos y 6 colores diferentes de tal manera que en cada tamaño hay los 6 colores. ¿Cuántas
colecciones de 4 pelotas tienen exactamente 2 pares de pelotas del mismo tamaño (que no
sean las 4 del mismo tamaño)?
18
3.
Probabilidad Combinatoria
Intuitivamente, la probabilidad calcula la proporción de casos en los que cierto experimento ocurre en relación con el total de resultados posibles.
El conjunto de todos los resultados posibles de un experimento se llama espacio muestral.
A los subconjuntos del espacio muestral a los que les calculamos la probabilidad se les llama
sucesos o eventos.
3.1.
Probabilidad Combinatoria
Analicemos algunos ejemplos en los que el espacio muestral Ω es finito y, en ese caso,
definamos la probabilidad de que ocurra un suceso A, en sı́mbolos P (A), como
P (A) =
|A|
.
|Ω|
Aquı́ se está suponiendo que todos los resultados del experimento tienen la misma probabilidad de ocurrir; más adelante se verán ejemplos de distinta ı́ndole.
Se piensa entonces que la probabilidad es una función que va del conjunto de sucesos al
conjunto de los números racionales. El valor de un suceso es 0 cuando no puede ocurrir y es
1 cuando es seguro que ocurre.
En muchos de nuestros problemas aparece el conunto de los números naturales del 1 al
n. Para simplificar, denotaremos a este conjunto por [n], es decir,
[n] = {1, 2, . . . , n}.
3.1 Ejemplo. El experimento consiste en lanzar un dado y observar el número que
queda arriba. Calcular la probabilidad de que el número que quede arriba sea el 1 y también
calcular la probabilidad de que el número que quede arriba sea par.
Solución. Aquı́ Ω = [6]. En el primer caso el suceso es A = {1} y P (A) = 61 . En el segundo
caso el suceso es B = {2, 4, 6} y P (B) = 63 = 12 . ♦
3.2 Ejemplo. El experimento es lanzar una moneda 2 veces y observar la sucesión de
águilas a y soles s que se obtiene. Determinar la probabilidad de que se observen dos águilas.
Solución. El espacio muestral puede ser
Ω = {aa, as, sa, ss}
19
y entonces el suceso es A = {aa} y P (A) = 41 . ♦
3.3 Ejemplo. Calcular la probabilidad de que al lanzar una moneda 3 veces se muestren
al menos dos águilas.
Solución. Aquı́ podemos definir
Ω = {aaa, aas, asa, saa, ass, sas, ssa, sss}.
El suceso es A = {aas, asa, saa, aaa} y entonces la probabilidad buscada es P (A) =
4
8
= 12 . ♦
3.4 Ejemplo. Determinar la probabilidad de que al lanzar dos dados lo que sumen las
caras que se ven arriba sea 6.
Solución. Conviene definir Ω = [6] × [6] y entonces
A = {(1, 5), (2, 4), (3, 3), (4, 2), (5, 1)},
de donde la probabilidad es
5
36
∼ 0.14. ♦
Veamos algunas propiedades que ya hemos podido observar en los ejemplos y hagamos
algunos comentarios sobre ellas.
De aquı́ en adelante Ω denota al espacio muestral en cuestión.
3.5. Propiedad (1). La probabilidad de que algo ocurra es un número entre 0 y 1. (Esto
es obvio pues, como el suceso A es subconjunto del espacio muestral Ω, entonces |A| ≤ |Ω|.)
Es 0 cuando es imposible que ocurra (es decir, P (∅) = 0), y es 1 cuando es seguro que debe
ocurrir (o sea, P (Ω) = 1). En el caso en que Ω es conjunto finito y todos los elementos son
equiprobables, entonces para todo A ⊂ Ω se tiene que P (A) ∈ Q.
Propiedad (2). Si dos cosas no pueden ocurrir simultáneamente, la probabilidad de que
ocurra una o la otra (es decir, cualquiera de las dos) es la suma de las probabilidades. En otras
palabras, si A y B son sucesos ajenos (es decir, A∩B = ∅, entonces P (A∪B) = P (A)+P (B).
(Esto es claro pues |A ∪ B| = |A| + |B|.)
Retomemos aquı́ el ejemplo ?? en el que se pide calcular la probabilidad de que al lanzar
tres monedas al aire salgan al menos dos águilas. Arriba calculamos la probabilidad de A ∪ B
donde A = {ass, sas, ssa, } y B = {aaa}, pero podrı́amos haber calculado por separado las
probabilidades P (A) = 83 y P (B) = 18 .
Observemos que la propiedad (2) no serı́a válida si no pidiéramos que los sucesos fueran
mutuamente excluyentes, es decir, si hubiera la posibilidad de que ocurrieran simultáneamente; por ejemplo, la probabilidad de que al lanzar un dado lo que salga sea un número
20
mayor que 3 o que sea un número par es 46 (el suceso es {2, 4, 5, 6}) y no 63 + 36 = 1, que serı́a
la suma de las probabilidades de los sucesos A = {4, 5, 6} y B = {2, 4, 6} (los casos 4 y 6
son comunes a los dos y se estarı́an contando dos veces al sumar las probabilidades).
Propiedad (3). La probabilidad de que ocurran dos cosas en un orden determinado es
el producto de las probabilidades. En este caso estamos diciendo que si A1 es un suceso en
un espacio muestral Ω1 y A2 es un suceso en un espacio muestral Ω2 , entonces P (A1 × A2 ) =
P (A1 )P (A2 ), lo cual es claro pues dados dos conjuntos A y B, el número de elementos del
producto cartesiano A × B es |A||B|.
Retomemos el ejemplo ?? en el que querı́amos calcular la probabilidad de que al lanzar
dos monedas al aire el resultado en ambas sea águila. En lugar de lo hecho arriba, podrı́amos
haber definido Ω = {a, s} y A = {a} y calcular P (A)P (A) = 21 12 = 14 . ♦
Dado A ⊂ Ω denotamos por ¬A al complemento de A, es decir, al conjunto Ω \ A = {x ∈
Ω:x∈
/ A}
3.6 Corolario. Si la probabilidad de que algo ocurra es p, entonces la probabilidad de
que no ocurra es 1 − p.
Demostración. Esto es claro por la propiedad (2) pues para A ⊂ Ω, A y ¬A son conjuntos
ajenos cuya unión es Ω, ası́ que 1 = P (Ω) = P (A) + P (¬A). ♦
Veamos más ejemplos en los que podremos observar que hay que escoger con cuidado el
espacio muestral para que represente verdaderamente el problema que se quiere resolver.
3.7 Ejemplo. El experimento es sacar 2 pelotas de una caja en la que hay 2 pelotas
rojas y 3 azules. Se quiere calcular la probabilidad de que las dos pelotas escogidas tengan
distinto color y compararla con la probabilidad de que tengan el mismo color.
Solución. Para definir el espacio muestral conviene numerar las pelotas y pensar que las
rojas son la 1 y la 2, y que de la 3 a la 5 son azules; entonces el espacio muestral es
Ω = {{1, 2}, {1, 3}, {1, 4}, {1, 5}, {2, 3}, {2, 4}, {2, 5}, {3, 4}, {3, 5}, {4, 5}}
y A = {{1, 3}, {1, 4}, {1, 5}, {2, 3}, {2, 4}, {2, 5}},
6
ası́ que P (A) = 10
= 35 = 0.6. La probabilidad de que las dos pelotas tengan el mismo color
4
se calcula considerando el suceso B = {{1, 2}, {3, 4}, {3, 5}, {4, 5}}, y aquı́ P (B) = 10
=
3
2
0.4 < P (A) (o, de otra manera, como B = ¬A, P (B) = 1 − P (A) = 1 − 5 = 5 = 0.4). ♦
3.8 Ejemplo. Como en ??, se tiene una caja en la que hay 2 pelotas rojas y 3 azules,
pero ahora el experimento consiste en sacar una pelota, observar su color, volverla a meter,
y sacar otra vez una pelota. Calcular la probabilidad de que las dos pelotas escogidas tengan
distinto color. Comparar con los resultados de ??.
21
Solución. Numeremos las pelotas como en el ejemplo anterior. En este caso
Ω = [5] × [5] y
A = {(1, 3), (3, 1), (1, 4), (4, 1), (1, 5), (5, 1), (2, 3), (3, 2), (2, 4), (4, 2), (2, 5), (5, 2)},
por lo que P (A) = 12
= 0.48, que es menor que el resultado del ejemplo anterior, lo cual
25
resultaba intuitivamente obvio. ♦
3.9 Ejemplo. Dentro de cierto grupo de 4 caballos numerados del #1 al #4 se ha
observado que la frecuencia con que el caballo #1 gana es el doble que con la que gana el
#2; que éste a su vez gana el doble de veces que el #3, y que el #3 gana el doble de veces
que el #4. Encontrar la probabilidad de que en la próxima carrera el caballo ganador sea el
#3.
Solución. Tenemos que representar en el espacio muestral las condiciones de que unos
ganan el doble de veces que otros. Podemos entonces asignar al caballo 4 el número 1, al
caballo 3 los números 2 y 3, al caballo 2 los números 4, 5, 6 y 7, y al caballo 1 los números
2
∼ 0.13. ♦
del 8 al 15. De esta manera Ω = [15], A = {2, 3} y la probabilidad es 15
Para eliminar complicaciones técnicas, en los dos ejemplos siguientes consideraremos
el año con 365 dı́as (sin contar en ningún caso el 29 de febrero) y supondremos que la
distribución de los cumpleaños es pareja a lo largo del año.
3.10 Ejemplo. Encontrar la probabilidad de que una persona determinada haya nacido
en enero o febrero.
Solución. Ω = [365], A = [59] y P (A) =
59
365
∼ 61 . ♦
3.11 Ejemplo. Encontrar la probabilidad de que en un grupo de 59 personas al menos
2 tengan el mismo cumpleaños.
Solución. Notemos que este ejemplo difiere del anterior en que las fechas de cumpleaños
no se comparan con fechas fijas sino entre sı́. Veremos que los resultados son muy distintos.
Para resolver el ejemplo resulta más fácil contar la probabilidad opuesta: que no haya ningún
cumpleaños repetido, y después usar ??. Utilizaremos repetidamente la propiedad (3). Consideremos un orden fijo para las personas. La probabilidad de que el segundo cumpleaños sea
364
distinto del primero es 365
. La probabilidad de que el tercero sea distinto de los dos anteriores
363
es 365 , y ası́ sucesivamente. El resultado es
1−
364 × 363 × · · · × 307
,
36558
que es aproximadamente igual a 0.995. Esto quiere decir que de 1000 grupos de 59 personas
cada uno, se espera que en sólo 5 de los grupos no haya cumpleaños comunes. (Compárese
22
este resultado con el del ejemplo anterior. Resulta que basta con 23 personas para que la
probabilidad de que haya cumpleaños repetidos entre ellas sea mayor que 12 .) ♦
3.12 Ejemplo. Encontrar la probabilidad de que al lanzar una moneda al aire 10 veces
caigan exactamente 5 águilas.
Solución. Como antes, escribamos a por águila y s por sol. El espacio muestral Ω consta
de todas las sucesiones de longitud 10 formadas por a y s, de manera que |Ω| = 210 = 1024.
El suceso consta de los elementos de Ω que tienen exactamente 5 a0 s, ası́ que |A| es el número
de formas en que se pueden escoger 5 posiciones (donde aparezcan las a0 s) dentro de un total
252
∼ 0.25. ♦
de 10, es decir, 10
= 252. Entonces P (A) = 1024
5
En forma análoga a la resolución del ejemplo anterior tenemos que la probabilidad
de
1 20
que de un total de 20 lanzamientos de la moneda 10 salgan águila es 220 10 , que es aproximadamente igual a 0.176. Se puede demostrar que mientras más lanzamientos se hagan,
la probabilidad de que la mitad de las veces salga águila es menor. Esto no contradice la
afirmación de que si una moneda se lanza al aire un número grande de veces se espera que
un número cercano a la mitad de las ocasiones caiga águila; la explicación para esto es que la
idea de “cercanı́a” debe manejarse en forma relativa al tamaño del número; por ejemplo, en
el caso de 10 lanzamientos podrı́amos decir que los casos en que salieran entre 3 y 7 águilas
son todos “cercanos” a la mitad, y en el caso de 20 lanzamientos dirı́amos que los casos
“cercanos” a la mitad son entre 5 y 15.
3.13 Ejercicio. Encontrar la probabilidad de que al lanzar una moneda al aire 10 veces
salga águila entre 3 y 7 veces.
Como ya hemos visto, se pueden considerar distintos espacios muestrales para resolver un
determinado problema y, en cada caso, el suceso del cual se quiere calcular la probabilidad
es diferente, ası́ que los cálculos también lo son, aunque, claro, el resultado final debe ser el
mismo. En el siguiente ejemplo presentamos varias formas de resolver el problema según el
espacio muestral que se escoja.
3.14 Ejemplo. ¿Cuál es la probabilidad de que al escoger dos subconjuntos de 4 elementos dentro de un conjunto de 10 elementos, los subconjuntos tengan al menos un elemento
en común?
Solución. Es más fácil contar la probabilidad contraria, es decir, la probabilidad de que los
dos subconjuntos escogidos no tengan elementos en común. Consideremos distintos espacios
muestrales Ω y los respectivos sucesos A con complemento ¬A:
Primera forma. Sea P4 = {A ⊂ [10] : |A| = 4}, es decir, P4 tiene por elementos a
los subconjuntos de [10] que tienen 4 elementos. Tomemos Ω = P4 × P4 . En este caso
23
|¬A| =
10
4
6
, ası́ que
4
10 6
4
4
10 2
4
P (A) = 1 − P (¬A) = 1 −
6
4
10
4
=1−
=1−
6·5·4·3
4·3·2·1
10·9·8·7
4·3·2·1
=1−
13
6·5·4·3
= .
10 · 9 · 8 · 7
14
Segunda forma. Sea P4 como arriba. Supongamos que un conjunto de 4 elementos ya está
escogido; entonces queremos calcular la probabilidad de que al escoger otro conjunto,
éste
6
10
sea ajeno con el primero. En este caso tomemos Ω = P4 . Aquı́ |¬A| = 4 , |Ω| = 4 y
6
4
10
4
P (A) = 1 − P (¬A) = 1 −
6·5·4·3
13
6·5·4·3
=1− 4·3·2·1 =1−
= .
10 · 9 · 8 · 7
10 · 9 · 8 · 7
14
4·3·2·1
Tercera forma. Como en la segunda forma, supongamos que un conjunto de 4 elementos ya
está escogido; entonces queremos calcular la probabilidad de que al escoger otro conjunto,
éste sea ajeno con el primero. Sea Ω = {(c1 , c2 , c3 , c4 ) ∈ [10] : ci 6= cj para i 6= j} y
supongamos que el conjunto ya escogido tiene elementos a1 , a2 , a3 , a4 ; en este caso ¬A =
{(c1 , c2 , c3 , c4 ) ∈ Ω : para cada i, j ci 6= aj }, |¬A| = 6 · 5 · 4 · 3 y |Ω| = 10 · 9 · 8 · 7 y, entonces,
P (A) = 1 − P (¬A) = 1 −
6·5·4·3
13
= .♦
10 · 9 · 8 · 7
14
3.15 Ejercicio. Cuatro equipos A, B, C, D entran a un torneo de basquetbol. Al principio juegan A contra B, y C contra D; en cada juego se elimina al perdedor. Los dos ganadores
se enfrentan y el que gane ese juego se determina como ganador del torneo. Escribir un espacio muestral apropiado y el suceso correspondiente para determinar la probabilidad de que
B sea el ganador.
3.16 Ejercicio. Un grupo de 3 mujeres y 3 hombres se dividirá en dos equipos con 3
miembros cada uno. Definir un espacio muestral y el suceso correspondiente que sirvan para
encontrar la probabilidad de que en uno de los equipos queden todos los hombres y en el
otro todas las mujeres.
Los siguientes problemas se refieren al conjunto usual de 28 fichas de dominó en que cada
ficha muestra dos números de la colección 0, 1, 2, 3, 4, 5 y 6 (posiblemente repetidos), como
esquematizamos a continuación:
6|6 6|5 6|4 6|3
5|5 5|4 5|3
4|4 4|3
3|3
24
6|2
5|2
4|2
3|2
2|2
6|1
5|1
4|1
3|1
2|1
1|1
6|0
5|0
4|0
3|0
2|0
1|0
0|0
Se llaman fichas dobles aquéllas en que los dos números mostrados son iguales. Se llama
mano de dominó cualquier
colección de 7 de las 28 fichas. Nótese que el número total de
28
manos de dominó es 7 = 1 184 040.
3.17 Ejercicio. ¿Cuál es la probabilidad de que una mano de dominó tenga por lo menos
2 fichas dobles?
3.18 Ejercicio. Se dice que una mano de dominó tiene falla si alguno de los números
entre el 0 y el 6 no aparece en la mano (cada número faltante es una falla); por ejemplo
la mano {2|1, 5|5, 3|1, 0|0, 1|0, 5|6, 0|2} tiene falla a 40 s. ¿Cuál es la probabilidad de que una
mano de dominó no tenga falla?
3.19 Ejercicio. Una persona quiere apostar que la suma de lo que muestren dos dados
es cierto número. ¿A qué número le conviene apostar?
3.20 Ejercicio. Se eligen al azar n cartas de la baraja. ¿Cómo debe ser n para que la
probabilidad de que entre las cartas elegidas haya (al menos) dos del mismo número sea
mayor que 21 ? ¿Cuál es la probabilidad si n = 14?
3.21 Ejercicio. En el experimento de escoger un número entre el 1 y el 60 al azar, sea
A el evento de escoger un número múltiplo de 5, y sea B el evento de escoger un número
múltiplo de 3. ¿Cuál es la probabilidad de escoger un número que sea múltiplo de 3 o múltiplo
de 5?
3.22 Ejercicio. Calcular la probabilidad de que al lanzar tres veces dos dados, las tres
veces los números que salgan sean iguales entre sı́.
3.23 Ejercicio. Se escogen al azar en sucesión tres números (posiblemente iguales) entre
el 1 y el 100. ¿Cuál es la probabilidad de que se hayan escogido en orden creciente estricto?
3.24 Ejercicio. Lanzamos una moneda al aire 5 veces. Si sabemos que 3 de ellas fueron
águila, ¿cuál es la probabilidad de que la primera haya caı́do águila?
3.25 Ejercicio. Un dado se lanza al aire 6 veces. ¿Cuál es la probabilidad de que aparezca
cada uno de los seis números una vez?
3.26 Ejercicio. Supongamos que de un grupo de 10 enfermedades cada una tiene pro1
de atacar a un animal determinado a lo largo de su vida. ¿Qué probabilidad
babilidad 10
tiene ese animal de enfermarse de al menos una de esas enfermedades?
3.27 Ejercicio. Isabel escoge 4 puntos de los marcados. ¿Cuál es la probabilidad de que
los puntos escogidos sean los vértices de un rectángulo (con lados horizontales y verticales?
25
3.2.
•
•
•
•
•
•
•
•
•
•
•
•
Funciones de probabilidad
Hasta aquı́ hemos trabajado con problemas de probabilidad basados en conteo dentro de
conjuntos finitos. Sin embargo, es claro que pueden interesarnos casos en los que los conjuntos
no sean finitos. Por ejemplo, podrı́amos preguntar cuál es la probabilidad de escoger un punto
dentro de una región dibujada en un papel al escoger un punto cualquiera del papel. Si el
área total del papel es s y el área de la región es r, entonces la respuesta deberı́a ser el
número real (no necesariamente racional) rs ; para lograr esto deberemos tener una concepto
de medida clara en nuestros conjuntos y también una idea de convergencia en el caso infinito.
En muchos casos, nuestros espacios muestrales pueden ser conjuntos de números reales
o de Rn para algún natural n. Decimos que un espacio muestral Ω ⊂ Rn es discreto si para
cualquier producto de intervalos reales I = [a1 , b1 ] × · · · × [an , bn ] la intersección de I con Ω
es finita. Por ejemplo, cualquier espacio muestral finito es discreto y también lo es Z × Z. El
intervalo real (0, 1), Q, { n1 : n ∈ N} y el cı́rculo S 1 = {z ∈ C : ||z|| = 1} no son discretos.
Para extender nuestro estudio de probabilidad abstraeremos las condiciones intuitivas de
probabilidad que hemos visto como explicamos a continuación.
Dado un conjunto arbitrario X, recordemos que el conjunto potencia de X es el conjunto
P(X) cuyos elementos son todos los subconjuntos de X, es decir
P(X) = {A : A ⊂ X}.
Dado un conjunto Ω, llamado espacio muestral, se considera un subconjunto A ⊂ P(Ω) cuyos
elementos se llaman sucesos o eventos (es decir, los elementos de A son subconjuntos A de
Ω). Dicho conjunto A debe satisfacer algunas propiedades técnicas (que no mencionaremos
aquı́) de manera que tengan sentido los axiomas que pediremos que satisfaga una función de
probabilidad, definida a continuación). Dados Ω y A ⊂ P(Ω), una función de probabilidad
en Ω es una función P : A → R que satisface:
(P1) P (Ω) = 1.
(P2) P (A) ≥ 0 para todo A ∈ A.
(P3) Para cualquier familia finita o numerable {Ai : i} de sucesos ajenos por parejas se
26
S
P
tiene que P ( i Ai ) = i P (Ai ).
A (P1), (P2) y (P3) les llamamos axiomas de probabilidad.
Es claro que el concepto intuitivo de probabilidad que vimos en los ejemplos finitos al
para A ⊂ Ω satisface los axiomas de probabilidad. También observemos
definir P (A) = |A|
|Ω|
que para resolver problemas como ??, escogimos un espacio muestral especial que tomaba
en cuenta una “medida” para cada caballo; nuestro espacio muestral podrı́a haber sido el
conjunto {1, 2, 3, 4} de los caballos y podrı́amos haber calculado la función de probabilidad
tomando P {4} = p y entonces P {3} = 2p, P {2} = 4p y P {1} = 8p. Como 1 = P {1, 2, 3, 4} =
1
y la respuesta es
P {1} + P {2} + P {3} + P {4} = 8p + 4p + 2p + p = 15p, entonces p = 15
2
P {3} = 15
.
Dada una función de probabilidad, usando sólo los axiomas se pueden probar las siguientes
propiedades:
3.28 Proposición. Sea P una función de probabilidad en Ω y sea A el conjunto de
sucesos de Ω. Se satisfacen entonces la siguientes propiedades.
(a) P (∅) = 0.
(b) Si A ∈ A y ¬A es el complemento de A entonces P (¬A) = 1 − P (A).
(c) Si A ⊂ B entonces P (A) ≤ P (B).
(d) Para todo A ∈ A se tiene que P (A) ≤ 1.
Demostración. (a) Se deduce de inmediato a partir de (P3) tomando A1 = A2 = ∅:
P (∅) = P (∅ ∪ ∅) = P (∅) + P (∅), de donde, cancelando, P (∅) = 0.
(b) También es claro a partir de (P3) pues A y ¬A son sucesos ajenos cuya unión es Ω.
Se dejan las demostraciones de (c) y (d) como ejercicio. ♦
3.29 Nota. Se puso (P3) como axioma, sin considerar un problema de convergencia
en el caso numerable; sin embargo, una serie como la descrita siempre
pues de la
Pn converge
proposición anterior se deduce que la sucesión de sumas parciales
P
(A
)
k n es creciente
i=1
y acotada por 1 = P (Ω).
De aquı́ en adelante, P es una función de probabilidad en un espacio muestral Ω (no
necesariamente finito) y A denota el conjunto de sucesos.
Para el siguiente ejemplo debemos recordar que para cualquier número x 6= 1, si n es
n+1
natural, entonces 1 + x + x2 + · · · + xn = 1−x
(lo cual se comprueba fácilmente haciendo
1−x
la multiplicación (1 + x + x2 + · · · + xn )(1 − x)). Además, las reglas de convergencia en R
1
nos dicen que si x es un real tal que |x| < 1 entonces 1 + x + x2 + · · · = 1−x
.
27
3.30 Ejemplo. Se lanza una moneda al aire hasta que salga águila por primera vez.
(a) ¿Cuál es la probabilidad de que se lance menos de 4 veces?
(b) ¿Cuál es la probabilidad de que la primera vez que salga águila sea en un lanzamiento
par (es decir en el segundo o en el cuarto, etc.)?
(c) ¿Cuál es la probabilidad de que la primera vez que salga águila sea en un lanzamiento
impar (es decir en el segundo o en el cuarto, etc.)?
Solución. Conviene tomar Ω = N en donde cada n ∈ Ω representa el primer lugar en el
que apareció águila. Entonces P {1} = 21 , P {2} = 12 12 = 14 y, en general, P {n} = 21n ; si A
es un suceso con más de un elemento, se define P (A) usando
Entonces es claro que
P (P3).
1
=
1.
también se satisface (P2). El axioma (P1) se satisface pues ∞
i=1 2n
(a) Aquı́ el suceso que debemos considerar A = {1, 2, 3, 4}, ası́ que la solución del ejemplo
es
P (A) = P {1} + P {2} + P {3} + P {4} =
1 1 1
1
15
+ + +
= .
2 4 8 16
16
(b) En este caso el suceso es B = {2, 4, 6, · · · } y
P (B) = P {2} + P {4} + P {6} + · · · =
∞
X
1
1
=
n
4
1−
i=1
1
4
−1=
4
1
−1= .
3
3
(c) Usando ??(b) tenemos que la probabilidad es 23 . ♦
3.31 Nota. Para espacios numerables, si se conoce la probabilidad en los conjuntos de un
solo elemento entonces, usando (P3), también se conoce la probabilidad de cualquier suceso.
Sin embargo, al tratar de definir la probabilidad en los conjuntos de un solo elemento hay que
tomar en cuenta que la probabilidad del conjunto total debe ser 1. En muchos casos, sobre
todo en espacios muestrales continuos, esto no es útil (incluso resulta que la probabilidad de
los conjuntos de un solo elemento es casi siempre 0).
Trabajar con conjuntos en donde no se tiene bien definida una noción de medida puede
llevar a contradicciones, como veremos en el siguiente ejemplo.
3.32 Ejemplo. ¿Cuál es la probabilidad de que al escoger un natural al azar el resultado
sea un número par?
Solución. Uno tiende a decir que el resultado es 12 , pero vamos a ver que esto no tiene
sentido pues, también parecerı́a natural tener que P {n} = P {m} para todos los enteros
m, n, y esto no es posible ya que, usando (P3), se tendrı́a que P (N) = ∞, por más pequeño
que escogiéramos el valor de los P {n}.
Nuestra idea de que el resultado deberı́a ser 21 viene de que estamos acostumbrados a
pensar en los números naturales en orden y nos gustarı́a interpretar el problema a partir de
los casos finitos, es decir, considerando N = lim [n] y determinando, para cada n ∈ N, la
n→∞
28
probabilidad de escoger un número par dentro de [n], la cual, en vista de nuestro concepto
natural de probabilidad en los casos finitos, deberı́a de ser n/2
= 12 si n es par, y (n−1)/2
= 12 n−1
n
n
n
si n es impar. Entonces, interpretando ası́ y pensando en una idea como de una “probabilidad
continua” la respuesta a nuestro problema deberı́a ser el lı́mite, cuando n tiende a infinito,
de la sucesión (0, 21 , 12 23 , 12 , 12 34 , . . .), que es 21 .
Sin embargo, lo que acabamos de hacer es erróneo. Notemos que la elección de los conjuntos [n] que se aproximan a N es arbitraria; ¿por qué no tomar otra sucesión creciente de
conjuntos cuya unión fuera N? Por ejemplo, en lugar de agregar uno a uno los elementos
en orden, uno podrı́a agregar de tres en tres los elementos de manera que se agregaran dos
impares y un par, en orden:
X1
X2
X3
X4
=
=
=
=
..
.
{1, 3, 2}
{1, 3, 2, 5, 7, 4}
{1, 3, 2, 5, 7, 4, 9, 11, 6}
{1, 3, 2, 5, 7, 4, 9, 11, 6, 13, 15, 8}
En este caso, la unión también serı́a N, pero en cada conjunto la probabilidad de escoger un
número par serı́a 31 ası́ que procediendo de esta manera concluirı́amos que la probabilidad
total es también 13 .
Modificando los conjuntos es posible lograr que cualquier número entre 0 y 1 sea el lı́mite
de las probabilidades de una sucesión creciente de conjuntos cuya unión es N. ♦
El absurdo de obtener cualquier probabilidad como respuesta en el ejemplo anterior es
porque no tenemos bien definida la idea de medida en N: ¿Por qué algún conjunto infinito
serı́a más grande que otro? Entonces, el cálculo de probabilidades depende siempre de la
definición de nuestra función de probabilidad.
En los casos finitos, nuestro sentido común nos ayuda mucho a definir la función de probabilidad, pero en los casos infinitos debemos basarnos en alguna abstracción que convenga
al problema que queremos resolver o, simplemente, puede trabajarse en abstracto. Estudios
de este tipo corresponden a un nivel mucho más avanzado que el propósito de este curso.
Los espacios muestrales continuos son infinitos e, inclusive, pueden no ser numerables.
En ellos debe definirse una medida (y, a través de ella, una probabilidad) de alguna manera
apropiada cuidando que se satisfagan los axiomas (P1), (P2) y (P3). Para empezar, como
vimos en ??, si el espacio muestral es infinito, no es posible que todos los sucesos que constan
de un solo elemento tengan la misma probabilidad; también resulta, como dijimos arriba,
que en muchos casos no es posible asignar una probabilidad a cada subconjunto del espacio
muestral.
El siguiente ejemplo nos describe una forma de definir una función de probabilidad en
un espacio muestral continuo.
29
3.33 Ejemplo. Definir una función de probabilidad en el intervalo real [a, b] (con a < b
reales) que tome en cuenta la proporción de medidas.
Solución. Consideremos que los sucesos son intervalos contenidos en [a, b] o uniones finitas
o numerables de éstos. Recordemos que se quiere que el espacio total tenga probabilidad 1.
c−d
. Se extiende la
Entonces, dado un intervalo [c, d] ⊂ [a, b], es natural definir P [c, d] = b−a
definición a otros sucesos usando (P3). (Observamos que la probabilidad de los conjuntos de
un solo elemento es 0.) ♦
3.34 Nota. En el ejemplo anterior, el mismo resultado lo podrı́amos haber obtenido
usando integrales (que son la generalización natural de suma) definiendo la función f : R → R
por
1
, si x ∈ [a, b],
b−a
f (x) =
0, si no
y para [c, d] ⊂ [a, b],
Z
P [c, d] =
d
f (x)dx =
c
d−c
.
b−a
En este caso la función escogida f es constante pues se quiere que la probabilidad sea
homogénea de acuerdo a la medida. Sin embargo, como vimos en los casos finitos, en otros
problemas puede interesarnos que la distribución de probabilidad no sea homogénea; en esos
casos usaremos la integral de una función f no constante que tome en cuenta la distribución
de la probabilidad que requiere el problema.
3.35 Ejercicio. Probar las afirmaciones de ??(c) y (d).
3.36 Ejercicio. Sea Ω = {a, b, c}. ¿Es posible definir una función de probabilidad en Ω
que cumpla P {a, b} = 32 , P {a, c} = 13 y P {b, c} = 13 ?
3.37 Ejercicio. Se sabe que hay dos enfermedades que pueden atacar a una población
de animales en el verano. También se sabe que la probabilidad de que un determinado animal
adquiera a lo más una de las enfermedades es 0.9 y de que adquiera al menos una de las
enfermedades es 0.2. Determinar las siguientes probabilidades para un determinado animal:
que no adquiera ninguna de las enfermedades, que adquiera una de ellas y que adquiera las
2.
3.38 Ejercicio. Se lanza un dado hasta que aparezca 1 por primera vez. Calcular las
siguientes probabilidades.
(a) Que se necesite lanzarlo 10 veces.
(b) Que se necesite echarlo menos de 5 veces.
(c) Que se necesite lanzarlo un número par de veces.
30
3.39 Ejercicio. Se escoge un número real r al azar entre 0 y 1 y se traza un cı́rculo en
el plano con radio r. ¿Cuál es la probabilidad que el cı́rculo tenga área menor que π2 ?
3.40 Ejercicio. Se rompe una regla de 30 cm en dos pedazos a lo largo. ¿Cuál es la
probabilidad de que un pedazo tenga al menos el doble de tamaño que el otro?
3.41 Ejercicio. En cada turno de un juego, cada una de tres personas lanza una moneda
al aire hasta que uno de los resultados sea distinto de los otros dos, y entonces el dueño de
la moneda distinta pierde.
(a) ¿Cuál es la probabilidad de que en el primer turno haya un perdedor?
(b) ¿Cuál es la probabilidad de que se necesite un número par de lanzamientos para
determinar un perdedor?
3.3.
Probabilidad Condicional
Empezaremos esta sección con tres ejemplos en los que nuestra intuición falla si no se
toman en cuenta condiciones que limitan al conjunto que tratamos. La conclusión es que hay
que tener mucho cuidado con el universo en el que se trabaja.
3.42 Ejemplo. En un programa de concurso hay tres puertas cerradas. Sólo una de
ellas tiene detrás un premio. Un determinado concursante escoge una puerta A, sin abrirla;
el animador (que sabe cuál de las puertas es la buena), abre una de las otras dos puertas,
B, mostrando que no hay premio detrás, y le dice al jugador que abra una de las otras: A o
C. Según las probabilidades, ¿qué puerta le conviene abrir al concursante (o es igual)?
Solución. Tenemos el espacio muestral Ω = {A, B, C}. En un principio se tiene que la
probabilidad es homogénea, ası́ que P {A} = 13 y, por tanto, P {B, C} = 23 . Sin embargo luego
se nos dice que no es B, ası́ que P {B} = 0; la probabilidad de A sigue siendo 13 pero la de
{C} ahora tenemos que es 23 , ası́ que le conviene cambiar de opinión y escoger la puerta C
(con el doble de oportunidad de ganar). ♦
3.43 Ejemplo. En una población se sabe que la probabilidad de tener una cierta enfer1
medad es de 10000
. Una prueba de sangre es confiable en un 90 %. Raúl se hizo la prueba y
resultó positiva. Está muy asustado. ¿Tiene razón?
Solución. No tiene razón. La probabilidad de que tenga la enfermedad es muy remota
como veremos a continuación:
Supongamos que en la población hay 100 000 personas. Hay 10 enfermas y 99 990 sanas.
De las 10 enfermas, a 9 les sale positivo y a 1 le sale negativo. De las 99 990 sanas, a 9 999
31
(la décima parte) les sale positivo y al resto 89 991 les sale negativo.
La probabilidad de que esté enfermo es ¡menos de
1
!:
1000
9
= 0.0009. ♦
9 + 9 999
3.44 Ejemplo. Paradoja de Simpson. En la admisión a una Facultad de Fı́sicoMatemáticas resultó que, tanto en el departamento de Matemáticas como en el de Fı́sica, la
proporción de mujeres aceptadas con respecto al de solicitantes fue mayor que la de hombres.
El director publicó que, con respecto al número de solicitantes, la proporción total de mujeres
aceptadas fue mayor que la de hombres. ¿Tiene razón?
Solución. No necesariamente. Es posible que en el departamento de Fı́sica sea mucho
mayor la cantidad de hombres solicitantes que la de mujeres y que eso no ocurra en el
departamento de Matemáticas, y las probabilidades relativas no compensan esa diferencia.
Por ejemplo, supongamos que en Matemáticas hubo 40 hombres solicitantes de los cuales
se aceptó a 10, y que hubo 20 mujeres solicitantes de las cuales se aceptó a 10. Por otro
lado supongamos que hubo 100 hombres solicitantes en Fı́sica de los cuales se aceptó a 90,
mientras que hubo 10 solicitantes mujeres en Fı́sica y que todas fueron aceptadas.
Tenemos que el total de hombres solicitantes fue de 40 + 100 = 140 y de ellos se aceptó a
10 + 90 = 100 y eso da una proporción de 57 . Por otro lado, del total de 20 + 10 = 30 mujeres
32
solicitantes se aceptó a 10 + 10 = 20, lo cual hace una proporción total de mujeres aceptadas
de 23 . ♦
La razón detrás del ejemplo anterior es que en el departamento de Fı́sica es mucho mayor
la cantidad de hombres solicitantes que la de mujeres, lo cual no ocurre en el departamento
de Matemáticas, y las probabilidades relativas no compensan esa diferencia.
Dados dos eventos A y B tales que P (B) 6= 0, la probabilidad condicional P (A|B) de A
dado B es la probabilidad que ocurra A cuando ya ocurrió B. Se calcula ası́:
P (A|B) =
P (A ∩ B)
.
P (B)
3.45 Observación. Sea A un suceso distinto del vacı́o y de Ω. Entonces
(a) P (A|A) = 1.
(b) P (A|¬A) = 0.
(c) Si A y B son ajenos y P (B) 6= 0, entonces P (A|B) = 0.
3.46 Proposición. Sean A y B dos eventos. Entonces:
P (A) = P (A|B)P (B) + P (A|¬B)P (¬B)
3.47 Ejemplo. Supongamos que el Chicharito va a tirar un penalty. Si tira a la izquierda,
su probabilidad de meter gol es de 70 %. Si tira a la derecha, su probabilidad de meter gol
es de 60 %. Sabemos que tira a la izquierda el 80 % de las veces. ¿Cuál es su probabilidad de
meter gol?
Solución. Llamemos G al suceso de que meta gol, I al de que tire hacia la izquierda y D
33
al de que tire a la derecha. Entonces
P (G) = P (G|I)P (I) + P (G|D)P (D)
7 8
6 2
=
+
10 10 10 10
= 0.68
(1)
(2)
(3)
Podemos generalizar lo que vimos en el ejemplo en el siguiente teorema.
3.48 Teorema. Teorema de Bayes, primera versión. Sea Ω = A1 ∪ A2 ∪ · · · ∪ An
con los Ai sucesos ajenos por parejas y sea B un suceso. Entonces:
P (B) = P (B|A1 )P (A1 ) + P (B|A2 )P (A2 ) + · · · + P (B|An )P (An ). ♦
3.49 Ejemplo. En una competencia de futbol se usan 3 estadios. Al equipo Kimo le
conviene jugar en su estadio pues en él tiene probabilidad de 60 % de ganar mientras que en
los otros sólo tiene un 40 %. Se sorteará el estadio donde le va a tocar jugar mañana. ¿Qué
probabilidad tiene de ganar?
Solución. Aplicamos el Teorema de Bayes ??. Sea A1 el suceso de que el equipo Kimo
juegue en su propio estadio y sea A2 el suceso de que juegue en otro. Entonces P (A1 ) = 31 y
P (A2 ) = 23 . Sea B el suceso de que gane. Entonces
P (B) = P (B|A1 )P (A1 ) + P (B|A2 )P (A2 ) =
60 1
40 2
7
· +
· = .♦
100 3 100 3
15
3.50 Ejercicio. Todas las tardes, Carmen va a la panaderı́a. El 80 % de las ocasiones
encuentra su pan favorito. Se ha observado que si va entre 5 y 6, la probabilidad de que
encuentre su pan favorito es de 90 %, pero si va entre 6 y 7 su probabilidad baja a 40 %.
¿Qué porcentaje de los dı́as va a la panaderı́a entre 6 y 7?
3.51 Ejercicio. Supongamos que cierta enfermedad X le da a 1 de cada 1,000 pacientes.
Sabemos que alrededor de 5 % de la población tiene diabetes y que de la gente que tiene
X, el 50 % también padece diabetes. Si Juanito no padece la enfermedad X, ¿cuál es la
probabilidad de que tenga diabetes?
El siguiente resultado es una segunda interpretación del Teorema de Bayes.
3.52 Corolario. Teorema de Bayes (segunda
S versión). Sean A1 , A2 , . . . , An sucesos ajenos en un espacio muestral Ω y tales que Ω = i Ai . Si B es otro suceso en Ω, entonces
P (Ai |B) =
P (B|Ai )P (Ai )
.
P (B|A1 )P (A1 ) + · · · + P (B|An )P (An )
34
Demostración. Tenemos que
P (B|Ai )P (Ai ) = P (B ∩ Ai ) y P (B|A1 )P (A1 ) + · · · + P (B|An )P (An ) = P (B). ♦
3.53 Ejemplo. Supongamos que se tienen dos monedas, una normal N (con caras A
y S) y otra defectuosa D, con dos águilas (A1 y A2 ). Se selecciona una de las monedas al
azar y resulta que al lanzarla se obtiene águila. ¿Cuál es la probabilidad de que haya sido la
moneda defectuosa?
Solución. Sean Ω = {A, S, A1 , A2 } (el conjunto de los posibles resultados), N = {A, S}
(el conjunto de los resultados de la moneda normal) y D = {A1 , A2 } (el conjunto de los
resultados de la moneda defectuosa). Sea A = {A, A1 , A2 } el suceso de que haya salido
águila. Buscamos P (D|A). Según ?? podemos calcularlo como
P (A|D)P (D)
=
P (D|A) =
P (A|D)P (D) + P (A|N )P (N )
1
2
2
= .♦
1 1 1
3
1· + ·
2 2 2
1·
3.54 Ejercicio. Volver a hacer el ejemplo ?? usando la segunda versión del teorema de
Bayes.
3.55 Ejercicio. Supongamos que la probabilidad de que en un juicio un tribunal dé
el veredicto correcto sobre culpabilidad o inocencia de un individuo es 0.9. Supongamos
también que el 80 % de las personas que llegan a ser enjuiciadas es culpable. Si el tribunal
decidió que el individuo a es culpable. ¿Cuál es la probabilidad de que, efectivamente, a sea
culpable?
3.56 Ejemplo. A cada uno de los miembros de una fábrica se le aplica una prueba para
ver si usa una droga determinada. Se sabe que la prueba es 98 % confiable. Si al Sr. A se le
hizo la prueba y salió positiva, ¿se puede afirmar que es 98 % seguro que usa la droga?
Solución. No, al igual que en el ejemplo anterior, depende de la proporción de personas
que usan la droga, por ejemplo, supongamos que la fábrica tiene 10 000 personas y que sólo
100 de ellas usan la droga. Usamos otra vez el teorema de Bayes. Sean Ω el conjunto de los
= .01)
empleados, S1 el conjunto de los empleados que usan la droga (entonces P (S1 ) = 10100
000
y S2 el conjunto de los empleados que no la usan (P (S2 ) = .99). Sea U el conjunto de los
empleados para los cuales la prueba resulta positiva (P (U |S1 ) = .98 y P (U |S2 ) = .02). Por
el teorema de Bayes
P (S1 |U ) =
(.98)(.01)
98
=
∼ 33 %. ♦
(.98)(.01) + (.02)(.99)
296
35
3.57 Ejercicio. En el ejemplo anterior,
(a) si a A el resultado de la prueba es negativo, ¿cuál es la probabilidad de que no use la
droga?
(b) ¿cómo deberı́a ser la proporción de personas que usan la droga con respecto a los que
no la usan, para que si a una persona la prueba le sale positiva entonces se pueda afirmar
que la probabilidad de que la use sea de 98 %?
3.4.
Independencia
Dos eventos A y B son independientes si la información de
que ocurra uno de ellos (o no ocurra) no altera para nada si
ocurre el otro. Formalmente:
P (A|B) = P (A)
B
A
o, equivalentemente:
P (A ∩ B) = P (A)P (B)
Dos eventos son dependientes si no son independientes.
B
P (A ∩ B) 6= P (A)P (B)
A
3.58 Ejemplo. (a) Se lanza una moneda dos veces; A es el evento que la primera caiga
sol, B que la segunda caiga sol. Entonces A y B son independientes.
(b) Se lanza un dado; A es el evento que caiga número par, B es el evento que caiga 2.
Entonces A y B no son independientes.
(c) Se lanza un dado dos veces. A es el evento que caigan iguales, B es el evento que el
primero sea 4. Entonces A y B son independientes.
(d) Se lanzan dos dados. A es el evento que su suma sea un número par, B es el evento
que su producto sea un número par. Entonces A y B no son independientes.
(e) Ω es el espacio de todas las personas; se escoge una al azar y A es el evento “ser
fumador” y B es el evento “morir joven”. Entonces A y B no son independientes.
Hasta ahora hemos visto qué significa que dos eventos sean independientes. Pero, ¿qué
significa que 3 o más eventos lo sean? Por ejemplo, intuitivamente, entendemos que si tiramos
36
una moneda 3 veces, los 3 eventos son independientes. Pero, aunque parezca extraño, podrı́a
ser que hubiera 3 eventos que estuvieran ligados a pesar de que cada pareja no lo estuviera.
Por ejemplo, supongamos que tiramos dos dados y sea A el evento que el primero sea par, B
el evento que el segundo sea par, y C el evento que la suma de ambos sea par. Claramente
cada dos son independientes, pero si se conocen A y B, entonces ya se conoce C, ası́ que en
conjunto, los tres no son independientes.
Decimos que eventos A1 , A2 , . . . , An de un espacio Ω son independientes si para cualquier
subconjunto I ⊂ [n] se tiene que
!
\
Y
P
Ai =
P (Ai ).
i∈I
i∈I
En la figura se muestran eventos independientes por parejas pero no independientes.
B
A
c
3.59 Observación. (a) Un evento A es independiente de sı́ mismo sólo cuando P (A) = 1
o P (A) = 0.
(b) Si A1 , A2 , A3 son mutuamente independientes, entonces
P (A1 |A2 ∩ A3 ) = P (A1 ).
3.60 Ejemplo. En el experimento de escoger un número del 1 al 60, sean A el evento
de escoger un número múltiplo de 4, B el evento de escoger un múltiplo de 5 y C el evento
de escoger un múltiplo de 6. Determinar la independencia o dependencia de A con B y C.
Solución. Vemos que A y B son independientes pues P (A|B) = 41 = P (A); A y C
no son independientes ya que P (A|C) = 21 6= P (A), y B y C sı́ son independientes pues
P (C|B) = 16 = P (C). En este caso, por ejemplo, la probabilidad de que un número en [12]
sea múltiplo de 6 dado que se sabe que es múltiplo de 2 es 26 = 1/6
.♦
1/2
3.61 Ejemplo. Sea a1 , a2 , . . . , an una permutación de [n]. Sea A el suceso de que a1 > a2
y sea B el suceso de que a2 > a3 . ¿Cuál es la probabilidad de A dado B? ¿Son A y B
independientes?
37
Solución. Tenemos que P (A) = P (B) = 21 y P (A ∩ B) = 16 , ası́ que P (A|B) = 13 , es decir,
los sucesos no son independientes: el que B ocurra hace que A sea menos probable. ♦
El ejemplo anterior es intuitivamente claro pues el que B ocurra limita las posibilidades
para a2 (por ejemplo a2 6= 1).
3.62 Ejercicio. (a) Inventar otro ejemplo de 3 eventos independientes por parejas que
no sean independientes.
(b) Inventar un ejemplo de 4 eventos que saber 2 de ellos no afecte a un tercero, pero
que saber 3 de ellos sı́ afecte al cuarto.
3.63 Ejercicio. Probar que dado n ∈ N existen n sucesos dependientes tales que cualesquiera n − 1 de ellos son independientes.
3.64 Ejercicio. Dar un ejemplo de naturales n, r y s, con r y s primos relativos, tales
que el suceso de escoger un múltiplo de r en [n] y el de escoger un múltiplo de s en [n] no
sean independientes.
3.65 Ejercicio. Probar que si el que B ocurra hace más probable la ocurrencia de A (es
decir, P (A|B) > P (A)) entonces el que A ocurra también hace más probable la ocurrencia
de B.
3.66 Ejercicio. Se lanzaron 2 dados al aire y uno de ellos mostró un número par. ¿Cuál
es la probabilidad de que ambos hayan sido pares?
3.67 Ejercicio. Probar que si A y B son sucesos independientes entonces también lo
son ¬A y ¬B.
3.68 Ejercicio. Una moneda se lanza al aire dos veces. Sea A el suceso de que la primera
vez salga águila y sea B el suceso de que los dos lanzamientos den distinto resultado. ¿Son
A y B independientes?
3.69 Ejercicio. En una caja hay 4 pelotas numeradas del 1 al 4. Se saca una pelota y
después, sin volver a meter la que se sacó, se saca otra pelota. Sea A el suceso de que la
primera pelota tenga el número 1 y sea B el suceso de que la segunda pelota tenga el número
1. ¿Son A y B independientes?
3.70 Ejercicio. En un paı́s hay tres ciudades C1 , C2 y C3 ; C1 tiene la mitad de los
habitantes, C2 la tercera parte y C3 la sexta parte. Los porcentajes de votantes a favor del
candidato A en cada ciudad son: en C1 , 25 %, en C2 , 40 % y en C3 , 70 %.
(a) Si se escoge un habitante al azar, ¿cuál es la probabilidad de que esté a favor del
38
candidato A?
(b) Se escogió un votante y resultó que estaba a favor del candidato A. ¿Cuál es la
probabilidad de que pertenezca a la ciudad C1 ?
39
4.
Variables Aleatorias y Esperanza
4.1.
Variables Aleatorias
Hemos dado el nombre de espacio muestral al conjunto que contiene los posibles resultados
de un experimento. Sin embargo, no se puede operar con los resultados, por ejemplo, cuando
nos interesa contar el número de águilas al lanzar varias monedas al aire o al fijarnos en la
suma de lo que mostraban dos dados o al considerar la altura en centı́metros de personas.
Se introduce, entonces el concepto de variable aleatoria.
Dado un conjunto muestral Ω, una variable aleatoria en Ω es una función
X : Ω → R.
Dada una variable aleatoria X y un número real a, asociamos a X el suceso [X = a] como
{ω ∈ Ω : X(w) = a} = X −1 (a).
De la misma manera definimos [X < a], [X > a], [X ≤ a], [X ≥ a], etc. (Por ejemplo,
[X ≤ a] = X −1 (−∞, a).)
Inclusive, para un conjunto de reales S, [X ∈ A] es el suceso
X −1 (A) = {ω ∈ Ω : X(ω) ∈ A}.
Ası́, en la situación en que X es la estatura de una persona en centı́metros, [X < 170] consiste
de todas las personas que miden menos de 170 cm, y en la situación en que X es el número
de águilas al lanzar 10 monedas, el evento [X = 1] consta de todos los lanzamientos que
constan de exactamente un águila.
Muchas veces nos queremos olvidar de Ω y, simplemente, pensar en la probabilidad de la
variable aleatoria X.
Si Ω es un espacio muestral discreto y X es variable aleatoria en Ω, entonces la densidad
de X es la función pX : R → [0, 1] definida por pX (a) = P [X = a]. La distribución cumulativa
40
de X es la función FX : R → [0, 1] dada por
FX (a) := P [X ≤ a] =
X
pX (a).
b≤a
Notemos que estamos tratando el caso en que la variable aleatoria X es discreta, es decir,
el rango de X, {X(ω) : ω ∈ Ω}, es un subconjunto discreto de reales. Ası́, a partir de las
probabilidades de los conjuntos de un solo elemento se pueden obtener, usando (P3), las
probabilidades de todos los conjuntos.
Por ejemplo, en el espacio de probabilidad que resulta al lanzar una moneda 10 veces, en
donde X calcula el número de águilas, se tiene que
10
10
5
fX (5) =
+
pX (5) =
5
210
10
4
+
210
+
10
3
10
2
+
10
1
+
10
0
.
4.1 Ejemplo. Supongamos que lanzamos un dado y nos fijamos en los resultados posibles
(todos con la misma probabilidad); entonces la variable aleatoria X : [6] → R está definida
por X(ω) = ω y, para i = 1, 2, . . . , 6 tenemos que y pX (i) = 16 y FX (i) = i6. Las gráficas de
estas funciones son las siguientes.
..
...
..
...
...
..
.
..
...
...
...
...
...
..
.
..
..
...
...
...
...
...
...
...
.... .... .... .... .... .... ...... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .
...
..
.
...
..
...
...
...
..
1
−
6
0
• • • • • •
| | | | | |
1 2 3 4 5 6
..
...
..
...
...
..
.
...................................................................................................................................................................................................................................................................
..
...
...
.......................................................................................
...
...
...
........................................................
..
.
..
..
....................................................................................
...
...
....................................................................................
...
...
...
.......................................................................................
...
...
.......................................................................................................................................................................................................................................................................... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .
...
..
.
...
..
...
...
...
..
1
6
1
6
1
6
1
6
1
6
1
6
|
pX
•
−1
{
• )
−
{
• )
−
{
• )
−
{
• )
−
{
− • )
{
) | | | | | |
0 1 2 3 4 5 6 7
FX
4.2 Ejemplo. Si la variable aleatoria es X : [6] → R definida por X(i) = i2 − 6, entonces
las gráficas de pX y de FX se parecen en las alturas pero están diferentemente distribuidas
horizontalmente.
En los dos ejemplos anteriores se dice que la distribución es homogénea.
41
4.3 Ejemplo. Consideremos la variable aleatoria X : {a, s}2 → R definida por X(ω) =
número de a0 s en el elemento ω del espacio muestral. Tenemos pX (0) = 14 , pX (1) = 12 y
pX (2) = 14 , ası́ que FX (−∞, 0) = 0, FX [0, 1) = 14 , FX [1, 2) = 14 + 12 = 34 y FX [2, ∞) =
1
+ 12 + 41 = 1.
4
..
...
...
..
...............................................................................................................................................................................................................................................................................................................................................................
...
...
..
.
..
...
........................................................
...
...
...
...
...
...
..
...
...
......................................................................................
...
...
...
.
.................................................................................................................................................................................... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .
...
..
...
...
..
...
...
1
−
2
•
1
•
−
4
0
•
| | |
1 2 3
3
4
− • )
1
2
−
1
4
• )
−
0
pX
4.2.
•
1 −
..
...
..
.
..
...
...
...
...
...
...
...
..
...
...
..
.
..
...
...
.
.... .... .... .... .... .... ..... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .
...
..
...
...
..
...
...
)
| | |
1 2 3
FX
Esperanza
Vamos a considerar promedios de variables aleatorias discretas. La idea es la misma que
la del siguiente ejemplo.
4.4 Ejemplo. A lo largo del semestre, un alumno obtuvo en cada una de 7 tareas la
calificación de 8 y en cada una de 5 tareas una calificación de 10. ¿Cuál es el promedio de
las 12 tareas?
Solución. El promedio es la suma de todas las calificaciones dividida entre el número de
calificaciones:
106
7 × 8 + 5 × 10
=
= 8.83. ♦
12
12
Sea X una variable aleatoria discreta. La esperanza, media, valor esperado, promedio o
primer momento de X, denotado por E(X), es el promedio de los valores de X, considerando
la repetición, es decir,
4.5.
E(X) =
X
a · P [X = a] =
a∈R
X
a∈R
42
a · pX (a).
Notemos que, en el caso finito, la esperanza también se puede calcular como
1 X
X(ω),
E(X) =
|Ω| ω∈Ω
lo cual coincide con nuestra idea de promedio de valores. En otras palabras, si a1 , ..., an son
los posibles valores que puede tomar X, entonces
E(X) = a1 P [X = a1 ] + a2 P [X = a2 ] + · · · + an P [X = an ].
4.6 Ejemplo. (a) ¿Cuál es el valor esperado del número que sale al lanzar un dado?
(b) ¿Cuál es el valor esperado de la suma de lo que muestren dos dados que se lanzan?
Solución. (a) El promedio es
1+2+3+4+5+6
= 3.5
6
o, puesto en los términos de ??, tomando la variable aleatoria como X(a) = a, para a ∈ Ω =
[6],
E(X) = 1 · pX (1) + 2 · pX (2) + · · · + 6 · pX (6) = 1 ·
1
1
1
+ 2 · + · · · + 6 · = 3.5.
6
6
6
(b) En este caso, Ω = [6] × [6] y la variable aleatoria está definida por X(a, b) = a + b. La
esperanza de X es
E(X) = 2 · pX (2) + 3 · pX (3) + 4 · pX (4) + · · · + 11 · pX (11) + 12 · pX (12)
= 2·
1
2
3
2
1
+3·
+4·
+ · · · + 11 ·
+ 12 ·
36
36
36
36
36
=
2 · 1 + 3 · 2 + 4 · 3 + · · · + 11 · 2 + 12 · 1
36
=
252
= 7. ♦
36
Después veremos que en el ejemplo anterior no es casualidad que el resultado del promedio
de dos dados sea el doble del promedio de un dado (ver ??).
4.7 Ejemplo. ¿Cuántas águilas se espera que salgan si se lanza una moneda 2 veces?
Solución. Aquı́ Ω el conjunto de sucesiones de longitud 2 en {a, s} y X es la variable
aleatoria en Ω definida por X(ω) = número de águilas de ω. En este caso,
E(X) = 2 · pX (2) + 1 · pX (1) + 0 · pX (0) = 2 · 14 + 1 · 12 + 0 · 14 = 1,
43
o también
1
1
E(X) = (X(a, a) + X(a, s) + X(s, a) + X(s, s)) = (2 + 1 + 1 + 0) = 1. ♦
4
4
4.8 Ejemplo. Como en ??, el experimento es sacar 2 pelotas de una caja en la que hay
2 pelotas rojas y 3 azules. ¿Cuántos colores distintos se esperan?
Solución. La variable aleatoria a considerar está definida por X(ω) = número de colores
de ω, donde ω es cualquier conjunto de dos pelotas de la caja. Por ?? sabemos que la
probabilidad de que salgan los dos colores es pX (2) = 0.6 y la de que las dos pelotas tengan
el mismo color es pX (1) = 0.4. Entonces
4
6
+1·
= 1.6. ♦
10
10
4.9 Ejemplo. Se escogen al azar 3 números distintos entre el 1 y el 100. En promedio,
¿cuál es el valor del menor de esos tres?
98
Solución. El 1 aparece como menor en 99
ternas,
el
2
en
, etc., ası́ que la respuesta
2
2
es
1 · 99
+ 2 · 98
+ · · · + 98 · 22
2
2
.
100
E(X) = 2 · pX (2) + 1 · pX (1) = 2 ·
3
Ahora, el numerador es igual a
99
2
+
+
98
2
98
2
+
97
2
+
97
2
+
97
2
+ ··· +
2
2
+ ··· +
2
2
+ ··· +
2
2
=
100
3
=
99
3
=
98
3
+
+
+
..
.
+
2
2
=
+
3
=
=
101
3
4
.
Entonces la respuesta es
101
4
100
3
=
101 · 100 · 99 · 98 3!
· = 25.25. ♦
100 · 99 · 98 · 97 4!
Observemos que, dada una variable aleatoria X en Ω, pX es, en efecto, una función de
probabilidad que traduce la probabilidad P definida en sucesos (subconjuntos) de Ω en una
probabilidad de sucesos (subconjuntos) de R. De hecho, ya habı́amos hecho esto, sin decirlo,
como explicamos en el siguiente ejemplo.
44
4.10 Ejemplo. El experimento consiste en lanzar una moneda al aire hasta que salga
águila por primera vez. ¿En qué lanzamiento se espera que esto ocurra?
Solución. Aquı́ consideramos la variable aleatoria X que asigna, a cada sucesión infinita
de a0 s y s0 s, el primer lugar en el que aparece a (si no aparece, podrı́amos asignarle cualquier
valor no natural, por ejemplo −1, con probabilidad 0). Como el conjunto es infinito, ya no
podemos calcular la esperanza tomando el promedio en la forma acostumbrada y, de hecho,
es más difı́cil adivinar la esperanza de X. Veamos que se espera que salga águila alrededor
del segundo lanzamiento, recordando que pX (i) = 21i :
E(X) =
∞
P
i=1
=
1
2
i
2i
=
∞
P
i=1
i
2i
=
1
2
+ 42 + 38 + · · ·
+ 14 + 81 + · · · +
1
4
+ 18 + · · · +
1
8
+ ··· +
1
16
+ ··· + ···
= 1 + 21 + 41 + 18 + · · · = 2. ♦
4.11 Ejemplo. Alejandra y Delia van a jugar un juego. Alejandra lanzará un dado y
le dará una moneda a Delia cada vez que lo que salga en el dado no sea 2. Si se quiere que
ninguna de las dos jugadoras tenga ventaja, ¿cuántas monedas deberá pagar Delia cada vez
que salga el 2?
Solución. Aquı́ tenemos Ω = [6] y X(ω) = 1 si ω 6= 2. Se quiere encontrar X(2) de
tal manera que E(X) = 0. Sea z = X(2). Tenemos, PX (1) = 65 , PX (z) = 16 y E(X) = 0.
Entonces 0 = 1 · 65 + z · 16 , de donde z = −5, de manera que Delia tendrá que pagar 5 monedas
a Alejandra en caso de que salga 2 en el dado. ♦
4.12 Ejemplo. En un juego se lanzan tres dados. Un jugador apuesta a cualquiera de
los números del 1 al 6 y gana 1 peso por cada vez que salga ese número en algún dado (ası́,
si sale 1 en los 3 dados, entonces gana 3 pesos), pero pierde un peso si no sale ninguna vez.
¿Cuál es su ganancia esperada en cada apuesta?
Solución. Es claro que el número al que le apuesta es irrelevante, ası́ que digamos que
apuesta al 1. Sea Ω = [6] × [6] × [6] y sea X : [6]3 → R definida por

−1, si ω tiene cero 10 s,



1, si ω tiene un 1,
X(ω) ==
2, si ω tiene dos 10 s,



3, si ω tiene tres 10 s.
45
Entonces
pX (−1) =
5 3
6
pX (1) = 3 ·
1
6
pX (2) = 3
1 2 5
6
6
pX (3) =
1 3
6
=
5 2
6
=
125
,
216
=
=
75
,
216
15
216
y
1
,
216
de donde
E(X) = (−1) ·
125
75
15
1
−125 + 108
17
+1·
+2·
+3·
=
=−
∼ −.08.
216
216
216
216
216
216
Observemos que esto quiere decir que se espera que pierda alrededor de 8 pesos por cada
100 que apueste. ♦
Dados un conjunto {Xi : i = 1, 2, . . . , k} de variables aleatorias
en un conjuntoP
muestral Ω
P
y reales c1 , c2 , . . . , ck , definimos otra variable aleatoria X = i ci Xi por X(ω) = i ci Xi (ω).
4.13 Proposición. (a) Si X es una variable aleatoria constante tal que X(ω) = c para
todo ω ∈ Ω, entonces E(X) = c.
(b) Linealidad de la esperanza. Si X1 , X2 , . . . , Xn son variables aleatorias en Ω y c1 , c2 , . . . , cn
son reales, entonces
!
X
X
E
ci X i =
ci E(Xi ).
i
i
(c) Si X ≤ Y (es decir, si X y Y son variables aleatorias en Ω y para todo ω ∈ Ω se tiene
que X(ω) ≤ Y (ω)), entonces E(X) ≤ E(Y ).
Demostración. (a) pX (c) = 1 y pX (a) = 0 si a 6= c.
(b) HagamosP
el caso finito para ilustrar (el caso infinito tiene demostración más rebuscada). Sea X = i ci Xi . De la definición tenemos
n
n
n
P P
P
P P
1
ci Xi (ω)
E(X) = E ( ci Xi ) =
( ci Xi ) (ω) = |Ω|
i=1
=
n
P
1
ci |Ω|
i=1
P
ω∈Ω i=1
n
P
Xi (ω) =
ω∈Ω
ω∈Ω i=1
ci E(Xi ).
i=1
(c) Es claro. ♦
Aquı́ queda de manifiesto lo que habı́amos dicho de que no era sorprendente que el
resultado de ??(b) fuera el doble del de ??(a).
46
En los siguientes dos ejemplos la respuesta es obvia, como mostramos en la primera
solución; sin embargo conviene analizar las otras dos soluciones pues la segunda calcula
directamente el promedio y la tercera usa la linealidad de la esperanza ??.
4.14 Ejemplo. Cuántos elementos se espera que tenga un subconjunto de [n] escogido
al azar?
Solución. Primera forma. Para cada r ≤ n los conjuntos con r elementos son la misma
cantidad que los conjuntos con n − r elementos, ası́ que el promedio es n2 .
Segunda forma. Sea Ω = P[n], el conjunto de subconjuntos de [n]. Sea X la variable
aleatoria definida en Ω por X(ω) = número de elementos de ω. Entonces
n
n
1X
r
.
E(X) = n
2 r=0
r
n
, agrupando términos y multiplicando por 2/2, tenemos
Ahora, considerando que nr = n−r
que
n
1
1 X n
n
n
= n+1 (n · 2n ) = .
E(X) = n+1
r
2
2
2
r=0
Tercera forma. Consideremos Ω y X como en la solución anterior y definamos, para
i = 1, . . . , n, la variable aleatoria Xi por
1, si i ∈ ω,
Xi (ω) =
0, si no.
P
Claramente X = i Xi y P [Xi = 1] = P [Xi = 0] = 12 para toda i, y ası́
n
n X
X
1
1
n
E(X) =
E(Xi ) =
1· +0·
= .♦
2
2
2
i=1
i=1
Una variable aleatoria (como las Xi del ejemplo anterior) que sólo toma valores 0 o 1
se llama variable aleatoria indicadora. Su esperanza coincide con la probabilidad de que su
valor sea 1.
4.15 Ejemplo. A una fiesta asisten n personas. Cada una lleva un regalo y éstos se
sortean, de manera que a cada persona le toque un regalo. ¿A cuántas personas se espera
que les toque su propio regalo?
Solución. Aquı́ podemos pensar que el espacio muestral consta de todas las permutaciones
(a1 , a2 , . . . , an ) de n elementos, y la variable aleatoria X que nos interesa calcula el número
de puntos fijos, es decir, cuántos ai son iguales a i (por ejemplo, si n = 8, en la permutación
(4, 1, 3, 8, 2, 6, 5, 7) los puntos fijos son dos: en 3 y en 6). Definamos, para cada i ∈ [n], la
variable aleatoria que tiene el valor 1 cuando i es punto fijo y 0 cuando no. Entonces
n
X
(n − 1)!
1
X=
Xi y P [Xi = 1] =
= ,
n!
n
i=1
47
de donde E(X) = 1. ♦
4.16 Ejercicio. Probar que dada X : Ω → R variable aleatoria, pX es una función de
probabilidad en R (es decir, satisface (P1), (P2) y (P3)).
4.17 Ejercicio. En una caja hay 10 pelotas rojas, 9 pelotas azules y 7 pelotas blancas.
Si se extraen 5 pelotas de la caja, ¿cuántas pelotas blancas se espera que salgan?
4.18 Ejercicio. En cierto examen de opción múltiple con 5 opciones en cada respuesta
y 100 preguntas se califica como sigue: por cada respuesta correcta se otorga +1 punto,
por cada respuesta incorrecta se otorga − 14 de punto, y por cada pregunta sin contestar se
otorgan 0 puntos. Qué calificación esperarı́a obtener alguien que contestara todo el examen
al azar?
4.19 Ejercicio. Determinar cuántas fichas dobles se espera que tenga una mano de
dominó, primero de manera intuitiva y después usando variables aleatorias indicadoras.
4.20 Ejercicio. Dada una permutación (a1 , . . . , an ) de [n], para i ≥ 2 digamos que ai
es valle si ai es menor que ambos ai−1 y ai+1 . Cuál es el valor esperado para el número de
valles de una permutación de [n]?
4.21 Ejercicio. Un grupo de n jóvenes compite cada dı́a en saltos de longitud. Nunca se
repiten las distancias que logran. En un dı́a promedio, cuántas veces se rompe el récord de ese
mismo dı́a (considerando que el primero que compite rompe récord, por vacuidad)? (Sugerencia: Usar variables aleatorias indicadoras notando que en una permutación (a1 , a2 , . . . , an )
en la posición i se rompe récord si, y sólo si, ai es el menor del conjunto {ai , ai+1 , . . . , an }.
4.22 Ejercicio. En un torneo hay 6 equipos y cada uno juega una vez contra cada uno
de los demás equipos. Si todos los equipos tienen la misma probabilidad de ganar, al final
del torneo ¿cuántas veces se espera que haya tres equipos A, B, C tales A le ganó a B, B le
ganó a C y C le ganó a A? (Sugerencia: Calcular primero la probabilidad que tiene una terna
de vértices cualquiera de ser como las indicadas. Escribir la variable aleatoria que cuenta el
número de ternas dirigidas como suma de variables aleatorias indicadoras.)
Terminemos esta sección con algunos ejemplos interesantes. Los siguientes dos ejemplos
van en contra de nuestra intuición.
4.23 Ejemplo. Dados mágicos. Se tienen los siguientes dados:
El dado naranja tiene números 5, 5, 5, 1, 1, 1.
El dado azul tiene números 4, 4, 4, 4, 0, 0.
El dado verde tiene números 3, 3, 3, 3, 3, 3.
El dado rojo tiene números 6, 6, 2, 2, 2, 2.
48
Natalia toma el dado naranja, Anabel toma el azul, Vicente toma el verde y Raúl toma el
rojo. Probar que si cada uno lanza su dado y apuesta 1 peso a que en su dado sale un número
mayor que en el del otro, entonces la esperanza de ganancia de cada una de las siguientes
competencias son todas de 13 :
[N vsA] Natalia contra Anabel.
[AvsV ] Anabel contra Vicente.
[V vsR] Vicente contra Raúl.
[RvsN ] Raúl contra Natalia.
Solución. Observemos que en cada caso hay 36 combinaciones y contemos en cuántas
gana cada uno.
[N vsA] Cada uno de los tres 50 s de N gana a las seis posibilidades de A; los tres 10 s
de N ganan, cada uno, contra los dos 00 s de A. Entonces, de las 36 opciones, N gana
3 · 6 + 3 · 2 = 24, es decir,
1
12
1
E(N vsA) =
1 · 18 + 1 · 6 + (−1) · 12 =
= .
36
36
3
[AvsV ] De la misma manera, los cuatro 40 s de A ganan a las seis posibilidades de V
pero los dos 00 s pierden y entonces
1
12
1
E(AvsN ) =
1 · 24 + (−1) · 12 =
= .
36
36
3
[V vsR] Los 30 s de V pierden, cada uno, contra los dos 60 s de N pero ganan las otras
veces y ası́
1
12
1
E(V vsR) =
1 · 24 + (−1) · 12 =
= .
36
36
3
[RvsN ] Como arriba,
1
E(RvsN ) =
36
12
1
1 · 12 + 1 · 12 + (−1) · 12 =
= .♦
36
3
4.24 Nota. El ejemplo anterior lo sintetizamos por:
N > A > V > R > N.
4.25 Ejercicio. Dados Shippuden. Se tienen los siguientes dados.
El dado azul tiene números 1, 1, 1, 13, 13, 13.
El dado verde tiene números 0, 3, 3, 12, 12, 12.
El dado rojo tiene números 2, 2, 2, 11, 11, 14.
49
Probar que, con la notación de ?? se tiene que
A>V >R>A
pero
2A < 2V < 2R < 2A
4.26 Ejemplo. ¿Cuántos novios conviene a tener antes de casarse? Supongamos que
uno piensa que a lo más debe tener n novios/as (por ejemplo, si se decidiera empezar a
probar novios a los 17, tener un novio cada 2 años y elegir a lo más a los 34 años, entonces
= 9). También supongamos que se decide tener a novios de prueba a los que se
n serı́a 34−16
2
desecharı́a (y no se podrı́a volver con ninguno de ellos) y después se decidirı́a por el primero
que superara a esos a. ¿La pregunta es: Aquı́ se pueden hacer dos preguntas
Versión romántica. ¿Cómo debe ser a en relación con n, si se quiere maximizar la
probabilidad de quedarse con el mejor?
Versión práctica. ¿Cómo debe ser a en relación con n, si se quiere maximizar la esperanza (el promedio)?
Solución. Para entender bien el problema, tomemos n = 9, digamos que todos los candidatos están ordenados del 1 al 9, siendo 9 el que habrı́a sido mejor, luego el 8, etc. Si se
determinara que a = 4 entonces, analicemos con cuál novio se quedarı́a uno en el caso de las
siguientes permutaciones de candidatos (que serı́a según van apareciendo como candidatos):
Para
Para
Para
Para
(4, 1, 5, 2, 3, 6, 8, 7, 9)
(8, 4, 9, 3, 5, 1, 6, 7, 2)
(6, 2, 1, 8, 4, 3, 9, 5, 7)
(1, 2, 3, 4, 5, 6, 7, 8, 9)
la
la
la
la
elección
elección
elección
elección
serı́a
serı́a
serı́a
serı́a
el
el
el
el
6.
2.
9.
5.
A continuación se tiene una simulación hecha por computadora para n = 30 y diversos
valores de a de la versión romántica, es decir, de la probabiidad de escoger a n. La gráfica
muestra que a deberı́a ser entre 11 y 12.
50
La siguiente es la gráfica de la versión práctica, es decir, para n = 30 y diversos valores de
a se muestra la calificación promedio del novio elegido. El máximo aparece para a alrededor
de 5.
Trabajaremos aquı́ la versión romántica pues la otra es demasiado complicada.
Entonces veamos cuándo se elige al candidato n. Separemos en casos según la posición
de n. La probabilidad de que n esté en una posición determinada es n1 .
Si está en la posición a + 1 seguro será el seleccionado. Entonces esto contribuye en
a la probabilidad.
1
n
Si n está en la posición a + 2, entonces para que sea seleccionado se necesita que el que
quedó en la posición a + 1 no sea más grande que los a primeros, o, en otras palabras,
que el mejor de los a + 1 quede dentro de los a primeros, y la probabilidad de que eso
a
a
. Esto contribuye en total n1 a+1
a la probabilidad.
ocurra es a+1
Análogamente, si n está en la posición a + 3 se necesita que el mayor de los primeros
a
a + 2 quede en las primeras a posiciones y la probabilidad de esto es a+1
; para un total
1 a
de n a+2 .
En total queda:
1a 1 a
1 a
1a
+
+
+ ... +
n a n a + 1 n a + 2
n
n
a 1
1
1
1
=
+
+
+ ... +
n a a+1 a+2
n
P (escoger al mejor) =
Ahora, suponiendo que n es grande y que en este caso a también lo es, la expresión es
51
aproximadamente igual a
a
(ln(n) − ln(a))
n a
n
=
ln
n
a
Como queremos maximizar la probabilidad, llamemos x = na . Ası́ queda
1
x ln
x
Derivando e igualando a 0 obtenemos lo que queremos:
0
1
1
x ln
= ln
−1
x
x
Igualamos a 0 y despejamos x:
1
x= .
e
Para maximizar la probabilidad de quedarse con el/la mejor posible marido/mujer se deben
tener ne novios(as) antes de decidir donde n es el número esperado de novios(as) que podrı́a
uno tener antes de casarse. La probabilidad de obtenerlo será 1e . (Por ejemplo, si n = 9,
entonces la probabilidad de encontrar el mejor candidato como esposo se obtiene con a =
9
∼ 3 y si n = 30 entonces a = 30
∼ 11. ♦
e
e
4.3.
Variables aleatorias independientes
Decimos que dos variables aleatorias X y Y en Ω son independientes si para todos a, b ∈ R
los sucesos X ≤ a y Y ≤ b son independientes, es decir,
P [X ≤ a y Y ≤ b] = P [X ≤ a] P [Y ≤ b].
En espacios discretos (como los que hemos trabajado hasta el momento) la definición es
equivalente a:
P [X = a y Y = b] = P [X = a] P [Y = b],
puesto que, por ejemplo,
P [X = a] = P [X ≤ a] − P [X ≤ a1 ],
para algún elemento a1 ∈ R.
52
4.27 Ejemplo. (a) Si X cuenta el número de águilas cuando lanzamos 5 monedas al
aire y Y cuenta el número de soles, entonces X y Y no son independientes.
(b) Si se lanzan 10 monedas al aire y X cuenta el número de águilas de las primeras 5
monedass y Y el número de soles que salen en las 5 últimas, entonces X y Y son independientes.
De la misma manera que con eventos, la independencia de variables aleatorias es muy
sutil. No es lo mismo que 3 variables sean independientes a que sean independientes por
parejas. Además, puede ocurrir que dos variables no sean independientes, pero lo sean dada
una tercera.
4.28 Ejemplo. Sea Ω el espacio de humanos y consideremos las siguientes variables
aleatorias
Z(ω) = número de zapatos que calza ω.
B(ω) = qué tan bien juega ω basquetbol.
A(ω) = la altura de ω.
Entonces es claro que Z y B no son independientes, pues los que usan zapatos más grandes tienden a jugar mejor basquetbol por ser más altos. Sin embargo Z|A y B|A sı́ son
independientes.
4.29 Proposición. Si X y Y son variables aleatorias independientes (en el mismo espacio
Ω), entonces
E(XY ) = E(X) E(Y ).
Demostración. Simplemente hay que expandir lo que significa cada una de esas cosas.
P
P
E(X) E(Y ) = ( xi P [X = xi ]) ( yj P [Y = yj ])
i
j
P
=
xi yj P [X = xi ]P [Y = yj ]
i,j
P
=
xi yj P [X = xi , Y = yj ]
i,j
= E(XY ). ♦
4.30 Nota. El recı́proco no es cierto, es decir, es posible que E(XY ) y E(X) E(Y ) sean
iguales a pesar de que X y Y no sean independientes (ver ??). Se define la covarianza de X
y Y como
Cov(X, Y ) = E(XY ) − E(X) E(Y ).
Más adelante veremos el significado de esto (ver ??).
53
5.
5.1.
Varianza y Desviación Estándar
Varianza
La esperanza de una variable aleatoria nos dice el promedio de todos los valores (tomados
con repetición). Sin embargo esta información puede ser muy incompleta. Por ejemplo, no
es lo mismo que las calificaciones de un grupo de alumnos sean todas de 5 a que la mitad de
los alumnos tengan 10 de calificación y la otra mitad tengan 0. La varianza será una medida
para expresar qué tan alejados están los valores de su esperanza.
Un intento para medir qué tanto se alejan los valores que toma X de su propio promedio
µ := E(X), serı́a tomar la esperanza de X − µ (es decir E(X − M ), donde M es la variable aleatoria constante con valor µ). Sin embargo, por ??, esta esperanza es 0, ası́ que no
tendrı́amos información. Consideramos, en su lugar, la esperanza de (X − µ)2 para evitar
que se cancelen valores positivos con negativos y, como “elevar al cuadrado” es una función
creciente en los números positivos, ésta se puede considerar una buena medida de lo que
queremos.
Entonces definimos la varianza o segundo momento de una variable aleatoria X : Ω → R
como
V ar(X) := E (X − µ)2 ,
donde µ = E(X).
5.1 Ejemplo. Determinar la varianza si la mitad de los alumnos de un grupo tienen
calificación de 10 y la otra mitad tienen 0, y compararla con otras distribuciones similares.
Solución. Si todos tienen calificación de 5, la varianza es 0, mientras que si las calificaciones
son 0 y 10, la varianza es
1
1
(10 − 5)2 + (0 − 5)2 = 25.
2
2
La escala se ha cambiado al elevar al cuadrado pero mide qué tanto se alejan las calificaciones
del promedio. Tenemos también los siguientes casos:
Si la mitad de las calificaciones es de 6 y la otra mitad es 4, entonces la varianza es:
1
1
(6 − 5)2 + (4 − 5)2 = 1.
2
2
Cuando la mitad de las calificaciones es de 7 y la otra mitad es de 3, la varianza es
1
1
(7 − 5)2 + (3 − 5)2 = 4.
2
2
54
5.2 Ejemplo. Supongamos que Ω = {a, b, c} y que P (a) = 12 , P (b) = 13 y P (c) = 16 .
Digamos que X es la variable aleatoria definida por X(a) = 3, X(b) = 4 y X(c) = 7. ¿Cuál
es la varianza?
Solución. Tenemos que
E(X) =
3 4 7
+ + = 4.
2 3 6
Ası́ µ = 4, y si Y = X − µ, entonces
Y 2 (a) = (X(a) − µ)2 = (3 − 4)2 = 1,
Y 2 (b) = 02 = 0,
Y 2 (c) = 32 = 9,
de donde
V (X) = E((X − µ)2 ) =
1
1
1
1 + 0 + 9 = 2. ♦
2
3
6
5.3 Proposición. Si X es una variable aleatoria, entonces
V ar(X) = E(X 2 ) − E(X)2 .
Demostración. Sea µ = E(X). Entonces
V ar(X) =
=
=
=
E ((X − µ)2 )
E(X 2 − 2Xµ + µ2 )
E(X 2 ) − 2µ2 + µ2
E(X 2 ) − µ2 . ♦
Usualmente es más sencillo utilizar ?? para calcular varianza.
5.4 Ejemplo. Sea X la variable aleatoria que mide la suma de 2 dados que se lanzan.
¿Cuál es la varianza?
Solución.
E(X)2 =
2·
1
36
+3·
2
36
+4·
3
36
+ · · · + 12 ·
1 2
36
= 72 = 49,
E(X 2 ) = 22 ·
1
36
+ 32 ·
2
36
∼ 54.833.
Entonces V ar(X) ∼ 54.833 − 49 = 5.833. ♦
55
+ 42 ·
3
36
+ · · · + 122 ·
1
36
5.5 Proposición. Sean X y Y variables aleatorias en un espacio Ω y sea c una constante.
Entonces
(a) V ar(cX) = c2 V ar(X).
(b) V ar(X + Y ) = V ar(X) + V ar(Y ) + 2 Cov(X, Y ).
Demostración.
V ar(cX) = E ((cX)2 ) − (E(cX))2
(a)
= E(c2 X 2 ) − (cE(X))2
= c2 (E(X 2 ) − E(X)2 )
= c2 V ar(X).
(b)
V ar(X + Y ) = E ((X + Y )2 ) − E(X + Y )2
= E (X 2 + Y 2 + 2XY ) − (E(X) + E(Y ))2
= E(X 2 ) + E(Y 2 ) + 2 E(XY )
−E(X)2 − E(Y )2 − 2E(X)E(Y )
= V ar(X) + V ar(Y ) + 2 (E(XY ) − E(X)E(Y ))
= V ar(X) + V ar(Y ) + 2 Cov(X, Y ). ♦
5.6 Corolario. Si X y Y son variables aleatorias independientes, entonces
V ar(X + Y ) = V ar(X) + V ar(Y ).
En particular, si c ∈ R,
V ar(X + c) = V ar(X). ♦
5.2.
Desviación Estándar
Hemos visto que si multiplicamos una variable aleatoria por una constante, la varianza
se multiplica por la constante al cuadrado. Esto no nos gusta. Por ejemplo, si una variable
aleatoria está medida en centı́metros y tiene cierta varianza, al medirla en pulgadas su
56
varianza se multiplica por ∼ 2.542 . Nos gustarı́a una medida que si todo se multiplica por
una constante, esa medida se multiplique por esa misma constante. La solución a esto es
considerar la raı́z cuadrada de la varianza. Esto nos lleva a la siguiente definición.
Dada una variable aleatoria X, la desviación estándar se define como
p
p
σ(X) := V ar(X) = E(X 2 ) − E(X)2 .
5.7 Ejemplo. Encontrar la desviación estándar de la variable aleatoria de ??.
√
Solución. Ya tenı́amos que la varianza era 2, ası́ que σ(X) = 2 ∼ 1.41. ♦
5.8 Ejemplo. Encontrar la desviación estándar de las diferentes variables aleatorias de
??.
Solución.
Si todos tienen calificación de 5, σ = 0.
Si las calificaciones son 0 y 10, σ = 5.
Si la mitad de las calificaciones es de 6 y la otra mitad es 4, entonces σ = 1.
Cuando la mitad de las calificaciones es de 7 y la otra mitad es de 3, la desviación
estándar es de 2. ♦
5.9 Ejemplo. Se lanza una moneda 10 veces y se cuenta el número de águilas. ¿Cuál
es la probabilidad de quedar dentro de una desviación estándar del promedio (es decir, la
probabilidad de que la variable aleatoria quede a distancia de a lo más 1 de la desviación
estándar)?
Solución. Sabemos que el promedio es de 5 águilas y
V ar(X) = E(X 2 ) − E(X)2
=
1
210
10
0
· 02 +
10
1
· 12 + · · · +
√
10
10
5
· 102 − 52 = .
2
√
√
Entonces σ(X) = √52 < 2. Queremos la probabilidad de que 5 − √52 < X < 5 + √32 . Como X
toma sólo valores enteros, buscamos la probabilidad de que X sea 4, 5 o 6:
1
10
10
10
+
+
∼ 0.65. ♦
10
4
5
6
2
Después veremos que para este tipo de distribuciones, la probabilidad de quedar a menos
de una desviación estándar del promedio es ∼ 23 (ver ??).
57
5.10 Ejemplo. Supongamos que tiramos dos dados. Sea X la variable aleatoria que
representa la suma de los dos dados. Encontrar la desviación estándar y la probabilidad de
quedar a lo más a una desviación estándar del promedio.
p
Solución. Tenemos que σ(X) = E(X 2 ) − E(X)2 y que E(X) = 7. Usemos la linealidad
de la esperanza para calcular E(X 2 ): Supongamos que a y b son las variables aleatorias
que denotan el primer dado y el segundo dado, respectivamente. Ası́, X = a + b, de donde
X 2 = a2 + 2ab + b2 . Entonces
E(X 2 ) = E(a2 ) + 2E(ab) + E(b2 )
2
1 + 22 + · · · + 62 1 · 1 + 1 · 2 + 1 · 3 + · · · + 5 · 6 + 6 · 6
+
= 2
6
36
91 (1 + 2 + 3 + · · · + 6)(1 + 2 + 3 + · · · + 6)
= 2
+
6
36
2
91 21
+
∼ 54.83.
= 2
6
36
√
√
Ası́, σ(X) ∼ 54.83 − 49 = 5.83 ∼ 2.41. La probabilidad de quedar a lo más a distancia
de 2.41 del promedio (que es 7) es
P [7 − 2.41) ≤ X ≤ 7 + 2.41] = P [X ∈ {5, 6, 7, 8, 9}]
=
4+5+6+5+4
24
2
=
= .♦
36
36
3
De ?? tenemos el siguiente corolario.
5.11 Corolario. Sean X y Y variables aleatorias en un espacio Ω y sea c una constante.
Entonces
(a) σ(cX) = |c| σ(X).
(b) σ(X + c) = σ(X). ♦
58
6.
Covarianza y Correlación
La covarianza y la correlación miden qué tanto se parecen dos variables aleatorias X y
Y . Ya arriba nos ha aparecido este tipo de relación, la cual formalizamos en este momento
(ver ?? y ??).
Dadas dos variables aleatorias X y Y en el mismo espacio, definimos la covarianza por:
Cov(X, Y ) = E(XY ) − E(X)E(Y ).
La correlación entre X y Y es:
Corr(X, Y ) :=
Cov(X, Y )
σ(X)σ(Y )
La correlación simplemente es la covarianza “normalizada” (es decir, multiplicada para que
sus valores estén entre -1 y 1).
6.1 Observación. (a) Cov(X, X) = E(X 2 ) − E(X)2 = V ar(X) y Corr(X, X) = 1.
(b) Si X y Y son independientes, Cov(X, Y ) = 0 = Corr(X, Y ).
6.2 Ejemplo. Supongamos que Ω = {a, b} y P (a) = 0.3. Digamos que X y Y son
variables aleatorias definidas por X(a) = 1 y X(b) = 5, Y (a) = 2 y Y (b) = 3. ¿Cuánto valen
Cov(X, Y ) y Corr(X, Y )?
Solución.
E(X)
E(Y )
E(XY )
Cov(X, Y )
E(X 2 )
E(Y 2 )
σ(X)
σ(Y )
=
=
=
=
=
=
=
=
Corr(X, Y ) =
1 · 0.3 + 5 · 0.7 = 3.8,
2 · 0.3 + 3 · 0.7 = 2.7,
2 · 0.3 + 15 · 0.7 = 11.1,
11.1 − 2.7 · 3.8 = 0.84.
1 · 0.3 + 25 · 0.7 = 17.8,
4 · 0.3 + 9 · 0.7 =√7.5,
√
√ 3.36 ∼ 1.83,
√17.8 − 14.4 ∼
7.5 − 7.3 ∼ 0.21 ∼ 0.46,
0.84
∼ 1. ♦
1.83 · 0.46
La razón por la que la correlación en el ejemplo anterior resultó ser 1 no es casualidad.
Veremos después que la correlación es bilineal, es decir, Corr(aX + b, cY + d) = Corr(X, Y )
(ver ??) y, como tenemos un espacio que consta de sólo dos variables, cualesquiera dos
variables aleatorias están en relación lineal una de otra.
59
6.3 Nota. (a) La correlación no está definida si una de las variables es constante pues
σ(c) = 0. En este caso usualmente decimos simplemente que Corr(X, c) = 0, pues X y c son
independientes.
(b) Los valores de la correlación siempre están entre -1 y 1. Para probar esto necesitarı́amos técnicas que se salen del propósito de estas notas.
(c) Si una variable es un múltiplo positivo de la otra (más una constante), entonces la
correlación es 1. (Esto será consecuencia de ??.)
(d) Si una variable es un múltiplo negativo de la otra (más una constante), entonces su
correlación es -1.
(e) Si las variables tienden a crecer o decrecer juntas, su correlación es positiva.
(f) Si las variables tienden a crecer o decrecer inversamente, entonces su correlación es
negativa.
6.4 Ejemplo. Intuitivamente,
(a) La temperatura de mañana y la cantidad de helados vendidos mañana están correlacionadas (es decir, la correlación entre las variables aleatorias correspondientes es positiva).
(b) La cantidad de comida que como esta semana y mi peso la próxima están correlacionadas.
(c) La cantidad de papel que se usa hoy en el mundo y mi peso mañana no están correlacionadas.
6.5 Nota. Correlación y causalidad son cosas distintas. Correlación no necesariamente
implica causalidad; correlación (positiva) simplemente significa que dos cosas tienden a crecer
juntas; causalidad significa que si artificialmente se cambia una de las variables, la otra
también cambia.
Ejemplos de sucesos correlacionados pero que ninguno causa el otro son:
Hablarle a las plantas y que éstas crezcan bien.
Servir dulces en fiesta de niños y que los niños estén hiperactivos.
Tener frı́o y enfermarse de gripe. (¡Es verdad! Es uno de los mitos más extendidos en
nuestra cultura: es falso que mojarse o salir al frı́o hará que nos enfermemos. Lo que sı́
es cierto es que ciertas condiciones invernales promueven el desarrollo de los virus de
la gripe.)
6.6 Ejercicio. Inventar más ejemplos (intuitivos) de sucesos que tengan correlación 1,
correlación positiva (no 1), correlación 0, correlación −1 y correlación negativa (no −1).
6.7 Ejercicio. Inventar más ejemplos (intuitivos) de sucesos que estén correlacionados
(ya sea positiva o negativamente), pero que ninguno sea causa del otro.
60
6.8 Proposición. Si a y b son reales (a 6= 0) y X y Y son variables aleatorias en Ω,
entonces
Corr(X, Y ), si a > 0,
Corr(aX + b, Y ) =
−Corr(X, Y ), si a < 0.
Demostración. Vamos a usar ??
Corr(aX + b, Y ) =
E((aX + b)Y ) − E(aX + b)E(Y )
σ(aX + b)σ(Y )
=
aE(XY ) + bE(Y ) − aE(X)E(Y ) − bE(Y )
|a|σ(X)σ(Y )
=
aE(XY ) − aE(X)E(Y )
|a|σ(X)σ(Y )
= ±Corr(X, Y ). ♦
6.9 Ejemplo. Supongamos que se lanza un dado 3 veces, que X es la suma de los dos
primeros resultados, y que Y es la de los dos segundos. Calcular covarianza y correlación de
X y Y.
Solución. Tenemos que E(X) = 7 = E(Y ). Digamos que (a, b, c) es el resultado del
lanzamiento de los tres dados. Entonces
XY (a, b, c) = (a + b)(b + c) = ab + ac + b2 + bc,
de donde, viendo a, b y c como variables aleatorias y usando la linealidad de la esperanza,
E(XY ) = E(b2 ) + E(ab) + E(ac) + E(bc).
Ahora,
12 + 22 + 32 + 42 + 52 + 62
91
= ,
6
6
1 · 1 + 1 · 2 + 1 · 3 + ··· + 5 · 6 + 6 · 6
212
E(ba) = E(bc) = E(ac) =
=
,
36
36
E(b2 ) =
Ası́
91
212
+3·
− 7 · 7 ∼ 2.92.
6
36
También sabemos que σ(X) = 2.41 = σ(Y ) (ver ??), de donde
Cov(X, Y ) =
Corr(X, Y ) ∼
61
2.92
∼ .5. ♦
5.83
Observamos en el ejemplo anterior que la correlación es .5, es decir, X y Y están medianamente relacionadas, lo cual tiene mucho sentido pues la mitad de una (el valor de b) es el
mismo en ambas.
Puede ser que dos variables aleatorias no tengan correlación (es decir, su correlación sea
0) pero no sean independientes, como veremos en el siguiente ejemplo.
6.10 Ejemplo. Sean X, Y y Z definidas en Ω = {a, b, c, d} como sigue:
X(a) = X(b) = 0 y X(c) = 1 = X(d).
Y (a) = −1 = Y (c) y Y (b) = 1 = Y (d).
Z = XY .
Probar que X y Z son dependientes, pero que Corr(X, Z) = 0.
Solución. Observemos que Z(a) = 0 = Z(b), Z(c) = −1 y Z(d) = 1. Como P [X =
0 y Z = 0] = 21 pero P [X = 0]P [Z = 0] = 12 12 = 14 , tenemos que X y Z son dependientes.
Por otro lado,
E(XZ) = E(X 2 Y ) = E(XY ) = E(Z) = 0 ·
1
1
1
+ (−1) · + 1 · = 0,
2
4
4
y entonces E(X)E(Z) = E(X) · 0 = 0, de donde Cov(X, Z) = 0 − 0 = 0, y también
Corr(X, Z) = 0. ♦
6.11 Ejercicio. En un costal hay 10 pelotas de colores: 5 azules, 3 blancas y 2 cafés.
Aleatoriamente Manolo saca una pelota del costal. Si es azul, tiene que pagar 5 pesos; si
es blanca tiene que pagar 1 peso; pero si es café, le pagan 10 pesos. ¿Cuál es la desviación
estándar de la cantidad de dinero que le dan a Manolo?
6.12 Ejercicio. En el mismo caso del problema anterior, supongamos que Manolo se
queda las pelotas que va sacando y que puede vender las pelotas azules por 1 peso, las
blancas por 2 y las cafés por 3. Encontrar la correlación entre el dinero que obtiene por jugar
el juego y el que obtiene por vender la pelota.
6.13 Ejercicio. Sean X y Y dos variables aleatorias en el mismo espacio muestral, tales
que X = Y1 . Probar que si X(ω) > 0 para todo ω ∈ Ω entonces Cov(X, Y ) ≤ 1.
62
7.
Probabilidad Continua
Hasta ahora hemos estado viendo probabilidad en donde el espacio muestral es finito,
o discreto. En probabilidad discreta la probabilidad de cada elemento determina la probabilidad de cualquier evento. Sin embargo, en probabilidad continua cada elemento tiene
probabilidad 0, pero varios elementos de Ω juntos ya no. Entonces lo importante es la probabilidad de los eventos, es decir, los subconjuntos del espacio muestral. Sin embargo, hay
demasiados eventos. Además hay ciertas cosas que se tienen que cumplir para que sı́ se tenga
una función de probabilidad.
7.1 Ejemplo. Supongamos que Ω = [0, 1] y que escogemos un punto aleatorio de Ω.
(a) ¿Cuál es la probabilidad de que ese punto sea 1/π?
(b) ¿Cuál es la probabilidad de que ese punto escogido sea menor a 0.4?
(c) ¿Cuál es la probabilidad de que ese punto escogido sea ≥ 0.7?
Solución.
(a) P ({ π1 }) = 0.
(b) P ([0, 0.4)) = 0.4.
(c) P ([0.7, 1]) = 0.3.
(Nota. Observamos que no importa si los intervalos son cerrados o abiertos.) ♦
7.2 Ejemplo. Supongamos que Ω = [0, 1] y que todo tiene la “misma probabilidad”
(decimos que la medida es uniforme). ¿Cuál es la probabilidad de que el número elegido al
azar esté entre 0.3 y 0.47?
Solución. Hay que ver la medida de [0.3, 0.47] con respecto a la medida de [0, 1], ası́ que
la respuesta es P ([0.3, 0.47]) = 0.17. ♦
7.3 Ejemplo. Supongamos que Ω = [1, 8]. Si escogemos un número al azar, ¿cuál es la
probabilidad de que el número sea menor a 5?
Solución. Básicamente queremos P ([1, 5]). Pero ahora la medida “total” es de 8 − 1 = 7,
ası́ que la respuesta es
4
P ([1, 5]) = . ♦
7
7.4 Ejemplo. Dentro del siguiente cuadrado escogemos un punto al azar, sin darle preferencia a ningún punto sobre otro. ¿Cuál es la probabilidad de que caiga en el área sombreada?
63
Solución. El área sombreada es la mitad del área total, ası́ que la probabilidad es 12 . ♦
Sea Ω un espacio muestral y sea 2Ω el conjunto de todos los subconjuntos de Ω, es decir,
de todos los eventos. Hay razones técnicas que impiden definir la probabilidad en todos los
eventos, ası́ que la función de probabilidad sólo queda definida para algunos eventos a los
que llamamos eventos medibles. Al conjunto de todos los eventos medibles lo denotaremos
por Σ. Este subconjunto Σ de Ω resulta ser una σ-álgebra, es decir, Σ satisface:
Ω ∈ Σ.
Si A ∈ Σ, entonces Ω \ A ∈ Σ.
Si A1 , A2 , . . . , ∈ Σ, entonces A1 ∪ A2 ∪ · · · ∈ Σ.
7.5 Nota. Se puede deducir que si Σ es σ-álgebra y A1 , A2 , . . . ∈ Σ, entonces
A1 ∩ A2 ∩ · · · ∈ Σ.
Un espacio de probabilidad consta de un conjunto Ω, una σ-álgebra Σ ⊂ 2Ω y una función
de probabilidad P : Σ → [0, 1] que satisface:
P (Ω) = 1.
P
Si A1 , A2 , . . . son ajenos, entonces P (A1 ∪ A2 ∪ · · · ) = i P (Ai ).
Al igual que lo hicimos en ??, tenemos que
P (∅) = 0.
Si A ⊂ B con A, B ∈ Σ, entonces P (A) ≤ P (B).
Si A ∈ Σ, entonces P (Ω \ A) = 1 − P (A).
Se cumple inclusión-exclusión (en general), por ejemplo, P (A ∪ B) = P (A) + P (B) −
P (A ∩ B).
Algunos de los conceptos que hemos visto en probabilidad discreta se traducen exactamente a probabilidad continua. Para otros tendremos que hacer una adaptación. En general
habrá que intercambiar sumas por integrales. Veamos aquı́ las traducciones correspondientes.
Si A y B son dos eventos tales que P (B) 6= 0, la probabilidad condicional de A dado
B se define por
P (A ∩ B)
P (A|B) =
.
P (B)
64
Los teoremas de Bayes ?? y ?? siguen siendo ciertos.
Dos eventos A y B son independientes si
P (A|B) = P (A)
o, equivalentemente, si
P (A ∩ B) = P (A)P (B).
También se define para más de dos eventos igual que en probabilidad discreta .
Para definir variable aleatoria hay que hacer un pequeño cambio pues no puede ser
cualquier función. Una variable aleatoria es una función medible X : Ω → R, es decir,
una función tal que P (a ≤ X ≤ b) está definida para cualquiera reales a ≤ b (y también
con intervalos abiertos, semiabiertos, rayos, etc.)
Al igual que en probabilidad discreta, dada una variable aleatoria X, su distribución
cumulativa, FX : R → [0, 1], es la función definida por
FX (a) := P (X ≤ a).
Se tiene que FX es una función creciente, que tiende a 0 cuando a → −∞ y que tiende
a 1 cuando a → ∞.
7.6 Ejemplo. Supongamos que Ω es un cuadro de 1 × 1 (donde la esquina inferior
izquierda está en el origen) y sea Z la variable aleatoria que al punto de coordenadas (x, y)
le asocia el número x + y. Encontrar FZ (1).
Solución. Tenemos que FZ (1) = P (Z ≤ 1) = P (x + y ≤ 1). Debemos entonces considerar
cuáles son los puntos del cuadro en donde x + y ≤ 1:
65
Ası́, FZ (1) = 21 . ♦
7.7 Ejemplo. Supongamos que Ω es un cı́rculo de radio 1 centrado en el origen. Sea W
la variable aleatoria tal que W ((x, y)) = x. Encontrar FW (0.5).
Solución. FW (0.5) = P (W ≤ 0.5) = P (x ≤ 0.5).
Entonces
2
FW (0.5) =
π
Z
0.5
√
1 − x2 dx. ♦
−1
7.8 Nota. Se puede ver que la gráfica de FW del ejemplo anterior es la siguiente:
Observamos, como ya sabı́amos, que la función es creciente.
Por otro lado, notemos que si Ω es un espacio discreto, la gráfica de la función cumulativa
es escalonada.
66
1
Recordemos que si Ω es un espacio muestral discreto y X es variable aleatoria en Ω,
entonces la densidad de X es la función pX : R → [0, 1] definida por pX (a) = P [X = a].
Es claro que aquı́ tiene que haber un cambio grande en la definición. Recordemos que en
probabilidad discreta
X
pX (xi ) = FX (a),
xi ≤a
donde los xi son los posibles valores que puede tomar X. Traducimos esta propiedad a
probabilidad continua ası́:
Z a
pX (x) dx = FX (a),
−∞
y queremos que pX sea la función que satisfaga esto, lo cual, por el teorema fundamental del
Cálculo, debe ser F 0 (a). Veamos el caso del ejemplo en el cı́rculo.
7.9 Ejemplo. En ??, calcular
lim
b→a
P (a ≤ W ≤ b)
,
b−a
es decir, cómo varı́a la distribución en un intervalo en relación a la variación del intervalo.
Solución. Observemos que
2
FW (b) − FW (a) =
π
Z b√
1 − x2 dx.
a
Al dividir entre b − a (es decir, la longitud del intervalo [a, b]) y hacer tender b a a,
obtenemos la derivada de FX evaluada en a que es, por el teorema fundamental del Cálculo,
67
2
π
√
1 − a2 . ♦
Sea X una variable aleatoria. Definimos la densidad de X como la función pX : R → R
dada por
pX (a) = FX0 (a).
Básicamente, pX dice que, aunque la probabilidad de obtener un determinado número
sea 0, hay números más probables que otros. Por ejemplo, una gráfica de densidad podrı́a
verse ası́:
Donde es más alta es porque es más probable que ese valor (valores cercanos a él) salgan.
En el caso del ejemplo en el cı́rculo, la gráfica de la densidad es, precisamente, la de un
semicı́rculo (más cerca del centro del cı́rculo el área de una franjita vertical es mayor que
lejos del centro del cı́rculo).
Muchas veces, cuando X es una variable aleatoria continua, la densidad se denota por
fX en lugar de pX . También se le llama función de masa.
7.10 Corolario. Si la densidad de una variable aleatoria X es pX y A ⊂ R, entonces
Z
P (X ∈ A) =
pX . ♦
A
Por ejemplo, tenemos que P (X ∈ [a, b]) = P (a ≤ X ≤ b) =
Z b
pX = FX (b) − FX (a).
Rb
a
pX . Claro,
a
7.11 Corolario. Supongamos que X es una variable aleatoria. Entonces la densidad pX
satisface
(a) pX (t) ≥ 0 para toda t ∈ R.
R∞
(b) −∞ pX = 1.
Demostración. (a) Esto es porque FX es creciente.
R∞
(b) −∞ pX = P (−∞ ≤ X ≤ ∞) = 1. ♦
68
7.12 Ejemplo. Supongamos que X es una variable aleatoria y que su distribución cumulativa está definida ası́:
(
0,
si t < 0,
FX (t) =
−t
1 − e , si t ≥ 0.
Revisar por qué ésta es una posible distribución cumulativa y determinar la densidad de X.
Solución. Es claro que es función de distribución pues es creciente, lim FX (t) = 0 y
t→−∞
lim FX (t) = 1. Para calcular la densidad, sólo hay que derivar FX :
t→∞
(
0,
si t < 0,
pX (t) = FX0 (t) =
−t
e , si t ≥ 0.
Se ven ası́:
7.1.
Esperanza continua
Recordemos que la esperanza de una variable aleatoria discreta X es
X
E(X) =
t · pX (t)
t∈Im(X)
En el caso continuo no podemos tomar la suma sobre los valores que toma X porque hay
una infinidad de ellos. Cambiamos suma por integral, pues la integral es la forma de sumar
infinitamente (cuando esto es posible).
69
Sea X una variable aleatoria. Definimos su esperanza E(X) por
Z ∞
E(X) :=
t · pX (t) dt.
−∞
7.13 Ejemplo. Sea X la variable aleatoria cuya distribución cumulativa es


0, si t < 0,
FX (t) = t, si 0 ≤ t ≤ 1,


1, si 1 ≤ t.
Calcular su esperanza.
Solución. Primero debemos calcular su densidad.


0, si t < 0,
pX (t) = 1, si 0 ≤ t ≤ 1, .


0, si 1 ≤ t.
Entonces
Z
E(X) =
1
t dt =
0
1
t2 1
= .♦
2 0
2
7.14 Proposición. Sea g : R → R una función continua cualquiera y sea X una variable
aleatoria. Entonces
Z ∞
E(g(X)) =
g(t) · pX (t) dt.
−∞
Demostración. Es claro de la definición. ♦
El resultado ?? es muy útil. A veces se le llama la ley del estadista inconsciente.
7.15 Ejemplo. Se escoge un número al azar entre 0 y 1 y luego se eleva al cuadrado.
En promedio, ¿cuánto es el resultado?
Solución. Se pregunta por E(X 2 ) donde X es la variable aleatoria de ??. Entonces
Z ∞
Z 1
t3 1 1
2
2
E(X ) =
t · pX (t)dt =
t2 dt = = . ♦
3 0 3
−∞
0
70
7.2.
Varianza, Correlación, Covarianza
Sean X y Y variables aleatorias. Al igual que en el caso discreto, definimos la varianza
de X por
V ar(X) = E(X 2 ) − E(X)2 ,
la desviación estándar de X por
σ(X) =
p
V ar(X),
la covarianza de X y Y por
Cov(X, Y ) = E(XY ) − E(X)E(Y ),
y la correlación entre X y Y por
Corr(X, Y ) =
Cov(X, Y )
.
σ(X)σ(Y )
7.16 Ejemplo. Supongamos que X es la variable aleatoria que elige un punto del [0, 1]
aleatoriamente y Y elige otro. Encontrar V ar(X), σ(X), Cov(X, Y ), Cov(X, X + Y ) y
Corr(X, X + Y ).
Solución.
2
2
1
Z
t2 dt − 0.52 =
V ar(X) = E(X ) − E(X) =
0
1
,
12
p
σ(X) = 1/12 ∼ 0.288,
Como X y Y son independientes,
Cov(X, Y ) = 0,
Cov(X, X + Y ) = E(X(X + Y )) − E(X)E(X + Y )
= E(X 2 ) + E(XY ) − E(X)2 − E(X)E(Y )
= V ar(X) + 0 =
Corr(X, X + Y ) =
1
,
12
V ar(X)
σ(X)σ(X + Y )
p
1/12
1/12
1
p
= p
= p
=√ .♦
2
1/12 1/6
1/6
71
8.
Distribuciones Importantes
Hay algunas distribuciones (es decir, combinaciones de densidad con distribución cumulativa) que aparecen con frecuencia. Algunas de ellas tienen nombre.
Primero vamos a entender qué significa el hablar de una distribución. Vamos a pensar
que Ω ⊂ R es el espacio muestral. Dentro de R ya tenemos una medida dada, en donde un
intervalo [a, b] mide b − a. Pero en Ω las cosas pueden medir diferente. Cuánto mide cada
cosa en Ω es a lo que le llamamos una distribución. Para especificarla, usualmente se toma
la variable aleatoria X : Ω → R tal que X(a) = a (es decir, no hace nada) y luego se define
la densidad y/o distribución cumulativa de X.
8.1.
Distribución uniforme
La distribución uniforme es la más sencilla y natural. Usualmente cuando decimos “tomamos un número aleatorio entre 0 y 1” o cosas ası́, nos referimos a esta distribución. Es en
la que “todo tiene la misma probabilidad”.
Sea Ω un subconjunto medible de R. La distribución uniforme en Ω está dada por la
siguiente función de densidad:
(
1
, si t ∈ Ω,
pX (t) = m(Ω)
0,
si no.
8.1 Ejemplo. ¿Cuál es la función de distribución cumulativa de la distribución uniforme?
Solución. Hay que integrar la densidad:
Z a
Z a
FX (a) =
pX (t) dt =
−∞
−∞
1
m([−∞, a] ∩ Ω)
dt =
.♦
m(Ω)
m(Ω)
72
Por ejemplo, si Ω es un intervalo, simplemente FX (a) es la medida hasta a entre la medida
del intervalo.
8.2 Ejemplo. Calcular esperanza, varianza y desviación estándar de la distribución
uniforme en un intervalo [a, b].
Solución. (a) La esperanza es
1
b−a
b
Z
a
1 b 2 − a2
b+a
t2 b
=
,
t dt =
=
b−a a 2 b−a
2
lo cual es lógico pues es el promedio entre a y b.
(b) La varianza es
Z
a
b
t2
(b + a)2
b 3 − a3
(b + a)2
b2 + ab + b2 b2 + 2ab + b2
1
dt −
=
−
=
−
= (b − a)2 .
b−a
4
3 (b − a)
4
3
4
12
(c) La desviación estándar es
b−a
√
∼ 0.29(b − a). ♦
12
8.2.
Distribución de Bernoulli
Es una distribución discreta y sencilla: Toma el valor 1 con probabilidad p y el valor 0
con probabilidad 1 − p. Es como lanzar una moneda que p de las veces cae águila y 1 − p
cae sol.
Su promedio es p:
E(X) = 1 · p + 0 · (1 − p) = p.
Su varianza es p(1 − p):
V ar(X) = E(X 2 ) − E(X)2 = 12 · P [X = 1] + 02 · P [X = 0] − p2 = p − p2 = p(1 − p).
Su desviación estándar es
p
p(1 − p).
73
8.3.
Distribución Binomial
Si se toman muchas distribuciones de Bernoulli independientes y se suman, se obtiene la
distribución binomial. Por ejemplo, si una moneda tiene p de probabilidad de caer águila y
1 − p de caer sol, se lanza n veces y se cuenta el número de águilas, eso es la distribución
binomial.
Su densidad es
n k
pX (k) =
p (1 − p)n−k .
k
Su distribución cumulativa es la suma de las densidades anteriores.
Su promedio es np por la linealidad de la esperanza, pues definimos las variables aleatorias
Xi que toman el valor 1 cuando en el lugar i hay águila y 0 en los otros casos.
Su varianza es np(1 − p) (por la aditividad de la varianza en variables independientes).
Simulación en PhET Veamos la simulación en PhET.
La distribución normal, también llamada campana de Gauss, aparece en todos lados de
la naturaleza. Básicamente aparece siempre que tenemos una serie de cosas independientes
que contribuyen en algo. Por ejemplo, se ha observado que las alturas de las personas del
mundo están distribuidas aproximadamente con una distribución normal. Esto sugiere que
hay varios factores independientes que contribuyen a la altura de una persona.
La distribución normal es la versión continua de la distribución binomial. En la distribución binomial tomamos el lı́mite cuando n tiende a infinito. Veamos en Phet cómo se ve.
También se le llama curva de Bell o campana de Gauss.
74
8.3 Ejemplo. Consideremos la variable aleatoria cuya densidad está dada por:
1
2
pX (t) = √ e−t .
π
Dibujar su gráfica y determinar su promedio.
Solución.
Su promedio es 0. ♦
La distribución normal N (µ, σ) de promedio µ y desviación estándar σ tiene como función
de densidad:
(t−µ)2
1
pX (t) = √ e− 2σ2 .
σ 2π
La distribución cumulativa simplemente debe definirse como una integral porque no se
puede integrar esa expresión normalmente. La gráfica es la misma campana de antes, simplemente recorrida y/o expandida, de forma que la integral de todo sea 1.
Gráficas de Distribución Normal
75
Otra propiedad muy interesante es la siguiente:
8.4 Ejemplo. Sea N (µ, σ) una distribución normal y supongamos que escogemos un
punto con esa distribución. ¿Cuál es la probabilidad de que quedemos a menos de una
desviación estándar del promedio?
Solución. Simplemente habrı́a que hacer la siguiente integral:
Z µ+σ
N (µ, σ)
µ−σ
Como vimos, eso no se puede resolver ası́ nada más. Pero resulta que esa integral no depende
de µ ni de σ. Siempre da ∼ 0.682689492137086 = 68.2689492137086 %. Igual si tomamos 2,
3, 4,... desviaciones estándar. Las probabilidades son como sigue:
76
P (µ − σ ≤ X ≤ µ + σ) ∼ 68.2 %.
P (µ − 2σ ≤ X ≤ µ + 2σ) ∼ 95.45 %.
P (µ − 3σ ≤ X ≤ µ + 3σ) ∼ 99.73 %.
Cuando hablan de que algo es “estadı́sticamente significativo” lo que significa es que hay
menos de 5 % de probabilidad de que esté mal. Por ejemplo, si en una elección hacen una
encuesta y dicen algo como “el candidato A obtiene el 54.7 % de los votos con un error de
±3 %”, lo que significa es que la probabilidad de que el dato real (es decir, de que la gente
que votará por el candidato A) esté entre 51.7 % y 57.7 % es de 95 %. Es decir, 3 % es 2 veces
la desviación estándar de lo que obtuvo la estadı́stica y 54.7 es el promedio. Básicamente σ
depende del número de personas encuestadas.
8.5 Ejercicio. Supongamos que las alturas de los alumnos de una universidad están
distribuı́das con una distribución normal con media 165 y desviación estándar 8. Determinar
las probabilidades de que una persona mida menos de 160, que mida más de 170 y que mida
entre 150 y 180.
8.4.
Teorema del Lı́mite Central
Supongamos que tenemos un espacio muestral Ω y una variable aleatoria X. Una muestra
de tamaño n es la evaluación repetida de X n veces en elementos de Ω. Esto nos da n números
reales.
Sea Ω = Ωn el el espacio de todas las muestras de tamaño n, donde cada muestra tiene su
probabilidad de ocurrir. Sea X la variable aleatoria que a cada muestra le asocia su promedio.
Por ejemplo, si Ω es el espacio que resulta de lanzar un dado y X es la variable aleatoria
que resulta de tomar el número que salió, entonces el espacio de todas las muestras de tamaño
2, es como lanzar dos dados: {11, 12, 13, 14, 15, 16, 21, 22, 23, 24, . . . , 66} y X será la variable
aleatoria que a 11 le asocia 1, a 12 le asocia 1.5, a 13 le asocia 2, etc. Si no todo tiene la
misma probabilidad, tampoco las muestras tendrán la misma probabilidad.
En general, podemos pensar que X =
idénticas a X, pero independientes.
X1 +X2 +···+Xn
,
n
donde las Xi son todas variables
Ahora analicemos cómo son los parámetros de X con respecto a los de X.
8.6 Proposición. (a) E(X) = E(X), es decir, el promedio de los promedios es el pro-
77
medio original.
V ar(X)
.
n
σ(X)
(c) σ(X) = √ .
n
(b) V ar(X) =
Demostración. (a) Es claro, por la linealidad de la esperanza.
(b)
X1 + X2 + · · · + X n
V ar
n
V ar (X1 + X2 + ... + Xn )
n2
V ar(X1 ) + V ar(X2 ) + · · · + V ar(Xn )
n2
nV ar(X)
n2
V ar(X)
n
V ar(X) =
=
=
=
=
(c) Es claro, por (b). ♦
Enunciamos, sin demostración, el Teorema del Lı́mite Central:
8.7 Teorema. Con las condiciones de arriba, si X tiene varianza finita, entonces
σ(X)
pX ∼ N E(X), σ(X) = N E(X), √
.
n
El teorema dice, además, qué tan rápido converge cuando n tiende a infinito. En la
práctica, si n es mayor a 30 se puede pensar que X tiene distribución normal.
8.8 Nota. Esto es muy impresionante: Dice que no importa qué distribución tenga X,
si se toma una muestra grande y su promedio, entonces la distribución se parece a la normal
y la probabilidad de estar lejos del promedio es pequeña.
8.9 Ejercicio. Supongamos que hay 4 personas cuyas alturas son: 160, 164, 170, 184.
Calcular los promedios de cada dos de ellas (son 6 promedios a calcular) y comparar el
promedio de todos estos promedios con el promedio de las 4 estaturas.
8.10 Ejemplo. Supongamos que tenemos una variable aleatoria X cuyo promedio es
100 y su desviación estándar es de 40. Tomamos una muestra de tamaño 64. ¿Cuál es la
probabilidad de que el promedio de la muestra sea menor a 90?
Solución. Nuestros datos son: E(X) = 100, σ(X) = 40, n = 64 y nos preguntan P [X <
78
90]. Como n = 64 > 30, podemos suponer que X tiene distribución normal. Entonces
E(X) = 100,
40
σ(X)
σ(X) = √ = √ = 5.
n
64
Como (90 − 100)/5 = −2 (es decir, dos desviaciones estándar), por ?? la probabilidad de
que el promedio de la muestra sea menor a 90 es ∼ 5 %. ♦
8.11 Ejercicio. Según un censo, el promedio de edades en México es 40 y la desviación
estándar es de 10. Si tomamos a 100 personas al azar, les preguntamos su edad y tomamos
el promedio de los resultados, ¿cuál es la probabilidad de que el promedio calculado tenga
diferencia mayor que 2 con el real?
8.5.
Otras distribuciones importantes
La distribución de Poisson que tiene la siguiente densidad:
λk −λ
e .
k!
La distribución hipergeométrica, con densidad
K N −k
k
n−k
N
n
.
8.12 Ejercicio. Supongamos que una moneda tiene probabilidad p de caer en águila.
Se lanza hasta obtener la primera águila. Sea X la variable aleatoria que cuenta el número
de soles que salen antes de logra la primera águila. Calcular las funciones de densidad y de
distribución cumulativa. Determinar la esperanza y la varianza de X.
79
9.
Estadı́stica
9.1.
Datos estadı́sticos.
La estadı́stica se utiliza en muchos lugares: ciencia, seguros, clima, comercio, polı́tica,
etc. Por un lado se obtienen datos mediante observación y se analizan de manera apropiada,
organizándolos y resumiéndolos. Por otro lado se busca la forma de inferir la generalidad
a partir de datos parciales; para ello deben escogerse muestras en forma apropiada que
proporcionen un buen nivel de confianza con respecto a la generalidad.
Hay muchos tipos de ilustraciones de datos de tipo estadı́stico; mostramos a continuación
algunos de ellos.
15
1000
8 39
10
800
75
215
600
400
5
150
0
200
0
0 1 2 3 4 5 6 7 8 910
0
2
4
6
8 10 12
La primera gráfica podrı́a representar, por ejemplo, calificaciones de alumnos de un grupo
(7 alumnos obtuvieron 0, 5 alumnos obtuvieron 1, 14 obtuvieron 2, etc.). La segunda gráfica
podrı́a representar que 215 personas de una fábrica llevan menos de 5 años en la empresa, 150
llevan entre 5 y 10 años, 75 llevan entre 10 y 15, etc.). La tercera gráfica podrı́a representar
el promedio de dinero en una cuenta de ahorros a través de los últimos meses (el primer año
podrı́a haber tenido $700, el segundo $400, el tercero $400, etc.).
Las gráficas de barras como la de la izquierda, que representan frecuencias, se llaman histogramas. Notemos también que la última gráfica representa valores absolutos. Para estudiar
la última de manera estadı́stica (como haremos aquı́) habrı́a que transformarla a histograma diciendo cuántas veces se tuvo cada valor. Notemos que esto es justo lo que hacen las
variables aleatorias; en este caso el espacio muestral serı́a {400, 500, 600, 700, 800, 900} y se
tendrı́a X(400) = 4, X(500) = 2, X(600) = 1, X(700) = 2, X(800) = 1 y X(900) = 2. El
histograma y la gráfica de probabilidad serı́an las siguientes.
80
5
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
200
4
3
2
1
0
400 500 600 700 800 900
400
600
800 1000
En tablas estadı́sticas los datos a analizar pueden ser muy variados: sueldos de empleados
de una companı́a, población de ciudades del mundo, alturas de hombres de un paı́s, efectos
de una medicina sobre la presión arterial de un individuo cada minuto después de habérsela
tomado, calificaciones de un examen de admisión a una universidad, número de coches que
llegan cada minuto a una caseta en la carretera, etc. De costumbre, los datos se ponen en un
histograma, por ejemplo número de empleados en cada sueldo, cantidades de alumnos que
obtuvieron cada calificación, etc.).
Dada una gráfica, ya sea histograma o de valores absolutos, uno puede preguntar si es
creciente o decreciente, si es asintótica hacia un cierto valor, etc. También son importantes el
promedio, el valor mayor, el menor, la mediana o percentil 50 (valor que divide a los valores
en dos del mismo tamaño) los cuartiles (o percentiles 25, 50 y 75), valores que dividen a
todos los datos en 4 partes del mismo tamaño (o quintiles, deciles o percentiles).
Al analizar un histograma, hay tres datos importantes qué revisar: la forma, la media
o esperanza y la desviación. En cuanto a la forma, uno puede preguntarse si la gráfica es
simétrica con respecto a la media o si está alargada hacia uno de los lados. En muchos casos,
los datos más importantes son la media, (que denotamos usualmente por µ), y la desviación
estándar (denotada usualmente por σ).
9.1 Ejemplo. Los siguientes histogramas muestran dos posibles calificaciones en grupos
de 70 alumnos. Por ejemplo, en el primero 5 alumnos obtuvieron 0, 15 alumnos obtuvieron
25, etc.
81
35
30
25
20
15
10
5
0
0
35
30
25
20
15
10
5
0
25 50 75 100
0
25 50 75 100
Ambos tienen misma media µ ( 5·0+15·25+30·50+15·57+5·100
= 50 = 4·0+30·25+2·50+30·75+4·100
),
70
70
mediana (50, pues hay el mismo número de personas que sacaron menos de 50 que los que
sacaron más de 50 en ambos casos), primer cuartil (25, pues 70
∼ 17 y en ambos casos hay
4
17 personas que sacaron 25 o menos), tercer cuartil (75), mı́nimo (0) y máximo (100). En lo
que difieren es en la desviación estándar σ. Calculemos explı́citamente éstas. En la primera
la varianza es
X
70
1
(5(0 − 50)2 + 15(25 − 50)2 + 30(50 − 50)2 + 15(75 − 50)2 + 5(100 − 50)2 ) = 625,
70 i=1
de donde σ = 25. En la segunda la varianza es
X
70
1
(4(0 − 50)2 + 30(25 − 50)2 + 2(50 − 50)2 + 30(75 − 50)2 + 4(100 − 50)2 ) ∼ 821,
70 i=1
de donde σ ∼ 28.66. La explicación de esto es que en la primera los valores están más
cercanos a la media.
9.2 Ejercicio. Calcular la media y la mediana del siguiente histograma y observar que
si el eje horizontal fuera un subibaja (sin peso) y las barras tuvieran peso igual a su altura
entonces, poniendo un pivote justo en la media el subibaja quedarı́a equilibrado (pensando
que valores más alejados ejercen la fuerza proporcional a la lejanı́a), mientras que en la mediana simplemente se considerarı́a que hubiera el mismo peso en cada lado (sin considerar
la distancia). Obsérvese también que un solo valor alejado afecta mucho la media pero no
la mediana. Pensar que el histograma representa calificaciones de 7 personas y hacer también una gráfica donde en el eje x estén las personas (numeradas) y en el eje y estén las
calificaciones que obtuvieron; en ese dibujo, marcar la media y la mediana en el eje y.
82
2
1
0
0
1
2
3
4
5
6
7
8
9
10
Los histogramas pueden tener diversas formas y algunas de ellas pueden aproximarse
por curvas suaves que tienen descritas por ciertas fórmulas matemáticas. Veamos algunos
ejemplos:
9.3 Ejemplo. La distribución uniforme se da, por ejemplo, si se lanza un dado 1000
veces y se observa cuántas veces sale cada valor. Mostramos a continuación un histograma
posible de esto y la curva suave que la aproxima.
250
200
150
100
50
0
200
1
2
3
4
5
6
1
2
3
4
5
6
9.4 Ejemplo. Una distribución sesgada a la derecha o con sesgo positivo es como sigue:
y podrı́a representar algo como salarios de personal de una compañı́a.
9.5 Ejemplo. Una distribución exponencial decreciente tiene la forma ilustrada a continuación y puede representar, por ejemplo, la frecuencia con la que un niño se cae después
de haber aprendido a caminar, calculada a lo largo de un año.
83
9.6 Ejemplo. Una distribución gaussiana o normal es la que produce la llamada curva
de Bell y que corresponde a distribuciones como las de tipo binomial. Un histograma de esto
(que representa el número de águilas que salen al lanzar una moneda al aire 10 veces) y la
curva suave que lo resume son:
300
250
200
150
100
50
0
0 1 2 3 4 5 6 7 8 9 10
Este tipo de distribuciones surgen de una gran cantidad de problemas que describen
cuántos objetos se encuentran dentro de una muestra de n (en el caso de la moneda n = 10)
cuando la probabilidad de encontrar cada uno es p (en el caso de las monedas p = 12 ). Dados
n y p se puede encontrar la gráfica y, viceversa, dada una muestra, a partir de ella se puede
calcular p. Estas distribuciones aparecen frecuentemente en problemas tan variados como
la cantidad de objetos defectuosos en una muestra, el efecto de una vacuna, el tiempo de
gestación de un animal, las alturas de hombres dentro de una población, los promedios de
bateo de un grupo de beisbolistas durante un año, etc.
Las distribuciones normales están determinadas por su media µ y su desviación estándar
σ, y están descritas por la fórmula
1 x−µ 2
1
f (x) = √ e− 2 ( σ ) .
σ 2π
84
1
El factor 2π
tiene efecto normalizante: logra que el área bajo la curva sea 1. El punto
máximo de la gráfica se encuentra cuando x = µ; la curva cambia de concavidad exactamante
cuando x está a una desviación de la media: en x = µ − σ y x = µ + σ. El área bajo la
curva en [µ − σ, µ + σ] en cualquier curva de Bell es 68 % del área total y esto quiere decir
que el 68 % de las veces los valores están en esa porción (por ejemplo, si la gráfica representa
frecuencias de alturas de hombres, entonces el 68 % de los hombres tienen la altura dentro
de esos valores de x). De la misma manera, en el intervalo con centro en µ y radio 2σ se
encuentra el 95 % de los valores y a 3 desviaciones estándar de la media se encuentra el
99.7 % de los valores. El número de desviaciones estándar de distancia a la media se llama
z-score (ver ??).
9.7 Ejemplo. Los siguientes histogramas representan el número de águilas que se espera
obtener al lanzar n monedas si la probabilidad de obtener águila es p = 12 . Las alturas de
(n)
las barras en cada x = k son 2kn (de esta manera los histogramas están normalizados, es
decir, las sumas de todas las alturas en cada histograma son 1). Las desviaciones estándar
(en éstos y en los siguientes grupos de histogramas) son
s n
X
n k
p (1 − p)n−k (k − µ)2 ,
σ=
k
k=0
85
n = 20
p = 1/2
μ = 10
σ = 2.24
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
n = 15
p = 1/2
μ = 15/2 = 7.5
σ = 1.94
0
1
2
3
4
5
6
7
8
9
10 11 12 13 14 15
n = 10
p = 1/2
μ = 10/2=5
σ = 1.58
0
1
2
3
4
5
6
7
8
9
10
n=6
p = 1/2
μ = 6/2 = 3
σ = 1.22
0
1
2
3
4
5
6
9.8 Ejercicio. Hacer dibujo del histograma normalizado que representa los valores esperados del número de águilas que salen cuando uno lanza la moneda 8 veces. Calcular la
media y la desviación estándar. Calcular cuántos valores están a distancia de una desviación
estándar de la media, de dos desviaciones estándar de la media y de 3 desviaciones estándar
de la media.
9.9 Ejemplo. Los siguientes histogramas representan el número de águilas que se espera
obtener al lanzar una moneda n = 20 veces si la probabilidad de obtener águila es p.
86
n = 20
p = 1/2
μ = 10
σ = 2.24
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
n = 20
p = 1/4
μ = 20/4=5
σ =1.94
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
n = 20
p = 1/8
μ = 20/8 = 2.5
σ = 1.48
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
9.10 Ejercicio. Hacer un histograma que represente los valores esperados del número de
veces que sale un número menor o igual que 2 cuando se lanza un dado 8 veces. Calcular la
media y la desviación estándar. Calcular cuántos valores están a distancia de una desviación
estándar de la media.
9.11 Nota. Como vimos en ??, los promedios de las muestras se parecen al verdadero
promedio. Sin embargo, esto no ocurre con la varianza, puesto recordemos que la varianza se
tomó asignando un número que reflejara en cierta forma un poco sesgada, qué tan alejados
de la media están los valores. Para obtener una buena aproximación de la varianza real
n
hay que multiplicar la varianza de la muestra de tamaño n por n−1
, es decir, si se toma el
promedio de las varianzas de todas las muestras de tamaño n y ese promedio se multiplica
n
, se obtendrá la varianza total. Ası́, también la desviación estándar real se aproxima
por n−1
p n
multiplicando por n−1
la desviación estándar de a muestra.
9.12 Ejercicio. Con los datos de ??, calcular el promedio de las varianzas de las muestras
de tamaño 2 y comparar con la varianza total. Hacer lo mismo con las desviaciones estándar.
87
9.2.
Correlación
Ya hemos visto que otro tipo de estudio entre variables aleatorias es la correlación: Se
analizan dos o más cosas y se ve si se mueven juntas; por ejemplo, se puede ver si la calificación
que obtienen los alumnos en un examen de admisión a la universidad tiene que ver con su
promedio al finalizar su primer año de estudios. Para esto, pueden ponerse puntos en el plano
cartesiano de manera que la primera coordenada sea la calificación del examen de admisión y
la segunda, la calificación promedio después de un año. En caso de que los puntos formen una
masa con tendencia creciente (como se muestra en el dibujo), se dice que es una correlación
positiva.
10
9
8
7
6
5
5 5.5 6 6.5 7 7.5 8 8.5 9 9.5 10
Más precisamente, se analiza si el que un alumno haya obtenido una calificación en el
examen de admisión a distancia menor que una desviación estándar de la media (de las
calificaciones en el examen de admisión) significa que también su calificación después de un
año está a una distancia menor que una desviación estándar de la media (de los promedios de
calificaciones al finalizar el primer año). Recordemos que la definición formal de correlación
entre dos variables alatorias X y Y definidas en un espacio muestral Ω es
Corr(X, Y ) =
E(XY ) − E(X)E(Y )
.
σ(X)σ(Y )
No es difı́cil comprobar que si E(X) = µX , E(Y ) = µY , Ω = {ω1 , ω2 , . . . , ωn }, y para cada i,
X(ωi ) = xi y Y (ωi ) = yi , entonces
yi −µy
xi −µx
n
X σx
σy
.
Corr(X, Y ) =
n
i=1
x
Observemos que xiσ−µ
mide a cuántas desviaciones estándar de distancia está xi de µx
x
tomando en cuenta el sentido (es decir, es positivo si xi está a la derecha de la media y es
88
x
negativo si está a la izquierda); mientras más se parezcan todos los xiσ−µ
a los respectivos
x
yi −µy
, la suma es mayor (y cercana a 1) y si se parecen en valor absoluto pero difieren en
σy
signo, entonces el valor total es parecido a −1. Entonces, si Corr(X, Y ) ∼ 1, los valores en
el conjunto G = {(xi , yi ) : i = 1, 2, . . . , n} se acercan a una recta con pendiente positiva (por
ejemplo, si X = Y , entonces xi = yi para toda i y la correlación es 1) y se dice que hay
correlación positiva, si Corr(X, Y ) ∼ −1 entonces hay correlación negativa (los valores en
la gráfica están acumulados cerca de una recta con pendiente negativa), y si r ∼ 0 entonces
no hay relación entre las dos variables.
9.13 Nota. Al igual que en ?? la covarianza real y la covarianza promedio de las muestras
no es la misma. Para obtener mejor aproximación de la covarianza real hay que dividir entre
n − 1 en lugar de entre n.
9.14 Ejemplo. La siguiente tabla muestra el cálculo de algunas correlaciones (denotadas
por r). Las a0 s, b0 s, c0 s y e0 s son todas permutaciones de los números del 1 al 19 (por eso la
media en todos es 10 y la desviación estándar es la misma: 5.48). Las a0 s no se escogieron al
azar, ni tampoco las e0 s ni las d0 s pero las b0 s y c0 s, sı́. Las e0 s se escogieron para mostrar que
debe usarse criterio pues la correlación es muy pequeña y, sin embargo, es claro que están
muy relacionados.
89
μ
σ
r
x's
distancia a μ
dist a μ cuadrada
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 10.00
-9 -8 -7 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 8 9
81 64 49 36 25 16 9 4 1 0 1 4 9 16 25 36 49 64 81 30.00 5.48
a's
distancia a μ
dist a μ cuadrada
(x's-μ)(a's-μ)
1
-9
81
81
3
-7
49
56
2
-8
64
56
6
-4
16
24
4
-6
36
30
5
-5
25
20
14
4
16
-12
9
-1
1
2
8
-2
4
2
10
0
0
0
12
2
4
2
7 11 15 13 19 17
-3 1 5 3 9 7
9 1 25 9 81 49
-6 3 20 15 54 49
18
8
64
64
16 10.00
6
36 30.00 5.48
54 27.05
.90
b's
distancia a μ
dist a μ cuadrada
(x's-μ)(b's-μ)
10
0
0
0
16
6
36
-48
1
-9
81
63
5
-5
25
30
3
-7
49
35
13
3
9
-12
6
-4
16
12
7
-3
9
6
8
-2
4
2
14
4
16
0
4
-6
36
-6
15
5
25
10
9 18 19 12
-1 8 9 2
1 64 81 4
-3 32 45 12
11
1
1
7
2
-8
64
-64
17 10.00
7
49 30.00 5.48
63 9.68
.32
c's
c's-media
dist a μ cuadrada
(x's-μ)(c's-μ)
15
5
25
-45
2
-8
64
64
19
9
81
-63
10
0
0
0
6
-4
16
20
13
3
9
-12
12
2
4
-6
14
4
16
-8
18
8
64
-8
9
-1
1
0
4
-6
36
-6
3
-7
49
-14
17
7
49
21
5
-5
25
-20
8
-2
4
-12
7
-3
9
-21
11
1
1
8
16 10.00
6
36 30.00 5.48
54 -4.89
-.16
d's
distancia a μ
dist a μ cuadrada
(x's-μ)(d's-μ)
9
-1
1
9
9 9 9
-1 -1 -1
1 1 1
8 7 6
10
0
0
0
10
0
0
0
10
0
0
0
10
0
0
0
10
0
0
0
11
1
1
0
11
1
1
1
11
1
1
2
11
1
1
3
11 8 8
1 -2 -2
1 4 4
4 -10 -12
12
2
4
14
11
1
1
8
10 10.00
0
0 1.16 1.08
0 2.11
.36
e's
distancia a μ
dist a μ cuadrada
(x's-μ)(e's-μ)
18
8
64
8
17
7
49
7
14
4
16
0
13
3
9
0
12
2
4
0
11
1
1
0
10
0
0
0
9
-1
1
-1
8 7 6 5 4 3 2
-2 -3 -4 -5 -6 -7 -8
4 9 16 25 36 49 64
-2 -3 -4 -5 -24 -28 -32
1
-9
81
-9
19 10.00
9
81 30.00 5.48
0 -4.32
-.14
16
6
36
6
15
5
25
5
1
-9
81
-45
La correlación puede aplicarse como sigue: supongamos que alguien dice que metió 19
bolas numeradas en una urna y que las fue sacando al azar; por ejemplo, podrı́a representar
que tenı́a 19 regalos y que dice que los repartió al azar entre sus amigos, pero al numerar
los regalos en cuanto a qué tan buenos eran y también numerar a los amigos en orden de
amistad, se ve que quedaron como en las a0 s de la tabla en las que la correlación con las x0 s
fue .9; en ese caso se desecha la suposición de que la selección se hizo al azar.
9.15 Ejercicio. Calcular la correlación de los siguientes valores (1, 5), (2, 4), (3, 3) y
(4, 2). Comparar con el promedio de las correlaciones de las muestras de tamaño 3.
9.16 Ejercicio. Calcular la correlación de los siguientes valores (1, 2), (2, 4), (3, 6), (4, 8)
y (5, 10).
90
9.3.
Puntaje Z
El puntaje z (o z-score) mide a cuántas desviaciones estándar está cada dato del promedio,
es decir, si X es una variable aleatoria, su puntaje z es la variable aleatoria definida por:
z(X) =
X − E[X]
.
σ(X)
Enunciamos el siguiente teorema sin demostración.
9.17 Teorema. Teorema de Chebyshev Para todo conjunto de datos, por lo menos
una proporción de 1 − k12 de los datos caen a k desviaciones estándar del promedio. Es decir,
su puntaje z (en valor absoluto) es de k o menos.
Por ejemplo, por lo menos 3/4 = 75 % de los datos deben estar a 2 o menos desviaciones estándar del promedio. Esto es muy importante en general aunque, en distribuciones
particulares, como en las normales, se sabe más (ver ??).
91
10.
10.1.
Aplicaciones
Inferencia estadı́stica.
Nuestra mente tiende a establecer relaciones y vı́nculos entre los eventos. Desgraciadamente, como ya vimos en ??, muchas veces se deduce causalidad en forma errónea. Nuestra
formación académica y la comprensión correcta de la estadı́stica nos pueden ayudar a superar
esta tendencia y a evaluar en forma más objetiva los sucesos.
Al dar los conceptos básicos de Probabilidad hemos estudiado ya diversos parámetros
asociados a los datos de una población (a variables aleatorias definidas en espacios muestrales) como son: el promedio (o esperanza), la mediana, la varianza, la desviación estándar,
etc. Estos mismos valores se llaman estadı́sticas cuando se asocian a datos de una muestra
en Estadı́stica. La Estadı́stica pretende deducir datos generales a partir de datos obtenidos
a partir de muestras. La forma en que se eligen las muestras y cómo se analizan los datos
son la base de su estudio.
La inferencia estadı́stica consiste en concluir datos generales a partir de muestras aleatorias. Su estrategia consiste en hacer una conjetura y, si se espera un cierto resultado pero
la muestra analizada se aleja mucho de ese resultado, entonces debe desecharse la conjetura.
Un ejemplo de esto es que si se tiene una moneda que se supone está equilibrada pero al
lanzarla 100 veces resulta que 80 de ellas muestra águila, entonces se descarta la conjetura de
que era equilibrada. En lo que sigue estudiaremos también el significado de “poco probable”.
Al escoger una muestra para poder inferir datos sobre la generalidad, se debe buscar que
la muestra tenga las mismas caracterı́sticas que la población general, lo cual se logra mejor
con el azar.
10.1 Ejemplo. En 1936 se hizo una encuesta sobre votación para presidente de Estados
Unidos en el que contendı́an Roosevelt y Landon. La muestra fue enorme y conjeturó que
Landon obtendrı́a 370 votos electorales contra 161 de Roosevelt; sin embargo el resultado
fue que Landon obtuvo 8 votos electorales mientras que Roosevelt obtuvo 523. El error
fue que la encuesta se hizo entre suscriptores de una revista (“Literary Digest”), la cual
habı́a predicho correctamente otras votaciones pero cuyos suscriptores tenı́an una tendencia
polı́tica especial. A partir de ese error las compañı́as que hacen ese tipo de encuestas son
más cuidadosas en seleccionar la muestra de manera más aleatoria.
10.2 Ejemplo. Se hizo una encuesta radiofónica preguntando si el tener hijos fortalecı́a
la relación de una pareja o no; 50 000 que tenı́an hijos llamaron por teléfono y el 70 % respondieron a la encuesta diciendo que no los tendrı́an si empezaran de nuevo; inmediatamente se
hizo otra encuesta de otra manera y resultó que 91 % de las parejas volverı́an a tener hijos
si empezaran otra vez; el defecto en la primera encuesta fue que la respuesta era voluntaria.
92
Las encuestas que se lanzan a través de Internet, radio, televisión, etc. no son confiables, por
esta razón.
Otro punto a considerar al hacer una encuesta es buscar que la gente diga la verdad; por
ejemplo, es absurdo, en un salón de clase, pedir que los alumnos que hicieron trampa en el
examen pasado levanten la mano. Sin embargo, la estadı́stica nos proporciona un método
interesante para descubrir la respuesta correcta:
10.3 Ejemplo. Supongamos que se le dice a un grupo de 1000 alumnos de una escuela
que cada uno lance una moneda y que levante la mano ya sea si su moneda mostró aguila, o
si hizo trampa en el examen. Supongamos entonces que 800 levantaron la mano; con sólo la
cuestión de la moneda, se esperaba que levantaran la mano 500, ası́ que hubo un excedente
de 300; esto quiere decir que 300 de los 500 que se esperaba tuvieran sol levantaron la mano,
lo cual hace una proporción de 53 , es decir que alrededor del 60 % de los alumnos hizo trampa.
Para analizar qué tan lejos se está del 60 % hay que estudiar la curva binomial con n = 1000
y p = 21 , la cual tiene una desviación estándar de 20 aproximadamente, ası́ que dentro del
rango [460, 540] (a 2 desviaciones estándar de la media) se encuentra el 95 %. Suponiendo
que 540 obtuvieron sol, se tendrı́a que 800 − 540 = 260, levantaron la mano a pesar de tener
sol, lo que significa que habrı́a 260 tramposos dentro de los 460 que obtuvieron águila, es
260
, que es un 57 %. El resultado pensando que 460
decir, la proporción de tramposos serı́a 460
tuvieron sol nos darı́a que 63 % son los tramposos. Entonces se dice que, con confianza del
95 %, hubo entre 570 y 630 tramposos. Después haremos más ejemplos sobre el rango de
confianza y de error (en este caso, 95 % y 3 %, respectivamente).
Finalmente, en una encuesta hay que vigilar cómo se hace la pregunta pues la respuesta
puede estar inducida; la pregunta debe ser muy clara (sin prestarse a diferentes interpretaciones) y explı́cita (por ejemplo, una pregunta como: ¿votarı́as por el presidente A que va a
subir los impuestos? es tendenciosa y sus resultados no serı́an confiables).
Un método usado dentro de la inferencia estadı́stica se llama prueba de hipótesis. Consiste
en hacer una conjetura contraria a lo que se desea probar, llamada hipótesis nula, y analizar,
bajo esa suposición, qué tan probable es estar fuera de un rango establecido de error. Por
ejemplo, se tiene un acusado de un cierto delito; se hace la conjetura de que es inocente, y se
analiza, bajo la suposición de inocencia, si los datos que se tienen dicen que es poco probable
que sea inocente. La base de la inferencia estadı́stica es usar probabilidad para determinar
qué tan confiable es una afirmación hecha y qué margen de error hay en ella. (Desde luego,
en el caso de juzgar a alguien de un delito, los datos difı́cilmente pueden ponerse en números.
Otro error común es tranformar todo a números y basar juicios en esos números, sin ejercer
criterio).
10.4 Ejemplo. Veamos cómo se aplicarı́a la prueba de hipótesis para ver si una determinada moneda es equilibrada; nuestra hipótesis nula, en este caso, serı́a que no lo es y,
analizando la gráfica de probabilidades en cuanto a que la moneda caiga águila si se la lanza
93
100 veces, vemos que la inmensa mayorı́a de las veces el resultado de lanzar la moneda 100
veces resulta en que se ve águila entre 40 y 60 veces; entonces, de manera arbitraria, antes
de lanzar la moneda, establecemos nuestro rango de confianza como [40, 60]; si la moneda
cayera águila dentro de este rango, entonces descartarı́amos nuestra suposición de que la
moneda era desequilibrada.
10.5 Nota. Es importante fijar de antemano el rango de confianza (y no establecerlo
después de hecho el experimento). De costumbre y, de manera arbitraria, se establece el
rango en el que se descartará la conjetura, como de 5 %; a la probabilidad de estar en un
valor tan o más extremo que el rango fijado se le llama valor p.
10.6 Ejemplo. Supongamos que se quiere ver si una determinada medicina cura cierta
enfermedad. Supongamos también que sabemos que 40 % de la gente que tiene esa enfermedad se cura espontáneamente después de una semana. Entonces hacemos la hipótesis nula
de que la medicina no funciona y consideramos la gráfica de probabilidades de una muestra
de 100 personas que sep
curarı́an espontáneamente.
Tenemos una curva de Bell, con media .4
√
y desviación estándar .4(1 − .4) = .24 ∼ .5, por ser de Bernoulli, según se vio en ??).
Establecemos nuestro rango permitido como de 5 %. Si le damos la medicina a 100 personas
y resulta que 51 se curan en una semana, calculamos la probabilidad de estar alejados de la
media en 11 o más (es decir, en el rango [0, 29] ∪ [51, 100]) y vemos que es 3.2 %, lo cual es
menor que el 5 % que habı́amos fijado, ası́ que rechazamos la conjetura; entonces decimos que
la medicina sı́ funciona con un valor p de 3.2 %. (En el dibujo el área sombreada representa
el 5 % del total del área bajo la curva, a 2 desviaciones estándar de distancia de la media.)
10.7 Nota. Hay que tener cuidado en cómo se aplica la prueba de hipótesis; en los
ejemplos que vimos, conocemos la media y la desviación estándar; sin embargo, si por ejemplo
se asegura que la ingesta calórica diaria promedio de un hombre es 2400 y queremos ver si
esto es cierto y tomamos una muestra de 20 personas y todas ingieren 2500 calorı́as, no
sabremos si 100 de diferencia es mucho o no; esto dependerı́a de si los valores promedio
estuvieran muy dispersos o no.
Ahora veamos qué tan confiable puede ser nuestra evaluación de una muestra y qué tan
94
cerca de la verdad obtenemos la información a través de la muestra.
10.8 Ejemplo. Supongamos que va a haber una elección entre dos candidatos. Debemos
suponer las condiciones ideales de que la muestra fue escogida aleatoriamente, que todas las
personas a las que se les preguntó contestaron, que dijeron la verdad y que toda la población
vota. Digamos que la muestra consta de n personas y que, de toda la población, 60 % está
a favor de A. Bajo esta suposición, consideremos las distintas gráficas de densidad para
n = 10, 100, 1000.
Notemos que, de 10 personas, no es raro que 4 contesten que están a favor de A, sólo los
valores de 0, 1, 9 y 10 representan menos del 5 % de la probabilidad total, mientras que si
n = 1000, es muy raro obtener respuestas menores que 550 o mayores que 650.
Normalmente uno trabaja al revés pues no sabe cuántas personas están a favor de A
y sólo tiene la información de la muestra. Entonces digamos que de 1000 personas, 590
respondieron que estaban a favor de A. Uno hace varias hipótesis diciendo que un cierto
porcentaje p de toda la población está a favor de A y se pregunta entonces: siendo p el
porcentaje de gente a favor de A, ¿cuál es la probabilidad de haber obtenido 590 respuestas
favorables de 1000? Entonces se mueve la curva como la tercera de la figura con centro p
(normalizando p a que represente porcentaje) y se fija para qué valores de p, 590 queda
dentro de un rango permitido, digamos, con probabilidad de 95 %; por ejemplo, se puede
obtener que p ∈ [560, 620]. En este caso se dice que la gente está a favor del candidato A un
59 % con margen de error de 3 % (pues 56 = 59 − 3 y 62 = 59 + 3) y confianza de 95 % (de
costumbre se sobrentiende lo de confianza de 95 % y no se dice).
95
10.9 Ejemplo. Ahora bien, supongamos que va a haber una votación para presidente
del paı́s y que necesitamos estar confiados en un 99.7 % con un margen de error de 2 %. ¿De
qué tamaño deberı́amos escoger la muestra?
Solución. Sabemos que en una distribución gaussiana el 99.7 % del área total bajo la curva
se encuentra a menos de 3 desviaciones estándar de la media, ası́ que queremos encontrar σ.
Supongamos que el número total de personas en la población es N y que p es la proporción
de gente que está a favor de A. Notemos que p lo podemos obtener como la media de un
histograma muy simple en el que se pone una barra de longitud N p sobre 1 y una barra de
longitud N (1 − p) sobre el 0.
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0
1
Tenemos una distribución de Bernoulli y recordemos que, como la media es p, tenemos
que
N p(1 − p)2 + N (1 − p)(0 − p)2
σ2 =
= p(1 − p),
N
p
de donde σ = p(1 − p) (ver ??). Queremos que 3σ sea menor que 2 %. El teorema del
lı́mite central afirma que si se tiene una distribución normal, para cierta n grande se toman
96
todas las muestras de tamaño n y para cada una de ellas se toma la media, entonces la
nueva distribución de densidad también será normal y su desviación estándar será √1n de la
desviación estándar original. Entonces buscamos encontrar el menor n tal que
p
p(1 − p)
√
3
≤ .02,
n
pero sabemos que p(1 − p) ≤ (1/2)2 = 1/4 (pues el producto de dos números con suma
constante es máximo cuando los números son iguales), ası́ que
r
1
2
3
≤
,
4n
100
de donde n ≥ 5225. ♦
10.10 Nota. En el ejemplo anterior observamos que el tamaño de la muestra no depende
del tamaño de la población; es como cuando queremos saber si a una sopa le falta sal: basta
con una cucharadita como muestra, independientemente de si el volumen de la sopa es un
litro, dos litros o lo que sea.
10.2.
Resumen de intervalos de confianza
Hemos visto ya varios ejemplos en los que han aparecido intervalos de confianza. Vamos
a resumir lo visto.
Supongamos que tenemos una muestra X de tamaño n > 30 de una variable aleatoria X.
Por el teorema del lı́mite central, su función de densidad PX es muy parecida a la distribución
√ . Supongamos que queremos un
normal con media µ = E(X) y desviación estándar σ(X)
n
margen de confianza c. El margen de error ε dependerá de la muestra y de c. Si n crece, ε
disminuye. Por otro lado, si c crece, ε crece.
Definimos zc como el puntaje z (positivo) para el cual hay exactamente probabilidad c
que la distribución normal caiga entre −zc y zc .
Para encontrar los zc simplemente hay que hacer búsqueda en las tablas. Aquı́ está la
tabla para los valores más comunes:
c
zc
.8
.9
.95
.99
1.28 1.64 1.96 2.575
97
Entonces el margen de error ε es:
s
ε = zc σ(X) ∼ zc √
n
10.11 Ejemplo. Supongamos que preguntamos a 100 personas su estatura, que calculamos el promedio de sus respuestas y es de 160 cm y que la desviación estándar de la muestra
es de 15 cm. ¿Cuál es el intervalo de confianza del promedio si se desea un nivel de confianza
de 95 %?
Solución. Hay que encontrar ε:
15
s
= 2.94.
ε = zc √ = 1.96 · √
n
100
Ası́, el intervalo es (157.06, 162.94). En otras palabras, hay 95 % de probabilidad de que el
promedio real de las estaturas esté en ese intervalo. ♦
10.12 Ejemplo. Supongamos que hacemos una encuesta para ver cuántos mexicanos
están de acuerdo con que se legalice la marihuana. Tomamos una muestra de 901 mexicanos
y, de ellos, el 60 % está de acuerdo con que se legalice. Si se desea un nivel de confianza de
95 %, ¿cuál es el intervalo de confianza?
Solución. Es casi el mismo problema que antes, salvo que aparentemente no tenemos la
desviación estándar. Pero sı́ la tenemos: es la distribución de Bernoulli. Ası́,
q
p
(.6)(.4) 901
900
√
∼ .03.
ε ∼ 1.96
901
El error será de 3 puntos porcentuales y el intervalo de confianza (57 %, 63 %). ♦
10.13 Ejercicio. Supongamos que cierta persona afirma que puede distinguir entre dos
refrescos que tienen el mismo aspecto. Se le va a dar a probar 20 veces cada par de refrescos
y se le preguntará cuál es cada uno. Hacer una hipótesis nula con rango de confianza del 5 %
y calcular con cuántas respuestas correctas se descartarı́a la hipótesis nula.
10.14 Nota. Dentro de la inferencia estadı́stica hay dos tipos de errores; un error del
tipo 1 es cuando se rechaza la hipótesis nula a pesar de ser cierta (porque el azar dio un
resultado dentro de 5 %); un error del tipo 2 es que no se rechace la hipótesis nula a pesar de
que sı́ sea falsa, es decir, la realidad es distinta de la hipótesis. En el sistema jurı́dico debe
hacerse la suposición de inocencia (y entonces la hipótesis nula es que es culpable) tratando
de evitar un error del tipo 1.
98
10.3.
Evitar errores de interpretación de datos
A veces hay muchas variables; en ese caso deben fijarse todas salvo una para ver el
efecto de ésa; por ejemplo, para ver las mejores condiciones de crecimiento de maı́z bajo un
fertilizante, hay que usar la misma tierra, la misma agua, el mismo sol, etc.
10.15 Ejemplo. Al probar el efecto de una medicina debe darse a la mitad de la gente
dentro de un grupo un placebo (es decir, algo que parece medicina pero que no lo es) y
a la otra mitad debe dársele la medicina. Ninguno de los dos grupos debe saber qué se le
está dando. Además, las personas que hacen la entrevista al final del experimento a los que
tomaron la medicina o el placebo tampoco deben saber qué tomó la persona entrevistada
para evitar que su propio juicio sobre la respuesta sea parcial. Este tipo de estudio se llama
doble ciego.
En lo que sigue veremos algunos errores al aplicar la estadı́stica de manera superficial.
10.16 Nota. En un experimento puede haber variables ocultas; son las que afectan
el experimento pero que no se tomaron en cuenta; por ejemplo, es común que se diga que
hablarle a las plantas mejora su crecimiento y que se hagan “pruebas” de esto pero sin tomar
en cuenta que las personas que hablan a las plantas probablemente también las cuidan más.
Otro ejemplo es afirmar que la gente que lleva 20 años casada tiene mejor salario sin tomar
en cuenta la edad.
10.17 Ejemplo. A raı́z de los ataques a las torres gemelas de Nueva York el 11 de
septiembre de 2001, mucha gente reportó haber tenido sueños muy vı́vidos acerca de explosiones, los cuales incluso habı́an descrito a amigos suyos, antes de los ataques. ¿Se puede
decir con esto que esas personas tienen poderes sı́quicos? Sin negar o estar a favor de estas
ideas, la respuesta es no. Hay miles de millones de personas en el mundo y cada persona
sueña muchas veces durante una noche. Con esto es mucho más que suficiente para que todos
los dı́as muchas personas sueñen con explosiones vı́vidamente. Cuando no pasa nada, esos
sueños se olvidan, pero cuando pasa algo, entonces nos llama la atención y pensamos que
tuvimos una premonición.
10.18 Ejemplo. Muchas veces oı́mos a alguien decir que le dio gripa porque un par de
dı́as antes sufrió un cambio de temperatura. Como hemos dicho anteriormente, para comprobar una afirmación de este tipo debe hacerse primero la conjetura y después hacer las
pruebas, es decir, no es correcto que cuando tenemos gripa hagamos memoria de si nos enfriamos o no unos dı́as antes; un estudio estadı́stico correcto debe ser al revés: hacer un apunte de
cada vez que nos enfriamos y, de manera totalmente independiente, anotar cuando nos enfermamos; después, con los dos datos juntos, estudiar la correlación. (Existen muchos estudios
en cuanto a los mitos sobre la gripa; ver, por ejemplo, http://www.commoncold.org/.)
10.19 Ejemplo. En un juicio de un criminal que huyó por la noche en un taxi hubo un
99
testigo que afirmó que el taxi en el que habı́a huı́do era azul; justo el mismo color del taxi del
acusado. Habı́a duda de si se le creı́a o no porque era de noche. El fiscal dijo entonces que
se le habı́a hecho una prueba al testigo de distinguir un taxi en las mismas condiciones que
las de la noche del crimen; que se le habı́a repetido 100 veces y que el 80 % de las ocasiones
habı́a dicho el color correcto; que eso era indicación de que debı́a creérsele (con certeza de
un 80 %). Sin embargo, el abogado defensor dijo que la ciudad tenı́a 100 taxis, de los cuales
90 eran verdes y sólo 10 eran azules, ası́ que cuando al testigo se le mostró taxi verde, pudo
haber dicho verde 72 veces contra 18 que habrı́a dicho azul, y al presentársele con un taxi
azul, pudo haber dicho verde 2 veces y azul 8 veces; ası́ habrı́a acertado el 80 % de las veces;
sin embargo, sólo 8 de las 26 veces que dijo azul, efectivamente se trataba de un taxi azul,
8
∼ 31 %; entonces el abogado defensor dijo que probablemente el
lo que representaba un 26
testigo se habı́a equivocado de color. ¿Quién tiene razón?
Solución. El abogado defensor está en lo correcto. La explicación matemática nos la da
el Teorema de Bayes (segunda versión). Sea Ω el conjunto de los taxis de esa ciudad. Sea S1
el conjunto de los taxis azules y sea S2 el de los taxis verdes. Sea U el suceso que consta de
los taxis que el testigo declara como azules. Queremos determinar la probabilidad de que el
taxi sea azul dado que el testigo lo vio azul, es decir, P (S1 |U ). Entonces
P (S1 |U ) =
(.8)(.1)
8
P (U |S1 )P (S1 )
=
= .♦
P (U |S1 )P (S1 ) + P (U |S2 )P (S2 )
(.8)(.1) + (.2)(.9)
26
10.20 Ejercicio. ¿Qué tan confiable habrı́a sido el testigo si se supiera que el número
de taxis verdes era de 10 y el de azules de 90?
10.21 Ejemplo. En un juicio se acusa a S de haber matado a su esposa. Habı́a suficiente
evidencia de que la habı́a golpeado con anterioridad. El defensor argumenta que sólo uno de
cada 1000 hombres que golpean a su esposa terminan por matarla, ası́ que la probabilidad
1
. ¿Hay error en ese razonamiento?
de que la haya matado es 1000
1
Solución. Sı́ hay error. Hay que comparar esa estadı́stica de 1000
con el resto de la población, es decir, cuántos hombres que no golpean a la esposa terminan por matarla. Además,
el hecho es que ya está muerta también es importante; es decir, no es válido decir que algo
que pasó (sin previsión de análisis de esa ocurrencia) era poco probable, y con ello sacar
una conclusión; por ejemplo puede ser que yo escriba una sucesión cualquiera de 5 letras y
resulte que es una palabra en algún idioma desconocido por mı́; es absurdo que alguien la lea
1 5
y diga que la probabilidad de que yo hubiera escrito esa palabra precisamente era de 27
y, como esto es muy raro, probablemente yo conocı́a la palabra (tal vez en otra vida). ♦
10.22 Ejemplo. Supongamos que en un crimen se descubre que una muestra de sangre
pertenece al criminal y que, al analizar el ADN y buscar registros policiales, resulta que el
ADN de una cierta persona coincide en las caracterı́sticas con el ADN encontrado, de manera
que sólo 1 de cada millón de personas tiene esa coincidencia. ¿Es entonces muy probable que
100
la persona haya cometido el crimen?
Solución. Una vez más, serı́a una afirmación altamente aventurada, por ejemplo, si consideramos que dentro de un paı́s de 100 millones de personas se esperarı́a que 100 que tuvieran
esas mismas caracterı́sticas de ADN. Desde luego, como en todo lo que hemos dicho, hay que
usar la información con cuidado y, por ejemplo, si se tiene algún otro dato como que se vio
a esa persona entrar al lugar del crimen un rato antes de la comisión del crimen, entonces sı́
serı́a una evidencia extremadamente fuerte la del ADN. ♦
del tipo de cosas que deben o no hacerse al usar los datos estadı́sticos y cómo la estadı́stica
nos puede ayudar en evaluaciones. Empezaremos con un ejemplo común que ofrece muchas
posibilidades de evaluación.
10.23 Ejemplo. Consideremos los datos de la Liga de Beisbol Americana y supongamos
que queremos ver quién ha sido el mejor beisbolista de todos los tiempos. En primer lugar
hay que decidir qué cualidad se trata de analizar. Digamos que se busca el mejor promedio de
bateo (en el que se descartan las bondades del “pitcher”). La estadı́stica de bateo cuenta qué
proporción de las veces que un bateador tiene su turno para batear logra hacer un “hit”, es
decir, gracias a cómo bateó la bola, él logra correr a la primera base antes de que un jugador
del otro equipo lo toque con la misma bola que él bateó); se dice entonces que el jugador tiene
un porcentaje de .32 si el 32 % de las ocasiones que estuvo como bateador, logró hacer un hit.
La primera pregunta es durante cuánto tiempo debe considerarse ese promedio. Resultarı́a
absurdo considerar toda la vida de un jugador, puesto que puede haber empezado muy joven
o haberse retirado ya cuando habı́a decaı́do; entonces podemos decir que se considera sólo
un año; por otro lado, también es absurdo que entre en competencia alguien que sólo tuvo
una oportunidad de batear; entonces digamos que se pide que al menos haya estado como
bateador 80 veces en la temporada. Si uno hace ese análisis y sólo dice los años de los mejores
resultados, en orden, la lista es: 1901, 1924, 1922, 1911, 1912, 1911, 1920, 1941, 1925, 1923,
1922, 1930, 1922, 1939, 1929, 1927, 1921, 1912, 1994, 1921. Como puede apreciarse, en esta
lista de los mejores 20, todos salvo uno son anteriores a 1941. ¿Qué se puede inferir de esto?,
¿qué antes los bateadores eran mejores? Esto es absurdo, ası́ que vemos que hay que proceder
de otra manera en la evaluación. Resulta entonces más lógico comparar a cada bateador con
los de su propio año. Veamos cómo puede hacerse esto. Se tiene, por ejemplo que en 1920 los
10 mejores porcentajes de bateo fueron .4, .39, .39, .38, .37, .37, .36, .36, .35, .35, mientras
que en el año 2000 los 10 mejores porcentajes fueron: .37, .37, .36, .36, .36, .35, .35, .35,
.34, .34; se ve además que la desviación estándar en 1920 fue mucho mayor que en 2000, es
decir, en 2000 los bateadores tienen todos un promedio más cercano a la media. Se considera
entonces a cuántas desviaciones estándar de distancia de la media está cada bateador, es
decir, el z-score o puntaje z; de esta manera, en 1920, un bateador con promedio de .38 tiene
un z-score de 2.3 sobre la media y ese mismo z-score lo tiene un bateador con promedio de
101
.36 en 2000; se considera que dos bateadores ası́ tienen la misma calidad.
Otro punto que podrı́a considerarse también es si con su bateo el bateador no sólo llega a
primera base sino que llega a segunda, tercera o da la vuelta completa. En este último caso
se da un factor a cada bateo: se multiplica por 1 si el bateador llega a primera, por 2 si llega
a segunda, etc. Esto nos da una nueva clasificación de los bateadores.
10.24 Ejemplo. A continuación se presentan dos listas de 00 s y 10 s. Una de ellas fue
hecha al azar (por computadora) y la otra fue hecha por una persona, tratando que fuera
aleatoria. ¿Cuál es cuál?
1100001110110100100111001011000111000000,
0100111010011100011011101001101001101000.
Solución. La primera fue hecha por computadora. Lo interesante de esto es que la primera
tiene “rachas” de repetición y la segunda no. De hecho, si lanzamos una moneda al aire 11
veces, es más probable que en algún momento haya por lo menos 4 águilas o 4 soles seguidos,
a que no los haya (ası́ que, si la lanzamos más veces, es todavı́a más probable y también es
más probable que aparecezcan cadenas más largas de repetición). Para ver esto observemos
que una sucesión de águilas y soles de longitud 11 que empiece con águila está determinada
por una suma a1 + a2 + · · · + ak = 11, donde a1 es el número de águilas al principio, a2
es el número de soles a continuación, etc. Entonces, el número de sucesiones que no tienen
una repetición de al menos 4 águilas o 4 soles y que empiezan con águila es el tamaño del
siguiente conjunto:
H = {(a1 , a2 , . . . , ak ) : k = 1, 2, . . . , 11; a1 + a2 + · · · + ak = 11; ∀ i, 1 ≤ ai ≤ 3}.
11
(el 2
En consecuencia, la probabilidad de que haya 4 o más águilas o soles seguidos es 2 2−2|H|
11
que multiplica |H| aparece considerando que una sucesión puede empezar con sol también).
Calculemos el tamaño de H según las posibilidades para k:
∗ k = 11. Todas las ai son 1 y hay una posibilidad que escribimos, por conveniencia de
acuerdo a lo que sigue, como 10
.
10
∗ k = 10. Exactamente una ai es 2 y las demás son 1, por tanto hay 10 posibilidades:
.
10
1
∗ k = 9. Aquı́, y en lo que sigue, observemos que cada sucesión (a1 , a2 , . . . , ak ) se puede
representar poniendo 11 rayitas − y escogiendo k − 1 de los 10 espacios que hay entre las
rayitas para poner un separador |; entonces a1 será el número de rayitas que hay antes (a
la izquierda) del primer separador, a2 será el número de rayitas que hay entre el primer
separador y el segundo, etc. (Por ejemplo, la sucesión (1, 3, 1, 1, 2, 3) está representada por:
−| − − − | − | − | − −| − − − .)
Entonces, para k = 9, las posibilidades son 10
y observamos que ninguna ai puede ser
8
mayor o igual que 4, pues las otras 8 deberı́an ser naturales con suma 7.
∗ k = 8. Como arriba, el número de posibilidades es 10
, salvo que aquı́ alguna de las ai
7
102
podrı́a ser 4 y podrı́a
estar en cualquiera de los 8 lugares. En total el número de posibilidades
10
en este caso es 7 − 8.
∗ k = 7. Como antes, el número de posibilidades es 10
y hay que restar cuando hay un
6
4; en este caso los otros 6 naturales sumarı́an 7, ası́ que uno tendrı́a que ser 2 y los otros 1;
eso nos dice que tenemos que restar 7 · 6 (la elección de los lugares para el 4 y el 2); también
podrı́a haber un 5 (y entonces los demás naturales
serı́an 1), lo cual nos da 7 posibilidades.
10
En total las posibilidades en este caso son 6 − 49.
10
∗
k
=
6.
Procediendo
como
arriba,
tenemos
que
hay
posibilidades; pero con un 4 hay
5
6
6 4 = 90 (pues hay 6 lugares para poner el 4 y los otros 5 números sumarı́an 7, ası́ que el
razonamiento es el mismo de separadores que hemos venido usando); con un 5 hay 6 × 5 = 30
(pues uno de los númerosrestantes serı́a un 2 y los otros serı́an 1); con un 6 habrı́a 6. En
total en este caso hay: 10
− 90 − 30 − 6 = 10
− 126.
5
5
∗ k = 5. Aquı́ nos conviene más contarlos directamente (pues ya podrı́a haber dos 40 s) y
suponer que a1 ≤ a2 ≤ a3 ≤ a4 ≤ a5 (y después multiplicar por lo necesario para revolverlos).
Vemos que si los dos primeros son 1, entonces los otros tres suman 9, ası́ que sólo hay
una
5
posibilidad (con los ai ≤ 3): la sucesión (1, 1, 3, 3, 3) y sus permutaciones que son 2 = 10;
si los primeros son 1, 2, 2, entonces los otros dos deben
sumar 6 y la única posibilidad es
5 3
(1, 2, 2, 3, 3) que, con sus permutaciones, nos da 2 2 = 30 posibilidades. Si a1 = 2, entonces
la única sucesión es (2, 2, 2, 2, 3) que tiene 5 permutaciones. En total son 45 sucesiones.
∗ k = 4. Lo hacemos como el caso anterior, contando las sucesiones (a1 , a2 , a3 , a4 ) con
a1 ≤ a2 ≤ a3 ≤ a4 . En este caso no puede haber ningún 1 pues los otros 3 números sumarı́an
10, lo que implicarı́a que alguno de ellos es 4 (o más). Entonces la única posibilidad es
(2, 3, 3, 3), y el número de posibilidades es 4.
∗ k ≤ 3. Estos casos ya no aumentan la cuenta pues alguno de los ai forzosamente es
mayor o igual que 4.
El total de sucesiones de longitud 11 que tienen 4 o más águilas o soles seguidos es:
211 − 2 10
+ 10
+ 10
+ 10
− 8 + 10
− 49 + 10
− 26 + 45 + 4
10
9
8
7
6
5
= 211 − 2 210 −
10
4
−
10
3
−
10
2
−
10
1
−
10
0
− 134
= 2(210 + 120 + 45 + 10 + 1 + 134) = 1040.
La probabilidad de que haya 4 o más águilas o soles seguidos es
1040
2048
> 12 .
10.25 Ejemplo. Cuando se tienen muchos datos acerca de algo, es necesario organizarlos, describirlos y resumirlos. Por ejemplo, si se quiere describir qué afecta al determinar
el precio de una casa, hay varios factores a considerar: el número de metros cuadrados de
terreno, el número de metros cuadrados de construcción, el número de recámaras, la localización, la antigüedad, el tipo de construcción, etc. Sin embargo, muchos de estos datos
pueden estar relacionados, es decir, tener correlación, digamos, positiva (como pueden ser el
103
número de metros cuadrados de construcción y el número de recámaras). La idea es tratar
de no repetir al dar una fórmula para dar el precio. Para empezar, se puede pensar que cada
metro cuadrado de construcción aumenta una constante el valor de la casa. Sin embargo
estos valores no son precisos, es decir, una casa puede valer más o menos que la fórmula que
se tuviera; podrı́a observarse, por ejemplo, que el 70 % del valor de la casa depende sólo del
número de metros construidos. Se hace entonces un análisis de varianza, es decir, se hace
una hipótesis nula de que ninguna de las variables afecta la respuesta y, si el valor p es menor
que .05, se tiene que alguna de las otras variables debe ser explicatoria. Finalmente podrı́a
tenerse una fórmula del estilo:
P = 190c + 10t − 25d − 24r + 65,
en la que 1000P es el valor de la casa, c es el número de metros cuadrados construidos, t es
el número de metros cuadrados del terreno, d es la distancia al centro de la ciudad, r es el
número de recámaras (que aparece con signo negativo por lo que explicamos al principio de
su relación con c y, en caso de que r sea grande es porque las recámaras son más pequeñas
y eso es una indicación de menos lujo). Con esta nueva fórmula ya se tendrı́a, por ejemplo,
que 78 % del valor de la casa está explicada por las variables c, t, d y r.
10.26 Nota. Como vimos en el ejemplo anterior, cuando se va a hacer una evaluación
de algo, por ejemplo mediante una encuesta, hay que tener en consideración las repeticiones.
En muchas ocasiones hemos resuelto encuestas, por ejemplo, sobre evaluación de personas o
de algún servicio, en las que los datos importantes no se preguntan y, sin embargo, hay otros
datos que tienen implı́cita la respuesta de otros. Tal vez una encuesta con muchas preguntas,
incluso repetitivas, no sea mala; lo que puede ser muy malo es la forma de analizar los datos.
Como hemos visto, la estadı́stica puede ser muy útil, pero también se presta a que se
use de manera inadecuada. Muchos datos estadı́sticos no pueden dar una respuesta absoluta
porque, como hemos dicho, pueden tener una o varias variables ocultas. En muchas ocasiones
se trata de usar el promedio sin hacer un análisis de su significado. Un ejemplo chusco serı́a
decir que la persona promedio tiene un ovario y un testı́culo (la variable oculta serı́a no
distinguir el sexo de las personas). Damos a continuación algunos ejemplos de mal uso de la
estadı́stica.
10.27 Ejemplo. Un anuncio de una escuela dice que los egresados de ella en promedio
ganan más dinero que el resto de la población. No miente pero una variable oculta es que
dos de los estudiantes de esa escuela fueron Bill Gates y Paul Alan.
10.28 Ejemplo. Una escuela dice que tiene atención personalizada porque sus grupos
constan en promedio de 4 alumnos. No miente pero resulta que hay 48 salones con 2 alumnos
y un salón con 100 alumnos; ası́, de los 196 alumnos de la escuela, más de la mitad tiene
la experiencia de estar acompañado con otros 99 alumnos. (En un caso ası́ es más útil la
mediana.)
104
Otra forma de malinterpretar los datos, y que nos pasa con frecuencia, es que la gente
que nos rodea tiende a ser, de alguna manera, parecida a nosotros; esto nos da una visión
parcial del mundo; por ejemplo, de cómo piensa la gente en general. También muchos de
nosotros leemos periódicos que tienen una idea polı́tica similar a la nuestra y esto nos da
una idea distorsionada de la realidad o del pensamiento general de la gente.
10.29 Ejemplo. Hay datos de que en cierto paı́s hay mucha violencia y, por tanto no
nos atrevemos a viajar ahı́. Después nos enteramos que el número de muertes por accidentes
automovilı́sticos es 4 veces más alto que el de las muertes en ese paı́s. El problema aquı́ es que
los medios de comunicación destacan las noticias que llaman la atención y no las cotidianas.
Todo esto puede ser, simplemente, falta de interpretación correcta de los datos estadı́sticos
por nuestra parte pero también hay reportes que se hacen de manera tendenciosa voluntariamente (incluso sin mentir).
10.30 Ejemplo. Se reporta que una cierta medicina se le dio a 25 personas y que 20 de
ellas se curaron; sin embargo la medicina no sirve y lo que pasa es que se hicieron muchos
experimentos con grupos de 25 personas y sólo se reportó el que daba números favorables
para el laboratorio que la vende.
Un ejemplo parecido al anterior es el siguiente:
10.31 Ejemplo. Un corredor de bolsa puede cometer un fraude por Internet como sigue:
Le anuncia a 1 024 000 personas que cierta acción en la bolsa subirá la siguiente semana y
a 1 024 000 que la acción bajará. Al cabo de la semana, a una mitad del grupo al que le
dijo lo que en efecto ocurrió, le pronostica que otra acción subirá y a la otra mitad le dice
que bajará; ası́ sucesivamente, va dividiendo al grupo en que va acertando en dos del mismo
tamaño, a la mitad le hace una predicción y a la otra mitad, la contraria. Al final de 8
predicciones, con 1000 personas habrá acertado todas las veces y con ello las convencerá que
inviertan su dinero con él.
10.32 Ejemplo. Se nos puede anunciar que una inversión es muy redituable y se nos
muestra la siguiente tabla. El incremento real es de 0.5 % mensual pero la gráfica da la idea
de que cada mes se duplica la inversión; aquı́ el error es que en el eje vertical la distancia de
0 a 1000 está desproporcionada con respecto a la de los demás.
1020
1015
1010
1005
1000
105
10.33 Ejemplo. Dependiendo de la idea que se quiera dar, se pueden presentar dos
gráficas que dicen los mismos resultados pero que, sicológicamente, dan ideas diferentes; por
ejemplo, podrı́a plantearse una disminución de impuestos al salario dependiendo del rango
de salario, indicando en el eje x salarios menores a $5 000, en el rango de $5 000 a $10 000,
etc.; sin embargo en el eje y en la gráfica de la izquierda se presentarı́a el porcentaje de
ahorro, dando la idea de que todos los salarios tienen aproximadamente el mismo ahorro,
mientras que en la gráfica de la derecha se indicarı́a la cantidad de pesos ahorrados cada
periodo, mostrando que los que tienen salario mayor ahorrarı́an más.
1000
3
2
500
1
0
<5
5-10 10-15 15-20 20-25 25-30 30-35 >35
0
<5
5-10 10-15 15-20 20-25 25-30 >35
10.34 Ejemplo. Otra propaganda que puede conducir a una idea errónea es, por ejemplo, decir que quien ingiere determinado alimento regularmente tiene un riesgo 30 % mayor
de tener un infarto que quien no lo ingiere. Para analizar el verdadero valor de una afirmación ası́ hay que conocer cuál es el riesgo de quien no lo ingiere; por ejemplo, si éste dice que
10 personas de cada millón tienen esa enfermedad, entonces el riesgo de los que ingieren el
alimento es de 13 sobre un millón, lo cual es no relevante.
10.35 Ejemplo. Otro estilo de distorsión es la extrapolación. Por ejemplo, si se dice
que la tendencia de crecimiento de la población mundial actual es de 1.3 % anual y se piensa
que continuarı́a ası́, entonces para el año 3000 habrı́a 2 441 000 000 000 000 habitantes, lo que
significarı́a que habrı́a 20 personas por metro cuadrado en la Tierra.
10.36 Ejemplo. También con extrapolación, analizando de 1900 a 2000 los mejores
tiempos en que un corredor hace 1500 metros, se verı́a que esto se aproxima a una recta y,
calculando el valor en el año 2600 resultarı́a que el corredor llegó a la meta antes de salir.
10.37 Ejemplo. El punto de vista bayesiano es que tenemos una idea del mundo y, con
base en ella juzgamos de manera diferente resultados estadı́sticos iguales. Analicemos, por
ejemplo, las siguientes situaciones:
∗ Se nos dice que alguien es un musicólogo experto; le damos 5 veces a distinguir entre
una pieza de Mozart y una de Haydn y las 5 acierta.
∗ Una persona dice que distingue la marca de dos refrescos similares. Hace el experimento
5 veces y acierta.
∗ Una persona dice que puede predecir si al lanzar una moneda al aire caerá águila o sol.
Se le hace la prueba 5 veces y acierta.
En la primera prueba quedaremos convencidos que el musicólogo es realmente experto;
106
en el segundo caso seremos más escépticos y, en el tercero aseguraremos que fue casualidad.
También, si vamos a una tienda de magia y se nos da una moneda no equilibrada, si la
lanzamos 4 veces y tres de ellas sale águila nos formamos la idea de que la probabilidad
de que salga águila es 34 ; si la lanzamos dos veces más y sale un águila y un sol, entonces
modificaremos nuestra idea y pensaremos que la probabilidad de que salga águila es 23 .
10.38 Ejemplo. Otra idea interesante que muchas veces no se toma en cuenta y que
nos hace entender mal una situación es la de tendencia a regresar al promedio. Por ejemplo,
supongamos que tenemos una gripa y que un amigo nos ofrece un remedio para sentirnos
mejor; lo más probable es que, sin hacer nada, pronto mejoremos (regresamos a nuestro
estado normal) pero nosotros decimos que fue gracias al remedio. Otro ejemplo es que un
basquetbolista un dı́a mete 20 % más canastas en un partido; su entrenador lo felicita y, en
el siguiente partido juega peor; el entrenador decide que la felicitación le hizo daño, ası́ que
ahora decide regañar a sus jugadores lo cual tiene efecto positivo después de que un jugador
juega mal, por el mismo principio. Un tercer ejemplo en este sentido es cuando se invierte
en un determinado bien porque ha venido aumentando su valor e, inmediatamente, después
de hacer la inversión, el bien baja de valor (¡se culpa a la suerte!).
10.39 Ejemplo. Muchas veces oı́mos lamentos diciendo que estamos muy mal en relación
con años pasados pues tal o cual cosa tenı́a un precio mucho menor que ahora. Quejas ası́ sólo
tienen sentido si se hace una evaluación comparativa entre salarios (por el mismo trabajo)
y costos al consumidor a través del tiempo. El ı́ndice de precios y cotizaciones, IPC, analiza
la variación de los precios y servicios al consumidor. La canasta básica es un conjunto de
objetos y servicios que se consideran básicos en una época determinada. Se busca que las
cosas elegidas dentro de la canasta básica sean siempre equiparables aunque, desde luego,
deben ir cambiando conforme cambian las necesidades de las personas a través del tiempo.
El distinto costo de esa canasta básica es lo que determina la inflación. Tratando de tener
un valor de referencia fijo muchas cosas legales se indican a través del IPC.
10.40 Nota. Una observación muy sorprendente es la ley de Benford. Ésta establece
que en listas arbitrarias de datos estadı́sticos, el primer dı́gito d aparece con la probabilidad
log10 1 + d1 ; esto es, como primer dı́gito el 1 tiene una frecuencia de 30.1 %, el 2 de 17.6 %,
el 3 de 12.5 %, el 4 de 9.7 %, el 5 de 7.9 %, el 6 de 6.6 %, el 7 de 5.8 %, el 8 de 5.1 % y el
9 de 4.6 %. Esto es cierto para asuntos económicos, áreas de lagos o de ciudades, tamaños
de poblaciones, etc. Desde luego, no es cierto para números escogidos aleatoriamente, para
números de teléfono, etc.
10.41 Ejemplo. A continuación se muestra una tabla en la que se empieza con 2 (elegido arbitrariamente), se le suma 3 % (también arbitrario), al resultado se le suma 3 % (del
resultado) y ası́ sucesivamente; sólo se muestra la parte entera del resultado. Hay 400 números (también esta cantidad fue elegida en forma arbitraria), de los cuales 117 empiezan con
1, es decir, el 29.25 %.
107
2
2
2
2
2
2
2
3
3
3
3
3
3
3
4
4
4
4
4
4
4
5
5
5
5
5
6
6
7
7
7
7
7
8
8
9
9
9
10
10
10
10
12
12
13
13
13
14
14
16
16
17
17
18
18
19
21
22
23
23
24
25
25
29
29
30
31
32
33
34
38
40
41
42
43
45
46
52
53
55
56
58
60
62
69
72
74
76
78
80
83
93
96
99
102
105
108
111
125
129
133
137
141
145
150
169
174
179
184
190
195
201
226
233
240
247
255
263
270
304
313
323
333
343
353
363
409
421
434
447
460
474
488
550
566
583
601
619
637
656
739
761
784
807
831
856
882
993
1023
1053
1085
1117
1151
1185
1334
1374
1415
1458
1502
1547
1593
1793
1847
1902
1959
2018
2079
2141
2410
2482
2556
2633
2712
2794
2877
3238
3336
3436
3539
3645
3754
3867
4352
4483
4617
4756
4898
5045
5197
5849
6024
6205
6391
6583
6781
6984
7861
8096
8339
8589
8847
9113
9386
10564 10881 11207 11543 11890 12246 12614
14197 14623 15062 15513 15979 16458 16952
19080 19652 20242 20849 21474 22119 22782
25641 26411 27203 28019 28860 29725 30617
34460 35494 36559 37655 38785 39948 41147
46311 47701 49132 50606 52124 53687 55298
62238 64106 66029 68010 70050 72151 74316
83643 86153 88737 91399 94141 96965 99874
112410 115782 119255 122833 126518 130313 134223
151069 155601 160269 165077 170030 175130 180384
203024 209115 215388 221850 228505 235361 242421
2
3
4
6
8
11
14
19
26
35
47
64
85
115
154
207
279
374
503
676
909
1221
1641
2205
2964
3983
5353
7194
9667
12992
17461
23466
31536
42381
56957
76545
102871
138250
185796
249694
3
3
5
6
8
11
15
20
27
36
49
65
88
118
159
213
287
386
518
696
936
1258
1690
2271
3053
4102
5513
7409
9958
13382
17984
24169
32482
43653
58666
78842
105957
142397
191370
257185
3
4
5
6
9
11
15
21
28
37
50
67
91
122
164
220
295
397
534
717
964
1295
1741
2340
3144
4225
5679
7632
10256
13784
18524
24895
33456
44962
60426
81207
109135
146669
197111
264900
Lo que pasa en el ejemplo anterior puede explicarse como sigue: Es una serie geométrica
en la que se va multiplicando por 1.03; cuando el número empieza por 1, al sumarle su 3 %
(o cualquier porcentaje) cambia poco en comparación con los números que empiezan con
otros dı́gitos; por ejemplo, si a 1530 le sumamos 3 % obtenemos 1575 (diferencia de 45 con
108
el número original); si le hacemos lo mismo a 2530 obtenemos 2605 (diferencia de 75) y si se
lo hacemos a 6530 el resultado es 6725 (diferencia de 195).
Otra explicación de la ley de Benford la encontramos en que los datos de tamaños de
cosas están acotados; cuando están acotados por, digamos, 500, es más fácil que empiecen
con cualquier número entre 1 y 4 a que empiecen con 9.
Uno podrı́a detectar un fraude en datos contables de una compañı́a usando esta ley.
10.42 Ejemplo. Otra forma interesante de usar la estadı́stica es para contar grandes
volúmenes de cosas. Por ejemplo, si se quiere ver cuántos tigres hay en la selva, se puede
capturar a unos cuantos, digamos a 50, ponerles una marca en la oreja y dejarlos ir. Después
de un tiempo se captura otra vez a 100 tigres y se cuenta qué porcentaje tiene marca.
Supongamos que hay 8 con marca; entonces, como la proporción debe ser muy parecida, si
8
∼ 100
, de donde x ∼ 625. Con
llamamos x al número de tigres de la selva, tenemos que 50
x
esta misma idea se calcula el volumen de un lago: Se echa un kilo de sal, se espera a que se
mezcle y se recoge un metro cúbico de agua; se pone a hervir hasta que se evapore toda el
agua y se pesa la sal que quedó.
10.4.
Métodos de elección
A continuación vamos a dar ejemplos para ilustrar que ningún método de votación entre
3 o más candidatos puede tener las caracterı́sticas ideales. Describiremos varios métodos de
votación y los problemas de cada uno.
10.43 Ejemplo. Supongamos que hay tres candidatos: A, A0 y B y que la población
está dividida en dos grupos: los que prefieren a cualquiera de A o A0 sobre B, y los que
prefieren a B sobre cualquiera de A o A0 , y que la tabla de preferencias es
preferencias/# personas
8
4
6
4
primero
A
A'
B
B
segundo
A'
A
A'
A
tercero
B
B
A
A'
es decir, 8 personas tienen a A en su primer lugar de preferencias, a A0 en su segundo, etc.
El primer método de votación es el de la pluralidad: Hay una sola ronda de votación y
gana el que más votos obtiene. Según este método ganarı́a B con 10 votos (A tendrı́a 8 y A0
109
tendrı́a 4).
El segundo método de votación que consideramos es en el que cada miembro vota por
sus dos preferidos. En este caso ganarı́a A0 con 18 votos (mientras que A tendrı́a 16).
El tercer método, llamado método Borda consiste en dar puntaje decreciente a los candidatos: 0 al último, 1 al penúltimo, 2 al anterior, etc. En este caso ganarı́a A con 24 puntos
(mientras que A0 tendrı́a 22 y B tendrı́a 20).
En el ejemplo anterior vimos cómo, con métodos que parecen razonables, es posible tener
una distribución de tal manera que cada uno de los candidatos gane en alguno de los métodos.
Veamos más ejemplos.
10.44 Ejemplo. Ahora supongamos que hay 5 candidatos: A, A0 y A00 , favoritos de un
grupo de votantes, y B y B 0 , favoritos de otro grupo; supongamos que la tabla de preferencias
es la siguiente:
votantes/candidatos
A
A'
A''
primer grupo
10
10
11
segundo grupo
B
B'
12
13
En este caso, en la tabla se indica, dentro de cada grupo, el cómo están distribuidas las
preferencias, es decir, dentro del primer grupo hay 10 personas que prefieren a A, 10 a A0 ,
11 a A00 , etc.
Con el método de pluralidad ganarı́a B 0 .
Sin embargo, veamos otro método de votación: el de dos rondas: En éste, en una primera
ronda cada votantte elige a su favorito y, si ninguno tiene más de 50 % de la totalidad de
los votos, entonces se quedan para una segunda votación únicamente los dos candidatos con
mayor número de votos. En el caso del ejemplo ganarı́a uno de los dos de B o B 0 (dependiendo
a cuál de los dos se adhirieran los del primer grupo) y, podrı́amos suponer que gana B 0 . Sin
embargo observemos una cosa curiosa, digamos que al principio, en lugar de que 12 del
segundo grupo estuvieran por B y 13 por B 0 , la tabla fuera:
votantes/candidatos
A
A'
A''
primer grupo
10
10
11
segundo grupo
B
B'
10
15
En este caso, el mismo método de votación dejarı́a en la primera vuelta a A00 y a B 0 , y
en la segunda vuelta quedarı́a A00 como ganador (pues todos los del primer grupo votarı́an
110
por él). Desde luego, no es deseable que algo ası́ pase, es decir, que el que haya sido mejor
B 0 en la segunda tabla que en la primera dentro de su grupo (lo demás es igual) haga que
pierda la votación global.
10.45 Ejemplo. Otro método de votación es el llamado secuencial por parejas. En éste se
ordenan los candidatos, los dos primeros se enfrentan y el ganador se enfrenta con el tercero;
luego el ganador de esa última competencia se enfrenta con el cuarto y ası́ sucesivamente.
Supongamos aquı́ que la tabla de preferencias el como sigue:
preferencias/votantes
X
Y
Z
primero
A
C
B
segundo
B
A
D
tercero
D
B
C
cuarto
C
D
A
Aquı́ hay tres votantes X, Y y Z y, por ejemplo, el votante X tiene a A como su candidato
favorito, luego a B, luego a D y al final a C. Supongamos que se establece el orden de votación
A−B −C −D; entonces al principio se enfrentan A contra B y gana A (pues X y Y prefieren
a A sobre B y sólo Z tiene el orden inverso de preferencias); según las reglas, ahora A se
enfrenta a C; aquı́ gana C; finalmente en el enfrentamiento entre C y D ganarı́a D. Sin
embargo esto no parece razonable pues todos los votantes preferirı́an a B sobre D (ası́ que
D habrı́a perdido desde el prinicpio si el orden hubiera sido D − B − C − A).
10.46 Ejemplo. Ahora veamos la llamada Paradoja de Condorcet, en la que se ve cómo
ninguno de los candidatos deberı́a ganar puesto que dos terceras partes de la población
preferirı́a a otro sobre el elegido.
preferencias/# personas
10
10
10
primero
A
B
C
segundo
B
C
A
tercero
C
A
B
Por ejemplo, si ganara A, se tendrı́a que 20 de los 30 votantes habrı́an preferido a C sobre
A.
Se llama ganador Condorcet a un candidato que podrı́a ganar en un enfrentamiento
directo contra cualquier otro candidato (no siempre hay). Se pensarı́a que en los casos en
que hubiera un ganador Condorcet, él deberı́a ganar la elección general (aunque es claro
111
que no siempre ocurre esto, pues en general se usa el método de pluralidad). Sin embargo,
veamos el siguiente ejemplo.
10.47 Ejemplo. El ganador Condorcet puede no coincidir con el que da el método Borda
(que también parece ser razonable). Consideremos la siguiente tabla:
preferencias/# personas
30
10
10
1
29
1
primero
A
B
C
A
B
C
segundo
B
C
A
C
A
B
tercero
C
A
B
B
C
A
En el ejemplo, A es ganador Condorcet pues contra B tendrı́a 30 + 10 + 1 = 41 mientras
que B tendrı́a 10 + 29 + 1 = 40, y contra C, A tendrı́a 30 + 1 + 29 = 60 mientras que
C tendrı́a 10 + 10 + 1 = 21. Sin embargo, con el método Borda (ver ??) ganarı́a B con
2(10 + 29) + (30 + 1) = 109 puntos (pues A habrı́a obtenido 2(30 + 1) + (10 + 29) = 101 y
C habrı́a obtenido 2(10 + 1) + (10 + 1) = 33).
10.48 Ejemplo. Otro método comúnmente usado es el de hacer varias rondas y en cada
paso ir eliminando al que obtiene menos votos. Este método se usó en la elección del lugar
para los juegos olı́mpicos del año 2000 y los votos que se fueron obteniendo son los siguientes:
ciudades/rondas
1o.
2o.
3o.
4o.
Pekín
32
37
40
43
Sidney
30
30
37
45
Manchester
11
13
11
-
Berlín
9
9
-
-
Estambul
7
-
-
-
Como vemos en el ejemplo, ganó Sidney a pesar de que en cada una de las votaciones
previas Pekı́n habı́a obtenido más votos.
10.49 Ejemplo. Examinemos ahora también una manera de evaluar tres fábricas A, B
y C, poniendo a trabajar 5 máquinas de cada una y contando el número de dı́as que duran
antes de fallar. En la tabla se ve, por ejemplo, que la primera máquina de A duró 1137 dı́as
sin fallar, la segunda 993, etc.
112
fábricas/máquinas
1
2
3
4
5
A
1137
993
472
256
207
B
1088
659
493
259
238
C
756
669
372
240
202
Una forma para evaluar las fábricas serı́a asignarles el orden de duración de dı́as, por
ejemplo, darı́amos el número 1 a la máquina 1 de la fábrica A porque es la que más dı́as
duró trabajando, luego tendrı́a el número 2 la primera máquina de la fábrica B, etc. De esta
manera, la ganadora serı́a la que obtuviera menos puntos, en este caso, A.
fábricas/máquinas
1
2
3
4
5
suma
A
1
3
8
11
14
37
B
2
6
7
10
13
38
C
4
5
9
12
15
45
Pero observemos otra vez que el haya participado la fábrica C en la evaluación cambió
las cosas pues, sin ella la numeración habrı́a sido la siguiente, y entonces habrı́a ganado B.
fábricas/máquinas
1
2
3
4
5
suma
A
1
3
6
8
10
28
B
2
4
5
7
9
27
10.50 Observación. Como vimos en los ejemplos anteriores, a pesar de que un determinado método de votación nos puede parecer razonable, sus resultados no siempre lo son
pues no se da alguna de las siguientes tres condidiones deseables:
∗ Condición pareto. Ésta establece que serı́a deseable ir de acuerdo al consenso, es decir,
no deberı́a ganar un candidato si algún otro es preferido sobre él por los demás votantes
(como ocurrı́a en el método de la votación secuencial por parejas o usando el método de
Borda en ??).
∗ Mejor debe ser mejor. En esta condición se pide que el tener más votos de preferencia
no perjudique al candidato (como ocurrı́a en ?? con el método de dos rondas).
∗ Irrelevante debe ser irrelevante. Aquı́ lo que se pide es que un candidato que no es favorito no deberı́a alterar la votación de los mejores (lo cual ocurre en el método de pluralidad
?? o, como vimos, en la elección de las fábricas).
113
Como vimos en los ejemplos, ninguno de los métodos descrito satisface las tres condiciones. El teorema de imposibilidad de Arrow establece que no existe ningún método que
contemple las tres condiciones simultáneamente (es decir, con cualquier método que se proponga, se puede dar una tabla de preferencias en la que alguna de las condiciones falle).
10.5.
Estimadores.
10.51 Ejemplo. En la 2a Guerra Mundial los Aliados querı́an analizar la fuerza de la
armada alemana; habı́an capturado algunos tanques y observaron que los números de serie
de ellos parecı́an tener numeración consecutiva, empezando con 1, y que éste iba de acuerdo
a la cronologı́a de construcción. El problema general es el siguiente: Supongamos que hay n
objetos numerados y que al azar tenemos un subconjunto de ellos. A partir de los números
de la muestra ¿se puede estimar el valor de n? Cualquier método de solución (o intento de
solución) de esto se llama estimador. Veamos varios estimadores. Supongamos que la muestra
es {68, 35, 38, 107, 52}.
Estimador de la media. Considerando que el promedio de cualquier muestra se pa= n(n+1)
= n+1
, podemos estimar que n+1
∼
rece al promedio total, que es 1+2+···+n
n
2n
2
2
68+35+38+107+52
= 60, de donde n ∼ 119. Este estimador tiene un grave defecto: podrı́a
5
dar un número menor que alguno de los números de la muestra, lo cual serı́a un absurdo
(por ejemplo, si se agrega al subconjunto dado el número 300, entonces el nuevo promedio es
600
= 100, de donde obtendrı́amos que n ∼ 199 < 300). (Es claro que si hubiéramos estimado
6
∼ a la mediana, habrı́amos tenido el mismo problema).
que n+1
2
Estimador de máxima probabilidad. Otro estimador que podrı́a parecer razonable es
tratar de maximizar la probabilidad de haber encontrado
el subconjunto dado (la cual es
n
1
), es decir, buscando para qué n el número 5 es mı́nimo, pero esto es claro que se
(n5 )
alcanza con lo más chico posible de n y, considerando también que debe ser mayor o igual
que el mayor número del subconjunto encontrado, tendrı́amos que n = 107. Sin embargo
esto no resulta razonable pues es poco probable que el subconjunto encontrado contenga
precisamente al mayor de los números del conjunto.
Para cada estimador se puede calcular su esperanza, es decir, pensar que el experimento
se repite de manera que todos los sucesos estén considerados; luego, cada vez se toma el
valor que da el estimador y después se toma el promedio de todos esos valores. Un estimador
se llama imparcial si su esperanza es la correcta; por ejemplo, el estimador de la media es
imparcial, pero el de la máxima probabilidad no lo es (pues es claro que el promedio de todos
los máximos elementos de los conjuntos de 5 elementos no coincide con el promedio total:
n+1
). Se busca entonces un estimador imparcial pero que no tenga el defecto del de la media,
2
es decir, que en ningún caso dé un valor absurdo (que el mismo conjunto escogido esté fuera
del rango que da el estimador).
114
10.52 Proposición. El estimador φ siguiente es imparcial y nunca da respuesta falsa.
Dado un subconjunto S = {x1 , x2 , . . . , xk } de {1, 2, . . . , n}, suponiendo que xk es su elemento
mayor, φ está definido por
k+1
φ(S) =
xk − 1.
k
Demostración. Primero observemos que nunca da un valor falso, es decir, que xk ≤
lo cual es equivalente a kxk + k ≤ kxk + xk , que, a su vez, es equivalente a k ≤ xk ,
lo cual es claro.
k+1
xk − 1,
k
Ahora veamos que es imparcial. Conviene analizar
primero un ejemplo. Supongamos que
4
n = 5 y k = 3. Entonces 5 es elemento mayor
en
= 6 subconjuntos, 4 es elemento mayor
2
3
2
en 2 = 3 conjuntos y 3 es mayor en 2 = 1 conjuntos. Entonces, en 6 conjuntos el valor
del estimador es 34 · 5 − 1, en 3 conjuntos el valor del estimador es 43 · 4 − 1 y en un conjunto
el valor del estimador es 43 · 3 − 1. El promedio de todos los valores del estimador es
4
4
4
·5−1 +3
·4−1 +1
·3−1
6
3
3
3
5
3
=
4
(30 + 12 + 3) − (6 + 3 + 1)
60 − 10
3
=
= 5 = n.
10
10
Ahora sı́, hagamos el caso general. Usaremos las siguientes dos fórmulas de combinatoria:
n n−1
n
=
y
r r−1
r
n
n
n
n+1
+
+ ··· +
=
;
r
r+1
n
r+1
n!
la primera se demuestra directamente de la definición nr = r!(n−r)!
; para la segunda, observar
que para escoger un conjunto de r+1 elementos dentro del conjunto {1, 2, . . . , n+1} podemos
fijarnos en cuántos conjuntos contienen a un determinado elemento como elemento mayor
del conjunto (como se hizo en el ejemplo aquı́ arriba).
Queremos probar que
n r
k+1
1 X
(r + 1) − 1 = n
n
k−1
k
k r=k−1
Esto equivale a probar que
n X
r
r+1
1
n
n
−
=
,
k−1
k
k+1
k+1 k
r=k−1
115
lo cual ocurre si, y sólo si,
n n X
r
n
n
r+1
1 X
=
,
−
k + 1 r=k−1 k − 1
k+1 k
k
r=k−1
y esto a su vez es cierto si, y sólo si,
n+1
1
n+1
n
n
−
=
,
k+1
k+1
k
k+1 k
o, equivalentemente,
n+1
k+1
n+1 n
=
,
k+1 k
el cual es cierto. ♦
10.53 Ejercicio. Probar que el estimador de la media es imparcial, es decir, probar que
si 0 ≤ k ≤ n son naturales y para cada subconjunto de {1, 2, . . . , n} con k elementos se
toma el promedio de sus elementos y después se toma el promedio de todos estos promedios,
entonces el resultado es n+1
, el promedio de los elementos del conjunto total. (Sugerencia.
2
Considerar cuántas veces aparece cada elemento en la suma total al evaluar el promedio de
los promedios.)
116
Descargar