LAS OPOSICIONES Y EL MODELO DE PROBABILIDAD

Anuncio
LAS OPOSICIONES Y EL MODELO DE PROBABILIDAD
HIPERGEOMÉTRICO
Manuel Amaro Parrado
IES Jándula (Andújar)
José María Amaro Parrado
IES Albert Einstein (Sevilla)
Resumen
Tal vez la mayor preocupación de un opositor es saber qué probabilidad de éxito tiene
sabiendo que se ha estudiado un número determinado de temas. En este artículo
veremos las características del modelo de probabilidad hipergeométrico y su aplicación
en este supuesto, así como distintas formas cómodas y sencillas de obtener
probabilidades usando este modelo.
Abstract
Maybe candidates’ main concern consists in calculating their success probabilities
having in count the number of units they have studied previously. In this paper, we will
explain some topics about the hypergeometric probability model and its use in
competitive examinations. We will also learn different and easy ways to obtain
probabilities using this model.
El tradicional modelo de oposiciones a primaria y secundaria resulta interesante
para realizar un pequeño estudio estadístico con el que los participantes pueden
optimizar esfuerzos y ganar en confianza. Son muchos los opositores que buscan
consejo, queriendo entender qué posibilidades tienen de llegar al éxito bajo unas
condiciones dadas.
Los supuestos de partida suelen ser diferentes, pues a distintas especialidades
suelen corresponder distinto número de temas, además de que es habitual que las
sucesivas convocatorias de oposiciones sufran cambios de un año para otro.
A pesar de ello, subyace bajo todo esto un único modelo probabilístico que nos
ayudará a entender con claridad el mecanismo de este sistema de oposición: el modelo
de probabilidad hipergeométrico.
MODELO HIPERGEOMÉTRICO
Supongamos que tenemos una población con N individuos, de los cuales marcamos un
número m. Si en esta población realizamos un muestreo sin reposición de n individuos,
y llamamos X a la variable “número de individuos marcados en los n seleccionados”,
entonces X sigue un modelo de probabilidad hipergeométrico.
Si nos damos cuenta, este supuesto es extrapolable al caso de las oposiciones:
• N (número total de individuos) se corresponde con el número de unidades de
que consta el temario.
• m (individuos marcados) será el número de temas que cada opositor haya
estudiado.
• n (elementos extraídos sin reposición) es el número de bolas que saca el
tribunal.
En este supuesto la variable aleatoria es X: número de temas estudiados que han salido
en la muestra. La probabilidad, según este modelo, de que a un opositor le salgan k
temas favorables el día de la prueba es:
 N − mm

 
n − k  k 

P( X = k ) =
N
 
n
Básicamente esta fórmula se reduce a la definición de Laplace de que la probabilidad de
un suceso A se calcula mediante la fórmula:
En nuestro caso, los casos posibles son las formas de combinar (sin repetir) N elementos
N
tomados de n en n,   , mientras que para calcular los casos favorables habría que
n
m
tomar todas las formas de sacar los k temas solicitados dentro de los m marcados,   ,
k
y de los N-m no marcados ver de cuántas formas se pueden sacar los n-k no solicitados
 N − m

.
 n−k 
Ejemplo:
El temario de una oposición consta de 70 temas. Un estudiante que se ha preparado
sólo 22 desea saber qué probabilidad tendría de aprobar (es decir, que le salga al
menos uno de sus temas) si el tribunal sacará de manera aleatoria y sin reposición 5
temas.
En este supuesto, el número total de temas es N=70. El opositor ha marcado
(estudiado) m=22, mientras que n=5 es el número de temas que sacará el tribunal.
Calcular la probabilidad de aprobar usando una variable X que se distribuye mediante
un modelo hipergeométrico es igual a calcular la suma de las probabilidades de que X
(nº de temas marcados en la muestra) sea 1, 2, 3, 4 ó 5:
P(Aprobar)= P ( X = 1) + P ( x = 2) + P ( x = 3) + P ( x = 4) + P ( x = 5)
En lugar de realizar tantos cálculos, es mucho más sencillo razonar a la inversa,
es decir, calcular la probabilidad de suspender y utilizar el hecho de que
P(aprobar)+P(suspender)=1.
La probabilidad de suspender, en términos de nuestro modelo, es equivalente a
la probabilidad de que X tome el valor 0, es decir, que suspendemos cuando de los 70
temas el tribunal saca 5 y ninguno está entre los que hemos estudiado.
P ( Aprobar ) = 1 − P ( X = 0)
 70 − 22  22   48  22 
48! 22!

    
⋅
5
−
0
0
5
0






43!5!
0!22! = 48 ⋅ 47 ⋅ 46 ⋅ 45 ⋅ 44 = 0.1414774865
=
=
P( X = 0) =
70!
70 ⋅ 69 ⋅ 68 ⋅ 67 ⋅ 66
 70 
 70 
 
 
65!5!
5
5
Nuestro opositor tendría aproximadamente una probabilidad del 14.14% de
suspender, luego tiene un nada desdeñable 85.85% de posibilidades de que le salga al
menos un tema favorable.
En este punto, necesitaremos una serie de herramientas que faciliten la tarea de
calcular probabilidades, principalmente cuando ciertos parámetros del modelo pueden ir
cambiando (el número de temas estudiados) o bien cuando necesitamos optimizar el
esfuerzo, es decir, cuando estudiar más temas apenas supone un aumento en la
probabilidad de aprobar.
Para hacernos una idea de esto último, analicemos una tabla de probabilidades
obtenida en los supuestos del ejemplo anterior.
TEMAS ESTUDIADOS
1
5
10
15
20
25
30
35
40
45
50
55
60
62
64
65
66
PROB. DE APROBAR (%)
7.14
31.75
54.87
71.26
82.49
89.91
94.56
97,32
98,82
99.561018
99.8719
99.975188
99.997918
99.999537
99.99995
99.999992
100
Un simple vistazo a la tabla sirve para que nos demos cuenta de que el aumento
de probabilidades no es ni mucho menos lineal conforme el número de temas estudiados
aumenta. La diferencia entre un opositor que haya estudiado 45 temas y otro que haya
estudiado 50 es ínfima en términos probabilísticos (poco más del 0.3%).
¿Pero qué significa realmente una probabilidad? Es difícil explicarle a alguien
que se está jugando un puesto de trabajo que la probabilidad se define como un
concepto asintótico, que si tiene un 99.56% de probabilidad de aprobar entonces en cada
10000 repeticiones del experimento, habrá aproximadamente 44 veces en las que no le
aparecerá ningún tema conocido. Suele ser mucho más ilustrativo decirle que imagine
un sorteo con 100 papeletas, de las cuales él tiene 99, y preguntarle, ¿crees que te
tocaría? Habría que añadir que además ha comprado la última papeleta a medias con un
amigo, y que caso de que tocara ésta, la echaría a cara o cruz. Resulta indudable que las
posibilidades son enormes.
Una vez sabido esto, queda ya para el estudiante valorar la conveniencia o no de
ampliar su espectro de temas preparados.
USO DE LAS NUEVAS TECNOLOGÍAS PARA CÁLCULOS DE
PROBABILIDADES HIPERGEOMÉTRICAS
Existen varias formas sencillas de realizar nuestra tabla de probabilidades con
nuestros parámetros concretos.
A) HOJAS DE CÁLCULO: Se trata de una herramienta de la que todo el mundo
dispone. Podemos utilizar una hoja de cálculo tipo Excel (del paquete Office) o bien
tipo Calc (de OpenOffice). Ambas programas disponen de una función implementada
para calcular la distribución hipergeométrica.
En OpenOffice.Calc, crearemos tres columnas: una para los temas estudiados,
otra para la probabilidad de suspender (probabilidad de que X=0), y otra para la
probabilidad de aprobar (véase imagen 1).
Imagen 1
Ahora nos situamos en la casilla B2 y picamos en Insertar (menú superior), y
dentro de éste, en Función, donde se nos desplegará una ventana en la cual buscamos la
opción Estadística dentro de Categorías, tal y como se muestra en la imagen 2.
Imagen 2
En esta ventana, buscamos la función DISTR.HIPERGEOM, la seleccionamos y
pinchamos en “siguiente”.
Tenemos una ventana en la que sólo hemos de colocar las variables en su lugar
adecuado. Como queremos calcular la probabilidad de que X=0, en núm_exito
pondremos 0. En n_muestra pondremos el número de bolas que saca el tribunal; En
pobl_exito no vamos a poner un número, sino la casilla en la que hayamos colocado el
primer supuesto de temas estudiados, en este caso A2 (esto nos servirá para arrastrar
más adelante y no tener que crear una fórmula para cada supuesto). Finalmente, el
número de temas de que consta el temario en la casilla n_total, quedando la fórmula tal
y como se indica en la imagen 3:
Si el resultado nos aparece con menos decimales de los deseados, podemos
cambiar esta opción en formato-celda, pinchando previamente en la casilla a la que
queremos cambiar el formato (B2). Por último, seleccionamos la casilla B2 y
pinchamos en el punto situado en la esquina inferior derecha de la celda. Sin soltar el
ratón, arrastramos hasta abajo logrando así copiar la función que hemos creado pero con
la diferencia de que el programa utilizará los datos de la primera columna.
Para calcular la probabilidad de aprobar, en la casilla C2 escribimos un “=1-B2”,
tal y como se indica en la imagen 4. Repetimos el proceso de arrastre explicado antes y
ya tenemos nuestra tabla de probabilidades.
Imagen 4
Imagen 5: probabilidades de aprobar en los supuestos del ejemplo
En Microsoft Excel, el procedimiento sería idéntico, usando la función
DISTR.HIPERGEOM(k,n,m,N).
B) CALCULADORAS AVANZADAS: Existen variados programas y
calculadoras que también calculan la distribución hipergeométrica, entre ellas la
Classpad 330 de Casio.
En la pantalla de menú de la Classpad, entramos en “principal” (ver imagen 6).
Imagen 6
La función a utilizar se encuentra en la pestaña “cat”, aunque se puede escribir
directamente como hypergeoCDf(k,n,m,N)
Imagen 7: función hipergeométrica en la Classpad 330
C) PROGRAMAS ESPECÍFICOS DE ESTADÍSTICA: También podemos usar
programas estadísticos como R o SSPS. Mostraremos R por su comodidad y gratuidad.
Una vez abierto el programa, lo más sencillo para los que no dominen el
lenguaje de programación de R es abrir la consola R commander. Esto se hace cargando
el paquete “Rcmdr”:
PESTAÑA “PAQUETES” CARGAR PAQUETE… RCMDR
Ya en la consola, buscamos la distribución hipergeométrica tal y como se indica en la
imagen 8, y nos aparecerá una ventana cuya notación es diferente a la dada con
anterioridad, pues m indica el número de temas estudiados, n el número de temas
restante y k el número de bolas extraídas.
Imagen 8
La salida en la ventana de resultados resulta en cierto modo diferente, pues nos
ofrece una tabla con las probabilidades de que la variable tome todos los valores desde 0
hasta el número de bolas extraídas (cinco, en el caso del ejemplo). Véase imagen 10.
Imágenes 9 y 10
Observando una tabla de estas características obtenemos una interesante
información que no conocíamos con anterioridad. No sólo podemos saber la
probabilidad de aprobar o suspender, sino que también tenemos un estudio de los casos
más o menos probables. En nuestro ejemplo, el caso con mayor probabilidad es “que
salga 1 tema favorable” (35.37%), seguido del caso “que salgan 2 temas favorables”
(con un 33.01%).
Esta nueva perspectiva resulta de particular interés para todo aquel que prefiere
elegir entre varios temas, y nos acerca un poco a la idea de esperanza matemática. En el
modelo hipergeométrico, la esperanza se calcula como
E( X ) =
nm
N
Si seguimos con los cálculos del ejemplo, obtenemos que el valor esperado
5 ⋅ 22
cuando n=5, m=22 y N=70 es E ( X ) =
; 1.57 , dato que nos indica que no debe
70
sorprendernos que salgan entre 1 y 2 bolas favorables. Se puede comprobar que en el
supuesto de que el tribunal saque dos bolas, estudiarse sólo 22 temas podría resultar
arriesgado pues un simple cálculo nos da un valor esperado de 0.62. De hecho, en este
caso la probabilidad de suspender supera el 46%.
Visto todo lo anterior, cada uno debe adaptar el estudio a su propio provecho,
resultando evidente que el modelo de probabilidad hipergeométrico puede resultar una
herramienta muy útil a la hora de planificar un estudio de oposiciones y optimizar
esfuerzo y rendimiento.
Descargar