3.2.2.1. Tipos de variables

Anuncio
Estrategia didáctica 3.2.2.1. Tipos de variables
Para hacer predicciones de una variable aleatoria es necesario conocer 3 características de
ella: su distribución, su medida de tendencia central (media) y su medida de dispersión
(desviación estándar). Esta condición tendrá una importancia mayor en todo este texto.
Recordemos que cuando se tratan las variables discretas (la binomial y la hipergeométrica),
se dibuja su distribución y se calcula su media (o esperanza matemática) y su varianza (o
desviación estándar cuadrática). Al conocer estas tres características, la variable aleatoria
discreta esta bien definida y se podían realizar cálculos de probabilidades con ellas, es
decir, se podía hacer predicciones acerca de los posibles valores que podían tomar.
Conocemos dos distribuciones discretas, que, como ya se dijo, son la binomial y la
hipergeométrica. Sin embargo, no solamente existen las variables discretas, sino que
también existen variables aleatorias continuas. Por ejemplo las siguientes variables son
aleatorias (impredecibles) y sus valores alcanzan cualquier valor entre un intervalo de
valores bien definidos:
1. Tiempo de traslado de un alumno de su casa a la escuela por la mañana. (puede
haber hecho alguna vez un tiempo mínimo de 10 minutos y uno máximo de 40
minutos, dependiendo de la hora de salida, del transporte usado, del tráfico, y es
posible que cualquier tiempo entre esos valores pueda hacerlo durante su traslado a
la escuela.)
2. Peso de un bebé al nacer. (El peso de un bebé depende de la región u hospital donde
haya nacido, el tipo de alimentación de la madre, de la genética, etcétera, pero en
cierta región los bebés podría pesar entre 1 y 4 kilos, y cualquier bebé podría pesar
al nacer cualquier valor en el rango señalado).
3. Salario de los licenciados en derecho recién egresados de una Universidad (el
salario puede ser de entre 4000 y 12000 pesos, dependiendo del tiempo de
permanencia de los egresados en la Facultad, del promedio, del tipo de Universidad
de donde egresaron, etcétera).
Observa que hay 3 variables continuas, tiempo, peso y salario definidos en un rango de
valores posibles. Es claro que las variables están determinadas dentro de ese rango porque
dependen de la población de donde se obtienen y de las condiciones en las que son
obtenidas. Por ejemplo, si un alumno vive lejos del Colegio y su tiempo de traslado oscila
entre 50 y 90 minutos, entonces el valor de 20 minutos será prácticamente imposible de que
lo realice alguna vez, porque su tiempo de traslado se hace bajo otras condiciones distintas
a las del traslado del alumno del primer ejemplo. Lo mismo sucede con los dos ejemplos
posteriores. Con ello debe remarcarse que primero debe determinarse con mucho cuidado
una población de referencia y precisarla lo mejor posible antes de definir una variable
dentro de ella. Por ejemplo, si decimos que la población que deseamos investigar es la de
1
los alumnos del CCH Azcapotzalco, del turno matutino, de sexto semestre que viven en el
estado de México, que no tienen materias reprobadas y que pertenecen a la generación que
egresa en el 2008, entonces podemos definir la variable aleatoria continua “tiempo de
estudio de los alumnos antes de un examen de estadística”. Al hacer este tipo de
precisiones, se puede fácilmente determinar el rango posible de valores que la variable
puede alcanzar. En el ejemplo citado se tendrá que el tiempo de estudio podría ser de 1 a 6
horas.
Es muy importante precisar con cuidado la población de referencia en la que se le definirá
una variable. Esto se debe a que si se define de manera muy general entonces el rango de
valores se dispara. Por ejemplo, si definimos una población simplemente como los alumnos
del CCH Azcapotzalco y queremos definir la variable aleatoria continua “tiempo de
traslado de los alumnos de su casa a la escuela” entonces debido a la ambigüedad de la
población, el rango de la variable podría ser desde 0 a 180 minutos. Esto ya no es útil
porque la población resultará muy grande y muy irregular.
Así también si un ingeniero forestal desea estudiar la altura de los árboles esta podría
oscilar entre 1 y 50 metros si no define claramente la especie se árbol que desea medir y la
región donde se encuentra. Si especifica que desea estudiar a los laureles, podría decir que
solo quiere determinar la altura de los laureles del bosque de Chapultepec, que tienen 10
años o más de edad, que no tienen cierto tipo de plaga, con ciertas características genéticas,
etcétera. En este caso el rango de valores será más específico, digamos entre 4 y 6 metros.
Para el primer ejemplo que se dio anteriormente, la población a la que se refiere el tiempo
del alumno que hace entre 10 y 40 minutos, consiste de todos los posibles tiempos de
traslado que ha hecho durante su estancia en el Colegio. Para el caso de los bebés, la
población será la de todos los pesos de los bebés que han nacido durante cierto período en
un hospital específico con las condiciones dadas por el ejemplo.
Pero, ¿Por qué es necesario especificar de esta manera la población? ¿Qué ventajas se
tienen estadísticamente hablando? Lo que sucede es que esto facilita la caracterización de
una variable aleatoria continua. Ya se dijo antes que para hacer predicciones de una
variable, es necesario conocer su distribución su media y su desviación estándar. Si somos
muy precisos al definir una variable continua, entonces será muy útil para que intuyamos la
distribución de la variable. Si se revisa la práctica 3, se observará en ella las familias de
curvas que llamamos modelos de población o distribuciones. Recordemos que se
clasificaron en 3 grupos. Para este curso, particularmente estudiaremos la familia de curvas
(1) que son las llamadas curvas normales (o curvas de campana, curvas normales o
gaussianas). Las demás se estudian en cursos más avanzados.
2
Se sabe, por ejemplo, que cuando se especifica de manera tan precisa la población donde
se definirá la variable aleatoria continua, es muy probable que se distribuya en forma
normal. Esto significa que, por ejemplo, el peso de los bebés al nacer, dado en el ejemplo 2,
se distribuya normalmente, lo que significa que la gráfica que describe el peso de los bebés
sea la curva o modelo normal. Pero si la población está muy generalizada, seguramente la
curva que describe a la variable (por ejemplo si la definimos simplemente como peso de los
bebés al nacer, sin especificar nada más), no será normal. Tal vez sea asimétrica positiva o
asimétrica negativa (e incluso podría tener dos o más modas), dependiendo del nivel
económico de la región. Si se mide el peso de los bebés al nacer en Chiapas, tal vez la
distribución del peso en los bebés sea asimétrica positiva porque la mayoría de ellos tendrá
bajo peso y pocos tendrá un peso alto. Pero esto ocurrirá porque se han combinado todo
tipo de etnias y personas urbanas y rurales que tienen distintos niveles económicos.
EJERCICIOS
1. Da 3 ejemplos de poblaciones donde la variable sea continua, especificando con
cuidado la población en la que deseas definirla y el rango de valores posible que
dicha variable puede alcanzar.
2. Da ejemplos de variables continuas que se distribuyan en forma asimétrica positiva,
asimétrica negativa y en forma de “j“ invertida (también llamada distribución
exponencial) .
3. Define para ti mismo la variable continua “tiempo de traslado de tu casa al
Colegio” y especifica el rango de valores de la variable y su distribución,
determinando cuidadosamente la población.
4. Piensa en una población en Biología y especifica claramente una variable en ella.
5. Piensa en una población en Educación y especifica claramente una variable en ella.
 Guardar con el nombre nombre-apellido.E3.2.2.1Variables-grupo.doc
3
LECTURA
La probabilidad y la estadística fueron empezadas e estudiarse matemáticamente en
el siglo XVII. La probabilidad surgió aproximadamente en 1660 y la estadística,
entendida no como una simple reunión de datos, sino como una reunión y
clasificación de datos para obtener información de ellos, aproximadamente en 1662,
que fue la fecha en la que John Graunt publicó su libro “Billetes de Mortalidad”, en
el que hizo varias inferencias acerca del estado de la población en Londres luego de
una epidemia de peste.
Se sabe que en Sumeria, Roma, Egipto, Grecia y en otras grandes civilizaciones, ya
existían juegos de azar, como los dados, y había emperadores romanos, Marco
Aurelio era uno de ellos, que eran fanáticos de los juegos de azar a los que
dedicaban mucho tiempo, pero no se conoce algún estudio matemático del azar
realizado por sumerios, griegos, egipcios o romanos. Se sabe, sin embargo, que
quienes tuvieron resultados importantes en la probabilidad fueron los hindúes,
aunque parece que la relacionaron con la religión para usarla con propósitos
morales. De cualquier forma, se desconoce la mayoría de los textos de los
matemáticos hindúes, y por ello no se sabe con precisión cuál fue su grado de
avance en la estadística. Existen textos sorprendentes que se pueden hallar en los
poemas hindúes como el Mahábharata, que no ha sido traducido por completo del
sánscrito, en los que parece que ya se manejaban conceptos estadísticos nada
triviales. Les voy a resumir la historia, llamada “Nala y Damayanti”, que tal vez sea
la más conocida de esa epopeya: En un viaje, un hombre llamado Nala, conoce a un
rey extranjero, Rituparna, quien hace alarde de sus habilidades matemáticas al
estimar el número de hojas y frutos que había en dos grandes ramas de un árbol
frondoso. Lo infiere con base en una sola rama pequeña del árbol que examina.
Hay, afirma, 2095 frutos. Nala cuenta los frutos toda la noche y queda sumamente
sorprendido por la precisión de la conjetura. Rituparna, a solicitud de Nala, accede a
enseñarle esta ciencia a cambio de que Nala le dé lecciones de manejo de los
caballos. El texto dice así:
“Nala bajó rápido del carro y contó el árbol. Y admirado dijo al rey; “Los he
contado y había los frutos que tú dijiste. He visto tu ciencia maravillosa, oh rey;
deseo conocer el medio por el que se aprende esa ciencia”. El rey le respondió:
“Sabe que soy hábil en el juego de dados y entendido en la ciencia de contar.”
Antes de aprender esta ciencia, Nala era un apostador excesivo, pero luego de
aprenderla es capaz de hacer apuestas más sensatas. El Mahábharata no menciona
con detalle de qué ciencia se trata, pero reconoce, como ya se vio, que Rituparna usa
los dados para estimar el número de hojas del árbol. Como quiera que sea, el
concepto de estimación sólo empezó a ser estudiado en Europa hasta el siglo XIX,
lo cual quiere decir que los hindúes, mucho antes que los europeos, ya tenían una
posible teoría del muestreo.
4
El texto del Mahábharata, ya se había completado alrededor del siglo IV dc, como
ahora se conoce, aunque parece ser que la redacción del texto fue aproximadamente
en el siglo IV ac. Existe una traducción del episodio de Nala del Mahábharata, en la
colección Austral de la editorial Espasa Calpe, en cuyos capítulos XIV, XV y XX,
encontrarán los amenos diálogos de los personajes de esta leyenda.
5
Descargar