Algo de Metodología

Anuncio
Algo de Metodología
1. Introducción
Tomado de: http://www.uaq.mx/matematicas/estadisticas/xu2.html
Para la aplicación de los métodos estadísticos a las ciencias sociales, es necesario
comenzar a reconocer la existencia de algunas herramientas y conceptos que, de
manera genérica, no se abordan en los cursos de estadística a nivel teórica.
Por un lado, en esta unidad se tocarán temas que, aún relacionados con la parte
metodológica, son importantes para considerarse a lo largo del curso. Tal es el caso del
concepto de variable y su clasificación, pues ésto puede ser considerado al momento
de seleccionar las herramientas que le pueden ser aplicadas.
Por otro lado, también el uso de instrumentos para recopilar la información resulta una
parte fundamental para la obtención de datos en el área social, y sus características y
validez se deben tomar en cuenta al momento de trabajar en la obtención y
recopilación de la información.
2. Variables
En los estudios estadísticos que se realizan se busca investigar acerca de una o varias
características de la población observada. Para un correcto manejo de la información,
estas características deben ser tomadas en cuenta de acuerdo a su tipo para poder
hablar de la aplicación de algunas de las operaciones que más adelante se llevarán a
cabo.
Una variable es una función que asocia a cada elemento de la población la medición
de una característica, particularmente de la característica que se desea observar.
2.2 Clasificación de variables
De acuerdo a la característica que se desea estudiar, a los valores que toma la
variable, se tiene la siguiente clasificación:
1. Las variables categóricas son aquellas cuyos valores son del tipo categórico,
es decir, que indican categorías o son etiquetas alfanuméricas o "nombres". A
su vez se clasifican en:
a. variables categóricas nominales: son las variables categóricas que,
además de que sus posibles valores son mutuamente excluyentes entre
sí, no tienen alguna forma "natural" de ordenación. Por ejemplo, cuando
sus posibles valore son: "sí" y "no". A este tipo de variable le
corresponde las escalas de medición nominal.
b. variables categóricas ordinales: son las variables categóricas que
tienen algún orden. Por ejemplo, cuando sus posibles valores son:
"nunca sucede", "la mitad de las veces" y "siempre sucede". A este tipo
de variable le corresponde las escalas de medición ordinal.
2. Las variables numéricas toman valores numéricas. A estas variables le
corresponde las escalas de medición de intervalo, y a su vez se clasifican en:
a. variables numéricas discretas: son las variables que únicamente
toman valores enteros o numéricamente fijos. Por ejemplo: las
ocasiones en que ocurre un suceso, la cantidad de pesos que se gastan
en una semana, los barriles de petróleo producidos por un determinado
país, los puntos con que cierra diariamente una bolsa de valores,
etcétera.
b. variables numéricas continuas: llamadas también variables de
medición, son aquellas que toman cualquier valor numérico, ya sea
entero, fraccionario o, incluso, irracional. Este tipo de variable se obtiene
principalmente, como dice su nombre alterno, a través de mediciones y
está sujeto a la precisión de los instrumentos de medición. Por ejemplo:
el tiempo en que un corredor tarda en recorrer una cierta distancia
(depende de la precisión del cronómetro usado), la estatura de los
alumnos de una clase (depende de la precisión del instrumento para
medir longitudes), la cantidad exacta que despacha una bomba de
combustible (para efectos de regulación y fiscalización, y depende de la
precisión del instrumento para medir volúmenes), etcétera.
3. Escalas de medición
Las escalas de medición son el conjunto de los posibles valores que una cierta
variable puede tomar. Por esta razón, los tipos de escalas de medición está
íntimamente ligada con los tipos de variables. Su clasificación es:
I.
II.
III.
La escala de medición nominal: es la que incluye los valores de las variables
nominales, que no tienen un orden preestablecido y son valores mutuamente
excluyentes.
La escala de medición ordinal: es la que incluye los valores de las variables
ordinales que pueden ser ordenadas en un determinado orden, aunque la
distancia entre cada uno de los valores es muy difícil de determinar.
La escala de medición de intervalo: a la que le corresponden las variables
numéricas. En esta escala de medición se encuentra un orden muy establecido
y la distancia entre cada uno de los valores puede ser determinada con
exactitud. Es posible observar que cada uno de dichos intervalos miden
exactamente los mismo.
Es importante mencionar considerar los tipos de escalas de medición, pues sólo en
algunos tipos de escalas de medición se podrán aplicar algunas de las herramientas
estadísticas que se verán en la siguiente unidad. Esto es porque, mientras que para las
escalas de intervalo es posible calcular proporciones, porcentajes y razones, y además
la media, la mediana, la moda, el rango y la desviación estándar; para el caso de las
escalas nominal y ordinal no se pueden aplicar éstas últimas, restringiéndose las
opciones al cálculo de proporciones, porcentajes y razones.
4. Instrumentos de medición
Los instrumentos de medición son las herramientas que se utilizan para llevar a
cabo las observaciones. De acuerdo a lo que se desea estudiar, la característica a
observar, sus propiedades y factores relacionados como el ambiente, los recursos
humanos y económicos, etcétera, es que se escoge uno de estos instrumentos.
Vamos a considerar básicamente tres: la observación, la encuesta (que utiliza
cuestionarios) y la entrevista. Trataremos más adelante cada uno de éstos, y por lo
pronto mencionaremos algunos puntos que, en general, coinciden los tres.
Podemos decir que, a grandes rasgos, el proceso para utilizar, y escoger, alguno de
estos instrumentos de medición, es el siguiente:
1. Definir el objeto de la encuesta: formulando con precisión los objetivos a
conseguir, desmenuzando el problema a investigar, eliminando lo superfluo y
centrando el contenido de la encuesta, delimitando, si es posible, las variables
intervinientes y diseñando la muestra. Se incluye la forma de presentación de
resultados así como los costos de la investigación.
2. La formulación del cuestionario que se utilizará o de los puntos a
observar es fundamental en el desarrollo de una investigación, debiendo ser
realizado meticulosamente y comprobado antes de pasarlo a la muestra
representativa de la población.
3. El trabajo de campo, consistente en la obtención de los datos. Para ello será
preciso seleccionar a los entrevistadores, formarlos y distribuirles el trabajo a
realizar de forma homogénea.
4. Obtener los resultados, o sea, procesar, codificar y tabular los datos
obtenidos para que luego sean presentados en el informe y que sirvan para
posteriores análisis.
4.2 La observación
Es la técnica de estudio por excelencia y se utiliza en todas las ramas de la ciencia. Su
uso está guiado por alguna teoría y ésta determina los aspectos que se van a observar.
Hay que tomar en cuenta que para que sea válido este instrumento de observación, se
deben observar algunas sugerencias que Castañeda Jiménez expone en su libro:
1. Con respecto a las condiciones previas a la observación:
o El observador debe estar familiarizado con el medio.
o Se deben realizar ensayos de la observación, previos a la observación
definitiva.
o El observador debe memorizar lo que se va a observar.
2. Con respecto al procedimiento en la observación:
o Las notas deben ser registradas con prontitud (en minutos).
o Las notas deben incluir las acciones realizadas por el observador.
3. Con respecto al contenido de las notas:
o Las notas deben contener todos los datos que permitan identificar el
día, el lugar y la hora de la observación, así como las circunstancias, los
actores, etcétera, que estuvieron involucrados.
Se deben eliminar apreciaciones subjetivas sobre el carácter o
personalidad de los sujetos. En su lugar se debe incluir la descripción de
los hechos.
o Las conversaciones van transcritas en estilo directo.
o Las opiniones y deducciones del observador se deben hacer aparte, de
preferencia al margen para así no perder la relación entre la opinión del
observador y la parte de las notas a que le corresponde.
4. Con respecto a la ordenación de las notas:
o Las notas deben ser revisadas y corregidas a la brevedad posible.
o Asimismo, las notas deben ser clasificadas y ordenadas para permitir su
manejo más ágil, además de evitar que se pierdan, se confundan con
otras partes de la observación, se traspapelen, etcétera.
o
4.3 La encuesta
Esta herramienta es la más utilizada en la investigación de ciencias sociales. A su vez,
ésta herramienta utiliza los cuestionarios como medio principal para allegarse
información. De esta manera, las encuestas pueden realizarse para que el sujeto
encuestado plasme por sí mismo las respuestas en el papel.
Es importantísimo que el investigador sólo proporcione la información indispensable, la
mínima para que sean comprendidas las preguntas. Más información, o información
innecesaria, puede derivar en respuestas no veraces.
De igual manera, al diseñar la encuesta y elaborar el cuestionario hay que tomar en
cuenta los recursos (tanto humanos como materiales) de los que se disponen, tanto
para la recopilación como para la lectura de la información, para así lograr un diseño
funcionalmente eficaz.
Según M. García Ferrando, "prácticamente todo fenómeno social puede ser estudiado a
través de las encuestas", y podemos considerar las siguientes cuatro razones para
sustentar ésto:
1. Las encuestas son una de las escasas técnicas de que se dispone para el
estudio de las actitudes, valores, creencias y motivos.
2. Las técnicas de encuesta se adaptan a todo tipo de información y a cualquier
población.
3. Las encuestas permiten recuperar información sobre sucesos acontecidos a los
entrevistados.
4. Las encuestas permiten estandarizar los datos para un análisis posterior,
obteniendo gran cantidad de datos a un precio bajo y en un período de tiempo
corto.
Según Cadoche y sus colaboradores, las encuestas se pueden clasificar atendiendo al
ámbito que abarcan, a la forma de obtener los datos y al contenido, de la siguiente
manera:

Encuestas exhaustivas y parciales: Se denomina exhaustiva cuando
abarca a todas las unidades estadísticas que componen el colectivo, universo,
población o conjunto estudiado. Cuando una encuesta no es exhaustiva, se
denomina parcial.


Encuestas directas e indirectas: Una encuesta es directa cuando la unidad
estadística se observa a través de la investigación propuesta registrándose en
el cuestionario. Será indirecta cuando los datos obtenidos no corresponden al
objetivo principal de la encuesta pretendiendo averiguar algo distinto o bien son
deducidos de los resultados de anteriores investigaciones estadísticas.
Encuestas sobre hechos y encuestas de opinión: Las encuestas de
opinión tienen por objetivo averiguar lo que el público en general piensa
acerca de una determinada materia o lo que considera debe hacerse en una
circunstancia concreta. Se realizan con un procedimiento de muestreo y son
aplicadas a una parte de la población ya que una de sus ventajas es la enorme
rapidez con que se obtienen sus resultados.
No obstante, las encuestas de opinión no indican necesariamente lo que el
público piensa del tema, sino lo que pensaría si le planteásemos una pregunta a
ese respecto, ya que hay personas que no tienen una opinión formada sobre lo
que se les pregunta y contestan con lo que dicen los periódicos y las revistas.
A veces las personas encuestadas tienen más de una respuesta a una misma
pregunta dependiendo del marco en que se le haga la encuesta y por
consecuencia las respuestas que se dan no tienen por qué ser sinceras.
Las encuestas sobre hechos se realizan sobre acontecimientos ya ocurridos,
hechos materiales.
Los cuestionarios pueden ser:


Cuestionario individual: Es el que el encuestado contesta de forma individual
por escrito y sin que intervenga para nada el encuestador.
Cuestionario-lista: El cuestionario es preguntado al encuestado en una
entrevista por uno de los especialistas de la investigación.
Como los cuestionarios están formados por preguntas, consideremos las características
que deben reunir, pues deben excluyentes y exhaustivas, lo que se refiere a que
una pregunta no produzca dos respuestas y, simultáneamente, tenga respuesta. (A
cada pregunta le corresponde una y sólo una respuesta.)
Por otro lado, una manera de clasificar a las preguntas es por la forma de su
respuesta:


Preguntas cerradas: que consiste en proporcionar al sujeto observado una
serie de opciones para que escoja una como respuesta. Tienen la ventaja de
que pueden ser procesadas más fácilmente y su codificación se facilita; pero
también tienen la desventaja de que si están mal diseñadas las opciones, el
sujeto encuestado no encontrará la opción que él desearía y la información se
viciaría. Una forma de evitar ésto es realizar primero un estudio piloto y así
obtener las posibles opciones para las respuestas de una manera más confiable.
También se consideran cerradas las preguntas que contienen una lista de
preferencias u ordenación de opciones, que consiste en proporcionar una
lista de opciones al encuestado y éste las ordeanará de acuerdo a sus interes,
gustos, etcétera.
Preguntas abiertas: que consisten en dejar totalmente libre al sujeto
observado para expresarse, según convenga. Tiene la ventaja de proporcionar
una mayor riqueza en las respuestas; mas, por lo mismo, puede llegar a
complicar el proceso de tratamiento y codificación de la información. Una
posible manera de manipular las preguntas abiertas es llevando a cabo un
proceso de categorización, el cual consiste en estudiar el total de respuestas
abiertas obtenidas y clasificarlas en categorías de tal forma que respuestas
semejantes entre sí queden en la misma categoría.
Es importante mencionar que es el objetivo de la investigación la que determina
el tipo de preguntas a utilizar.
Según Cadoche y sus colaboradores, las preguntas pueden ser clasificadas de acuerdo
a su contenido:






Preguntas de identificación: edad, sexo, profesión, nacionalidad, etcétera.
Preguntas de hecho: referidas a acontecimientos concretos. Por ejemplo:
¿terminó la educación básica?
Preguntas de acción: referidas a actividades de los encuestados. Por ejemplo:
¿ha tomado algún curso de capacitación?
Preguntas de información: para conocer los conocimientos del encuestado.
Por ejemplo: ¿sabe qué es un hipertexto?
Preguntas de intención: para conocer la intención del encuestado. Por
ejemplo: ¿utilizará algún programa de computación para su próxima clase?
Preguntas de opinión: para conocer la opinión del encuestado. Por ejemplo:
¿qué carrera cursarás después del bachillerato?
Otra clasificación propuesta es según la función que las preguntas desarrollen dentro
del cuestionario. De esta manera tenemos:






Preguntas filtro: son aquéllas que se realizan previamente a otras para
eliminar a los que no les afecte. Por ejemplo: ¿Tiene usted coche? ¿Piensa
comprarse uno?
Preguntas trampa o de control: son las que su utilizan para descubrir la
intención con que se responde. Para ello se incluyen preguntas en diversos
puntos del cuestionario que parecen independientes entre sí, pero en realidad
buscan determinar la intencionalidad del encuestado al forzarlo a que las
conteste coherentemente (ambas y por separado) en el caso de que sea
honesto, pues de lo contrario «caería» en contradicciones.
Preguntas de introducción o rompehielos: utilizadas para comenzar el
cuestionario o para enlazar un tema con otro.
Preguntas muelle, colchón o amortiguadoras: son preguntas sobre temas
peligrosos o inconvenientes, formuladas suavemente.
Preguntas en batería: conjunto de preguntas encadenadas unas con otras
complementándose.
Preguntas embudo: se empieza por cuestiones generales hasta llegar a los
puntos más esenciales.
Para la realización de un cuestionario eficaz y útil, Cadoche y su equipo proponen 17
reglas fundamentales para su elaboración:
1.
2.
3.
4.
5.
6.
Las preguntas han de ser pocas (no más de 30).
Las preguntas preferentemente cerradas y numéricas.
Redactar las preguntas con lenguaje sencillo.
Formular las preguntas de forma concreta y precisa.
Evitar utilizar palabras abstractas y ambiguas.
Formular las preguntas de forma neutral.
7. En las preguntas abiertas no dar ninguna opción alternativa.
8. No hacer preguntas que obliguen a esfuerzos de memoria.
9. No hacer preguntas que obliguen a consultar archivos.
10. No hacer preguntas que obliguen a cálculos numéricos complicados.
11. No hacer preguntas indiscretas.
12. Redactar las preguntas de forma personal y directa.}
13. Redactar las preguntas para que se contesten de forma directa e inequívoca.
14. Que no levanten prejuicios en los encuestados.
15. Redactar las preguntas limitadas a una sola idea o referencia.
16. Evitar preguntas condicionantes que conlleven una carga emocional grande.
17. Evitar estimular una respuesta condicionada. Es el caso de preguntas que
presentan varias respuestas alternativas y una de ellas va unida a un objetivo
tan altruista que difícilmente puede uno negarse.
Asimismo, hay que considerar que no todas las preguntas, o todas las formulaciones,
posibles son aquellas que se pueden utilizar. Consideremos las siguientes algunos
ejemplos de las preguntas que no deben hacerse:





Preguntas de intelectuales: Por ejemplo: ¿Qué aspectos particulares del
actual debate positivista-interpretativo le gustaría ver reflejados en un curso de
psicología del desarrollo dirigido a una audiencia de maestros?
Preguntas complejas: Por ejemplo: ¿Cuando prepara sus clase prefiere
consultar un libro determinado incorporando la terminología que este propone o
escoge varios libros de los que extrae un poco de cada uno pero que explica con
sus propias palabras para hacerlos más accesibles a sus alumnos y no
confudirlos?
Preguntas o instrucciones irritantes: Por ejemplo: ¿Ha asistido alguna vez
en tiempo de servicio a un curso de cualquier clase durante su carrera entera
de maestro?. Si tiene mas de 40 años y nunca ha asistido a un curso, ponga
una marca en la casilla rotulada NUNCA y otra en la casilla rotulada VIEJO.
Preguntas que emplean negaciones: Por ejemplo: ¿Cuál es su sincera
opinión sobre que ningún maestro debería dejar de realizar cursos de
perfeccionamiento durante su ejercicio profesional?
Preguntas demasiado abiertas: Por ejemplo: Use las pág. 5,6 y 7
respectivamente para responder a cada una de las cuestiones a cerca de sus
actitudes respecto a los cursos de perfeccionamiento en general y a sus
opiniones a cerca de su valor en la vida profesional del maestro.
Con todo lo anterior nos podemos imaginar la importancia del planteamiento y la
elaboración del cuesitonario, pues de la forma en que este instrumento se elabore y se
redacte dependerán los resultados. Una encuesta no puede obtener buenos resultados
con un mal cuestionario, pues si el cuestionario es oscuro, ambiguo o impreciso, los
resultados jamás podrán ser menos oscuros, ambiguos o imprecisos, sino al contario:
se acentuarán estas deficiencias.
Castañeda Jiménez propone tomar en cuenta lo siguiente:
1. En la elaboración o construcción del instrumento:
o Hay que determinar los reactivos de acuerdo a lo que se necesita
observar.
o Hay que determinar el orden de los reactivos de acuerdo a los aspectos
que se mencionan más adelante.
Se debe tener cuidado en la formulación de los reactivos. Una
formulación incorrecta o diferente puede dar lugar a interpretaciones
diferentes por parte del entrevistado a las que el observador desea.
2. Respecto al orden de los reactivos:
o Es conveniente situar los reactivos que sean más difíciles de ser
contestado honestamente al final, de esta manera no se desanimará de
antemano el entrevistado.
o Otra opción es repetir dos o tres reactivos que posean la misma
información pero con diferente redacción. Estos reactivos de control
permitirán detectar cuándo el entrevistado está contestando
honestamente.
3. Respecto a la redacción de los reactivos:
o La redacción, y el vocabulario, debe estar acorde a la persona
observada, tomando en cuenta su edad, nivel cultural, nivel escolar,
nivel socio-económico, etcétera.
o Cada reactivo debe contener una y sólo una pregunta.
o En la redacción de la pregunta no debe estar sugerida alguna de las
respuestas.
o Tampoco conviene apoyarse o mencionar opiniones o sugerencias ya
existentes, como son posiciones de instituciones, de personas, etcétera.
o
De manera muy similar, Cadoche y sus colegas proponen una guía para preparar un
cuestionario:



Decisiones sobre el contenido de las preguntas:
1. ¿Es necesaria la pregunta? ¿Será útil?
2. ¿Se necesitan varias preguntas sobre esta cuestión?
3. ¿Cuentan los informantes con los datos necesarios para contestar la
pregunta?
4. ¿Necesita la pregunta ser más concreta, específica e íntimamente ligada
con la experiencia personal del informante?
5. ¿Es el contenido de la pregunta lo suficientemente general y está libre
de concreciones y especificidades falsas?
6. ¿Expresan las preguntas actitudes generales y son tan específicas como
suenan?
7. ¿Está el contenido de la pregunta polarizado o cargado en una dirección
sin preguntas acompañantes que equilibren el énfasis?
8. ¿Darán los informantes la información que se les pide?
Decisiones sobre la redacción de las preguntas:
1. ¿Se puede malinterpretar la pregunta?¿Contiene fraseología difícil o poco
clara?
2. ¿Expresa la pregunta adecuadamente la alternativa con respecto al
punto?}
3. ¿Es engañosa la pregunta por culpa de asunciones no establecidas o de
implicaciones que no se ven?
4. ¿Está polarizada la redacción?¿Está cargada emocionalmente o inclinada
hacia un tipo particular de contestación?
5. ¿Puede ser objetable por el informante la redacción de la pregunta?
6. ¿Produciría mejores resultados una redacción mas personalizada de la
pregunta?
7. ¿Puede preguntarse mejor la cuestión, de manera más directa o más
indirecta?
Decisiones sobre la forma de respuesta de la pregunta:

1. ¿Puede contestarse mejor la pregunta con un impreso que exija la
contestación por una marca (o contestación corta de una o dos palabras,
o un número), de respuesta libre o por una marca con contestación
ampliatoria?
2. Si se usa la contestación por una marca, ¿cuál es el mejor tipo de
cuestión: dicotómica, de elección múltiple, o de escala?
3. Si se usa una lista de comprobación,¿cubre adecuadamente todas las
alternativas significativas sin solaparse y en un orden definible? ¿Es de
una longitud razonable? ¿Es la redacción de los ítems imparcial y
equilibrada?
4. ¿Es fácil, definida, uniforme y adecuada para la finalidad, la forma de
respuesta?
Decisiones sobre la ubicación de la pregunta en la secuencia:
1. ¿Puede verse influida por el contenido de las cuestiones precedentes la
contestación a la pregunta?
2. ¿Está dirigida la pregunta en una forma natural? ¿Está en correcto orden
psicológico?
3. ¿Aparece la pregunta demasiado pronto o demasiado tarde desde el
punto de vista de despertar interés y recibir la atención suficiente?
Se puede consultar el material, disponible a través de internet, que Cadoche y sus
colaboradores han elaborado, y en el cual se trata más a fondo este punto de la
elaboración del cuestionario y las preguntas.
4.4 La entrevista
La entrevista es muy utilizada también en investigación social, y sus características son
similares a las del cuestionario, siendo la principal diferencia el hecho de que es el
encuestador u observador quien anota las respuestas a las preguntas.
La utilización de este instrumento conlleva una mayor habilidad por parte del
encuestador u observador en conducir el tema de la entrevista, debido a que las
respuestas son por lo general abiertas y permiten implementar nuevas preguntas no
contempladas por el encuestador inicialmente. Esto proporciona la ventaja de explotar
temas no contemplados inicialmente o ahondar en algunos de los contemplados. Mas
tiene la desventaja de que, si no se tiene la suficiente habilidad para mantener el
tema, la entrevista se "pierde" e, incluso, puede invalidarse.
Las recomendaciones en general y las referentes al tipo de preguntas utilizadas, son
las mismas que las realizadas para el caso del cuestionario, aunque se le añade el uso
de una grabadora (de audio o de vídeo) para la posterior transcripción de los diálogos.
Hipertexto a cargo del L.E. Víctor Larios Osorio, del Depto. de Matemáticas de la Fac.
de Ingeniería de la U.A.Q. (México).
[email protected]
Unidad 3. Estadística Descriptiva
1. Introducción
Tomado de: http://www.uaq.mx/matematicas/estadisticas/xu3.html
Una de las ramas de la Estadística más accesible a la mayoría de la población es la
Descriptiva. Esta parte se dedica única y exclusivamente al ordenamiento y
tratamiento mecánico de la información para su presentación por medio de tablas y de
representaciones gráficas, así como de la obtención de algunos parámetros útiles para
la explicación de la información.
La Estadística Descriptiva es la parte que conocemos desde los cursos de educación
primaria, que se enseña en los siguientes niveles y que, por lo general, no pasa a ser
un análisis más profundo de la información. Es un primer acercamiento a la
información y, por esa misma razón, es la manera de presentar la información ante
cualquier lector, ya sea especialista o no. Sin embargo, lo anterior no quiere decir que
carezca de metodología o algo similar, sino que, al contrario, por ser un medio
accesible a la mayoría de la población humana, resulta de suma importancia considerar
para así evitar malentendidos, tergiversaciones o errores.
2. Representación de tronco y hoja
Un método para iniciar el análisis exploratorio de los datos, previo al uso de los
métodos estadísticos tradicionales, y que además proporciona información rápida,
visual y es relativamente nueva, es la representación gráfica de tronco y hoja.
Esta representación se basa en la ordenación de los datos a manera de gráfico, pero
sin llegar a ello, utilizando las decenas y las unidades.
Esta técnica se puede encontrar en el libro de Freund y Simon, pero comentaremos su
uso a través del siguiente ejemplo que contiene las calificaciones obtenidas en una
prueba de matemáticas:
78
66
93
73
61 100 70
76 81 83
83
64
88
91
74
70
97
77
72
86
Ahora pensaremos en cada uno de los datos separando las decenas de las unidades, es
decir, el número 51 se verá como 5 | 1. De esta manera las decenas se pondrán en
una columna, en forma vertical, y las unidades a su derecha:
6
7
8
9
10
1
8
3
3
0
6
0
8
7
4
4 2 3 6 0 7
1 3 6
1
Para entenderle un poco más, hemos de decir que el primer renglón que dice 6 | 1 6 4
quiere decir que entre la lista de datos se encuentran los valores 61, 66 y 64.
Esta es la representación gráfica tronco y hoja, donde cada renglón es una posición
de tronco y cada dígito de la derecha es una hoja.
El procedimiento para realizarla es primero empezar con los troncos, es decir la
columna de la izquierda, y después dato por dato ir llenando las hojas a la derecha de
la línea vertical, en el tronco correspondiente.
Además, si se desean tener los datos ordenados, y hay gente que lo prefiere así, se
pueden ordenar las hojas en cada renglón para que la representación quede como
sigue:
6
7
8
9
10
1
0
1
1
0
4
0
3
3
6
2 3 4 6 7 8
3 6 8
7
En realidad una representación de tronco y hojas presenta la misma información que la
lista original de datos, pero de una manera mucho más compacta (especialmente si la
lista de datos es más grande) y manejable.
Sin embargo, información más compleja resulta un poco más difícil de manejar, por lo
que en ocasiones conviene redondear los datos, ignorar sus partes decimales o utilizar
las centenas u otras posiciones de los números para las troncos. En cada uno de esos
casos conviene hacer alguna anotación, o poner una nota, a fin que los lectores
puedan identificar las adecuaciones realizadas y así poder interpretar lo que se quiere
transmitir.
Para mostrar la información de manera más clara, es posible modificar el número de
posiciones del posiciones del tronco, aumentándola o disminuyéndola de acuerdo a las
necesidades particulares de cada problema. Por ejemplo, con los datos del examen
anterior, se pueden dividir en dos cada posición del tronco, utilizando la primera
posición para disponer las hojas 0, 1, 2, 3 y 4, y la segunda posición para las hojas
restantes. De esta manera, se obtiene la representación gráfica de doble tronco:
66+
77+
88+
99+
10-
1
6
0
6
1
6
1
7
0
4
0 2 3 4
7 8
3 3
8
3
Con esto se han duplicado el número de posiciones del tronco, con la intención de
buscar una mayor claridad en la presentación.
Esta manera de representación inicial de los datos no la profundizaremos más, sino
que la utilizaremos más adelante en algunos casos para, precisamente, presentar una
representación inicial de la información obtenida.
3. Población y muestra
Algo importante que hay que mencionar es que no siempre se trabaja con todos los
datos. Ésto por diversas razones, que pueden ser desde prácticas hasta por economía.
Por ejemplo, resultaría muy costoso obtener los datos de todos los seres humanos, o
impráctico (y a la vez destructivo) obtener como datos el tiempo en el que se funden
las bombillas producidas por una cierta marca realizando la medición de toda la
producción. El estudio conduciría a la empresa a la ruina, pues la producción entera
desaparecería.
Por esta razón se considera un subconjunto del total de los casos, sujetos u objetos
que se estudian y que se les obtienen los datos. La población, entonces, es el total
hipotético de los datos que se estudian o recopilan. Ante la imposibilidad ocasional de
conseguir a la población, entonces se recurre a la muestra, que viene siendo un
subconjunto de los datos de la población, pero tal subconjunto tiene que contener
datos que pueden servir para posteriores generalizaciones de las conclusiones. Un
estudio más detallado de las características de las muestras para permitir tales
generalizaciones se realizará más adelante.
3.2. Parámetros y estadísticos
Existen medidas para realizar descripciones cuantitativas de los conjuntos de datos, o
poblaciones, y de sus muestras, diferenciándose entre ellas las que se refieren a las
mismas poblaciones y a las muestras.
Para el caso de las poblaciones, las medidas que las descriven se denominan
parámetros, y suelen estar representadas con letras griegas (por ejemplo  y ). Por
otro lado, para el caso de aquellas medidas que describen a una muestra se les llama
estadísticos o estimadores, y son representados por letras de nuestro alfabeto (por
ejemplo, x o s).
Tales medidas cuantitativas que describen a las poblaciones y a las muestras se
comentarán enseguida.
4. Datos sin agrupar
5. Medidas de tendencia central para datos sin agrupar
David Lane de la Universidad Rice (Rice Virtual Lab in Statistics) tiene un applet que
demuestra las propiedades básicas de la media y la mediana.
Puedes realizar un ejercicio calculando las medidas de tendencia central para una
población de tamaño 20 haciendo click en la siguiente dirección:
http://www.uaq.mx/matematicas/estadisticas/xu3js1.html
6. Medidas de dispersión para datos sin agrupar
Para hacer un ejercicio del cálculo de las medidas de dispersión para una población de
tamaño 20 haciendo click en en la siguiente dirección:
http://www.uaq.mx/matematicas/estadisticas/xu3js1.html
7. Medidas de ubicación para datos sin agrupar
8. Datos agrupados
9. Distribuciones de frecuencias
10. Representaciones gráficas
Gran parte de la utilidad que tiene la Estadística Descriptiva es la de proporcionar un
medio para informar basado en los datos recopilados. La eficacia con que se pueda
realizar tal proceso de información dependerá de la presentación de los datos, siendo
la forma gráfica uno de los más rápidos y eficientes, aunque también uno de los que
más pueden ser manipulados o ser malinterpretados si no se tienen algunas
precauciones básicas al realizar las gráficas. Existen también varios tipos de gráficas,
o representaciones gráficas, utilizándose cada uno de ellos de acuerdo al tipo de
información que se está usando y los objetivos que se persiguen al presentar la
información.
Entonces, mencionaremos algunas consideraciones que conviene tomar en cuenta al
momento de realizar cualquier gráfica a fin de que la información sea transmitida de la
manera más eficaz posible y sin distorsiones:
1. El eje que represente a las frecuencias de las observaciones (comúnmente el
vertical o de las ordenadas) debe comenzar en cero (0), de otra manera podría
dar impresiones erróneas al comparar la altura, longitud o posición de las
columnas, barras o líneas que representan las frecuencias.
2. La longitud de los espacios que representan a cada dato o intervalo (clase) en
la gráfica deben ser iguales.
3. El tipo de gráfico debe coincidir por sus características con el tipo de
información o el objetivo que se persigue al representarla, de otra manera la
representación gráfica se convierte en un instrumento ineficaz, que produce
más confusión que otra cosa, innecesario o productor de malinterpretaciones.
Por ejemplo, si se desea representar la proporción de población masculina en
un país conviene más usar una gráfica de pastel o circular que una gráfica de
barras al compararla contra la población femenina; por un lado se puede
apreciar dicha proporción, por el otro se aprecia cuál de las dos poblaciones es
mayor.
Hay un punto que conviene remarcar: existe software que permite la construcción
rápida y eficiente de gráficas a partir de bases de datos o hojas de cálculos, pero no
importa cuán bonita, bien delineada, bien coloreada o bien presentada esté una
gráfica, si no se han tomado en cuenta consideraciones de este tipo que tienen que ver
más sobre el objetivo de estas herramientas y la Estadística: la transmisión
eficiente de la información.
10.2. Tipos de gráficos
Para las distribuciones de frecuencias la representación gráfica más común es el
histograma. Un ejemplo es el que se presenta a continuación y que representa el
número de "visitas" que ha tenido este hipertexto de acuerdo a la hora de la visita.
En el eje horizontal (o de las abscisas) se representan los intervalos de los datos,
marcándose de manera continua las fronteras entre cada uno de los éstos. De esta
manera, el histograma está compuesto rectángulos, cuyo número coincide con la
cantidad de intervalos considerados, el ancho de la base de cada uno de esos
rectángulos es la misma siempre y coincide con las fronteras de los intervalos, y la
altura corresponde a la frecuencia de cada intervalo.
Es importante observar que resulta difícil utilizar este tipo de representación cuando
existen intervalos abiertos o cuando los intervalos no son iguales entre sí.
Otra observación es la amplitud de los intervalos, que se puede establecer utilizando la
regla de Sturges, pues al cambiarla la presentación visual de un histograma puede
variar. Un applet que muestra cómo el número de clases y su ancho pueden hacer
variar fue desarrollado por Webster West de la Universidad del Sur de Carolina.
El programa Excel no permite crear de manera automática histogramas, pues
proporciona el ancho de las columnas de tal manera que quedan separadas. Sin
embargo, existe la manera de hacerlas.
Un tipo de gráfico muy parecido al histograma es la gráfica de columnas. Para este
tipo de gráfica, elaboradas con rectángulos también, se pide que sus bases sean del
mismo ancho y sus alturas equivalentes con las frecuencias. Para este tipo, a
diferencia del histograma, no es necesario tener una escala horizontal continua, por lo
que los rectángulos (o barras) no tienen que aparecer juntas entre sí.
Otra observación pertinente es que se pueden representar en la misma gráfica,
utilizando las mismas escalas horizontales y verticales, varios datos correspondientes a
las mismas variables producto de varias observaciones. Esto produce una gráfica con
varias series, correspondiendo cada una de ellas a cada observación de la muestra (o
población), y teniéndose una gráfica compuesta. Es conveniente que cada serie de
datos (u observaciones) sean ilustradas o iluminadas de igual manera entre sí, pero
distinta de las demás.
El ejemplo que sigue pertenece al comportamiento de las calificaciones parciales de
tres alumnos de preparatoria. Las series (cada una de las calificaciones parciales)
están coloreadas con diferente color para mostrar el comportamiento tanto individual,
como de cada uno de los alumnos con respecto a los demás. Es interesante observar
que la escala horizontal no es continua (es nominal).
Existe la posibilidad, y si los recursos lo permiten, de representar gráficos compuestos
de una manera "tridimensional", es decir, con gráficos que posean no sólo dos ejes,
sino tres; y en los que los rectángulos son sustituídos por prismas de base rectangular
(ocasionalmente el software en el mercado permite utilizar prismas cuya base son
polígonos regulares de más de cuatro lados, pirámides o cilindros). Un ejemplo es el
siguiente:
donde se representa el porcentaje del PIB gastado en docencia e investigación por
cinco países en el lapso de 1988 a 1999 (fuente: Revista "Ciencia y
Desarrollo", 1994, XIX(114):12). Es importante considerar que este tipo de
gráficos puede complicarse mucho, haciendo que la información sea menos legible.
También es posible realizar gráficas de barras horizontales, los cuales se parecen
mucho a las gráficas de columnas, con la salvedad importante de que la función de los
ejes se intercambian y el eje horizontal queda destinado a las frecuencias y el eje
vertical a las clases.
Es muy común que este tipo de gráficos se utilicen para ilustrar el tamaño de una
población dividida en estratos como, por ejemplo, son sus edades. El ejemplo que se
presenta es la población de un país ficticio llamado "Timbuctulandia":
A este tipo de gráficos en particular se le llama pirámide de edades por su forma.
Incluso, cuando se compara la población masculina y femenina por estratos de edades,
se estila utiliza el lado izquierdo para la población de un sexo y el lado derecho para el
otro, el resultado es una "pirámide" casi simétrica (dependerá de la población en
particular).
Cuando los datos se relacionan entre sí, es decir, cuando podemos decir que existe
cierta continuidad entre las observaciones (como por ejemplo el crecimiento
poblacional, la evolución del peso o estatura de una persona a través del tiempo, el
desempeño académico de un estudiante a lo largo de su instrucción escolar, las
variaciones presentadas en la medición realizada en algún experimento cada segundo
o minuto) se pueden utilizar las gráficas de líneas, que consisten en una serie de
puntos trazados en las intersecciones de las marcas de clase y las frecuencias de cada
una, uniéndose consecutivamente con líneas:
Este ejemplo muestra el comportamiento del peso corporal (en kilogramos) de dos
individuos a lo largo de cinco observaciones anuales. Al igual que en el caso de las
gráficas de columnas (y de otras más) es posible presentar varias series de
observaciones (en este caso cada serie de observaciones son los pesos de un
individuo).
Otra forma de representación de un uso menos común, y muy parecida a las gráficas
de líneas, es el polígono de frecuencias. La diferencia fundamental entre ambas es
que en el polígono de frecuencias se añaden dos clases con frecuencias cero: una
antes de la primera clase con datos y otra después de la última. El resultado es que se
"sujeta" la línea por ambos extremos al eje horizontal y lo que podría ser una línea
separada del eje se convierte, junto con éste, en un polígono.
El siguiente ejemplo corresponde al porcentaje del PIB gastado en docencia e
investigación durante el año de 1990 en cinco países (fuente: Revista "Ciencia y
Desarrollo", 1994, XIX(114):12):
El Excel no crea automáticamente polígonos de frecuencias, sino que produce gráficas
de líneas. Sin embargo, es posible arreglárselas para hacerlas.
Una gráfica similar al polígono de frecuencias es la ojiva, pero ésta se obtiene de
aplicar parcialmente la misma técnica a una distribución acumulativa y de igual
manera que éstas, existen las ojivas mayor que y las ojivas menor que.
Existen dos diferencias fundamentales entre las ojivas y los polígonos de frecuencias (y
por ésto la aplicación de la técnica es parcial):
1. Un extremo de la ojiva no se "amarra" al eje horizontal, para la ojiva mayor que
sucede con el extremo izquierdo; para la ojiva menor que, con el derecho.
2. En el eje horizontal en lugar de colocar las marcas de clase se colocan las
fronteras de clase. Para el caso de la ojiva mayor que es la frontera menor;
para la ojiva menor que, la mayor.
Las siguientes son ejemplos de ojivas, a la izquierda la mayor que, a la derecha la
menor que, utilizando los datos que se usaron para ejemplificar el histograma:
La ojiva mayor que (izquierda) se le denomina de esta manera porque viendo el punto
que está sobre la frontera de clase "4:00" se ven las visitas que se realizaron en una
hora mayor que las 4:00 horas (en cuestiones temporales se diría: después de las
4:00 horas). De forma análoga, en la ojiva menor que la frecuencia que se representa
en cada frontera de clase son el número de observaciones menores que la frontera
señalada (en caso de tiempos sería el número de observaciones antes de la hora que
señala la frontera).
Si se utiliza una distribución porcentual acumulativa entonces se obtiene una ojiva
(mayor que o menor que según sea el caso) cuyo eje vertical tiene una escala que va
del 0% al 100%. El siguiente ejemplo es la misma ojiva menor que que se acaba de
usar, pero con una distribución porcentual:
En ocasiones, al comparar dos series de observaciones (o de datos) se utiliza una
llamada gráfica de áreas, la cual consiste en rellenas el área que se encuentre debajo
de las líneas que resultan de una gráfica de líneas.
El ejemplo que se presenta es la comparación del total de las especies de las familias
del orden Carnivora y las que están amenazadas, en México, (fuente: Revista
"Ciencia y Desarrollo", 1994, XIX(114):58):
Cuando lo que se desea es resaltar las proporciones que representan algunos
subconjuntos con respecto al total, es decir, cuando se está usando una escala
categórica, conviene utilizar una gráfica llamada de pastel o circular.
Por ejemplo, para ilustrar la matrícula en licenciatura (en México) por áreas de
conocimiento en el año de 1992 se puede usar algo así como sigue (Fuente:
ANUIES,1995):
De hecho, si se desea resaltar una de las categorías que se presentan, es válido tomar
esa "rebanada" de la gráfica y separarla de las demás:
Para hacer una gráfica de este tipo en papel.
Hay que tomar algunas precauciones al utilizar este tipo de gráficos. Por un lado,
comparar dos gráficos circulares (por ejemplo, si se quisieran comparar las
proporciones de matrículas en licenciatura por áreas de conocimiento en licenciatura
para dos años distintos) resulta muy difícil y, por tanto, no es muy aconsejable.
Por otro lado, en ocasiones existen categorías con pocas frecuencias (por ejemplo, dos
o tres con frecuencias relativas menores al 1% cada una), haciendo que la gráfica
resulte "pesada" y las etiquetas se encimen. Una posible solución es juntarlas en una
sola categoría (por ejemplo, la típica "otras" o "varias"), pero entonces habría que
ponderar si se hace una gráfica extra con dichas observaciones únicamente, haciendo
la anotación pertinente, o simplemente se ignoran por no resultar significativas.
Actualmente, y mucho en los medios masivos de comunicación, se utilizan gráficos
para ilustrar los datos o los resultados de alguna investigación. Regularmente se
utilizan dibujos para representar dicha información, y el tamaño o el número de estos
dibujos dentro de una gráfica queda determinado por la frecuencia correspondiente. A
este tipo de gráfica se le llama pictograma y éstos son dos ejemplos:
El de la izquierda representa la población de los Estados Unidos (cada hombrecillo
representa a dos millones de habitantes), el de la derecha representa la masa de tres
planetas de nuestro sistema solar tomando como unidad a la masa de la Tierra (cada
representa la masa de nuestro planeta: Venus tiene masa menor y Neptuno tiene más
17 veces más masa que la Tierra).
Las versiones del Excel 7.0 y anteriores no tienen opciones para realizar este tipo de
gráficas, las posteriores sí. Otros programas contemporáneos (como el Corel Draw o el
Harvard Graphics) sí son capaces.
Cuando se pretende ilustrar la dispersión de las observaciones realizadas, y así
trabajar algunas cosas como correlaciones se puede utilizar una gráfica de
dispersión. Por ejemplo, el ejemplo de la izquierda es la dispersión que se presenta al
comparar el número de tesis doctorales en ciencias exactas contra el número de total
de tesis doctorales (todo en México) en observaciones anuales entre 1984 y 1990
(fuente: Revista "Ciencia y Desarrollo", 1994, XIX(114):12):
La gráfica de la derecha es resultado de comparar el diámetro (en miles de kilómetros)
de los planetas interiores del nuestro sistema solar contra sus densidades (en gramos
por centímetro cúbico). Es interesante observar que los puntos parecen "seguir" una
línea imaginaria que se asemeja a una recta, con excepción de un caso atípico:
Mercurio.
Uno de los usos de este tipo de gráficas es precisamente encontrar si las observaciones
siguen algún patrón lineal (una línea de tendencia) o si existen valores atípicos. Para el
caso del Excel, el programa es capaz de graficar las líneas de tendencias que siguen un
conjunto de datos.
Un tipo de gráfico similar a las gráficas de dispersión son las gráficas de burbujas,
en las cuales se presenta la dispersión de las observaciones de la misma forma que
aquéllas, pero se le añade la posibilidad de visualizar otra variable representada en el
tamaño del punto, pues éstos se convierten en círculos (burbujas) con radios
proporcionales a las magnitudes que representan.
Este ejemplo compara la distancia que existe en cada uno de los planetas interiores de
nuestro sistema solar al Sol contra el tiempo que necesitan para recorrer sus órbitas, y
el tamaño de las burbujas indica la masa de cada planeta.
Además existen otros tipos de gráficos, cada uno con características particulares que
les proporcionan cierta intencionalidad para su uso, como son las gráficas de radar y
las gráficas polares.
11. Medidas de tendencia central para datos agrupados
Para hacer un ejercicio de las medidas de tendencia central con una distribución de
frecuenicas de hasta diez intervalo haz click en
http://www.uaq.mx/matematicas/estadisticas/xu3js2.html
12. Medidas de dispersión para datos agrupados
Un ejercicio del cálculo de las medidas de dispersión con una distribución de
frecuenicas de hasta diez intervalo se puede acceder si das click en
http://www.uaq.mx/matematicas/estadisticas/xu3js2.html
13. Medidas de ubicación para datos agrupados
1997-1999. ViL & DDT Software'n'Web, Co.
1997-1999. Víctor Larios Osorio. Universidad Autónoma de Querétaro (México).
URL de esta página: http://www.uaq.mx/matematicas/estadisticas/xu3.html.
Última actualización: 20 de septiembre de 1999.
Unidad 4. Probabilidad
1. Introducción
Muchos de los eventos que ocurren en la vida diaria no pueden ser predichos con
exactitud desde antes por diversas razones, pues la mayoría de los hechos están
influidos por factores externos. Además, existen aquellos sucesos que están
directamente influidos por el azar, es decir, por procesos que no se está seguro de lo
que va a ocurrir. Sin embargo, la probabilidad nos permite acercarnos a esos sucesos y
estudiarlos, ponderando las posibilidades de su ocurrencia y proporcionando métodos
para tales ponderaciones.
Precisamente, algunos de esos métodos proporcionados por la probabilidad nos llevan
a descubrir que algunos sucesos tienen una mayor o menor probabilidad de ocurrir que
la ponderación asignada a través del sentido común. Nuestros sentidos, la información
previa que poseemos, nuestras creencias o posturas, nuestras inclinaciones, son
algunos de los factores que intervienen para no permitirnos hacer ponderaciones reales
y sistemáticas. La probabilidad nos permitirá estudiar los eventos de una manera
sistemática y más cercana a la realidad, retribuyéndonos con información más precisa
y confiable y, por tanto, más útil para las disciplinas humanas.
Precisamente, un applet que muestra cómo no siempre la probabilidad que le
asignamos a un evento a través del sentido común coincide con la probabilidad real
obtenida por medios teóricos es el desarrollado por West y Street de la University of
South Carolina, que permite estudiar un concurso de televisión de los 70's llamado
Let's Make a Deal.
2. Análisis combinatorio
En ocasiones el trabajo de enumerar los posibles sucesos que ocurren en una situación
dada se convierte en algo difícil de lograr o, simplemente, tedioso. El análisis
combinatorio, o cálculo combinatorio, permite enumerar tales casos o sucesos y así
obtener la probabilidad de eventos más complejos.
En el caso de que existan más de un suceso a observar, habría que contar el número
de veces que pueden ocurrir todos los sucesos que se desean observar, para ello se
utiliza el principio fundamental de conteo:
Si un suceso se puede presentar de n1 formas, y otro se puede presentar de n2 formas,
entonces el número de formas en que ambos sucesos pueden presentarse en ese
orden es de n1·n2.
En otras palabras, basta multiplicar el número de formas en que se pueden presentar
cada uno de los sucesos a observar.
Este principio nos remite automáticamente al factorial de un número natural, que se
puede pensar como una función con dominio los números naturales junto con el cero y
codominio los números naturales. El factorial de un número n, denotado n!, se define
como:
Ahora, n es muy grande el proceso de cálculo se vuelve tedioso y muy cargado, incluso
para una computadora, por lo que se utiliza la aproximación de Stirling a n!:
donde e2.71828..., que es la base de los logaritmos neperianos.
En Excel existe la función FACT(n) que calcula el factorial de un número entero no
negativo n.
En el análisis combinatorio se definen las permutaciones, con o sin repetición, y las
combinaciones.
2.2 Permutaciones (u ordenaciones) con repetición
Las permutaciones son también conocidas como ordenaciones, y de hecho toman
este nombre porque son ordenaciones de r objetos de n dados. En este curso las
representaremos como ORnr ó nORr.
Por ejemplo: Sea A={a,b,c,d}, ¿cuántas "palabras" de dos letras se pueden obtener?
Se pide formar permutaciones u ordenaciones de 2 letras, cuando el total de letras es
4. En este caso r=2 y n=4.
Las "palabras" formadas son: aa, ab, ac, ad, ba, bb, bc, bd, ca, cb, cc, cd, da, db, dc,
dd. En total son 16.
En general, si se toman r objetos de n, la cantidad de permutaciones u ordenaciones
con repetición obtenidas son:
ORnr = nORr = n
r
2.3 Permutaciones (u ordenaciones) sin repetición
En este caso, a diferencia del anterior, se realizan ordenaciones de r objetos de n
dados atendiendo a la situación de cada objeto en la ordenación. Su representación
será Pnr ó nPr.
Por ejemplo: Sea el mismo conjunto A={a,b,c,d}, ¿cuántas ordenaciones sin
repetición se pueden obtener?
Lo que resulta es: ab, ac, ad, ba, bc, bd, ca, cb, cd, da, db, dc. Son 12 en total.
En general, si se toman r objetos de un total de n, la cantidad de permutaciones
Pnr = nPr =
El Excel cuenta con la función PERMUTACIONES(n,r) que realiza el cálculo.
2.4 Combinaciones
Es una selección de r objetos de n dados sin atender a la ordenación de los mismos. Es
decir, es la obtención de subcojuntos, de r elementos cada uno, a partir de un
conjunto inicial de n elementos. La denotaremos con Cnr, nCr ó
.
Por ejemplo: Si tomamos el mismo conjunto A={a,b,c,d}, ¿cuántos subconjuntos de
2 elementos cada uno se pueden obtener?
Haciéndolos se obtienen: {a,b}, {a,c}, {a,d}, {b,c}, {b,d}, {c,d}. Son seis los
subconjuntos.
En general, si de n objetos dados se hacen combinaciones de r objetos cada una, el
número de combinaciones obtenidas son:
Cnr = nCr =
o, que es lo mismo,
Cnr = nCr =
En Excel la función COMBINAT(n,r) calcula las combinaciones de n objetos tomando r
de ellos.
3. Eventos
Cuando se realiza un experimento, que es cualquier proceso que produce un
resultado o una observación, se van a obtener un conjunto de valores. A este conjunto
de valores que puede tomar una variable se le denomina espacio muestral.
Por ejemplo: Si se tiene un dado cualquiera, el espacio muestral (EM) es
EM={1,2,3,4,5,6}.
Si existen más de una variable, el espacio muestral está formado por las
combinaciones de valores de cada una de las variables.
Si tomamos un subconjunto cualquiera del espacio muestral tenemos lo que se
denomina un evento, y si éste consta de un solo elemento entonces es un evento
elemental.
Como se puede uno imaginar, existen eventos que siempre, no importa el número de
experimentos o su situación, ocurren, y en cambio existen otros que nunca ocurren.
Los que siempre ocurren son los eventos seguros, y los que nunca son los eventos
imposibles.
Sin embargo, no todos los resultados son al azar, pues si un experimento es cualquier
proceso entonces los resultados pueden tomar cualquier tipo de valor. Por esta razón,
se define como experimento aleatorio al proceso en el que se pueden predecir con
certeza la ocurrencia de sus eventos, con excepción del seguro o del imposible. Hay
que hacer la observación que esta definición habla en términos generales y no
específicamente sobre algún experimento en particular.
A aquélla variable que está asociada a un experimento de este tipo se le denomina
variable aleatoria.
En cambio, a un experimento no aleatorio se le denomina experimento
determinístico.
Cuando hablamos de varios eventos dentro del mismo experimento se pueden dar
varios casos.
Si dos o más eventos no pueden ocurrir simultáneamente, se llaman eventos
mutuamente excluyentes, es decir, que la intersección de ambos eventos es vacía.
Por otro lado, en ocasiones un evento o más eventos dependen de otro evento previo,
es decir, un evento A ocurre dado que ocurrió un evento B. Si existe este tipo de
relación entre eventos se dice que son eventos dependientes o condicionados (el
evento A depende del evento B, o el resultado del evento A está condicionado al
resultado del evento B). Por otro lado, si no existe tal relación entre eventos se dice
que son eventos independientes. Los criterios de dependencia o de independencia
se definirán más adelante, en términos de probabilidad condicional.
4. Probabilidad de eventos
Para calcular la probabilidad de eventos es necesario que éstos se comporten de una
maner más o menos estable. Precisamente, se echa mano de la regularidad
estadística, que es la propiedad de los fenómenos aleatorios, y que consiste en que al
aumentar el número de repeticiones de un experimento en condiciones prácticamente
constantes, la frecuencia relativa de ocurrencia para cada evento tiende a un valor fijo.
Sin embargo, al momento de definir la probabilidad de un evento podemos tomar en
cuenta los siguientes criterios:
1. La probabilidad subjetiva de un evento se la asigna la persona que hace el
estudio, y depende del conocimiento que esta persona tenga sobre el tema.
Precisamente por su carácter de subjetividad no se considera con validez
científica, aunque en la vida diaria es de las más comúnes que se utilizan al no
apoyarse más que en el sentido común y los conocimientos previos, y no en
resultados estadísticos.
2. La probabilidad frecuencial de un evento es el valor fijo al que tienden las
frecuencias relativas de ocurrencia del evento de acuerdo a la regularidad
estadística. Esta definición sería la más real, pero proporciona probabilidades
aproximadas, es decir, proporciona estimaciones y no valores reales. Además,
los resultados son a posteriori, pues se necesita realizar el experimento para
poder obtenerlo. (Para ver un ejemplo haz click aquí.)
3. La probabilidad clásica de un evento E, que denotaremos por P(E), se
define como el número de eventos elementales que componen al evento E,
entre el número de eventos elementales que componen el espacio muestral:
Es la definición más utilizada porque supone de antemano, y se necesita como
requisito indispensable, que todos los eventos elementales tienen la misma
probabilidad de ocurrir.
5. Axiomas de la probabilidad
Recordemos primero que las frecuencias relativas de una distribución tenían las
siguientes propiedades:
1. Las frecuencias relativas son mayores o iguales que cero.
2. La frecuencia relativa del espacio muestral es igual a la unidad.
3. Si dos eventos son mutuamente excluyentes, es decir que no ocurren
simultáneamente, entonces la frecuencia relativa de su unión es la suma de las
frecuencias relativas de cada uno.
Tomando en cuenta que la probabilidad de un evento, de acuerdo a la definición ya
expuesta, es la frecuencia relativa cuando se aumenta el tamaño de la muestra, se
tienen lo siguiente.
Si E es un evento de un espacio muestral S y P(E) es la probabilidad de E, entonces se
satisfacen los axiomas de la probabilidad:
1. 0 P(E)1.
2. P(S) = 1.
3. Si E1, E2, ... , En son eventos mutuamente excluyentes, entonces
Con estos axiomas podremos tratar algunas de las propiedades de la probabilidad de
eventos.
6. Posibilidades y probabilidades
Se habla muy comúnmente en sitios de apuestas, como en las autódromos o
hipódromos, de que "las apuestas a tal o cual participante es de x a y", es decir, que
las posibilidades de que gane es de x a y. Esta manera de expresarse se refiere al uso
de razones.
En términos generales, la posibilidad de que ocurra un evento se determina mediante
la razón de la probabilidad de que ocurra a la probabilidad de que no ocurra.
Esto quiere decir que si la probabilidad de que un evento ocurra es p, entonces las
posibilidades de que ocurra son x a y, es decir
Tales que x y y son enteros positivos.
Por ejemplo: Si se tiran dos monedas normales (no trucadas), la probabilidad de que
las dos monedas caigan cara es de ¼. Esto quiere decir si alguien apuesta a que las
dos monedas no caen simultáneamente en cara, la posibilidad de ganar la apuesta es
de
es decir, 3 a 1.
Hemos de considerar que si es mayor la probabilidad de que no ocurra un evento,
entonces se acostumbra mencionar las posibilidades en contra del evento.
Por ejemplo: Si se tira un dado no trucado, sabemos que la probabilidad de obtener
un cuatro es 1/6, es decir que la posibilidad de obtener un cuatro es de 1 a 6; pero se
acostumbra decir que las posibilidades en contra, esto es, de no obtener un cuatro es
de 6 a 1.
Inversamente, en el caso de tener las posibilidades de un evento, entonces es fácil
obtener su probabilidad, pues si la posibilidad de un evento es de x a y, entonces la
probabilidad p de que ocurra tal evento es
Por ejemplo: En la Copa Mundial de Futbol Francia 1998 se decía que el equipo
mexicano tenía una posibilidad de 1 a 75 de llegar a ser el campeón del torneo.
Si se desea encontrar la probabilidad de que el equipo mexicano llegase a ser
campeón, entonces se tiene que
es la probabilidad de que ocurriese el evento.
Esto tiene la ventaja de que permite, en combinación con el tercer axioma de la
probabilidad, medir la confiabilidad que tienen las opiniones de las personas sobre las
posibilidades que le asignan a algunos eventos. Esto quiere decir que el cálculo de las
probabilidades de dos eventos mutuamente excluyentes a partir de las posibilidades
otorgadas de manera subjetiva resulta como un criterio de consistencia.
Por ejemplo: Un criminólogo piensa que las posibilidades de que en la próxima
semana la cantidad de delitos en una ciudad aumente con respecto a la anterior es de
5 a 2, de que sea la misma cantidad de delitos es de 1 a 3 y las posibilidades de que
aumente la cantidad o sea la misma es de 7 a 4.
Si se desea saber si son consistentes las probabilidades correspondientes habría que
hacer los cálculos.
Las probabilidades de aumente la cantidad de delitos, sea igual la cantidad de delitos,
y de que aumente o sea igual la cantidad de delitos es, respectivamente, de
y dado que
(como son eventos mutuamente excluyentes) no es lo
mismo que 7/11, entonces los criterios del criminólogo pueden ser cuestionados.
7. Propiedades de la probabilidad de eventos no
elementales
Cuando se tienen eventos elementales no existe mucho problema en el sentido del
cálculo de las probabilidades, pues basta con una contabilización o el uso directo del
cálculo combinatorio. Pero en el caso de eventos no elementales, que son los
compuestos por más de un evento elemental, el proceder de manera análoga resulta
muy complejo y las operaciones pueden sobrepasar la capacidad de cálculo existente.
Sin embargo, utilizando los axiomas de la probabilidad y las siguientes propiedades, se
podrán expresar las probabilidades de estos eventos en términos de los eventos
elementales que lo componen, siempre y cuando se conozcan las probabilidades de
éstos.
Veamos la probabilidad de una unión de eventos, la cual la podremos calcular de
la siguiente manera:
Propiedad 1. Si A y B son dos eventos, la probabilidad de que ocurra A o B es igual a
la suma de las probabilidades de ocurrencia de A y de B, menos la probabilidad de que
ocurran A y B simultáneamente. Es decir,
P(AB) = P(A) + P(B) - P(AB)
Ahora, si el caso es que los eventos sean mutuamente excluyentes se tiene:
Propiedad 2. Si dos eventos, A y B, son mutuamente excluyentes entonces la
probabilidad de que ocurra A o B es igual a la suma de las probabilidades de ocurrencia
de A y de B. Es decir
P(AB) = P(A) + P(B)
Otra propiedad que se deriva de las anteriores es cuando se busca la probabilidad del
complemento de un evento E, que denotaremos como ~E:
Propiedad 3. Si E es un evento y ~E su complemento, entonces
P(~E) = 1 - P(E)
Retomando los conceptos de eventos dependientes o condicionales, se va a definir la
probabilidad condicional como sigue:
Propiedad 4. La probabilidad de que ocurra un evento A dado que ocurrió el evento B
(el evento A depende del evento B), denotado P(A|B), es:
Hay que notar que esta propiedad no es conmutativa, situación que sí ocurre con la
probabilidad de unión o la intersección de eventos, por lo que no hay que confundir
P(A|B) y P(B|A).
Finalmente, el criterio para la independencia de eventos queda como sigue:
Propiedad 5. Dos eventos A y B son independientes si y sólo si
P(A|B) = P(A) y P(B|A) = P(B)
o, que es lo mismo:
P(AB) = P(A) · P(B)
Hipertexto a cargo del L.E. Víctor Larios Osorio, del Depto. de Matemáticas (Fac. Ing.) de la UAQ (México).
[email protected]
Unidad 5. Teoría de muestreo
I. Introducción
Tomado de: http://www.uaq.mx/matematicas/estadisticas/xu5.html#t3
Una parte fundamental para realizar un estudio estadístico de cualquier tipo es obtener
unos resultados confiables y que puedan ser aplicables. Como ya se comentó
anteriormente, resulta casi imposible o impráctico llevar a cabo algunos estudios sobre
toda una población, por lo que la solución es llevar a cabo el estudio basándose en un
subconjunto de ésta denominada muestra.
Sin embargo, para que los estudios tengan la validez y confiabilidad buscada es
necesario que tal subconjunto de datos, o muestra, posea algunas características
específicas que permitan, al final, generalizar los resultados hacia la población en total.
Esas características tienen que ver principalmente con el tamaño de la muestra y con
la manera de obtenerla.
En las siguientes secciones de esta unidad lo comentaremos.
2. Importancia del muestreo
A lo largo del curso se hacen uso de dos tipos de razonamiento: el deductivo y el
inductivo. El primero está relacionado directamente con la teoría de probabilidad, que
se aborda en la unidad 4, y que a partir de las características de la población se
obtienen las posibles características de una muestra. El segundo tipo de razonamiento
se relaciona con la denominada inferencia estadística: utilizar las características de
un subconjunto de la población (la muestra) para hacer afirmaciones (inferir) sobre la
población en general. Éste será el caso de esta unidad.
El muestro, como ya se mencionó, implica algo de incertidumbre que debe ser
aceptada para poder realizar el trabajo, pues aparte de que estudiar una población
resulta ser un trabajo en ocasiones demasiado grande, Wonnacott y Wonnacott ofrecen
las siguientes razones extras:



Recursos limitados. Es decir, no existen los recursos humanos, materiales o
económicos para realizar el estudio sobre el total de la población. Es como
cuando se compra un aparato, un automóvil usado (por ejemplo), que se
prueba unos minutos (el encendido, una carrerita, etc.) para ver si funciona
correctamente y luego se adquiere, pero no se espera a probarlo toda la vida
(encendiéndolo y apagándolo o, simplemente, dejándolo encendida) antes de
realizar la adquisición.
Escasez. Es el caso en que se dispone de una sola muestra. Por ejemplo, para
el estudio paleontológico de los dinosaurios (el T. Rex por ejemplo) sería muy
bueno contar con, al menos, muchos restos fósiles y así realizar tales
investigaciones; sin embargo, se cuenta sólo con una docena de esqueletos
fosilizados (casi todos incompletos) de esas criaturas en todo el mundo.
Pruebas destructivas. Es el caso en el que realizar el estudio sobre toda la
población llevaría a la destrucción misma de la población. Por ejemplo, si se

quisiese saber el conteo exacto de hemoglobina de una persona habría que
extraerle toda la sangre.
El muestreo puede ser más exacto. Esto es en el caso en el que el estudio
sobre la población total puede causar errores por su tamaño o, en el caso de los
censos, que sea necesario utilizar personal no lo suficientemente capacitado;
mientras que, por otro lado, el estudio sobre una muestra podría ser realizada
con menos personal pero más capacitado.
Ya que hemos mencionado la necesidad de realizar muestras, continuaremos con
algunas características que deben tener éstas para que, realmente, se puedan realizar
inferencias (inducciones) sobre ellas hacia la población total.
3. Tamaño de las muestras
Para calcular el tamaño de una muestra hay que tomar en cuenta tres factores:
1. El porcentaje de confianza con el cual se quiere generalizar los datos desde la
muestra hacia la población total.
2. El porcentaje de error que se pretende aceptar al momento de hacer la
generalización.
3. El nivel de variabilidad que se calcula para comprobar la hipótesis.
La confianza o el porcentaje de confianza es el porcentaje de seguridad que existe
para generalizar los resultados obtenidos. Esto quiere decir que un porcentaje del
100% equivale a decir que no existe ninguna duda para generalizar tales resultados,
pero también implica estudiar a la totalidad de los casos de la población.
Para evitar un costo muy alto para el estudio o debido a que en ocasiones llega a ser
prácticamente imposible el estudio de todos los casos, entonces se busca un
porcentaje de confianza menor. Comúnmente en las investigaciones sociales se busca
un 95%.
El error o porcentaje de error equivale a elegir una probabilidad de aceptar una
hipótesis que sea falsa como si fuera verdadera, o la inversa: rechazar a hipótesis
verdadera por considerarla falsa. Al igual que en el caso de la confianza, si se quiere
eliminar el riesgo del error y considerarlo como 0%, entonces la muestra es del mismo
tamaño que la población, por lo que conviene correr un cierto riesgo de equivocarse.
Comúnmente se aceptan entre el 4% y el 6% como error, tomando en cuenta de que
no son complementarios la confianza y el error.
La variabilidad es la probabilidad (o porcentaje) con el que se aceptó y se rechazó la
hipótesis que se quiere investigar en alguna investigación anterior o en un ensayo
previo a la investigación actual. El porcentaje con que se aceptó tal hipótesis se
denomina variabilidad positiva y se denota por p, y el porcentaje con el que se
rechazó se la hipótesis es la variabilidad megativa, denotada por q.
Hay que considerar que p y q son complementarios, es decir, que su suma es igual a la
unidad: p+q=1. Además, cuando se habla de la máxima variabilidad, en el caso de no
existir antecedentes sobre la investigación (no hay otras o no se pudo aplicar una
prueba previa), entonces los valores de variabilidad es p=q=0.5.
Una vez que se han determinado estos tres factores, entonces se puede calcular el
tamaño de la muestra como a continuación se expone.
Hablando de una población de alrededor de 10,000 casos, o mínimamente esa
cantidad, podemos pensar en la manera de calcular el tamaño de la muestra a través
de las siguientes fórmulas. Hay que mencionar que estas fórmulas se pueden aplicar
de manera aceptable pensando en instrumentos que no incluyan preguntas abiertas y
que sean un total de alrededor de 30.
Vamos a presentar dos fórmulas, siendo la primera la que se aplica en el caso de que
no se conozca con precisión el tamaño de la población, y es:
donde:
n es el tamaño de la muestra;
Z es el nivel de confianza;
p es la variabilidad positiva;
q es la variabilidad negativa;
E es la precisión o error.
Hay que tomar nota de que debido a que la variabilidad y el error se pueden expresar
por medio de porcentajes, hay que convertir todos esos valores a proporciones en el
caso necesario.
También hay que tomar en cuenta que el nivel de confianza no es ni un porcentaje, ni
la proporción que le correspondería, a pesar de que se expresa en términos de
porcentajes. El nivel de confianza se obtiene a partir de la distribución normal
estándar, pues la proporción correspondiente al porcentaje de confianza es el área
simétrica bajo la curva normal que se toma como la confianza, y la intención es buscar
el valor Z de la variable aleatoria que corresponda a tal área.
Por ejemplo: Si se quiere un porcentaje de confianza del 95%, entonces hay que
considerar la proporción correspondiente, que es 0.95. Lo que se buscaría en seguida
es el valor Z para la variable aleatoria z tal que el área simétrica bajo la curva normal
desde -Z hasta Z sea igual a 0.95, es decir, P(-Z<z<Z)=0.95.
Utilizando las tablas, o la función DISTR.NORM.ESTAND.INV() del Excel, se puede
calcular el valor de Z, que sería 1.96 (con una aproximación a dos decimales).
Esto quiere decir que P(-1.96<z<1.96)=0.95.
En el caso de que sí se conozca el tamaño de la población entonces se aplica la
siguiente fórmula:
donde
n
Z
p
q
N
E
es el tamaño de la muestra;
es el nivel de confianza;
es la variabilidad positiva;
es la variabilidad negativa;
es el tamaño de la población;
es la precisión o el error.
La ventaja sobre la primera fórmula es que al conocer exactamente el tamaño de la
población, el tamaño de la muestra resulta con mayor precisión y se pueden incluso
ahorrarse recursos y tiempo para la aplicación y desarrollo de una investigación.
Por ejemplo: En el Colegio de Bachilleres, una institución de nivel medio superior, se
desea realizar una investigación sobre los alumnos inscritos en primer y segundo años,
para lo cual se aplicará un cuestionario de manera aleatoria a una muestra, pues los
recursos económicos y el tiempo para procesar la información resultaría insuficiente en
el caso de aplicársele a la población estudiantil completa.
En primera instancia, suponiendo que no se conoce el tamaño exacto de la población,
pero con la seguridad de que ésta se encuentra cerca a los diez millares, se aplicará la
primera fórmula.
Se considerará una confianza del 95%, un porcentaje de error del 5% y la máxima
variabilidad por no existir antecedentes en la institución sobre la investigación y
porque no se puede aplicar una prueba previa.
Primero habrá que obtener el valor de Z de tal forma que la confianza sea del 95%, es
decir, buscar un valor de Z tal que P(-Z<z<Z)=0.95. Utilizando las tablas o las
funciones de Excel se pueden obtener, o viendo (en este caso) el ejemplo anterior,
resulta que Z=1.96.
De esta manera se realiza la sustitución y se obtiene:
Esto quiere decir que el tamaño de la muestra es de 385 alumnos.
Supongamos ahora que sí se conoce el tamaño de la población estudiantil y es de
9,408, entonces se aplicará la segunda fórmula. Utilizando los mismos parámetros la
sustitución queda como:
Con lo que se tiene una cota mínima de 370 alumnos para la muestra y así poder
realizar la investigación sin más costo del necesario, pero con la seguridad de que las
condiciones aceptadas para la generalización (confiabilidad, variabilidad y error) se
mantienen.
¿Quieres probar?
Considerando un nivel de confianza del 95%, introduce la variabilidad positiva:
,
y la precisión o error (porcentaje de error):
%.
Si conoces el tamaño de la población introdúcelo (si no lo conoces no escribas
nada):
.
Presiona el botón para realizar el cálculo:
Dada la variabilidad positiva, la negativa es:
.
Por tanto, si no se conoce el tamaño de la población el tamaño de la muestra
es:
,
si se conoce el tamaño de la población el tamaño de la muestra es:
.
4. Muestreos probabilísticos
Las técnicas de muestreo probabilístico son aquellas en las que se determina al azar
los individuos que constituirán la muestra. Estas técnicas nos sirven cuando se desean
generalizar los resultados que se obtienen a partir de la muestra hacia toda la
población. Lo anterior se dice dado que se supone que el proceso aleatorio permitirá la
obtención de una muestra representativa de la población.
Los muestreos probabilísticos pueden ser con o sin reemplazo.
Los muestreos con reemplazo son aquellos en los que una vez que ha sido
seleccionado un individuo (y estudiado) se le toma en cuenta nuevamente al elegir el
siguiente individuo a ser estudiado. En este caso cada una de las observaciones
permanece independiente de las demás, pero con poblaciones pequeñas (un grupo de
escuela de 30 alumnos, por ejemplo) tal procedimiento debe ser considerado ante la
posibilidad de repetir observaciones. En el caso de poblaciones grandes no importa tal
proceder, pues no afecta sustacialmente una repetición a las frecuencias relativas.
Los muestreos sin reemplazo son los que una vez que se ha tomado en cuenta un
individuo para formar parte de la muestra, no se le vuelve a tomar en cuenta
nuevamente. En este caso, y hablando específicamente para el caso de poblaciones
pequeñas, las observaciones son dependientes entre sí, pues al no tomar en cuenta
nuevamente el individuo se altera la probabilidad para la selección de otro individuo de
la población. Para el caso de las poblaciones grandes (por ejemplo la población de un
país) dicha probabilidad para la selección de un individuo se mantiene prácticamente
igual, por lo que se puede decir que existe independencia en las observaciones.
Las técnicas de muestreo probabilístico que mencionaremos serán básicamente tres: el
aleatorio simple, el aleatorio estratificado y el sistemático.
4.2 Muestreo aleatorio simple
Podemos aquí mencionar que para el caso de que se estuviese estudiando un
propoción dentro de la población (una elección de candidato, la aceptación o rechazo
de una propuesta en una comunidad, la presencia o ausencia de una característica
hereditaria), y el en caso de un muestreo aleatorio simple, la estimación que se puede
hacer de la proporción buscada a partir de la proporción hallada en la muestra se
obtiene mediante la construcción de un intervalo de confianza:
 = P ± tolerancia de la muestra
Donde  es la proporción buscada en la población y P es la proporción presente en la
muestra.
Por otro lado, la tolerancia de la muestra está relacionada directamente con el nivel
de confianza y se obtiene a partir de la distribución normal al igual que como se
obtuvo para el cálculo del tamaño de las muestras. La representaremos con Z para
obtener la fórmula:
Por ejemplo:
5. Muestreos no aleatorios
1997-1999. ViL & DDT Software'n'Web, Co.
1997-1999. Víctor Larios Osorio. Universidad Autónoma de Querétaro (México).
URL de esta página: http://www.uaq.mx/matematicas/estadisticas/xu5.html.
Última actualización: 21 de septiembre de 1999.
Descargar