Algunas Nociones de Estadística _v.4.2.4_2009

Anuncio
UNIVERSIDAD NACIONAL DE SAN LUIS
FACULTAD DE CIENCIAS HUMANAS
DOCUMENTO DE CIRCULACIÓN INTERNA
ALGUNAS ИOCIONES DE ΣSTADÍSTICA
FABRICIO PENNA & SILVIA HUARTE
MMIX
(v. 4.2.4)
Págin@ 2
ÍNDICE
1. Introducción..........3
2. Estadística y Probabilidad..........6
2.1- Algunos Conceptos Previos..........8
2.2- Definiciones de Probabilidad..........8
2.3- Ley de los Grandes Números..........9
2.4- Distribución Normal: principales características..........11
3. Estadística Descriptiva..........14
3.1- Universo, Población y Muestra..........14
3.1a Tamaño de la Población..........15
3.1b Tamaño de la Muestra..........15
3.2- Factores y Niveles de Medición..........17
3.3- Distribución Empírica..........21
3.4- Presentación de Datos: Tabla de Frecuencias..........23
3.5- Representaciones gráficas de las distribuciones empíricas: Histograma y Polígono de
frecuencias relativas acumuladas..........25
4. Estimadores descriptivos de una distribución empírica..........26
4.1- Fractiles: Cuartiles, Deciles y Percentiles o Centiles..........27
4.2- Medidas de Tendencia Central: Media Aritmética, Mediana y Moda ó Modo..........27
4.3- Medidas de Dispersión: Rango ó recorrido, Semi Rango, Varianza, Desviación Estándar, MAD y Coeficiente de Variación..........29
4.4- Coeficiente de Asimetría o Sesgo..........30
4.5- Coeficiente de Aplanamiento o Curtosis..........33
5. Regresión lineal simple..........34
5.1- Método de mínimos cuadrados..........35
5.2- Líneas de regresión..........37
5.3- Limitaciones del método..........38
5.4- Relaciones no lineales: Transformaciones..........39
6. Análisis de Correlación..........41
6.1- Coeficiente de Correlación “producto–momento” de Pearson (rxy)..........41
6.2- Calculo del Coeficiente rxy sin dispersograma..........43
6.3- Coeficiente de Determinación (R2)..........45
6.4- Prueba de “Ji” cuadrado (χ2)..........46
6.4a Clasificación..........46
6.4b Tablas de contingencia..........46
6.4c Cálculo de χ2..........47
6.4d Corrección de Yates..........47
7. Nociones de Estadística Sanitaria..........48
7.1- Demografía..........48
7.2- Censo..........48
8. Anexo 1: Simbología utilizada..........50
9. Anexo 2: Tabla de Distribución χ2..........51
10. Anexo 3: Tabla de Distribución Normal Estandarizada.......... 52
11. Bibliografía Consultada..........53
Fabricio Penna & Silvia Huarte
Págin@ 3
1. INTRODUCCIÓN
Para mí, no es un científico aquel que se vale de herramientas y métodos “científicos”, ni el que de alguna manera
aprendió a usarlos. Pongo dentro de la categoría a quienes
poseen verdaderamente una “mentalidad científica”.
ALBERT EINSTEIN
Es un hecho bien conocido que para incrementar los conocimientos que se tienen sobre el mundo
es necesario emplear cada vez más los métodos y las inferencias estadísticas. Para realizar investigaciones, en casi todas las disciplinas se requieren ciertos rudimentos de estadística. Sin embargo, debido a la amplitud y profundidad de la temática, es conveniente seleccionar el campo de
conocimiento y los métodos pertinentes según sea la finalidad que se persigue.
Existen varias definiciones de estadística: se la define como la ciencia que trata los problemas
que comprenden variaciones casuales, resultantes de un sinnúmero de influencias pequeñas e
independientes que operan en cada resultado medido que se obtiene; asimismo, se dice que es la
ciencia de la toma de decisiones a partir de datos, de manera que la confiabilidad de las conclusiones con base en éstos se valora mediante la probabilidad. De modo más general, la estadística
es una ciencia que comprende la recopilación, tabulación, análisis e interpretación de los datos
cuantitativos y cualitativos; este proceso incluye determinar los atributos o cualidades reales, al
igual que realizar estimaciones y verificar hipótesis mediante las cuales se determinan valores
probables o esperados. Otra definición, siguiendo a M.G. Kendall (The Statistical Aproach,
1950), establece que la estadística es un método general, un lenguaje común referido a conjuntos
y sus relaciones, que sirve para obtener conclusiones probabilísticas de poblaciones conocidas,
con la increíble capacidad −por su carácter genérico− de traspasar la frontera de las diferentes
ciencias.
El carácter genérico unido a la preocupación por formalizar la validez de los resultados, es aquello que sitúa a la estadística en la intersección con el resto de las ciencias y le da un carácter insustituible de “instrumento” del método científico.
Una de las discusiones interesantes la propone M.G. Kendall (op.cit.) distinguiendo entre matemática y estadística como: la ciencia de la “certeza” y la ciencia de la “incertidumbre” respectivamente. Caracterizando a la estadística como una ciencia que busca establecer los límites de la
incertidumbre y no más como una rama de la matemática.
También B. Russell (Human Knowledge – Its Scope and Limits, 1977), referido a la inferencia
estadística, agrega que ésta difiere de la lógica deductiva y la matemática ya que cuando las premisas son verdaderas y el razonamiento es correcto, la conclusión es solo probable.
Fabricio Penna & Silvia Huarte
Págin@ 4
Podemos agregar, a modo de ejemplo, que a pesar de cierta “similitud” con la matemática difiere
de ésta de la siguiente manera: en matemática pura, los valores son exactos, esto es, una variable
tiene un valor particular (la probabilidad de que así ocurra es igual a la unidad, dado que estamos
seguros de ello), o bien, no lo tiene (la probabilidad en este caso, es cero, ya que estamos seguros
ahora de que la variable no tiene –o no toma– tal valor). Sin embargo, en estadística, la variable
puede asumir infinitos valores posibles y existe una probabilidad definida de que adquiera tales
valores. Dicha probabilidad puede comprender cualquier valor entre 0 y 1. Mediante la estadística se intenta definir y controlar el grado de incertidumbre que surge de la inevitable variabilidad
de los datos.
La estadística se enfrenta a dos tipos básicos de problemas: los descriptivos y los inferenciales.
Los primeros se refieren a la presentación de conjuntos de observaciones, de manera tal que se
puedan comprender e interpretar. Las características numéricas empleadas (o índices) para describir los conjuntos reciben el nombre de estadísticos. Los problemas inferenciales son los que
comprenden generalizaciones inductivas, esto es: a partir de una muestra puesta a prueba en la
realidad, los resultados obtenidos son “llevados” hasta el grupo del cual se obtuvo la misma. La
inferencia estadística permite conseguir la máxima cantidad de información exacta de una prueba
dada, en otras palabras, el empleo de valores estadísticos hace más eficientes las pruebas.
En las ciencias, como en la investigación experimental, el empleo de estadísticos casi siempre es
necesario cuando se efectúan pruebas rutinarias de laboratorio, al igual que en trabajos de investigación.
En una investigación experimental, quizá se quiera saber si las pruebas son “precisas”, o si la
variabilidad de los resultados es mayor que lo esperado, o mayor que en cualquiera otra prueba.
En la investigación de ciertos productos, tal vez se desearía conocer si un cambio en los ingredientes afecta las propiedades del mismo; comparar la eficacia de los procesos o la eficiencia de
un ensayo; determinar si los resultados se adaptan a una forma supuesta o postulada; o bien, idear un experimento que permita considerar la variación debida a diversas causas.
Esto último también se requiere en la producción, dado que el conocimiento de la variación en
las observaciones, causada por un cierto factor, nos capacita para saber si, por términos económicos, es conveniente controlar más estrechamente este factor. Además, quizá se desee averiguar
la probabilidad de obtener un resultado por encima o por debajo de cierto valor; verificar si la
producción ha sufrido alteraciones que modifiquen esta probabilidad; determinar la proporción
de elementos que presentan cierto atributo o cualidad; o saber qué tamaño de muestra es necesario emplear con el fin de que las conclusiones posean una confiabilidad específica.
Fabricio Penna & Silvia Huarte
Págin@ 5
Existen dos tipos básicos de variables que resultan de interés para nuestro estudio: las variables
continuas, las cuales difieren en cifras infinitesimales, y las variables discretas que sólo pueden
tener valores específicos (enteros), pero no intermedios entre ellos. Tales conceptos deben ser ya
conocidos, pues pertenecen a las matemáticas básicas y son útiles, dado que ambos tipos de variables, por lo regular, siguen diferentes distribuciones o leyes de comportamiento. El término
distribución se refiere a la frecuencia con la que se presentan diversos valores observados.
Dichos “diversos valores” pueden obtenerse de dos maneras. Se puede medir varias veces una
cierta propiedad, por ejemplo, la dimensión de un objeto particular. Dados los errores de medición que se cometen, no siempre se obtendrán exactamente los mismos valores. El segundo caso
ocurre cuando se presentan factores que deban tener una cierta propiedad en común, por ejemplo, la misma dimensión. Como por lo general se presentan variaciones, al igual que errores de
medición, los valores registrados también varían. En ambos casos, si se realizan algunas observaciones, se obtienen resultados que difieren entre sí, y una de las principales funciones de la
estadística es evaluar la información de este tipo, de modo que se pueda estimar el “mejor” valor
de la cantidad sometida a medición y determinar la precisión del cálculo.
La distribución de las variables discretas es de interés principalmente en el caso de problemas en
los que intervengan objetos que posean o no una cierta característica: ser de color determinado o
no, con defectos o sin ellos, presentar o no una característica superior a un valor esperado, etc.
Es pertinente mencionar que a fin de llevar a cabo un análisis estadístico, las variables discretas y
las continuas no están separadas entre sí de manera inevitable. Si los valores de una variable que
está distribuida continuamente se agrupan en intervalos y después se les da un tratamiento en
grupos, el problema se convierte, en esencia, en uno de tipo de “variables discretas”. Por el contrario, cuando una de estas últimas variables está constituida por una gran cantidad de clases y se
la determina muchas veces, su distribución se aproxima a la de una “variable continua” y a menudo resulta conveniente emplear dicha aproximación.
En el análisis estadístico se denomina variable estadística a la magnitud que varía, y puede ser la
variable original o una cantidad derivada de ella como la media de muestras, su desviación
estándar o su varianza, etc.
En múltiples problemas de tipo práctico es imposible probar u observar la totalidad de los elementos que intervienen (los cuales constituyen una población o un universo) y, por consiguiente,
es necesario recurrir al muestreo. Así pues, se miden o consideran las propiedades de una muestra con el objeto de estimar las características de todos los elementos (población) de los cuales se
extrajo la muestra. La inferencia a partir de muestras es de gran valor en muchos campos, y va
Fabricio Penna & Silvia Huarte
Págin@ 6
desde comprobar si un embarque de mercancías cumple con las especificaciones, hasta predecir
los resultados de unas elecciones. Las experiencias obtenidas de este último tipo de problemas
nos hace percatar de que no sólo es conveniente tomar la muestra representativa de la población
subyacente, sino también de que la conclusión a la que lleguemos es sólo probablemente correcta, pues no se puede tener una certeza total con base en el muestreo.
Esto se debe a que varían entre sí las muestras extraídas de la población o grupo de elementos, y
la variación es propia de todos los fenómenos naturales. Por este motivo, la inferencia estadística
se presenta en términos de enunciados de probabilidad.
Mediante un programa adecuado se puede obtener mayor información de un cierto trabajo experimental que si se llevaran a cabo pruebas al azar o por simple casualidad, y sólo después se emplearía la estadística. Por ello, debemos considerar a esta ciencia no sólo como un instrumento
útil para la interpretación de resultados experimentales, sino como parte integrante del diseño de
experimentos.
2. ESTADÍSTICA y PROBABILIDAD
De lo anterior se deduce que los sujetos de estudio de la estadística y la probabilidad están fundamentalmente relacionados entre sí. En tanto que la estadística se interesa en gran medida en
deducir conclusiones a partir de muestras alteradas por variaciones aleatorias o incertidumbres,
sólo mediante la teoría de la probabilidad se pueden definir o expresar, así como controlar, tales
incertidumbres en los resultados. Se dice que las variaciones son al azar (o aleatorias) cuando no
presentan un determinado patrón de conducta o regularidad.
La relación entre una muestra y la población puede servir para dilucidar la diferencia existente
entre la estadística y la probabilidad. Tal relación plantea dos problemas generales: la verificación de una hipótesis estadística y la estimación de uno o varios parámetros característicos de la
población. En el primer caso nos interesa saber si a partir de los ensayos o pruebas se puede concluir que una muestra observada pertenece a una población particular (la hipótesis) o si no es
posible servirse de ella para llegar a tal conclusión. Dadas las inherentes variaciones casuales
existentes en una muestra, no se puede tener una completa seguridad acerca de nuestra conclusión y, por consiguiente, debemos vincularla a un enunciado probabilístico.
Al considerar el problema de la estimación, se intenta evaluar uno o varios parámetros de la población mediante “buenos” estimadores muestrales; una vez más, debido a la variación inherente
de una muestra a otra, es imposible estar seguro de que el cálculo es correcto, de ahí que deba
asignarse una “banda” de probabilidad. Tal banda proporcionará un grado de confianza específi-
Fabricio Penna & Silvia Huarte
Págin@ 7
co acerca del hecho de que el valor verdadero del parámetro de población caiga dentro de los
límites de confianza.
En determinados problemas es posible establecer una clara diferencia entre estadística y probabilidad. Por ejemplo, si se conocen los parámetros de la población a partir de un registro anterior,
puede deducirse la conducta del componente, o muestra, que se supone forma parte de la misma,
por lo tanto, se tiene así un problema de probabilidad. Sin embargo, si un determinado parámetro
(o parámetros) de la población es desconocido, y tiene que ser estimado a partir de la muestra, se
tiene entonces un problema estadístico. Cabe mencionar que la teoría de la probabilidad se basa
en leyes de casualidad o aleatoriedad; de ahí que, las muestras deben ser de naturaleza aleatoria.
Una muestra es al azar o aleatoria cuando cada elemento de la población tiene la misma probabilidad de ser elegido para componer la muestra. Obviamente, si se habrá de juzgar la población (el
todo) a partir de una muestra (la parte), esta última deberá ser tan representativa de la población
como sea posible.
Antes de comenzar a definir algunos conceptos, vamos a plantearnos la siguiente experiencia:
“levantar, con la mano, un vaso de vidrio a un metro del suelo y luego soltarlo”, donde, para evitar especulaciones, dicha experiencia se realiza manteniendo las condiciones de gravedad de
nuestro planeta y el piso es de cemento. En dicha experiencia se encuentran presentes dos “componentes”:
-
La primera, llamada “determinística”, es aquella que nos asegura que al soltar el vaso, éste
cae al suelo (hasta el momento, nunca ocurrió lo contrario).
-
La segunda, llamada “probabilística”, es aquella que nos asegura que, una vez que el vaso
cae al suelo, éste puede romperse o no.
De la segunda “componente” es de la cual nos vamos a ocupar de acá en adelante. Podemos considerar, entonces, al Cálculo de Probabilidades como:
Un área del Conocimiento que se ocupa de fenómenos aleatorios −también llamados al azar o
probabilísticos− es decir, se ocupa de medir o determinar la posibilidad de que ocurra un determinado hecho o suceso.
Sin detenernos demasiado en la historia, podemos decir que las Probabilidades “nacen” alrededor
del siglo XVI, como un intento de responder a varias preguntas que surgían en los juegos de
azar. Siendo algunos de sus máximos exponentes: el italiano Cardano (s.XVI); los franceses Pascal, Fermat (s.XVII), De Moivre (s.XVII – s.XVIII) y Laplace (s.XVIII – s.XIX); los rusos Kolmogorov y Smirnov (s.XX), entre otros.
Fabricio Penna & Silvia Huarte
Págin@ 8
2.1- ALGUNOS CONCEPTOS PREVIOS
Espacio Muestral: es el conjunto de todos los resultados posibles de un proceso experimental u
observacional y lo denotamos con la letra griega Omega mayúscula (Ω).
Ejemplo 1: si se arrojan simultáneamente 3 (tres) monedas “balanceadas” o “no cargadas” [definiendo K = Cara y Z = Cruz], los posibles resultados de dicha experiencia están dados en el siguiente conjunto: Ω = {KKK, KKZ, KZK, ZKK, ZZK, ZKZ, KZZ, ZZZ}.
Punto muestral: son cada uno de los elementos que pertenecen al conjunto Ω y lo denotamos con
la letra griega Omega minúscula (ω). Tomando el ejemplo 1, un punto muestral puede ser: ω =
(KKZ), donde la interpretación es: “al tirar 3 monedas, la primera y segunda son caras y la tercera, cruz”.
Evento: es cualquier sub−conjunto del espacio muestral Ω y los denotamos con letras mayúsculas de nuestro alfabeto: A, B, C, ..., Z. Para el ejemplo 1, el evento A puede ser: A = {KKK,
KKZ, KZK, ZKK}. Dicho evento se interpreta como: “al tirar 3 monedas, A es el evento que al
menos dos de ellas sean cara”.
Eventos Mutuamente Excluyentes: se dice que dos eventos A y B, pertenecientes al espacio
muestral Ω, son mutuamente excluyentes si no tienen elementos en común. Siguiendo con el
ejemplo 1, nuestros dos eventos mutuamente excluyentes son: A = {KKK} y B = {XXX}.
2.2- DEFINICIONES DE PROBABILIDAD
Concepto Clásico de Probabilidad (Laplace)
Dado el evento A ε Ω [A “pertenece” al espacio muestral Ω], la probabilidad de ocurrencia de
dicho evento está dada por:
P(A ) =
número de resultados favorables a la ocurrencia de A
número de resultados posibles
(1)
Nota: la primera restricción es que todos los “resultados posibles” sean igualmente probables y la segunda es que no
puede aplicarse cuando el número de “resultados posibles” sea infinito.
Concepto Frecuencial de Probabilidad: Si A es un evento ε Ω y fA el número de ocurrencias del
evento A en N repeticiones independientes del experimento, entonces la probabilidad de ocurrencia del mencionado evento es:
P ( A) =
fA
N
(2)
Cuando N crece “infinitamente” (o lo que es lo mismo decir que el número de repeticiones es
muy grande).
Fabricio Penna & Silvia Huarte
Págin@ 9
A partir de los conceptos de probabilidad presentados anteriormente, el investigador puede asegurar que si el evento E es obtener “cruz” al arrojar una moneda (balanceada), la probabilidad de
ocurrencia de dicho evento, P(E), va a ser el resultado que se obtiene al realizar el cociente entre
el número de casos favorables (igual a 1, ya que la moneda tiene una sola cruz) y el número de
casos posibles (igual a 2, ya que una vez arrojada la moneda, ésta puede caer de cara o de cruz);
lo que nos lleva a que la P(E = obtener una cruz) = 0,5.
Frente al resultado obtenido, ¿podríamos ser taxativos y afirmar que si arrojamos 10 monedas (o
una moneda 10 veces), obtendremos 5 caras y 5 cruces?, o que ¿el arrojar 20 monedas, nos lleva
a obtener 10 caras y 10 cruces?
Como respuesta a lo recién expuesto corresponde un rotundo NO ya que, de acuerdo a lo planteado al comienzo, estamos frente a procesos probabilísticos y no determinísticos.
Bien, ahora quedamos más mareados que nunca, ya que por un lado podemos gritar a viva voz
que cuando arrojamos una moneda, P(obtener una cruz) = 0,5 (valor que corresponde a la mitad
de la experiencia); pero al arrojar más de una moneda, estamos en condiciones de decir nada.
¿Entonces...?
Quien nos va a ayudar frente a éste dilema, es una de las leyes más (o tal vez la ley más) importante del cálculo de probabilidades: la ley de los grandes números.
2.3- LEY DE LOS GRANDES NÚMEROS
Como se vio, el concepto de Laplace sirve para calcular probabilidades frente a experimentos
ideales en los cuales se da por sentado que los resultados son equiprobables, sin embargo en la
realidad esto no es así; pero, ésta ley afirma que la frecuencia relativa de un evento, cuando el
número de experiencias se hace muy grande (tiende a infinito), se estabiliza en torno a un valor
que es la probabilidad del evento, P(E). También se conoce como ley fundamental del azar.
Los gráficos siguientes, realizados a partir de un proceso de simulación, nos muestran la probabilidad de aparición de una cruz a medida que aumentan las tiradas de una moneda (balanceada):
Fabricio Penna & Silvia Huarte
Págin@ 10
Gráfico 1: 10 tiradas de una moneda
Gráfico 2: 50 tiradas de una moneda
Gráfico 3: 100 tiradas de una moneda
Gráfico 4: 250 tiradas de una moneda
Gráfico 5: 500 tiradas de una moneda
Gráfico 6: 1000 tiradas de una moneda
Como podemos notar en los gráficos precedentes, y de acuerdo a lo establecido por la Ley de los
Grandes Números, dado el evento E = aparición de una cruz al arrojar una moneda, P(E) recién
comienza a estabilizarse alrededor de 0,50 cuando el número de repeticiones supera las 250
(Gráfico 4), es decir que P(E = aparición de una cruz) = 0,50 para un número grande de repeticiones.
Concepto de Probabilidad (según Kolmogorov)
Sea Ω un espacio muestral y sean los eventos A1, A2, ..., Ak ε Ω ⇒ se cumplen los siguientes
axiomas:
a) Axioma de certeza: P(Ω) = 1 [la probabilidad de ocurrencia del espacio muestral Ω, vale 1].
Fabricio Penna & Silvia Huarte
Págin@ 11
b) Axioma de positividad: P(A) ≥ 0 [la probabilidad de ocurrencia de un evento A ε Ω, es
siempre mayor o igual a cero].
c) Axioma Suma de Probabilidades: La probabilidad de ocurrencia de A1 o A2 o de ambos en la
misma repetición, está dada por:
P(A1 o A2) = P(A1 ∪ A2) = P(A1 + A2) = P(A1) + P(A2) – P(A1.A2)
(3)
Donde P(A1.A2) es la ocurrencia simultánea de los eventos A1 y A2
Si dichos eventos son mutuamente excluyentes ⇒ P(A1.A2) = 0, entonces la expresión (3) se
reduce a:
P(A1 + A2) = P(A1) + P(A2)
(4)
Nota: es presente axioma es generalizable para k número de eventos, A1, A2, ..., Ak.
d) Axioma Producto de Probabilidades: La probabilidad de ocurrencia de A1 y A2 en forma
simultánea, está dada por:
P(A1 y A2) = P(A1 ∩ A2) = P(A1.A2) = P(A1).P(A2/A1) = P(A2).P(A1/A2)
(5)
Donde P(A2/A1) y P(A1/A2), son las probabilidades condicionadas de A2 habiendo ocurrido
A1 y de A1 habiendo ocurrido A2, respectivamente.
Si los eventos A1 y A2 son estadísticamente independientes, P(A2/A1) = P(A2) y P(A1/A2) =
P(A1). Entonces la expresión (5) se puede escribir como:
P(A1.A2) = P(A1).P(A2)
(6)
Nota: es presente axioma es generalizable para k número de eventos, A1, A2, ..., Ak.
2.4- DISTRIBUCIÓN NORMAL: PRINCIPALES CARACTERÍSTICAS
Esta función tiene gran importancia teórica tanto en problemas de tipo biológico como físicos,
psicológicos, químicos, fonoaudiológicos, etc. La distribución normal (también conocida como
distribución de Laplace – Gauss, campana de Gauss o, simplemente, Gaussiana), tiene su origen
entre los siglos XVII y XVIII como primera aproximación al comportamiento de los errores
pues, investigadores como De Moivre, Laplace y Gauss, encontraron cierta “regularidad” en los
mismos. Esto motivó que, en sus comienzos, a dicha curva se conociese como “curva normal de
errores”.
A esta distribución se la utiliza en presencia de variables continuas tales como peso, altura, edad,
CI, IMC, etc., y su expresión matemática, a partir de una variable continua x, se la define como:
Fabricio Penna & Silvia Huarte
Págin@ 12
1  x−µ 

σ 
− ∞ < x < ∞
− ∞ < µ < ∞

donde σ > 0
e ≅ 2,71

π ≅ 3,1415
2
− 
1
f (x ) =
e 2
σ 2π
(7)
Siendo su representación gráfica, la siguiente:
Gráfico 7: Función de Densidad Normal
Densidad
0.40
0.30
99% (aprox)
0.20
95% (aprox)
0.10
68% (aprox)
x
0.00
−∞
µ−3σ
µ−2σ
µ−σ
µ
µ+σ
µ+2σ
µ+3σ
+∞
Variable x
Esta curva depende, básicamente, de los parámetros µ (media aritmética o esperanza matemática) y σ2 (varianza). Por este motivo, dada una variable aleatoria X, distribuida normalmente y
caracterizada por su media µ y su varianza σ2, se la puede expresar como:
(
X ≈ N µ, σ 2
)
(8)
Donde, algunas de sus características son las siguientes:
•
•
•
•
•
•
•
•
Es una curva unimodal
El valor de la moda coincide con los valores de la media y la mediana.
Presenta una forma de campana
Es unitaria (el área bajo la curva vale 1)
Es simétrica respecto a su media µ
Es asintótica respecto al eje horizontal (se aproxima sin llegar a tocarlo)
Los puntos de inflexión (donde la curva cambia su concavidad) se encuentran en µ-σ y µ+σ
El área, bajo la curva, comprendida en el intervalo (µ-σ, µ+σ) es aproximadamente igual a
0,68 (68%); entre (µ-2σ, µ+2σ) es aproximadamente igual a 0,95 (95%) y entre (µ-3σ,
µ+3σ) es aproximadamente igual a 0,99 (99%), como vemos en el Gráfico 7.
Fabricio Penna & Silvia Huarte
Págin@ 13
ESTANDARIZACIÓN
Como se deduce del párrafo anterior, no existe una única distribución normal, sino una familia
de distribuciones con una forma común, diferenciadas por los valores de su media (µ) y su varianza (σ2). Es por eso que, si necesitáramos determinar una “porción de área” bajo la curva,
tendríamos que realizar engorrosos cálculos matemáticos (integrales) para cada curva normal.
Mediante la siguiente transformación, se lleva la variable original de puntajes x a puntajes z:
(
)
x−µ
(
)
x−µ
X ≈ N µ, σ 2 ⇒ Z =
X ≈ N µ, σ 2 ⇒ Z =
σ2
S2
≈ N(0, 1) , para puntajes Z de una población
(9)
≈ N(0, 1) , para puntajes Z de una muestra
(10)
Nota: hay casos particulares en los que, trabajando con una muestra, se conoce la varianza de la población. En estos
casos, es aconsejable estandarizar la variable utilizando la varianza poblacional (σ2) en lugar de la varianza muestra
(S2) pues, como se sabe, la primera es exacta en cambio la segunda es aproximada.
Esta propiedad resulta especialmente interesante en la práctica, ya que para una distribución
N(0,1) existen tablas (ver Anexo 3) a partir de las que se pueden obtener, de modo sencillo, la
probabilidad de observar un dato menor o igual a un cierto valor z, y que permitirán resolver
preguntas de probabilidad acerca del comportamiento de variables de las que se sabe o se asume
que siguen una distribución aproximadamente normal.
De acuerdo a lo expresado por Hernández Sampieri y cols (1997), “una puntuación z nos indica
la dirección y grado en que un valor individual obtenido se aleja de la media, en una escala de
unidades de desviación estándar”.
Frente a la transformación realizada en (9) o (10), según corresponda, la curva normal teórica se
reduce a la siguiente expresión:
f (z) =
1
2π
e
1
− .Z2
2
Siendo su representación gráfica, la siguiente:
Fabricio Penna & Silvia Huarte
− ∞ < z < ∞
µ = 0 ; σ = 1

donde 
e ≅ 2,71
π ≅ 3,1415
(11)
Págin@ 14
Densidad
Gráfico 8: Función de Densidad Normal Estandarizada
0.40
0.30
0.20
0.10
0.00
-3
-2
-1
0
1
2
3
Variable z
De acuerdo a la estandarización realizada, y por lo visto en la expresión (11), la media de la distribución (µ) toma el valor 0 y la varianza (σ2) el valor 1. A partir de esto, se mantienen las características presentadas para el Gráfico 7 solo que, dicha curva es simétrica respecto del valor 0
y los puntos de inflexión se encuentran en -1 y 1.
3. ESTADÍSTICA DESCRIPTIVA
La estadística descriptiva resuelve la etapa de tabulación y descripción de resultados de experimentos aleatorios de la investigación estadística. Ésta se basa en el conjunto de definiciones siguientes:
3.1- UNIVERSO, POBLACIÓN Y MUESTRA
Universo (U): es un grupo específico de sujetos u objetos de los que se trata de estudiar una característica particular. Por ejemplo un universo puede ser el conjunto de estudiantes universitarios inscriptos en una Facultad durante cierto semestre.
Población (N): es la totalidad de valores posibles de una característica particular de un universo.
Para el universo de “estudiantes universitarios”, citado anteriormente, existen varias poblaciones. Estas, por ejemplo, pueden ser: aquellos estudiantes inscriptos en una carrera determinada,
el conjunto de sus estaturas, sus edades, el color de pelo, sus ingresos mensuales, el promedio de
sus calificaciones, etc.
Muestra (n): es un subconjunto de la población obtenido de acuerdo a una regla determinada. Por
ejemplo, en el universo de estudiantes considerados, una muestra de la población de sus estaturas
se puede obtener midiendo a todos los alumnos que asistan a cualquier curso de Estadística que
se dé a las 10 de la mañana de un día determinado del semestre.
Fabricio Penna & Silvia Huarte
Págin@ 15
Por ejemplo, si arrojamos un dado (honesto) 10 veces, una posible muestra de la población de los
números de las caras (que ven hacia arriba) puede ser: 3, 2, 3, 6, 1, 5, 3, 4, 6, 1.
Si lo que se mide es la característica par e impar de esos números, la muestra estaría formada por
los resultados: impar, par, impar, par, impar, impar, impar, par, par, impar.
Obsérvese que los elementos de una muestra deben considerarse como los resultados de un experimento aleatorio obtenidos al realizar repetida e independientemente las pruebas correspondientes. Existen diferentes tipos de muestras y maneras de obtenerlas. Ahí se establecerá que el trabajo estadístico no sirve únicamente para describir la muestra, sino que también proporciona información sobre la población muestreada.
3.1a TAMAÑO DE LA POBLACIÓN
Es el número de elementos que tiene una población, es decir, el número total de valores posibles
que puede tener la característica particular del universo que se estudia.
Por ejemplo, si el universo está formado por un dado con sus caras numeradas del 1 al 6, y se
trata de ver el número de la cara que ve hacia arriba al tirar el dado, la población estará formada
por el conjunto de números (1, 2, 3, 4, 5, 6), y el tamaño de la población será 6. Si en este experimento se trata de ver la característica par o impar del número resultante, el tamaño de la población será 2.
En el ejemplo del universo de estudiantes universitarios, el tamaño de la población de estaturas
será igual al número de alumnos inscriptos en la Facultad durante el semestre en cuestión.
3.1b TAMAÑO DE LA MUESTRA
Es el número de elementos que forman la muestra. En el ejemplo del tiro de un dado, se tienen
dos muestras de tamaño 10.
De una muestra interesa que sea representativa de la población de donde fue obtenida. Para serlo,
es necesario diseñar cuidadosamente su tamaño, de tal manera que sin contener a todos los elementos de la población, lo que daría lugar a un estudio exhaustivo de todos éstos elementos, sí
sea lo suficientemente grande para contener todas las variedades de la característica que se trata
de estudiar. Por el contrario, generalmente una muestra de tamaño grande ocasiona costos altos
en su obtención y, por economía, conviene que ésta sea de tamaño reducido. En la parte de la
Estadística llamada Diseño de Experimentos se analiza este problema, además de las maneras en
que debe tomarse la muestra para asegurar su representatividad. Esquemáticamente, se podría
pensar en las definiciones precedentes de la siguiente manera:
Fabricio Penna & Silvia Huarte
Págin@ 16
Esquema 1: Los diferentes “grupos” implicados en el proceso inferencial
U N I V E R S O (U)
P O B L A C I Ó N (N)
→
INFERENCIA ESTADÍSTICA !!!
M U E S T R A (n)
Esquema 2: Algunos “tipos” de muestreo
MUESTREO
No-aleatorio o noprobabilístico
Aleatorio, probabilístico
o al azar
Aleatorio
simple
Autogenerado
Intencional
Accidental
Estratificado
Por conglomerados
Sistemático
Tipo “A”
Tipo “B”
Muestreo aleatorio, probabilístico o al azar: un muestreo se denomina aleatorio, probabilística o
al azar, cuando todos los “elementos” que componen la población tienen igual probabilidad de
pertenecer a la muestra.
Muestreo no-aleatorio o no-probabilístico: un muestreo se denomina no-aleatorio o no-probabilístico, cuando no todos los “elementos” que componen la población tienen igual probabilidad de
pertenecer a la muestra.
Fabricio Penna & Silvia Huarte
Págin@ 17
3.2- FACTORES Y NIVELES DE MEDICIÓN
Factor: es cualquier elemento o aspecto (característica) identificable y distinto, dentro de una
situación, que puede observarse independientemente del contexto del que forma parte.
Tabla 1: Tipos de Factores o Variables
FACTORES
FORMA DE PRESENTACIÓN
Dicotómicos
(presentan dos categorías observacionales)
Variables cualitativas o Atributos
(no poseen magnitud)
Politómicos
(presentan más de dos categorías observacionales)
Discretas
(varían en unidades enteras infinitas numerables)
Variables cuantitativas
(poseen magnitud)
Continuas
(varían en un continuo de valores infinitos no numerables)
Al momento de investigar, podemos estar en presencia de factores con bajo nivel de abstracción
(simples) o con alto nivel de abstracción (complejos). Cualquier análisis, frente a los primeros, es
relativamente sencillo; ahora, si queremos analizar factores complejos (también llamados constructos), la forma de análisis es operacionalizando dicho factor.
Proceso de operacionalización de una variable: Al proceso de llevar una variable de un nivel
abstracto a un plano más concreto se le denomina “operacionalización”, y su función básica es
precisar al máximo el significado que se le otorga a una variable en un determinado estudio.
“Operacionalizar” las variables significa explicar cómo se miden. A este proceso algunos autores
le llaman construcción de variables, justificando que se da toda una elaboración de conceptos,
definiciones e indicadores.
Definir y operacionalizar las variables es una de las tareas más difíciles del proceso de investigación; sin embargo, es un momento de gran importancia pues tendrá repercusiones en todos los
momentos siguientes, razón por la que debe prestársele mucha atención.
La operacionalización de las variables, es decir el proceso de señalar cómo se tomarán las medidas empíricas, no es un procedimiento exclusivamente técnico, carente de teoría. Sin la teoría, la
descripción, y por lo tanto la técnica misma, no tienen sentido.
En algunos casos las variables que aparecen enunciadas en los objetivos y en el marco teórico no
ofrecen mayor dificultad en cuanto a su descripción, definición y medición. Por ejemplo, edad,
ingreso, años de escolaridad, número de hijos. Estas son variables simples, cuya comprensión es
más fácil. Sin embargo, es frecuente que se incluyan variables de mayor complejidad que tienen
que ser definidas claramente para entender su significado y para llegara su medición. Ejemplos
de este tipo de variables serían: marginación socioeconómica, trato humanizado al paciente, saFabricio Penna & Silvia Huarte
Págin@ 18
tisfacción con un programa educativo, accesibilidad a los servicios de salud, calidad de la atención brindada.
Es evidente que cada persona tendría una conceptualización diferente de lo que es el significado
de estos términos o características y que si tratamos de hacer la medición de estas variables antes
de haberlas conceptualizado y definido claramente, al final tendríamos información poco válida
y poco confiable.
Tal como se mencionó anteriormente, los conceptos en los cuales se interesa el investigador deben ser traducidos en fenómenos observables y medibles. Previo al planteamiento del proceso de
operacionalización de variables, se hace necesario discutir acerca de su conceptualización.
Según Namakforoosh (en Pineda y cols, 1994), los conceptos son abstracciones que representan
fenómenos empíricos y para pasar de la etapa conceptual de la investigación a la etapa empírica,
los conceptos se convierten en variables.
Goode y Hatt (en Pineda y cols, 1994) plantean que los conceptos representan el sistema teórico
de cualquier ciencia y son símbolos de los fenómenos que se estudian. Además, indican que son
construcciones lógicas, creadas a partir de impresiones de los sentidos, de percepciones, e incluso de experiencias bastante complejas y que no son fenómenos en sí; es decir estas construcciones lógicas no existen fuera del marco de referencia establecido.
También podemos agregar que un concepto es el “pensamiento acerca de las propiedades esenciales de un objeto que lo hacen semejante o distinto de otro objeto”, Expresa, de esta forma, la
suma del conocimiento científico en un momento del saber.
Estas definiciones sobre concepto, aún cuando plantean diferentes enfoques, tienen algunos elementos en común, como el hecho de que un concepto es general y abstracto, no siendo posible la
observación y medición de los fenómenos involucrados. Por ello, es necesario llegar a la operacionalización de las variables, lo que se traduce en el establecimiento de significado para los
términos del estudio y en la estipulación de operaciones o situaciones observables, en virtud de
lo cual algo quedará ubicado en determinada categoría de la variable y no en otra.
Dicha operacionalización se logra a través de un proceso que transforma una variable en otras
que tengan el mismo significado y que sean susceptibles de la medición empírica. Para lograrlo,
las variables se descomponen en otras más específicas llamadas dimensiones. A su vez, es necesario traducir estas dimensiones a indicadores para permitir la observación directa.
Algunas veces, como se mencionó anteriormente, la variable puede ser operacionalizada mediante un solo indicador, como es el caso de la edad, la que puede ser definida en forma operativa por
Fabricio Penna & Silvia Huarte
Págin@ 19
medio de un solo indicador que sería el número de años cumplidos. En otros casos es necesario
hacerla a través de un conjunto de indicadores, como sería el caso de marginalidad, accesibilidad
y tantas otras variables.
Para facilitar la comprensión del proceso de operacionalización de variables se puede analizar el
esquema presentado a continuación:
Esquema 3: Proceso de operacionalización de variables
Concepto - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -. Variable teórica
Definición conceptual
Dimensiones
Definición operacional de cada dimensión
Indicadores - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - Variable empírica
En el siguiente esquema se presenta un ejemplo de la operacionalización o construcción de
una variable compleja como es la accesibilidad a los servicios de salud. Esta figura muestra
como de una variable abstracta que puede ser interpretada en forma muy diferente por distintas personas, se pasa a tener una variable definida que permite la medición empírica, o sea
que cada persona puede hacer la medición observando aspectos concretos tales como el
tiempo medido en horas y minutos o la cantidad de dinero disponible.
Esquema 4: Ejemplo de operacionalización de variables
Variables
Definición conceptual
Dimensiones
(Variables contenidas en la
definición conceptual)
Accesibilidad geográfica
Mayor o menor posibilidad de
Accesibilidad a los tomar contacto con los serviservicios de salud cios de salud para recibir asistencia
Accesibilidad económica
Accesibilidad cultural
Fabricio Penna & Silvia Huarte
Indicadores
Definición operacional
Tiempo medido en horas y
minutos que tarda una persona para trasladarse de su
domicilio al centro de salud.
Cantidad de dinero que gasta para recibir la atención.
Disponibilidad económica
para cubrir ese gasto.
Conocimientos sobre la
atención que se da en el
centro de salud. Percepción
del problema de salud.
Págin@ 20
Definición operacional de una variable: es reducir el nivel de abstracción a través de diferentes
definiciones, para encontrar aquella que especifique elementos de la realidad, indicadores o referentes empíricos; dicho proceso de operacionalización, requiere tres tipos de definición:
1. Definición connotativa: tiene un elevado nivel de abstracción, señala las características esenciales, aquellas que expresan la naturaleza de lo que simboliza la variable.
2. Definición real: enumera componentes o dimensiones relevantes y concretas de la variable.
El nivel de abstracción es menor que el anterior.
3. Definición operacional: intenta indicar los indicadores empíricos de los componentes anteriores.
Definición de medición: hay varias definiciones de medición pero, en éste curso, vamos a utilizar
aquella dada por Stevens (1951): “La medición es la asignación de números a objetos o sucesos
según reglas”.
Tabla 2: Niveles de Medición
Niveles de medición
NOMINAL
ORDINAL
INTERVALAR
MÉTRICO o de RAZÓN
Operaciones empíricas
Equivalencia
Equivalencia
Orden
Equivalencia
Orden
Unidad de medida común y constante
Cero “arbitrario”
Equivalencia
Orden
Unidad de medida común y constante
Cero “absoluto o natural”
Operaciones matemáticas
A=B
A=B
A<BoA>B
A=B
A<BoA>B
A– B=C–D
A=B
A<BoA>B
A–B=C–D
A/B=C/D
•
Nominal: puede reemplazar al nombre con un número, no supone magnitud ni orden, se aplica a variables cualitativas (o atributos).
•
Ordinal: el número indica el orden, supone la existencia de magnitud y de orden, se aplica a
variables.
•
Intervalar: posee magnitud, supone unidad de medida común y constante, el “cero” (o punto
de origen) es arbitrario y no indica ausencia del factor.
•
Métrico o de Razón: posee magnitud, supone unidad de medida común y constante, el “cero”
es natural o absoluto e indica ausencia de factor.
Tabla 3: Relación existente entre variables y niveles de medición
NIVELES DE MEDICIÓN
VARIABLES
Dicotómicas
Politómicas
Discretas
CUANTITATIVAS
Continuas
CUALITATIVAS
Fabricio Penna & Silvia Huarte
NOMINAL ORDINAL INTERVALAR MÉTRICO
Si
Si
No
No
No
No
Si
Si
No
No
Si
Si
No
No
Si
Si
Págin@ 21
A modo de ejemplo, vamos a analizar las siguientes variables determinando el tipo de variable y
el nivel de medición:
a. Factor: Clases de respuestas infantiles al miedo
•
•
Definición teórica: distintas conductas que un niño expresa ante una situación amenazante.
Definición operacional: se trató de identificar las respuestas según la clasificación de
conductas verbales, fisiológicas o motoras.
b. Factor: Destreza manual
•
•
Definición teórica: capacidad del sujeto para realizar una tarea con precisión.
Definición operacional: evaluada mediante un test estandarizado donde cada ítem mide
el mismo monto de factor. Se registraban los movimientos bien controlados de brazo y
mano en la manipulación de objetos.
c. Factor: Clasificación de documentos
•
•
Definición teórica: amplia gama de registros escritos y simbólicos, así como cualquier
material y datos disponibles.
Definición operacional: pueden clasificarse según: su material (visuales o audiovisuales), el contenido (hechos reales o de ficción), la intencionalidad con que se hayan producido (públicos o privados).
d. Factor: Tipos de entrevistas
•
•
Definición teórica: técnica de recolección de información.
Definición operacional: clasificadas en: estructuradas; formal o con cuestionario, semiestructurada (sin cuestionario), no estructurada, cara a cara, telefónica, mediante tecnologías informáticas, individual, en panel, en grupo.
e. Factor: Cantidad de Instituciones médicas
•
•
f.
Definición teórica: locales habitables destinados a la atención de la salud de la población.
Definición operacional: número de institutos habilitados en cada provincia para enfermos.
Factor: Medios de comunicación
•
•
Definición teórica: fenómeno de comunicación de masas. Medios de comunicación personal, colectivo o en masa.
Definición operacional: incluye la prensa escrita, la radio, el teléfono, la propaganda, la
televisión, el cine, el vídeo, como así también otros medios audiovisuales o escritos.
3.3- DISTRIBUCIÓN EMPÍRICA
Se llama distribución empírica de frecuencias de la variable aleatoria x, al conjunto de pares (xi,
fi*), donde i = 1, 2, 3, ..., n. Cabe decir que, como en el caso de la distribución de probabilidad,
una distribución empírica describe completamente a la muestra de donde fue obtenida, ya que los
valores de xi dan los valores observados de la característica de la población en la muestra, y sus
correspondientes frecuencias relativas fi* proporcionan la forma como se presentan esos resultados.
Fabricio Penna & Silvia Huarte
Págin@ 22
Supóngase que se tienen los n elementos de una muestra obtenida de una población, y que en
ésta hay:
f1 resultados idénticos a x1
f2 resultados idénticos a x2
f3 resultados idénticos a x3
····
····
fk resultados idénticos a xk
donde:
k
∑f
i =1
i
= f1 + f 2 + L + f k = n
(12)
y x1, x2, x3, . . . , xk son k valores numéricos asociados a los eventos observados al realizar el
experimento aleatorio que define la muestra, es decir, son valores observados de una variable
aleatoria x asociada a la población y los números f1, f2, f3, . . . , fk se llaman frecuencias de ocurrencia de los valores x1, x2, x3, . . . , xk, respectivamente.
El cociente de una frecuencia fi entre el total de observaciones n (tamaño de la muestra), se llama
la frecuencia relativa de ocurrencia del valor xi correspondiente. Representando la frecuencia
relativa de con fi*, se tiene que:
f i* =
fi
; i = 1, 2, ..., k
n
(13)
Obsérvese el paralelismo entre los conceptos de frecuencia relativa y de probabilidad clásica. De
la expresión (13) se obtienen de inmediato las condiciones que un conjunto de números tienen
que cumplir para que sean frecuencias relativas de los valores de una muestra. Estas son:
0 ≤ f i* ≤ 1
k
∑f
i =1
*
i
(14)
=1
Se llama frecuencia relativa acumulada de un valor xi, a la suma de frecuencias relativas de todos
los valores menores o iguales al valor xi considerado. Si Fi es la frecuencia relativa acumulada de
xi, se tiene:
i
Fi = ∑ f j* = 1,
i = 1, 2, ..., k
(15)
j=1
Para el ejemplo del tiro de un dado, en donde se trata de ver el número de la cara que queda
hacia arriba, la distribución empírica es:
xi
fi*
Fabricio Penna & Silvia Huarte
1
0,2
2
0,1
3
0,3
4
0,1
5
0,1
6
0,2
Págin@ 23
Si se considera una variable aleatoria que tome el valor cero cuando el resultado del tiro del dado
es par, y el valor uno cuando es impar, la distribución empírica de esta variable es:
xi
fi*
0
0,4
1
0,6
Para las mismas muestras consideradas del tiro de un dado, las distribuciones de frecuencias relativas acumuladas, es decir, el conjunto de pares (xi, Fi) son, respectivamente, las siguientes:
xi
Fi
1
0,2
2
0,3
3
0,6
4
0,7
xi
Fi
0
0,4
1
1,0
5
0,8
6
1,0
y
Las distribuciones empíricas de frecuencias y de frecuencias relativas acumuladas tienen las representaciones gráficas que se verán más adelante.
3.4- PRESENTACIÓN DE DATOS: TABLA DE FRECUENCIAS
Tabla 4: Muestra de estaturas (en cm) de estudiantes universitarios.
165
168
153
185
166
164
184
158
180
176
161
170
172
167
169
173
169
179
163
184
179
177
165
157
186
166
180
173
175
179
187
181
163
179
165
165
163
178
167
169
173
175
174
155
168
172
170
180
162
154
179
174
184
177
165
164
168
176
178
176
171
169
170
167
185
175
165
173
178
168
177
170
169
161
168
162
176
180
168
155
168
169
164
177
162
168
176
175
178
169
172
169
158
171
173
181
180
168
172
170
Considérese la muestra de tamaño 100, de estaturas de estudiantes universitarios mostrada en la
Tabla 4. Debido al número de datos y la variabilidad de los mismos, poca información se podrá
deducir de la muestra si se forma una tabla con las distribuciones empíricas de frecuencias y de
frecuencias relativas acumuladas. Entonces, cuando el tamaño n de la muestra es grande, conviene agrupar los datos de la muestra de alguna manera que sea menos confusa y permita establecer
patrones de los valores observados.
Para resolver este problema, conviene condensar los datos tabulando las frecuencias asociadas a
ciertos intervalos de los valores observados. Estos intervalos se llaman intervalos de clase, los
que deben estar definidos por límites que permitan identificar plenamente si un dato particular
pertenece a uno u otro intervalo de clase. Comúnmente se resuelve lo anterior haciendo que los
limites de los intervalos de clase tengan una cifra decimal más que los datos originales, o usando
adecuadamente los signos de igualdad y desigualdad en la definición de cada uno de los interva-
Fabricio Penna & Silvia Huarte
Págin@ 24
los de clase. En la práctica se ha visto que es conveniente que el número de intervalos de clase
sea de 5 a 15 y que en cada intervalo caigan, por lo menos, 5 observaciones.
De la Tabla 4 se ve que la observación mayor en la muestra de estaturas de estudiantes universitarios es 187 cm y, la observación menor, de 153 cm. La diferencia entre estas dos observaciones, 187 − 153 = 34, indica que en un rango de 34 cm están todas las estaturas de los estudiantes
muestreados. Si se consideran 7 intervalos de clase, la amplitud de cada uno de ellos será del
orden de 34/7 ≅ 5 cm. De esta manera, y haciendo que la observación menor caiga en el primer
intervalo de clase y la mayor en el último, los intervalos de clase pueden ser (153; 157), (158;
162), ..., (183; 187) donde cada intervalo representa estaturas observadas.
Los puntos medios de los intervalos de clase (calculados como el “promedio” entre el límite inferior y el superior de cada intervalo) reciben el nombre de marcas de clase, y son representativos
del conjunto de observaciones que caen en el intervalo de clase correspondiente. Para los intervalos de clase de la muestra de estaturas determinadas, las marcas de clase son 155, 160, ..., 185.
El arreglo en una tabla de los intervalos de clase, marcas de clase, frecuencias, frecuencias relativas y frecuencias relativas acumuladas, se conoce con el nombre de tabla de frecuencias.
Condensados los datos de una muestra en una tabla de frecuencias, el conjunto de pares (ti, fi), en
donde ti es la marca de clase, representa la distribución empírica de la muestra, y a través de ella
podrá obtenerse mayor información de la misma muestra que de los datos dispersos.
Ejemplo 2: Dada la Tabla 4 con los datos observados en una muestra de tamaño 100 de las estaturas de los estudiantes universitarios, construir una tabla de frecuencias.
De dicha tabla se obtiene:
- Observación máxima (xmax) = 187
- Observación mínima (xmin) = 153
- Rango o recorrido = xmax – xmin = 187 – 153 = 34
- Número de intervalos de clase = 7
- Amplitud de los intervalos de clase = 34/7 ≅ 5
- Primer intervalo de clase (contiene al 153 y sus limites tienen un decimal) = 152,5 a 157,5.
Con la información anterior se construye la tabla de frecuencias que aparece en la Tabla 5. De
esta se puede comenzar a deducir información valiosa sobre la muestra estudiada. Por ejemplo,
de aquí se obtiene que el 28% de los estudiantes muestreados tienen una estatura de 167,5 a
172,5 cm; que el 77% de los estudiantes tienen una estatura menor a 177,5 cm; que es muy remoto encontrar estudiantes con estatura superior a 187,5 cm; etc.
Fabricio Penna & Silvia Huarte
Págin@ 25
Tabla 5: Tabla de frecuencias de la muestra de estaturas de estudiantes universitarios
Intervalo
de Clase
Marca de
clase (ti)
Conteo de
frecuencias
152,5 – 157,5
157,5 – 162,5
162,5 – 167,5
167,5 – 172,5
172,5 – 177,5
177,5 – 182,5
182,5 – 187,5
155
160
165
170
175
180
185
IIIII
IIIIIII
IIIIIIIIIIIIIIIII
IIIIIIIIIIIIIIIIIIIIIIIIIIII
IIIIIIIIIIIIIIIIIII
IIIIIIIIIIIIIIII
IIIIIII
Frecuencia
absoluta
(fi)
5
7
17
28
20
16
7
Frecuencia
Relativa
(fi*)
0,05
0,07
0,17
0,28
0,20
0,16
0,07
Frecuencia Relativa Acumulada
(Fi)
0,05
0,12
0,29
0,57
0,77
0,93
1,00
3.5- REPRESENTACIONES GRÁFICAS DE LAS DISTRIBUCIONES EMPÍRICAS: HISTOGRAMA
POLÍGONO DE FRECUENCIAS RELATIVAS ACUMULADAS
Y
En forma semejante a los polígonos de probabilidad y de probabilidad acumulada, existen representaciones gráficas de las distribuciones empíricas. Éstos son histograma y polígono de frecuencias acumuladas.
Histograma: Es una representación gráfica de la distribución empírica en un sistema de ejes coordenados ortogonales de referencia. En el eje de las abscisas se sitúan las marcas de clase, y en
el de las ordenadas las frecuencias o las frecuencias relativas. La representación se basa en
rectángulos de igual base al intervalo de clase y de altura la frecuencia o frecuencia relativa correspondiente. Dependiendo de que se grafiquen las frecuencias o las frecuencias relativas, el
histograma se llama de frecuencias o frecuencias relativas, respectivamente.
En el Gráfico 9 se tiene el histograma de frecuencias relativas de la muestra de estaturas de los
estudiantes universitarios. Los datos para construirlo se tomaron de la Tabla 2. En el mismo
Gráfico se han unido los puntos sucesivos (ti, fi*) por medio de segmentos de rectas; a este trazo
se le llama el polígono de frecuencias relativas de la distribución empírica.
Gráfico 9: Histograma de frecuencias relativas correspondiente a la estatura (en cm) de una
muestra de 100 alumnos.
Fabricio Penna & Silvia Huarte
Págin@ 26
Polígono de frecuencias relativas acumuladas: el polígono de frecuencias relativas acumuladas,
también llamado ojiva, es una representación poligonal abierta de las frecuencias relativas acumuladas en un sistema de ejes coordenados ortogonales de referencia. En el eje de las abscisas se
sitúan los valores de los límites de los intervalos de clase, y en el de las ordenadas las frecuencias
relativas acumuladas de los mismos valores.
En el Gráfico 10 se tiene el polígono de frecuencias relativas acumuladas de la misma muestra
de estaturas de los estudiantes universitarios. También se construyó tomando los datos de la Tabla 5
Gráfico 10: Polígono de frecuencias relativas acumuladas de estaturas (en cm) de la muestra de
estudiantes.
4. ESTIMADORES DESCRIPTIVOS DE UNA DISTRIBUCIÓN EMPÍRICA
Como en las distribuciones teóricas de probabilidad, en las distribuciones empíricas existen diferentes estimadores que resumen una gran cantidad de información sobre las muestras. A estos
estimadores los clasificaremos en fractiles, medidas de tendencia central (MTC), medidas de
dispersión (MD), coeficiente de asimetría o sesgo y coeficiente de aplanamiento o curtosis. Dentro de las MTC veremos: la media aritmética, la mediana y la moda; las MD que estudiaremos
serán: el rango o recorrido, el semi rango, la MAD, la desviación estándar y el coeficiente de
variación.
En general, las MTC representan valores promedios o medidas de posición de los datos de la
muestra. Las MD miden el grado de concentración o variabilidad de los datos. Por otro lado y,
como sus nombres lo indican, los coeficientes de asimetría y de aplanamiento establecen criterios para comparar el histograma de la muestra con respecto a ciertas normas.
Fabricio Penna & Silvia Huarte
Págin@ 27
4.1- FRACTILES: CUARTILES, DECILES Y PERCENTILES O CENTILES
Los cuartiles (Q), deciles (D) y percentiles o centiles (P) son estimadores descriptivos de una
distribución empírica. Estos establecen la localización de diversos valores que dividen a la muestra en grupos de acuerdo a las frecuencias de las observaciones.
Los valores de los diferentes Q (Q1, Q2 y Q3), D (D1, D2, ..., D9) y P (P1, P2, ..., P99) se pueden
estimar gráficamente del polígono de frecuencias relativas acumuladas, siendo el cálculo de los
fractiles de orden (es decir, la posición de los fractiles) los siguientes:
(Q i )O
= i×
n
+ 0,5 ;
4
(D i )O
= i×
(Pi )O
n
+ 0,5 ;
10
= i×
n
+ 0,5
100
(16)
En un polígono de frecuencias relativas acumuladas, la abscisa de cualquier punto del polígono
se llama el fractil, y la ordenada correspondiente la fracción, la que se maneja en forma porcentual. Esta representa precisamente la fracción de la totalidad de datos que tienen un valor menor
o igual al del fractil correspondiente. Para referirse a un fractil en particular, se le asocia la fracción al cual corresponde. Por ejemplo, en el Gráfico 10 se ha trazado el fractil 70, cuyo valor es
175,75; lo que significa que el 70% de los estudiantes medidos tienen una estatura menor o igual
a 175,75 cm. Estas medidas, llamadas también “medidas de posición”, pueden ser calculadas
tanto para atributos como para variables.
Algunos fractiles tienen nombres particulares. Así, a modo de ejemplo, el fractil 1 se llama percentil 1 (P1), el fractil 2 se llama percentil 2 (P2), etc.; al fractil 10 se conoce como decil 1 (D1),
el fractil 20 es el decil 2 (D2), etc. Los fractiles 25, 50 y 75 se los denomina también como primero, segundo y tercer cuartil (Q1, Q2 y Q3), respectivamente. Al fractil 50 se lo conoce como
mediana y, como puede verse en el Gráfico 10, es un valor tal que la mitad (50%) de los datos
son menores o iguales que ella, y la otra mitad (50%) mayores o iguales que la misma.
4.2- MEDIDAS DE TENDENCIA CENTRAL: MEDIA ARITMÉTICA, MEDIANA Y MODA O MODO
Media aritmética ( X ): La media aritmética es el más común y representativo de los estimadores
descriptivos de tendencia central y se define como el promedio aritmético de todos los datos de
la muestra. De acuerdo a lo dicho anteriormente, si x1, x2, x3, . . . ,xn son valores observados de la
variable aleatoria x correspondientes a una muestra de tamaño n obtenida de una población, la
media, representada por X , es:
n
x + x 2 + L + xk
X = 1
=
n
Fabricio Penna & Silvia Huarte
∑x
i =1
n
i
(17)
Págin@ 28
Características: Es sensible al valor exacto de todos los datos de la distribución y a la presencia
de valores extremos; la suma de las desviaciones con respecto a la media es cero; la suma de los
cuadrados de las desviaciones respecto a la media es mínima y es calculable para variables con
nivel de medición intervalar o métrico.
~
Mediana ( X ): La mediana (trazada en el Gráfico 10) es un valor tal que la mitad de las observa-
ciones son menores que ese valor y la otra mitad mayores que el mismo. Su valor puede determinarse ordenando los datos de la muestra de menor a mayor (o viceversa) y tomando el elemento central cuando exista (n impar), caso contrario (n par) se toma como mediana al promedio de
los dos valores centrales [en general consideraremos el valor ubicado en la “posición” (n+1)/2,
pudiendo ser observable o no]. En el caso de la muestra del tiro de un dado, las observaciones
ordenadas son: 1, 1, 2, 3, 3, 3, 4, 5, 6, 6, por lo que su mediana es (3+3)/2 = 3.
Características: A pesar de no ser la medida más representativa, la podemos considerar más “robusta” pues no se ve afectada por los valores extremos que componen la distribución; es calculable para variables con nivel de medición ordinal, intervalar o métrico. La podemos considerar
como un fractil “encubierto” es decir, la mediana toma igual valor que el cuartil 2 (Q2), el decil 5
(D5) y el percentil 50 (P50).
Moda ó Modo ( X̂ ): La moda (o modo) de una muestra es la observación que se presenta con
mayor frecuencia; por lo tanto, es el valor más descriptivo de la muestra. Desde luego que la
moda puede ser única o tener varios valores, opacando un poco su propiedad de descripción. En
la muestra del tiro de un dado formada por los números 3, 2, 3, 6, 1, 5, 3, 4, 6, 1, obviamente la
moda es única y vale 3.
Características: Al igual que la mediana, no se ve afectada por valores extremos que pueden
contener la variable bajo estudio; es una medida de fácil localización, siendo la más típica de
toda la distribución, dado que se halla localizada en el punto de máxima concentración; si nos
encontrarnos con distribuciones bimodales o multimodales, su propiedad de localización se ve
“opacada” y esto podría considerarse como su mayor desventaja. Se puede calcular tanto en variables cualitativas (o atributos) como cuantitativas, para cualquier nivel de medición.
Cuando el histograma, de una distribución empírica, es casi simétrico (y unimodal), se puede
estimar el valor de la moda a partir de la relación que existe entre ella, la media aritmética y la
mediana. Se ha encontrado que en distribuciones empíricas moderadamente asimétricas, la distancia entre la media y la mediana es un tercio de la distancia entre la media y la moda, es decir,
(
)
(
~ 1
~
X − X = X − X̂ ⇒ X̂ = X − 3 X − X
3
Fabricio Penna & Silvia Huarte
)
(18)
Págin@ 29
Nota: tanto los fractiles como las MTC definidas anteriormente, siempre toman valores contenidos entre el mínimo
(xmin) y el máximo (xmax) valor de la distribución.
4.3- MEDIDAS DE DISPERSIÓN: RANGO O RECORRIDO, SEMI RANGO, VARIANZA, DESVIACIÓN
ESTÁNDAR, MAD Y COEFICIENTE DE VARIACIÓN
Rango o recorrido (R): es la medida de dispersión más simple. Fue usada en la construcción de la
tabla de frecuencias en el Ejemplo 2 y se define como la diferencia entre la mayor y la menor
observaciones de la muestra. Si xmax es la observación de mayor valor y xmin el valor de la observación mínima, el rango se calcula como:
R = xmax − xmin
(19)
Para la muestra del tiro de un dado que se ha venido analizando, las observaciones máxima y
mínima son xmax = 6 y xmin = 1, respectivamente. Por lo tanto, el rango de la muestra será 6-1= 5.
Semi Rango (SR):
SR =
x max + x min
2
(20)
Las MD anteriores, son útiles cuando interesa tener una rápida aproximación de la dispersión en
distribuciones casi simétricas. Sin embargo, son poco utilizadas pues no consideran la información contenida en los términos intermedios.
Varianza (s2): Es la medida de dispersión más conocida y de mayor utilidad. Se define como el
“promedio” de los cuadrados de las desviaciones de las observaciones con respecto a su valor
medio.
Si x1, x2, x3,..., xn son los valores observados de la variable aleatoria x correspondientes a una
muestra de tamaño n obtenida de una población, y X es la media de la muestra entonces la varianza, representada por s2, es:
∑ (x
n
s2 =
i =1
− X)
2
i
n −1
(21)
Desviación Estándar (s ó DE): Como en el caso de la desviación estándar de variables aleatorias
con distribución de probabilidad conocida, la desviación estándar de la muestra de define como
la raíz cuadrada de la varianza:
DE = s = s 2
(22)
Mediana de las desviaciones absolutas respecto de la mediana (MAD): Esta medida de dispersión es la mediana de los valores absolutos de las diferencias entre los valores de la muestra (x1,
Fabricio Penna & Silvia Huarte
Págin@ 30
x2, x3,..., xn) y la mediana de todos los datos. Es de gran utilidad cuando el nivel de medición de
los datos es ordinal o bien, cuando la distribución se ve afectada por valores extremos. Su expresión es la siguiente:
(
~
~
~
MAD = Mediana x1 − X , x2 − X , L, xn − X
)
(23)
Nota: Cuanto más pequeña es la MAD, más concentrados respecto a la mediana están los datos.
Coeficiente de Variación (CV): En las distribuciones empíricas se define este coeficiente como
la razón entre la desviación estándar y el valor absoluto de la media de la muestra, multiplicado
por 100. Esta razón nos puede indicar, en primer lugar que cuanto más próximo a cero es CV,
más representativa será la media del grupo, y por el otro, como es un número adimensional, me
permite comparar la representatividad de las medias en distribuciones con distintas unidades.
CV =
s
× 100
X
(24)
Nota: en general, si el CV < 20%, podemos decir que la media del grupo es representativa.
Retomando las características de los niveles de medición, presentados en Tabla 2, los estadísticos
a ser utilizados son los siguientes:
Tabla 6: Estadísticos “apropiados”, de acuerdo al nivel de medición del factor
Niveles de medición
NOMINAL
ORDINAL
INTERVALAR
MÉTRICO o de RAZÓN
Estadísticos apropiados
Moda
Fractiles, moda, mediana, MAD
Fractiles, moda, mediana, media, rango, semi rango, MAD, desviación estándar, varianza, coeficiente de variación
Fractiles, moda, mediana, media, rango, semi rango, MAD, desviación estándar, varianza, coeficiente de variación
4.4- COEFICIENTE DE ASIMETRÍA O SESGO
Se dice que una distribución empírica es simétrica, cuando su histograma tiene un eje vertical de
simetría. En este caso, la media, mediana y moda coinciden con ese eje de simetría.
En una distribución empírica asimétrica, los valores de la media, mediana y moda son diferentes
entre sí. En este caso, la moda subsiste en el rectángulo más alto del histograma, ya que no se ve
afectada por las observaciones poco frecuentes que distorsionan la simetría del histograma. La
posición de la mediana estará algo “alejada” de la moda, en la dirección de los valores inusuales,
dividiendo en dos partes el área del histograma. Como la media es la que se ve más afectada por
los valores extremos, quedará localizada más lejos de la moda en la misma dirección de los valores poco frecuentes.
Fabricio Penna & Silvia Huarte
Págin@ 31
Lo anterior se representa en los otros casos del Gráfico 11, donde se ha llamado asimetría positiva o derecha al caso de tener datos poco frecuentes a la derecha de la moda que hagan que se
prolongue el histograma en esa dirección, y asimetría negativa o izquierda al caso contrario.
De lo anterior puede establecerse que una medida de la asimetría de una distribución empírica
puede ser la diferencia entre la media y la moda, ya que a mayor asimetría le corresponde una
mayor diferencia. Dado que la medida de la asimetría se utiliza principalmente con fines comparativos, conviene que la propuesta sea adimensional, y que los valores grandes de la media sean
debidos a gran asimetría y no a gran dispersión de los datos. Para resolver lo anterior, se dividirá
la diferencia de la media y la moda entre la desviación estándar de la muestra. A este cociente se
le llama el primer coeficiente de asimetría de Pearson; vale cero cuando la distribución es simétrica y diferente de cero cuando es asimétrica, dando directamente el sentido positivo o negativo
de la asimetría según el signo.
Coeficiente de asimetría de Pearson = As =
X − X̂
s
(25)
En el caso de distribuciones moderadamente sesgadas, existe una relación aproximada entre los
diversos estadísticos:
(
~
X − X̂ = 3 X − X
)
(26)
Es interesante destacar que en el caso de las distribuciones asimétricas, con cúspide muy aguda,
la mediana constituye −a menudo− una útil MTC.
Si reemplazamos la ecuación (26) en la (25), obtenemos que:
(
~
3X−X
Coeficiente de asimetría de Pearson = As =
s
Fabricio Penna & Silvia Huarte
)
(27)
Págin@ 32
Gráfico 11: Distribuciones de frecuencias que muestran la simetría y los tipos de asimetría
Existen otras formas de medir la asimetría de una distribución empírica. Es particularmente importante la que utiliza el concepto de momento de muestra que a continuación se establece:
Se llama momento de orden r con respecto a la media de una muestra de valores x1, x2, x3, ..., xn
de media X a:
∑ (x
n
mr =
i =1
− X)
r
i
n
(28)
Una medida de la asimetría de una distribución empírica, llamada el coeficiente momento de
asimetría, está dada por el tercer momento con respecto a la media expresado en forma adimensional. Esta es:
a3 =
m3
(m 2 )3
(29)
Donde m3 es el tercer momento de la muestra con respecto a la media y m2 el segundo, o sea, la
varianza. Este coeficiente también vale cero cuando la distribución empírica es perfectamente
simétrica.
Fabricio Penna & Silvia Huarte
Págin@ 33
4.5- COEFICIENTE DE APLANAMIENTO O CURTOSIS
El histograma de una distribución empírica puede tener la tendencia general de la gráfica de la
distribución normal, ser más estrecha y alta que esa tendencia, o más ancha y baja que la misma.
A una distribución empírica cuyo histograma siga la tendencia de la gráfica de la distribución
normal se dice que es mesocúrtica, si es más alta y estrecha que ésta es leptocúrtica, y si es más
ancha y baja se le llama platicúrtica. En el Gráfico 12 se muestran distribuciones correspondientes a los tres tipos de aplanamiento mencionados.
El grado de aplanamiento de una distribución empírica se llama curtosis y se mide a través del
cuarto momento con respecto a la media expresado en forma adimensional. La medida de aplanamiento, llamada coeficiente momento de curtosis, está definida por:
K = a4 =
m4
m 22
(30)
Cuando K=3 ⇒ la distribución es mesocúrtica, si K>3 ⇒ la distribución es leptocúrtica y si K<3
⇒ la distribución es platicúrtica.
Gráfico 12: Distribuciones de frecuencias que muestran los tipos de aplanamiento
Ejemplo 3: la siguiente tabla presenta las estaturas de 100 estudiantes universitarios, determinar:
•
•
•
•
•
•
•
La tabla de distribución de frecuencias (básica) de la variable en estudio
El histograma de frecuencias relativas y el polígono de frecuencias relativas acumuladas
La media, la mediana y la moda
La desviación estándar y el CV
Los cuartiles Q1, Q2 y Q3.
Si la distribución empírica es o no simétrica
Cuál es el grado de aplanamiento de la distribución empírica
Fabricio Penna & Silvia Huarte
Págin@ 34
Tabla 7: Muestra de estaturas (en cm) de estudiantes universitarios
165
168
153
185
166
164
184
158
180
176
161
170
172
167
169
173
169
179
163
184
179
177
165
157
186
166
180
173
175
179
187
181
163
179
165
165
163
178
167
169
173
175
174
155
168
172
170
180
162
154
179
174
184
177
165
164
168
176
178
176
171
169
170
167
185
175
165
173
178
168
177
170
169
161
168
162
176
180
168
155
168
169
164
177
162
168
176
175
178
169
172
169
158
171
173
181
180
168
172
170
¿Cómo interpretaría los resultados obtenidos?
Ejemplo 4: consideremos para el presente ejemplo que la Tabla 7 nos da, en lugar de estaturas,
número de errores ortográficos cometidos por 100 alumnos en distintos trabajos de investigación.
Utilice los indicadores que crea convenientes, incluyendo la confección de una tabla de frecuencias y un gráfico, para dar cuenta del comportamiento de dicho factor (a nivel colectivo). ¿Cómo
interpretaría los resultados obtenidos?
5. REGRESIÓN LINEAL SIMPLE
En muchos problemas hay dos o más variables relacionadas, y es necesario explorar la naturaleza
de esta relación. El análisis de regresión es una técnica estadística para modelar e investigar la
relación entre dos o más variables. Por ejemplo, en un proceso químico, supóngase que el rendimiento de un producto se relaciona con la temperatura de operación del proceso. El análisis de
regresión puede emplearse para construir un modelo que exprese el rendimiento como una función de la temperatura. Este modelo puede utilizarse luego para predecir el rendimiento en un
nivel determinado de temperatura. También podría emplearse con propósitos de optimización o
control del proceso.
En general, supóngase que hay una sola variable respuesta y dependiente que se relaciona con k
variables independientes o regresoras, digamos x1, x2, ..., xk. La variable respuesta y es una variable aleatoria, en tanto que las variables regresoras x1, x2, ..., xk se miden con error despreciable. Las xj se llaman variables matemáticas y con frecuencia son controladas por el experimentador. El análisis de regresión también puede utilizarse en situaciones en las que y, x1, x2, ..., xk son
variables aleatorias distribuidas conjuntamente, tal como en el caso cuando los datos se recaban
como mediciones diferentes en una unidad experimental común. La relación entre estas variables
se caracteriza por medio de un modelo matemático llamado ecuación de regresión. De modo
más preciso, hablamos de la regresión de y en x1, x2, ..., xk. Este modelo de regresión se ajusta a
un conjunto de datos. En algunas situaciones, el experimentador conocerá la forma exacta de la
relación función verdadera entre y y x1, x2 , ..., xk, por ejemplo, y = f(x1, x2, ..., xk). Sin embargo,
Fabricio Penna & Silvia Huarte
Págin@ 35
en la mayor parte de los casos, la verdadera relación funcional se desconoce y el experimentador
elegirá una función apropiada para aproximar f(∗). Un modelo polinómico suele emplearse como
la función de aproximación.
En trabajos elementales a menudo se establecen relaciones mediante la determinación de los valores de las variables en un cierto número de puntos igual al número total de variables. Por ejemplo, si se postula una relación lineal y = a + bx, dos pares de valores (x1, y1) y (x2, y2) determinan
las constantes en la ecuación. Esto resulta satisfactorio, tomando en cuenta que las cantidades
observadas no presentan ningún error.
En la práctica, hay errores en nuestras observaciones, y si se realizan algunas más, digamos (x3,
y3), es posible obtener un punto que no se ajusta de manera exacta a la línea recta que pasa por
los dos puntos originales. Desde luego, esto también se aplica a las curvas que comprenden potencias de x e y. Los métodos estadísticos permiten ajustar la “mejor” línea a una serie de datos
dada, en lugar de simplemente trazar una línea “a ojo”.
Nuestro principal interés radica en el estudio de la relación existente entre dos variables, más que
en la estimación de una variable a partir de la otra.
5.1- MÉTODO DE MÍNIMOS CUADRADOS
El principio en el que se basa el ajuste de la “mejor” línea es el de mínimos cuadrados, y establece que si y es una función lineal de una variable independiente x, la posición más probable de
una recta y = a + bx es tal que la suma de los cuadrados de las desviaciones de todos los puntos
(xi, yi) respecto de la línea es un mínimo; las desviaciones se miden en la dirección del eje y.
Cabe destacar que el supuesto considerado consiste en que x está libre de errores (es la asignada), o bien, está sujeta sólo a errores insignificantes, en tanto que y es la cantidad observada o
medida, sujeta a errores que deben ser “eliminados” por el método de mínimos cuadrados. La y
observada es pues un valor aleatorio a partir de la población de valores de y que corresponden a
una x dada. Dicha situación existe en los experimentos controlados, donde se tiene interés en
obtener un valor medio de yi para cada valor dado de xi.
Supongamos que nuestras observaciones constan de n pares de valores:
x 1 , x 2 , ..., x n

 y1 , y 2 , ..., y n
(31)
e imaginemos que los diversos pares se representan como puntos según se muestra en el Gráfico
13. Supongamos además que, debido a la naturaleza física de la relación entre x e y, se sabe que
Fabricio Penna & Silvia Huarte
Págin@ 36
la relación es lineal, o bien, se espera o sospecha que lo es. Por consiguiente, se expresa la relación como:
Ŷ = a + bX
(32)
Nuestro problema consiste en encontrar los valores de a y b para el caso de la línea de “mejor
ajuste”.
Gráfico 13: Obtención de la recta de regresión lineal por el método de mínimos cuadrados
En lo referente a un punto i en esta línea: y i − (a + bx i ) = 0 pero si se presenta un error en la
medición, habrá un residuo ei tal que y i − (a + bx i ) = e i
Con n observaciones, se tienen n ecuaciones:
y1 − (a + bx 1 ) = e1
y 2 − (a + bx 2 ) = e 2
y 3 − (a + bx 3 ) = e 3
(33)
..........................
y n − (a + bx n ) = e n
El Gráfico 13 señala que la línea que pasa por el punto (X, Y ) , esto es por el punto cuyas coordenadas son las medias adecuadas de todas las observaciones, al que podemos dar el nombre de
centroide (o centro de gravedad) de todas las observaciones. A partir del hecho de que el punto
(X , Y ) , se halla en la recta, se dice que la ecuación (32) puede formularse como:
Ŷ − Y = b(x − X )
Fabricio Penna & Silvia Huarte
(34)
Págin@ 37
5.2- LÍNEAS DE REGRESIÓN
Al resolver las ecuaciones normales, se obtiene:
a=
n
n
n
n
i =1
i =1
i =1
∑ x i2 ∑ y i − ∑ x i ∑ x i .y i
i =1


n∑ x −  ∑ x i 
i =1
 i =1 
n
n
2
= y − bx
(35)
2
i
y
b=
n
n
n
i =1
i =1
i =1
2
n ∑ x i .y i − ∑ x i ∑ y i
 n

n ∑ x i2 −  ∑ x i 
i =1
 i =1 
n
=
S xy
S 2x
(36)
En la práctica es más conveniente calcular a y b valiéndose de las ecuaciones (35) y (36) y emplear los valores numéricos de a y b directamente al escribir Y = a + bX. Está recta se denomina
línea de regresión de y sobre x. En su obtención se supone que x es la variable asignada (es decir, sensiblemente libre de error) y que y es la cantidad observada.
No obstante, si se invierten las propiedades de las variables, esto es, si y es la variable asignada y
x, la cantidad observada, se calculan las constantes en la ecuación de la línea:
X̂ = a '+ b' Y
(37)
al minimizar la suma de los cuadrados de los x residuos. La ecuación para la recta es conocida
como línea de regresión de x sobre y, siendo las ecuaciones normales las siguientes:
a ' = x − b' y
b' =
S xy
S 2y
(38)
(39)
Pero ambas líneas se cortan en el punto (X , Y ) o lo que es lo mismo [M(x), M(y)]. Un ejemplo
de las dos líneas de regresión se muestra en el Gráfico 14. Debe observarse que es posible calcular la regresión cuando ambas variables están sujetas a error.
Fabricio Penna & Silvia Huarte
Págin@ 38
Gráfico 14: Línea de regresión (a) x sobre y, (b) y sobre x, correspondiente a una relación esfuerzo–resistencia).
Nota: M(x) y M(y) son las medias aritméticas de las variables X (esfuerzo) e Y (resistencia), respectivamente.
Ejemplo 5 (de www.bioestadistica.uma.es/libro/node42.htm): De una muestra de ocho observaciones conjuntas de valores de dos variables X e Y, se obtiene la siguiente información:
∑x
i
= 24;
∑x y
i
i
= 64;
∑y
i
= 40; S 2y = 12; S 2x = 6
Calcule la recta de regresión de Y sobre X y explique el significado de los parámetros,
Ejemplo 6 (de www.bioestadistica.uma.es/libro/node42.htm): En una muestra de 1500 individuos
se recogen datos sobre dos medidas antropométricas X e Y. Los resultados se muestran resumidos
en los siguientes estadísticos:
x = 14; S x = 2; y = 100; S y = 25; S xy = 45
Obtener el modelo de regresión lineal que mejor aproxima Y en función de X. Utilizando este
modelo, calcular de modo aproximado la cantidad Y esperada cuando X=15, X=20 y X=25
5.3- LIMITACIONES DEL MÉTODO
Es pertinente establecer explícitamente que el método de los mínimos cuadrados sólo se puede
aplicar cuando los valores observados de yi corresponden a los valores asignados (o libres de
errores) de xi; además el error en y (expresado como varianza de y) debe ser independiente del
nivel de x.
Para el caso de inferencias y estimaciones que se deban hacer respecto a la regresión (pero no
por el método de mínimos cuadrados), también es necesario que los valores de yi que corresponden a un xi dado, estén distribuidos de manera normal, y cuya media de distribución satisfaga la
ecuación de regresión. Además, la varianza de los valores de y para un valor dado de x deberá ser
Fabricio Penna & Silvia Huarte
Págin@ 39
independiente de la magnitud de x. En muchos problemas prácticos esto no ocurre así, y, por lo
tanto, es necesario recurrir a la transformación de la ecuación, estas transformaciones comunes
se realizan por medio de logaritmos, raíces cuadradas, etc. La transformación estabiliza la varianza de y, y hace que las distribuciones estén más próximas a lo normal.
5.4- RELACIONES NO-LINEALES: TRANSFORMACIONES
El método de ajuste de la línea de regresión puede extenderse al caso en el que la relación conocida, esperada o sospechada no se encuentra en la forma de una línea recta. El procedimiento
consiste en formular la ecuación a la curva en su forma general, tabular las desviaciones de y a
partir de la curva supuesta, y obtener las constantes en la ecuación que satisfaga la condición de
que la suma de los cuadrados de las desviaciones es un mínimo.
Transformaciones: la aplicación del método de los mínimos cuadrados a las relaciones no lineales, por lo general requiere una serie considerable de cálculos. No obstante, en muchos casos,
una relación no lineal puede “transformarse” en una relación lineal. Eso no sólo simplifica el
manejo de los datos, sino que también da lugar a una presentación gráfica más reveladora en lo
que a la evaluación de la dispersión se refiere. La extrapolación, si esto se justifica (y a menudo
no lo hace), también resulta más sencilla, al igual que el cálculo de los diversos valores estadísticos, como la desviación estándar o los límites de confianza. Claramente, los valores estadísticos
calculados para variables “transformadas” se aplican a ellos y no a los datos originales. A continuación se ilustrarán algunos casos simples:
•
La función exponencial y=abx puede “transformarse” mediante la transformación logarítmica, esto es, obteniendo los logaritmos de ambos miembros de la ecuación:
Log y = log a + x log b
(40)
Esto se representará como una línea recta si las ordenadas dan como resultado log y (es decir, están a una escala logarítmica), en tanto que las abscisas están a una escala lineal, log a y
log b son las constantes de ajuste de la ecuación. De modo que log y y x son tratadas como
variables nuevas (y lineales) a las cuales se aplica el principio de mínimos cuadrados.
•
La función de potencia y=axb puede “transformarse” aun de manera más simple, una vez
más tomando logaritmos:
Log y = log a + b log x
(41)
Las constantes de ajuste son ahora log a y b, y las nuevas variables log x y log y están relacionadas linealmente.
Fabricio Penna & Silvia Huarte
Págin@ 40
•
La hipérbola y=a+b/x se puede “transformarse” tratando 1/x=u como la nueva variable. Por
lo tanto, y y u se relacionan en forma lineal. Si la ecuación es de la forma:
y=
x
a + bx
⇒
1 a
= +b
y x
(42)
En consecuencia, 1/x y 1/y se relacionan en forma lineal. Alternativamente, se pueden multiplicar ambos miembros de la ecuación anterior por x, obteniendo así:
x
= a + bx
(43)
y
Por lo tanto, se grafica x/y respecto a x. La elección depende de la naturaleza del caso considerado.
•
La función polinomial y=a+bx+cx2 es cóncava hacia arriba o hacia abajo, dependiendo del
signo del coeficiente “c”. Se diferencian ambos miembros de la ecuación con respecto a x:
dy
= b + 2cx
dx
Una relación de línea recta se obtiene graficando dx/dy respecto de x.
(44)
Si no se dispone de información anticipada acerca de la forma de la curva que se ajusta a los datos experimentales, se requerirá de métodos de ensayo−error. Como primer paso, se deben graficar los datos usando las coordenadas lineales x e y, luego se dibujará una curva lisa, y se elegirá
una función susceptible de ajuste a partir del conocimiento de las formas de las curvas que corresponden a funciones algebraicas simples.
Es importante destacar que cuando se emplea la transformación, la desviación minimizada no se
encuentra en y, sino en la variable transformada. Cabe recordar que al sacar conclusiones a partir
de un experimento, como ocurre en algunos casos, la diferencia puede ser significativa. Si se
tiene una razón para creer que a partir de consideraciones físicas de un experimento, es la variable original y no la transformada la que debe reducir al mínimo su desviación, entonces la variable transformada debe ponderarse en proporción inversa de alguna función del error de la variable original. A menudo, la ponderación se considera como proporcional a 1/(error)2.
Si el ajuste de la línea recta se lleva a cabo “a ojo”, el error estándar de cada punto que representa una media de un conjunto de observaciones se puede indicar por una barra, y, por tanto, se
dibuja la curva de modo que cuanto menor sea el error asociado a un punto dado, mayor será la
probabilidad del paso de la recta por el citado punto. Desde luego, esto a menudo se realiza intuitivamente cuando se tienen razones para creer que las lecturas a, digamos, temperaturas bajas
son menos confiables (es decir, tienen una menor ponderación) que a altas temperaturas, en el
ejemplo del proceso químico.
Fabricio Penna & Silvia Huarte
Págin@ 41
6. ANÁLISIS DE CORRELACIÓN
Con frecuencia tenemos curiosidad acerca de si dos variables están relacionadas; y si lo están,
sobre la intensidad de la relación. Por ejemplo, ¿la hipoacusia está relacionada con la edad?, ¿el
tamaño de un grupo está asociado con la obtención de las metas?, ¿la fluidez al hablar está relacionada con el tamaño del vocabulario?, ¿están relacionados el diámetro craneal y el C.I.?, ¿hay
una correlación entre la habilidad musical y la inteligencia? Para responder preguntas como
éstas, se necesitan medidas de relación o correlación.
La mayoría de las personas tiene una idea general de la correlación. Dos variables, X e Y, están
correlacionadas si tienden a “ir juntas”. Podemos describir verbalmente el grado de asociación
entre variables mediante descripciones verbales como fuerte, bajo, positivo, negativo o moderado, pero esos términos carecen de precisión. Una cuantificación del grado de correlación entre
dos variables es necesaria para maximizar precisión y objetividad.
6.1- COEFICIENTE DE CORRELACIÓN “PRODUCTO–MOMENTO” DE PEARSON (rxy)
El coeficiente de correlación, denotado por rxy, puede ser calculado cuando los dos factores son
variables continuas, con un nivel de medición intervalar o métrico, siendo los supuestos los siguientes:
a. Linealidad: la relación entre las dos variables tiene que ser lineal.
b. Homocedasticidad (homogeneidad de varianzas): las varianzas de los grupos tienen que ser
homogéneas.
c. Normalidad: las muestras deben provenir de poblaciones distribuidas normalmente.
Nota: De no cumplirse uno (o algunos) de los supuestos antes mencionados, no se puede aplicar el Coeficiente de
Correlación “producto–momento” de Pearson.
La fórmula de cálculo es la siguiente:
rxy =
n
 n
 n

n.∑ x i y i −  ∑ x i  ∑ y i 
i =1
 i =1  i =1 
2
2
n
 n 2  n
 n

 n.∑ x −  ∑ x  . n.∑ y 2 −  ∑ y  
i
i
i
i
 i =1
 i =1    i =1
 i =1  

=
S XY
S X .S Y
(45)
Siendo las características principales del coeficiente rxy, las siguientes:
i. Es un número adimensional (sin unidades).
ii. Su valor no puede superar +1 ni ser inferior a –1, es decir: –1 ≤ rxy ≤ +1.
iii. Si el signo es (+), significa que las dos variables estudiadas tienden a variar en el mismo sentido, o sea, que si se incrementa el valor de una de ellas, aumenta el de la otra. Si el signo es
(-), quiere decir que las características varían en sentido contrario, o sea, que si se incrementa
el valor de una variable, disminuye la otra.
Fabricio Penna & Silvia Huarte
Págin@ 42
iv. La relación entre ambas variables es más estrecha, cuanto el valor del coeficiente de correlación se acerque a +1 ó –1; por el contrario, si rxy tiende a cero (o a un entorno próximo a cero), las mismas tienden a ser independientes. Hay que tener en cuenta que los valores no son
enteramente comparables si no se considera el número de pares de datos de las muestras bivariadas.
v. Si la relación es perfecta (no sucede en la práctica), rxy será igual a +1 ó –1, según sea positiva o negativa la relación; si no hay relación, rxy deberá ser cero.
vi. El valor de rxy no está influido por el “tamaño” de las unidades de medida empleadas para
medir las variables en estudio. Como consecuencia, si previamente a los cálculos se simplifican o redondean las cifras, rxy no variará significativamente.
vii. En una muestra bicaracterizada, rxy, es una constante estadística que estima al parámetro ρxy
de la población.
Gráficamente:
30
28
26
24
22
20
18
16
14
12
10
8
6
4
2
0
Gráfico 16: Correlación negativa perfecta (inversa)
30
28
26
24
23
21
19
17
15
13
11
9
8
6
4
2
0
variable 2 (y)
variable 2 (y)
Gráfico 15: Correlación positiva perfecta (directa)
r(x, y) = 1
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
r(x, y) = -1
0
1
2
3
4
5
6
7
8
9
10
11
12
r(x, y) = 0,97
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
30
28
26
24
22
20
18
16
14
12
10
8
6
4
2
0
0
1
2
3
4
5
6
variable 2 (y)
30
28
26
24
22
20
18
16
14
12
10
8
6
4
2
0
r(x, y) = 0,06
2
3
4
5
6
7
8
9
10
11
12
13
14
variable 1 (x)
Fabricio Penna & Silvia Huarte
7
8
9
10
11
12
13
14
15
variable 1 (x)
Gráfico 19: Correlación nula (variables independientes)
1
15
r(x, y) = -0,95
variable 1 (x)
0
14
Gráfico 18: Correlación negativa (inversa)
variable 2 (y)
variable 2 (y)
Gráfico 17: Correlación positiva (directa)
30
28
26
24
22
20
18
16
14
12
10
8
6
4
2
0
13
variable 1 (x)
variable 1 (x)
15
Págin@ 43
Ejemplo 7: indicar, para la población de todas las escuelas primarias de la Ciudad, si la correlación entre las variables enunciadas a continuación, es positiva, negativa o nula:
a. Estatura en cm. (X) y peso en Kg. (Y)
b. Edad en meses (X) y tiempo en segundos para correr 50 metros (Y).
c. Rendimiento en lectura en notas de clase (X) y rendimiento en matemática en notas de clase
(Y).
d. CI de los estudiantes (X) y puntuación en “ética” en los estudiantes según una escala construida por el profesor (Y).
e. Rendimiento en lengua en notas de clase (X) y número de faltas al colegio durante el año
(Y).
Ejemplo 8: a doce alumnos de un centro de estudios se les preguntó a qué distancia (X) estaba su
residencia del Instituto, con fin de estudiar si esta variable estaba relacionada con la nota media
(Y) obtenida. Se obtuvieron los datos que figuran en la siguiente tabla:
Distancia (en km)
Nota media
0,05
8,4
0,10
4,0
0,12
5,7
0,40
9,1
0,50
6,3
0,70
6,7
1,00
4,3
1,20
5,4
2,10
7,8
2,50
4,5
3,00
7,2
3,00
8,1
Siendo algunos de los resultados parciales, los siguientes:
12
∑x
i =1
i
12
12
12
12
i =1
i =1
i =1
i =1
= 14,67 ; ∑ y i = 77,50 ; ∑ x i2 = 32,03 ; ∑ y i2 = 532,63 ; ∑ x i y i = 97,29
Realice un dispersograma de las variables X e Y, y calcule el coeficiente de regresión lineal.
¿Cómo interpretaría el resultado obtenido, en función de las variables estudiadas?
6.2- CALCULO DEL COEFICIENTE rxy SIN DISPERSOGRAMA
El coeficiente de correlación de Pearson (rxy), como ya se dijo, es un índice que mide la magnitud de la relación lineal entre 2 variables cuantitativas, así como el sentido, positivo o negativo,
de dicha relación. Indica en qué grado las variables X e Y fluctúan simultáneamente, es decir,
cuánto aumenta X al aumentar Y (correlación positiva), o cuánto aumenta X al disminuir Y (co-
rrelación negativa). A diferencia de la regresión lineal, el coeficiente de correlación no presupone dependencia de una variable respecto a la otra; X e Y se sitúan a un mismo nivel. Asimismo,
la existencia de correlación lineal entre 2 variables no implica necesariamente una relación causal entre ellas, sino que se limita a explicar su covariación.
Hay que insistir en que el coeficiente rxy de Pearson mide únicamente la correlación lineal, por lo
que no es útil para evaluar otro tipo de correlaciones. Supongamos que la relación entre las variables X e Y es curvilínea, como muestra el Gráfico 20, a pesar de que ambas variables estén
íntimamente relacionadas (existe una relación parabólica casi perfecta), al no cumplirse la condición de linealidad, el valor de rxy obtenido es pequeño.
Fabricio Penna & Silvia Huarte
Págin@ 44
Gráfico 20: Relación curvilínea entre dos variables
El coeficiente rxy calculado en una determinada muestra es una estimación del coeficiente de
correlación en la población origen de la muestra. La aplicación de una prueba estadística permite
comprobar si la correlación observada en la muestra es estadísticamente significativa (existe
también en la población), o si, por el contrario, puede ser debida al azar.
Si el valor p resultante es inferior al nivel de significación establecido (p < 0,05), concluiremos,
con un riesgo p de equivocarnos, que rxy ≠ 0 en la población (Gráfico 21). El valor de p depende
del grado de correlación entre ambas variables y del tamaño de la muestra. Por tanto, debe distinguirse la significación estadística de rxy de su magnitud. De hecho, una correlación débil (rxy ≅
0) puede ser significativa cuando la muestra es muy grande, y al contrario un valor de rxy muy
elevado puede no ser estadísticamente significativo cuando la muestra es pequeña (Gráfico 22).
Gráfico 21
Gráfico 22
Una condición crítica para la aplicación del coeficiente de correlación lineal de Pearson es la
distribución normal de ambas variables. El incumplimiento de esta condición puede dar lugar a
diversos errores. Consideremos el ejemplo del Gráfico 23. Un solo punto extremo difícilmente
Fabricio Penna & Silvia Huarte
Págin@ 45
compatible con una distribución normal afecta de forma importante el valor del coeficiente rxy,
obteniéndose una correlación falsamente elevada. En dicho Gráfico, la correlación para el conjunto de los puntos es rxy = 0,989, mientras que, si eliminamos el punto del cuadrante superior
derecho, rxy disminuye de forma notable (rxy = 0,216). El Gráfico 24 ilustra otra situación aparentemente paradójica:
Gráfico 23
Gráfico 24
Donde, dicho Gráfico, nos muestra que:
1. En cada uno de los grupos de puntos, el coeficiente de correlación es negativo.
2. En el conjunto de los datos, que no se distribuyen normalmente, rxy resulta positivo.
Aunque es frecuente proceder al cálculo de rxy, e incluso al estudio de su significación estadística, sin haber realizado una representación gráfica previa, el diagrama de dispersión de los puntos
o scatterplot constituye sin duda un método sencillo y efectivo para detectar situaciones similares a las citadas. Muchos de los errores en la aplicación del coeficiente de correlación de Pearson
pueden evitarse mediante la simple interpretación visual del scatterplot.
6.3- COEFICIENTE DE DETERMINACIÓN (R2)
Una vez estimada la función de regresión es necesario calcular cuanto de la variabilidad de la
variable dependiente, es explicado por el modelo utilizado. Para ello se define el coeficiente de
determinación, R2. El valor de este coeficiente suele expresarse en porcentaje, para lo cual es
preciso multiplicarlo por 100.
Dicho coeficiente está limitado por el intervalo (0, 1), ocurriendo los valores extremos cuando:
1. El modelo utilizado explica absolutamente nada del comportamiento de la variable y como
función de x ⇒ R2 = 0
Fabricio Penna & Silvia Huarte
Págin@ 46
2. El modelo utilizado explica totalmente el comportamiento de y como función de x. Los puntos (x1, y1), (x2, y2), ..., (xn, yn) están perfectamente alineados sobre la recta que describe el
modelo ⇒ R2 = 1
Es evidente que en la práctica no ocurren valores de R2 iguales a cero o uno; como también es
evidente que cuanto más cerca de uno esté el valor calculado, es un buen indicador de una correcta elección del modelo empleado.
A los fines prácticos, el coeficiente de determinación se calcula elevando al cuadrado el coeficiente de correlación producto–momento de Pearson, es decir:
R2 = (rxy)2
(46)
6.4- PRUEBA “JI” CUADRADO (χ2)
Es frecuentemente empleada en trabajos experimentales, donde los datos consisten en frecuencias o “cuentas”. El uso más común de la prueba es quizá como asociación, y para encontrar relaciones generales entre los fenómenos estudiados. La palabra asociación en sentido estadístico
comprende una comparación. Por ejemplo, si decimos que hay “asociación” entre la inoculación
y la inmunización contra alguna enfermedad, indicamos que la proporción de personas inoculadas que contraen la enfermedad es diferente de la proporción de personas no inoculadas que enferman. Desde luego, puede ser que ambas proporciones difieran, en cierta medida, debido solamente a factores causales o fortuitos del muestreo y debido a otras razones que pueden ser atribuidas al azar; pero la prueba nos permite calcular la probabilidad de si una diferencia tan grande
o mayor que la obtenida pudiera provenir de dicho motivos.
6.4a CLASIFICACIÓN
Normalmente es posible clasificar los miembros de una población de muchos modos: dicotómicas y politómicas, a su vez la clasificación tiene que ser exhaustiva y mutuamente excluyente.
6.4b TABLAS DE CONTINGENCIA
Cuando los miembros de una muestra han sido doblemente clasificados, es decir, clasificados en
dos formas, los resultados pueden colocarse en una tabla, ésta se llama tabla de contingencia o de
2 x 2 entradas (por ejemplo: hombres y mujeres; diabéticos y no diabéticos; etc.). Si las clasificaciones fueran politómicas la tabla tendría más columnas o filas. Las anotaciones en las casillas
de una tabla de contingencia pueden ser frecuencias absolutas o pueden transformarse en proporciones o en porcentajes. Es importante, sin embargo, hacer notar que en cualquier forma en que
sean presentados los datos serán primeramente frecuencias absolutas o cuentas, en vez de mediFabricio Penna & Silvia Huarte
Págin@ 47
das continuas, pues en otra forma la prueba o ensayo de ji cuadrado (χ2) no podría ser aplicada
en ellos.
La prueba χ2 solo puede ser usada con datos discretos; para propósitos de la prueba, los datos
continuos pueden frecuentemente disponerse en forma discreta mediante el uso de intervalos en
una escala continua.
6.4c CÁLCULO DE χ2
La distribución de χ2 es quizá la siguiente distribución más conocida. Es la distribución de probabilidad de la suma de los cuadrados de un número de variables independientes, las cuales están
normalmente, o casi normalmente distribuidas con las medias de desviaciones estándar y cero de
la unidad. Dicha distribución de probabilidad depende del número de variables independientes, o
más estrictamente del número de grados de libertad asociados con las variables.
La suma de los cuadrados en cuestión se denota generalmente χ2, y cuando se manejan datos de
frecuencias, se puede demostrar, siempre que las frecuencias esperadas (Ei) no sean demasiado
pequeñas, que la expresión:
n
(Ο i − Ε i )2
i =1
Εi
χ =∑
2
(47)
está distribuida aproximadamente como χ2. En esta expresión, Oi se refiere a las frecuencias observadas y Ei a las esperadas, considerando al subíndice i de 1 a n, el número de casillas de la
tabla de contingencias.
6.4d CORRECCIÓN DE YATES
Cuando las frecuencias esperadas son pequeñas o menos de 5, se aplica una corrección de continuidad, conocida como: Corrección de Yates, esto se hace restando 0,5 de las discrepancias positivas (Oi – Ei) y añadiendo 0,5 a las discrepancias negativas antes de que estos valores sean elevados al cuadrado.
n.( ad − bc − 0,5.n)
χ =
; gl = 1
(a + b )(c + d )(a + c )(b + d )
2
2
(48)
En esta ecuación las líneas verticales a cada lado de la expresión (ab-bc) significan que siempre
se toma el valor absoluto de ésta, es decir: que tomamos su valor como positivo, ya sea que resulte positivo o negativo.
Es conveniente aplicar la corrección de Yates en cualquier caso, ya que los valores de Ei sean o
no mayores que 5, pero es esencial hacerlo así cuando el tamaño de la muestra es pequeño.
Fabricio Penna & Silvia Huarte
Págin@ 48
7. NOCIONES DE ESTADÍSTICA SANITARIA
7.1- DEMOGRAFÍA
Parte de la estadística que trata de los habitantes de un país, según sus profesiones, edades, sexo,
tasas de crecimiento, natalidad, mortalidad, etc. El estudio científico de la población y de los
factores que la determinan se inició en Europa en el siglo XVII por obra de los aritméticos políticos (John Graunt, William Petty, Gregory King, etc.). En el siglo siguiente, los gobiernos de
Francia, España, Suecia, Prusia, etc., al comprender la utilidad de conocer con detalle sus recursos humanos, patrocinaron los estudios demográficos y llevaron a cabo, por sí mismos, encuestas
y censos, algunos de sorprendente modernidad. En el siglo XIX las posibilidades de la demografía se multiplicaron gracias a la creación del registro civil y a la realización de censos periódicos
en la mayor parte de estados. Fue también en el siglo XIX cuando apareció el término demografía, utilizado por vez primera en 1855 por Archille Guillard, quien dio de ella dos definiciones; en
sentido restringido, la demografía sería “el estudio de las poblaciones consideradas desde el punto de vista numérico (…), el conocimiento matemático de las poblaciones, de sus movimientos
generales, de su estado físico, civil, intelectual y moral”; en sentido amplio sería “la historia natural y social de la especie humana”. Desarrollando, en cierto modo, la división esbozada por
Guillard, actualmente se distingue entre demografía cuantitativa y demografía cualitativa.
La demografía cuantitativa estudia la repartición geográfica de la población; su población; su
distribución por edades y por sexos; las tasas de crecimiento, de natalidad, de mortalidad, de
nupcialidad, de fecundidad; las migraciones, etc.
La demografía cualitativa se interesa por los caracteres de los individuos (estado de salud, inteligencia, etc.) que puedan explicar las variaciones cuantitativas de la población; sus límites son
poco precisos y con frecuencia roza o penetra en el terreno de otras ciencias (medicina, psicología, sociología, etc.)
Hoy la demografía ha adquirido especial interés: el hombre actual trata de descubrir unas leyes
de población que le permitan prever el futuro de la especie humana; para ello se vale de la informática.
7.2- CENSO
Lista o padrón de la población o riqueza de un país, con fines estadísticos. Sirve para evaluar el
estado de la población de un país en un momento dado, generalmente cada diez años. Aunque en
la antigüedad tenía una finalidad estrictamente impositiva, hoy constituye el punto de partida
para la elaboración de las políticas demográficas y sociales. El documento básico del censo es un
cuestionario en el que figuran datos como el lugar de residencia, la edad, el sexo, el estado civil,
Fabricio Penna & Silvia Huarte
Págin@ 49
la lengua materna, el nivel de estudios y la profesión. A partir de este cuestionario, el censo indica el tamaño de la población, su distribución en el territorio y su estructura o composición. Entre
las variables que pueden extraerse de los datos censales cabe mencionar la densidad de población
(relación entre el número de habitantes y la superficie); la distribución por edad y sexo, que permite elaborar las denominadas pirámides de edad (representación gráfica del grado de juventud o
envejecimiento de la población), y la estructura socioeconómica de la población considerada
(población activa y no activa, reparto de la primera en los distintos sectores productivos, etc.).
Fabricio Penna & Silvia Huarte
Págin@ 50
8. ANEXO 1: SIMBOLOGÍA UTILIZADA
• ∈
→ pertenece
• ⇒
→ entonces o implica
• ∪
→ unión
• ∩
→ intersección
• ≈
→ se distribuye como
• ∑
→ sumatoria
• >
→ mayor que
• ≥
→ mayor o igual que
• <
→ menor que
• ≤
→ menor o igual que
Fabricio Penna & Silvia Huarte
Págin@ 51
9. ANEXO 2: TABLA DE DISTRIBUCIÓN χ2
Nivel de significación
gl
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
Nivel de significación
0,100
0,050
0,025
0,010
0,005
2,706
4,605
6,251
7,779
9,236
10,645
12,017
13,362
14,684
15,987
17,275
18,549
19,812
21,064
22,307
23,542
24,769
25,989
27,204
28,412
29,615
30,813
32,007
33,196
34,382
35,563
36,741
37,916
39,088
40,256
41,422
42,585
43,745
44,903
46,059
47,212
48,363
49,513
50,660
51,805
52,949
54,090
55,230
56,369
57,505
58,641
59,774
60,907
62,038
63,167
3,842
5,992
7,815
9,488
11,071
12,592
14,067
15,507
16,919
18,307
19,675
21,026
22,362
23,685
24,996
26,296
27,587
28,869
30,144
31,410
32,671
33,925
35,173
36,415
37,653
38,885
40,113
41,337
42,557
43,773
44,985
46,194
47,400
48,602
49,802
50,999
52,192
53,384
54,572
55,759
56,942
58,124
59,304
60,481
61,656
62,830
64,001
65,171
66,339
67,504
5,024
7,378
9,348
11,143
12,833
14,449
16,013
17,535
19,023
20,483
21,920
23,337
24,736
26,119
27,488
28,845
30,191
31,526
32,852
34,170
35,479
36,781
38,076
39,364
40,647
41,923
43,195
44,461
45,722
46,979
48,232
49,480
50,725
51,966
53,203
54,437
55,668
56,896
58,120
59,342
60,561
61,777
62,990
64,201
65,410
66,617
67,821
69,023
70,222
71,420
6,635
9,210
11,345
13,277
15,086
16,812
18,475
20,090
21,666
23,209
24,725
26,217
27,688
29,141
30,578
32,000
33,409
34,805
36,191
37,566
38,932
40,289
41,638
42,980
44,314
45,642
46,963
48,278
49,588
50,892
52,191
53,486
54,775
56,061
57,342
58,619
59,893
61,162
62,428
63,691
64,950
66,206
67,459
68,710
69,957
71,202
72,443
73,683
74,919
76,154
7,879
10,597
12,838
14,860
16,750
18,548
20,278
21,955
23,589
25,188
26,757
28,300
29,819
31,319
32,802
34,267
35,718
37,156
38,582
39,997
41,401
42,796
44,181
45,558
46,928
48,290
49,645
50,994
52,336
53,672
55,003
56,328
57,648
58,964
60,275
61,581
62,883
64,181
65,475
66,766
68,053
69,336
70,616
71,892
73,166
74,437
75,704
76,969
78,231
79,490
Fabricio Penna & Silvia Huarte
gl
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
0,100
0,050
0,025
0,010
0,005
64,295
65,422
66,548
67,673
68,796
69,919
71,040
72,160
73,279
74,397
75,514
76,630
77,745
78,860
79,973
81,086
82,197
83,308
84,418
85,527
86,635
87,743
88,850
89,956
91,062
92,166
93,270
94,374
95,476
96,578
97,680
98,780
99,881
100,980
102,079
103,177
104,275
105,372
106,469
107,565
108,661
109,756
110,850
111,944
113,038
114,131
115,223
116,315
117,407
118,498
68,669
69,832
70,993
72,153
73,312
74,468
75,624
76,778
77,931
79,082
80,232
81,381
82,529
83,675
84,821
85,965
87,108
88,250
89,391
90,531
91,670
92,808
93,945
95,082
96,217
97,351
98,484
99,617
100,749
101,880
103,010
104,139
105,267
106,395
107,522
108,648
109,773
110,898
112,022
113,145
114,268
115,390
116,511
117,632
118,752
119,871
120,990
122,108
123,225
124,342
72,616
73,810
75,002
76,192
77,380
78,567
79,752
80,936
82,117
83,298
84,476
85,654
86,830
88,004
89,177
90,349
91,519
92,689
93,857
95,023
96,189
97,353
98,516
99,678
100,839
101,999
103,158
104,316
105,473
106,629
107,783
108,937
110,090
111,242
112,393
113,544
114,693
115,842
116,989
118,136
119,282
120,427
121,571
122,715
123,858
125,000
126,141
127,282
128,422
129,561
77,386
78,616
79,843
81,069
82,292
83,514
84,733
85,950
87,166
88,379
89,591
90,802
92,010
93,217
94,422
95,626
96,828
98,028
99,227
100,425
101,621
102,816
104,010
105,202
106,393
107,582
108,771
109,958
111,144
112,329
113,512
114,695
115,876
117,057
118,236
119,414
120,591
121,767
122,942
124,116
125,289
126,462
127,633
128,803
129,973
131,141
132,309
133,476
134,642
135,807
80,747
82,001
83,253
84,502
85,749
86,994
88,237
89,477
90,715
91,952
93,186
94,419
95,649
96,878
98,105
99,330
100,554
101,776
102,996
104,215
105,432
106,647
107,862
109,074
110,285
111,495
112,704
113,911
115,116
116,321
117,524
118,726
119,927
121,126
122,324
123,522
124,718
125,912
127,106
128,299
129,490
130,681
131,871
133,059
134,247
135,433
136,619
137,803
138,987
140,170
Págin@ 52
10. ANEXO 3: TABLA DE DISTRIBUCIÓN NORMAL ESTANDARIZADA
Z
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
2.0
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
3.0
.00
.01
.02
.03
.04
.05
.06
.07
.08
.09
0.00000
0.03983
0.07926
0.11791
0.15542
0.19146
0.22575
0.25804
0.28814
0.31594
0.34134
0.36433
0.38493
0.40320
0.41924
0.43319
0.44520
0.45543
0.46407
0.47128
0.47725
0.48214
0.48610
0.48928
0.49180
0.49379
0.49534
0.49653
0.49744
0.49813
0.49865
0.00399
0.04380
0.08317
0.12172
0.15910
0.19497
0.22907
0.26115
0.29103
0.31859
0.34375
0.36650
0.38686
0.40490
0.42073
0.43448
0.44630
0.45637
0.46485
0.47193
0.47778
0.48257
0.48645
0.48956
0.49202
0.49396
0.49547
0.49664
0.49752
0.49819
0.49869
0.00798
0.04776
0.08706
0.12552
0.16276
0.19847
0.23237
0.26424
0.29389
0.32121
0.34614
0.36864
0.38877
0.40658
0.42220
0.43574
0.44738
0.45728
0.46562
0.47257
0.47831
0.48300
0.48679
0.48983
0.49224
0.49413
0.49560
0.49674
0.49760
0.49825
0.49874
0.01197
0.05172
0.09095
0.12930
0.16640
0.20194
0.23565
0.26730
0.29673
0.32381
0.34849
0.37076
0.39065
0.40824
0.42364
0.43699
0.44845
0.45818
0.46638
0.47320
0.47882
0.48341
0.48713
0.49010
0.49245
0.49430
0.49573
0.49683
0.49767
0.49831
0.49878
0.01595
0.05567
0.09483
0.13307
0.17003
0.20540
0.23891
0.27035
0.29955
0.32639
0.35083
0.37286
0.39251
0.40988
0.42507
0.43822
0.44950
0.45907
0.46712
0.47381
0.47932
0.48382
0.48745
0.49036
0.49266
0.49446
0.49585
0.49693
0.49774
0.49836
0.49882
0.01994
0.05962
0.09871
0.13683
0.17364
0.20884
0.24215
0.27337
0.30234
0.32894
0.35314
0.37493
0.39435
0.41149
0.42647
0.43943
0.45053
0.45994
0.46784
0.47441
0.47982
0.48422
0.48778
0.49061
0.49286
0.49461
0.49598
0.49702
0.49781
0.49841
0.49886
0.02392
0.06356
0.10257
0.14058
0.17724
0.21226
0.24537
0.27637
0.30511
0.33147
0.35543
0.37698
0.39617
0.41308
0.42785
0.44062
0.45154
0.46080
0.46856
0.47500
0.48030
0.48461
0.48809
0.49086
0.49305
0.49477
0.49609
0.49711
0.49788
0.49846
0.49889
0.02790
0.06749
0.10642
0.14431
0.18082
0.21566
0.24857
0.27935
0.30785
0.33398
0.35769
0.37900
0.39796
0.41466
0.42922
0.44179
0.45254
0.46164
0.46926
0.47558
0.48077
0.48500
0.48840
0.49111
0.49324
0.49492
0.49621
0.49720
0.49795
0.49851
0.49893
0.03188
0.07142
0.11026
0.14803
0.18439
0.21904
0.25175
0.28230
0.31057
0.33646
0.35993
0.38100
0.39973
0.41621
0.43056
0.44295
0.45352
0.46246
0.46995
0.47615
0.48124
0.48537
0.48870
0.49134
0.49343
0.49506
0.49632
0.49728
0.49801
0.49856
0.49896
0.03586
0.07535
0.11409
0.15173
0.18793
0.22240
0.25490
0.28524
0.31327
0.33891
0.36214
0.38298
0.40147
0.41774
0.43189
0.44408
0.45449
0.46327
0.47062
0.47670
0.48169
0.48574
0.48899
0.49158
0.49361
0.49520
0.49643
0.49736
0.49807
0.49861
0.49900
Fabricio Penna & Silvia Huarte
Págin@ 53
11. BIBLIOGRAFÍA CONSULTADA
Agresti, A. (2001). Categorical Data Analysis. (2nd ed.). John Wiley & Sons: New
York.
Andersen, E.B. (1997). Introduction to the Statistical Analysis of Categorical Data.
Springer–Verlag: Berlin.
Cook, R.D. & Weisberg, S. (1992) Residuals and Influence in Regression. (5th ed.).
Chapman & Hall: London.
Dawson–Saunders, B. y Trapp, R.G. (1998) Bioestadística Médica. (1ª ed., 2ª reimpresión). Manual Moderno: México.
Di Rienzo, J.; Casanoves, F.; González, L.; Tablada, M.; Díaz, M.P.; Robledo, C.W.; y
Balzarini, M. (2000). Estadística para las ciencias agropecuarias. (1ª ed.). Editora
Screen: Córdoba.
Ferreira Murteira, B.J. (1979). Probabilidades e Estatistica (Volume 1). McGraw–Hill:
Lisboa.
Freund, J.E. y Walpole, R.E. (1996). Estadística Matemática con Aplicaciones. (4ª ed.).
Prentice–Hall Hispanoamericana: México.
Hernández Sampieri, R.; Fernández Collado, C.; y Baptista Lucio, P. (1997). Metodología de la Investigación. McGraw-Hill: México.
Hopkins, K.D.; Hopkins, B.R. y Glass, G.V. (1997). Estadística Básica para las Ciencias Sociales y del Comportamiento. (3ª ed.). Prentice–Hall Hispanoamericana: México.
InfoStat (2002). InfoStat, versión 1.1. Manual del Usuario. Grupo InfoStat, FCA, Universidad Nacional de Córdoba. Primera Edición, Editorial Brujas Argentina: Córdoba.
Infostat (2003). InfoStat Profesional versión 1.5. Grupo InfoStat, FCA, Universidad
Nacional de Córdoba: Argentina.
Pineda, E.B.; De Alvarado, E.L.; y De Canales, F.H. (1994). Metodología de la Investigación. Manual para el desarrollo del personal de salud. (2ª ed.). Organización Panamericana de la Salud: Washington D.C.
Quinn, G.P. & Keough, M.J. (2002). Experimental Design and Data Analysis for Biologists. Cambridge University Press: Cambridge.
Sabulsky, J. (2000). Investigación Científica en Salud–Enfermedad. (3ª ed.). Ed. Kosmos: Córdoba.
Sokal, R.R. y Rohlf, F.J. (1979). Biometría. H. Blume Ediciones: Madrid.
Sokal, R.R. y Rohlf, F.J. (1980). Introducción a la Bioestadística. Ed. Reverté: Madrid.
Fabricio Penna & Silvia Huarte
Descargar