Módulo 1 : Introducción a la Probabilidad

Anuncio
Introducción a la Estadística.
Lic. Ricardo Barca.
Índice.
Introducción a la Probabilidad. ........................................................................................... 1
Índice. ............................................................................................................................. 1
1. Conceptos básicos. .................................................................................................... 2
2. Conceptos Estadísticos Fundamentales. .................................................................... 3
3. Funciones de Distribución de Probabilidades. .......................................................... 18
Funciones Estadísticas del EXCEL: .......................................................................... 22
4. Funciones de Distribución de Probabilidades. .......................................................... 24
La Distribución T de Student. .................................................................................... 24
Distribución de Promedios Muestrales ...................................................................... 25
Distribución muestral de la suma y de la resta: ......................................................... 27
Funciones Estadísticas del EXCEL: .......................................................................... 28
5. Test de Hipótesis. ..................................................................................................... 29
Funciones Estadísticas del EXCEL: .......................................................................... 35
6. La Distribución Binomial ........................................................................................... 36
Funciones Estadísticas del EXCEL: .......................................................................... 38
7. Gráficos de Control................................................................................................... 39
8. Relación entre dos Variables. ................................................................................... 43
Funciones Estadísticas del EXCEL: .......................................................................... 48
1
1. Conceptos básicos.
Cada vez que realizamos un cálculo matemático para resolver un problema, lo que
estamos haciendo es aplicar un modelo matemático a un fenómeno de la realidad. Este
fenómeno puede ser la caída libre de una piedra desde cierta altura, y en este caso
utilizamos un modelo que es la Ley de Gravedad. Si el fenómeno es el vuelo de un avión
supersónico, aplicaremos los modelos que estudiamos en física (Leyes de Newton) para
calcular velocidad, aceleración, etc. En muchos problemas simples de aritmética
aplicamos un modelo que es la Regla de Tres Simple. Pero ¿Qué es un modelo?.
Cuando necesitamos resolver un problema, este forma parte de una realidad física,
biológica, económica o de algún otro tipo que estamos estudiando. Para resolver el
problema, necesitamos modelar esa realidad, es decir, construir un modelo matemático
que, aunque simplifica algunos detalles, explica como funciona el fenómeno que estamos
estudiando. Por ejemplo, las leyes de la gravedad de Newton permiten estudiar la caída
de un cuerpo en el vacío. Cuando aplicamos este modelo a la caída real de un cuerpo,
estamos dejando de lado la influencia del aire, cuyo rozamiento en el cuerpo disminuye
su velocidad, pero lo hacemos a sabiendas que este rozamiento es muy pequeño y por lo
tanto no va a afectar demasiado nuestros cálculos. En consecuencia, el primer paso para
resolver un problema es elegir bien el modelo teórico que vamos a utilizar. En ningún
caso debemos confundir modelo con realidad. Un modelo es sólo una representación de
la realidad, utilizado para estudiar y analizar dicha realidad. Se pueden construir distintos
modelos teóricos que representen una misma realidad, y la resolución correcta de
problemas depende de nuestra habilidad para elegir el modelo que mejor se adecue a las
circunstancias. Los modelos matemáticos que mencionamos, después de efectuar los
cálculos, nos dan un resultado numérico preciso, por ejemplo, que la velocidad de un
automóvil es de 75,5 Km/Hora. Calculamos la corriente eléctrica que circula por un cable
con la Ley de Ohm y obtenemos, por ejemplo, un resultado como 5,7 Amperes. Si el
modelo matemático fue aplicado correctamente al fenómeno que estudiamos, el resultado
será satisfactorio y consiste en un valor preciso y determinado. Este tipo de modelos
matemáticos se denominan Determinísticos.
Hay fenómenos que necesitan otro tipo de modelos matemáticos, que se denominan no
determinísticos, probabilísticos o estocásticos. Por ejemplo, supongamos que un
agricultor necesita calcular cuanta lluvia va a caer en los próximos meses, y dispone de la
presión barométrica, la temperatura, velocidad del viento y otros datos meteorológicos,
para realizar el cálculo. Sin embargo, no hay una ecuación que con todos esos datos le
permita calcular los milímetros de lluvia que van a caer en un mes en forma precisa. De la
misma manera, ningún operador puede calcular cuanto va a subir la Bolsa, ni siquiera si
va a subir o bajar, aún cuando tenga a su alcance todas las variables económicas
disponibles para ese país. Estos fenómenos no admiten un modelo determinístico, sino
un modelo probabilístico, que como resultado nos dice la probabilidad de que llueva una
cierta cantidad, o la probabilidad de que la Bolsa suba un cierto porcentaje. El resultado
no es un valor determinado, sino la probabilidad de un valor. Vamos a ver que significa el
concepto de probabilidad con algunos ejemplos. Supongamos que se arroja un dado
sobre una mesa y apostamos a que salga un número igual o menor que 4. Sabemos que
2
son igualmente posibles 6 números: 1, 2, 3, 4, 5 y 6. Pero los números favorables a
nuestra apuesta son sólo 4: 1, 2, 3 y 4. Entonces, la probabilidad de que ganemos es:
P
4
 0,666...
6
Es decir que tenemos a nuestro favor una probabilidad de 0,666.. (o sea
aproximadamente del 67 %). Si apostamos a un sólo número, la probabilidad de ganar
sería:
P
1
 0,1666...
6
Entonces, la probabilidad es un número entre 0 y 1, que nos dice en que medida es
posible que ocurra un suceso o sucesos. Si la probabilidad es 1 significa que el suceso
ocurrirá con toda certeza. Si la probabilidad es 0,5 significa que un suceso puede ocurrir o
puede no ocurrir con la misma probabilidad. Probabilidad 0 quiere decir que el suceso es
imposible que ocurra.
2. Conceptos Estadísticos Fundamentales.
Cuando tenemos un conjunto muy grande de datos numéricos para analizar decimos que
tenemos un Universo o Población de observaciones. Cada dato numérico es un elemento
de la población o universo. Una Muestra es un subconjunto pequeño de observaciones
extraídas de un universo o población. La Estadística trabaja con poblaciones de datos y
con muestras extraídas de las mismas. Los conceptos de población y muestra a veces
resultan ambiguos en su aplicación práctica. Por ejemplo, supongamos que en una
ciudad de 5000 habitantes se realiza un censo médico en el cual se mide el peso, la
altura y se relevan otros datos de todos los habitantes de la ciudad. Alguien podría
referirse al universo o población censada teniendo in mente el conjunto de los habitantes
de la ciudad. Pero cuando hablamos en términos estadísticos, nos referimos a
poblaciones o universos de datos. Por ejemplo, el conjunto de todas las mediciones de
altura (De los habitantes de la ciudad) es un conjunto de datos y por lo tanto constituye un
universo o población de datos desde el punto de vista estadístico. Otro universo o
población de datos son los pesos medidos (De los habitantes de la ciudad). Pero la
población de habitantes, es decir, las personas que habitan la ciudad no son la población
a la que nos estamos refiriendo desde el punto de vista estadístico.
Supongamos que en una empresa se fabrica un lote muy grande, digamos 10 toneladas
de un producto, y un técnico debe controlar la calidad del mismo. El técnico toma una
pequeña porción, por ejemplo, 100 gramos y dirá que tomó una muestra del producto
para analizar en el laboratorio. Hasta el momento, la muestra no fue analizada y por lo
tanto no tenemos ningún dato numérico. Cuando el laboratorio efectúa algún ensayo en la
muestra y obtiene un resultado numérico, recién ahí tenemos un dato que puede ser
analizado desde el punto de vista estadístico. Vamos a suponer hipotéticamente que el
técnico continúa sacando otras muestras del producto, hasta agotar el lote y cada una es
ensayada en el laboratorio, el cual nos da los resultados. Como teníamos 10 ton. de
producto y las muestras son aproximadamente de 100 gr., el técnico seguramente
extraerá alrededor de 100000 muestras y el laboratorio nos entregará alrededor de
3
100000 resultados. Este conjunto de datos numéricos es nuestro universo o población de
datos. Si nosotros tomamos al azar 10 de esos resultados, podemos decir que tenemos
una muestra de 10 elementos de ese universo o población. No debemos confundir esta
muestra (Desde el punto de vista estadístico) con la muestra de material que extrajo el
técnico para ser analizada en laboratorio.
Ahora bien, nuestro universo o población de datos a veces no existe en la realidad, sino
que es un concepto o abstracción que utilizamos para referirnos al universo o población
que hipotéticamente podría existir. Veamos el ejemplo anterior. Supongamos que el
técnico toma solamente 5 muestras y las envía para analizar al laboratorio. El laboratorio
nos enviará sólo 5 resultados, y nosotros diremos que tenemos una muestra de datos
extraída del universo o población de datos total (Aquel universo o población que
tendríamos si se hubieran extraído y analizado las 100000 muestras de material). Muchas
veces resulta difícil imaginarse cual es el universo del cual extrajimos los datos.
Supongamos que tenemos una máquina que produce piezas de plástico en serie y un
técnico toma 5 piezas sucesivas y les mide la altura con un calibre. Tenemos, entonces, 5
resultados, es decir una muestra de 5 elementos. ¿Cuál es el universo al cual pertenece
esa muestra de datos?. Debemos imaginar lo siguiente: Si la máquina continúa
trabajando en las mismas condiciones (Es decir, a la misma velocidad, con las mismas
materias primas, a la misma temperatura, manejada por el mismo operario, etc.) y a cada
pieza que produce se le mide la altura tendríamos un conjunto muy grande de resultados
numéricos. Ese conjunto muy grande de resultados numéricos que no existe, pero que
podría obtenerse en esas condiciones es el universo o población del cual extrajimos la
muestra de 5 observaciones.
Veamos otro ejemplo. Supongamos que una empresa textil desea saber cual es el sueldo
promedio que gana un operario en esa industria. Entonces, encarga una encuesta a un
técnico en estadística, que entrevista a 20 operarios de la industria textil y averigua sus
salarios. Estos datos son una muestra de 20 observaciones del universo o población
formado por los salarios de todos los operarios de la industria textil del país. Aunque el
técnico no disponga de esos datos, sabemos que existen miles de operarios que ganan
un salario determinado y por lo tanto podemos hablar de un universo o población cuyos
elementos son los salarios de los operarios de la industria textil en el país. Además, esa
población de datos es seguramente diferente de la población de salarios de los operarios
de la industria textil chilena o brasileña (Usando una misma moneda de referencia).
¿Qué representa una Población de datos?:
El análisis estadístico de una población o universo de datos tiene como objetivo final
descubrir las características y propiedades de aquello que generó los datos. Por ejemplo,
se tiene una población de escolares (Población física, población humana) y se les mide la
altura. El conjunto de datos de altura constituye una población o universo estadístico. El
análisis de estos datos de altura (Universo estadístico) sirve para caracterizar y estudiar a
la población de estudiantes (Que no es una Población estadística). Supongamos que un
instituto dedicado a estudios económicos ha realizado una encuesta de ingresos en el
país. El universo de datos generados por la encuesta sirve a los fines de caracterizar a la
población física, a la población real del país, desde un punto de vista económico. Si un
ingeniero controla un proceso industrial y recoge una serie de mediciones que luego se
dedica a analizar, no es porque esté interesado en jugar con números, sino porque a
través de los datos numéricos el puede evaluar el comportamiento del proceso, que es lo
que realmente le interesa.
4
Entonces, es importante destacar que detrás de un universo o población de datos se
encuentra una población física (Elementos de la realidad que nos rodea) de la cual, a
través de algún tipo de medición, se obtuvieron los datos numéricos. Es esa población
física (Elementos de la realidad, seres humanos o materiales) la que deseamos estudiar
y caracterizar por medio del análisis estadístico de los datos obtenidos. La población
estadística representa, entonces, una población física o natural formada por elementos de
la realidad, con respecto a una característica o propiedad de esa población física. Por
ejemplo, la altura de una población de escolares, o el salario de una población de
trabajadores.
Es muy importante, al utilizar métodos estadísticos, no confundir la población física,
formada por elementos de la realidad que estamos estudiando, con la población o
universo de datos generados a partir de la primera. De aquí en adelante, cuando
utilicemos los términos población o universo sin otro aditamento nos estaremos refiriendo
a población o universo de datos numéricos (También llamados observaciones o
mediciones o valores).
Distribución de Frecuencias:
Vamos a suponer que tenemos una cierta población de N = 500 datos, por ejemplo el
peso de varones adultos de 40 años. Una manera de caracterizar la población es
construir una distribución de frecuencias o gráfico de frecuencias. Para ello seguimos los
pasos siguientes:
1) Tomamos nota del valor máximo y el valor mínimo de la serie de datos que estamos
considerando.
2) Subdividimos el intervalo entre el máximo y el mínimo en algún número de intervalos
(15 ó 20) mas pequeños iguales entre sí.
3) Contamos el número de datos que encontramos dentro de cada intervalo (Frecuencia).
Por ejemplo, supongamos que en el intervalo i hay ni observaciones ( ni = N).
4) Para construir el gráfico, colocamos en el eje de abcisas (Horizontal) los intervalos y
levantamos en cada intervalo un rectángulo de altura proporcional al número ni de datos
dentro del mismo.
Si hacemos el área del rectángulo levantado sobre el intervalo i-ésimo igual a la
frecuencia relativa ni/N, el área total bajo el histograma será igual a la unidad:
Area Total   Ai  
ni

N
 n   N  1
i
N
N
5
Gráfico de Distribución de Frecuencias
0,20
Frecuencia Relativa
0,18
0,16
0,14
0,12
0,10
0,08
0,06
0,04
0,02
0,00
60
66
72
78
84
90
96
Peso Kg.
Obtenemos así una representación gráfica (Llamada también histograma) que nos
muestra la distribución de frecuencias de la población. Esta distribución de frecuencias
nos muestra las características de una población, por ejemplo, si hay resultados que son
mas frecuentes que otros. Nos muestra si los valores están ubicados alrededor de un
valor central, si están muy dispersos o poco dispersos. Podemos observar que fracción
de todas las mediciones cae por ejemplo, entre 70 y 80 Kg. (Zona rayada en el gráfico):
Gráfico de Distribución de Frecuencias
0,20
Frecuencia Relativa
0,18
0,16
0,14
0,12
0,10
0,08
0,06
0,04
0,02
0,00
60
66
72
78
84
90
96
Peso Kg.
Una extracción aleatoria es aquella en que cada miembro de la población tiene la misma
posibilidad de ser elegido. Supongamos que realizamos una extracción aleatoria de la
población antedicha y obtenemos el valor y. Entonces:
1) La probabilidad P(y<70) de que y sea menor que 70 Kg. es igual al área del
histograma a la izquierda de 70 Kg.
6
2) La probabilidad P(y>70) de que y sea mayor que 70 Kg. es igual al área del
histograma a la derecha de 70 Kg.
3) La probabilidad P(y>70, y<80) de que y sea mayor que 70 Kg. pero menor que 80
Kg. es igual al área del histograma entre 70 y 80 Kg.
Medidas de Tendencia Central:
Una característica importante de cualquier población es su posición, es decir, donde está
situada con respecto al eje de abscisas (Eje horizontal). En nuestro caso, es importante
saber si los datos se agrupan alrededor de 60 Kg. o de 90 Kg. o alrededor de 12 Kg. Una
manera de obtener un dato numérico que nos dé idea de la posición de nuestra población
es calcular el Promedio o Media de todas las observaciones:
X
 X 
i
N
Este importante parámetro nos permite efectuar comparaciones entre distintas
poblaciones. Por ejemplo, si tuviéramos una población formada por mediciones del peso
de mujeres de 30 años, otra de peso de varones de 40 años y una tercera de peso de
niños de 8 años, es indudable que los promedios van a ser diferentes. El promedio,
entonces, nos está diciendo que las tres poblaciones son diferentes y también en que
medida difieren.
Ahora, si tuviéramos una población de varones con peso promedio 70 Kg. y otra
población de varones con el mismo promedio ¿Se puede afirmar que ambas poblaciones
son equivalentes?
Medidas de Dispersión:
Otra característica importante de una población es el grado de dispersión de las
observaciones. No es lo mismo si en nuestra población encontramos que todos los
valores están entre 75 y 90 Kg. que si están entre 60 y 105 Kg., aunque el promedio sea
el mismo. Si llegara a la tierra un marciano y le dijéramos que el peso promedio de los
seres humanos adultos es de 70 Kg., puede llegar a creer que existen hombres de 350
Kg., o de 5 Kg. Es necesario agregar alguna idea de la dispersión de los valores. Una
manera es a través del Rango de las observaciones, es decir, el valor Máximo y el valor
Mínimo de los datos de la población. Entonces, una descripción mas realista acerca de
los seres humanos sería decir que pesan en promedio 70 Kg. y que el rango es de 40 a
120 Kg. (Estos valores son supuestos).
Una manera mas precisa de dar idea de la dispersión de valores de una población es a
través de la Varianza o su raíz cuadrada, que es la Desviación Standard. Vamos a
calcular la varianza y la desviación standard de un número pequeño de datos (Una
muestra) para ilustrar el cálculo. Supongamos que se midió la altura de 10 personas
adultas y de sexo femenino, y se obtuvieron los valores siguientes:
7
165 cm.
163 cm.
171 cm.
156 cm.
162 cm.
159 cm.
162 cm.
168 cm.
159 cm.
167 cm.
El promedio de estas observaciones es X  163,2 cm. Si a cada una de las
observaciones le restamos el promedio, obtenemos los Residuos:
X i Xi  X
165
163
171
156
162
159
162
168
159
167
1,8
-0,2
7,8
-7,2
-1,2
-4,2
-1,2
4,8
-4,2
3,8
Los residuos también nos dan una idea de la dispersión de las observaciones individuales
alrededor del promedio. Si el valor absoluto (El valor numérico sin el signo) de los
residuos es grande, es porque los valores están muy dispersos. Si el valor absoluto de los
residuos es pequeño, significa que las observaciones individuales están muy cerca del
promedio, y por lo tanto, hay poca dispersión. Pero nosotros necesitamos un sólo número
que nos provea información acerca de la dispersión de los valores. Si sumamos los
residuos, como algunos son positivos y otros negativos, se cancelarían entre si, con lo
cual perdemos la información acerca de la dispersión. Entonces, los elevamos al
cuadrado:

X i Xi  X X i  X

2
165 1,8 3,24
163-0,2 0,04
171 7,8
60,84
156-7,2
51,84
162-1,2
1,44
159-4,2 17,64
162-1,2 1,44
168 4,8 23,04
159-4,2 17,64
167 3,8 14,44
8
Si ahora sumamos los residuos elevados al cuadrado, tenemos un número donde se
condensa toda la información de la dispersión de la población:

Suma de Cuadrados   X  X i

2
 191,60 cm2
Este número, la suma de cuadrados, es dependiente del número de datos N, y por lo
tanto no nos sirve para comparar poblaciones con distinto número de observaciones. Si
dividimos la suma de cuadrados por N, tenemos un número que es independiente del
número de observaciones, que se denomina Varianza:
Suma de Cuadrados
Varianza 

N
 X  X 
2
i
N
En nuestro caso:
Varianza 
191,60
 19,16 cm 2
10
Las fórmulas anteriores son las que se aplican al cálculo de la varianza y desviación
standard de una población de datos. Mas adelante veremos que las fórmulas a aplicar en
el caso de una muestra son ligeramente diferentes. La varianza es un número que nos
permite comparar poblaciones. Cuando la dispersión de las observaciones es grande
(Datos que se alejan mucho por encima y por debajo del promedio), el valor de los
residuos (distancia entre cada dato y el promedio) será grande. Entonces aumenta la
suma de cuadrados de los residuos y por lo tanto la varianza. También se utiliza la raíz
cuadrada de la varianza:
Desviacion Standard  Varianza 
 X  X 
2
i
N
Por lo tanto:
Desviacion Standard  19,16 cm 2  4,38 cm
La desviación standard o desviación típica tiene las mismas unidades que la variable con
la que estamos trabajando, en nuestro caso el centímetro. Tanto la varianza como la
desviación standard nos permiten comparar el grado de dispersión de distintas
poblaciones.
Media y Varianza de una Muestra:
Hasta ahora hemos visto como se calcula la media o promedio de una población y
también como se calcula la varianza y la desviación standard de una población o universo
9
de observaciones. Cuando tenemos una muestra (Subconjunto de algunos datos
extraídos de una población), también podemos calcular su media, su varianza y su
desviación standard. Es muy importante distinguir entre la media, varianza y desviación
standard poblacional, de la media, varianza y desviación standard muestral. La media,
varianza y desviación standard de una población o universo se denominan parámetros de
la población y en general se designan con letras griegas:  para la Media,  para la
Varianza y  para la Desviación Standard poblacionales. En el caso de una muestra, la
media, varianza y desviación standard se denominan estadísticos y se utilizan letras de
nuestro alfabeto: X para la Media, s2 para la Varianza y s para la Desviación Standard
muestrales.
El cálculo de la varianza y la desviación standard de una muestra de n observaciones se
realiza con una fórmula levemente diferente que la ya vista para la varianza y desviación
standard de una población:
 X  X 
Varianza 
2
i
n 1
Desviacion Standard  Varianza 
 X  X 
2
i
n 1
En lugar de dividir por n, el número total de observaciones en la muestra, dividimos por n
- 1. Este valor, n - 1, son los Grados de Libertad de la muestra. En general, cuando
tenemos una muestra de n observaciones, se dice que la misma tiene n - 1 grados de
libertad.
La media, varianza y desviación standard de una muestra, en general, no van a coincidir
con los mismos parámetros de la población de la cual se extrajo la muestra (Aunque
usemos la misma fórmula para calcular la varianza muestral y poblacional). Si extraemos
n muestras de una población, vamos a obtener n promedios muestrales distintos del
promedio de la población y n varianzas muestrales distintas de la varianza de la
población. Esto se debe a que una población o universo tienen un número muy grande de
datos, mientras que una muestra son sólo algunos pocos datos extraídos de ese
universo. Cuando sacamos una segunda, tercera, ... etc. muestras, los datos extraídos no
tienen por que ser los mismos que en la primer muestra. Por lo tanto, el promedio y la
varianza de las muestras van a ser distintos entre sí, y distintos de la media y la varianza
de la población de la cual se extrajeron las muestras.
Muestreo Aleatorio:
En general, no es posible disponer de todas las observaciones de un universo o
población, ya sea porque es un universo hipotético o porque el relevamiento de todos los
datos resulta una tarea excesiva para nuestras posibilidades. Normalmente se dispone de
una muestra de datos extraídos de un universo, y lo que se pretende es estimar (Conocer
de manera aproximada) los parámetros del universo por medio de cálculos realizados
sobre la muestra. En este sentido decimos que la media muestral es una estimación de la
10
media del universo, y que la varianza y desviación standard muestrales son estimaciones
de la varianza y desviación standard poblacionales respectivamente.
Veamos algunos ejemplos. Supongamos que un partido político necesita averiguar la
cantidad de personas que están dispuestas a votar por su candidato. Entonces, encarga
a una empresa la realización de una encuesta el día previo a las elecciones. El encargado
de la encuesta podría pensar en consultar la intención de voto de toda la población de
votantes (Mas de 18 millones en la Argentina). Esto, obviamente, es una tarea excesiva
que por distintas razones no se puede realizar. Entonces, el camino que resta es tomar
una muestra representativa de esa población de personas y consultar la intención de voto
en esa muestra. Los resultados que se obtengan son solamente una estimación del
resultado que se hubiera obtenido si la consulta se hubiera efectuado sobre toda la
población de votantes.
Ahora bien ¿Cómo se obtiene una muestra representativa? Para tratar de entenderlo,
vamos a trabajar con una población de muy pocos datos. Supongamos que nuestra
población son 10 bolillas con los siguientes números:
11
2, 2, 9, 5, 2, 2, 9, 2, 2, 5
si ordenamos las bolillas de menor a mayor:
2, 2, 2, 2, 2, 2, 5, 5, 9, 9
inmediatamente comprobamos que nuestra población consta de 6 dos, 2 cincos y 2
nueves:
DatoFrecuencia
26
52
92
El promedio de la población es 4. Supongamos que queremos obtener una muestra de 5
elementos de esa población. Hay varias maneras de hacerlo. Supongamos que puedo ver
los números y elijo 2, 2, 2, 2 y 5 porque me gustan esos números. El promedio de estos 5
números extraídos de la población es 2,6 que difiere sustancialmente del promedio de la
población. Es evidente que dicha muestra no es representativa de la población de la que
fue extraída. No se mantiene la misma proporción de cada número que existe en la
población. Una muestra de 5 elementos en la que hay la misma proporción de cada dígito
debería tener 3 dos, 1 cinco y 1 nueve, y su promedio es 4, el mismo de la población. En
una población de muchos datos, no es posible obtener una muestra eligiendo cada
elemento para que figure en la misma proporción que en la población, porque para ello
deberíamos disponer de todos los datos de la misma, y en ese caso no sería necesario
sacar una muestra.
Si a cada elemento de la población se le da la misma oportunidad de ser elegido,
entonces se supone que cada número estará en la muestra en un número proporcional a
la cantidad de veces que está en la población. Por ejemplo, el 2 va a estar en la muestra
mas veces que el 5, porque en la población hay 6 dos y sólo 2 cincos. Si metemos las
diez bolillas en una bolsa y las mezclamos suficientemente, la probabilidad que tiene una
bolilla de ser extraída es la misma para cualquiera de las bolillas. En esas condiciones, si
sacamos cinco bolillas sucesivas, mezclándolas previamente en cada oportunidad, es
razonable pensar que vamos a extraer el 2 en mas oportunidades que el 5 ó el 9. Esta
forma de obtener la muestra es lo que se conoce como Muestreo Aleatorio.
El muestreo aleatorio no garantiza que la muestra va a ser exactamente representativa de
la población, pero al eliminar toda influencia externa en el acto de extraer un elemento de
la población, la proporción de cada elemento en la muestra estará influída sólo por la
cantidad de veces que está presente en la población de la cual se extrae la muestra.
Entonces, realizando el muestreo en forma aleatoria (al azar), la probabilidad de obtener
una muestra representativa de la población es mayor que si en la elección de los
elementos de la muestra interviene la voluntad del que efectúa la operación o algún otro
factor de influencia.
12
Funciones Estadísticas del EXCEL:
El EXCEL dispone de un conjunto muy completo de funciones que permiten realizar
cálculos estadísticos. Estas funciones pueden utilizarse a través de 2 caminos. El primero
consiste en ingresar la función en la barra de fórmulas, junto con los parámetros
apropiados para el caso. El segundo camino es utilizar el asistente para funciones, el cual
presenta una ventana para guiar al usuario en el ingreso de los parámetros necesarios.
Vamos a ejemplificar ambos métodos con la función PROMEDIO. Supongamos que
tenemos 5 números en el rango de celdas A1:A5 cuyo promedio deseamos obtener:
En primer término, nos situamos en la celda en la cual queremos colocar el promedio, en
este caso, la celda A7. A continuación, tipeamos en la Barra de Fórmulas el signo igual, el
nombre de la función, y entre paréntesis los parámetros necesarios, en este caso el rango
A1:A5. Luego, con el mouse hacemos clic en el Cuadro de Introducción o presionamos
ENTRAR. El promedio de los valores numéricos que se encuentran en el rango A1:A5
aparecerá en la celda A7:
13
Si queremos utilizar el asistente para funciones, hacemos clic en el botón correspondiente
al mismo y aparecerá una ventana para elegir la función que deseamos:
Con el mouse hacemos clic en Estadísticas y luego doble clic en PROMEDIO. En el paso
siguiente aparecerá una ventana para ingresar los parámetros de la función:
14
Ingresamos el rango donde están los valores, A1:A5 y hacemos clic en el botón Aceptar,
con lo cual aparece el promedio calculado en la celda A7.
Vamos a ver ahora como hacer para calcular una distribución de frecuencias a partir de
un conjunto de observaciones. El Excel posee una función, que se llama FRECUENCIA,
la cual genera una tabla con la distribución de frecuencias. Se trata de un función
matricial, por lo que su forma de trabajar es diferente de las funciones comunes del Excel.
Para ilustrar su uso, vamos a recurrir nuevamente a un ejemplo. Supongamos que
tenemos un conjunto de datos en el rango A2:C11:
15
16
En una columna adicional construímos una serie de intervalos que cubran
aproximadamente desde el valor mínimo hasta el valor máximo de nuestra población de
datos. En nuestro caso, construímos intervalos de 5 unidades, desde 65 hasta 90 y los
colocamos en el rango E2:E8. Luego seleccionamos con el Mouse un rango de celdas en
la columna de la derecha, junto a los intervalos, pero con una celda más (F2:F9). A
continuación, tipeamos en la barra de fórmulas el signo igual, el nombre de la función
FRECUENCIA y dentro de paréntesis el rango donde están los datos de la población
(A2:C11) y el rango de los intervalos (E2:E8), separados por punto y coma.
Una vez hecho esto, se mantienen oprimidas simultáneamente las teclas SHIFT y CTRL,
y luego se oprime ENTER. En el rango de celdas seleccionadas aparecerá la distribución
de frecuencias de la población.
En la barra de fórmulas, la función aparece encerrada entre 2 llaves, debido a que se
trata de una función matricial. Si se desea borrar la distribución de frecuencias, se deben
seleccionar todas las celdas (F2:F9) y oprimir la tecla DELETE.
17
La función Frecuencia cuenta el número de observaciones menores o iguales que 65,
mayores que 65 y menores o iguales que 70, etc. La celda adicional es para registrar el
número de observaciones mayores que 95, que en este caso es 0.
Las funciones VAR y VARP permiten calcular la varianza de una muestra y la varianza de
una población respectivamente (Recordar la diferencia entre ambas fórmulas). Las
funciones DESVEST y DESVESTP calculan la desviación standard de una muestra y la
desviación standard de una población. La función DESVIA2 sirve para calcular una suma
de diferencias entre el promedio de un conjunto de observaciones y las observaciones
individuales, elevadas al cuadrado. Esta suma de cuadrados dividida por el número de
grados de libertad nos da la varianza.
3. Funciones de Distribución de Probabilidades.
Hemos visto como se construye un gráfico de frecuencias con datos extraídos de una
población. A medida que aumentamos la cantidad de observaciones que tomamos de la
población, podemos construir nuestro gráfico con un número mayor de intervalos, aunque
de menor amplitud (El rango total cubierto por la población es el mismo). Si continuamos
este proceso, con intervalos cada vez mas estrechos y numerosos, los altibajos en el
gráfico de la distribución de frecuencias tienden a desaparecer:
18
En el límite, el ancho del intervalo tiende a cero y la población puede representarse por
una distribución de probabilidad continua. Cuando, para representar esta distribución de
probabilidad continua se utiliza una función matemática, esta se denomina Función de
Densidad de Probabilidad.
La forma de la curva en el gráfico de la función de distribución es característica de la
población de observaciones asociada con la misma, y depende de variables internas del
proceso que generó los datos de la población. Existen distintas funciones de distribución
teóricas, cada una de las cuales está basada en un modelo de comportamiento del
proceso que generó el universo de observaciones. La aplicación de una de estas
distribuciones teóricas a una población particular está justificada si las hipótesis
(suposiciones) del modelo de comportamiento del proceso que generó la población se
cumplen. Dicho de otro modo, si podemos afirmar que conocemos el proceso, es decir, el
conjunto de fenómenos que dieron lugar a nuestra población de mediciones u
observaciones, y además, estamos suficientemente seguros de que dicho proceso se
ajusta a un modelo de comportamiento determinado, entonces estaremos justificados
para decir que la distribución de probabilidades de nuestra población es la que
corresponde al modelo.
En la práctica, se sabe que ciertos procesos y fenómenos generan resultados numéricos
cuya distribución de probabilidades se puede ajustar a determinados modelos teóricos.
Por ejemplo, el número de partículas alfa emitidas por un material radiactivo sigue una
distribución de Poisson. Existen muchas otras distribuciones teóricas, como la Binomial,
la Exponencial, la de Weisbull, etc. Cada una de ellas tiene su propio campo de
aplicación, que se sostiene en un determinado comportamiento de los fenómenos, y al
aplicarla se está haciendo en forma implícita la suposición de que se cumplen las
hipótesis del modelo subyacente.
Una importante distribución teórica es la Distribución Normal o de Gauss. La ecuación
matemática de la función de Gauss es la siguiente:
19
1
e
2
P x  

   x 2
2 2
La distribución normal es una curva con forma de campana, con eje de simetría en el
punto correspondiente al promedio del universo . La distancia entre el eje de simetría de
la campana y el punto de inflexión de la curva es igual a , la desviación standard de la
población:
Gráfico de la Distribución Normal
Densidad de Probabilidad
0,25
0,20

0,15
0,10

0,05
0,00
1
2
3
4
5
6
7
8
9
10 11 12 13 14 15 16
Variable Aleatoria X
El área total debajo de la curva es igual a 1. El área debajo de la curva comprendida entre
- y + es aproximadamente igual a 0,68 del área total; entre -2 y +2 es
aproximadamente igual a 0,95 del área total:
20
Gráfico de la Distribución Normal
Densidad de Probabilidad
0,25
0,20
0,15
±68 % área
0,10
0,05
±295 % área
0,00
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
Variable Aleatoria X
Es importante ver que los únicos parámetros necesarios para dibujar el gráfico de la
distribución normal son  y  (Media y desviación standard de la población). Con estos
dos parámetros sabemos donde situar la campana de Gauss (En el punto
correspondiente a la media) y cual es su ancho (Determinado por la desviación standard).
Cuando nos encontramos con una población de observaciones, si podemos afirmar que la
distribución correspondiente es normal, sólo hace falta estimar la media y la desviación
standard para tener toda la información necesaria acerca de dicha población. Podemos
escribir la fórmula de la distribución normal de la siguiente manera:
P x  
1
e
2
1  x 
 

2  
Si llamamos Z a la cantidad
2
x
, la función queda así:

1
1  2Z 2
P z 
e
2
Esta es la fórmula de la Distribución Normal Standard o Tipificada. Como podemos
observar, en ella hay un sólo parámetro, Z, que incluye al promedio y la desviación
standard de la población. Esta función está tabulada, y para ingresar en la tabla es
necesario calcular Z, para lo cual necesitamos la media y la desviación standard de la
21
población. Al calcular Z, lo que estamos haciendo, en realidad, es un cambio de variable
por el cual movemos la campana de Gauss centrándola en el 0 del eje X, y modificamos
el ancho para que la desviación standard sea 1 (Recordar que la desviación standard es
la distancia entre el promedio y el punto de inflexión de la campana):
Gráfico de la Distribución Normal
0,45
Densidad de Probabilidad
0,40
=0
= 1
0,35
0,30
0,25
0,20
 = 15
 = 2,5
Cambio de
variable
0,15
0,10
0,05
X
Z
0,00
-5 -4 -3 -2 -1 0
1
2
3
4
5
6
7
8
9 10 11 12 13 14
15 16 17 18 19 20 21 22 23 24
Variables Aleatorias X y Z
De esta manera tenemos tabulada una función de Gauss que no depende de cual sea el
promedio y la desviación standard de nuestra población real. El cambio de variable hace
que se conserve la forma de la función y que sirva para cualquier población, siempre y
cuando esa población tenga una distribución normal. Cuando queremos calcular las
probabilidades para una población real, calculamos Z y entramos en la tabla de la función
normal standard:
Gráfico de la Distribución Normal Standard
Densidad de Probabilidad
0,50
0,45
0,40
Probabilidad de que Z
sea mayor o igual a 1,2
0,35
0,30
0,25
0,20
0,15
0,10
0,05
0,00
-4
-3
-2
-1
0
1
2
3
4
5
Variable Aleatoria Z
Funciones Estadísticas del EXCEL:
La función DISTR.NORM permite obtener la probabilidad de un valor igual o mayor que X
de una variable aleatoria que se distribuye normalmente con media  y desviación
22
standard (Área de la cola en el gráfico de la distribución normal). Se deben ingresar
como parámetros el valor X, la media  y la desviación standard  Además requiere otro
parámetro que debe tomar el valor VERDADERO, cuando se requiere la probabilidad o
área de la cola de la distribución (Distribución acumulativa) o FALSO, cuando se desea la
densidad de probabilidad en el punto X.
En el ejemplo estamos calculando la densidad de probabilidad en el punto 20,7 de una
variable aleatoria de distribución normal, con promedio 15 y desviación standard 2,5. La
función DISTR.NORM.ESTAND permite calcular la probabilidad o área de la cola de una
variable aleatoria Z. En este caso no se requiere el promedio y la desviación standard
porque Z se distribuye normalmente con promedio 0 y desviación standard 1. Esta función
es la que está tabulada generalmente en la mayoría de los textos de estadística.
Otras funciones son DISTR.NORM.INV y DISTR.NORM.ESTAND.INV, que calculan las
inversas de las respectivas funciones de distribución. La primera retorna el valor X de una
variable aleatoria cualquiera para una probabilidad determinada. Necesita como
parámetros la probabilidad para la cual se desea conocer el valor de X, el promedio y la
desviación standard de la distribución. La segunda función devuelve el valor Z de una
variable aleatoria de media 0 y desviación standard unitaria, para una probabilidad
determinada. En este caso, sólo requiere como parámetro la probabilidad para la cual se
desea calcular Z.
También existe una función llamada NORMALIZACIÓN, que permite calcular el
estadístico Z para una variable aleatoria que se distribuye normalmente. Esta función
requiere como parámetros la media y la desviación estándar de la distribución.
23
4. Funciones de Distribución de Probabilidades.
La Distribución T de Student.
En la generalidad de los casos, no disponemos de la desviación standard de la población,
sino de una estimación calculada a partir de una muestra extraída de la misma y por lo
tanto no podemos calcular Z. En estos casos calculamos el estadístico T:
T
x
S
donde S es la desviación standard muestral, calculada con n-1 grados de libertad:
S
 X  X 
2
i
n 1
El estadístico T tiene una distribución que se denomina distribución T de Student, que
está tabulada para 1, 2, 3, ... etc. grados de libertad de la muestra con la cual se calculó
la desviación standard. La distribución T tiene en cuenta la incertidumbre en la estimación
de la desviación standard de la población, porque en realidad la tabla de T contiene las
distribuciones de probabilidades para distintos grados de libertad:
Gráfico de la Distribución T
0,40
Densidad de Probabilidad
0,35
0,30
Distribución T para 5
Grados de Libertad
0,25
0,20
0,15
0,10
0,05
0,00
-10
-9
-8
-7
-6
-5
-4
-3
-2
-1
0
1
2
3
4
5
6
7
8
9
10
Variable Aleatoria T
24
Para un número de grados de libertad pequeño, es mas ancha que la distribución normal
tipificada. Cuando los grados de libertad tienden a infinito, la distribución T tiende a
coincidir con la distribución normal standard. Es decir, en la medida que aumentemos el
número de observaciones de la muestra, la desviación standard calculada estará mas
próxima a la desviación standard de la población y entonces la distribución T
correspondiente se acerca a la distribución normal standard. El uso de la distribución T
presupone que la población con que estamos trabajando tiene una distribución normal.
Distribución de Promedios Muestrales
Para comprender que significa distribución de promedios muestrales, vamos a suponer
que realizamos un experimento con bolilleros como los usados en la lotería. Colocamos
un número muy grande de bolillas blancas en un bolillero blanco, en cada una de las
cuales figura un dato X . Este bolillero representa la población de observaciones X , y
tiene media  y varianza  2 . Supongamos que a continuación hacemos los siguiente:
1) Tomamos una muestra de n  10 bolillas blancas
2) Calculamos la media X y la anotamos en una bolilla azul.
3) Colocamos la bolilla azul en un segundo bolillero de color azul.
4) Devolvemos las bolillas blancas a su bolillero y le damos vueltas.
5) Repetimos toda la operación muchas veces hasta que el bolillero azul esté lleno de
bolillas.
Entonces, los números del bolillero azul forman una población de promedios muestrales
X . Esta es una población derivada de la anterior, y tiene la misma media o promedio que
la distribución original, pero su varianza es un enésimo de la varianza de la distribución
original:
V(X) 
2
n
25
En el caso del bolillero azul, si denominamos  2m
tenemos:
a la varianza y  m a la media
m  
 2m 
2
10
La distribución de medias muestrales está situada en el mismo lugar (alrededor de la
misma media) que la distribución original, pero es mucho mas angosta, porque su
varianza es la décima parte de la varianza original. La distribución original de
observaciones representada por el bolillero blanco se denomina comúnmente distribución
madre o base. Es obvio que, dada una distribución cualquiera, podemos obtener una
distribución de promedios de muestras de 2 observaciones, de 3 observaciones, ...etc.
Al construir la población de promedios muestrales, realizábamosextracciones de 10
bolillas blancas después de dar vueltas al bolillero. Es decir, que estábamos realizando un
muestreo aleatorio de la población madre, porque cada una de las bolillas blancas tenía la
misma posibilidad de ser elegida para integrar la muestra. Aunque la población original no
sea de distribución normal, si el muestreo es aleatorio, la población de promedios
muestrales se aproximará a la normalidad, es decir, será casi de distribución normal. Este
efecto se debe a un teorema de estadística matemática denominado Teorema Central del
Límite. En resumen, si se cumple la hipótesis de muestreo aleatorio, tenemos:
Distribución madre de
X
Distribución muestral de X


2
2
n

n
Media
Varianza

Desviación Standard
Forma de la
distribución
cualquiera
más cercana a la distribución normal
que la distribución madre
En general, en los problemas que se presentan habitualmente, existe una población de
observaciones cualesquiera, de la cual tomamos una muestra aleatoria, es decir, un
subconjunto de observaciones elegidas al azar, por medio de la cual intentamos conocer
todo lo que sea posible acerca de la población de la cual fue extraída. El promedio de la
muestra de n elementos pertenece a la distribución de promedios muestrales de la
población original. Es decir, que el promedio de la muestra que obtuvimos es uno de los
muchos promedios muestrales que se distribuyen alrededor de  con desviación
26
standard

n
. Por lo tanto, si la muestra es mas grande (n mayor), estaremos en una
distribución de promedios con desviación standard mas pequeña, por lo cual, el promedio
de la muestra estará mas cerca del promedio del universo. Es por esto que es razonable
pensar que el promedio de la muestra es una estimación del promedio del universo.
Distribución muestral de la suma y de la resta:
Muchas veces es importante conocer la distribución de la suma Y de dos variables
aleatorias independientes yA e yB . Supongamos que:
y A tiene una distribución con media  A y varianza  2A
y B tiene una distribución con media  B y varianza  2B
¿Qué se puede decir de la media y la varianza de la distribución de Y  y A  y B ? De
nuevo se puede ilustrar el problema considerando dos bolilleros, cada uno con su
población apropiada de bolillas. Imaginemos que hacemos una extracción aleatoria del
bolillero A, para obtener yA , y del bolillero B, para obtener yB , sumamos los valores,
escribimos la suma Y  y A  y B en una bolilla roja y la introducimos en un tercer
bolillero. Después de repetir esto muchas veces ¿Qué puede decirse de la distribución de
las sumas que están en las bolillas rojas del tercer bolillero? Se puede demostrar que la
media de la suma Y es:
S   A  B
y la varianza de la suma Y es:
VAR(Y )  VAR( y A  y B )  VAR( y A )  VAR( y B )   2A   2B
De la misma manera, para la resta o diferencia de dos variables Y  y A  y B , resulta
que la media de la diferencia es:
D   A  B
y la varianza de la diferencia Y es:
VAR(Y )  VAR( y A  y B )  VAR( y A )  VAR( y B )   2A   2B
27
Funciones Estadísticas del EXCEL:
La función DISTR.T permite obtener la probabilidad de un valor igual o mayor que T, de
una variable aleatoria que se distribuye normalmente con media  , y de la cual se tiene
una estimación s de la desviación standard  calculada con n grados de libertad. Se
deben ingresar como parámetros el valor T, el número n de grados de libertad y un
parámetro adicional que indica si se desea el área de 1 cola de la distribución o el área de
2 colas.
28
La función DISTR.T.INV retorna la inversa de la distribución T, es decir, el valor de T
correspondiente a una determinada probabilidad que se le pasa como parámetro.
5. Test de Hipótesis.
El contraste de hipótesis o test de hipótesis es una herramienta muy importante y
ampliamente utilizada para comparar mediciones y tomar decisiones basadas en una
probabilidad. Vamos a explicarlo con un ejemplo. Supongamos que en una huerta se
cultivan tomates en un terreno donde hay sembradas 300 plantas de tomates, utilizando
un determinado tipo de fertilizante. El agricultor desea probar un nuevo fertilizante,
basándose en la propaganda de una revista de horticultura. Con este fin, en la siguiente
cosecha utiliza el nuevo fertilizante en una planta, en la que obtiene 12,5 Kg. de tomates.
¿Cómo saber si el rendimiento en esta planta fue mejor porque se utilizó un nuevo
fertilizante? Indudablemente necesitamos comparar este valor con el rendimiento de otras
plantas en las que se usó el fertilizante habitual. Los resultados de distintas plantas
seguramente presentan una fluctuación al azar, es decir, no tenemos un único resultado
con el fertilizante anterior sino muchos resultados que varían aleatoriamente, y es posible
que algunos de esos resultados superen los 12,5 Kg. Se necesita, entonces, un criterio
para decidir si el nuevo fertilizante produce una mejora en el rendimiento.
Para resolver el problema, vamos a hacer algunas suposiciones. El conjunto de
resultados de muchas plantas de tomate con el primer fertilizante constituye un universo
conceptual de observaciones de distribución normal. Hablamos de universo conceptual o
hipotético porque es el universo o población de resultados que tendríamos con un número
enormemente grande de plantas, con el mismo fertilizante y en las mismas condiciones.
El promedio y la desviación standard de una población hipotética, en general, no se
conoce. Sin embargo, el promedio y la desviación standard calculados con el rendimiento
de las 299 plantas restantes, utilizando el fertilizante habitual, constituyen una buena
estimación de la media y desviación standard del universo. Vamos a suponer, entonces,
que conocemos la media y desviación standard del universo y son los siguientes:
  10,7 Kg.
  0,8 Kg.
El único resultado obtenido con el nuevo fertilizante es de 12,5 Kg., lo cual supera el
promedio del universo de resultados obtenidos con el fertilizante anterior. Si bien el
promedio es 10,7 Kg., en la población hay resultados mas altos, y tal vez algunos iguales
o mayores que 12,5 Kg. ¿Podemos afirmar, entonces, que el nuevo fertilizante produce
mejores resultados?. Para tomar la decisión, conviene razonar de la siguiente manera: Si
en la población hipotética de resultados obtenidos con el primer fertilizante es común
encontrar valores iguales o mayores que 12,5 Kg., entonces el resultado obtenido con el
nuevo fertilizante no tiene nada de excepcional. Afirmamos, entonces, que el nuevo
fertilizante es igual que el anterior (No hay diferencia), y que el resultado obtenido se
debió solamente a la fluctuación al azar de los resultados que obtendríamos con cualquier
fertilizante.
29
Por otro lado, si en la población hipotética de resultados obtenidos con el primer
fertilizante es poco común encontrar un valor como 12,5 Kg., quiere decir que el resultado
del nuevo fertilizante sí es excepcional (es significativo) y por lo tanto tenemos razones
para afirmar que es mejor que el anterior.
Este razonamiento se plantea bajo la forma de dos hipótesis de valor opuesto, una de las
cuales es rechazada y la otra aceptada sobre la base de las probabilidades derivadas de
la comparación con la distribución normal. Estas hipótesis son las siguientes:
Hipótesis Nula: No hay diferencia entre los fertilizantes (Las diferencias son nulas). El
valor obtenido con el nuevo fertilizante se debe sólo a la fluctuación aleatoria de los
rendimientos de las plantas.
Hipótesis Alternativa: El nuevo fertilizante es mejor que el anterior y por eso el
rendimiento de la planta en la que se lo usó fue mas alto.
Para decidir entre ambas hipótesis, se calcula el estadístico Z, y se obtiene de la
distribución normal standard la probabilidad de un valor (del estadístico Z) mayor o igual
al calculado. Si la probabilidad de un valor igual o mayor que el calculado es mayor que
0,05, se acepta la hipótesis nula a un nivel de significación de 0,05. En este caso, hay una
probabilidad mayor que 0,05 (mayor que 5 %) de obtener por casualidad (fluctuación
aleatoria) un valor de Z tan grande como el calculado. Si la probabilidad de un valor igual
o mayor que el calculado es menor que 0,05, se rechaza la hipótesis nula a un nivel de
significación de 0,05. Es decir, la probabilidad de obtener en forma aleatoria un valor tan
grande de Z es menor que 0,05 (menor que 5 %). En este caso se dice que el resultado
obtenido con el nuevo fertilizante es significativo.
En nuestro ejemplo:
Z
x


12,5 Kg.10,7 Kg.
 2,25
0,8 Kg.
Entrando en la tabla de la distribución normal standard, obtenemos que la probabilidad de
un Z igual o mayor que 2,25 es P = 0,0122 (1,22 %). Quiere decir entonces que es muy
poco probable obtener un rendimiento de 12,5 Kg. de tomates con el fertilizante habitual.
Rechazamos, entonces la Hipótesis Nula (Y aceptamos la Hipótesis Alternativa) a un nivel
de significación de 0,05.
Ahora bien, para estar totalmente seguro y antes de invertir dinero en comprar una
cantidad importante del nuevo fertilizante, el agricultor decide hacer una nueva prueba, y
en la cosecha siguiente utiliza el nuevo producto en 10 plantas de tomate, con lo cual la
prueba es mas segura. Las hipótesis a contrastar son las mismas, pero el cálculo es algo
diferente. Ahora tenemos 10 resultados, cuyo promedio vamos a suponer que sea 11,5
Kg. Estos 10 resultados constituyen una muestra del universo de rendimientos
individuales de las plantas. Pero el promedio 11,5 Kg. es un elemento del universo de
promedios muestrales (Promedios de 10 resultados) derivado del universo anterior, con el
mismo promedio que este y con desviación standard:
30
 10 

10
como ya hemos visto. El estadístico Z es, entonces:
Z
x

10

11,5 Kg.10,7 Kg.
 1,0  10  3,16
0,8 Kg
10
En la tabla de la distribución normal standard, la probabilidad de un Z igual o mayor que
3,16 es P = 0,0008 (0,08 %) aproximadamente. La probabilidad, entonces, de obtener un
rendimiento promedio en 10 plantas de 11,5 Kg. de tomates con el fertilizante habitual es
prácticamente nula. Rechazamos, entonces la Hipótesis Nula (Y aceptamos la Hipótesis
Alternativa) a un nivel de significación de 0,0008. El nivel de confianza en las bondades
del nuevo fertilizante, ahora, es mayor.
Finalmente, vamos a ver un planteo mucho mas complicado, pero mas realista.
Supongamos que el agricultor desea comparar 2 fertilizantes A y B, y para ello utiliza el A
con un lote de 10 plantas de tomate, y el B con otras 10 plantas. Los rendimientos que
obtiene son los siguientes:
Rendimientos en Kg.
Planta Fertilizante
A
9,5
1
12,0
2
14,0
3
9,8
4
8,5
5
11,0
6
7,0
7
9,4
8
10,5
9
7,5
10
9,9
Media:
Fertilizante
B
10,7
14,5
12,0
12,6
10,5
11,9
11,4
14,0
12,7
13,0
12,3
31
En este caso no se dispone de un conjunto muy grande de plantas con las cuales se haya
utilizado el fertilizante A, de tal manera que podamos estimar con precisión la media y
desviación standard de la población hipotética de rendimientos. Sólo tenemos 10 plantas
ensayadas con A y otras 10 ensayadas con B. El promedio de 10 resultados con el
fertilizante B es mayor que con el A, siendo la diferencia de 2,4 Kg., lo cual parece indicar
que el B es mejor. ¿Cómo podemos decidirlo en forma confiable? Para hacerlo,
razonamos de la siguiente manera: Existen dos poblaciones hipotéticas de resultados,
una correspondiente al fertilizante A y otra al fertilizante B, que tienen forma
aproximadamente igual, la misma desviación standard pero posiblemente distintas
medias A y B. La media será distinta si ambos fertilizantes son realmente diferentes. Si
ambos son iguales en su acción sobre las plantas, las poblaciones tendrán la misma
media. Los dos conjuntos de 10 resultados obtenidos con los fertilizantes A y B son
muestras aleatorias extraídas de esas dos poblaciones. La varianza del universo de
promedios muestrales de 10 elementos del universo A es la siguiente:
 
V XA 
2
nA
Y para el universo B:
 
V XB 
2
nB
Recordemos que los universos de resultados individuales con el fertilizante A y con el
fertilizante B tienen la misma varianza . Podemos imaginar un universo derivado de los
anteriores, formado por todas las diferencias de promedios muestrales de 10 elementos
extraídos de los universos A y B. Para que se entienda esto último, vamos a explicarlo
con mas detalle: Supongamos que extraemos una muestra de nA=10 resultados elegidos
al azar del universo A y otra muestra de nB=10 resultados también elegidos al azar pero
del universo B. Sacamos el promedio de cada muestra y hacemos la diferencia X B  X A
entre ambos promedios. Repetimos este proceso un número muy grande de veces. Esto
da lugar a una población de diferencias de promedios de muestras extraídas
aleatoriamente de los universos A y B, con media B-A. La varianza de este universo la
podemos calcular así:


V XB  XA 
2
nA

 1
1
 2
 
nB
 n A nB 
2
Por lo tanto, la desviación standard de la población de diferencias de medias será:


V XB  XA  
1
1

n A nB
32
La diferencia entre los promedios obtenidos con el fertilizante A y con el B de 2,4 Kg. es
un elemento de este universo. La hipótesis nula es que ese valor no se debería a una
diferencia real entre ambos fertilizantes, sino a las fluctuaciones aleatorias entre los
elementos de esa población. La hipótesis alternativa es que sí hay diferencias reales
entre ambos fertilizantes. Para decidir entre ambas, calculemos primero el estadístico Z
de la diferencia de medias:
Z
X
B

 X A   B   A 

1
1

n A nB
Ahora bien, como ya hemos hecho notar, en este caso no disponemos de un conjunto
muy grande de datos que nos permita calcular la desviación standard . Sólo tenemos los
resultados de muestras de los universos A y B, con los cuales podemos calcular las
varianzas muestrales:
s 2A
 X

sB2
 X

A
 XA

2
nA  1
B
 XB

2
nB  1
Suponiendo que ambos universos tienen la misma varianza , podemos combinar las
varianzas muestrales para obtener una estimación s2 de dicha varianza:
s2

 X

A
 XA
   X
2
n A  nB  2
B
 XB

2

n A  1  s 2A  nB  1  sB2
n A  nB  2
que tiene nA+nB--2 grados de libertad. Entonces, debemos calcular el estadístico T en
lugar de Z:
T
X
B

 X A   B   A 
s
1
1

n A nB
33
En el caso de la hipótesis nula, no hay diferencias reales entre los resultados de ambos
fertilizantes, con lo cual:
B  A  0
y entonces:
T
X
B
s

 X A 0
1
1

n A nB
X

s
B
 XA

1
1

n A nB
Entrando en la tabla de la distribución T con nA+nB-2 grados de libertad podemos obtener
la probabilidad de que la diferencia entre las medias muestrales se deba a la casualidad
(Hipótesis Nula). Si esa probabilidad es muy pequeña, rechazamos la hipótesis nula y
aceptamos que hay diferencias reales entre los fertilizantes. En nuestro caso, el cálculo
de las varianzas muestrales da los siguientes resultados:
s 2A  4,4
sB2  1,7
s2 
10  1  4,4  10  1  1,7  3,04  s  1,74
10  10  2
Entonces, calculamos T:
T
2,4 Kg.
1
1
1,74 

10 10
= 3,08
En la tabla de la distribución T encontramos que para 18 grados de libertad, la
probabilidad de un valor de T igual o mayor que 3,08 es de 0,003 (0,3 %). Por lo tanto, es
muy poco probable que una diferencia entre los promedios de 2,4 Kg. se deba al azar de
una fluctuación muy alejada del promedio. Mas bien debemos rechazar la hipótesis nula y
pensar que la diferencia es significativa, es decir, que se debe a que el fertilizante B es
realmente mejor que el A.
34
Funciones Estadísticas del EXCEL:
La función PRUEBA.Z realiza el test de hipótesis del promedio de una muestra de
observaciones cuando se conoce el promedio y desviación standard de la población.
Vamos a verlo con el segundo test de hipótesis que realizamos: los datos de la muestra
están en el rango A1:A10. El promedio de la población es 10,7 Kg. y la desviación típica
0,8 Kg. El resultado del test es la probabilidad de tener una promedio muestral de 11,5
Kg. o mayor, y resulta ser 0,00078 aproximadamente, como ya habíamos visto.
En el campo denominado Matriz se debe ingresar el rango donde están ubicados los
datos de la muestra. En el campo denominado x se debe ingresar el promedio de la
población y en sigma la desviación standard de la misma.
La función PRUEBA.T realiza un test de hipótesis entre los promedios de dos muestras
extraídas de dos poblaciones con promedios posiblemente diferentes. Por ejemplo, en el
caso de los rendimientos de 10 plantas tratadas con el fertilizante A y 10 plantas tratadas
con el fertilizante B, colocamos las dos series de resultados en el rango A1:A10 y B1:B10
respectivamente. Luego seleccionamos otra celda y con la función PRUEBA.T calculamos
el nivel de significación de la diferencia entre ambos promedios muestrales, que nos da
0,0031 aproximadamente, como ya vimos.
35
6. La Distribución Binomial
Una persona arroja 1 dado apostando con otro a que saca un as. La probabilidad de
sacar el as es igual a
1
 0,1666... Es decir que la probabilidad que tiene de acertar es 17
6
% aproximadamente. Ahora, supongamos que la persona arroja 5 dados iguales a la vez.
¿Cuál es la probabilidad de que saque 0, 1, 2, 3... ases?. Cuando realizamos una
experiencia individual donde el resultado debe ser sólo uno de dos posibles: acierto/fallo,
cara/ceca, etc. decimos que es un ensayo de Bernouilli. Cada acto individual de arrojar un
dado es independiente de los otros y la probabilidad de obtener un as es
1
. La
6
probabilidad de obtener 5 ases es:
P(5 ases) 
1 1 1 1 1
1
    
 0,00013
6 6 6 6 6 7776
La probabilidad de no tener ningún as (0 ases) también podemos calcularla, porque al
arrojar un sólo dado, la probabilidad de que no salga un as es
P(0 as) 
5
. Entonces:
6
5 5 5 5 5 3125
    
 0,402
6 6 6 6 6 7776
36
Necesitamos calcular las probabilidades intermedias, es decir la probabilidad de obtener
1, 2, 3...ases. Es posible calcular todas estas probabilidades con una fórmula binomial.
Para entenderla es necesario conocer la notación de números combinatorios:
( mn )
m!
n !   m  n !

donde
m!  1 2  3....m
n!  1 2  3....n
m
son el factorial de m y de n respectivamente. La expresión n representa el número de
combinaciones de m elementos tomados de a n (agrupados de a n). Por ejemplo, si
tenemos las 5 letras A, B, C, D y E, y queremos saber cuantas son todas las
combinaciones posibles agrupándolas de a tres en cualquier orden: ABC, ADC, ...etc.,
hacemos el cálculo siguiente:
( )
(53 ) 
5!
 10
3!  5  3!
Supongamos que se realizan n ensayos de Bernoulli, con probabilidad p de tener un
acierto (Probabilidad q  1  p de tener un fallo). Entonces, la probabilidad de obtener y
aciertos en n ensayos de Bernouilli es:
( ny )  p
P( y ) 
y
 q n y 
n!
 p y  q n y
y ! n  y!
Esta probabilidad es un término del binomio siguiente:
n
(
 p  q   y )  p
n
n
y
 q n y
y 0
donde p  q  1, porque en un ensayo de Bernouilli ambos eventos acierto/fallo se
excluyen mutuamente, es decir, ocurre un acierto o un fallo, pero nunca ambos
simultáneamente. Los términos de la suma son las probabilidades P(y), que determinan la
distribución de probabilidades de la variable aleatoria y, la cual es una variable
discontinua (toma los valores 0, 1, 2, ...etc.):
37
Densidad de Probabilidad
Gráfico de la Distribución Binomial
0,20
p = 0,4
n = 10
0,15
0,10
0,05
0,00
0
1
2
3
4
5
6
7
8
9 10 11 12 13 14 15 16 17 18 19 20
Variable aleatoria
Volvamos, ahora a nuestro apostador. Supongamos que arroja 5 dados y apuesta a que
va a sacar 3 o más ases. ¿Cuál es la probabilidad que tiene de ganar? Esta probabilidad
es la suma de los términos del binomio para 3, 4 y 5 aciertos (ases), es decir:
5
 1
P( y  3)   ( y )  
 6
5
y 3
y
 5
 
 6
5 y
 0,035
Quiere decir que la probabilidad de ganar es aproximadamente del 3,5 %.
Funciones Estadísticas del EXCEL:
La función DISTR.BINOM permite calcular probabilidades binomiales o la distribución
binomial acumulada. Necesita como parámetros el número de ensayos, la probabilidad de
éxito en un ensayo individual y el número de éxitos para el cual se desea calcular la
probabilidad. Además hay un parámetro adicional con 2 valores posibles: Verdadero o
Falso. En el primer caso (Verdadero), la función calcula la probabilidad acumulada para el
número de éxitos requeridos, y en el segundo caso (Falso) calcula la probabilidad de ese
número de aciertos (Densidad de probabilidad).
38
En el ejemplo mostrado, para 10 ensayos de Bernoulli con una probabilidad de éxito de
0,2 en cada ensayo, colocando Falso en el campo acumulado la función nos dice que la
probabilidad de tener 3 éxitos o aciertos es de 0,2013 aproximadamente. La función
BINOM.CRIT es la función inversa de la anterior, es decir, dada una probabilidad retorna
el número de éxitos que le corresponde.
7. Gráficos de Control.
Los gráficos de control o cartas de control son una importante herramienta utilizada en
control de calidad de procesos. Básicamente, una carta de control es un gráfico en el cual
se representan los valores de algun tipo de medición realizada durante el funcionamiento
de un proceso continuo, y que sirve para controlar dicho proceso. Vamos a tratar de
entenderlo con un ejemplo: Supongamos que tenemos una máquina inyectora que
produce piezas de plástico, por ejemplo de PVC. Una característica de calidad importante
es el peso de la pieza de plástico, porque indica la cantidad de PVC que la máquina
inyectó en la matriz. Si la cantidad de PVC es poca la pieza de plástico será deficiente; si
la cantidad es excesiva, la producción se encarece, porque consume mas materia prima.
Entonces, en el lugar de salida de la piezas, hay un operario que cada 30 minutos toma
una, la pesa en una balanza y registra la observación. Supongamos que estos datos se
registran en un gráfico de líneas en función del tiempo:
39
Gráfico de las observaciones
Peso de las piezas (Gr.)
60
58
56
54
52
50
19
17
15
13
11
9
7
5
3
1
48
Nº de pieza
Observamos una línea quebrada irregular, que nos muestra las fluctuaciones del peso de
las piezas a lo largo del tiempo. Los valores se mueven alrededor de un valor central (El
promedio de los datos), la mayor parte del tiempo cerca del mismo, pero puede ocurrir
que algunos valores se alejen bastante del promedio. ¿Cómo podemos saber si esto se
produce por casualidad o porque el proceso ya no está funcionando bien?. Esta es la
respuesta que provee el control estadístico de procesos, y a continuación veremos como
lo hace.
Todo proceso de fabricación funciona bajo ciertas condiciones o variables que son
establecidas por las personas que lo manejan para lograr una producción satisfactoria.
Estas son variables controlables, por ejemplo, en el caso de la inyectora se fija la
temperatura de fusión del plástico, la velocidad de trabajo, la presión del pistón, la materia
prima que se utiliza (Proveedor del plástico), etc. Como ya hemos visto, al medir alguna
propiedad o característica del producto fabricado, los valores fluctúan, varían a lo largo
del tiempo. Se puede decir que existen dos tipos de causas que provocan esta
variabilidad:
Causas Aleatorias: Son una multitud de causas no identificadas, ya sea por falta de
medios técnicos o porque no es económico hacerlo, cada una de las cuales ejerce un
pequeño efecto en la variación total. Son inherentes al proceso mismo, y no pueden ser
reducidas o eliminadas a menos que se modifique el proceso. Por ejemplo, pequeñas
variaciones de calidad del plástico, ligeras variaciones de la corriente eléctrica que
alimenta la máquina, etc.
Causas Asignables: Son causas que pueden ser identificadas y que conviene descubrir y
eliminar, por ejemplo, una falla de la máquina por desgaste de una pieza, un cambio muy
notorio en la calidad del plástico, etc. Estas causas provocan que el proceso no funcione
como se desea y por lo tanto es necesario eliminar la causa, y retornar el proceso a un
funcionamiento correcto.
El uso del control estadístico de procesos lleva implícitas algunas hipótesis, que
describiremos a continuación:
40
1) Una vez que el proceso está en funcionamiento bajo condiciones establecidas, se
supone que la variabilidad de los resultados en la medición de una característica
de calidad del producto se debe sólo a un sistema de Causas Aleatorias, que es
inherente a cada proceso en particular.
2) Cuando se mide alguna característica de calidad del producto que se obtiene, el
sistema de causas aleatorias que actúa sobre el proceso genera una población
hipotética de observaciones (mediciones) que tiene una distribución normal.
3) Cuando aparece alguna causa asignable provocando desviaciones adicionales en
los resultados del proceso, se dice que el proceso está fuera de control.
La función del control estadístico de procesos es comprobar en forma permanente si los
resultados que van surgiendo de las mediciones están de acuerdo con las dos primeras
hipótesis. Si aparecen uno o varios resultados que contradicen o se oponen a las mismas,
se dice que el proceso está fuera de control. En este caso, es necesario detener el
proceso, encontrar las causas por las cuales el proceso se apartó de su funcionamiento
habitual y corregirlas.
La puesta en marcha de un programa de control estadístico en un proceso implica una
etapa inicial de ajuste del mismo, durante la cual se calculan los Límites de Control. En
esta etapa se recogen unas 100-200 mediciones, con las cuales se calcula el promedio y
la desviación standard:
X

X
i
N
 X  X 
2
i
N
Luego se calculan los límites de control de la siguiente manera:
Lim. Superior  X  309
. 
Lim. Inferior  X  309
. 
Estos límites surgen de la hipótesis de que la distribución de las observaciones es normal.
En general se utilizan límites de 2 sigmas ó de 3 sigmas alrededor del promedio. En la
distribución normal, el intervalo de 3,09 sigmas alrededor del promedio corresponde a una
probabilidad de 0,998. Entonces, se construye un gráfico de prueba y se traza una línea
recta a lo largo del eje de ordenadas (Eje Y), a la altura del promedio (Valor central de las
observaciones) y otras dos líneas rectas a la altura de los límites de control. En este
gráfico se representan los puntos correspondientes a las observaciones con las que se
calcularon los límites de control:
41
Gráfico de Control de Prueba
Peso de las piezas (Gr.)
65
Límite Superior = 60,8 Gr.
60
Promedio = 55 Gr.
55
50
Límite Inferior = 49,2 Gr.
19
17
15
13
11
9
7
5
3
1
45
Nº de pieza
Este gráfico de prueba se analiza detenidamente para verificar si está de acuerdo con la
hipótesis de que la variabilidad del proceso se debe sólo a un sistema de causas
aleatorias o si, por el contrario, existen causas asignables de variación. Esto se puede
establecer porque cuando la fluctuación de las mediciones se debe a un sistema
constante de causas aleatorias la distribución de las observaciones es normal. Es difícil
decir como es el gráfico de un conjunto de puntos que siguen un patrón aleatorio, pero sí
es fácil darse cuenta cuando no lo es. Si se tiene una serie creciente de 6 ó 7
observaciones, o una serie decreciente, es poco probable que se deba a causas
aleatorias. Cuando hay puntos sucesivos por fuera de los límites de control es probable
también que se deba a la presencia de causas asignables.
Si no se descubren causas asignables entonces se adoptan los límites de control
calculados como definitivos, y se construyen cartas de control con esos límites. Si sólo
hay pocos puntos fuera de control ( 2 ó 3), estos se eliminan, se recalculan la media,
desviación standard y límites de control con los restantes, y se construye un nuevo gráfico
de prueba. Cuando las observaciones no siguen un patrón aleatorio, indicando la
existencia de causas asignables, se hace necesario investigar para descubrirlas y
eliminarlas, y una vez hecho esto, se deberán recoger nuevas observaciones y calcular
nuevos límites de control de prueba.
En la etapa siguiente, las nuevas observaciones que van surgiendo del proceso se
representan en el gráfico, y se controlan verificando que estén dentro de los límites, y que
no se produzcan patrones no aleatorios:
42
Gráfico de Control
Peso de las piezas (Gr.)
65
Lím. Superior
60
Valor Central
55
Punto fuera de control
50
Lím. Inferior
39
37
35
33
31
29
27
25
23
21
45
Nº de pieza
Como hemos visto, el 99,8 % de las observaciones deben estar dentro de los límites de
3,09 sigmas alrededor de la media. Esto significa que sólo 1 observación en 500 puede
estar por causas aleatorias fuera de los límites de control. Entonces, cuando se
encuentran 1 ó mas puntos fuera de los límites de control, esto indica que el sistema de
causas aleatorias que provocaba la variabilidad habitual de las observaciones ha sido
alterado por la aparición de una causa asignable que es necesario descubrir y eliminar.
En ese caso, el supervisor del proceso debe detener la marcha del mismo e investigar
con los que operan el proceso hasta saber la o las causas que desviaron al proceso de su
comportamiento normal. Una vez eliminadas las causas del problema, se puede continuar
con la producción.
8. Relación entre dos Variables.
En muchas situaciones que se presentan a menudo en el campo de la ciencia, la
ingeniería o las ciencias económicas nos encontramos con el problema de la relación
entre dos variables numéricas. Por ejemplo, la relación entre la temperatura de un
paciente y el número de pulsaciones por minuto o la relación entre el costo de un
producto y el costo de la mano de obra para fabricarlo. Muchas veces existen ecuaciones
matemáticas que nos permiten calcular una variable conociendo el valor de otra de la cual
depende.
En general, cuando se nos presentan dos variables numéricas X e Y, podemos encontrar
distintos tipos de relación entre ellas. Puede ocurrir que entre ellas no exista ningún tipo
de relación. En tal caso, la variación de una de ellas no genera una variación correlativa
en la otra. Variación correlativa significa que cada vez que X aumenta, Y debe aumentar
si hay correlación positiva o cada vez que X aumenta, Y debe disminuir en caso de
correlación negativa. Pero si cada vez que X varía, Y puede aumentar o disminuir al azar
en cualquier grado y proporción, entonces significa que no hay ninguna correlación entre
ambas:
43
Variable Y
Ninguna correlación
50
45
40
35
30
25
20
15
10
5
0
0
2
4
6
8
10
12
Variable X
Cuando hay una relación funcional entre X e Y, es decir Y=F(X), la correlación entre
ambas es perfecta. Supongamos que medimos el valor de Y para un determinado valor
de X, y que dicho valor de X lo podemos fijar con exactitud (En general, esto no va a ser
cierto). La ecuación de la función nos da un valor de Y para ese valor de X. El valor de Y
medido y el valor de Y calculado con la ecuación, en general, no van a coincidir. Si
repitiéramos la medición de Y muchas veces para el mismo valor de X, tendríamos una
serie de valores que son diferentes del valor calculado. Pero si seguimos este proceso,
obtendremos una población de valores de Y cuyo promedio sí va a coincidir con el valor
calculado. Es decir, la relación funcional expresada por la ecuación matemática se
cumple para los promedios de los X e Y medidos, porque la mediciones individuales están
sujetas al error experimental o error de medición. Veámoslo con un ejemplo. Si dejamos
caer una pelotita desde el borde de una mesa, la distancia que recorre desde el borde
hasta tocar el suelo se puede calcular por medio de la ecuación siguiente:
Y  f (t ) 
1
 g  t 2 g Aceleracion Gravitatoria
2
Hay una relación funcional no lineal entre la altura Y desde la cual cae la pelotita y el
tiempo t que tarda en caer, expresada por la ecuación anterior. Si dejamos caer la pelotita
midiendo con un cronómetro el tiempo que tarda en llegar al suelo y medimos también la
distancia recorrida (la altura de la mesa), los valores resultantes de la medición
seguramente no cumplen con esa relación. Esto lo podemos verificar reemplazando t en
la ecuación por el tiempo obtenido con el cronómetro. El valor resultante Y seguramente
no va a coincidir con nuestra medición de la altura de la mesa. Si repetimos esto muchas
veces, las mediciones de tiempo y distancia realizadas en cada ocasión, en general, no
van a cumplir la relación. Pero si promediamos todas la mediciones de tiempo y luego
reemplazamos t en la ecuación por este promedio, la distancia calculada con la ecuación
sí va a coincidir con el promedio de todas las mediciones de altura de la mesa.
44
Entre las dos posibilidades extremas, la de no tener ninguna relación entre las variables y
la de tener una relación funcional, hay infinitas situaciones intermedias, en las cuales hay
un cierto grado de correlación entre ambas:
Variable Y
Hay alguna correlación
50
45
40
35
30
25
20
15
10
5
0
0
2
4
6
8
10
12
Variable X
En muchos problemas prácticos de la industria y de la economía se trata de conocer en
forma empírica la relación entre dos variables, de tal manera que si se tiene un valor de la
variable X se pueda obtener por cálculo o en forma gráfica el valor de la variable Y, sin
importar si existe una verdadera relación funcional entre ambas variables. Por ejemplo,
supongamos que tenemos una grupo muy grande de personas de sexo masculino, de
edad entre 30 y 40 años. Se nos presenta el problema de relacionar las variables peso y
estatura, de tal manera que, conociendo la estatura en metros de un individuo del grupo,
podamos calcular su peso en Kg. Entre ambas variables no existe una relación funcional.
Esto lo vemos fácilmente si tomamos algunos individuos cuya estatura sea la misma, por
ejemplo, 1,75 mts. y medimos el peso de cada una. Resulta claro que las mediciones van
a ser diferentes, una pesará 73 Kg., otra 79 Kg., etc. y estas diferencias no se deben al
error de medición, sino a diferencias reales en el peso de las personas:
Gráfico de peso vs. altura
130
Peso de personas de
1,75 mts.
120
Peso (Kg.)
110
100
90
80
70
60
50
40
1,60
1,70
1,80
1,90
2,00
2,10
Altura (m ts.)
45
Quiere decir que para un determinado valor de la variable estatura podemos encontrar
múltiples valores de la variable peso, lo cual niega la existencia de relación funcional. No
obstante, existe un importante grado de correlación entre ambas variables, porque
sabemos que a medida que aumenta la estatura de las personas dentro del grupo, el
peso tiende a aumentar. ¿Cómo podemos hacer, entonces, para estimar el peso de una
persona conociendo su estatura?
Para ello, vamos a suponer un procedimiento hipotético: Tomamos del grupo un número
muy grande de personas que miden exactamente 1,65 mts., las pesamos y promediamos
los resultados. Repetimos el procedimiento para grupos que miden 1,70 mts., 1,75 mts.,
etc. y luego representamos gráficamente los promedios de peso en función de dichas
alturas:
Regresión del peso sobre la altura
130
120
Peso (Kg.)
110
100
90
80
70
60
50
40
1,60
1,70
1,80
1,90
2,00
2,10
Altura (m ts.)
La representación resultante se denomina Regresión del peso sobre la altura, y a la
ecuación correspondiente Ecuación de Regresión. Una vez hecho esto, disponemos de
una forma sencilla de estimar el peso de una persona del grupo conociendo la altura: con
la misma entramos al gráfico y obtenemos el valor de Y correspondiente. Este valor Y es
el promedio de los pesos de las personas del grupo que miden una altura X, y sólo nos
sirve como una estimación (aproximación) del peso real de la persona cuyo peso
deseamos conocer. También podemos utilizar la ecuación de regresión para calcular el
peso. La forma de la representación gráfica puede ser una recta u otro tipo de curva.
Cuando es una recta decimos que es una regresión lineal, y de ahora en mas nos
referiremos a este tipo de regresiones.
El procedimiento real para obtener la regresión utiliza un método que se conoce como
Método de los Cuadrados Mínimos. Se toma una muestra aleatoria de personas del grupo
que cubran todo el rango de alturas y a cada una se le mide el peso y la altura.
46
Si representamos estos puntos en un gráfico, veremos que se agrupan aproximadamente
alrededor de una recta imaginaria, que representa los puntos de la regresión. Parece
lógico pensar que la recta de la regresión debe pasar muy cerca de los puntos
experimentales (las mediciones que realizamos). Si hacemos pasar esta recta imaginaria
por el punto correspondiente a uno de los individuos la estamos alejando, probablemente,
de los otros puntos. Es decir que, la recta de regresión debe pasar a una distancia óptima
de los puntos experimentales, de tal manera que esté lo mas cerca posible de todos ellos.
Esto es lo que se trata de hacer con el método de los cuadrados mínimos. Entonces,
tenemos una serie de valores de la variable X, para cada uno de los cuales se mide la
variable Y:
X
X1
X2
X3
X4
X5
X6
etc.
Y
Y1
Y2
Y3
Y4
Y5
Y6
La ecuación de la recta de regresión será de la forma:
Y R  a  bX
Si ingresáramos en esta ecuación los valores X1 , X2 , X3 , etc. obtendríamos los valores
de Y de la regresión: Y1R , Y2R , Y3R , etc. Las diferencias entre estos valores calculados y los
valores Y medidos se denominan residuos:
Y
Y
Y

Y 
Y 
R
1
 Y1
R
2
2
R
3
3
...............
etc.
Si elevamos las diferencias o residuos al cuadrado y sumamos estos cuadrados,
obtenemos una cantidad denominada suma de cuadrados alrededor de la regresión:
 Y
i
R


 Yi    a  b  X i   Yi

De todas las rectas posibles que pasan por los puntos representados en el gráfico, la
recta de regresión debe ser la que haga mínima esa suma de cuadrados. Observemos
que en dicha suma de cuadrados conocemos los valores Xi , Yi (Son la mediciones que
realizamos) y deseamos conocer a y b, que son los coeficientes de la ecuación de
regresión. Para obtenerlos se calcula el mínimo de la suma de cuadrados y de las
ecuaciones resultantes se despejan las fórmulas de ambos coeficientes, que son como
sigue:
47
b
n X i  Yi   X i   Yi
n X 2 
 X 
2
i
a  Y b X
donde
X
X
n
i
Y
Y
i
n
son los promedios de Xi e Yi respectivamente y n es el número de pares de
observaciones Xi , Yi .
Ahora bien ¿Cómo podemos conocer cual es el grado de vinculación entre ambas
variables? Para ello, calculamos el Coeficiente de Correlación, que es un número real
entre 0 y 1 que nos da el grado de correlación entre dos variables X e Y. Cuando este
coeficiente es 0, la correlación entre ambas variables no existe; cuando es 1, hay una
correlación perfecta, es decir, tenemos una relación funcional entre ambas. El coeficiente
de correlación es el cociente entre la Covarianza y las desviaciones standard de X e Y:
R
Cov X , Y 
s X  sY

 X
 X
i
i

 X  Yi  Y
X

   Y  Y 
2
2
i
Funciones Estadísticas del EXCEL:
La función ESTIMACION.LINEAL permite calcular los coeficientes de la recta de
regresión lineal de un conjunto de datos X, Y. Veamos el siguiente ejemplo:
48
Los datos X, Y están en el rango A2:B13 de la planilla. Seleccionamos el rango D2:E2
para colocar los coeficientes de la recta de regresión. Luego tipeamos el signo igual, el
nombre de la función Estimacion.Lineal y dentro de los paréntesis los parámetros. Los
dos primeros parámetros son los rangos B2:B13 y A2:A13 donde se encuentran los
valores de Y y X respectivamente. El tercer parámetro debe tomar el valor Verdadero si
se desea que calcule la ordenada al origen (Falso en caso contrario). Y el cuarto
parámetro debe tomar el valor Verdadero si se desean estadísticas adicionales como el
coeficiente de correlación, sumas de cuadrados, etc. (Falso en caso contrario). Una vez
ingresados los parámetros, se debe mantener oprimidas simultáneamente las teclas
SHIFT y CTRL, y luego oprimir ENTER para ingresar la función. En la celda D2 aparecerá
la pendiente y en E2 la ordenada al origen de la recta de regresión.
Otra función relacionada es TENDENCIA, la cual es una función matricial que calcula la
regresión lineal para una serie de puntos X, Y, pero en lugar de devolver los coeficientes
de la regresión retorna los valores de Y calculados para una serie de valores de X que se
le pasan como parámetros.
Las funciones INTERSECCIÓN y PENDIENTE retornan la ordenada al origen y la
pendiente para una serie de puntos X, Y. La función PRONOSTICO retorna el valor Y
correspondiente a un valor X que se le da como parámetro, junto con una serie de puntos
X, Y.
La función COEF.DE.CORREL retorna el coeficiente de correlación entre dos conjuntos
de valores X, Y. La función PEARSON retorna el mismo valor que COEF.DE.CORREL.
49
Descargar