not as de clase promedio aritmetico y varianza en grupos finitos de

Anuncio
Boletin de Matenuiticas
Nueva Serie, Volumen VI No.1
(1999), pp. 43-51
NOT AS DE CLASE
PROMEDIO ARITMETICO Y VARIANZA EN GRUPOS
FINITOS DE DATOS NUMERICOS
JORGE
E. ORTIZ
PINILLA
(*)
Resumen. Be recogen propiedades conocidas de la media y la varianza
para mostrar que detras de sus definiciones esta el criterio de los minimos
cuadrados que rige buena parte de la estadfstica clasica,
Be propone
como alternativa
pedagogica la present acion del promedio como el valor
mas cercano de los datos y la varianza como una transformacion
de los
cuadrados de las distancias existentes entre ellos.
1. Introducci6n
Usual mente en los text os de estadfstica (Mendenhall, Sincich, 1997; Johnson,
1997; Canavos, 1988) la media y la varianza se present an como definiciones que,
eventualmente, se asocian con los conceptos de centro de gravedad y momenta
de inercia trafdos de la ffsica. Desde otra perspectiva complementaria se puede
introducir tempranamente los modelos lineales a traves del concepto de valores
referenciales en un grupo de datos con la aplicacion del criterio de minimos
cuadrados.
La identificacion de grupos es una de las actividades mas comunes del hombre. Cualquier forma de denominacion corresponde implfcita 0 explfcitamente
a un manejo mas 0 menos generalizado de alguna clasificacion de los objetos
observados, sean estos concretos 0 abstractos.
(*) Texto recibido 10/22/99, revisado 5/30/00.
Maternaticas,
Universidad Nacional de Colombia;
43
Jorge E. Ortiz Pinilla,
Departamento
de
JORGE E. ORTIZ PINILLA
44
Formalmente clasificar significa identificar 0 establecer una particion de un
conjunto. Esto es, determinar varios subconjuntos disyuntos de manera que su
union cubra el conjunto completo. A los elementos de cada grupo se les da un
nombre especffico. Los seres humanos se clasifican, por ejemplo, en hombres
y mujeres de acuerdo con la variable 11amada sexo con la cual se establece la
particion, Un conjunto de conejos puede descomponerse en varios grupos para
ser asignados a tratamientos diferentes con algun objetivo especffico. El grupo
recibe algtin nombre acorde con el tratamiento asignado y este procedimiento
establece la particion del conjunto total que resulta en la clasificacion de los
conejos. En las variables que han servido como base para la clasificacion,
cada grupo tiene entonces, caracterfsticas propias que 10 identifican como tal y
permiten distinguirlo de otros.
Ademas de las caracteristicas utilizadas para identificar la particion est ablecida, interesa observar el comportamiento
de otras variables en los grupos.
Cabe preguntarse si e11asrevelan tarnbien caracterfsticas propias de cada grupo,
que 10 diferencian de los demas 0 si, por el contrario, esas diferencias son imperceptibles y su comportamiento es hornogeneo en el conjunto total. La base de
estos analisis se encuentra en el calculo de expresiones que resumen de alguna
manera el comportamiento de los datos del grupo.
En esta lectura se propone presentar la media y la varianza en conjuntos
finitos, no como definiciones cuya justificacion es posterior, sino como conceptos
derivados de la aplicacion del criterio de minimos cuadrados para la biisqueda
de valores referenciales que identifiquen el comportamiento global de variables
numericas en dichos conjuntos.
2. Valores
referenciales
de los grupos
de datos
nurner icos
Cuando Xl, X2, ... ,Xn son datos de una variable numerica observada en los
elementos de un grupo, implfcitamente se acepta la existencia de algo cormin en
e11os,que evidencia la conforrnacion del grupo. En caso contrario, diffcilmente
podria decirse que pertenecen al mismo grupo. La parte cormin es 10 que se
llamara un valor referencial
del grupo y que 10 especifica de alguna forma,
al menos parcialmente.
Cada uno de los datos del grupo! puede descomponerse en dos partes:
en donde
(1)
9
e;
es la parte cornun con el grupo y
es la parte no cormin con el grupo y
que es propia del dato individual
llos datos del grupo se entenderan
los elementos del grupo
como los datos de la variable numerica
observada
en
PROMEDIO
ARITMETICO
Y VARIANZA EN GRUPOS FINITOS
45
Esta ultima se puede interpretar como un desvio individual del dato con
relacion al valor referencial del grupo y corresponde exactamente a la diferencia
entre el dato particular y el valor referencial.
Los desvfos individuales tienen una doble importancia desde el punto de
vista practice: (1) permiten examinar la homogeneidad 0 la heterogeneidad del
grupo y (2) determinan en alguna forma los datos que son tipicos dentro del
grupo y los que son atipicos para el grupo. Generalmente se Haman atipicos
a los datos que presentan grandes diferencias con el valor referencial.
Una vez definido, el valor referencial 9 no varia de individuo a individuo
dentro del mismo grupo. Sin embargo, su definicion es arbitraria y puede
cambiar. Su seleccion determina los desvfos individuales y estes son afectados
de manera inmediata con los cambios en el valor referencial. Es posible que el
mismo conjunto de valores atipicos tarnbien cambie.
A manera de ilustracion se puede considerar el grupo de datos: (3,4,4,5) y
suponer que se ha tornado arbitrariamente 5 como valor referencial. Los desvios
individuales
son -2, -1, -1,0 y el dato con mayor riesgo de ser
calificado como atipico es el 3 por su mayor desvio. Si ahora se toma tarnbien
arbitrariamente
20 como valor referencial, los desvios individuales son muy
grandes (-17, -16, -16, -15) y todos los datos pueden ser calificados como
atfpicos. Por ultimo, si se toma 4 como el valor referencial, los desvios individuales son todos pequefios (-1,0,0, 1) y 10 mas probable es que ahora ningiin
dato se tome como atipico. Esta ultima situacion favorece la seleccion de 4
como el valor referencial adecuado para el conjunto de datos.
Parece claro que si el valor referencial represent a la parte comun de los datos
del grupo, entonces su seleccion no debe precisamente generar condiciones para
que los datos sean calificados como atfpicos sino en los casos en que verdaderamente 10 sean. De esta rnanera, el valor referencial debe estar 10 mas cerca
posible de todos los datos del grupo. Por esta razon, los criterios para definirlo
consisten en buscar el valor que minimice alguna expresion global de las diferencias con los datos del grupo. La mas utilizada es la suma de los cuadrados de
los desvios individuales con relacion al valor referencial. Entonces: 9 es el valor
referencial del grupo de datos XI, X2, ... ,Xn si cum pie la si-guiente condicion:
n
(2)
l)Xi
n
- g)2 :::;l)Xi
i=1
_ y)2,
Vy.
i=I
Sin mucha dificultad se puede demostrar que el valor buscado 9 es igual a:
1
(3)
conocido como el promedio
X
n
= - LXi,
n
i=1
de los datos
del grupo:
En efecto, si los Xi, i = 1, . , n son los valores observados ya fijos, entonces
2:::1 (Xi -y? es funcion de y para la cual se busca el valor minimo. Derivando,
JORGE E. ORTIZ PINILLA
46
entonces con respecto aye
1974)
d
igualando la derivada a cera se obtiene (Kreysig,
n
n
d 2)Xi
Y
- y)2
= -2
i=l
2)Xi
- y)
= 0,
i=l
entonces
n
n
LXi
= Ly=ny,
i=1
i=1
Y por 10 tanto, el valor minimo se obtiene cuando
1
y
= -
n
n
LXi
=
x,
i=1
como se dijo antes. La segunda derivada es 2 10 que muestra que se trata de un
valor mfnimo. Be dice que el promedio es el valor referendal del grupo,
segtin el criterio de los mfriimos cuadrados.
Existe otra manera de ver el resultado anterior, que apart a elementos de
utilidad:
n
2)Xi
n
- y)2
= LUXi
i=1
-
xl + [x _
i=l
n
y])2
n
= L(Xi
- x)2
+ L(x
i=1
n
- y)2
+ 2 L(Xi
i=l
- x)(x - y)
i=1
n
n
= L(Xi
- x)2
+ n(x - y)2 + 2(x - y) L(Xi
i=l
- z).
i=1
La suma que aparece en el ultimo terrnino es:
n
L(Xi
n
- x) = LXi
i=l
-
rui
i=l
1
n
(4)
= LXi
n
- n(- LXi)
n
i=1
i=l
= o.
Par 10 tanto, la siguiente igualdad es valida para cualquier conjunto de valoresy,x1,x2,'"
,Xn:
n
(5)
2)Xi
i=1
n
- y)2
= L(xi
- x)2
+ n(x
_ y)2
i=1
Be observa que si y = x, entonces, L:~=1(Xi - y)2 = L:~=1(Xi - x)2 pero si
y =f:. x, la cantidad positiva n(x - y)2 debe agregarse a L:~1 (Xi - x)2 para que
pueda igualar a L:~=1 (Xi - y) 2.
PROMEDIO ARITMETICO
Y VARIANZA EN GRUPOS FINITOS
Los resultados (4) y (5) destacan dos propiedades importantes
dios como valores referenciales de grupos:
47
de los prome-
1. La suma de todas las diferencias entre los valores individuales y el prornedio del grupo es igual a cero (ecuacion (4)).
2. Si se toma un valor referencial diferente del promedio, entre mayor sea la
diferencia, mayor sera la suma de los cuadrados de los desvios individuales
con relacion a ese valor referencial (ecuacion (5)).
Existen otras expresiones que sirven como base para definir el valor referencial de un grupo. Por ejemplo, en lugar de tomar la suma de los cuadrados
de los desvios, como se hizo en (2), se puede considerar la suma de sus valores
absolutos, dando origen a otro valor referencial conocido como la mediana del
grupo. En esta lectura, se trata solamente el promedio como valor referencial.
El modelo (1) se puede escribir ahora,
Xi
= x + ei,
ei
= Xi -
y el desvio individual es
x.
En (4) se dernostro que la surna de los desvios individuales con respecto al
promedio es igual a cero: L:~=I e, = L:~1 (Xi - x) = O. Un caso particular
se presenta si todos los datos son iguales a su valor referencial (su promedio).
Si esto ocurre, entonces no solamente la suma de los desvios es cero sino que
tarnbien cada uno de ellos es tambien igual a cero. En el grupo no hay diferencias y todos los datos individuales se comportan exactamente igual.
La situacion anterior es muy particular. En general en los grupos existen
diferencias que, segiin se ha dicho antes, sirven como elemento de diagnostico
individual para cada dato, permitiendo asi decidir si se 10 considera cercano
del valor referencial (dato tipico) 0 si se encuentra demasiado lejos de el (valor
atfpico). Las tecnicas orientadas ala elaboracion de diagnosticos no necesitan
presentaci6n. Practicamente todas las disciplinas realizan, de una forma u otra,
este tipo de actividad.
3. Desvios individuales
y heterogeneidad
del grupo
Como elemento de diagn6stico colectivo, los desvios permit en analizar la
homogeneidad 0 la heterogeneidad del grupo. Si se puede decir que los desvios
son globalmente demasiado grandes, el grupo se considera heterogeneo.
Lo mas natural es tomar la suma de los desvios como el indicador global de
heterogeneidad. Sin embargo, ya se sabe pOI' (4) que esa suma es igual a cera
para cualquier grupo sin importar como sean los desvios individuales, grandes
o pequefios. Es la razon porIa que anteriormente se debio utilizar la suma de
los cuadrados de los desvios u otra expresion adecuada.
Recordando que al tomar el promedio como el valor referencial, se esta
tomando el valor "mas cercano" de todos los puntos en el sentido de los minirnos
JORGE E. ORTIZ PINILLA
48
cuadrados, la suma de los cuadrados de los desvios se convierte en un indicador
de la heterogeneidad del grupo. Si se obtiene un valor demasiado grande, el
grupo es heterogeneo ; en caso contrario, el grupo es hornogeneo.
El valor del desvio elevado al cuadrado, (Xi - X)2, se denomina la variacion
del individuo i dentro del grupo. La suma de las variaciones individuales se
llama la variaci6n interna del grupo.
n
(6)
2)Xi
Variacion interna del grupo:
- x)2.
i=l
Para un conjunto de datos fijo, el promedio es un valor que no forzosamente
coincide con alguno de los datos del grupo. Esto hace que en cierto modo
sea consider ado como un valor intruso que llega al grupo como referencia para
establecer cuales datos son atipicos y cuales no. Intuitivamente, para examinar
si un dato Xj es tipico 0 no, se deberia tomar como punta de partida la suma
de sus diferencias al cuadrado con los datos del grupo:
n
2:)Xi
- Xi)2
i=l
En este caso, la suma de las anteriores diferencias para todos los datos X ij = 1, ... , n seria el indicador de la homogeneidad 0 heterogeneidad del grupo:
n
n
2:2:(Xi
i=l j=l
- Xj)2.
La igualdad (5) es valida para cualquier valor y. En particular
tiene:
n
2:(Xi
para Xj se
n
- Xj)2
i=l
=
2:(Xi
- x)2
+ n(x
- Xj)2.
i=l
Acumulando estas sumas para todos los xJ se obtiene:
n
n
2: 2:(Xi
j=l i=l
- Xj)2
=
n
n
j=l
i=l
2: 2:(Xi
n
- x)2
+ 2: n(x
n
n
(7)
- Xj)2
j=l
= n 2:(Xi
- x)2
i=l
+n
2:(XJ
j=l
-
x)2
n
= 2n 2:(Xi
- x)2
i=l
Se encuentra entonces que la suma total de las diferencias al cuadrado entre
los datos de un grupo es precisamente un multiple de la variacion interna del
PROMEDIO
ARITMETICO
Y VARIANZA EN GRUPOS FINITOS
49
mismo. EI promedio es un dato referencial que permite simplificar los calculos
de la suma de los cuadrados de las diferencias individuales del grupo (entendiendo por diferencias individuales, las diferencias existentes entre los datos de
los individuos). Tal vez sea mas interpretable la suma de los cuadrados de las
diferencias entre datos de individuos distintos y sin repetir comparaciones.
Es
decir, la siguiente suma de n( n - 1) /2 terrninos:
n
n
L2)Xi
i=1 j<i
No es diffcil demostrar
la siguiente igualdad
n
(8)
- x))2
L
i=l
n
n
L(Xi
j=1
n
- Xj)2 = 2 L
L(Xi
j<i
i=l
- Xj)2.
De (7) y (8) se deduce que:
n
(9)
n
n L(Xi
- x)2
n
= LL(Xi
i=1
- x))2,
j<i
i=1
y como en esta ultima suma hay n(n - 1)/2 terminos,
2
n
n
(
)
"''''(Xi
nn-l
~~
i=l
2
- Xj?
=
entonces el promedio:
n
(
nn-l
)n
.7<i
'(Xi
~
- x?
i=1
n
1 "',
=2--~\Xi-X
(10)
n-l
De este result ado se extrae una interpretacion
(11)
2
Sx =
1
~
--1 ~(Xi
n-
-)2 .
i=l
para la cantidad
-
2
- x) ,
i=l
como el semipromedio de los cuadrados de las diferencias entre los datos de los
individuos del grupo. Aparentemente
deberfa ser mas conocido el promedio que
el semipromedio. Sin embargo la historia ha dado a conocer la expresion (11)
como la varianza muestral de los datos del grupo. Nosotros la Ilamaremos
tambien la varianza interna del grupo para mantener coherencia con la
definicion dada anteniorrnente en (6) para la variacion interna.
Par otra parte si, en lugar de tomar solamente las diferencias entre datos de
individuos distintos, se toman todas las n2 diferencias que aparecen en la doble
suma de (7), entonces el promedio sera igual a:
JORGE
50
E. ORTIZ
PINILLA
por 10 que la cantidad
n
2
Snx=-
,
12:
n
(Xi-X),
-2
(12)
i=1
corresponde al semipromedio de la suma de los cuadrados de las diferencias
que se pueden formar con los datos de los n individuos del grupo, incluyendo
las diferencias entre los datos de los individuos consigo mismos. Elias son sistematicamente iguales a cero y su inclusion ocasiona una disminucion artificial
que hace subvalorar la apreciacion de la heterogeneidad de la variable en el
grupo. Como puede verse entonces, esta expresion presenta dificultades para
la interpretacion y por 10 tanto es menos recomendable, al menos desde esta
perspectiva que la dada en la expresion (11).
4. Conclusiones
1. El promedio es el valor globalmente mas cercano de los datos individuales
de un grupo en el sentido de los mfnimos cuadrados.
2. El promedio es la parte constante g de los datos Xi de un grupo, representados con el modelo
en don de las partes no constantes e, se han minimizado globalmente de
acuerdo con el criteria de los mfnimos cuadrados.
3. El promedio de los cuadrados de las diferencias entre todos los valores
individuales de la variable numerica en estudio en un grupo esta dado
por:
n
2s 2
x
2 L (X· - x) 2
= -n -1
'
.
i=1
4. La varianza muestral es la mitad del promedio anterior.
5. El promedio de los cuadrados de las diferencias de los datos individuales
con el promedio de los datos del grupo,
PROMEDIO
ARITMETICO
Y VARIANZA
EN GRUPOS
FINITOS
51
incorpora los cuadrados de las diferencias de los datos consigo mismos, 10
cual dificulta una interpretacion para esta expresion, distinta de la de su
definicion.
6. EI concepto de varianza en grupos finitos de datos numericos puede
definirse independientemente
del valor referencial utilizado. Puede no
utilizarse el promedio y de todas maneras la siguiente expresion define de
manera unica la varianza.
Referencias
[1] Canavos, George C., Probabilidad y estadistica: Aplicaciones y metodos, McGraw Hill.
Madrid, (1997).
[2] Johnson, R., Probabilidad y estadistica para ingenieros de Miller y Freund, Prentice
HalL Mexico (1997).
[3] Kreysig, E., Introducci6n
a la estadistica matematica:
Principios
y meiodos, Limusa,
Mexico (1974).
[4) Mendenhall, W., Sincich, T., Probabilidad y estadistica para ingenieria y ciencias, Prentice Hall Hispanoamericana, Mexico (1997).
[5] Wonnacott, T. H., Wonnacott, R. J. , Introducci6n
a la estadistica,
Limusa, Mexico
(1997).
Descargar