Tema 1 ESTADÍSTICA DESCRIPTIVA

Anuncio
Probabilidad y Estadística (I.I.)
Tema 1
Tema 1
ESTADÍSTICA DESCRIPTIVA
Cuando coloquialmente se habla de Estadística, se suele pensar en una relación de datos
numéricos presentada de forma ordenada y sistemática. Esta idea es la consecuencia del
concepto popular que existe sobre el término y que cada vez está más extendido debido a
la influencia de nuestro entorno, ya que hoy día es casi imposible que cualquier medio de
difusión, periódico, radio, televisión, etc, no nos aborde diariamente con cualquier tipo de
información estadística sobre accidentes de tráfico, índices de crecimiento de población,
turismo, tendencias políticas, etc.
Sólo cuando nos adentramos en un mundo más específico como es el campo de la
investigación de las Ciencias Sociales: Medicina, Biología, Psicología, ... empezamos a
percibir que la Estadística no sólo es algo más, sino que se convierte en la única
herramienta que, hoy por hoy, permite dar luz y obtener resultados, y por tanto beneficios,
en cualquier tipo de estudio, cuyos movimientos y relaciones, por su variabilidad intrínseca,
no puedan ser abordadas desde la perspectiva de las leyes determistas.
La ESTADÍSTICA es la ciencia que se ocupa de la ordenación y análisis de datos
procedentes de muestras y de la realización de inferencias sobre las poblaciones de las que
éstas proceden.
Generalmente se pueden distinguir dos fases en la realización de cualquier experimento o
estudio científico. Una primera, que consiste en la observación y análisis de los hechos que
acontecen (recogida de información, colecciones de datos) y otra segunda, de
interpretación y obtención de conclusiones. La estadística descriptiva es la primera
herramienta para el manejo de los datos y proporciona métodos para resumirlos y
organizarlos.
Describe, analiza y representa un grupo de datos utilizando
métodos numéricos y gráficos que resumen y presentan la
información contenida en ellos. Es la 1ª fase de toda
investigación.
Implica realizar inferencias acerca de la población a partir
de los datos muestrales y requiere cálculo de
probabilidades.
1.- Conceptos Básicos. Tipos de variables
Veamos los conceptos generales necesarios para estructurar de alguna forma la
información.
Población: Es el conjunto de referencia sobre el que van a recaer las observaciones, todos
los elementos que porten información sobre el fenómeno que se estudia (por ejemplo, si
1
Probabilidad y Estadística (I.I.)
Tema 1
estudiamos el precio de la vivienda en una ciudad, la población será el total de las viviendas
de dicha ciudad). Generalmente este conjunto viene definido por comprensión, es decir,
citando la propiedad que lo caracteriza (habitantes de Telde con edades comprendidas
entre 3 y 7 años inclusive). Las poblaciones pueden ser finitas o infinitas, dependiendo del
número de elementos que las forman.
Individuo: Es cada uno de los elementos que componen la población estadística en estudio.
Así, si estudiamos la altura de los niños de una clase, cada alumno es un individuo; si
estudiamos el precio de la vivienda, cada vivienda es un individuo. Es un ser observable que
no tiene por qué ser una persona, puede ser un objeto, un ser vivo, etc…
Muestra: Es un subconjunto de individuos que seleccionamos de la población. Se suelen
tomar muestras cuando es muy difícil o costosa la observación de todos los elementos de la
población. El número de elementos de la misma se llama tamaño de la muestra. Se deben
escoger los individuos de la muestra de manera que sean representativos de la población de
la que proceden, es decir, que conserven las propiedades de aquella. Así, si se estudia el
precio de la vivienda de una ciudad, lo normal será no recoger información sobre todas las
viviendas de la ciudad (sería una labor muy compleja), sino que se suele seleccionar un
subgrupo (muestra) que se entienda que es suficientemente representativo.
Caracteres o variables estadísticas: El carácter es cualquier cualidad o propiedad
inherente al individuo. Por ejemplo, si el individuo observado es un libro, podremos
describirlo mediante los caracteres peso, tamaño, número de hojas, color de las pastas,
etc… A cada una de estas características la llamamos variable estadística y la
representamos normalmente por las letras mayúsculas X, Y, Z,…
Hay caracteres que son medibles, esto es, se pueden cuantificar, como por ejemplo la edad,
el peso y la estatura de las personas, el precio de un producto, los ingresos anuales, etc…
Pero hay otros que no se pueden cuantificar como el color de los ojos, el partido votado en
unas elecciones, el estado civil, el sexo, la nacionalidad, etc… A los primeros se les llama
caracteres cuantitativos (y a las variables que los representan variables cuantitativas) y a
los segundos caracteres cualitativos o categóricos (y variables cualitativas a las variables
que los representan).
Una clasificación que podemos hacer de las variables estadísticas es:
Variables cualitativas: cuando las modalidades posibles son de tipo nominal. Por ejemplo, el
grupo sanguíneo tiene por modalidades A, B, AB, O ; o bien una variable A de color:
Variables cuasicuantitativas: son las que, aunque sus modalidades son de tipo nominal, es
posible establecer un orden entre ellas. Por ejemplo, si estudiamos la llegada a la meta de
un corredor en una competición de 20 participantes, su clasificación C es tal que:
Otro ejemplo de variable cuasicuantitativa es el nivel de dolor, D, que sufre un paciente
ante un tratamiento médico:
2
Probabilidad y Estadística (I.I.)
Tema 1
Variables cuantitativas: son las que tienen por modalidades cantidades numéricas con las
que podemos hacer operaciones aritméticas. Dentro de este tipo de variables podemos
distinguir dos grupos:
Discretas: Toman valores aislados y no pueden tomar ningún valor entre dos
consecutivos fijados, sólo pueden tomar valores enteros (1, 2, 8, -4, etc.). Por
ejemplo: número de hermanos (puede ser 1, 2, 3...., etc, pero nunca podrá ser 3,45);
nº de monedas que una persona lleva en el bolsillo (0, 1, 2, …). Es obvio que cada
valor de la variable es un número natural X ∈ N.
Continuas: Pueden tomar cualquier valor real dentro de un intervalo real. Siempre
pueden tomar valores entre dos consecutivos, por muy próximos que los fijemos.
Por ejemplo, la velocidad de un vehículo puede ser 80,3 km/h, 94,57 km/h; altura de
las personas, medida del tiempo,...etc. En este caso los valores de las variables son
números reales X ∈ ℜ
Ocurre a veces que una variable cuantitativa continua por naturaleza, aparece como
discreta. Este es el caso en que hay limitaciones en lo que concierne a la precisión del
aparato de medida de esa variable, v.g. si medimos la altura en metros de personas con una
regla que ofrece dos decimales de precisión, podemos obtener
En realidad lo que ocurre es que con cada una de esas mediciones expresamos que el
. Por tanto cada
verdadero valor de la misma se encuentra en un intervalo de radio
una de las observaciones de X representa más bien un intervalo que un valor concreto.
Modalidades o valores de las variables: Es cada uno de los posibles valores que puede
tomar una carácter y se representan con las letras minúsculas x1, x2, …, xn. Por ejemplo, el
carácter o variable estadística cualitativa estado civil puede tomar los valores o
modalidades: casado, soltero o viudo. El carácter o variable estadística cuantitativa edad
puede tomar las modalidades o valores: 10 años, 12 años, 15 años, etc…
Una variable estadística puede tomar distintos valores y cada uno de ellos puede aparecer
repetido más de una vez en la muestra que se estudia de la población.
A veces el conjunto de modalidades o valores que puede tomar una variable son muy
numerosas (v.g. cuando una variable es continua) y conviene reducir su número,
agrupándolas en una cantidad inferior de clases. Estas clases deben ser construidas de
modo que sean exhaustivas e incompatibles, es decir, cada modalidad debe pertenecer a
una y sólo una de las clases.
Las variables estadísticas también se pueden clasificar en:
Variables unidimensionales: sólo recogen información sobre una característica (por
ejemplo: edad de los alumnos de una clase).
3
Probabilidad y Estadística (I.I.)
Tema 1
Variables bidimensionales: recogen, a la vez y sobre el mismo individuo, información sobre
dos características de la población, que pueden o no estar relacionadas, (por ejemplo: edad
y altura de los alumnos de una clase).
Variables pluridimensionales: recogen, a la vez y sobre el mismo individuo, información
sobre tres o más características de la población, que pueden o no estar relacionadas (por
ejemplo: edad, altura y peso de los alumnos de una clase).
2.- Organización de los datos. Tablas de frecuencias.
Antes de trabajar con cualquier conjunto de datos obtenidos de un experimento debemos
organizarlos. La tabla de frecuencias es la representación estructurada, en forma de
tabla, de toda la información que se ha recogido sobre la variable que se estudia.
Variable
Frecuencias absolutas
Frecuencias relativas
(Valor)
Simple
Acumulada
Simple
x1
n1
N1= n1
f1 = n1 / N
F1= f1
x2
n2
N2= n1 + n2
f2 = n2 / N
F2= f1 + f2
...
...
...
...
...
xn-1
nn-1
Nn-1= n1 + n2 +
fn-1 = nn-1 / N
...+ nn-1
Fn-1= f1 + f2 +… +
f n-1
xn
nn
Nn = Σn = N
Fn = Σf =1
fn = nn / N
Acumulada
en la cual utilizamos la siguiente notación:
- N = tamaño de la muestra = número total de observaciones
- xi = cada uno de los distintos valores discretos de la variable. Si las modalidades o valores
posibles de la variable en estudio son muy numerosas y están agrupadas en clases c1, c2, c3,
… cn, los valores xi, i = 1, …, n corresponden a las marcas de cada una de las clases (punto
medio del intervalo de clase).
- ni = frecuencia absoluta de xi = número de observaciones en la muestra que toman el valor
xi
- fi = frecuencia relativa de xi = proporción de observaciones en la muestra que toman el
valor xi .
Las siguientes frecuencias acumuladas se calculan sobre variables cuantitativas o cuasi
cuantitativas. No tienen sentido para variables cualitativas. Para su cálculo se requiere que
los valores estén ordenados en orden ascendente.
- Ni = frecuencia absoluta acumulada de xi = número de observaciones en la muestra que
toman valor menor o igual que xi
- Fi = frecuencia relativa acumulada de xi = proporción de observaciones en la muestra que
toman valor menor o igual que xi
Observar que se cumplen las siguientes igualdades:
Veamos un ejemplo:
Medimos la altura de los niños de una clase y obtenemos los siguientes resultados (cm):
4
Probabilidad y Estadística (I.I.)
Tema 1
Alumno
Estatura
Alumno
Estatura
Alumno
Estatura
Alumno 1
1,25
Alumno 11
1,23
Alumno 21
1,21
Alumno 2
1,28
Alumno 12
1,26
Alumno 22
1,29
Alumno 3
1,27
Alumno 13
1,30
Alumno 23
1,26
Alumno 4
1,21
Alumno 14
1,21
Alumno 24
1,22
Alumno 5
1,22
Alumno 15
1,28
Alumno 25
1,28
Alumno 6
1,29
Alumno 16
1,30
Alumno 26
1,27
Alumno 7
1,30
Alumno 17
1,22
Alumno 27
1,26
Alumno 8
1,24
Alumno 18
1,25
Alumno 28
1,23
Alumno 9
1,27
Alumno 19
1,20
Alumno 29
1,22
Alumno 10
1,29
Alumno 20
1,28
Alumno 30
1,21
Si presentamos esta información estructurada obtendríamos la siguiente tabla de
frecuencias:
Variable
Frecuencias absolutas
Frecuencias relativas
(Valor)
Simple
Acumulada
Simple
Acumulada
1,20
1
1
3,3%
3,3%
1,21
4
5
13,3%
16,6%
1,22
4
9
13,3%
30,0%
1,23
2
11
6,6%
36,6%
1,24
1
12
3,3%
40,0%
1,25
2
14
6,6%
46,6%
1,26
3
17
10,0%
56,6%
1,27
3
20
10,0%
66,6%
1,28
4
24
13,3%
80,0%
1,29
3
27
10,0%
90,0%
1,30
3
30
10,0%
100,0%
Si la variable que intentamos estudiar no es discreta (como en el ejemplo anterior), sino
que es continua (puede tomar cualquier valor de la recta real), o bien, siendo discreta, los
valores que toma la variable son muy diversos y cada uno de ellos se repite muy pocas
veces; entonces conviene agruparlos por intervalos, ya que de otra manera obtendríamos
una tabla de frecuencia muy extensa que aportaría muy poco valor a efectos de síntesis.
Veamos un ejemplo.
Supongamos que medimos la estatura de los habitantes de una vivienda y obtenemos los
siguientes resultados (cm):
Habitante
Estatura
Habitante
Estatura
Habitante
Estatura
Habitante 1
1,15
Habitante 11
1,53
Habitante 21
1,21
Habitante 2
1,48
Habitante 12
1,16
Habitante 22
1,59
Habitante 3
1,57
Habitante 13
1,60
Habitante 23
1,86
5
Probabilidad y Estadística (I.I.)
Tema 1
Habitante 4
1,71
Habitante 14
1,81
Habitante 24
1,52
Habitante 5
1,92
Habitante 15
1,98
Habitante 25
1,48
Habitante 6
1,39
Habitante 16
1,20
Habitante 26
1,37
Habitante 7
1,40
Habitante 17
1,42
Habitante 27
1,16
Habitante 8
1,64
Habitante 18
1,45
Habitante 28
1,73
Habitante 9
1,77
Habitante 19
1,20
Habitante 29
1,62
Habitante 10
1,49
Habitante 20
1,98
Habitante 30
1,01
Si presentáramos esta información en una tabla de frecuencia obtendríamos una tabla de
30 líneas (una para cada valor), cada uno de ellos con una frecuencia absoluta de 1 y con una
frecuencia relativa del 3,3%. Esta tabla nos aportaría escasa información.
En lugar de ello, preferimos agrupar los datos por intervalos, con lo que la información
queda más resumida (se pierde, por tanto, algo de información), pero es más manejable e
informativa:
Estatura
Frecuencias absolutas
Frecuencias relativas
Cm
Simple
Acumulada
Simple
Acumulada
1,01 - 1,10
1
1
3,3%
3,3%
1,11 - 1,20
3
4
10,0%
13,3%
1,21 - 1,30
3
7
10,0%
23,3%
1,31 - 1,40
2
9
6,6%
30,0%
1,41 - 1,50
6
15
20,0%
50,0%
1,51 - 1,60
4
19
13,3%
63,3%
1,61 - 1,70
3
22
10,0%
73,3%
1,71 - 1,80
3
25
10,0%
83,3%
1,81 - 1,90
2
27
6,6%
90,0%
1,91 - 2,00
3
30
10,0%
100,0%
El número de tramos en los que se agrupa la información es una decisión que debe tomar el
analista: la regla es que mientras más tramos se utilicen menos información se pierde, pero
puede que menos representativa e informativa sea la tabla. Hemos de elegir un número de
intervalos que equilibre estos dos aspectos y que en cada caso el investigador los
acomodará a la forma y cantidad de información obtenida.
A la diferencia entre el extremo superior e inferior del intervalo se le llama amplitud del
intervalo y puede ser constante o variable. Al punto medio de cada intervalo se le llama
marca de clase. Es el valor que representa la información que contiene el intervalo. Se
entiende que cuando se hace una agrupación en intervalos de clase, se está interesado sólo
en el número de observaciones que caen dentro del mismo y no en la distribución de éstos
en su interior, que siempre se supone homogénea, de ahí la pérdida de información a que
nos referíamos antes.
La división de los intervalos se puede hacer de forma automática o atendiendo a la división
“natural” del recorrido de la variable en estudio. Existen varias reglas automáticas para
determinar el número de intervalos a usar en la construcción de una tabla. Los programas
6
Probabilidad y Estadística (I.I.)
Tema 1
estadísticos de uso habitual, las usan a menudo en su configuración estándar, aunque
también permiten que el usuario decida por su cuenta las características de los intervalos
que desea usar.
Una de las reglas más conocidas fue propuesta por Herbert Sturges y calcula el número k
de intervalos mediante la expresión
k = 1 + log2(n) = 1 + 3.322 * log(n)
donde n es el tamaño de la muestra.
Ejemplo:
Tenemos las siguientes calificaciones obtenidas en un examen por 15 alumnos diferentes
(evaluadas entre 1 y 7 puntos, se aprueba a partir de 4).
1.9, 2.3, 2.5, 3.2, 3.5, 3.7, 3.9, 4.1, 4.3, 4.9, 5.3, 5.5, 5.8, 6.5, 6.8.
Al aplicar la Regla Sturges con n = 15, se obtiene un total de 5 intervalos. Su aplicación
“automática” daría lugar a la siguiente tabla:
Notas
Nº de alumnos
1.8 – 2.8
3
2.8 – 3.8
3
3.8 – 4.8
3
4.8 – 5.8
4
5.8 – 6.8
2
TOTAL
15
Si, por otra parte, se analizan los datos según el punto de vista del usuario, resulta mejor
construir esta otra tabla
Notas
Nº de alumnos
1.0 – 2.0
1
2.0 – 3.0
2
3.0 – 4.0
4
4.0 – 5.0
3
5.0 - 6 .0
3
6.0 - 7.0
2
TOTAL
15
7
Probabilidad y Estadística (I.I.)
Tema 1
Esta segunda tabla se puede interpretar en forma mucho más útil, en particular, porque la
nota cuatro tiene un sentido especial dentro del sistema de calificaciones, ya que es la
menor nota para aprobar. En este caso el resumen estadístico permite determinar más
fácilmente el número de aprobados y suspensos en un examen.
3.- Descripciones gráficas de los datos:
Hemos visto que la tabla estadística resume los datos que disponemos de una población, de
forma que ésta se puede analizar de una manera más sistemática y resumida. Para darnos
cuenta de un sólo vistazo de las características de la población resulta aún más
esclarecedor el uso de gráficos y diagramas, cuya construcción abordamos en esta sección.
La representación gráfica de una distribución de frecuencias depende del tipo de datos que
la constituya.
Datos correspondientes a un carácter cualitativo
La representación gráfica de este tipo de datos está basada en la proporcionalidad de las
áreas a las frecuencias absolutas o relativas. Veremos dos tipos de representaciones:
a. Diagrama de sectores (también llamados de tarta o de queso):
Está representación gráfica consiste en dividir un círculo (360º) en tantos sectores
circulares como modalidades presente el carácter cualitativo, asignando un ángulo central a
cada sector circular proporcional a la frecuencia absoluta ni, ,o relativa fi, consiguiendo de
esta manera un sector con área proporcional también a ni o fi .
El arco de cada porción se calcula usando una regla de tres:
N → 360º ⎫
360 * ni
⎬ xi =
ni → x i ⎭
N
Si se comparan dos poblaciones de diferente tamaño es conveniente usar frecuencias
relativas en la representación para no llevarse a engaños.
Ejemplo:
Así, los ángulos que corresponden a las cuatro modalidades de la tabla adjunta serán:
Número de casos Ángulo(grados)
Rehusaron cirugía
26
234°
Rehusaron radiación
3
27°
Empeoraron
por
una
enfermedad
ajena al cáncer
10
90°
Otras causas
1
9°
Y su representación en un diagrama de sectores será:
8
Probabilidad y Estadística (I.I.)
Tema 1
b. Diagrama de rectángulos:
Esta representación gráfica consiste en construir tantos rectángulos como modalidades
presente el carácter cualitativo en estudio, todos ellos con base de igual amplitud. La altura
se toma igual a la frecuencia absoluta o relativa (según la distribución de frecuencias que
estemos representando), consiguiendo de esta manera rectángulos con áreas
proporcionales a las frecuencias que se quieren representar. Igual que antes, si se
comparan dos poblaciones de diferente tamaño es conveniente usar frecuencias relativas
en la representación ya que en otro caso podrían resultar engañosas.
Ejemplo:
La representación gráfica de la distribución de frecuencias absolutas del ejemplo anterior
será de la forma:
9
Probabilidad y Estadística (I.I.)
Tema 1
c. Pictogramas:
Actualmente, y mucho en los medios masivos de comunicación, se utilizan gráficos para
ilustrar los datos o los resultados de alguna investigación. Regularmente se utilizan dibujos
alusivos al tema de estudio para representar dicha información, y el tamaño o el número o
de estos dibujos dentro de una gráfica queda determinado por la frecuencia
correspondiente. Estos son dos ejemplos:
El de la izquierda representa la población de los Estados Unidos (cada hombrecillo
representa a dos millones de habitantes), el de la derecha representa la masa de tres
planetas de nuestro sistema solar tomando como unidad a la masa de la Tierra (cada
representa la masa de nuestro planeta: Venus tiene masa menor y Neptuno tiene más 17
veces más masa que la Tierra).
Datos correspondientes a un carácter cuantitativo
Para las variables cuantitativas, consideraremos dos tipos de gráficos, en función de que
para realizarlos se usen las frecuencias simples (absolutas o relativas) o las frecuencias
acumuladas:
Diagramas diferenciales:
Son aquellos en los que se representan frecuencias absolutas o relativas. En ellos se
representa el número o porcentaje de elementos que presenta una modalidad dada.
Diagramas integrales:
Son aquellos en los que se representan el número de elementos que presentan una
modalidad inferior o igual a una dada. Se realizan a partir de las frecuencias
acumuladas, lo que da lugar a gráficos crecientes, y es obvio que este tipo de
gráficos no tiene sentido para variables cualitativas.
10
Probabilidad y Estadística (I.I.)
Tema 1
Según hemos visto existen dos tipos de variables cuantitativas: discretas y continuas.
Vemos a continuación las diferentes representaciones gráficas que pueden realizarse para
cada una de ellas así como los nombres específicos que reciben.
Gráficos para variables discretas:
a. Diagrama de barras:
Consiste en levantar, para cada valor de la variable, una barra cuya altura sea su frecuencia
absoluta o relativa, dependiendo de la distribución de frecuencias que estemos
representando.
Ejemplo:
Así, la representación gráfica de la distribución de frecuencias del ejemplo del nº de hijos
será:
b. Diagrama de frecuencias acumuladas:
Esta representación gráfica se corresponde con la de una función constante entre cada dos
valores de la variable a representar, e igual en cada tramo a la frecuencia relativa
acumulada (o absoluta acumulada si se trata de representar una distribución de frecuencias
absolutas) hasta el menor de los dos valores de la variable que construyen el tramo en el
que es constante.
Ejemplo:
También para el ejemplo del Número de Hijos, se tendrá un diagrama de frecuencias
acumuladas como el del siguiente gráfico:
11
Probabilidad y Estadística (I.I.)
Tema 1
Gráficos para variables contínuas:
Al igual que antes, existen también dos tipos de representaciones gráficas dependiendo de
si la distribución de frecuencias en estudio es de datos acumulados o de datos sin acumular.
a. Histograma:
Al ser esta representación una representación por áreas, hay que distinguir si los
intervalos en los que aparecen agrupados los datos son de igual amplitud o no.
Si la amplitud de los intervalos es constante, dicha amplitud puede tomarse como unidad y
al ser
Frecuencia (área) = amplitud del intervalo · altura
la altura correspondiente a cada intervalo puede tomarse igual a la frecuencia.
Si los intervalos tienen diferente amplitud, se toma alguna de ellas como unidad
(generalmente la menor) y se levantan alturas para cada intervalo de forma que la ecuación
anterior se cumpla.
Ejemplo;
En el ejemplo de los Niveles de Colinesterasa, al tener los intervalos igual amplitud, la
representación gráfica será:
12
Probabilidad y Estadística (I.I.)
Tema 1
Ejemplo:
Si tuviéramos una distribución de frecuencias como la siguiente, correspondiente a
puntuaciones obtenidas en un test psicológico y en la que los intervalos son de diferente
amplitud
Ii
ni
fi
0-20
8
8/70
20-30
9
9/70
30-40
12
12/70
40-45
10
10/70
45-50
9
9/70
50-60
10
10/70
60-80
8
8/70
80-100
4
4/70
?ni= 70
?fi=1
Tomando la amplitud 5 como unidad, deberemos levantar para el primer intervalo una altura
de 2/70 para que el área sea la frecuencia relativa 8/70. Procediendo de la misma manera
con el resto de los intervalos obtendríamos como representación gráfica la figura
siguiente:
13
Probabilidad y Estadística (I.I.)
Tema 1
Obsérvese que la suma de todas las áreas debe ser 1, tanto si los intervalos de la
distribución de frecuencias relativas son o no de igual amplitud.
b. Polígono de frecuencias acumuladas:
Se utiliza para representar distribuciones de frecuencias (relativas o absolutas)
acumuladas. Consiste en representar la gráfica de una función que una por segmentos las
alturas correspondientes a los extremos superiores de cada intervalo, tengan o no todos
igual amplitud, siendo dicha altura igual a la frecuencia acumulada, dando una altura cero al
extremo inferior del primer intervalo y siendo constante a partir del extremo superior del
último.
Ejemplo:
Así, para el ejemplo de los Niveles de Colinesterasa, el polígono de frecuencias relativas
acumuladas tendrá una representación gráfica de la forma:
14
Probabilidad y Estadística (I.I.)
Tema 1
3.- Descripciones numéricas de una variable:
Al analizar los datos contenidos en una muestra, un paso importante es presentar diversos
resúmenes numéricos (estadísticas) de la información que contiene. De los muchos aspectos
de los datos, que intentamos representar numéricamente con estadísticas, tres son los más
importantes:
su posición,
su dispersión,
su forma.
Medidas de posición
Las medidas de posición nos facilitan información sobre la serie de datos que estamos
analizando. Estas medidas permiten conocer diversas características de esta serie de
datos. Son de dos tipos:
a) Medidas de posición central
Informan sobre los valores medios de la serie de datos. Las principales medidas de posición
central son las que definiremos a continuación. Para ver ejemplos de cálculo, utilizaremos la
tabla de distribución de frecuencias con los datos de la estatura de los alumnos que ya
hemos visto anteriormente.
Variable
Frecuencias absolutas
Frecuencias relativas
(Valor)
Simple
Acumulada
Simple
Acumulada
1,20
1
1
3,3%
3,3%
1,21
4
5
13,3%
16,6%
1,22
4
9
13,3%
30,0%
1,23
2
11
6,6%
36,6%
1,24
1
12
3,3%
40,0%
1,25
2
14
6,6%
46,6%
1,26
3
17
10,0%
56,6%
1,27
3
20
10,0%
66,6%
1,28
4
24
13,3%
80,0%
1,29
3
27
10,0%
90,0%
1,30
3
30
10,0%
100,0%
1.- Media: es el valor medio ponderado de la serie de datos. Se pueden calcular diversos
tipos de media, siendo las más utilizadas:
a) Media aritmética: La media aritmética de una variable estadística es la suma
de todos sus posibles valores, ponderada por las frecuencias de los mismos. Es
decir, si la tabla de valores de una variable X es
15
Probabilidad y Estadística (I.I.)
Tema 1
X ni fi
x1 n1 f1
... ... ...
xk nk fk
la media es el valor que podemos escribir de las siguientes formas equivalentes:
Si los datos no están ordenados en una tabla, entonces
Observación: Hemos supuesto implícitamente en la definición de media que
tratábamos con una variable X discreta. Si la variable es continua tendremos que
cambiar los valores de xi por las marcas de clase correspondientes. En general, la
media aritmética obtenida a partir de las marcas de clase ci, diferirá de la media
obtenida con los valores reales, xi. Es decir, habrá una perdida de precisión que
será tanto mayor cuanto mayor sea la diferencia entre los valores reales y las
marcas de clase, o sea, cuanto mayores sean las longitudes ai, de los intervalos.
A pesar de las buenas propiedades que ofrece la media, ésta posee algunos
inconvenientes:
•
•
•
•
Uno de ellos es que es muy sensible a los valores extremos de la variable: ya
que todas las observaciones intervienen en el cálculo de la media, la
aparición de una observación extrema, hará que la media se desplace en esa
dirección. En consecuencia,
no es recomendable usar la media como medida central en las distribuciones
muy asimétricas;
Depende de la división en intervalos en el caso de variables continuas.
Si consideramos una variable discreta, por ejemplo, el número de hijos en
las familias de Málaga el valor de la media puede no pertenecer al conjunto
de valores de la variable; Por ejemplo
hijos.
Ejemplo:
x=
(1,20 *1) + (1,21 * 4) + (1,22 * 4) + (1,23 * 2) + ......... + (1,29 * 3) + (1,30 * 3)
= 1.253
30
Por lo tanto, la estatura media de este grupo de alumnos es de 1,253 cm.
16
Probabilidad y Estadística (I.I.)
Tema 1
b) Media geométrica: La media geométrica
los valores de la variable:
, es la media de los logaritmos de
Luego
Si los datos están agrupados en una tabla, entonces se tiene:
Se eleva cada valor al número de veces que se ha repetido. Se multiplican todo
estos resultados y al producto final se le calcula la raíz "n" (siendo "n" el total de
datos de la muestra).
Ejemplo:
(
X = 1.201 *1.12 4 * 1.22 4 * ... *1.29 3 *1.30 3
)
1
30
= 1.253
En este ejemplo la media aritmética y la media geométrica coinciden, pero no tiene siempre
por qué ser así.
Según el tipo de datos que se analice será más apropiado utilizar la media aritmética o la
media geométrica. La media geométrica se suele utilizar en series de datos como tipos de
interés anuales, inflación, etc., donde el valor de cada año tiene un efecto multiplicativo
sobre el de los años anteriores. En todo caso, la media aritmética es la medida de posición
central más utilizada.
2.- Mediana: es el valor de la serie de datos que se sitúa justamente en el centro de la
muestra (un 50% de valores son inferiores y otro 50% son superiores). Es una medida de
posición central que resulta ser un caso particular de percentil (es el percentil 50).
Entre las propiedades de la mediana, vamos a destacar las siguientes:
•
•
•
Como medida descriptiva, tiene la ventaja de no estar afectada por las
observaciones extremas, ya que no depende de los valores que toma la variable, sino
del orden de las mismas. Por ello es adecuado su uso en distribuciones asimétricas.
Es de cálculo rápido y de interpretación sencilla.
A diferencia de la media, la mediana de una variable discreta es siempre un valor de
la variable que estudiamos (ej. La mediana de una variable número de hijos toma
siempre valores enteros).
Así, si en la siguiente distribución de frecuencias,
xi
ni
17
Ni
Probabilidad y Estadística (I.I.)
Tema 1
0
3
3
1
2
5
2
2
7
7
ordenamos los valores en orden creciente,
que cumple la definición de mediana.
0 0 0 1 1 2 2
el 1 será el valor
Datos sin agrupar: Para datos sin agrupar, la Mediana será la primera observación que deja debajo de sí
estrictamente a las [N/2] observaciones menores, x[N/2] + 1.
Ejemplo:
La distribución de frecuencias acumuladas del ejemplo del número de hijos era
Nº de hijos(xi)
0
1
2
3
4
Frecuencias Acumuladas(Ni)
5
11
19
23
25
y como es n/2=12'5 y en consecuencia 11 < 12'5 < 19 la mediana será Me= 2.
Datos Agrupados: Las gráficas siguientes, correspondientes a polígonos de frecuencias absolutas
acumuladas, nos plantea de nuevo dos situaciones diferentes a considerar:
El más sencillo, el de la derecha, en el que existe una frecuencia absoluta acumulada Nj tal que n/2 = Nj, la
mediana es Me = xj.
Si la situación es como la que se representa en la figura de la izquierda, en la que Nj-l < n/2 < Nj entonces, la
mediana, está en el intervalo [xj-1, xj), es decir entre xj-1 y xj, tomándose en ese caso, por razonamientos de
proporcionalidad, como mediana el valor
siendo cj la amplitud del intervalo [xj-1, xj).
Ejemplo:
La distribución de frecuencias del ejemplo de los niveles de colinesterasa es:
Intervalo
Ii
7'5-9
18
9-10'5
10'5-12
12-13'5
13'5-15
15-16'5
Probabilidad y Estadística (I.I.)
Tema 1
Frecuencia
ni
3
8
10
10
1
2
Frecuencia Acumulada
Ni
3
11
21
31
32
34
Al ser n/2 = 17 y estar 11 < 17 < 21 la mediana estará en el intervalo [10'5 , 12), y aplicando la fórmula
anterior, será
Ejemplo:
La mediana de esta muestra es 1,26 cm, ya que por debajo está el 50% de los valores y por
arriba el otro 50%. Esto se puede ver al analizar la columna de frecuencias relativas
acumuladas.
En este ejemplo, como el valor 1,26 se repite en 3 ocasiones, la mediana se situaría
exactamente entre el primer y el segundo valor de este grupo, ya que entre estos dos
valores se encuentra la división entre el 50% inferior y el 50% superior.
3.- Moda: es el valor que más se repite en la muestra.
Ejemplo:
Hay 3 valores que se repiten en 4 ocasiones: el 1,21, el 1,22 y el 1,28, por lo tanto esta serie
cuenta con 3 modas.
b) Medidas de posición no centrales
Informan de como se distribuye el resto de los valores de la serie. Permiten conocer otros
puntos característicos de la distribución que no son los valores centrales. Entre otros
indicadores, se suelen utilizar una serie de valores que dividen la muestra en tramos
iguales. Vamos a utilizar los mismos datos anteriores para calcular los cuartiles. Los deciles
y percentiles se calculan de igual manera, aunque harían falta distribuciones con mayor
número de datos.
Cuartiles: son 3 valores que distribuyen la serie de datos, ordenada de forma creciente, en
cuatro tramos iguales, en los que cada uno de ellos concentra el 25% de los resultados.
1º cuartil: es el valor 1,22 cm, ya que por debajo suyo se sitúa el 25% de la
frecuencia (tal como se puede ver en la columna de la frecuencia relativa
acumulada).
2º cuartil: es el valor 1,26 cm, ya que entre este valor y el 1º cuartil se sitúa otro
25% de la frecuencia.
19
Probabilidad y Estadística (I.I.)
Tema 1
3º cuartil: es el valor 1,28 cm, ya que entre este valor y el 2º cuartil se sitúa otro
25% de la frecuencia. Además, por encima suyo queda el restante 25% de la
frecuencia.
Atención: cuando un cuartil recae en un valor que se ha repetido más de una vez
(como ocurre en el ejemplo en los tres cuartiles) la medida de posición no central
sería realmente una de las repeticiones.
Deciles: son 9 valores que distribuyen la serie de datos, ordenada de forma creciente, en
diez tramos iguales, en los que cada uno de ellos concentra el 10% de los resultados.
Percentiles: son 99 valores que distribuyen la serie de datos, ordenada de forma creciente,
en cien tramos iguales, en los que cada uno de ellos concentra el 1% de los resultados. O
más formalmente:
Para una variable discreta, se define el percentil de orden k, como la observación, Pk, que
deja por debajo de si el k% de la población. Esta definición nos recuerda a la mediana, pues
como consecuencia de la definición es evidente que Med = P50
En el caso de una variable continua, el intervalo donde se encuentra Pk ∈ (li-1, li], se calcula
buscando el que deja debajo de si al k% de las observaciones. Dentro de él, Pk se obtiene
según la relación:
Ejemplo (variable discreta)
Dada la siguiente distribución en el número de hijos de cien familias, calcular sus cuartiles.
xi ni
Ni
0 14
14
1
10
24
2 15
39
3 26
65
4 20
85
5 15
100
n = 100
Solución:
1. Primer cuartil:
2. Segundo cuartil:
20
Probabilidad y Estadística (I.I.)
Tema 1
3. Tercer cuartil:
Ejemplo (variable continua)
Calcular los cuartiles en la siguiente distribución de una variable continua:
li-1 - li
ni
Ni
0-1
10
10
1-2
12
22
2-3
12
34
3-4
10
44
4-5
7
51
n = 51
Solución:
1. Primer cuartil:
2. Segundo cuartil:
3. Tercer cuartil :
Comentario.
No hay sólo un criterio para calcular percentiles. De hecho, importantes paquetes estadísticos para ordenador
devuelven resultados diferentes debido a que usan criterios similares, pero no iguales. No debe causar sorpresa,
entonces, encontrar estas diferencias originadas por la falta de un procedimiento universalmente aceptado.
Esta técnica explicada anteriormente sirve para calcular los deciles y la mediana igualmente.
Medidas de dispersión
Estudia la distribución de los valores de la serie, analizando si estos se encuentran más o
menos concentrados, o más o menos dispersos. Supongamos que tenemos los tres conjuntos
21
Probabilidad y Estadística (I.I.)
Tema 1
de datos indicados. Si calculamos la media, la mediana y la moda para cada uno de ellos
tenemos lo siguiente:
Conjunto 1: 10 20 30 40 50 media = 30, mediana = 30, moda = no existe
Conjunto 2: 10 30 30 30 50 media = 30, mediana = 30, moda = 30
Conjunto 3: 30 30 30 30 30 media = 30, mediana = 30, moda = 30
A la vista de estas medidas podríamos llegar a la conclusión equivocada de que los tres
conjuntos de datos son muy similares. Sin embargo, si dibujamos los histogramas:
vemos claramente la diferencia entre los tres conjuntos: en el primero, la dispersión de los
datos es total, en el tercero es la máxima concentración y el segundo es una situación
intermedia.
Existen diversas medidas de dispersión, entre las más utilizadas podemos destacar las
siguientes. Para ver ejemplos de cálculos volveremos a utilizar la tabla de la estatura de los
alumnos de una clase usada anteriormente.
1.- Rango: mide la amplitud de los valores de la muestra y se calcula por diferencia entre
el valor más elevado y el valor más bajo. Muchas veces esta medida no es suficiente. En los
conjuntos 1 y 2 anteriores el rango resulta ser el mismo: 50 – 40 = 10.
Ejemplo: la diferencia entre el mayor valor de la muestra (1,30) y el menor valor (1,20), y
por tanto su rango es 10 cm.
2.- Varianza: Mide la distancia existente entre los valores de la serie y la media. Se
calcula como sumatorio de las diferencias al cuadrado entre cada valor y la media,
multiplicadas por el número de veces que se ha repetido cada valor. El sumatorio obtenido
se divide por el tamaño de la muestra.
22
Probabilidad y Estadística (I.I.)
Tema 1
La varianza siempre será mayor o igual que cero, y sólo será cero si todas las observaciones
son idénticas (y por tanto la media es igual a cualquiera de las observaciones). Mientras más
se aproxima a cero, más concentrados están los valores de la serie alrededor de la media.
Por el contrario, mientras mayor sea la varianza, más dispersos están. Otra forma de
expresar la varianza es la siguiente. Tomemos el numerador:
Si la varianza en lugar de aparecer dividida por n, aparece dividida por n-1, la llamamos
cuasivarianza.
Tanto la varianza como la cuasivarianza se expresan en el cuadrado de las unidades de la
variable observada.
Ejemplo: recordemos que la media de esta muestra es 1,253. Luego, aplicamos la fórmula:
Por lo tanto, la varianza es 0,0010
3.- Desviación típica o desviación estándar: Se calcula como raíz cuadrada de la varianza.
A la raíz cuadrada de la cuasivarianza se la conoce como cuasidesviación típica. La
desviación típica y la cuasidesviación típica se miden en las mismas unidades que la variable
observada.
Ejemplo:
Luego:
4.- Coeficiente de variación de Pearson: se calcula como cociente entre la desviación
típica y la media de la muestra.
Cv =
σ
x
Ejemplo:
Cv =
0.0320
= 0.0255
1.253
23
Probabilidad y Estadística (I.I.)
Tema 1
El interés del coeficiente de variación es que al ser un porcentaje permite comparar el
nivel de dispersión de dos muestras. Esto no ocurre con la desviación típica, ya que viene
expresada en las mismas unidades que los datos de la serie.
Por ejemplo, para comparar el nivel de dispersión de una serie de datos de la altura de los
alumnos de una clase y otra serie con el peso de dichos alumnos, no se puede utilizar las
desviaciones típicas (una viene vienes expresada en cm y la otra en kg). En cambio, sus
coeficientes de variación son ambos porcentajes, por lo que sí se pueden comparar.
Medidas de forma
Las medidas de forma permiten conocer que forma tiene la curva que representa la serie
de datos de la muestra. En concreto, podemos estudiar las siguientes características de la
curva:
a) Asimetría
El concepto de asimetría se refiere a si la curva que forman los valores de la serie presenta
la misma forma a izquierda y derecha de un valor central, considerado el centro de simetría
(media aritmética)
Para medir el nivel de asimetría se utiliza el llamado Coeficiente de Asimetría de Fisher,
que viene definido:
Los resultados pueden ser los siguientes:
g1 = 0 (distribución simétrica; existe la misma concentración de valores a la derecha y a la
izquierda de la media)
g1 > 0 (distribución asimétrica positiva; existe mayor concentración de valores a la
derecha de la media que a su izquierda)
g1 < 0 (distribución asimétrica negativa; existe mayor concentración de valores a la
izquierda de la media que a su derecha)
Ejemplo: Vamos a calcular el Coeficiente de Asimetría de Fisher de la serie de datos
referidos a la estatura de un grupo de alumnos que ya hemos utilizado. Recordemos que la
media de esta muestra es 1,253
24
Probabilidad y Estadística (I.I.)
Tema 1
Σ(xi - xm)3 *ni
Σ(xi - xm)2 *ni
0,000110
0,030467
⎛ 1 ⎞
⎜ ⎟0.000110
⎝ 30 ⎠
Luego: g 1 =
= −0.1586
⎛ 1 ⎞3
2
⎜ ⎟ 0.030467
⎝ 30 ⎠
Por lo tanto el Coeficiente de Fisher de Simetría de esta muestra es -0,1586, lo que
quiere decir que presenta una distribución asimétrica negativa (se concentran más valores
a la izquierda de la media que a su derecha).
b) Curtosis
El Coeficiente de Curtosis analiza el grado de concentración que presentan los valores
alrededor de la zona central de la distribución o cuan aplastada o apuntada es la forma de
la distribución respecto de la distribución normal.
Se definen 3 tipos de distribuciones según su grado de curtosis:
Distribución mesocúrtica: presenta un grado de concentración medio alrededor de los
valores centrales de la variable (el mismo que presenta una distribución normal).
Distribución leptocúrtica: presenta un elevado grado de concentración alrededor de los
valores centrales de la variable.
Distribución platicúrtica: presenta un reducido grado de concentración alrededor de los
valores centrales de la variable.
El Coeficiente de Curtosis viene definido por la siguiente fórmula:
Los resultados pueden ser los siguientes:
g2 = 0 (distribución mesocúrtica).
g2 > 0 (distribución leptocúrtica).
25
Probabilidad y Estadística (I.I.)
Tema 1
g2 < 0 (distribución platicúrtica).
Ejemplo: Vamos a calcular el Coeficiente de Curtosis de la serie de datos referidos a la
estatura de un grupo de alumnos:
Recordemos que la media de esta muestra es 1,253
Σ(xi - xm)4 *ni
Σ(xi - xm)2 *ni
0,00004967
0,03046667
⎛ 1 ⎞
⎜ ⎟0.00004967
⎝ 30 ⎠
Luego: g 2 =
− 3 = −1.39
⎛ 1 ⎞
2
⎜ ⎟0.03046667
⎝ 30 ⎠
Por lo tanto, el Coeficiente de Curtosis de esta muestra es -1,39, lo que quiere decir que
se trata de una distribución platicúrtica, es decir, con una reducida concentración
alrededor de los valores centrales de la distribución.
26
Descargar