Estadística Descriptiva Univariante

Anuncio
4
Estadı́stica
Tema 1: Estadı́stica Descriptiva.
Definición 1 Población es cualquier conjunto de datos, objetivo de nuestro interés que caracteriza
un fenómeno que nos interesa.
Definición 2 Muestra es un subconjunto de una población determinada. Interesan aquellas muestras
que representan fielmente a la población.
En ocasiones se utilizan las palabras población y muestra para representar los objetos que se
someten a medición.
Definición 3 La Estadı́stica Descriptiva es la rama de la Estadı́stica dedicada a la recogida, recopilación y reducción de unos datos a unas pocas medidas descriptivas y gráficos, permitiendo conocer
las caracterı́sticas existentes en la población o conjunto de datos.
Definición 4 La Inferencia Estadı́stica tiene por objeto obtener conocimientos sobre ciertas poblaciones a partir de las observaciones relativas a una muestra. Su instrumento matemático es el Cálculo
de Probabilidades.
1
Variables estadı́sticas.
Se va a trabajar con conjuntos de datos asociados al carácter o caracterı́stica objeto de estudio, que
denominaremos variable estadı́stica y se representará por una letra mayúscula: X, Y, Z,. . . A partir
de ahora nos referiremos a los conjuntos de datos como variables.
Como en esta parte se va a tratar de describir y analizar estas variables, debemos distinguir los
distintos tipos de variables que hay, lo cual nos va a permitir utilizar las herramientas estadı́sticas
apropiadas.
1.1
Tipos de variables.
Las variables estadı́sticas pueden ser de dos tipos:
1. Variables cualitativas o atributos: describen cualidades y no toman valores numéricos. Ejemplos: Provincias españolas, paı́ses de la U. E., nivel de estudios, meses del año, clasificar una
pieza como aceptable o defectuosa, . . .
2. Variables cuantitativas: toman valores numéricos.
A su vez pueden ser:
5
Estadı́stica
• Discretas: Sólo toman un número finito o infinito numerable de valores distintos (generalmente números naturales o enteros). Ejemplos: número de compras de un producto en
un mes, el año de fabricación de un vehı́culo, número de entradas de cine vendidas en un
intervalo de tiempo, resultado de lanzar un dado, número de hijos,. . .
• Continuas: Toman valores en un intervalo de IR. Generalmente corresponden a medir
magnitudes continuas, por ejemplo, peso, altura, temperatura, intensidad de corriente,
el tiempo entre dos llamadas telefónicas, el tiempo de servicio o de operación de una
máquina, etc. Una caracterı́stica esencial de este tipo de variables es que sus valores nunca
son observables con exactitud, sino que dependen (las observaciones) de la precisión del
instrumento de medida.
Se va a suponer que el orden en que se recogen los datos es irrelevante. Cuando los datos se
observan con una pauta fija (cada hora, semana, etc.), constituyen una serie temporal, y su análisis
requiere otras técnicas especiales, que tengan en cuenta que el orden de los datos influye.
A los distintos resultados que pueden presentar las variables estadı́sticas los denominaremos
modalidades. Ejemplo: Si la caracterı́stica es el gusto, puede presentar cuatro modalidades: dulce,
amargo, salado y ácido. Si es el sexo: hombre y mujer.
1.2
Presentación de datos.
La forma más elemental de presentar los datos es por medio de una matriz en la que aparecen en
la primera columna los individuos, representados de alguna forma (en muchas ocasiones se suele
prescindir de esta columna) y en las restantes columnas las observaciones de las distintas variables
(o caracterı́sticas) en estudio para cada uno de los individuos. Se la conoce como matriz de datos.
(Presentación tı́pica de hoja de cáculo)
Ejemplo:
Individuo
Individuo
Individuo
Individuo
Individuo
..
.
1
2
3
4
5
edad
21
19
19
18
20
..
.
especialidad
Estructuras
Construcción de Maqu.
Construcción de Maqu.
Estructuras
Construcción de Maqu.
..
.
sexo
mujer
hombre
hombre
mujer
hombre
..
.
Normalmente se reserva el nombre de matriz de datos a la obtenida de la anterior, eliminando la
primera columna.
Cuando se estudia una sola variable, otra forma usual de presentar los datos es por medio de una
matriz en la que cada valor corresponde a un individuo de la población.
Ejemplo: Edades de 25 individuos encuestados:
12
32
23
24
17
17
23
15
11
39
16
23
16
34
19
23
36
24
37
31
39
23
17
24
16
6
Estadı́stica
1.3
Agrupación en clases.
En ocasiones, y con objeto de facilitar la toma o presentación de datos cuantitativos, estos se agrupan
en intervalos o clases. Por ejemplo, es más sencillo anotar cuántos individuos hay en una muestra
con una estatura entre 1.70 y 1.80, que anotar exactamente la estatura de todos.
No obstante, siempre se producirá una pérdida de información al agrupar los datos en intervalos,
y dado que el uso de ordenadores y programas de cálculo suelen ser corriente, se suelen tratar los
datos sin agrupar salvo para algunos resúmenes gráficos, cuando el número de valores distintos que
toma una variable discreta sea grande, o cuando ésta sea continua.
La primera cuestión que se nos plantea es elegir el número de clases y la longitud de cada clase.
Si es posible, es recomendable que todas las clases tengan la misma longitud. En cuanto al número
de clases, en general, se recomienda utilizar entre 5 y 20 ó 25 clases, de forma que ninguna contenga
menos de 5 datos.
Existen distintos criterios, para determinar un número adecuado de clases, todos ellos en función
del número de datos. Nosotros utilizaremos para obtener una aproximación al número de clases k a
utilizar o bien la fórmula de Sturges donde k es el entero más próximo a 1 + 10
log10 N siendo N el
3
√
número de datos o individuos o bien k el entero más próximo a N .
En general, el número de clases debe ser suficientemente grande para que no se pierda excesiva
información, pero no tanto que se pierda la simplicidad de la representación.
Las clases o intervalos en que se agrupen los datos deben cumplir:
• Ser disjuntas: un dato no puede estar en dos clases a la vez.
• Ser exhaustivas: es decir, abarcar todo el rango de posibles valores de la variable.
• Estar ordenadas de menor a mayor.
En general, la forma de las clases que utilizaremos será:
(L0 , L1 ], (L1 , L2 ], . . . (Lk−1 , Lk ]
Elementos asociados a las clases o intervalos:
• Lı́mites: Li−1 , Li (lı́mite inferior y lı́mite superior, respectivamente).
• Amplitud de la clase: bi = Li − Li−1 .
• Marca de la clase: ci =
Li +Li−1
2
Observación 1 La marca de clase se considera el valor representativo de todos los valores de su
intervalo. Por ello, deben elegirse los intervalos de forma que la marca sı́ sea un valor representativo.
Puede ocurrir que la marca de clase tenga más cifras decimales que los datos (es decir, que no
corresponda a un valor realmente observable) y lo mismo puede ocurrir con los lı́mites de clase.
A veces, el primer y último intervalo, tienen respectivamente, el extremo inferior y superior
indeterminados, con objeto de incluir observaciones poco frecuentes.
Ejemplo de agrupación en clases: distancia de frenado en metros, en automóviles conducidos sobre una pista húmeda (mismo automóvil y velocidad en todos los casos).
7
Estadı́stica
35.8
39.2
35.3
40.1
30.5
41.9
37.3
36.1
35.9
38.6
35.6
37.0
41.6
39.2
38.0
39.5
35.9
37.3
36.7
38.3
Agrupación en clases:
Clases N o de datos
(30,32]
1
(32,34]
0
5
(34,36]
(36,38]
6
(38,40]
5
3
(40,42]
En este caso el número de clases es 5, los lı́mites son 30, 32, 34, 36, 38, 40 y 42; la amplitud es
en todas las clases 2.4 y las marcas son, respectivamente: 31, 33, 35, 37, 39 y 41.
Observación 2 Una agrupación más razonable que la equiespaciada que hemos dado, para estos
datos, serı́a agrupar en las clases: (30, 36], (36, 38], (38, 40], (40, 42] ya que se tendrı́a un reparto
más uniforme del número de datos en cada intervalo.
2
Distribuciones univariantes.
A partir de ahora, vamos a considerar que tenemos datos correspondientes a una sola variable
estadı́stica, que denominaremos X. (Se corresponderá a tratar con una de las columnas de la matriz
de datos ya vista).
Definición 5 Elementos que utilizaremos para resumir la información que ofrecen nuestros datos:
• Se denomina frecuencia total al número total de individuos observados o número total de datos,
N.
• Se denomina frecuencia absoluta de la modalidad Mi (valor xi o intervalo Ii ), al número de
individuos o número de datos que presentan esta modalidad, ni ,.
• Se denomina frecuencia relativa de la modalidad Mi (valor xi o intervalo Ii ), al cociente fi =
ni
.
N
Si la variable considerada es cuantitativa, se pueden definir además:
• Se denomina frecuencia absoluta acumulada hasta la modalidad Mi , (valor xi o intervalo Ii ) al
número de individuos o número de datos, Ni , que presentan una modalidad menor o igual que
ésta; se define como Ni = n1 + n2 + · · · + ni = ij=1 nj .
• Se denomina frecuencia relativa acumulada hasta la modalidad Mi , (valor xi o intervalo Ii ) al
cociente: Fi = NNi o Fi = f1 + f2 + · · · + fi = ij=1 fj .
8
Estadı́stica
Definición 6 Se dice que se ha dado la distribución de frecuencias (absolutas, relativas, absolutas acumuladas o relativas acumuladas) de la variable estadı́stica X si se dan las distintas modalidades de la variable y las correspondientes frecuencias (absolutas, relativas, absolutas acumuladas o relativas acumuladas, respectivamente) de cada modalidad. En ese caso, hablaremos de
datos agrupados por frecuencias.
La forma de dar estos valores es por medio de tablas, en las que aparecen una primera columna con
las distintas modalidades de la variable (ordenadas de menor a mayor, si la variable es cuantitativa)
y columnas correspondientes a las frecuencias absolutas, relativas, absolutas acumuladas y relativas
acumuladas (estas dos últimas cuando tengan sentido).
Mi
M1
M2
..
.
ni
n1
n2
..
.
fi
f1
f2
..
.
Ni
N1
N2
..
.
Fi
F1
F2
..
.
Mk nk fk Nk = N Fk = 1
Propiedades 1 Propiedades de las tablas:
-
k
i=1
k
i=1
ni = N
fi = 1
- Nk = N.
- Fk = 1
- Las frecuencias relativas y las frecuencias relativas acumuladas pueden interpretarse como porcentajes (tantos por ciento) de la siguiente forma:
. fi 100% es el tanto por ciento de datos o individuos que están en la modalidad Mi .
. Fi 100% es el tanto por ciento de datos o individuos que están en las modalidades M1 , M2 , . . . Mi .
Tablas para datos agrupados:
Cuando los datos aparecen agrupados por clases, se habla de frecuencias absolutas, relativas,
absolutas acumuladas y relativas acumuladas de cada clase. En este caso, las tablas de frecuencias
tienen la forma:
En el ejemplo anterior:
(Li−1 − Li ]
(L0 , L1 ]
(L1 , L2 ]
..
.
ci
c1
c2
..
.
(Lk−1 , Lk ]
ck nk fk Nk Fk
ni
n1
n2
..
.
fi
f1
f2
..
.
Ni Fi
N1 F1
N2 F2
..
.
9
Estadı́stica
(Li−1 − Li ]
(30, 32]
(32, 34]
(34, 36]
(36, 38]
(38, 40]
(40, 42]
ci ni
31 1
33 0
35 5
37 6
39 5
41 3
fi
0.05
0.00
0.25
0.30
0.25
0.15
Ni
1
1
6
12
17
20
Fi
0.05
0.05
0.30
0.60
0.85
1.00
Ejemplo 2:
Número de unidades de ordenador vendidas en los 12 últimos meses:
(Li−1 − Li ]
(10, 15]
(15, 20]
(20, 30]
ci
12.5
17.5
25.0
ni
3
6
3
fi
Ni
0.25 3
0.50 9
0.25 12
Fi
0.25
0.75
1.00
Se observa cómo en este caso, la marca de clase puede no ser un valor posible de la variable, pero
conserva su significado de valor representativo de todos los datos del intervalo.
Observación 3 Al escribir una tabla es conveniente tener en cuenta los siguientes convenios para
evitar ambigüedades:
. Indicar la unidad de medida de cada variable.
. Indicar con un 0 los valores con frecuencia 0. (Evitar las rayas, cuya interpretación es de falta
de información sobre la frecuencia del valor).
. Escribir todos los datos con igual número de decimales.
3
Representación gráfica de variables estadı́sticas unidimensionales.
La representación gráfica de una distribución de frecuencias va a depender del tipo de variable
considerada.
3.1
Representación gráfica de variables cualitativas y de variables cuantitativas con pocos valores distintos.
Para ilustrar las principales representaciones gráficas, vamos a utilizar los datos del tipo de vehı́culos:
TIPO
deportivo
furgoneta
gran turismo
monovolumen
pequeño
tamaño medio
frecuencias
14
9
11
16
21
11
Estadı́stica
10
• Diagrama de barras.
Esta representación gráfica consiste en construir tantos rectángulos como modalidades presente
la variable cualitativa en estudio, todos ellos con base de igual amplitud (la que sea) y la altura
se toma proporcional a la frecuencia absoluta o relativa (según cual estemos representando),
obteniendo rectángulos con áreas proporcionales a las frecuencias que se quieran representar.
• Diagrama de Pareto.
Es un diagrama de rectángulos en el que los rectángulos se presentan en orden decreciente de
altura. Se utilizan para variables cualitativas y son muy frecuentes en control de calidad y
procesos, donde las alturas de los rectángulos a menudo representan frecuencias de problemas
en el proceso de producción. Como los rectángulos están dispuestos en orden decreciente por
altura, resulta fácil identificar las áreas con el mayor número de problemas.
• Diagrama de sectores.
Esta representación consiste en dividir un cı́rculo en tantos sectores circulares como modalidades
presente la variable cualitativa, donde cada sector circular tendrá un área proporcional a la
frecuencia absoluta (o relativa).
Estadı́stica
3.2
11
Representación gráfica de variables cuantitativas que toman muchos
valores distintos.
• Histograma.
Es la representación gráfica más frecuente y se realiza a partir de una grupación de los datos
en intervalos. Consiste en un conjunto de rectángulos construidos de la siguiente forma:
-Tiene como eje horizontal una escala de valores de la variable que se mide. Se marcan los
lı́mites de las clases sobre la escala.
- Como eje vertical, tiene una escala de alturas.
Sobre cada clase se eleva un rectángulo tal que su área Ai = base · altura = (Li − Li−1 )hi sea
proporcional a la frecuencia absoluta (o relativa) de la clase, es decir, λni ; entonces, despejando
λni
.
tenemos que la altura es hi = Li −L
i−1
Ejemplo:
En el ejemplo de la distancia de frenado:
Ejemplo:
El siguiente ejemplo corresponde a clases no equiespaciadas:
12
Estadı́stica
Si la distribución de la variable es:
(Li−1 − Li ] ci ni
(1.5, 3.5]
2.5 3
(3.5, 6.5]
5
4
un histograma correcto tendrı́a un primer rectángulo de altura 32 λ y un segundo rectángulo
de altura 43 λ, dónde λ es un número real positivo cualquiera. Por ejemplo, para λ = 6, el
histograma serı́a:
9
8
1.5
3.5
6.5
• Polı́gono de frecuencias acumuladas.
Se construye de la siguiente forma:
-Tiene como eje horizontal una escala de valores de la variable que se mide. Sobre él se marcan
los lı́mites de las clases.
- La escala vertical es una escala de frecuencias acumuladas (absolutas o relativas).
En este plano, partiendo desde el punto sobre el eje OX que corresponde al lı́mite inferior del
primer intervalo, se sitúan los pares formados por el lı́mite superior de clase y la correspondiente
frecuencia acumulada de la clase y los puntos se unen por medio de segmentos, dando lugar a una
gráfica creciente, que termina en una meseta de altura N, si se utilizan frecuencias acumuladas
absolutas, o altura 100 si se utilizan porcentajes acumulados. Esta gráfica se conoce como ojiva
de frecuencias.
13
Estadı́stica
• Diagrama de tallo-hojas. (Stem and leaf)
Se trata de un procedimiento semi-gráfico de presentar la información de variables cuantitativas,
útil cuando el número de datos es pequeño (menor que 50), aunque con los ordenadores es
posible utilizarlo con más datos.
Los pasos para su construcción son:
1. Expresar los datos en unidades convenientes, redondearlos a dos o tres cifras significativas
y ordenarlos de menor a mayor.
2. Colocarlos en una tabla con dos columnas separadas por una lı́nea como sigue:
- Para los datos con dos dı́gitos, escribir a la izquierda de la lı́nea los dı́gitos de las decenas
(que forman el tallo) y a la derecha los de las unidades (que forman las hojas).
- Para datos con tres dı́gitos, el tallo estará formado por las centeneas y decenas, escritos
a la izquierda, y las hojas serán las unidades.
3. Cada tallo define una clase y se escribe una sóla vez; el número de hojas representa la
frecuencia de la clase correspondiente al tallo.
Ejemplo:
Para el ejemplo de la distancia de frenado, el diagrama de tallo-hojas serı́a:
1
1
1
1
1
6
8
(3)
9
6
3
2
30
31
32
33
34
35
36
37
38
39
40
41
5
3
1
0
0
2
1
6
6
7
3
3
2
8
9 9
3
6
5
9
Puede observarse que si se gira el diagrama, se obtiene una apariencia similar a la del histograma
correspondiente. Los valores que aparecen a la izquierda se llaman profundidades e indican las
frecuencias acumuladas, comenzando por arriba (de menor a mayor) y por abajo (de mayor a
menor), hasta llegar al tallo en el que se encuentra el valor que ocupa la posición central; en
este tallo, el valor aparece entre paréntesis e indica solo la frecuencia de ese tallo.
Observación 4 Para facilitar la construcción del diagrama, para una cantidad numerosa de
datos, puede ser conveniente escribir en primer lugar un diagrama “desordenado” anotando
los tallos y las hojas sin ordenar de mayor a menor, y a partir de esta primera aproximación,
construir el diagrama.
A veces conviene subdividir los tallos para obtener mayor claridad, colocando por una parte
las hojas del 0 al 4 y por otra las hojas de 5 a 9, en otros casos, las hojas 0 y 1, las 2 y 3, las
4 y 5, las 6 y 7 y, por último, las 8 y 9; por ejemplo:
14
Estadı́stica
1
1
14
(8)
20
12
7
3
1
4
5
5
6
6
7
7
8
8
9
2
6
0
8
2
6
0
8
2
0
8
2
6
0
8
0
8
2
6
4
0
8
2
6
4
0
8
2
6
0 4
8 8
2 2
4 4 4
8
2
4 4
Medidas caracterı́sticas de una distribución unidimensional.
Vamos a definir en esta sección algunos valores numéricos que proporcionan información sobre cómo
se distribuye un conjunto de datos homogéneo. Estas medidas además, permiten comparar distribuciones y en la tercera parte de la asignatura nos serán de utilidad para obtener conclusiones sobre la
población cuando se trabaja con una muestra.
4.1
Medidas de posición o localización.
Proporcionan uno o varios valores en torno a los cuales tienden a agruparse los datos.
Entre ellas destacaremos las medidas de tendencia central.
1. Medidas de tendencia central.
Vamos a estudiar tres: media aritmética, mediana y moda.
• Media o media aritmética.
Definición 7 Si x1 , . . . , xN son los datos directos de la variable, se define la media como:
x̄ =
N
xi
i=1 N
Observación 5 Si los datos vienen dados por medio de una tabla de frecuencias:
xi
x1
x2
..
.
ni
n1
n2
..
.
fi
f1
f2
..
.
xk nk fk
entonces
x̄ =
k
xi ni
i=1
N
=
k
i=1
xi fi
15
Estadı́stica
Propiedades 2 (a) La media es el valor que equilibra las desviaciones positivas y negativas de los datos directos respecto a su valor:
N
1
(xi − x̄) = 0. En ese sentido, se la
puede considerar como centro de gravedad o centro geométrico de los datos.
(b) Utiliza toda la información contenida en los datos (pues utiliza todos los datos).
• Mediana.
Definición 8 Llamaremos mediana y la denotaremos por Me al valor numérico que verifica que ordenados los datos de menor a mayor, el 50% son menores o iguales que este
valor y el 50% son mayores o iguales.
Cálculo de la mediana: Para calcular la mediana de un conjunto de datos, en primer lugar
hay que ordenarlos de menor a mayor; denotaremos por x(i) el dato que ocupa el lugar
i-ésimo una vez ordenados los datos de esta forma.
x
+x
Si el número de datos, N, es par, el valor mediana es (N/2) 2((N/2)+1) , mientras que si el
número de datos es impar, el valor mediana es x((N +1)/2) , supuestos los datos ordenados
de menor a mayor.
• Moda.
Definición 9 La moda, se define como el valor o los valores más frecuentes de la variable,
es decir, a los que corresponde la mayor frecuencia.
Cuando los datos están agrupados por clases, no puede determinarse qué valor es la moda;
en este caso llamaremos clase modal a aquella a la que corresponde la mayor altura en el
histograma (que no tiene porqué coincidir con la clase de mayor frecuencia).
Comparación entre las medidas de tendencia central
Como ya hemos señalado al definirla, la media es una medida que utiliza toda la información
disponible, pues tiene en cuenta el valor de todos los datos. En cambio, la mediana es, en ese
sentido, menos informativa, pues sólo tiene en cuenta la posición y no el valor.
Por esa misma razón, la media es muy sensible a valores extremos. Por ello, un error en los
datos puede modificarla por completo.
Ejemplo:
Para los datos 10, 15, 21, 50, la media es 24, desplazada hacia el valor 50 que es un valor
extremo.
Si los datos correctos hubiesen sido 10, 15, 21, 20, la media serı́a 16.5. Sin embargo, la mediana
queda menos afectada por ese dato extremo: en el primer caso serı́a 18 y en el segundo, 17.5.
Observación 6 A veces, el conjunto de datos está dividido en subgrupos, por ejemplo, los individuos de una clase divididos en hombres y mujeres, y se conoce la media de una caracterı́stica
en cada subgrupo. A partir de esta información se puede obtener la media del conjunto total de
datos: si x¯1 , x¯2 , . . . , x¯s son las medias en s subgrupos (disjuntos) con n1 , n2 , . . . , ns individuos
cada uno, la media total será:
x̄ =
n1 x¯1 + n2 x¯2 + . . . + ns x¯s
n1 + n2 + . . . + ns
16
Estadı́stica
2. Otras medidas de posición: Percentiles.
Definición 10 Para cada valor p ∈ (0, 1), se denomina p-percentil y se denota por qp , al valor
de la variable que divide a la distribución de frecuencias en dos partes, de forma que al menos
el 100p% de los datos son menores o iguales que qp .
Cálculo de los percentiles:
qp =
⎧
⎪
⎨
x([pN ]+1)
⎪
⎩
x(pN ) + x(pN +1)
2
si pN no es entero
si pN es entero
Definición 11 Se denominan cuartiles a los percentiles que dividen a la distribución en 4
partes iguales, es decir,
- el 0.25-percentil, llamado primer cuartil, y denotado por Q1 .
- el 0.5-percentil, que es la mediana.
- el 0.75-percentil, llamado tercer cuartil, y denotado por Q3 .
Definición 12 Se denominan deciles a los percentiles que dividen a la distribución en 10 partes
iguales. Se denotan por d1 , d2 , . . . , d9 , siendo di el 10i -percentil, i = 1, 2, · · · , 9.
Observación 7 A veces solo disponemos de la informacin de los datos agrupados en clases y no
el valor de los datos, en esos casos se calculan valores aproximados de los percentiles, tomando
como valor qp el valor del eje X en el que el polı́gono de frecuencias relativas acumuladas tiene
por altura p: Si F1 , F2 , . . . , Fk son las frecuencias relativas acumuladas de las clases en que
se agrupan los datos, existe i ∈ {1, 2, . . . k} con Fi−1 ≤ p < Fi . ( Se considera F0 = 0). El
p-percentil será:
p − Fi−1
qp = Li−1 +
bi
fi
4.2
Medidas de dispersión.
Estas medidas indican lo próximos o alejados que están los datos, bien entre sı́, o respecto a alguna
medida de centralización.
• Rango o recorrido.
Definición 13 Si x(1) , x(2) , . . . , x(k) son los datos, ordenados de menor a mayor, se denomina
recorrido a x(k) − x(1) , es decir, a la diferencia entre el mayor y el menor dato.
El recorrido es fácil de calcular, lo que hace que sea una medida muy utilizada, por ejemplo en
control de calidad. Además tiene idénticas unidades que la variable. Sin embargo, presenta el
inconveniente de ser una medida muy sensible a valores extremos.
17
Estadı́stica
• Varianza.
Definición 14 Se define la varianza de los datos directos x1 , x2 , . . . , xN , y se denota por s2 ,
al valor:
N
N
(xi − x̄)2
1 x2i ) − x̄2
s2 =
=(
N
N
i=1
i=1
Observación 8 Si los datos vienen dados por medio de una tabla de frecuencias, entonces
s2 =
k
k
(xi − x̄)2 ni = (xi − x̄)2 fi
N
i=1
i=1
La varianza tiene en cuenta todos los datos, es fácil de calcular, pero no tiene las mismas
unidades que la variable; este inconveniente se salva considerando su raı́z cuadrada, que se
denomina desviación tı́pica.
Observación 9 Por razones que veremos más adelante, en muchos casos se utiliza otra medida, llamada cuasivarianza, y que a la hora de hacer inferencias, tiene mejores propiedades
que la varianza. Se define la cuasivarianza de los datos directos x1 , x2 , . . . , xN , y se denota por
s2c al valor:
N
(xi − x̄)2
s2c =
i=1 N − 1
Notar que N s2 = (N − 1) s2c , y que si N es grande, la diferencia entre ambas medidas (varianza
y cuasivarianza) es pequeña.
Observación 10 En muchos programas de software estadı́stico, se llama varianza a la cuasivarianza (entre ellos el programa de Statgraphics).
• Desviación tı́pica.
Definición 15 Se define la desviación tı́pica o estándar de los datos directos x1 , x2 , . . . , xN , y
se denota por s, al valor:
N
(xi − x̄)2
s=
N
i=1
Observación 11 Si los datos vienen dados por medio de una tabla de frecuencias, entonces
s=
k
(xi −
N
i=1
x̄)2 ni
=
k
(x
i=1
i
− x̄)2 fi
Observación 12 Se define también la cuasidesviación tı́pica como:
sc =
N
(xi − x̄)2
i=1 N − 1
18
Estadı́stica
La desviación estándar se expresa en las mismas unidades que la variable, dando una idea más
precisa de la variabilidad respecto de la media, como veremos en el teorema siguiente.
Teorema 1 Desigualdad de Chebychev.
Sea X una variable estadı́stica y k ∈ IR con k ≥ 1. Entonces, en el intervalo [x̄ − ks, x̄ + ks] se
halla más del (1 − k12 )100% de las observaciones.
(Expresándolo de otra forma: la frecuencia relativa del intervalo [x̄ − ks, x̄ + ks] es mayor que
(1 − k12 ).)
Demostración:
Vamos a denotar por fr la frecuencia relativa de un conjunto de datos y por x1 , x2 , . . . , xN los
valores directos de la variable X.
Sean A1 = {xi : |xi − x̄| > ks} y A2 = {xi : |xi − x̄| ≤ ks}. A partir de la definición de varianza,
se obtienen las siguientes desigualdades:
s2 =
N
(xi − x̄)2
(xi − x̄)2
(xi − x̄)2
=
+
≥
N
N
N
i=1
xi ∈A1
xi ∈A2
≥
xi ∈A1
Despejando, fr (A1 ) <
1
.
k2
(ks)2
(xi − x̄)2
>
= (ks)2 fr (A1 )
N
N
xi ∈A1
Como fr (A1 ) + fr (A2 ) = 1, se tiene que
fr (A2 ) = fr ({xi : |xi − x̄| ≤ ks}) > 1 −
1
k2
y teniendo en cuenta la interpretación de la frecuencia relativa como tanto por ciento, se obtiene
el resultado.
Observación 13 Tomando k = 2 en el intervalo [x̄ − 2s, x̄ + 2s] se encuentra como mı́nimo
el 75% de los datos.
Tomando k = 3 en el intervalo [x̄ − 3s, x̄ + 3s] se encuentra como mı́nimo el 89% de los datos.
• Rango intercuartı́lico.
Definición 16 Se define el rango intercuartı́lico, y se denota por IQR, a:
IQR = Q3 − Q1 .
El rango intercuartı́lico es una medida de dispersión utilizada en relación con la mediana e
indica la dispersión del 50% central de los datos.
19
Estadı́stica
4.3
Medidas de posición y de variación utilizadas para comparar conjuntos de datos
• Valores o puntuaciones z
Los valores z indican la posición relativa de un dato, respecto del conjunto.
Definición 17 Se define el valor z del dato xi como el valor
xi −x̄
.
s
Nos indica cuántas desviaciones tı́picas se aleja el dato respecto del valor de la media.
• Coeficiente de variación.
Definición 18 Para datos todos positivos o todos negativos, se define el coeficiente de variación
de Pearson de la variable estadı́stica X como:
s
CV =
.
|x̄|
Es una medida adimensional de la variabilidad relativa, pues considera la variabilidad de los
datos en relación al tamaño de su media ( no es lo mismo una variabilidad de 200 euros en
ganacias del orden de 1000 euros, que en ganancias del orden de 1 millón). Por ello, es la
medida adecuada para comparar la variabilidad de dos conjuntos de datos distintos. Se puede
interpretar el CV como el promedio del error de medida.
4.4
Otras caracterı́sticas observables de una distribución de datos
1. Asimetrı́a.
Diremos que una distribución es simétrica si al considerar la representación gráfica de la
distribución de frecuencias y trazar una perpendicular al eje de abcisas por x̄ ocurre lo siguiente:
Hay el mismo número de valores a ambos lados de la perpendicular, equidistantes de x̄ dos a
dos y tales que cada par de valores equidistantes a x̄ tienen la misma frecuencia. En este caso,
la mediana coincide con x̄.
Las medidas de asimetrı́a existentes son válidas para las denominadas distribuciones con forma
de campana (campaniformes): Distribuciones unimodales simétricas o con ligera asimetrı́a; y
para las distribuciones en forma de U. Indicar que las distribuciones en forma de campana
son las más usuales. Cuando la distribución de los datos es campaniforme, las distribuciones
asimétricas se clasifican en distribuciones asimétricas con cola a la derecha y distribuciones
asimétricas con cola a la izquierda; el valor de x̄ − Me proporciona información del tipo de
asimetrı́a:
asimetrı́a a la derecha
simétrica
asimetrı́a a la izquierda
20
Estadı́stica
2. Apuntamiento o curtosis.
Llamamos curtosis o apuntamiento el grado de concentración de los datos alrededor de la media.
Las medidas de curtosis se aplican a distribuciones campaniformes y para estudiarlas es necesario definir previamente una distribución “tipo”, que vamos a tomar como modelo de referencia.
Esta distribución va a ser la llamada distribución normal, que corresponde a fenómenos muy
corrientes en la naturaleza y cuya representación gráfica es una campana de Gauss, dada por
la fórmula:
2
1 (x−µ)
1
f (x) = √ e− 2 σ2 ,
σ 2π
donde µ y σ son respectivamente la media y la desviación tı́pica.
A esta distribución se le llama normal porque se presenta en numerosos casos, e implica que
la mayorı́a de los valores de la variable están cerca de la media, y aquellos que se encuentran
muy distanciados de ella, a ambos lados son poco numerosos.
Tomando esta distribución como referencia diremos que una distribución puede ser más apuntada que la normal, es decir, leptocúrtica o menos apuntada, es decir, platicúrtica. A la
distribución normal, desde el punto de vista de la curtosis, se le llama mesocúrtica
platicúrtica
mesocúrtica
leptocúrtica
En definitiva, aquı́ lo que se estudia es la deformación, en sentido vertical, respecto de la normal,
de una distribución.
5
Diagramas de caja o “Box-Plot”.
Este tipo de diagramas son una representación semigráfica de la distribución, que permite observar las
caracterı́sticas principales de la distribución y detectar posibles valores atı́picos. Son especialmente
útiles para comparar la distribución de una variable en distintas poblaciones. Se ha pospuesto su
estudio hasta ahora pues para su construcción son necesarias algunas de las medidas caracterı́sticas
de la distribución, definidas en el apartado anterior.
Construcción del Box-Plot
Los pasos para su construcción son:
1. Ordenar los datos de menor a mayor y obtener los cuartiles Q1 , Q2 y Q3 . Se obtienen también
otros dos valores, llamados lı́mite inferior (LI) y lı́mite superior (LS), dados por:
LI = Q1 − 1.5IQR
LS = Q3 + 1.5IQR
Estadı́stica
21
2. A continuación se sitúan en un eje graduado estos 5 valores y tomando como base el segmento
[Q1 , Q3 ] se dibuja un rectángulo con altura arbitraria; en él se indica la posición de la mediana,
mediante una lı́nea vertical que divida al rectángulo.
4. Desde el centro de los lados verticales del rectángulo se dibujan sendas lı́neas hasta el menor
dato mayor o igual que LI y el mayor dato menor o igual que LS (es decir, los datos más
extremos del intervalo (LI,LS)).
5. Los datos que queden fuera del intervalo [LI, LS] se marcan con un punto o un asterisco, a la
altura de las dos lı́neas dibujadas. Se denominan datos atı́picos y se clasifican en próximos y
lejanos, según estén en [Q1 − 3IQR, Q3 + 3IQR] o aún más alejados.
Ejemplo:
Para los datos de la distancia de frenado, los cinco valores son: Q1 = 35, 9, Q3 = 39, 2, Me = 37, 3,
LI = 30, 95 y LS = 44, 15 y el gráfico:
Observación 14 El Box-Plot permite ver fácilmente caracterı́sticas como asimetrı́a, apuntamiento,
variabilidad y puesto que se basa en la mediana y los cuartiles, medidas poco influenciables por datos
atı́picos, proporciona en general una imagen adecuada de la distribución.
También permite hacer comparaciones entre conjuntos distintos de datos, o subgrupos.
Los datos siguientes corresponden al tiempo en segundos en pasar de 0 a 100 Km/h en un conjunto
de vehı́culos subdivididos en cuanto al tipo de vehı́culo. Es fácil observar en el gráfico, por ejemplo,
que las furgonetas son las que presentan menor variabilidad y los de tamaño pequeño son los de
mayor variación.
22
Estadı́stica
6
Datos atı́picos
Son datos que se alejan del conjunto global de datos, por ser inusualmente grandes o pequeños.
Pueden ser datos reales, como una puntuación de 10 en un examen en el que la mayorı́a de las
puntuaciones están entre 3 y 6, o la estatura de un individuo que mide 2m 10cm, en una clase de
individuos con estaturas normales. También en ocasiones, aparecen como consecuencia de haber
registrado de forma incorrecta un dato. Existen varios métodos para detectar los datos atı́picos;
indicaremos dos:
• La proporcionada por el diagrama de caja: considerar como atı́picos todos los datos fuera del
intervalo [LI,LS]. En el ejemplo de la distancia de frenado, serı́a el dato 30,5.
• El criterio de 3s: considerar como atı́pico todo dato que se aleje más de 3s de la media de los
datos ( recordar que según la desigualdad de Chebysev, al menos el 88.89% de los datos está
en el intervalo [x̄ − 3s, x̄ + 3s]). En el ejemplo de la distancia de frenado, con este criterio no
existirı́an datos atı́picos.
7
Transformaciones.
El objetivo de la descripción de datos es obtener una visión lo más clara posible de los datos, por
ello, en muchas ocasiones será necesario hacer traslaciones o cambios de escala para obtener datos lo
más simples y manejables posible.
En otras ocasiones, como los principales métodos estadı́sticos son aplicables sólo a distribuciones
simétricas, nos interesará transformar unos datos asimétricos en otros que no lo sean tanto.
Vamos a distinguir entre dos tipos de transformaciones:
Transformaciones lineales:
Son del tipo Y=aX+b, con a, b ∈ IR; a = 0, es decir, traslaciones y cambios de escala; por tanto,
producen cambios en cuanto a posición y dispersión, pero no varı́an la forma de la distribución: si
x1 , . . . , xN son los datos directos de la variable X, sus transformados serán los datos y1 , . . . , yN , con
yi = axi + b.
Propiedades 3
1. ȳ = ax̄ + b.
En efecto:
ȳ =
N
yi
i=1
=a
N
=
N
axi + b
=
N
i=1
N
xi
+ b = ax̄ + b
i=1 N
2. s2Y = a2 s2X
En efecto:
s2Y =
N
N
(yi − ȳ)2 (axi + b − (ax̄ + b))2
=
=
N
N
i=1
i=1
= a2
N
(xi − x̄)2
= a2 s2X
N
i=1
Estadı́stica
23
3. sY = |a|sX
4. Me (Y ) = aMe (X) + b
En efecto, si a > 0, los datos conservan su orden y por tanto, la mediana de la variable X se
transforma en la mediana de la variable Y. Si a < 0, entonces los datos invierten su orden,
pero entonces, la transformada de la mediana sigue dejando un 50% de los datos a cada lado.
5. Moda(Y ) = aModa(X) + b
6. Si a > 0 entonces Q1 (Y ) = aQ1 (X) + b y Q3 (Y ) = aQ3 (X) + b. Si a < 0 entonces Q1 (Y ) =
aQ3 (X) + b y Q3 (Y ) = aQ1 (X) + b.
(Se razona de igual forma que en la propiedad anterior).
7. IQR(Y ) = |a|IQR(X).
Transformaciones no lineales
√
Las transformaciones no lineales más usuales son: Y = X 2 , Y = X, Y = ln X e Y = X1 . Producen, además de cambios en la posición y dispersión, cambios en la forma. Se utilizan principalmente
para promover simetrı́a.
Descargar