Esquema de los contenidos del tema 3

Anuncio
Análisis de Datos I
Esquema del Tema 3
Tema 3. Estadísticos univariados: tendencia
central, variabilidad, asimetría y curtosis
1. MEDIDAS DE TENDENCIA CENTRAL
La media aritmética
La mediana
La moda
Comparación entre las medidas de tendencia
central
2. MEDIDAS DE VARIACIÓN
La varianza y la desviación típica
Otras medidas de variación
3. PROPIEDADES DE LA MEDIA Y LA VARIANZA
4. ASIMETRÍA Y CURTOSIS
5. EJERCICIOS
__________________
Bibliografía: Tema 3 (pág. 85-117)
Ejercicios recomendados: 1, 3, 4, 5, 8, 9, 11, 12,
14, 18, 19, 20, 23, 24,
25, 27, 28 y 30.
Carmen Ximénez
1
Análisis de Datos I
Esquema del Tema 3
1. MEDIDAS DE TENDENCIA CENTRAL
LA MEDIA ARITMÉTICA, X
Informa sobre la tendencia general de la variable X en una muestra de N sujetos
Fórmula:
X
X
i
N
Ejemplo 1: X: 4, 5, 2, 5. Donde:
X 
45 25
4
4
- La media aritmética es el índice de tendencia central más utilizado.
- Sólo puede calcularse para variables cuantitativas
- Es muy sensible a valores extremos (distribuciones marcadamente asimétricas)
Conocida X , las puntuaciones Xi (o puntuaciones directas) pueden expresarse como
desviaciones a la media grupal. Esto es, como las denominadas
Puntuaciones diferenciales:
xi  X i  X
Con los datos del Ejemplo 1, x: 0 1 -2 1
Donde:
(X  X )  0 (o bien x = 0). Por tanto,
 (X  X )  0 .... (o bien x2  0)
i
x0
2
i
Con los datos del Ejemplo 1: x2 = 0 + 1+ 4 + 1 = 6
LA MEDIANA, Mdn
Puntuación en X que divide la distribución en dos partes iguales: deja por debajo y por
encima de sí al 50% de las observaciones
Cálculo:
Ejemplo 2: 7, 11, 6, 5, 7, 12, 9, 8, 10, 6, 9.
1º. Se ordenan los datos de menor a mayor: 5, 6, 6, 7, 7, 8, 9, 9, 10, 11, 12.
2º. Si N es impar: Mdn = valor central. En el Ejemplo 2, Mdn = 8
Mdn1  Mdn 2
2
3º. Mdn también puede obtenerse calculando el centil 50 de la distribución.
Si N es par:
Mdn = media aritmética de los valores centrales:
Mdn se diferencia de X en que no se ve afectada por los valores extremos que pueda
tomar la variable X
LA MODA, Mo
Valor de la variable X que más aparece en nuestros datos (el que obtiene la mayor
frecuencia absoluta ni)
En el Ejemplo 1: X: 4, 5, 2, 5. Donde Mo = 5.
* Si hay dos valores de X con la ni mayor, la distribución es bimodal (si estos valores son
cercanos, para calcular Mo puede hallarse la media de ambos).
Carmen Ximénez
2
Análisis de Datos I
Esquema del Tema 3
COMPARACIÓN ENTRE LAS MEDIDAS DE TENDENCIA CENTRAL
Criterios a seguir:
1º. X (entre otras razones porque es el mejor estimador del parámetro poblacional ).
2º. Si no puede calcularse X (p.e. variables ordinales, valores extremos) obtener Mdn.
3º. Si no puede obtenerse Mdn (p.e. datos nominales, intervalos abiertos con más del
50% de sujetos) obtener Mo.
En algunos casos los tres indicadores pueden dar valores similares pero no
necesariamente ha de ser así. Mdn = X = Mo solo si la distribución es simétrica:
X
X
Mdn
Mo
Asimetría positiva
Simetría
Asimetría negativa
2. MEDIDAS DE VARIACIÓN
Para conseguir una visión completa y comprensiva de los datos obtenidos hay que
complementar las medidas de tendencia central con otros estadísticos que reflejen
otras propiedades. Por ejemplo, el grado en que los datos se parecen o diferencian
entre sí, propiedad que se denomina variabilidad o variación.
Ejemplo 3. Consideremos los siguientes datos en X para los grupos A y B:
XA:
8
9
10
11
XB:
3
8
9
10
Totales: Medias:
12
50
X A  10
20
50
X B  10
Las medias en A e B son iguales,
pero… ¿Son los datos similares?
Para cuantificar esta variación podemos calcular la media de las distancias al
cuadrado de las puntuaciones a la media (la varianza). Es decir:
xA:
xB:
xA2:
xB2:
-2
-7
4
49
-1
-2
1
4
Carmen Ximénez
0
-1
0
1
1
0
1
0
Totales: Medias:
2
0
0
10
0
0
4
10
2
100 154
30,8
3
Análisis de Datos I
Esquema del Tema 3
2
La Varianza, S X
Es el promedio de las distancias al cuadrado desde los valores en X hasta la media X
(es decir, de las puntuaciones diferenciales al cuadrado) en una muestra de n sujetos.
2
X
Fórmulas: S
(X

 X )2
i
2
X
S
N
X

2
X
Fórmula alternativa: S
2
i
X
N
x

2
i
N
(en puntuaciones diferenciales)
2
X 4
En el Ejemplo 1: Xi: 4, 5, 2, 5.
xi: 0, 1, -2, 1.
S X2 
xi2: 0, 1, 4, 1.
0 1 4 1
 1,5
4
O bien: SX2 
70 2
 4  1,5
4
La Desviación Típica, S X
SX  S2X
En el Ejemplo 1: S X  S X  1,5  1, 22
2
Se utiliza más que la varianza porque al
calcular la raíz cuadrada se retoman las
unidades de medida originales para resumir las
distancias entre las X y la X .
2
La Cuasivarianza, S N -1
( X  X )

2
i
2
N -1
S
N -1
Propiedades:
SN2  SN2 -1 ; ( N ) S N2  ( N -1) S N2 -1
OTRAS MEDIDAS DE VARIACIÓN
Amplitud total o rango:
AT = Xmáx - Xmín
Coeficiente de variación:
CV 
SX
 100
X
3. PROPIEDADES DE LA MEDIA Y DE LA VARIANZA
1. X puede tomar cualquier valor mientras que S X2 y SX son siempre positivas, siendo su
valor mínimo 0.
2. Si tenemos una misma variable X que ha sido medida en k grupos y conocemos las
medias y varianzas en cada grupo, entonces podemos calcular los estadísticos globales:
X1
X2
X3
Ni
6
3
4
( X j  X T )2
Xi
2
3
5
N
Si2
4
5
6
N  X  N 2  X 2  ...  N k  X k
XT  1 1
N1  N 2  ...  N k
2
T
S
N S

N
j
2
j
N

j
j
Ejemplo 4:
j
XT 
ST2 
Carmen Ximénez
6(2)  3(3)  4(5)
 3,15
6  3 4
6(4)  3(5)  4(6) 6(2  3,15)2  3(3  3,15)2  4(5  3,15)2

 6,52
13
13
4
Análisis de Datos I
Esquema del Tema 3
4. ASIMETRÍA Y CURTOSIS
Además de la tendencia central y la variación, hay otras dos características que nos
permiten describir una distribución de frecuencias. Tienen que ver con la forma de la
distribución. Se trata de la asimetría y la curtosis.
Índice de asimetría
La asimetría de una distribución hace referencia al grado en que los datos se reparten
por encima y por debajo de la tendencia central.
Índice: As 
x
3
i
3
X
.
N S
A
Donde, xi3  ( X i  X )3
B
INTERPRETACIÓN:
C
A. Si As > 0: Asimetría positiva
B. Si As = 0: Simetría
C. Si As < 0: Asimetría negativa
X
*
0
1
2
3
4
5
6
Nota: el índice mostrado es el más común, aunque sólo puede calcularse para variables
donde pueda obtenerse la media y la varianza (cuantitativas).
Índice de curtosis
La curtosis hace referencia al grado de apuntamiento de una distribución.
  xi4 
4
4
Índice: Cr  
  3 . Donde, xi  ( X i  X )
4
 N  SX 
A
INTERPRETACIÓN:
B
A. Si Cr > 0: distribución Leptocúrtica
B. Si Cr = 0: distribución Mesocúrtica
C. Si Cr < 0: distribución Platicúrtica
C
X
0
1
2
3
4
5
6
Ejemplo 5
Xi
2
4
8
2
16
:
X =4
Media:
As 
x
3
i
3
X
N S

Carmen Ximénez
xi2
4
0
16
4
24
xi
-2
0
4
-2
0
xi3
-8
0
64
-8
48
xi4
16
0
256
16
288
Varianza: S2X = 6
48
 0,82 ;
(4)(2,453 )
Cr 
SX = 2,45
x
4
i
4
X
N S
-3 
288
 3  1
(4)(2,454 )
5
Análisis de Datos I
Esquema del Tema 3
5. EJERCICIOS
EJERCICIO 1
:
X
x = X -X
x2 = (X - X )2
3
6
7
7
2
1. Calcule la media de X
2. Rellene los huecos de la tabla
EJERCICIO 2
Calcule la mediana y la media en los siguientes conjuntos de datos:
a) 5, 6, 7, 7, 8, 9, 9, 10, 10
b) 12, 13, 13, 14, 15, 16, 16, 17
c) 3, 4, 4, 5, 5, 6, 6, 6, 6, 155
EJERCICIO 3
Calcule la moda para cada una
de las distribuciones que
aparecen en la tabla:
Xi
n1
n2
n3
n4
1
2
3
4
5
6
7
8
1
2
5
14
8
6
3
1
40
5
5
5
5
5
5
5
5
40
2
5
10
5
4
10
3
1
40
2
5
12
12
4
3
1
1
40
EJERCICIO 4
Obtenga la varianza en cada uno de los siguientes conjuntos de datos:
X:
x:
x2 :
7
3
3
-1
4
0
5
1
3
-1
2
-2
Y:
y:
y2 :
11
-1
12
0
14
2
15
3
10
-2
12
0
W:
w:
w2:
1,3
-0,2
1,7
0,2
1,6
0,1
1,4
-0,1
1,5
0
24
10
-2
84
7,5
EJERCICIO 5
Se evalúa el nivel de tabaquismo en una muestra de 3 varones y 5 mujeres.
Género
Tabaquismo (Xi)
3
V
1. Calcule la media y varianza para mujeres y varones
4
V
(por separado)
2
V
7
M
2. Calcule la media y la varianza para el grupo total
5
M
(aplicando las propiedades)
2
M
3. ¿Qué grupo es más homogéneo?
10
M
6
M
Carmen Ximénez
6
Análisis de Datos I
Esquema del Tema 3
EJERCICIO 6
La dirección general de tráfico está interesada en estudiar la educación vial en los
jóvenes. Para ello selecciona una muestra aleatoria de sujetos que acaban de obtener el
carnet de conducir (grupo 1) y otra con sujetos que lo tienen hace 5 años (grupo 2) y
registra el nº de veces que han perdido puntos en el último año. Los resultados se
muestran a continuación:
Grupo 1: 1
2
4
1.
X1  2
S 12  1, 5
Grupo 2: 2
7
7
8.
X1  6
S 12  5, 5
Calcule los índices de asimetría y curtosis para cada grupo y elabore la representación
gráfica de las dos distribuciones en una sola gráfica. Interprete los resultados obtenidos.
Carmen Ximénez
7
Descargar