TRATAMIENTO ESTADÍSTICO DESCRIPCIÓN DE LOS DATOS - Tipos de datos - Distribución de frecuencias - Representación de frecuencias DESCRIPCIÓN DE LOS DATOS - Medidas de posición - Medidas de dispersión NÚMEROS ÍNDICES - Índices simples - Índices complejos - Cálculo de tasas de variación DEFINICIÓN DE ESTADÍSTICA: ESTADÍSTICA DESCRIPTIVA INFERENCIA ESTADÍSTICA (situación de incertidumbre) CÁLCULO DE PROBABILIDAD ESTADÍSTICA DESCRIPTIVA: DESCRIPCIÓN DE UN CONJUNTO DE SUCESOS YA ACAECIDOS (suceso = concreción de un fenómeno) Tipos de datos Población = conjunto de personas o cosas sobre las que se realiza una investigación Unidad estadística o elemento: Cada componente de la población - Simples ( constituidas por un solo objeto) - Compuestas (constituidas por más de un objeto) Tamaño de la población: Nº de elementos que constituyen la población - Finita: nº finito de elementos ( p. Ej; nº de hoteles de Madrid) - Infinita: nº infinito de elementos (p. Ej; temperatura) Caracteres Cualidades o rasgos comunes que presentan los elementos de una población. Cada uno de estos caracteres pueden presentar dos o más situaciones diferentes posibles, que reciben el nombre de modalidades o categorías - Caracteres cualitativos o atributos ( sexo) - Caracteres cuantitativos o variables (edad) o Variables discretas: nº finito de valores ( ej: nº de hijos) o Variables continuas: nº infinito de valores (ej: edades, tiempo, altura) 1 MÉTODO ESTADÍSTICO FENÓMENO CONCRECIÓN DEL FENÓMENO Naturaleza cuantitativa VARIABLE X, Y, Z Naturaleza cualitativa DATO o VALOR X1 , X2 , X3 ,.....Xn VARIABLE X, Y, Z MODALIDAD EJEMPLO: TIEMPO QUE UTILIZA PARA LLEGAR A TRABAJAR....................Variable continua EDAD DE UNA PERSONA.....................................................................Variable continua PERIÓDICO QUE LEE.............................................................................Atributo Nº DE CIGARROS QUE FUMA AL DÍA................................................Variable discreta CLASIFICAR UN LOTE DE ACEPTABLA A DEFECTUOSO.............Atributo Distribución de frecuencias Conjunto de valores que ha tomado una variable con su frecuencia correspondiente y el nº de veces que se repite. Distribuciones tipo I: reducido nº de observaciones y reducido nº de valores distintos (x1, x2, ....xn) Ej: nº hijos de 6 familias: 0,1,1,2,2, 3 Distribuciones tipo II: nº elevado de observaciones y reducido nº de valores distintos (x1, n1) (x2, n2)....(xn, nn) Ej : Empresa con 100 empleados. Nº de hijos Nº hijos Empleados 0 40 1 30 2 10 3 15 4 5 valores variable nº repeticiones Distribuciones de tipo III: nº elevado de observaciones y nº de valores distintos de la variable grande Li – 1 = extremo inferior Intervalos (Li – 1 – Li) Determinar el nº de intervalos a considerar: Entre 5 y 20 intervalos Seleccionar los límites de cada intervalo Rango o recorrido de la variable (Re): mayor valor – menor valor Amplitud (Ci) = Li – Li – 1) Recorrido (Re) = nº intervalos x amplitud (Ci) Ci = Re / nº intervalos Ej : Preguntamos a 60 personas, el nº de desplazamientos que realizan al cabo de un mes a un centro comercial y se obtienen los siguientes resultados. 213458226532343 285613285324134 876432611122476 435261762538462 2 Elaborar un atabla estadística con datos agrupados en 3 intervalos: Re = 8 – 1 = 7; Ci = 7 / 3 = 2,3 ≈ 3 Intervalos Nº de personas ( 0 – 3) 30 (3 – 6) 22 ( 6 – 9) 8 Total 60 Los intervalos están abiertos por la izquierda y cerrados por la derecha excepto el 1º intervalo que está cerrado por las dos. Marca de clase: Punto medio del intervalo Xi = Li + Li-1 = 1’5, 4’5, 7’5 2 TABLA DE DISTRIBUCIÓN DE FRECUENCIAS Frecuencia absoluta Nº de veces que se repite cada valor de una variable (xj) n1 + n2 + .......+ ni + ......+ nn = N (frecuencia total) Frecuencia relativa (fi) Cociente entre frecuencia absoluta y nº total de datos fi = ni N n1 + n2 + .......+ ni + ......+ nn = N = 1 N N N N N Frecuencia absoluta acumulada (Ni) Nº de datos igual al considerado e inferiores a él, una vez ordenados de menor a mayor Frecuencia relativa acumulada (Fj) Cociente entre la frecuencia acumulada y el nº total de datos Fj = Ni N Ejemplo: Tabla de distribución de frecuencias tipo II Población: Personas que trabajan en un departamento Variable: Edad (años) Valores observados: 21, 22, 24, 22, 21, 24,23, 21, 24, 23 Edad Repetición Frecuencia absoluta xi ni 21 3 22 2 23 2 24 3 10 Frecuencia Frecuencia Frecuencia relativa Absoluta Relativa acumulada Acumulada Fi = niN Ni Fi =Ni / N 0,3 3 0,3 0,2 5 0,5 0,2 7 0.7 0,3 10 1 1 REPRESENTACIONES GRÁFICAS REPRESENTACIÓN FENÓMENOS CUALITATIVOS (Atributos) - Diagramas sectoriales o de pastel Divide un círculo en sectores según las modalidades del atributo. El área de cada sector es proporcional al nº de unidades que posee esa modalidad. - Diagramas de rectángulos o barras Representa tantos rectángulos como modalidades tenga el atributo. La altura de cada uno es igual a la frecuencia absoluta de cada modalidad. También se puede usar para la frecuencia relativa. - Cartogramas Representación de los datos en un mapa cuando se estudian los valores de una variable en el espacio (ciudades, provincia, regiones...). - Pictogramas Representa una figura alusiva al atributo cuyo tamaño se corresponde con la frecuencia del atributo 3 REPRESENTACIÓN FENÓMENOS CUANTITATIVOS DISTRIBUCIONES DISCRETAS o NO AGRUPADAS - Diagrama de barras Abscisa: valor de la variable Ordenada: frecuencia absoluta o relativa - Diagrama en escalera Abscisa: valor variable Ordenada: frecuencia acumulada. También frecuencia relativa acumulada DISTRIBUCIONES AGRUPADAS o VARIABLES - Histogramas: Se levanta sobre cada intervalo un rectángulo, de área proporcional a la frecuencia absoluta de ese intervalo. Siempre intervalos de igual amplitud. - Polígono de frecuencias (no acumuladas): Se forma al unir los puntos medios de cada intervalo (marca de clase). Si la amplitud de los intervalos son desiguales, las alturas de los rectángulos d = densidad de frecuencia son: di = ni / ci - Polígono acumulado o de frecuencias acumuladas: Representa las frecuencias acumuladas. En el extremo superior de cada intervalo se levanta una ordenada igual a la frecuencia absoluta correspondiente y se unen. P. Ej; 30 observaciones con valor igual o menor a 3. También se puede con (Fi) frecuencias relativas acumuladas. DESCRIPCIÓN DE LOS DATOS (ii) MEDIDAS DE POSICIÓN Las medidas de posición son promedios y pueden ser de tendencia central o no. Tendencia central - Media aritmética Suma de los valores de las variables dividido por el nº total de datos x = Σni=1 xini N Propiedades: La suma de las desviaciones de los valores de la variable respecto a la media es 0. La media aritmética queda afectada por los cambios de origen La media aritmética queda afectada por los cambios de escala Ventajas: Sencilla de calcular Es única En su cálculo intervienen todos los valores de la distribución Inconvenientes: Puede dar lugar a conclusiones falsas si la variable presenta valores anormalmente extremos. - Media Aritmética ponderada Cuando se asocia a los valores de la variable (x1, x2, ....xn) ciertos pesos ( w1, w2,...wn) que dependen de la importancia de dichos valores. _ X = w1 x1 + w2 x2 +…+ wn xn w1 + w2 +...+ wn Ejemplo: De una empresa que opera en 4 provincias , se cono ce la siguiente información: Provincia Productividad Nº de empleados Por empleado Barcelona 0,75 50 Tarragona 0,60 90 Lérida 0,90 150 Gerona 0,85 42 Calcular la productividad media por empleado de la empresa: _ X = 0,75 x 50 + 0,6 x 90 + 0,9 x 150 + 0,85 x 42 = 0,79 50 + 90 + 150 + 42 4 - Media geométrica Es la raíz N – ésima del producto de los N valores de la distribución G = √NXn1 . Xn2..........Xnn Ventajas: Es única En su cálculo intervienen todos los valores de la variable Inconvenientes: Cálculo complicado Gran influencia de los números pequeños En ocasiones queda indeterminada (algún valor 0, valor negativo puede dar lugar a un número imaginario) - Media armónica Es la inversa de la media aritmética de los valores recíprocos de la variable. Sirve para promediar variables expresadas en productividades, rendimientos. Unidades producidas / Unidad de producto. El valor 0 o próximo a él no vale H = N / ∑ni=1 UUni xi Ventajas: Es única y a veces puede ser más representativa En su cálculo intervienen todos los valores de la distribución Inconvenientes: Cálculo complicado No es aconsejable su empleo en distribuciones en que existan valores muy pequeños No está determinada en distribuciones con valores 0 RELACIÓN ENTRE LOS TRES PROMEDIOS _ H≤G≤X - H = armónica _ G = geométrica X = aritmética Mediana Valor de la variable que, ordenada la distribución, de menor a mayor, deja a su izquierda el mismo nº de frecuencias (datos u observaciones)que a su derecha. Se usa para promedios de rentas, salarios, etc. Es aquel valor de xi correspondiente a la frecuencia cumulada N / 2. Si son impares, el del centro. Si son pares hay 2 o se hace la media de los 2. Propiedades: Ventajas: Inconvenientes: La mediana se ve afectada por los cambios de origen y escala Fácil de calcular Sólo influyen en ella los valores centrales de la distribución. Se puede calcular aún desconociendo los valores extremos de la distribución, siempre que se tenga información de sus frecuencias. No intervienen todos los valores de la variable (cuando todos los valores son conocidos) Ejemplo 1. Calcular el valor mediano Ni = frecuencia cumulada Xi ni Ni 1 1 1 3 3 4 5 7 11 7 3 14 9 6 20 20 N/2 = 10; Me = 5 Tipo II 5 Ejemplo 2. Calcular el valor mediano Li-1 – Li = intervalos en la frecuencia cumulada; Li-1 – Li (0-2) (2-4) (4-6) (6-8) (8-10) Me = Li-1 + N/2 – Ni-1 . Ci ni ni 14 16 28 24 18 Tipo III ni = frecuencia de intervalos Ni 14 30 58 82 100 N/ 2 = 100/2 = 50 Me = 4 + 50 – 30 . 2 = 5,43 28 - Moda Es el valor de la variable que más veces se repite, y por tanto al que le corresponde la mayor frecuencia absoluta. No es única (unimodal, bimodal o multimodal). Para representaciones de tipo I y II. Ventajas: Sencillez Inconvenientes: No intervienen todos los valores de la distribución Ejemplo 1. Calcular el valor modal Xi ni 12 1 13 8 16 3 18 2 20 8 Distribución bimodal: el mismo valor en dos observaciones Ejemplo 2: En el caso de distribuciones tipo III. Si los intervalos son de igual amplitud Mo = Li-1 + ni+1 . Ci ni-1 + ni+1 Li-1 – Li (0-25) (25-50) (50-75) (75-100) ni 20 40 100 60 Mo = 50 + 60 . 25 = 65 40 + 60 Si los intervalos son de distinta amplitud. Considerar las densidades de frecuencia Mo = Li-1 + di+1 . Ci di-1 + di+1 Li-1 - Li (0-25) (25-50) (50-100) (100-150) (150-200) ni 20 140 180 40 20 400 ci 25 25 50 50 50 di 0,8 5,6 3,6 0,8 0,4 di = ni / ci Intervalo modal Mo = 25 + 3,6 . 25 = 45,5 0,8 + 3,6 * En las distribuciones de frecuencias normal (acampanadas y simétricas con respecto a la media), la media aritmética la mediana y la moda coinciden 6 MEDIDAS DE POSICIÓN NO CENTRALES. CUANTILES. Aquellos valores que dividen a la distribución en intervalos, de forma de cada uno de ellos tenga la misma frecuencia (comprendan el mismo número de valores). Es el valor que ocupa el lugar (r / k)*N (nº total de datos) de la distribución, considerando la frecuencia acumulada. La fórmula es igual que la de la mediana pero en vez de N / 2 ....r/k .N Suele utilizarse para el cálculo de salarios, rentas, etc.. Los más útiles: Cuartiles: 3 valores de la distribución que la dividen en 4 partes iguales. k =4 r = 1, 2, 3 Deciles: 9 puntos que dividen a la distribución en 10 partes iguales. k = 10 r = 1, 2, ....9 Percentiles: 99 puntos que dividen a la distribución en 100 partes iguales. k = 100 r = 1, 2,....99 Ejemplo: calcular los 3 cuartiles de la siguiente distribución de frecuencias. Xi 0 10 20 30 40 ni 2 4 7 5 2 20 Ni 2 6 13 18 20 Q1/4 = 10 Q2/4 = 20 Q3/4 = 30 N/4 = 5 2N/4 = 10 3N/4 = 15 MEDIDAS DE DISPERSIÓN. Las medidas de dispersión sirven para medir el grado de esparcimiento de los datos de una distribución. Mide la representatividad de un promedio. ABSOLUTAS. Recorrido o rango. Varianza. Desviación típica. Recorrido intercuartílico. Desviación media. RELATIVAS. Coeficiente de apertura. Recorrido relativo. Coeficiente de variación de Pearson. Recorridos semiintercuartílico. Índice de dispersión respecto a la mediana. MEDIDAS DE DISPERSIÓN ABSOLUTAS. Recorrido, rango o campo de variación. Es la diferencia entre el valor máximo y el valor mínimo de la variable. Re = Max xi (Valor máximo de observaciones) - Min xi (valor mínimo de observaciones) Es sencillo de calcular, pero no usa todos los valores de la distribución y puede dar lugar a conclusiones falsas. 7 Varianza. Indica la dispersión de los datos con respecto a la media. A cada observación se descuenta la media. Es la media aritmética de los cuadrados de las diferencias de los valores de la variable con respecto a su media aritmética. S2 = Σni=1 (xi – x-)2 . ni = Σni=1 ni xi2 - x- 2 N N Mide el grado de representatividad de la media. A mayor varianza, mayor variabilidad y menor representatividad de la media. Lo más pequeña posible. Propiedades. Es siempre positiva o nula. No le afectan los cambios de origen (por ejemplo sumar una constante). Xi, = xi + k S2, = S2 , Le afectan los cambios de escala (si multiplico por una constante). Xi = k2 S2 Inconvenientes. Sus unidades de medida no coinciden con las del fenómeno de estudio (están al cuadrado). DESVIACIÓN TÍPICA o STÁNDAR. Es la raíz cuadrada positiva de la varianza. Lo más pequeña posible. S = + √S2 Propiedades. Tiene la misma unidad que la variable y las mismas propiedades que la varianza. RECORRIDO INTERCUARTÍLICO. Diferencia entre el tercero y el primer cuartil. Ri = Q3 – Q1 DESVIACIÓN ABSOLUTA MEDIA. Es la media aritmética de las desviaciones, en valor absoluto, de los valores de la variable respecto a la media. Dx- = ∑ │xi – x- │ni / N DME = ∑ni=1 │xi - Me│ ni / N mínima Ejemplo los gastos el transporte al día de 200 personas son: Xi ni 100 20 _ S2 = 57 . 100 300 40 x = 530 500 60 700 50 S = + √ 57 . 100 = 7, 55 900 30 MEDIDAS DE DISPERSIÓN RELATIVAS. Permiten establecer comparaciones entre distribuciones heterogéneas. Son adimensionales y no vienen afectadas por los cambios de escala de la variable. A menor coeficiente, mayor representatividad del promedio correspondiente. Coeficiente de apertura. Cociente entre el mayor y el menor valor de la variable. Ventajas. Fácil de calcular. CA = max (xi) Min (xi) Inconvenientes. Sólo tiene en cuenta los valores extremos. No puede aplicarse cuando el mínimo valor es 0. Queda afectado por los cambios de origen. 8 Recorrido relativo. Cociente entre recorrido de la variable y su media aritmética. Cuantas veces contiene el recorrido de la variable a la media. Interesa pequeño. Propiedades. Queda afectado por los cambios de origen. No puede usarse si la media es 0. Rr = Re x- Coeficiente de variación de Pearson. Cociente entre la desviación típica y la media. Cuanto más cercano a 0, la dispersión es más pequeña y más representativa es la media. CV = S . 100 x- Propiedades. Es adimensional. Tiene en cuenta todos los valores de la distribución. Se ve afectado por los cambios de origen. Recorrido semiintercuartílico. Rsi = Q3 – Q1 No está afectado por los cambios de origen. Índice de dispersión mediana. Q3 + Q1 VME = DME = ∑ni=1 │xi - Me│. ni Me Me . N *El recorrido semiintercuartílico y el índice de dispersión mediana se deben aplicar cuando se utiliza la mediana como promedio. Ejemplo: las empresas pertenecientes a un determinado sector presenta de siguiente tamaño. Tamaño de la empresa (0-2) (2-4) (4-6) (6-8) (8-10) Nº de empresas 110 200 90 75 25 ¿Cuál es el número medio de empleados por empresa?. ¿Cuál es el tipo de empresa más frecuente?. Si sólo existían ayudas para el 50% de las empresas, y éstas se atendieran por empresas de mayor a menor tamaño, ¿cuántos empleados tendría que tener una empresa para acceder a las ayudas?. Se supone que a cada empresa sólo le puede corresponder una ayuda. ¿Es representativo el número medio de empleados por empresa?. Si el coeficiente de variación de Pearson de otros sector es 1,8 ¿cuál de los dos sectores presenta menor variabilidad?. Li-1 – Li ni xi xini X2ini Ni (0-2) 110 1 110 110 110 (2-4) 200 3 600 1800 310 (4-6) 90 5 450 2250 400 (6-8) 75 7 525 3675 475 (8-10) 25 9 225 2025 500 N = 500 1910 9860 9 El número medio de empleados por empresa es. _ x = ∑ni=1xini = 1910 = 3,82 N 500 El tipo de empresa más frecuente es el valor modal; el intervalo modal es (2 - 4). ni = 200 Ci = 2 Mo = Li-1 + ni+1 . Ci + 90 . 2 = 2,9 110 +90 ni-1 + ni+1 Para determinar el número de empleados que ha de tener una empresa para que estuviera incluido en el 50% de las que tienen ayuda, calculamos la mediana. N / 2 = 250. El intervalo mediano es (2 - 4). Me = Li-1 + N/2 – Ni-1 . Ci = 2 + 250 – 110 . 2 = 3,4 200 ni Para ver si es representativo el número medio de empleados de la empresa, calculamos la desviación típica. S2 = ∑ni=1 nixi2 - x –2 = 9860 – (3,82)2 = 5,127 N 500 S = + √S2 = √5,1276 = 2,26 Para comparar con el otro sector calculamos el coeficiente de variación. CV = S = 2,26 = 0,59 x- 3,82 Presenta una menor variabilidad que el segundo sector considerado, ya que era de 1,8. NÚMEROS ÍNDICES. NÚMERO ÍNDICE. Medida estadística que pone en comparación una magnitud o variable en dos situaciones distintas, una de las cuales se considera base o referencia. Índices temporales: las situaciones las determina el tiempo Ejemplo IPC, IPRI ( precios industriales), IPI (producción industrial) Índices espaciales o territoriales: las situaciones las determina el área geográfica o territorio. Ejemplo. Paridades del poder adquisitivo. PPA ÍNDICES SIMPLES. Hacen referencia a elementos individuales que no permiten su desagregación en variedades menores. Ventajas: permiten unir variables que tienen distintas unidades de medida: ejemplo, precio de distintos alimentos. Itj = Xtj X0j Xtj =Valor de la variable X en el periodo t, para el elemento i. X0j = Valor de la variable X en el periodo 0, para el elemento i. Itj = Índice en el periodo t del elemento i. Según el tipo de variable analizada existen tres tipos fundamentales de índices: Índices de precios (IPC, IPRI). Índice de cantidad (IPI). Índices de valor (índice de ventas, de comercio) 10 PROPIEDADES DE LOS NÚMEROS ÍNDICES Existencia. Homogeneidad. Independencia de las unidades de medida. Identidad. Si coincide el valor inicial con el final. Si t = 0 I = 1 Reversibilidad. Si el origen y el final coincide. La inicial de uno y el final de otro. I0t = 1 / It0 Proporcionalidad. Si una variable se suma una constante, los índices recogen ese cambio. Xit = Xit + KXit Ij’ = (1 + k)Ij Ejemplo se dispone de la siguiente información de vehículos matriculados (anuario y de 1997). 1993 1994 1995 1996 turismos 775.461 938.971 870.497 968.363 motocicletas 50.734 35.150 34.684 31.217 Calcular los números índices simples de cada modalidad, tomando como base el año 1993. 1993 1994 1995 1996 turismos 100 121,08 112,25 124,87 motocicletas 100 69,28 68,36 61,53 Referencia = valor de 1994 / valor de 1993 ÍNDICES COMPLEJOS. Indicador de la variación experimentada por un grupo de magnitudes simples Índices simples. Índice complejo. Agregación. El principal problema que resuelven los números índices es el de la heteromensurabilidad. Los factores a considerar para calcular un índice complejo son. Fórmula empleada según el tipo de agregación. Ponderación o peso que se debe dar a cada componente o índices simple. Ponderaciones It = f ( Iit , Wi) Fórmulas según el tipo de agregación. Media aritmética índices simples. Media geométrica del índices simples. Media armónica de índices simples. _ I = I1 + I2 + ... + Ii + …+ In = ∑I=1N Ii N N IG = √n I1 . I2 . … Ii . …IN = √n ∏Ni=1 Ii IH = N 1/I1 + 1/I2 +...1/Ii + …+ 1/IN = N ∑Ni=1 1/Ii 11 Media agregativa de índices simples. Suma las observaciones en el momento IA = X1t + X2t +...+Xit + …+ XNt = ∑Ni=1 Xit X10 + X20 +…+Xi0+…+XN0 ∑Ni=1 Xi0 Si se tiene en cuenta la importancia relativa de cada índice simple dentro del conjunto: Indices complejos ponderados. Ponderaciones: W1, W2, ,,, Wi, ,,, WN Índice media aritmética ponderada. I* = I1 W1 + I2 W2+...+Ii Wi+…+In Wn = ∑Ni=1 Ii Wi W1 + W2 + …. + Wi +…+ Wn ∑Ni=1 Wi Índice media geométrica ponderado. IG * = √∑ W i i I1 W1 .... Ii Wi… IN WN = ∑Ni=1 Wi √∏ N i =1 IiWi Índice media armónica ponderado. I*H = W1 + …+ Wi +…+ WN 1/I1 W1 +…+1/Ii Wi+…+1/IN Índice media agregativa ponderado. = ∑I=1N Wi ∑I=1N Wi / Ii I*A = X1t W1+...+Xit Wi+…+X NtWN = X10 W1+…+Xi0 Wi+…+XN0 WN ∑I=1N Xit Wi ∑I=1N Xi0 Wi Cálculo de tasas de variación de índices La variación de un índice entre 2 situaciones t y t’, con t’< t es: Vt,t’i = Iti It’I . 100 = [Iti - 1] . 100 It’i 12