ESTADISTICA UNIDIMENSIONAL La estadística estudia propiedades de una población sin recurrir al sufragio universal. El estudio estadístico tiene dos posibilidades (1) Describir lo que ocurre en la muestra mediante tablas gráficos y parámetros estadísticos. (2) Hacer inferencias, es decir, sacar conclusiones que puedan servir para toda la población Población. Conjunto finito o infinito de elementos (personas ó cosas) sobre el que se va a hacer el estudio. El primer paso de un estudio estadístico es la definición de la población. Elemento ó individuo Cada una de las personas o cosas que integran la población. Muestra Conjunto de elementos representativos de la población. La muestra debe de tener las mismas propiedades que la población a la que representa. Al número de elementos o individuos de una muestra se llama tamaño. Una muestra es aleatoria cuando sus elementos se escogen al azar. Una muestra es proporcional cuando cada parte de la población está representada de acuerdo con su importancia en ella. Carácter ó variable Los caracteres ó variables son las propiedades que se desean estudiar, se pueden clasificar de la siguiente forma Discreto Cuantitati vo : Caracter o variable : Continuo Cualitativo - - Carácter cuantitativo. Son aquellas variables que se puede medir, por ejemplo edad, peso,... etc. Carácter cualitativo. Son aquellas variables que no se pude medir, por ejemplo color, sabor,... etc. Las variables cuantitativas a su vez se pueden dividir en dos grupos Variable cuantitativa discreta. Son aquellas que solo pueden tomar valores enteros, por ejemplo el número de hijos. Variable cuantitativa continua. Son aquellas que pueden tomar cualquier valor real dentro de un intervalo lógico, por ejemplo el peso. Tabla de frecuencias ó distribución de frecuencias con datos sin agrupar Una vez obtenidos todos los datos, el primer paso es agruparlos en una tabla ó distribución de frecuencias. Está distribución, debe de tener los valores de la variable ordenados en forma creciente ó decreciente con los respectivos valores de la frecuencia absoluta de cada valor. La distribución de frecuencia puede ampliarse añadiendo otros cálculos que permitan a posteriori el estudio de diferentes parámetros de la distribución. - Frecuencia absoluta(fi): Número de veces que se repite un dato - Frecuencia total(Σfi ó N): Número total de datos. Es igual a la suma de todas las frecuencias absolutas. - Frecuencia acumulada(Fi): Suma de la frecuencia absoluta del dato i con las frecuencias absolutas de todos los datos anteriores - Frecuencia relativa(fr i): Cociente entre la frecuencia absoluta del dato i y el número total de datos - Frecuencia acumulada relativa(Fr i): Suma de la frecuencia relativa del dato i con las frecuencias relativas de todos los datos anteriores - Porcentaje(pi): Frecuencia relativa multiplicada por 100 - Porcentaje acumulado(Pi): Frecuencia relativa acumulada multiplicada por 100 Ejemplo 1. Calificaciones de un examen. xi ≡ Nota del examen Tabla de frecuencias ó distribución de frecuencias con datos agrupados La agrupación de los datos por intervalos, en las variables cuantitativas tiene como finalidad poder presentarlos de forma visual más reducida y simplificar los cálculos, caso de tener la variable muchos valores. La agrupación de la variable por intervalos, no es función de que está sea discreta o continua, aunque en el caso de variable continua suele ser muy útil debido al elevado número de valores que puede tomar. Para agrupar los valores de la variable en intervalos no hay una regla fija, sólo debe tenerse en cuenta que la agrupación sea coherente con el tipo de variable que sé este agrupando. Los intervalos pueden ser de igual amplitud o de diferente amplitud, en función de cada caso. Si se consideran intervalos constante, un criterio para determinar el número y amplitud de los intervalos es el de Nordcliff, que dice que el número de intervalos debe ser aproximadamente igual a la raíz cuadrada positiva del número de datos. Una vez determinado el número de intervalos, la amplitud se calcula aproximadamente como el cociente entre el rango de la variable(diferencia entre el mayor y menor valor de la variable) y el número de intervalos. En la presentación de la variable agrupada en intervalos, se suele repetir el valor de extremo superior de un intervalo en el siguiente, como extremo inferior. El criterio más general es considerar incluido dentro de cada intervalo al extremo inferior, pero no al superior. La amplitud de un intervalo es la diferencia entre el extremo superior y el inferior. La marca de clase, o valor representativo del intervalo, es la semisuma de los extremos del intervalo: L + L s L i = Límite inferior del intervalo xi = i : 2 L s = Límite superior del intervalo para los cálculos de parámetros de la distribución, se usa la marca de clase como valor representativo del intervalo Ejemplo 2. Número de respuestas correcta de un test de 50 preguntas - Gráficos estadísticos Diagrama de barras.- Son gráficos que representan cada valor de la variable mediante una barra proporcional a la frecuencia con la que se presentan. Las barras deben estar separadas. - Histogramas.- Se usa para variables agrupadas por intervalos, asignando a cada intervalo un rectángulo de superficie proporcional a su frecuencia. La altura de cada intervalo se halla dividiendo la frecuencia que representa entre la amplitud del intervalo - Poligonal de frecuencias.- Los histogramas y los diagramas de barras se pueden representar por una poligonal de frecuencias, que es la línea que une los puntos correspondientes a las frecuencias de cada valor(extremos superiores de las barras) - Diagrama de sectores.- En estos gráficos, cada valor de la variable estadística viene representado por un sector circular de amplitud proporcional a su frecuencia. La amplitud(αi) de cada sector se halla multiplicando la frecuencia relativa por 360 sí se mide en grados sexagesimales o por 2π si se mide en radianes. Los diagramas de sectores dan una clara visión de conjunto de cada valor respecto a la totalidad. Para su mejor interpretación es conveniente mostrar en cada sector su proporción. Ejemplo 3. Sobre una muestra de 80 parejas se ha estudiado el número de hijos obteniendo los siguientes resultados: 0 1 2 3 4 5ó+ Número de hijos xi 15 21 26 12 4 2 Número de parejas fi a. b. c. d. Calcular el cuadro de frecuencias Representar el diagrama de barras para la frecuencia absoluta y la frecuencia acumulada Representar la poligonal de la frecuencia absoluta y de la frecuencia acumulada Representar el grafico de sectores a. Cuadro de frecuencias b. Diagrama de barras c. Poligonal de frecuencias d. Diagrama de sectores Ejemplo 4. Sobre una muestra de 150 personas a las que se le ha realizado un test de 50 preguntar sobre seguridad vial, se han obtenido los siguientes resultado agrupados en intervalos: 0 − 10 10 − 20 20 − 30 30 − 40 40 − 50 Intervalo 24 32 48 26 20 Frecuencia a. Calcular el cuadro de frecuencias b. Representar el histograma para la frecuencia absoluta y la frecuencia acumulada c. Representar la poligonal de la frecuencia absoluta y de la frecuencia acumulada a. Cuadro de frecuencias Intervalo M.C. (xi) fi Fi fr i Fr i 0 − 10 5 24 24 10 − 20 15 32 56 20 − 30 25 48 104 30 − 40 35 26 130 40 − 50 45 20 150 25 150 32 150 48 150 26 150 20 150 25 150 56 150 104 150 130 150 1 N= b. Histograma ∑ f i = 150 Poligonal de frecuencias c. Parámetros estadísticos. Describen de un modo conciso el comportamiento y las características generales de los datos estudiados. Se pueden clasificar de la siguiente forma: - Media Medidas de centralización : - Moda - Mediana - Cuartiles Cuantiles : - Quintiles Parámetros estadísticos : - Deciles - Percentiles Medidas de dispersión : - Amplitud, rango o recorrido - Desviación media - Varianza y desviación - Coeficiente de variación Parámetros de centralización - Media Es la medida de centralización más usual. Existen diversos tipos de medias: Media aritmética. n ∑ xi ⋅fi o Simple: x = i =1 n Donde N = N ∑ fi . i =1 n o Ponderada: x p = ∑x i ⋅ pi i =1 Se utiliza cuando los valores de la variable tienen diferente n ∑p i i =1 i. ii. iii. importancia, significación ó peso dentro del conjunto de la distribución. pi es la cuantificación de la importancia o peso, es un valor porcentual y se expresa en tanto por uno Propiedades de la media aritmética La media es el centro de gravedad de la distribución. La suma de las desviaciones de los valores respecto a ella es igual a cero. xi − x ⋅ni = 0 ∑( ) Si se multiplican todos los valores de la variable por una constante, la media queda multiplicada por esa constante Si sumamos a todos los valores de la variable una constante, la media queda aumentada en esta constante. iv. La media de la suma de dos o más variables es igual a la suma de las medias aritméticas de cada una de las variables. Si no tienen la misma frecuencia total, se calcula la media ponderada. - Media geométrica: x g = N x 1 1 ⋅ x 2 2 ⋅ ... ⋅ x nn n La media geométrica se utiliza para los casos en que - sea necesario una gran precisión, puesto que es la única media a la que no la afectan los valores extremos. No puede utilizarse si la variable toma valores negativos ó cero. N Media armónica: x a = n Se utiliza cuando la variable está medida en unidades relativas, 1 ⋅ni xi i =1 n n ∑ como por ejemplo Km H ,€ m , ...etc Moda Es el valor de la variable estadística que se repite más veces, es decir, el que tiene una frecuencia absoluta más elevada. Puede haber más de una moda, en estos casos se tratará de distribuciones bimodales, trimodales,... etc. Para una distribución sin agrupar, la moda se calcula directamente como el valor de la variable estadística con mayor frecuencia absoluta. Para distribuciones con datos agrupados, él calculo de la moda se hace mediante una interpolación lineal sobre el intervalo modal, obteniéndose la siguiente expresión D1 Mo = L i + c ⋅ D1 + D 2 L i = Límite inferior del intervalo modal c = Amplitud de intercalo donde: D1 = f i − f i −1 diferencia entre la frecuencia absoluta del intervalo modal y de intervalo posterior D 2 = f i − f i +1 diferencia entre la frecuencia absoluta del intervalo modal y de intervalo anterior Siendo el intervalo modal el de mayor frecuencia absoluta. Se puede calcular gráficamente mediante el histograma de frecuencias absolutas. Mediana Es el valor que ocupa la posición central de la distribución cuando los valores de la variable están ordenados de forma creciente o decreciente. Por lo tanto, la mediana divide a la distribución en dos subconjuntos con igual número de datos, estando el 50% de los datos por debajo de ella y el otro 50% por encima de ella. Para el calculo de la mediana en distribuciones con datos sin agrupar, existen dos casos - - Para N(tamaño de muestra) impar, la mediana es el valor central. Se busca en la frecuencia absoluta acumulada, siendo el primer valor de la variable estadística cuya frecuencia absoluta acumulada sea mayor o igual que el cociente N/2. Para N par, la mediana es la media aritmética de los valores centrales de la variable estadística, que son los dos primeros valores cuya frecuencia absoluta acumulada es mayor o igual que el cociente N/2. Si la distribución es de datos agrupados en intervalos, la mediana se halla por interpolación sobre el intervalo mediano, siendo este el primer intervalo cuya frecuencia absoluta acumulada sea mayor o igual que el cociente N/2. N − Fi −1 Me = L i + c ⋅ 2 fi L i = Límite inferior del intervalo mediano c = Amplitud del intervalo mediano donde: N = Número de datos de la muestra F = Frecuencia absoluta acumulada de intervalo anterior al mediano i −1 f i = Frecuencia absoluta de intervalo mediano También se puede calcular gráficamente mediante la poligonal de la frecuencia absoluta acumulada. Utilización de la Media, Mediana y Moda La moda sólo se utiliza como única medida de centralización en las distribuciones de variables cualitativas. En el caso de variables cuantitativas la moda acompaña a la media y/o la mediana. Respecto a la media y la mediana, en general, se utilizan ambas, ya que esto permite realizar algunas deducciones sobre la simetría de la distribución. Existen algunos casos donde el uso de la media es mejor que el uso de la media, estos casos son - Cuando se tiene la sospecha que en los datos pueden existir errores. - En el caso de que existan valores extremos - Cuando los datos están en escala nominal Ejemplo 5. El número de urgencias atendidas en centro de salud en 30 noches ha sido: 0 7 Nº de urgencias (xi) Nº de días (fi) 1 8 2 5 3 4 4 3 5 1 6 2 Calcular la media, moda mediana Para calcular los parámetros pedidos se construye el siguiente cuadro de frecuencias xi fi Fi xi · fi 0 1 2 3 4 5 6 7 8 5 4 3 1 2 7 15 20 24 27 28 30 0 8 10 12 12 5 12 N= ∑ f i = 30 Media: x= ∑ x i ⋅ f i = 59 ∑ x i ⋅ f i = 59 = 1'97 N 30 Moda: Valor de la variable de mayor frecuencia. Mo = 1 Mediana: Por ser el número de datos par, la mediana es la media aritmética de los dos valores centrales. x i / Fi ≥ N = 15 : x 1 = 1 2 Valores centrales: N + 1 = 16 : x = 2 ≥ x / F i i 2 2 x + x 2 1+ 2 = = 1'5 Me = 1 2 2 Ejemplo 6. Sobre una muestra de 150 personas a las que se le ha realizado un test de 50 preguntar sobre seguridad vial, se han obtenido los siguientes resultado agrupados en intervalos: 0 − 10 10 − 20 20 − 30 30 − 40 40 − 50 Intervalo 24 32 48 26 20 Frecuencia Calcular los parámetros de centralización. Cuadro de frecuencias Intervalo 0 − 10 10 − 20 20 − 30 30 − 40 40 − 50 M.C. (xi) fi Fi xi · fi 5 15 25 35 45 24 32 48 26 20 24 56 104 130 150 120 480 1200 910 900 N= Media: x= ∑ f i = 150 ∑ x i ⋅ f i = 3610 = 24'1 N 150 ∑ x i ⋅ f i = 3610 Moda: El intervalo modal es el de mayor frecuencia Intervalo Modal ≡ [20, 30 ) El calculo de la moda se hace por interpolación lineal sobre el intervalo modal según la expresión: D1 Mo = L i + c ⋅ D1 + D 2 L i = 20 c = 10 teniendo en cuenta: D1 = f i − f i −1 = 48 − 32 = 16 D 2 = f i − f i +1 = 48 − 26 = 22 Mo = 20 + 10 ⋅ 16 = 24'2 16 + 22 Mediana: El intervalo mediano es el primer intervalo cuya frecuencia absoluta acumulada es mayor o igual que el cociente N/2. Aplicando a este caso Fi ≥ 150 = 75 ⇒ Intervalo mediano ≡ [20, 30 ) 2 El cálculo de la mediana se hace por interpolación lineal sobre el intervalo mediano según la expresión: N − Fi −1 Me = L i + c ⋅ 2 fi L i = 20 = c 10 donde: N = 150 F = 56 i −1 f i = 48 ⇒ 150 − 56 = 24'0 Me = 20 + 10 ⋅ 2 48 Gráficamente El cálculo gráfico requiere mucha precisión por lo que es menos exacto. Parámetros de dispersión Cuantiles Son valores de variable estadística que dividen a la distribución en intervalos con igual número de datos cada uno de ellos. En función del número de intervalos en que divida a la distribución pueden ser: • Cuartiles. Son tres valores(Q1, Q2, Q3) que determinan las posiciones correspondientes al 25%, al 50% y al 75% de los datos, dividiendo la distribución en cuatro subconjuntos con el 25% de los datos cada uno de ellos. La diferencia entre los cuartiles superior e inferior se llama rango intercuartilico. • Quintiles. Son cuatro valores(K1, K2, K3, K4) que determinan las posiciones correspondientes al 20%, 40%, 60%, y 80% de los datos, dividiendo la distribución en cinco subconjuntos con el 20% de los datos cada uno de ellos • Deciles. Son nueve valores(D1, D2,..., D9) que corresponden al 10%, 20%,..., y 90% de los datos. Dividen a la distribución en diez subconjuntos con el 10% de los datos cada uno de ellos. • Percentiles (o centiles). Son noventa y nueve valores(P1, P2, ...P99) que dan el valor de la posición correspondiente a cualquier porcentaje. Dividen a la distribución en cien subconjuntos. Cálculo: - Para distribuciones con datos sin agrupar se busca el primer valor que cumpla: N Fi = k ⋅ n Donde n indica el tipo de cuantil; Para cuartiles n = 4, para quintiles n = 5, para deciles n = 10, y para percentiles n = 100. k especifica el cuantil buscado, toma valores desde 1 hasta n−1. N es el tamaño de la muestra. N N N N Ejemplos: Q 3 : Fi ≥ 3 ⋅ ; K 2 : Fi ≥ 2 ⋅ ; D 7 : Fi ≥ 7 ⋅ ; P35 : Fi ≥ 35 4 5 10 100 - Para distribuciones con datos agrupados se busca el intervalo donde se encuentra el cuantil deseado de la misma forma que en las distribuciones sin agrupar y sobre este intervalo se hace una interpolación mediante la expresión: N k ⋅ − Fi −1 n k = Li + c ⋅ n fi Ejemplos: N N 2 ⋅ − Fi −1 3 ⋅ − Fi −1 ; K 2 = Li + c ⋅ 5 Q3 = Li + c ⋅ 4 fi fi D7 = Li + c ⋅ 7⋅ N N − Fi−1 − Fi −1 35 ⋅ 10 100 ; P35 = L i + c ⋅ fi fi Rango o recorrido Es la diferencia entre el mayor y menor valor de la variable. Es una medida muy imprecisa, ya que sólo tiene en cuenta los valores extremos. Tampoco permite hacer comparaciones entre distintas distribuciones. Desviación media respecto a la media aritmética n ∑ xi − x ⋅ fi D x = i =1 N Cuanto más elevado sea su valor, más dispersión existirá y la media, será menos representativa. Varianza y desviación típica La varianza(s2), es la media aritmética de las diferencias al cuadrado de cada dato respecto de la media de todos ellos. Su fórmula es : s2 = ∑ (x i − x )2 ⋅ f i N aplicando las propiedades de los sumatorios, se obtiene una expresión más práctica s 2 x i2 ⋅ f i ∑ 2 = −x N La varianza, al obtenerse a partir del cuadrado de las diferencias de los datos respecto de la media, hace que los valores más alejados tenga mayor peso en el resultado: en consecuencia, distingue mejor que la amplitud la variabilidad ó dispersión de los datos de dos distribuciones. Cuanto más elevado sea su valor, más dispersión existirá y la media , será menos representativa. La varianza viene expresada en unidades al cuadrado. Propiedades - Siempre es positiva - Si sumamos a todos los valores de la distribución una constante, la varianza no varia. - Si multiplicamos a todos los valores de la distribución por una constante, la varianza queda multiplicada por la constante al cuadrado. Desviación típica La desviación típica es la raíz cuadrada positiva de la varianza. s= ∑ (x i − x )2 ⋅ f i ∑ x i2 ⋅ f i − x 2 ó bien s= N N La desviación típica es la medida de variabilidad ó dispersión más utilizada. Cuanto más elevado sea su valor, más dispersión existirá y la media , será menos representativa. La varianza y la desviación típica también se designan por σ 2 y σ , respectivamente. En las calculadoras, la desviación típica suele describirse por σ o por σ n . Propiedades - Siempre es positiva - Si sumamos a todos los valores de la distribución una constante, la desviación típica no varia. - Si multiplicamos a todos los valores de la distribución por una constante, la desviación típica queda multiplicada por la constante. El coeficiente de variación La dispersión no puede determinarse exclusivamente a partir de la desviación típica, ya que es un concepto relativo. Por tanto, para establecer comparaciones hay que tener también en cuenta la media de los datos. Una medida de la dispersión relativa de dos conjuntos de datos es el coeficiente de variación, que se define como: s Coeficiente de variación C.V. = x Dados dos conjuntos, aquel que tenga un coeficiente de variación mayor es el más disperso, el más heterogéneo. Además, su valor no depende de la unidad de medida utilizada, pues la media y la desviación típica se ven afectadas igualmente. Ejemplo 7. Durante el mes de Julio, en una determinada ciudad de la costa levantina, se han registrado las siguientes temperaturas máximas: 27 28 29 30 31 32 33 34 T(ºC) (xi) 1 2 6 7 8 3 3 1 Nº días (fi) Calcular: a. Media, Moda y Mediana b. Q1, Q3, P35, P85 c. Desviación media, desviación típica y coeficiente de variación. Se construye el siguiente cuadro de frecuencias: a. xi fi Fi xi · fi 27 28 29 30 31 32 33 34 1 2 6 7 8 3 3 1 1 3 9 16 24 27 30 31 27 56 174 210 248 96 99 34 N= Media: x = ∑ f i = 31 ∑ x i ⋅ f i = 944 ∑ x i ⋅ f i = 944 = 30'45 N 31 Moda: Mo = 31. Por ser el de mayor frecuencia absoluta(f 31 = 8) Mediana: Por ser el número de datos impares, la mediana es el valor central. Se localiza por ser el primer valor cuya frecuencia absoluta acumulada es mayor o igual que el cociente N/2. N = 31 = 15'5 : F ≥ 15'5 ⇒ Me = 30 Me 2 2 b. Los Cuantiles al igual que la mediana, se buscan en la frecuencia absoluta acumulada: Q 1: FQ1 ≥ 1 ⋅ P 35: FP 35 ≥ 35 ⋅ xi Fi 27 28 29 30 31 32 33 34 1 3 9 16 24 27 30 31 31 = 7'75 ⇒ Q1 = 29 4 31 = 10'89 : P35 = 30 100 Q 3: FQ3 ≥ 3 ⋅ 31 = 23'25 ⇒ Q 3 = 31 4 P 85: FP 85 ≥ 85 ⋅ 31 = 26'35 : P85 = 32 100 Para calcular los parámetros de dispersión pedidos, es necesario el siguiente cuadro de frecuencias: c. xi fi xi · fi xi2 · fi 27 28 29 30 31 32 33 34 1 2 6 7 8 3 3 1 27 56 174 210 248 96 99 34 729 1568 5046 6300 7688 3072 3267 1156 ∑ f i = 31 ∑ x i ⋅ f i = 944 ∑ x i2 ⋅ f i = 28826 −3’45 −2’45 −1’45 −0’45 0’55 1’55 2’55 3’55 n ∑ xi − x ⋅fi Desviación media: D x = i =1 Desviación típica: s = σ = N = 79'68 = 2'57 31 ∑ x i2 ⋅ f i − x 2 = N Coeficiente de variación: C.V. = 28826 − 30'45 2 = 1'63 31 s 1'63 = = 0'0535 ⇒ C.V.(% ) = 5'35 x 30'45 11’9025 12’005 12’615 1’4175 2’42 7’2075 19’5075 12’6025 ∑ (x i − 30'5)2 f i = 79'68 Ejemplo 8. Se ha estudiado el coeficiente intelectual de los 210 alumnos de un centro de Bachiller, obteniéndose los siguientes resultados Coeficiente Intelectual (xi) Nº de alumnos (fi) [82, 90) [90, 98) [98, 106) [106, 114) [114, 122) [122, 130) [130, 138) [138, 146) 12 32 49 54 30 17 11 5 Calcular: a. La Media, la Moda y la Mediana b. El K2, D8, P5 c. La puntuación necesaria para pertenecer al 15% de alumnos con mayor coeficiente intelectual d. La Varianza y el coeficiente de variación e. Cual de las distribuciones de los ejemplos 7 y 8 esta menos dispersa. a. Cuadro de frecuencias Media: x = Intervalo xi fi [82, 90) [90, 98) [98, 106) [106, 114) [114, 122) [122, 130) [130, 138) [138, 146) 86 94 102 110 118 126 134 142 12 32 49 54 30 17 11 5 ∑ f i = 210 Fi 12 44 93 147 177 194 205 210 xi · fi 1032 3008 4998 5940 3540 2142 1474 710 ∑ x1 ⋅ f i = 22844 ∑ x i ⋅ f i = 22844 = 108'8 N 210 Moda: El intervalo modal es el de mayor frecuencia. [106, 114). La moda se obtiene por interpolación: Mo = L i + c ⋅ D1 D1 + D 2 L i = 106 c=8 teniendo en cuenta: D1 = f i − f i −1 = 54 − 49 = 5 D 2 = f i − f i +1 = 54 − 30 = 24 Mo = 106 + 8 ⋅ 5 = 107'4 5 + 24 Mediana: El intervalo donde se encuentra la media es el primer cuya frecuencia absoluta acumulada es mayor o igual que el cociente N/2. Fi ≥ 210 = 105 2 buscando en la columna de la frecuencia acumulada Me ∈ [106, 114 ) Una vez localizada se calcula por interpolación N − Fi −1 Me = L i + c ⋅ 2 fi L i = 106 = c 8 donde: N = 210 F = 93 i −1 f i = 54 ⇒ 210 − 93 = 107'8 Me = 106 + 8 ⋅ 2 54 El segundo quintil está en el primer intervalo cuya frecuencia absoluta acumulada sea mayor o igual N que 2 ⋅ 5 210 = 84 ⇒ K 2 ∈ [98, 106) Fi ≥ 2 ⋅ 5 El K2 se obtiene por interpolación: L i = 98 N 210 2 ⋅ − Fi −1 c = 8 2⋅ − 44 5 5 = 104'5 K 2 = Li + c ⋅ = N = 210 = 98 + 8 ⋅ fi 49 F = 44 i −1 f i = 49 b. El octavo decil(D8) está en el primer intervalo cuya frecuencia absoluta acumulada sea mayor ó igual N que 8 ⋅ 10 210 = 168 ⇒ K 2 ∈ [114, 122 ) Fi ≥ 8 ⋅ 10 El D8 se obtiene por interpolación: L i = 114 210 N 8⋅ 8 ⋅ − Fi−1 c = 8 − 147 10 = 119'6 = N = 210 = 114 + 8 ⋅ 10 D8 = Li + c ⋅ 30 fi F = 147 i −1 f i = 30 El quinto percentil(P5) está en el primer intervalo cuya frecuencia absoluta acumulada sea mayor ó N igual que 5 ⋅ 100 210 Fi ≥ 5 ⋅ = 10'5 ⇒ P5 ∈ [82, 90 ) 100 El P5 se obtiene por interpolación: L i = 82 210 N 5⋅ 5⋅ −0 − Fi −1 c = 8 100 100 = 89 = N = 210 = 82 + 8 ⋅ P5 = L i + c ⋅ 12 fi F = 0 i −1 f i = 12 Se pide calcular el percentil ochenta y cinco, ya que este deja a su izquierda el 85% de la c. distribución, y a su derecha el 15%, que debido al orden creciente de la distribución, corresponde al de mayor nota. El P85 está en el primer intervalo cuya frecuencia absoluta acumulada sea mayor ó igual que 85 ⋅ Fi ≥ 85 ⋅ 210 = 178'5 ⇒ P5 ∈ [122, 130 ) 100 El P85 se obtiene por interpolación: L i = 122 210 N 85 ⋅ 85 ⋅ − 177 − Fi −1 c = 8 100 100 = 122'7 = N = 210 = 122 + 8 ⋅ P85 = L i + c ⋅ 17 fi F = 177 i −1 f i = 17 Par estar en el 15% de mayor coeficiente intelectual, la nota del test debe ser mayo que 122. d. Cuadro de frecuencias Intervalo xi fi [82, 90) [90, 98) [98, 106) [106, 114) [114, 122) [122, 130) [130, 138) [138, 146) 86 94 102 110 118 126 134 142 12 32 49 54 30 17 11 5 Varianza: σ 2 = C.V. = σ = x xi · fi 1032 3008 4998 5940 3540 2142 1474 710 xi2 · fi 88752 282752 509796 653400 417720 269892 197516 100820 ∑ f i = 210 ∑ x1 ⋅ f i = 22844 ∑ x i2 ⋅ f i = 2520648 ∑ x i2 ⋅ f i − x 2 = 2520648 − 108'8 2 = 165'6 N 210 σ2 165'5 = = 0'1183 ⇒ C.V.(% ) = 11'83 x 108'8 Para comparar la dispersión de dos distribuciones, se comparan sus coeficientes de variación, el e. menor valor corresponderá a la menos dispersa. Ejemplo 7: C.V. = 5’35% Ejemplo 8: C.V. = 11’83% En la distribución del ejemplo 7, los datos están menos dispersos respecto de la media que en el ejemplo 8. Comparación de puntuaciones Para poder comparar valores de dos distribuciones diferentes, es decir, para poder comparar las posiciones de dos valores dentro de sus respectivas distribuciones, es necesario tipificar las variables x −x Variable tipificada: z i = i σ N 100 Ejemplo 9. Un alumno obtiene un 5’5 en el examen de matemáticas y un 6’4 en el examen de filosofía. ¿En cual examen obtuvo mejor nota respecto a su clase?. x m = 5'2 Examen de matemáticas : σ m = 1'02 Datos: Examen de filosofía : x f = 5'9 σ f = 1'72 Para poder compara las puntuaciones de dos exámenes hay que desvincular las variables de lo que miden, eso se consigue mediante su tipificación. x − x m 5'5 − 5'2 = = 0'294 z = m x i − x m σm 1'02 zi = : σ z f = x f − x f = 6'4 − 5'9 = 0'291 σf 1'72 Respecto de la clase, obtuvo mejor nota en el examen de matemáticas ya que su valor tipificado es mayor.