CURSO DE ESTADÍSTICA BÁSICA APLICADA A LA GESTIÓN OFICINA NACIONAL DE SERVICIO CIVIL ESCUELA DE FUNCIONARIOS PÚLICOS AÑO 2009. Responsable: Lic. Daniella M. Repetto Pereira [email protected] ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009. 1 1.- CONCEPTOS BÁSICOS DE ESTADÍSTICA Estadística es algo más que la recolección y publicación (tal cual se ven en revistas y diarios) de hechos y datos numéricos Se puede considerar como la aplicación del método científico de análisis de datos numéricos, con el fin de tomar decisiones racionales. Estadística será tratada aquí como una Ciencia que trata de la recopilación, presentación, análisis e interpretación de datos numéricos (estadísticas) con el fin de realizar una toma de decisiones más efectiva Funciones de la Estadística: • Resumen de los datos y extracción de información relevante, esto es de las mediciones observadas, sean estas numéricas, clasificatorias, ordinales o de otro tipo. • Búsqueda y evaluación de los modelos y pautas que ofrecen los datos, pero que se encuentran ocultos por la inherente variabilidad de los mismos. • Contribuir al diseño eficiente de experimentos y encuestas. • Facilitar la comunicación entre los científicos, ya que siempre será más fácil comprender la referencia a un procedimiento estándar, sin necesidad de mayor detalle. • La autentificación científica que sería el utilizar adecuadamente los métodos estadísticos de acuerdo a los estudios que se estén realizando; y la no exageración de producción de datos en trabajos que de repente no lo requieren. Divisiones dentro de la estadística: Estadística Descriptiva: Consiste en un conjunto de instrumentos y temas relacionados con la descripción de colecciones de observaciones estadísticas, se refiere tanto al total de la población como a la muestra, y su finalidad es “resumir” un conjunto de datos numéricos. Estadística Inferencial o Inductiva: Se ocupa de la lógica y el procedimiento para la inferencia y la inducción de propiedades de una población en bases a resultados obtenidos de una muestra conocida. A MODO DE EJEMPLO: Analizaremos las Estadísticas sobre la Violencia y la Criminalidad en el Uruguay. Objetivo general: Realizar un Anuario sobre la Violencia y la Criminalidad en el Uruguay. ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009 ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009. 2 •Objetivo específico: Describir las condiciones de la Violencia y la Criminalidad según, los Delitos y Faltas, hechos y la cantidad de personas asignadas a tareas de seguridad. Para poder realizar este estudio descriptivo se deben tener en cuenta los conceptos de universo, población, muestra, unidad de análisis y unidad de relevamiento UNIVERSO DE ANÁLISIS El universo se compone por todos los objetos, cosas, individuos, características del fenómeno que se quiere estudiar, en nuestro ejemplo serían “Todos los delitos denunciados en el Uruguay desde 2000 hasta el 2006.” POBLACIÓN La población objeto de estudio se compone por todos los objetos, cosas, individuos, características del fenómeno que se quiere estudiar se podría definir como el conjunto de las unidades que constituyen el objeto de investigación, debe estar acotada en espacio y tiempo para así poder definirla con mayor precisión y exactitud. Para nuestro ejemplo la población objeto de estudio se definiría como “Todos los delitos denunciados en el Uruguay durante el primer semestre del año 2002” MUESTRA La muestra es una parte de esa población o universo objeto de estudio. Debe de estar compuesta por los mismas cosas, objetos, individuos, de la población a la cual pertenece; la muestra es una parte representativa de esa población y se selecciona para que represente a la población total del estudio en la ejecución del proyecto de investigación empírico, debe también estar acotada en espacio y tiempo. Para nuestro ejemplo la muestra serían “algunos delitos denunciados en el Uruguay durante el primer semestre del 2002.” UNIDAD DE ANÁLISIS La unidad de análisis serían los elementos (cosas, objetos, individuos, grupos etc. cada uno de ellos) que componen la muestra pertenecientes a la población objeto de estudio la unidad de análisis se definiría como la unidad básica de ese conjunto. En nuestro ejemplo la unidad de análisis sería “un delito denunciado en Uruguay” . UNIDAD DE RELEVAMIENTO Es la unidad que aporta la información, es aquel individuo, grupo u objeto que trasmite o brinda la información para la construcción del dato estadístico. En nuestro ejemplo, la unidad de relevamiento “es el.” ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009 ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009. 3 Muchas veces la unidad de análisis y de relevamiento coincide. UNIVERSO POBLACIÓN POBLACIÓN MUESTRA UNIDADES DE ANÁLISIS RECOLLECIÓN DE DATOS Para poder efectuar el estudio de la descripción de la violencia y criminalidad en el Uruguay, debemos definir previamente qué técnicas metodológicas de investigación aplicaremos en nuestro estudio, teniendo en cuenta el tipo de diseño de investigación que se está planteando, el objeto de estudio que se va a analizar y la teoría sobre la que se va a sustentar el estudio. También se podrían utilizar fuentes secundarias de datos ya existentes que aportaran información sobre el objeto de estudio, así como encuestas oficiales, censos (por ejemplo el del Instituto Nacional de Estadística de 1996), Encuesta Continua de Hogares, datos publicados por organismos públicos o privados, entre otros. Supongamos que para estudiar la descripción de la delincuencia en el Uruguay se realiza un relevamiento de la información contenida en los formularios de denuncias de los mismos. Para esto, se requiere determinar los tipos de datos con los cuales se va a trabajar, es decir las variables que aportarán la información a nuestro problema de estudio. VARIABLES Representan y sintetizan conceptualmente las propiedades o características de las unidades de análisis, a las cuales se les pueden adjudicar distintos valores numéricos. Son conceptos que pueden asumir diferentes valores. ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009 ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009. 4 Del punto de vista estadístico se manejan variables aleatorias o sean fenómenos de interés, cuyos resultados (datos) observados pueden diferir entre una y otra respuesta (valores), a estas posibles respuestas se les llama categorías de la variable. Las categorías de una variable deben cumplir dos requisitos fundamentales, deben de ser exhaustivas (deben estar todas las respuestas posibles) y excluyentes (no se pueden ubicar las respuestas en dos categorías al mismo tiempo, pertenece a una categoría u a otra). Por ejemplo: Variable Respuestas (Categorías) Variable Respuestas (Categorías) Variable Respuestas Delitos contra la persona lesiones, homicidios, sexuales Nivel Educativo Alto, Medio, Bajo. Cantidad de Intervenciones Policiales las veces que se registran las mismas (una, cinco, ocho....etc.) Existen dos tipos básicos de variables aleatorias que producen datos de tipo: cualitativo y cuantitativos. Las variables que producen datos cualitativos producen categóricas “Delitos contra la propiedad”, “nivel educativo” respuestas Las variables que producen datos cuantitativos producen respuestas numéricas “cantidad de intervenciones policiales” Los datos cuantitativos se pueden considerar también como discretos o continuos. Los datos cuantitativos discretos son respuestas numéricas que surgen de un proceso de conteo, ejemplo Los datos cuantitativos continuos son respuestas numéricas que surgen de un proceso de medición, ya que las repuestas puede encontrarse en un intervalo según sea la exactitud del instrumento de medición.; La Estadística Descriptiva puede ser univariada, referirse a una sola variable, o bivariada más de una variable simultáneamente. La estadística descriptiva univariada, es aquella rama de la estadística que analiza y describe la distribución de una variable. ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009 ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009. 5 Las variables reflejan el dato (las repuestas) y se distribuyen a través de sus diferentes valores, generando una distribución de frecuencias. Esta distribución de frecuencias puede ser original (los datos brutos) o una distribución de datos agrupados (una tabla de datos). Distribución de Datos Originales Ejemplo: distribución de la variable “delitos contra la persona” Lesiones, lesiones, homicidios, homicidios, sexuales, lesiones, homicidios, lesiones, homicidios, homicidios, sexuales, lesiones, homicidios, homicidios homicidios, sexuales, lesiones, sexuales, lesiones, lesiones, sexuales, homicidios, homicidios, sexuales, lesiones, sexuales, lesiones, lesiones, sexuales, homicidios, La distribución de frecuencias originales podría aparecer también con las categorías codificadas. Donde 1 = lesiones 2= homicidios 3= sexuales 1 - 1 – 2 – 2 – 3 – 1 –3 – 2 –3 - 1 – 1 – 1 – 3 – 2 – 2 - 1– 2 – 2 –3 – 1 –3 – 1 – 2- 3 – 1 – 1 –1 – 3 –2 - 2 –2 Distribución de Datos Agrupados TABLA DE DISTRIBUCIÓN DE LOS DELITOS CONTRA LA PERSONA Para poder armar una tabla de frecuencias de este tipo se debe definir previamente los elementos de las misma. VARIABLE 1 (LESIONES) 2 (HOMICIDIOS) 3 (SEXUALES) TOTAL fi 12 11 7 30 hi 0,4 0,36 0,24 1 % 40 36 24 100 Porcentajes de Delitos contra la Persona 23% 40% 1 (LESIONES) 2 (HOMICIDIOS) 3 (SEXUALES) 37% Fuente: Elaboración propia. ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009 ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009. 6 Frecuencias Absolutas ( fi o ni) Número de elementos en la población o en las muestras, que adoptan un mismo valor para la variable. Significa la cantidad de veces que se repite ese valor (categoría) en la distribución. Ejemplo: frecuencia absoluta de lesiones igual 12; frecuencia absoluta de homicidios igual 11, frecuencia absoluta de sexuales igual 7. Frecuencia Relativa (fr o hi) Proporción de la unidad que representa la frecuencia absoluta. Se obtiene de dividir cada frecuencia absoluta entre el total de la población. fr = fi / n Ejemplo: frecuencia relativa de lesiones es igual a 12/30, es decir, 0,40; para los homicidios es 11/30, es decir, 0,36; sexuales 7/30, es decir 0,24. La suma de las frecuencias relativas debe ser igual a 1. La descripción de una variable depende del tipo de escala de medición a la cual pertenece, luego de definida la misma se describirá a través de la realización de tablas (resumen de la información), gráficos e indicadores de posición y/o dispersión que dependerá en ambos casos de la escala de medición que se esté trabajando. 2.- CLASIFICACIÓN DE ESCALAS DE MEDICIÓN Y SUS GRÁFICOS RESPECTIVOS. Las escalas de medición pueden ser nominales, ordinales, intervales o de razón, se definen a partir de su nivel de medición. Comenzaremos por las escalas de menor nivel, nominales y ordinales que se representan a través de variables cualitativas. Para continuar posteriormente con las escalas de mayor nivel, intervales y de razón representadas por las variables cuantitativas. INTERVAL RAZÓN NOMINAL ORDINAL ORDINAL ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009 ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009. 7 ESCALA NOMINAL Es una escala que clasifica unidades en dos o más categorías que se excluyen mutuamente, estableciéndose equivalencias o diferencias, no establece ningún tipo de orden para las respuestas. Los valores de las respuestas es decir las categorías son atributos o cualidades, si por algún motivo aparecen números como respuestas, estos son códigos de clasificación, nunca sus verdaderos valores. Ejemplos: Sexo (masculino, femenino); Delitos contra la Persona (lesiones, homicidios, sexuales); Estado civil (soltero, casado, viudo, divorciado, unión libre); Delitos contra la propiedad (hurto, rapiña, daños). ESCALA ORDINAL Cuando las unidades o valores son clasificados y ordenados según su magnitud (de menor que o mayor que) se está en presencia de una escala ordinal. Los números indican un orden pero no muestran con exactitud la respuesta y estos números muchas veces son códigos, o una manera jerárquica de describir las categorías de una variable. EJEMPLOS: Nivel Educativo (Alto, Medio, Bajo) Opinión sobre las condiciones del celdario (Muy Bueno, Bueno, Malo, Muy Malo, otro) ESCALA DE INTERVALOS Son escalas de medida que clasifican y ordenan las unidades presuponiendo la existencia de intervalos iguales para que la distancia entre cualquiera de los pares de unidades sea conocida y pueda ser objeto de comparación. Ejemplos: La edad La cantidad de Intervenciones Policiales ESCALAS DE RAZÓN Cuando una medición tiene todas las características de una medida de intervalo (de una escala interval), y además se le puede asignar un punto de origen verdadero de valor 0. Es decir que e punto de origen se conoce y no es ambiguo, porque su valor puede ser cero o menor a cero. Ejemplo: Número de años de la Escolaridad ( puede ser 0, 1, 3, 8 ....,etc) Ingreso mensual por actividad principal (0, $1.000, $ 1.500, $ 3.500........) ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009 ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009. 8 DESCRIPCIÓN DE VARIABLES SEGÚN SU ESCALA DE MEDICIÓN. Como ya se dijo anteriormente, para describir una variable se deben tener tres elementos fundamentales, tablas, gráficos y medidas resumen (indicadores de posición, centralidad y dispersión). Comenzaremos por definir como se deben construir las tablas de frecuencias, para cada una de las escalas de medición nominal, ordinal, interval y ratio (cociente o razón), para luego establecer qué tipo de gráficos se pueden realizar y finalmente definir cuáles son los indicadores de posición y dispersión más adecuados para cada una de las escalas mencionadas. TABLA PARA ESCALAS NOMINALES. Las tablas de distribución de frecuencias para variables que pertenecen a una escala nominal, deben tener los siguientes componentes: Xi = es la variable con la cual se está trabajando y sus respectivas categorías. fi ó ni = Frecuencia Absoluta Simple: Número de elementos en la Población o en la muestra, que adoptan un mismo valor para la Variable. Significa la cantidad de veces que aparece o se presenta ese valor (categoría) en la distribución. N = Tamaño de la Población: es el total de casos por los que está compuesta la población objeto de estudio que se está trabajando. n = Tamaño de la Muestra: es el total de casos que contiene la muestra sobre la que se está trabajando. fr ó hi = Frecuencia Relativa Simple: Proporción de la unidad que representa la frecuencia absoluta para cada una de las categorías de la variable, tomando un valor que varía entre 0 y 1; se pueden expresar también en porcentajes (%), variando su valor de 0 a 100 %. Se obtiene dividiendo cada frecuencia absoluta entre el total de la población o de la muestra. Si se quiere expresar en porcentajes (%) se deben multiplicar por 100, el resultado obtenido en la división anterior. Para la Población fr = fi / N Para la Muestra fr = fi / n La suma de las frecuencias relativas simples siempre debe dar 1 (uno) si se está trabajando con la proporción y 100 % si se expresa en porcentajes. Nunca los valores que asuman las frecuencias pueden ser negativos, ya que denotan las veces que aparecen esas respuestas (características) en la distribución de la variable que se esté trabajando. ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009 ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009. 9 Distribución de DELITOS contra la persona para el Año 2002. Xi (delitos contra la persona) LESIONES HOMICIDIOS SEXUALES n (total) Fi 2524 124 461 3109 fr (%) 81 4 15 100 % FUENTE: Anuario Estadístico sobre Violencia y Criminalidad en el Uruguay 1990 – 2002. Programa de Seguridad Ciudadana – Ministerio del Interior Para obtener las frecuencias relativas simples (fr) que aparecen en la tabla se debió realizar los siguientes pasos: fr = fi / n 2524/3109 = 0,81 como lo expresamos en porcentajes (%) lo que se hizo a posteriori fue multiplicarlo por 100. Donde 81% se deduce de la siguiente manera: (2524 % 3109) x 100 = 81 % Este procedimiento se aplica sobre cada una de las frecuencias absolutas simples de la tabla de distribución de frecuencias, de acuerdo a las categorías que posee la variable, lo cual significa que tendrá para cada una de las categorías respectivas una frecuencia absoluta simple y una frecuencia relativa simple (la proporción o porcentaje de acuerdo a las veces que se reiteran esas respuestas para cada categoría). GRÁFICOS PARA ESCALA NOMINAL Para las escalas nominales los gráficos que se pueden realizar son los siguientes: • • • Sectores o Torta. (se debe realizar en porcentajes y es fundamental la presentación de las referencias para cada una de las categorías de la variable en estudio) Barras Simples, Barras acostadas y Bastones.( Se pueden utilizar las frecuencias absolutas o relativas simples en forma indistinta las cuales se deben ubicar en el eje Y, mientras que en el eje X de deben ubicar las categorías de la variable en estudio). Pictogramas. (Se debe recordar que siempre la figura que se seleccione debe ser utilizada teniendo en cuanto la unidad a la que pertenece, es decir: si una casa es igual a 1000 casas y esto se toma como la unidad de medida, 2 casas serán igual a 2000 casas) ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009 ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009. 10 GRÁFICO DE SECTORES Porcentajes de Delitos contra la Persona. Año 2002. 15% 4% LESIONES HOMICIDIOS SEXUALES 81% FUENTE: Anuario Estadístico sobre Violencia y Criminalidad en el Uruguay 1990 – 2002. Programa de Seguridad Ciudadana – Ministerio del Interior Cantidad de Casos GRÁFICO DE BARRAS. Delitos contra la Persona. Año 2002. 3000 2500 2000 Serie1 1500 1000 500 0 LESIONES HOMICIDIOS SEXUALES Delitos FUENTE: Anuario Estadístico sobre Violencia y Criminalidad en el Uruguay 1990 – 2002. Programa de Seguridad Ciudadana – Ministerio del Interior GRÁFICO DE BARRAS ACOSTADAS Delitos contra la Persona. Año 2002. Delitos SEXUALES HOMICIDIOS LESIONES 0 1000 2000 3000 SEXUALES HOMICIDIOS LESIONES Cantidad de Casos FUENTE: Anuario Estadístico sobre Violencia y Criminalidad en el Uruguay 1990 – 2002. Programa de Seguridad Ciudadana – Ministerio del Interior. ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009 ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009. 11 TABLA PARA ESCALA ORDINAL. La tabla de distribución de frecuencias para escalas ordinales, contiene los mismos elementos que la escala nominal, a diferencia de la anterior se le deben agregar las frecuencias absolutas y relativas acumuladas. Las frecuencias acumuladas se generan a partir de que, la distribución de frecuencias se clasifica en una tabla en donde las categorías son ordenadas en forma natural de menor a mayor, generándose las frecuencias absolutas y relativas acumuladas. Para Manuel García Ferrando (1) las distribuciones de frecuencias acumuladas “son útiles en la comparación cuando se desea comparar la forma en que los casos se distribuyen a lo largo de una escala” . Fi ó Ni = Frecuencias Absolutas Acumuladas Significan la cantidad de casos (respuestas posibles) que se pueden obtener hasta un determinado nivel de la escala de medición. Fr ó Hi = Frecuencias Relativas Acumuladas es la proporción o el porcentaje de casos (proporción de las respuestas posibles) que se pueden lograr hasta un determinado nivel de la escala de medición. Distribución del total de encuestados según el Nivel Educativo. Xi (Nivel Educativo). BAJO MEDIO ALTO n (total) fi 95 25 7 127 fr (%) 75 20 5 100 % Fi 95 120 127 Fr 75% 95 % 100 % FUENTE: Elaboración propia...... Para obtener las frecuencias absolutas y relativas acumuladas se debe tener en cuenta que la escala de medición de la variable al menos debe ser “ordinal”, ya que el procedimiento que se debe seguir para obtener cada una de estas frecuencias parte de la base, que la escala a la cual pertenece la variable tiene un orden, y que las categorías de la variable en la tabla están ordenadas según un criterio que puede ser creciente (de menor a mayor) o decreciente (de mayor a menor) generándose así las frecuencias acumuladas crecientes o decrecientes. En general se trabajará con el orden natural creciente (de menor a mayor) generándose así las frecuencias absolutas acumuladas (Fi ó Ni) y las frecuencias relativas acumuladas (Fr ó Hi). (1) García Ferrando M.: Siocioestadística. Introducción a la Estadística en Sociología. Pág. 60. Alianza Editorial. Madrid 1985 ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009 ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009. 12 GRÁFICOS PARA ESCALA ORDINAL Para realizar una descripción gráfica de las variables de escala ordinal utilizando las distribuciones de frecuencias simples, se debe seguir el mismo procedimiento que para las escalas nominales, generándose gráficos de sectores o torta, barras simples o acostadas y bastones; la diferencia entre estas escalas está dada por las frecuencias acumuladas absolutas o relativas ya que con las mismas se puede construir el gráfico de escalera. GRÁFICO DE SECTORES O TORTA Distribución del Nivel Educativo. 6% 20% BAJO MEDIO ALTO 74% FUENTE: Elaboración propia ........ Frecuencias Absolutas Simples GRÁFICO DE BARRAS. Distribución del Nivel Educativo 100 80 BAJO MEDIO ALTO 60 40 20 0 BAJO MEDIO ALTO Nivel Educativo FUENTE: Elaboración propia...... ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009 ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009. 13 Nivel Educativo GRÁFICO DE BARRAS ACOSTADAS. Distribución porcentual del Nivel Educativo 5 ALTO ALTO MEDIO BAJO 20 MEDIO 75 BAJO 0 20 40 60 80 Frecuencias Relativas Simples FUENTE: Elaboración propia...... Frecuencias Absolutas Acumuladas GRÁFICO DE ESCALERA. Nivel Educativo 140 120 100 80 60 40 20 0 120 127 95 BAJO MEDIO ALTO BAJO MEDIO ALTO Nivel Educativo FUENTE: Elaboración propia...... TABLAS PARA ESCALAS INTERVALES Y/O RATIO (RAZÓN) La tabla de distribución de frecuencias para escalas intervales o de ratio, posee todos los elementos de las escalas nominales y ordinales, con la diferencia que en estas escalas las categorías de la variable pasan a ser “clases o intervalos de clases” ; ya que estas escalas clasifican y ordenan las unidades presuponiendo la existencia de intervalos iguales, para que la distancia entre cualquiera de los pares de unidades sea conocida y pueda ser objeto de comparación. Los elementos que componen la tabla de distribución de frecuencias para escalas intervales y/o de ratio (razón) son los siguientes: L. Inf. = Límite inferior de la clase o del Intervalo de clase. L. Sup. = Límite Superior de la clase o del Intervalo de clase. ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009 ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009. 14 L.Inf. – L.Sup. = Clase o Intervalo de clase. Xc = Marca de Clase. Es el valor representante de esa clase, es él punto medio de cada clase o intervalo de clase y se obtiene realizando la siguiente operación matemática : Límite Inferior + Límite Superior 2 A i = Amplitud de clase. Es la distancia que existe entre el límite inferior (Xi – 1) y el límite superior (Xi + 1). Se obtiene restando el valor del límite superior menos el valor del límite inferior para cada clase o intervalo de clase. Límite Superior - Límite Inferior fi ó ni = Frecuencia Absoluta Simple. fr ó hi = Frecuencia Relativa Simple. Fi ó Ni = Frecuencia Absoluta Acumulada. Fr ó Hi = Frecuencia Relativa Acumulada. Para construir la tabla de distribución de frecuencias para estas escalas se debe tener en cuenta algunos criterios: • Selección del número apropiado de clases o intervalos. Las clases o intervalos dependen de la cantidad de observaciones con que se esté trabajando, cuanto mayor es el número de observaciones, mayor es el número de clases y viceversa. Se debe tener una cantidad de clases adecuadas ya que si existen pocas clases, los datos se encontrarán concentrados y si ocurre lo contrario, una excesiva cantidad de clases los datos estarán poco concentrados, obteniéndose poca información en ambos casos. • Obtener un intervalo de clase apropiado. Lo ideal es que las clases o intervalos sean de la misma amplitud “ancho”. Para determinar la amplitud en una tabla de frecuencias (la diferencia entre la observación más grande y la más pequeña) se debe seguir los siguientes pasos: 1. Definir la cantidad de clases que se desean trabajar. 2. Amplitud = Recorrido de la variable Número de Clases El recorrido de la variable es igual al Rango de la distribución, la observación más grande “el valor máximo”, menos el valor más pequeño “el valor mínimo”. Rango = Valor Máximo – Valor Mínimo ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009 ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009. • 15 Establecer los límites y fronteras de cada clase para evitar superposiciones de las frecuencias, e incluir al mismo tiempo todo el recorrido de la variable es decir todas las posibles respuestas, el criterio que utilizaremos para elaborar los mismos será que cada clase o intervalo sea abierto por la derecha y cerrado por la izquierda. Esto lo que hace es que el límite superior de la primera clase, sea igual al límite inferior de la segunda y así sucesivamente hasta la última clase en la que termina nuestra tabla de distribución de frecuencias. La desventaja que tiene la tabla de distribución de frecuencias para estas escalas cuantitativas (intervales y ratio o razón), es que no resulta posible saber como se distribuyen los valores individuales dentro de un intervalo particular de clase, solamente se podrían conocer estos valores si se tiene acceso a la distribución de datos originales. Distribución del total de encuestados según el Ingreso Mensual de los Hogares El ingreso está medido en pesos uruguayos (unidad de medida) L. Inf. - L. Sup. Xc fi Fr (%) Fi Fr 500 a 2.500 1.500 66 40 66 40 2.500 a 4.500 3.500 76 45 142 85 4.500 a 6.500 5.500 17 10 159 95 6.500 a 8.500 7.500 5 3 164 98 8.500 a 10.500 9.500 4 2 168 100 168 100 n (total) Ai 2.000 2.000 2.000 2.000 2.000 FUENTE: Elaboración propia...... Para determinar la marca de clase (Xc) para cada uno de los intervalos se debe realizar la siguiente operación: L. Inf. + L. Sup. = Xc Para la primera clase de 500 pesos a 2.500 pesos 2 (500 + 2.500) % 2 = 1.500 pesos. Para la segunda clase de 2,.500 pesos a 4.500 pesos ( 2.500 + 4.500)%2 = 3.500 pesos. Así sucesivamente para cada clase o intervalo de clase. Para determinar la amplitud (Ai) de cada clase o intervalo de clase se debe realizar la siguiente operación: L. Inf. - L. Sup. = Ai Para la primera clase de 500 pesos a 2.500 pesos. 2.500 – 500 = 2000 pesos. Para la segunda clase de 2.500 pesos a 4.500 pesos 4.500 – 2.500 = 2000 pesos y así sucesivamente para cada una de las clases o intervalos de clase. ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009 ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009. 16 Distribución del total de encuestados según horas semanales de trabajo. L. Inf. – L.Sup. Xc fi Fr (%) Fi Fr Ai 0 a 64 32 50 30 30 30 64 64 a 72 68 39 23 89 53 8 72 a 77 74,5 37 22 126 75 5 77 a 98 87,5 42 25 168 100 21 168 100 n (total) FUENTE: Elaboración propia...... GRÁFICOS PARA ESCALAS INTERVALES Y DE RATIO O RAZÓN. Las escalas cuantitativas se describen gráficamente a través de los siguientes gráficos: Histograma de Frecuencias: se debe utilizar la distribución de frecuencias simples absolutas o relativa, el histograma representa a las frecuencias mediante áreas; la variable aleatoria se representa a través del eje “X” (eje horizontal) donde se ubican los intervalos de clase, mientras que en el eje “Y” (vertical) se representan las frecuencias simples absolutas o relativas. Al ser continuo el eje “X “ lo que se pretende mostrar es que la variable es cuantitativa continua, donde la altura de los rectángulos que forman el histograma dan idea de densidad o concentración de los datos en esa zona, es decir que cuanto más alta sea el área de una clase más cantidad de datos posee y cuanto más baja y más cerca del eje “X” esté el área correspondiente a otra clase, menos cantidad de datos posee. Cuando se utilizan frecuencias relativas para la confección del histograma el área que queda por debajo de él (área total encerrada) es igual a 1. Si se realizara un histograma de frecuencias simples con una sola clase, éste tomaría la forma de un rectángulo, por lo que el histograma se verá afectado por la cantidad de clases y por la amplitud de cada una de ellas. Es importante destacar que si alguna de las clases definidas posee un solo dato, el área correspondiente a la misma será casi imperceptible ya que su altura será mínima, y no cumpliría el objetivo de poder observar la distribución a través de un gráfico. GRÁFICO HISTOGRAMA DE FRECUENCIAS. Horas Semanales de Trabajo. 50 40 Frecuencias 30 Absolutas 20 Simples 10 0 0 a 64 64 a 72 72 a 77 77 a 98 0 a 64 64 a 72 72 a 77 77 a 98 Intervalos de Clase FUENTE: Elaboración propia...... ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009 ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009. 17 Frecuencias Relativas Simples GRÁFICO HISTOGRAMA DE FRECUENCIAS RELATIVAS Ingreso Mensual de los Hogares. 50 40 40 45 30 20 10 10 3 2 6.500 a 8.500 8.500 a 10.500 500 a 2.500 2.500 a 4.500 4.500 a 6.500 6.500 a 8.500 8.500 a 10.500 0 500 a 2.500 2.500 a 4.500 4.500 a 6.500 Intervalo de Clase FUENTE: Elaboración propia...... Polígono de Frecuencias: al igual que el histograma de frecuencias , el polígono se construye con las frecuencias absolutas o relativas simples, las cuales se ubican en el eje “Y”, mientras que en el eje “X” se ubican las clases, la diferencia está dada en que el polígono une los puntos medios de cada clase es decir las marcas de clase (Xc). El área que queda por debajo de la totalidad del polígono debe ser 100% o 1 si se utilizan las frecuencias relativas y se debe cerrar el primero y el último punto medio o marca de clase con el eje “X” (horizontal), a fin de encerrar el área de la distribución observada, esto se logra al conectar el primer punto medio observado con el punto medio de una clase “precedente ficticia” y el último punto medio observado con el punto medio de una clase “sucesiva ficticia”. La ventaja que otorga el polígono con respecto al histograma es que se pueden plantear en un mismo plano varias distribuciones de frecuencias simultáneamente, y sirve a los efectos de comparación de distintas distribuciones univariadas sobre un mismo fenómeno al mismo tiempo, mientras que sería imposible de visualizar distribuciones univariadas en un mismo plano a través de los histogramas de frecuencias, ya que sería dificultoso identificar las diferentes distribuciones. No se presentarán aquí las formas correspondientes a cada gráfico de distribución de frecuencias para las escalas mencionadas, ya que serán vistos a través de la instrumentación de clases de apoyo de SPSS. Sus formas pueden ser consultadas también en la bibliografía recomendada en el curso. ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009 ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009. 18 Ojiva: este gráfico tiene la característica de utilizar las frecuencias absolutas o relativas acumuladas en el eje “Y”, mientras que el eje “X” se mantienen los intervalos de clase, pero su forma surge de unir los límites superiores de cada clase en forma creciente a partir del eje horizontal (X). Es decir desde donde comienza la distribución (en el primer límite inferior) hasta la culminación de la misma (el último límite superior). Frecuencias Absolutas Acumuladas GRÁFICO DE OJIVA Ingreso Mensual de los Hogares 200 150 100 50 0 500 a 2.500 2.500 a 4.500 4.500 a 6.500 6.500 a 8.500 8.500 a 10.500 Intervalos de Clase FUENTE: Elaboración propia...... _____________________________________________________ ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009 ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009. 19 3.- MEDIDAS DE TENDENCIA CENTRAL. Las medidas de posición y centralidad. Son las medidas que nos facilitan determinar cuáles son las posiciones en la distribución o cómo es esta distribución a través de las distintas medidas que se pueden obtener. Cabe destacar que algunos autores hacen referencia a medidas de tendencia central y otros a medidas de posición, la forma de denominación depende del tipo de análisis que se quiera realizar; es decir las medidas de posición marcan la posición sobre la que se concentran los datos y las medidas de tendencia central implican diferentes definiciones en una puntuación central Las medidas de centralidad más usadas son: la moda, la mediana, la media,. Las medidas de posición que trabajaremos serán los cuantiles o cuartiles, deciles y percentiles. LA MODA Es aquel valor de la distribución que más se repite, es decir el valor más frecuente. Puede ocurrir que la distribución no tenga moda o que exista más de una moda. Cuando la distribución tiene dos modas se denomina bimodal, si tiene más de dos modas es multimodal. Si tiene una sola moda unimodal. Es el indicador más adecuado para describir escalas nominales, aunque se puede utilizar para el resto de las escalas es decir, ordinales, intervales y de razón o ratio. Cuando los datos están agrupados la moda para variables de escala nominales u ordinales se ubica observando en las frecuencias absolutas simples, el o los valores más frecuentes, la moda sería para este caso el valor que toma la variable es decir la categoría donde se ubica. Si analizamos la tabla de distribución de frecuencias de los Encuestados según su “Lugar de Nacimiento”, la moda o modo se ubicaría en la “ciudad de Rivera” ya que allí se concentra la mayor cantidad de observaciones de la distribución (104 de 168). Si se analiza la tabla de distribución de frecuencias de los Encuestados según el “Nivel de Instrucción”, la moda se ubicaría en el nivel “Secundaria – UTU Incompleta” ya que allí está el 45 % de la distribución (76 casos de 168). Para variables intervales o de razón, la moda es el punto medio de la clase que contiene la mayor frecuencia de casos, es decir la marca de clase “Xc” de ese intervalo de clase; en este caso de debe hablar de intervalo modal o clase modal que sería el que contiene a la moda. ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009 ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009. 20 Al analizar la distribución de frecuencias de los Encuestados según el “Ingreso mensual de los Hogares”, la moda se ubicaría en la clase de 2.500 a 4.500 pesos uruguayos, siendo su valor respectivo la Marca de Clase de ese Intervalo, es decir 3.500 pesos uruguayos. Cuando se analiza la tabla de distribución de encuestados según las “horas semanales en las bancas”, la clase modal se ubica entre 0 y 64 horas semanales, siendo su valor 32 horas semanales respectivamente. El inconveniente que tiene este estadístico es que si todos los valores numéricos son diferentes no es calculable porque no existe. La ventaja es que la moda no es sensible a los valores extremos. LA MEDIANA La mediana es una medida de centralidad que expresa el centro de los datos como el punto o valor numérico que deja por debajo de sí y por encima de sí el 50 % de los datos, es decir la mitad de las puntuaciones de una distribución. Por lo que divide a la distribución en dos partes iguales, dejando la misma cantidad de datos a ambos lados de su ubicación. Su forma de cálculo depende de si se trabaja con datos originales o datos agrupados. Al trabajar con datos originales, la primera apreciación es que deben estar ordenados de menor a mayor o en orden creciente; la segunda apreciación es tener en cuenta el tamaño de la muestra estableciendo si n es par o impar. La mediana los que hace en este caso, es dividir las observaciones originales en 2 partes iguales, quedando la misma cantidad de observaciones hacia la derecha como hacia la izquierda de la misma. 50 % L MEDIANA l 50 % l DISTRIBUCIÓN Cuando n es impar la mediana pertenece al valor central de la distribución. Si tenemos los siguientes valores 3 5 6 8 9 Generalmente se calcula K = N + 1 k nos da la ubicación de la MEDIANA, 2 K = 5+1 = 3 este es el lugar donde se ubica la mediana 2 ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009 ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009. 21 El valor de la MEDIANA pertenece aquella observación que se encuentra en dicha posición, en este caso es igual a 6. Se puede decir que para este caso, la mediana se ubica en el lugar 6 ya que este valor numérico divide a la distribución en dos partes iguales, la misma cantidad de casos para un lado que para el otro y su valor también es 6. Si n e par 3 6¡ 8 9 Entonces K = N + 1 = 4+1 = 2,5 nos da la ubicación de la MEDIANA 2 2 la mediana se ubicaría en el centro de los dos términos centrales (entre 6 y 8) y su valor sería la suma de estos dos valores (6 y 8) dividido entre 2, lo que sería el promedio de los puntos centrales Valor de la Mediana = 6 + 8 = 14 = 7 2 2 En este caso la mediana se ubica en el lugar (posición) 2,5 y su valor es 7. Para los datos agrupados la mediana se identifica en las frecuencias relativas acumuladas cuando el valor de dicha frecuencia supera al 50 %. Para el caso de la tabla de distribución de frecuencias de los Encuestados según su ”Nivel de Instrucción “, la mediana se ubicaría en las frecuencias absolutas acumuladas que superaran el valor 168/ 2 = 84 o si se observa las frecuencias relativas acumuladas en el valor que superara el 50 %, siguiendo cualquiera de los dos procedimientos la mediana estaría en el “Nivel de Instrucción Secundaria – UTU Incompleta”. Si se trabaja con datos agrupados para variables intervales, entones la fórmula de cálculo de la mediana es Mdn= L. inf + (1/2 N - Fi-1) x Ai fi L. inf: es el límite inferior del intervalo que contiene a la mediana N ó n : es el total de casos (población o muestra) Fi - 1 ; la frecuencia acumulada absoluta anterior a la que contiene a la Mediana Ai : es la amplitud o distancia del intervalo que contiene a la mediana fi : es la frecuencia absoluta simple de la clase que contiene a la mediana ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009 ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009. 22 Lo primero es identificar el intervalo o clase que contiene a la mediana que puede realizarse con la frecuencia relativa acumulada que supere al 50 %, ó identificando en las frecuencias absolutas acumuladas el valor que supere a n / 2. Para la tabla de distribución de frecuencias de los Encuestados según el “Ingreso mensual de los Hogares”, la mediana se ubicaría en la clase de 2.500 a 4.500 pesos uruguayos ya que si se observan las frecuencias relativas acumuladas esta es la primera clase que supera el 50 % de la distribución (85 %) y si se observan las frecuencias absolutas acumuladas, en esta clase se ubican 142 observaciones, siendo la primera clase que supera al valor de n/2 que es igual a 168/2 = 84. Para obtener el valor de la mediana se debe aplicar la fórmula que se definió anteriormente: Mdn = 2.500 + ( ½ 168 – 66) x 2.000 = 2960 pesos uruguayos. 76 Finalmente llegamos a obtener el valor de la mediana que es 2960 pesos uruguayos, como es evidente el valor que se obtiene del cálculo de la mediana tiene que estar comprendido dentro de los valores entre los cuales se define esa clase o intervalo de clase. Para este caso concreto 2960 pesos uruguayos, son los que dividen la distribución del ingreso mensual de los Hogares de los encuestados dejando por debajo de sí el 50 % de las observaciones y por encima de sí el otro 50 %. La mediana es el indicador más adecuado para las variables ordinales ya que el concepto mismo proporciona dirección puntuaciones por encima y por debajo de la mediana, no presupone conocimiento de la distancia, excepto para el caso de amplitud de intervalos en el que cae la mediana cuando se tienen datos agrupados, esto significa que si se trabaja con los datos agrupados se pierde un poco de información, al igual que si se utiliza la moda en estas condiciones. La MEDIANA tiene la ventaja que al igual que la MODA, sus valores no se ven afectados por los valores extremos de la distribución. LA MEDIA Existen diferentes tipos de medias, tal como la media aritmética, la media geométrica y la media armónica; se hará referencia a la media aritmética. La media aritmética es el promedio o medida de tendencia central más conocida y de mayor uso, es muy fácil de calcular ya sea para datos originales __ o agrupados. El estadístico X es simplemente la suma de todos las puntuaciones de una distribución dividida por el número de casos. ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009 ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009. 23 Por ejemplo si se quiere saber la media o el valor promedio de recaudación de los encuestados en las bancas, se suma el valor de todas las recaudaciones y se divide por el total de recaudaciones efectuadas. Si se cuentan con las recaudaciones en una distribución original el promedio o la media se calcularía de la siguiente forma: Así dado n valores de X, es decir n cantidad de recaudaciones efectuadas por los encuestados de las bancas con una valor X1, X2, X3 ....hasta Xn, si se parte de la distribución que se plantea a continuación donde cada valor corresponde al monto de las recaudaciones en miles de pesos uruguayos, el promedio se las mismas aplicando la fórmula sería: 5 5,4 _ X= 6 6,6 7 n=5 ( 5 + 5,4 + 6 + 6,6 + 7) = 30 = 6 es decir 6 mil pesos uruguayos. 5 5 Si se trabajara con una distribución de datos agrupados, la media se obtendría aplicando la siguiente fórmula: Para escalas cuantitativas. Para escalas cuantitativas que se trabajan en tablas de intervalos o clases. Si volvemos al ejemplo de la distribución de encuestados según las horas semanales trabajadas en las bancas, el promedio o media de horas trabajadas sería: _ X = Σ ( 32 x 50) + ( 68 x 39) + (74,5 x 37) +(87,5 x 42) = 63,59 horas 168 La media aritmética es el indicador de posición más adecuado para describir variables cuantitativas es decir variables intervales y de razón.; es imposible pensar en el cálculo del promedio en variables cualitativas como el “lugar de nacimiento” , ó , “nivel de instrucción”, ya que las escalas de ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009 ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009. 24 medición de estas variables no permiten realizar promedios, sería impensable hablar del promedio de los encuestados de la Ciudad de Rivera, con los de la Ciudad de Sant’ Ana o de Otros lugares ya que no puede existir el promedio de las combinaciones de estas categorías, tampoco sería posible calcular un promedio para las categorías de Nivel Educativo ya que no se podrían combinar los encuestados que pertenecen al nivel primaria incompleta, con los de primaria completa, ni los de secundaria incompleta, etc. En la media aritmética cada valor o puntuación contribuye a la suma de los mismos de una forma diferente, esto quiere decir que si yo tengo n cantidad de valores de “horas semanales trabajadas en las bancas” o “ingreso mensual de los hogares en miles de pesos uruguayos” al efectuar la suma de cada uno de los valores para cada variable se puede tener en cada una de las distribuciones mencionadas valores denominados extremos. Los valores extremos, son aquellos valores que tienen una distancia considerable con respecto al grueso de los valores obtenidos. Si se tiene una distribución de “ingreso mensual por hogar” con valores bajos y valores altos el promedio dará un valor medio es decir ni alto ni bajo. También puede ocurrir que se tengan muchos valores de “ingreso mensual por hogar” bajos y homogéneos es decir similares y pocos valores altos, esto hará que la media tienda a un valor medio por estar cargada por los valores altos, ocurriría lo inverso si la mayoría de los valores fueran altos y se tuvieran algunos bajos, la media tendería a un valor medio en la distribución. Por dicho motivo se debe tener en cuenta que la Media es sensible a los valores extremos. También se puede hacer referencia a la media ponderada que se utiliza cuando se desea calcular la media de una distribución cuyos valores tienen diferente significado o importancia para el estudio final. Volvamos al ejemplo del monto de las recaudaciones en miles de pesos uruguayos, y démosle más importancia al valor de la última recaudación bajo el supuesto que pertenezca al día de la semana de más venta por lo cuál su valor lo ponderaremos 3 veces más de lo que es; 5 5,4 6 6,6 7 n=5 1x 5 + 1 x 5,4 + 1 x 6+ 1 x 6,6 +3 x 7 = 44% 5 = 8,8 5 Ppropiedades de la media _ Tomando la convención x = X - X, llamada variable centrada, − 1. La suma de los desvíos respecto de la media es cero: ∑x = ∑( X - X) = 0 Ejemplo de los desvíos de la distribución anterior: ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009 ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009. 25 (5 – 6) + (5,4 – 6 ) + (6 –6 ) + (6,6 – 6) + (7-6) = 0 2. La suma de los cuadrados de los desvíos en torno a la media es un mínimo. Es decir que la suma del cuadrado de las diferencias entre cada observación y su media, debe ser menor, que la suma de las diferencias al cuadrado entre cada observación y cualquier otro valor seleccionado. − − ∑( X - X) 2 < ∑( X - a)2 para cualquiera. 2 2 2 2 (5 – 6) + (5,4 – 6 ) + (6 –6 ) + (6,6 – 6) + (7-6) = 2,72 2 Supongamos que arbitrariamente seleccionamos el valor 6,2. 2 2 2 2 (5 – 6,2) + (5,4 – 6,2) + (6 –6,2 ) + (6,6 – 6,2) + (7-6,2) = 2,92 2 3. La media del producto de una constante es igual a la media de la variable por la constante: − b*X = b* X Utilizaremos como constante el valor 2 __ X = (5 x 2) + (5,4 x 2 ) + (6 x 2) + (6,6 x 2) + (7x 2) = 12 5 _ X = ( 5 + 5,4 + 6 + 6,6 + 7) = 30 = 6 6 x 2 = 12 5 5 4. Si n1 numeros tiene de media; n2 números tienen de media m2; ni números tiene de media mi, entonces la media de todos los números es: _ X = n1m1 + n2m2 +...ni mi se trata de una media ponderada de todas las n1 + n2 + ...+ ni medias posibles. 5. Si la media Y1 = Ax1 + B1, la media de Y2 = Ax2 + B2, la media de Yn = Axn + B siendo A y B dos constantes arbitrarias entonces la media de todas la Yi es _ __ Y = A X + B, ya que por definición siendo y = 1,2,...n _ Y= i Y n ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009 ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009. 26 RELACION Y COMPARACIÓN DE LAS MEDIDAS DE TENDENCIA CENTRAL Se han planteado diferentes ventajas y desventajas para cada una de las medidas referidas, ahora se destacara algunas comparaciones relevantes entre las mismas. • • • • • • • La media utiliza más información que la mediana, esto se debe a que en fórmula de cálculo se tienen en cuenta todas las puntuaciones (respuestas) de la distribución, mientras que para el cálculo de la mediana se tiene en cuenta la puntuación del caso medio. Por este motivo es que la media es sensible a los valores extremos. La media es más estable que la mediana, ya que varía menos de una muestra a otra en una misma población. La media debe ser utilizada únicamente en variables que pertenezcan a escalas cuantitativas. La mediana es el indicador de posición más adecuado para las escalas ordinales, pero además puede ser utilizado para escalas cuantitativas. La moda es el único indicador de posición que admiten las escalas nominales, pero se puede utilizar también para las escalas ordinales y para las escalas cuantitativas, con la salvedad que si la distribución está medida a través de intervalos o clases se debe hablar de “Clase Modal”. Una de las primeras características que se deben tener en cuenta en una distribución, son la cantidad de picos o puntas (modas) que tiene la misma. Si la distribución tiene un pico solo entonces se denomina unimodal posee una sola moda. Si posee dos picos entonces es bimodal posee dos modas y finalmente si tienen más puntas entonces es multimodal, donde las puntas pueden tener diferentes alturas. El grado de simetría de las distribuciones. Para poder hablar de simetría tendríamos que tener en cuenta la forma de un histograma de frecuencias, donde ya sabemos que la mediana divide a la distribución en dos partes iguales, cada una de las áreas es imagen de la otra, por lo tanto la superficie de cada una de las áreas es idéntica, pero a pesar de que las áreas pueden tener la misma superficie no tienen porque representar imágenes recíprocas. Cuando la distribución es simétrica. las medidas de tendencia central se concentran sobre un mismo punto de la distribución (eje vertical) y si la misma es una distribución unimodal, la moda también coincide con la media y la mediana. Si las medidas no coinciden en un mismo punto porque tienden más hacia un lado o hacia el otro se dice que la distribución es asimétrica. Simetría Perfecta Es cuando la media, la mediana y la moda coinciden en el mismo punto (valor). ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009 ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009. 27 Asimetría Cuando las medidas de tendencia central no coinciden y sus valores varían de acuerdo a un sesgo de asimetría, generándose la asimetría positiva que es cuando las medidas se ubican en el siguiente orden según sus valores de menor a mayor (en forma creciente); primero la moda, luego la mediana y finalmente la media y la asimetría negativa cuando las medidas se ubican en la distribución, ordenadas en forma creciente pero en el siguiente orden de aparición, primero la media, luego la mediana y por último la moda. Para aquellas distribuciones en donde exista únicamente una moda (distribuciones unimodales) y las mismas sean moderadamente sesgadas se cumple la siguiente relación empírica: Media – Moda = 3 (Media – Mediana) • La curtosis o el grado de apilamiento de los casos alrededor de un punto de la distribución. En una distribución unimodal y simétrica pueden aparecer formas en donde el apuntamiento es importante y donde la distribución tiene una concentración importante de frecuencias sobre ese punto, esta forma de acuerdo a su curtosis se denomina Leptocúrtica. Si la distribución de frecuencias es más achatada, es decir más uniforme, esta forma según su curtosis es platicúrtica y finalmente si la distribución no es ni muy apuntada ni achatada, donde su forma es más parecida a una campana, estamos en presencia de una curtosis denominada mesocúrtica. 4.- MEDIDAS DE DISPERSIÓN. Dan cuenta de la variación o dispersión de una distribución, lo que indican es si en la distribución los valores son muy parecidos o muy distintos entre si, es decir si están desperdigados a lo largo de toda la distribución o están próximos unos de otros. Las medidas de dispersión de una distribución son importantes, debido a que nos suministran información complementaria que nos permite juzgar la confiabilidad de nuestras medidas de tendencia central. Las medidas de dispersión que se trabajarán en el curso son: el rango o recorrido de una variable, el rango intercuartílico, la varianza, el desvío estándar o típico y el coeficiente de variación. RANGO O RECORRIDO Es el recorrido total de la variable, ya que es la distancia existente entre el valor máximo y el valor mínimo de una distribución. Rango = Valor Máximo - Valor Mínimo Su fórmula de cálculo es aplicable tanto a distribuciones de datos originales como, a distribuciones de datos agrupados (tablas de distribución de frecuencias). ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009 ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009. 28 Si analizamos nuestros ejemplos anteriores, se puede observar que el rango en la “Distribución de encuestados según el Ingreso Mensual de los Hogares” es igual a: RANGO = 10.500 – 500 = 10.000 pesos uruguayos. Lo cual significa que entre el ingreso mensual más bajo de los hogares, hasta el ingreso mensual más alto hay una diferencia de 10.000 pesos uruguayos, por lo cual el recorrido de los ingresos desde el más bajo hasta el más alto para los encuestados es de 10.000 pesos uruguayos. Si se analiza la “Distribución de los encuestados según las horas semanales de trabajo en las bancas” se obtiene que el rango de la distribución es igual a 98 horas semanales, ya que es la diferencia entre el que trabaja 0 hora semanal que son los que trabajan menos horas, con los que trabajan semanalmente 98 horas que son por cierto los que trabajan más horas de toda la distribución. La desventaja de esta medida es que, solamente tiene en cuenta los valores extremos de la distribución y deja de lado los valores intermedios (interiores) de la misma. VARIANZA Es similar a la desviación media, ya que se basa en las diferencias existentes entre la media aritmética y cada una de las puntuaciones, pero utilizando el cuadrado de estas diferencias. Es una de las medidas de dispersión más importantes ya que considera todos los valores de la distribución. 2 La varianza (S) es el promedio de los cuadrados de las distancias de las observaciones hechas a partir de la media, por lo cual su valor oscilará entre 0 y mayor que 0, nunca la varianza puede dar un valor negativo. La varianza expresa el cuadrado de las unidades usadas en los datos de la variable, no hablamos de un resultado expresado en las mismas unidades de los datos originales, ya que su valor está elevado al cuadrado, por lo cuál es considerado un valor abstracto. La fórmula de cálculo de la Varianza dependerá si la distribución es de “datos originales o de datos agrupados”. Además se debería tener en cuenta si se está trabajando, con muestras o poblaciones, ya que en el cálculo de la misma, al igual que de las medidas de dispersión derivadas de la varianza la fórmula varía de acuerdo a esta situación. Para el caso de cálculo de la Varianza en una Población en el denominador el término correcto a utilizar es N, mientras que en la muestra se utiliza “n – 1” ya que es insesgada. También es bueno aclarar que cuando se trabaja con indicadores o medidas resumen muéstrales estas se denominan “estadísticos”, mientras que cuando se trabajan con los mismos indicadores pero para la población estos se denominan “parámetros”. ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009 ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009. 29 2 Supongamos que se decide calcular la varianza (S) de los datos originales que utilizamos en el repartido anterior para calcular la media. 5 5,4 6 6,6 7 n=5 La media que ya se había calculado es: _ X = ( 5 + 5,4 + 6 + 6,6 + 7) = 30 = 6 mil pesos uruguayos. 5 5 La VARIANZA 2 2 2 2 2 2 S = (5 –6) + (5,4 – 6) + (6 – 6) + (6,6 – 6) + (7 – 6) = 5–1 2 2 2 2 2 2 S = (−1) + (–0,36) + (0) + (0,36) + (1) = 1 + 0.36 + 0 + 0,36 + 1 = 5–1 4 2 S = 2,72 % 4 = 0,68 Si aplicáramos una de las fórmulas definidas para datos agrupados en la “Distribución de encuestados según horas semanales de trabajo en las bancas”, el resultado de la varianza sería: ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009 ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009. 30 Primero presentaremos la fórmula de la media para datos agrupados: L.Inf.– L.Sup. 2 fr (%) (Xc x fi) Xc Xc fi 0 a 64 32 50 30 32x50= 1600 64 a 72 68 39 23 68x39= 2652 72 a 77 74,5 37 22 74.5x37= 2756.5 74,5= 5550.25 2 32 = 1024 2 68= 4624 2 2 77 a 98 87,5 42 168 n (total) 25 100 87.5x42= 3675 ∑ (Xc x fi) = 10683,5 87.5=7656.25 2 (Xc x fi) 1024x50 = 51200 4624x39= 180336 5550.25x37= 205359.25 7656.25x42= 321562.5 2 ∑ (Xc x fi)= 758457.75 Donde la Media es igual a: _ X = 10683,5 % 168 = 63,59 horas semanales. 2 2 S = 758457.75 – 168x (63,59) = 758457.75 – 168 x 4043.69 = 168 – 1 167 2 S = 758457.75 – 679339.92 = 79117.83 = 473.76 es la varianza de 167 167 horas semanales ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009 ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009. 31 DESVIACIÓN ESTÁNDAR ó DESVIO TÍPICO Es por definición la raíz cuadrada de la Varianza. Dado que se define a partir de la varianza, tiene todas las propiedades de ésta. Es decir que, valores pequeños de desvío típico corresponden a muestras o valores originales concentrados alrededor de su media y valores grandes corresponden a muestras o valores originales muy distribuidos respecto a su media. La desviación estándar o desvío típico (S) nos permite determinar con mayor grado de precisión, dónde se sitúan los valores de una distribución de frecuencia en relación con la media. La desviación estándar se simboliza con la letra S y su formula es indistinta para distribuciones de datos originales o agrupados: S= S2 Si se planteara el Desvío estándar de las “Horas semanales de trabajo en las bancas”, el mismo sería: S= 473,76 = 21,77 horas semanales. Entonces se podría decir que la variabilidad de las distribution de las horas semanles de los encuestados que trabajan en las bancas es de 21,77 horas. Una ventaja que presenta la desviación típica respecto a la varianza son las unidades en las que se expresa, ya que en la varianza las unidades están expresadas al cuadrado, en el desvío estándar o típico el resultado del mismo se expresa en las unidades originales de la variable que se esté trabajando; dado a que se obtiene tomando la raíz cuadrada de las varianza. Es importante tener en cuenta que tanto la Varianza, como el Desvío Estándar, hacen referencia sobre la variabilidad absoluta de los valores, en una distribución, cuanto más pequeños son sus valores más homogénea es la distribución, cuanto más elevado son sus valores más heterogénea es la distribución. COEFICIENTE DE VARIACIÓN Es la medida de dispersión que hace referencia a la variabilidad relativa, ya que relaciona una medida de posición como la media y una medida de dispersión como el desvío estándar, que al multiplicarlo por 100, nos da el porcentaje de variación que existe con respecto al valor promedio de la distribución. Su fórmula es igual para datos originales que para datos agrupados ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009 ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009. C.V . ≡ 32 S x 100 = X Entonces se podría decir, que el porcentaje de variación de las horas semanales de los encuestados que trabajan en las bancas con respecto al su valor promedio es de 34,23 %. C.V. = 21,77 63,59 x 100 = 34,23 % El coeficiente de variación como medida relativa, es de vital importancia a la hora de comparar la variabilidad de dos o más conjuntos de datos (distribuciones) que se expresan en diferentes o iguales unidades de medida. BIBLIOGRAFÍA: • • • • Glass G. – Stanley J.C. : “ METÓDOS ESTADÍSTICOS APLICADOS A CIENCIAS SOCIALES”. Ed. Prentice – Hispanoamericana S.A. Lind – Marchal – Mason “ESTADÍSTICA PARA ADMINISTRACIÓN Y ECONOMÍA” 11 edición. Ed. Alfaomega 2005. Peña D. – Romo J. : “INTRODUCCIÓN A LA ESTADÍSTICA PARA LAS CIENCIAS SOCIALES”. Ed. Mc Graw Hill – Interamericana de España, S.A.U.1999. García Ferrando Manuel : “SOCIOESTADÍSTICA”. Ed. Alianza. Madrid 1996. ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009