UNIVERSIDAD NACIONAL DEL NORDESTE FACULTAD DE CIENCIAS ECONÓMICAS INTRODUCCIÓN A LA ESTADISTICA NOTAS DE CÁTEDRA Elaborado por Eº Mº Mario Jaime Garber Actualizados por Lic. Ma. de Los Arcos Martínez Lic. Enrique C. Nolte Lic. Cristian Nieto Corregidos por: Lic. Mariel L. Martínez Russo Editados por: Lic. Ma. de los Ángeles Morales Agradecemos a la alumna Melani Blanco Romero los errores detectados, lo que permitió mejorar las Notas de Cátedra Introducción a la Estadística 1 INTRODUCCIÓN A LA ESTADÍSTICA Unidad I - INTRODUCCIÓN 1. ESTADÍSTICA. DEFINICIÓN Y CONCEPTO DE ESTADÍSTICA DESCRIPTIVA E INDUCTIVA Todos los días recibimos infinidad de información que nos sirven de guía en nuestra vida personal. Por ejemplo, escuchar el pronóstico del tiempo a la mañana nos ayuda a decidir cómo vestirnos, nuestros gustos personales también rigen algunas decisiones, como ver una película, a pesar de las críticas negativas. Los administradores, también deben tomar decisiones todos los días. Aunque en ocasiones evidencian sus “impulsos” al tomar decisiones (lo que se conoce formalmente como toma de decisiones no estructuradas), la mayoría de las veces deciden a partir de hechos concretos. Como estudiante de Ciencias Económicas, usted no debe tomar decisiones no estructuradas, ya que éstas requieren una intuición y discernimiento que se desarrollan tras muchos años de experiencia. Sin embargo, puede aprender procedimientos y métodos que lo ayudarán a tomar mejores decisiones basadas en hechos concretos. Cuando comiencen a familiarizarse con los procedimientos y métodos implicados en la recolección, la presentación y la elaboración de resúmenes de un conjunto de datos o a obtener conclusiones acerca de tales datos, entonces habrán descubierto la estadística. En los negocios y en la economía, una razón básica para recopilar, ordenar, presentar y resumir datos, para posteriormente analizarlos, es proporcionar a los administradores y a quienes deben tomar decisiones una mejor comprensión del entorno económico y comercial, para permitirles tomar mejores decisiones, al contar con más información. En una sociedad globalizada, se dispone de mucha información estadística. Los mejores administradores, economistas, contadores y ejecutivos son lo que pueden comprender la información y usarla eficazmente. En el lenguaje cotidiano, el término estadística hace referencia a datos numéricos. Sin embargo, el campo de la estadística abarca mucho más que hechos numéricos. La Estadística es un método científico destinado a recopilar, ordenar, presentar y resumir datos, para posteriormente analizarlos, extraer conclusiones válidas y tomar, sobre esa base, decisiones razonables. Las primeras cuatro acciones indicadas en la anterior definición conforman la “Estadística Descriptiva”, mientras que las últimas tres, la “Inferencia Estadística”. Algunas de las aplicaciones actuales más conocidas de la Estadística en el campo de las Ciencias Económicas son: Introducción a la Estadística 2 Contabilidad: para realizar auditorías a sus clientes los estudios contables o consultoras emplean procedimientos estadísticos de muestreo. Finanzas: los asesores financieros recurren a una variedad de información estadística para hacer recomendaciones de inversión. Comercialización: una empresa realiza una prueba de mercado, en determinados lugares para determinar si el producto va a ser aceptado Producción: un molino arrocero para verificar el funcionamiento de su línea de envasado utiliza métodos estadísticos. Economía: para pronosticar las tendencias de las variables económicas ESTADÍSTICA Método Científico Extraer conclusiones válidas Tomar decisiones Datos Probabilidad Población Estadística Descriptiva Recopilar Ordenar Muestra Inferencia Estadística Presentar Resumir Estimar Decidir 2. POBLACIÓN Y MUESTRA: CONCEPTOS Y SIMBOLOGÍA Al recoger datos relativos a las características de un grupo de individuos u objetos, sea edad de los estudiantes o cantidad de paquetes de yerba producidos en un molino, suele ser imposible o poco práctico observar todo el grupo, en especial si es muy grande. En vez de examinar el grupo entero, llamado población o universo, se examina una pequeña parte del grupo, llamado muestra. Población es un conjunto de elementos, que responden a una determinada característica. Es un conjunto homogéneo de elementos. El concepto de población en Estadística va más allá de la clásica definición que se da en la Demografía, esto es, la población de seres humanos exclusivamente. En la actividad estadística una población puede estar constituida por elementos de cualquier tipo, no solamente por seres humanos. Por ejemplo, se puede hablar de la población de Introducción a la Estadística 3 viviendas de un barrio; de la población de comprobantes contables de una empresa; de la población de alumnos de una Facultad, etc. Una población puede ser finita o infinita. Por ejemplo, la población consistente en todos los paquetes de yerba producidos por un molino es infinita, mientras que la población de clientes de caja de ahorros de un banco es finita. El proceso de tomar datos de todos los miembros de la población recibe el nombre de censo. Las medidas resumen de la población se denominan parámetros. Se simbolizan con letras del alfabeto griego. El tamaño de la población se simboliza con la letra N. Estudiar la población entera es costoso, lento, engorroso y en algunos casos no se puede realizar, por ejemplo en las encuestas políticas o la prueba de duración de las cubiertas, focos, etc., en estos casos se estudia una muestra, extraída de la población. Muestra es un subconjunto de elementos seleccionado en una población, o sea de tamaño menor que ésta, que se utiliza para realizar estudios o investigaciones referidas a toda la población pero en menor tiempo y por supuesto a un menor costo que si se la estudiara en forma exhaustiva, pero al mismo tiempo sin la exactitud que sólo se puede conseguir en investigaciones del cien por ciento. Si una muestra es representativa de una población, es posible inferir importantes conclusiones sobre la población a partir del análisis de la muestra. La parte de la Estadística que trata de las condiciones bajo las cuales tal diferencia es válida se llama estadística inductiva o inferencia estadística. Ya que dicha inferencia no es del todo exacta, el lenguaje de las probabilidades aparecerá al establecer nuestras conclusiones. Las medidas resumen de la muestra se denominan estadísticos. Se simbolizan con letras del alfabeto romano. El tamaño de la muestra se simboliza con n. La opción entre población y muestra puede ser presentada como la opción entre un relevamiento caro y un relevamiento económico, o bien entre exactitud y precisión. La muestra no garantiza, pues, exactitud pero puede asegurar investigaciones estadística rápidas y económicas que suelen ir acompañadas con la información del grado de precisión con el que se ha trabajado. Los propósitos de los métodos estadísticos es utilizar estadísticos muestrales para estimar parámetros poblacionales. Introducción a la Estadística POBLACIÓN 4 MUESTRA Cuando se estudian las características de una población, existen diversas razones prácticas para preferir la selección de una muestra para observar y medir. Algunas de las razones son: Tiempo. Si el gobernador de una provincia quisiera conocer la opinión de los habitantes de esa provincia respecto a la seguridad, entrevistar a todos los habitantes llevaría mucho tiempo. Realizar una encuesta por muestreo permitiría conocer los resultados en poco tiempo. Costo. Los costos de preguntar la opinión de los habitantes de esa provincia respecto a la seguridad, son significativamente mayores que los que resultarían de trabajar con una muestra. Verificación física todos los elementos de la población. Algunas poblaciones son infinitas. Sería imposible contar todos los peces que hay en el río Paraná, porque se desplazan, nacen y mueren. Sin embargo, se puede estimar la población de peces utilizando técnicas de muestreo. Pruebas de naturaleza destructiva. Si una empresa fabricante de cubiertas, para verificar si satisfacen las normas de calidad las hiciera rodar a todas hasta que se destruyeran, acabarían con la producción y no quedarían cubiertas para la venta. En realidad, estas pruebas se hacen, pero el departamento de control de calidad, selecciona una muestra para cerciorarse de la calidad. Resultados adecuados. Aunque se contara con el tiempo y los recursos suficientes para realizar un estudio de toda la población, es posible que la diferencia en los resultados obtenidos no sea significativa, respecto a los resultados de un estudio muestral. Si quisiéramos conocer el precio de un kg. de costilla, es posible que no encontramos diferencias significativas en el Introducción a la Estadística 5 precio, si consultamos una muestra de carnicerías y supermercados, en vez de encuestar a todas las carnicerías y supermercados. 3. VARIABLES. NIVELES DE MEDICIÓN. FUENTES DE DATOS. El objeto de estudio o elemento es la entidad acerca de la cual se reúnen los datos; estos se obtienen anotando las mediciones de cada variable para cada uno de los componentes del objeto de estudio. Una variable es una magnitud que puede tomar diferentes valores entre dos previamente determinados, que limitan lo que constituye el campo de variación de la variable. Ejemplos: los ingresos o los gastos de un conjunto de personas, la cantidad de facturas emitidas por una empresa en un mes determinado, la variación en el precio de las acciones que cotizan en Bolsa. Una variable es una característica de interés del objeto de estudio. Un aspecto esencial de la palabra variable es la idea de que las personas difieren y las cosas también. A diferencia de una constante que es una magnitud que puede tomar un solo valor. Se debe distinguir entre una variable y su valor en una observación individual (dato). Los datos son los valores observados de las variables. Son hechos o números que se recopilan, ordenan, presentan y resumen para su análisis. Las variables pueden ser aleatorias o determinísticas. Las variables aleatorias expresan el resultado de un experimento, también denominado aleatorio, que recibe ese nombre porque se realiza en condiciones de incertidumbre, y que se presenta con una cierta probabilidad que puede llegar a conocerse. Responden a procesos al azar, y puede asumir valores discretos o continuos. Un experimento aleatorio, es aquel que al realizarse bajo las mismas condiciones, puede arrojar diferentes resultados. Ejemplos: los incobrables de una empresa; tiempo requerido para realizar una reparación; peso de un paquete de arroz; el importe de una compra; el precio de una acción. Las variables no aleatorias se denominan determinísticas. Estas variables, a su vez, pueden clasificarse en cualitativas (categóricas) o cuantitativas (numéricas). Las variables cualitativas indican atributos o calidades, a pesar que se pueden utilizar diferentes cantidades para indicar cualidades, pero sin que las cantidades utilizadas permitan realizar comparaciones del tipo mayor – menor. Se refieren a clasificaciones y arrojan respuestas categóricas. Ejemplos: forma de pago en un comercio, preferencia por una marca de gaseosas, sectores económicos, etc. Introducción a la Estadística 6 Las variables cuantitativas se expresan mediante cantidades (número, distancia, importes, etc.). Estas variables pueden ser discretas o continuas. Las variables discretas sólo pueden tomar algunos valores en su campo de variación o valores aislados a lo largo de una escala. Obedecen a procesos de conteo y toman como valores los números enteros. Ejemplos: el número de clientes; la cantidad de diarios vendidos; la cantidad de jubilados en la Provincia del Chaco; el número de personas que entra a un banco en una hora a solicitar un servicio; el número de personas por hogar; las unidades de un artículo en inventario, etc. Las variables continuas son aquellas que pueden tomar cualquier valor en su campo de variación o cualquier valor entre dos valores dados. Son el resultado de procesos de medición y toman como valores los números fraccionarios. En todos los casos, el valor podría desviarse dentro de un cierto margen, dependiendo de la precisión del instrumento de medición utilizado. En las conversaciones diarias tendemos a truncar las variables y tratarlas como si fueran variables discretas. Sin embargo, la diferencia es muy importante en estadística, ya que es uno de los factores de los que depende que un método estadístico sea mejor que otro. Ejemplos: el peso del contenido de un paquete de arroz; el tiempo necesario para realizar una transacción bancaria; la distancia que recorre un alumno para llegar a la facultad; el monto a pagar de impuesto a las ganancias; el importe de las extracciones realizadas en un cajero automático, etc. En términos generales puede decirse que las variables continuas se relacionan con la operación de medir, en tanto las variables discretas se relacionan con la operación de contar. El análisis estadístico apropiado para una variable depende de si ésta es cuantitativa o cualitativa. El análisis estadístico con variables cualitativas es bastante limitado. Podemos resumir datos cualitativos al contar el número de observaciones en cada categoría, o bien calcular la proporción de observaciones en cada categoría. Con las variables cuantitativas se obtienen resultados significativos de las operaciones aritméticas. Variables Aleatorias Determinísticas Cualitativas Cuantitativas Introducción a la Estadística 7 Discretas Continuas Los datos se reúnen mediante niveles o escalas de medición, que permiten determinar la cantidad de información que contienen los datos e indican el resumen de los datos y el análisis estadístico apropiado. Las escalas de medición son: nominal, ordinal, de intervalos y de razón. 1. Datos de nivel o escala nominal: en este caso los datos son etiquetados con nombres que se emplean para identificar un atributo del elemento. Son observaciones de una variable cualitativa y sólo se clasifican y cuentan. No existe una forma particular para ordenarlos, pero se les puede asignar una clave numérica, para facilitar su tratamiento. Por ejemplo: marcas de gaseosas; países a los que se exporta soja; ocupación de los clientes. Resumiendo: Las categorías de datos se encuentran representadas por etiquetas o nombres. Aun cuando las etiquetas se codifiquen con números, las categorías de datos no tienen ningún orden lógico. 2. Datos de nivel o escala ordinal: los datos ordinales indican el orden que ocupan los distintos objetos y los valores son palabras que describen las respuestas. Por ejemplo, se podrían codificar las respuestas para valorar la calidad de un producto (1: malo; 2: medio; 3: bueno); valorar la satisfacción con el servicio del bar de la facultad (1: muy insatisfecho; 2: moderadamente insatisfecho; 3: ninguna opinión; 4: moderadamente satisfecho; 5: muy satisfecho) o la preferencia de los consumidores entre tres gaseosas (1: la que más prefiere; 2: segunda opción; 3; tercera opción). En esto ejemplos las respuestas son ordinales, es decir, se sigue un orden, pero la “diferencia” entre ellas no tiene ningún significado mensurable, se clasifican y ordenan, considerando las respuestas obtenidas. La calidad del producto que obtiene la calificación, bueno, es mejor que el medio y este mejor que el malo, pero si al bueno se le asigna un 3 y al malo un 1, no podemos concluir que la calidad del producto que obtuvo un 3 es tres veces mejor que el que obtuvo un 1. Resumiendo: Las clasificaciones de los datos se encuentran representadas por conjuntos de etiquetas o nombres, las que tienen valores relativos. En consecuencia, los valores relativos de los datos se pueden clasificar u ordenar. 3. Datos de nivel o escala de intervalos: cuando los datos tienen las características de los datos ordinales y la diferencia entre valores constituye una magnitud constante, son datos de nivel o escala de intervalos. Son siempre numéricos. En resumen, si las distancias entre los números tienen sentido, aunque las razones no, estamos ante una escala de intervalo de medición Es importante destacar que 0 es un punto más en la escala, no representa la ausencia de estado. Ejemplos: temperatura, los talles de la ropa, etc. Resumiendo: Las clasificaciones de los datos se ordenan de acuerdo con el grado que posean de la característica en cuestión. 8 Introducción a la Estadística Diferencias iguales en las características representan diferencias iguales en las mediciones. 4. Datos de nivel o escala de razón: todos los datos cuantitativos son registrados en esta escala, si los datos tienen todas las propiedades de los datos de intervalo, el punto 0 tiene sentido y el cociente de dos valores es significativo, tenemos una escala de razón. Un requisito de ésta escala es que debe contener un valor cero que indica que no existe nada para una variable en el punto cero. Ejemplos: cantidad de extracciones realizadas en un cajero automático, número de facturas emitidas, importe de ventas diarias, producción de soja en una campaña. Resumiendo: Las clasificaciones de datos se ordenan de acuerdo con la cantidad de características que poseen Diferencias iguales en las características representan diferencia iguales en los números asignados a las clasificaciones. El punto 0 representa la ausencia de característica y la razón entre dos números es significativa. Niveles o escalas de medición Nominal Los datos sólo se clasifican Ordinal Intervalo Razón Los datos se ordenan Diferencias significativas entre valores Punto 0 significativo y razón entre valores También es importante distinguir entre datos transversales y series de tiempo. Los datos transversales se reúnen en el mismo, o aproximadamente el mismo, punto en el tiempo. Los datos de series de tiempo se coleccionan a lo largo de varios períodos de tiempo. Una observación es el conjunto de mediciones obtenidas para cada elemento de un conjunto de datos. En consecuencia, la cantidad de observaciones siempre es igual a la cantidad de elementos. El número de mediciones obtenidas sobre cada elemento es igual al número de variables. Por consiguiente, el número total de datos es igual al número de observaciones por el número de variables. Identificar las fuentes de datos apropiadas es un aspecto importante del análisis estadístico. Si los sesgos, ambigüedades u otro tipo de errores estropean los datos que son recolectados, ni siquiera los métodos estadísticos más complejos producirán una información precisa. Las fuentes de datos se clasifican en fuentes primarias y fuentes secundarias. Cuando el recolector de datos es quien los usa para el análisis, la fuente es primaria. Cuando una organización o individuo utiliza los datos que otra organización o individuo ha recopilado, la fuente es Introducción a la Estadística 9 secundaria. Las organizaciones e individuos que recolectan y publican datos, generalmente, los utilizan como fuentes primarias y después permiten a otros usarlos como fuentes secundarias. Existen tres importantes fuentes de datos primarios: Observación directa, en este estudio el investigador observa el comportamiento de forma directa, generalmente en su ambiente natural. Los estudios observacionales tienen muchas formas en los negocios. Un ejemplo de ellos es el grupo focal, una herramienta de investigación de mercados que se utiliza para provocar respuestas no estructuradas a preguntas abiertas. En el grupo focal un moderador dirige la discusión y los participantes responden a las preguntas. Otros tipos de estudios más estructurados implican dinámica de grupos, construcción de consenso y el uso de herramientas de comportamiento organizacional como la lluvia de ideas, el método Delphi y el método del grupo nominal. Las técnicas de estudios observacionales también se utilizan en situaciones en las que el esfuerzo de un grupo de trabajo o el mejoramiento en la calidad de los productos son los objetivos o metas de la administración. Experimento, en el que se ejerce un control deliberado de algunos o todos los factores que pueden influir en la variable bajo estudio a fin de identificar posibles causas. Por ejemplo, para probar la efectividad de un detergente, un experimentador determina qué marcas son más eficientes para dejar limpia la ropa sucia, lavándola directamente, en lugar de preguntar a los clientes qué marca creen que sea más eficaz. Encuesta: es el proceso de recolección de datos solicitándolos a individuos. Los datos pueden obtenerse con métodos como entrevistas personales, entrevistas telefónicas, electrónicas o cuestionarios por escrito. En las encuestas se pregunta a la gente sobre sus creencias, actitudes, comportamientos y otras características. Las respuestas posteriormente se editan, codifican y tabulan para su análisis. 4. MÉTODOS DE SELECCIÓN MUESTRAL El muestreo es un método estadístico que permite realizar investigaciones referidas a determinadas poblaciones, finitas o infinitas, en corto tiempo y a menor costo, para observar variables cuantitativas o cualitativas, sin que se pueda garantizar la exactitud que sólo podría obtenerse consultando a toda la población, lo que finalmente termina por ser lento y caro, cuando no imposible, a veces. Existen dos tipos fundamentales de muestreo: Muestreo probabilístico: consiste en seleccionar la muestra asignando a cada elemento constituyente de la población, una probabilidad (idéntica o diferente, según el caso) de aparecer en la muestra. En este tipo de muestreo aparecen las condiciones básicas para que se cumpla la exigencia de la representatividad, porque todos los elementos están en condiciones de integrar la muestra sin que se excluya anticipadamente a ninguno. Introducción a la Estadística 10 Muestreos no probabilísticos: consiste en seleccionar arbitrariamente los elementos que integran la muestra, lo cual permite efectuar la selección con rapidez pero no garantiza la condición de representatividad indicada más arriba. A pesar de esto suele ser utilizada en algunas ocasiones. En la selección probabilística se asigna a cada elemento de la población una determinada probabilidad de ser incluido en la muestra. La selección probabilística se realiza por medios manuales o automáticos. Un medio manual de selección probabilística consiste en asignar a los elementos de la población una numeración y efectuar un sorteo entre ellos por algún método apropiado (un bolillero, por ejemplo). Un método automático consiste en instrumentar un procedimiento de selección mediante un sistema de computación que realice la tarea seleccionando los elementos que integrarán la muestra. Para la selección probabilística manual, es común utilizar las tablas de números aleatorios, que son construcciones numéricas de dígitos dispuestos en filas y columnas, de modo tal que se agrupan de a 25 dígitos (a razón de 5 filas y 5 columnas por grupo). Un grupo de 25 dígitos puede ser el siguiente: 23874 07854 96453 17590 52086 La selección de los números aleatorios permite, con un sistema apropiado de asignaciones, determinar los elementos que conformarán la muestra. Para iniciar la selección de los números aleatorios, conviene un ingreso aleatorio a la tabla, seleccionando al azar la columna y la fila que permitirán encontrar el primer grupo de cinco dígitos de la serie de n que se requieren. Seleccionado, entonces, al azar el primer grupo de cinco dígitos que constituye el primer número aleatorio, se continúa con los siguientes, considerando a la tabla como un texto que debe leerse de izquierda a derecha. Por ejemplo, sean los siguientes números los aleatorios seleccionados para conformar una muestra determinada de tamaño n=6: 23874 56730 05628 34902 17472 96173 A continuación se convierte a estos en números decimales, agregándoles a su izquierda un cero y una coma, procedimiento éste que determina valores que varían entre cero y uno: 0,23874 0,56730 0,05628 0,34902 0,17472 0,96173 Los números decimales así construidos se simbolizan con 𝒙𝒂𝒊 (número aleatorio iésimo), y se utilizan en la siguiente fórmula, cuya aplicación permite obtener todos los elementos de la muestra: 𝐸𝐿𝐸𝑀𝐸𝑁𝑇𝑂 = 𝐸𝑁𝑇𝐸𝑅𝑂[(𝑁)(𝑥 ) + 1] con lo cual, si el tamaño de la población fuera de 𝑁 = 120, los seis elementos que integrarán la muestra serán: Introducción a la Estadística 11 𝐸𝐿𝐸𝑀𝐸𝑁𝑇𝑂 = 𝐸𝑁𝑇𝐸𝑅𝑂[(120)(0,23874) + 1] = 𝐸𝑁𝑇𝐸𝑅𝑂(28,648 + 1) = 29 𝐸𝐿𝐸𝑀𝐸𝑁𝑇𝑂 = 𝐸𝑁𝑇𝐸𝑅𝑂[(120)(0,56730) + 1] = 𝐸𝑁𝑇𝐸𝑅𝑂(68,076 + 1) = 69 ⋮ 𝐸𝐿𝐸𝑀𝐸𝑁𝑇𝑂 = 𝐸𝑁𝑇𝐸𝑅𝑂[(120)(0,96173) + 1] = 𝐸𝑁𝑇𝐸𝑅𝑂(115,4076 + 1) = 116 Es decir que los elementos número 29, 69,…, y 116 conformarán la muestra elegida. 5. TIPOS DE MUESTREO Hay dos tipos fundamentales de muestreo el probabilístico y el no probabilístico. Muestreo probabilístico: Muestreo simple al azar: Consiste en seleccionar la muestra considerando que cada elemento de la población tiene similar probabilidad de ser incluido en la selección. Es decir, una vez identificados los N elementos, se elige una muestra de tamaño n mediante un sorteo (con los métodos ya vistos y conocidos), lo cual convierte a este sistema en un procedimiento rápido y eficiente. Esta forma de selección es conveniente cuando la población resulta ser homogénea, es decir cuando la variabilidad es menor. Muestreo sistemático: Este sistema es conveniente utilizarlo cuando la población se encuentra ordenada de un modo no secuencial (de mayor a menor, por ejemplo). Si no existe un orden debido a la participación de alguna variable (por ejemplo, un fichero de clientes ordenados alfabéticamente y no por el valor de sus compras), este sistema es tan conveniente como el muestreo simple al azar pero operativamente más cómodo. Consiste en definir el tamaño de la muestra y, posteriormente, dos valores denominados 𝒂(arranque) y 𝒑 (progresión), donde: 𝑝= , y 1≤𝑎≤𝑝 En primer lugar se obtiene 𝑝. Luego se calcula a aplicando la siguiente fórmula: 𝑎 = 𝐸𝑁𝑇𝐸𝑅𝑂[(𝑝)(𝑥 ) + 1] donde xa es un número aleatorio. La muestra se conforma eligiendo a los elementos a partir de a y adicionando sucesivamente p. Muestreo estratificado: cuando la población tiene una variabilidad importante, conviene dividirla en ℎ estratos, que son grupos de elementos internamente homogéneos (o con poca variabilidad) aunque heterogéneos entre los diferentes estratos conformados. Se calcula el tamaño de cada estrato (𝑛 ) y se selecciona una muestra en cada estrato, de modo que el total de elementos se obtiene haciendo: Introducción a la Estadística 12 𝑛= 𝑛 Las variables de estratificación (las que se utilizan para dividir a la población en estratos) deben estar estrechamente relacionadas con la característica de interés buscada. Muestreo por grupos o conglomerados: En todos los métodos anteriores los elementos que conforman la muestra se seleccionan individualmente. En esta técnica un grupo de elementos se selecciona aleatoriamente en forma simultánea, es decir se utilizan todos los elementos del grupo seleccionado. Por lo tanto, antes de poder seleccionar una muestra la población debe dividirse en grupos mutuamente excluyentes y colectivamente exhaustivos. Luego, se selecciona una muestra aleatoria de estos grupos. Si los grupos son exactamente tan heterogéneos como la población, cualquier grupo que se seleccione representará con exactitud a la población. Una forma común del muestreo por grupos es el muestreo por áreas, en el cual los grupos consisten en áreas geográficas como ciudades, calles, etc. Muestreo no probabilístico: Muestreo por conveniencia: se efectúa el relevamiento a ciertos y determinados elementos que sean fácilmente accesibles, de modo de cumplir la tarea con rapidez y sin excesivos costos. Se seleccionan en base a la conveniencia del investigador. Ejemplo: solicitar la opinión de personas que transitan en un centro comercial o realizar “entrevistas a personas de la calle” para un canal de televisión. Muestreo por juicio: Los elementos de muestreo se seleccionan en base a lo que algún experto considera acerca de la contribución que esas unidades en particular harán para responder las preguntas de investigación. Ejemplo: la decisión de entrevistar a un agente de compras de una empresa acerca de un determinado producto o en una prueba de mercado hacer un juicio con respecto a qué ciudades serían las mejores para probar el potencial de venta de un nuevo producto. Muestreo por cuotas: Es un tipo especial de muestreo por juicio. Trata de obtener una muestra que sea similar a la población en algunas características. La muestra se selecciona por medio de un relevamiento de campo tratando de integrarla con cierta proporción de casos de determinadas características de control (sexos, edades, niveles sociales, etc.), datos estos que se conocen de un relevamiento censal anterior. Para seleccionar una muestra por cuotas debemos primero especificar la lista de características de control más importantes y luego conocer la distribución de las mismas en toda nuestra población. Ejemplo: si tenemos dos características de control de interés: edad y sexo, lo expondríamos así: Edad: 2 categorías: menores de 30 y mayores de 30 Sexo: 2 categorías: masculino y femenino Se obtienen así cuatro grupos. Conociendo la proporción de población en cada uno de estos grupos calculamos la cuota de la muestra para cada uno de ellos. El único requerimiento es que los elementos seleccionados se ajusten a las características de control. Muestreo de bola de nieve: Es una técnica en la que se selecciona al azar un grupo inicial de entrevistados. Los entrevistados siguientes se eligen en base a las referencias o la informa- Introducción a la Estadística 13 ción que proporcionan los entrevistados iniciales. Con obtención de referencias de las referencias, este proceso puede llevarse a cabo en forma sucesiva. Uno de los principales objetivos de este muestreo es estimar las características raras de la población. Ejemplo: se entrevistan a personas dedicadas al ciclismo y a esas personas se les pide referencias sobre otras con la misma característica. Aleatorio simple Tipos de muestreo Probabilístico Aleatorio sistemático Estratificado Por grupos o conglomerados Por conveniencia No probabilístico Por juicio Por cuotas Bola de nieve El muestreo debe basarse en las siguientes condiciones: la representatividad: la muestra debe integrarse con una proporción de elementos similares a la composición existente en la población. Esta condición, si bien es importante, debe tener algún tipo de limitación, ya que si se exige una composición exactamente igual a la de la población, se terminará extrayendo una muestra de tamaño igual a aquélla, de modo que la representatividad debe cumplirse con aquéllos atributos que son fundamentales. la confiabilidad: resulta ser, en cierto modo, consecuencia de lo anterior, pero asimismo constituye un principio sobre la seguridad de que la toma de la información no producirá sesgos o errores en los resultados que se obtienen, considerando que un dato erróneo en la muestra incide en la confiabilidad mucho más que uno en la población. El tamaño de la muestra(n) no es caprichoso. Puede determinarse mediante fórmulas apropiadas, para lo cual deben tomarse en consideración los siguientes elementos: La variabilidad de la población: En el caso extremo que todos los elementos de la población fueran iguales, será suficiente con un tamaño de muestra igual a un solo elemento, y este tamaño necesariamente deberá crecer si la variabilidad entre los elementos de la población se incrementa y comienzan a diferenciarse entre ellos cada vez más. Es decir que hay una relación directa entre la variabilidad poblacional y el tamaño de la muestra. Introducción a la Estadística 14 El tamaño de la población (N): Una muestra de determinado tamaño puede ser suficiente para investigar una cierta población, pero si el número de elementos de esa población se incrementa al doble, si bien será necesario incrementar el tamaño de la muestra, no puede asegurarse que deba incrementarse el tamaño de la muestra al doble (puede ser incrementada a más o a menos del doble), lo cual quiere decir que la muestra crecerá en el mismo sentido que la población, pero en proporciones tal vez diferentes. ¿De qué depende eso? Sin duda, de la variabilidad que asuma la población con su nuevo tamaño. En definitiva, el tamaño de la población influye en forma directa en el tamaño de la muestra. El margen de error o tolerancia (d): Si se desea realizar una investigación muestral y se exige que ella conduzca a un resultado sin errores, deberá tomarse un tamaño de muestra igual al de la población, ya que ése es el único modo de no cometer un error. Es decir que con un margen de error cero (o tolerancia cero) el tamaño n de la muestra deberá ser igual al tamaño N de la población. Pero si se admite un margen de error mayor que cero, la muestra puede disminuir. Es decir que a medida que crece el margen de error admitido, disminuye el tamaño de la muestra, lo cual convierte a esa relación en inversa. El nivel de confianza en la estimación (NC): Este concepto significa que el investigador debe establecer cuál es el margen de seguridad que tiene para que la estimación se efectúe con el margen de error d requerido. Si se deseara una confianza del 100 % en los resultados muestrales, se está requiriendo exactitud, por lo que debieran seleccionarse a todos los elementos de la población. Pero si el nivel de confianza disminuye (o aumenta), también disminuirá (o aumentará) el tamaño de la muestra: la relación es directa. Como vimos el tamaño de la muestra n está en función de la variabilidad, del tamaño de la población, del grado de error (o tolerancia) admitidos y del nivel de confianza en la estimación. Estos elementos, adecuadamente ubicados, se integrarán en una fórmula que permitirá calcular n, pero de todos ellos el único que suele no conocerse anticipadamente es la variabilidad poblacional. Como se trata de un dato propio de la población, desconocido, el investigador resuelve esta dificultad seleccionando una muestra inicial, llamada “muestra piloto” de tamaño arbitrario nh. Este tamaño debe ser razonable, aunque mínimo, como para obtener una muestra compuesta por un primer conjunto de elementos (siempre aplicando el criterio de la selección probabilística) que le permitirán conseguir una primera aproximación al valor de la variabilidad que él necesita conocer. Una vez obtenido, ese valor es aplicado en la fórmula de cálculo de n para definir el número de elementos que se deberán seleccionar en la muestra. Hecho esto, pueden ocurrir tres cosas: * que 𝑛 < 𝑛: en este caso se aumenta 𝑛 hasta llegar a n. * que 𝑛 = 𝑛 : en este caso se mantiene 𝑛 * que 𝑛 > 𝑛 : en este caso se mantiene 𝑛 . 6. PRESENTACIÓN DE DATOS EN CUADROS Y GRÁFICOS. Los cuadros estadísticos son construcciones técnicas apropiadas que tienen como propósito la presentación sistematizada de los datos estadísticos de manera ordenada para facilitar su observación y comprensión. 15 Introducción a la Estadística Para la construcción de los cuadros estadísticos, los organismos oficiales de estadística han elaborado un conjunto de normas y procedimientos, que suministran criterios generales. Para diseñar un cuadro estadístico debe tenerse presente que los aspectos formales (título, nombre de las columnas, disposición de las filas, disposición de los totales en su interior) son tan importantes como los propios datos o informaciones incorporados en él. En primer lugar, el cuadro estadístico se construye sobre la base del siguiente diagrama: Título Columna matriz Encabezamiento (cabezales) Contenido Fuente de la información A continuación se analizará cada uno de los elementos que integra el cuadro: Título del cuadro: el título debe expresar claramente y con brevedad el contenido del cuadro. Para ello debe dar una idea precisa y preliminar acerca del tema al cual hace referencia la información contenida en él. Para construir adecuadamente el título, se deben formular las siguientes cuatro preguntas: 1º) ¿Qué? 2º) ¿Cómo? 3º) ¿Dónde? 4º) ¿Cuándo? ¿Qué?: se refiere al tipo de información contenida en el cuadro. Esta pregunta debe ser contestada conformando dos partes: la primera parte se denomina “cuantificador” y se refiere a qué es lo que se está presentando en el cuadro. Ejemplos: “Cantidad”, “Número”, “Superficie”, “Valor”, “Monto”, etc. La segunda parte se denomina “Sujeto de la información” y se refiere al conjunto de elementos (o universo) que se está presentando en el cuadro. Ejemplos: Población en edad escolar, Clientes, Superficie sembrada, etc. ¿Cómo?: indica la manera en que la información se presenta en las aperturas por filas o por columnas del cuadro. Ejemplos de aperturas: Edad y Sexo; Nivel Social y Grupos de edad; Monto de compras, etc. Las divisiones que contiene la información se denominan “Clasificaciones”, y cada clasificación tiene un número determinado de “categorías”. Por ejemplo: sexo posee dos categorías; Nivel de educación primaria, 7 categorías; Edad, numerosas categorías o determinadas agrupaciones por edad, en ese caso con limitadas categorías (por ejemplo: de 0 a 9 años; de 10 a 19 años; etc.). Introducción a la Estadística 16 ¿Dónde?: señala el lugar o ámbito geográfico que corresponde a la información contenida. Ejemplos: Corrientes (Capital); Departamento Comandante Fernández; Provincia del Chaco. ¿Cuándo?: define el momento (dado por la fecha o el período de tiempo) al que se refiere la información. Ejemplos: Año 2018; Marzo 2018; Período 2000-2018. Para organizar correctamente el armado del título se aconseja seguir la secuencia que se indica a continuación: comenzar por el cuantificador, seguir por el sujeto de la información y culminar por las categorías y aperturas, tomando en cuenta el siguiente principio: las clasificaciones que figuran en el encabezamiento deben estar precedidas por la expresión “por” y las clasificaciones que figuran en la columna matriz, por la expresión “según”. Ejemplo: suponga que posee información sobre los importes de las ventas de las empresas concesionarias de autos en el país, por provincias, para los años 2000 - 2018. Siguiendo las normas señaladas: (primero el cuantificador) “Importe de” (luego el sujeto) “ventas de las empresas concesionarias de autos” (colocar el dónde) “en la República Argentina” (luego se colocan el nombre de las clasificaciones a las que se anteponen las palabras “por” y “según” en función de cuál va en el encabezamiento y cuál en la columna matriz) “por provincia” (finalmente el cuándo) “Años 2000 - 2018” Columna Matriz del Cuadro: en este sector va la clasificación que posea la mayor cantidad de categorías. En el ejemplo dado, los años poseen la mayor cantidad de categorías (son 19). Encabezamiento: recibe el resto de las clasificaciones, teniendo en cuenta que, si hay dos o más, cada una deberá contener a las demás. Cuerpo de la tabla o contenido del cuadro: es el sector central del cuadro, destinado a recibir la información que se desea presentar, y puede confeccionarse con valores absolutos, relativos (porcentajes) o con una combinación de ambas alternativas. Para aquellos datos que necesiten una indicación especial resulta apropiado confeccionar un conjunto de signos convencionales, que pueden ser algunos de los siguientes: (-) (.) (…) (o) (x) Si el dato es cero o no significativo Si el dato o el concepto correspondiente no exista Si dato existe pero no fue procesado o no se encuentra disponible Si el dato es provisorio y puede modificarse en futuras publicaciones Si el dato se publicó con un valor y luego se modificó sin se haya indicado como provisorio en la anterior publicación Las indicaciones especiales deben efectuarse mediante llamadas que se señalan con números entre paréntesis (por ejemplo: (1)), y son aclaradas al pié del cuadro, antes de la fuente. Fuente de los datos: Es la mención del origen de la información que debe ser incorporada en cada cuadro estadístico que se presente. Se coloca al pié, luego de las notas explicativas Introducción a la Estadística 17 que se requiera agregar. La fuente es el único reconocimiento que se efectúa a quien ha construido el cuadro originalmente o a quien ha procesado la información estadística que le da origen, por lo que su inserción es necesaria. En la fuente deben detallarse los siguientes datos: nombre de la publicación de la que se obtuvo los datos; nombre del servicio que la editó; año de edición y en caso de ser necesario, página/s que contienen los cuadros originales. En caso de que la fuente sea propia, basada en recopilación por censos o encuestas, debe indicarse esta circunstancia. VENTAS DE LAS EMPRESAS CONCESIONARIAS DE AUTOS TÍTULO DE LA REPÚBLICA ARGENTINA POR PROVINCIAS Período 2000 – 2018 ENCABEZAMIENTO En millones de $ Provincias Ciudad Buenos Aires Santa Fe ………. Total Autónoma Años 2000 2001 CUERPO DE LA TABLA ….. 2018 Total FUENTE: elaboración propia. COLUMNA MATRIZ Los gráficos estadísticos son construcciones que permiten presentar los datos contenidos en un cuadro para una mejor, más clara y rápida interpretación. El gráfico estadístico es un complemento sumamente útil de cualquier cuadro estadístico y por lo tanto corresponde dar las indicaciones apropiadas para su construcción. La mayor parte de los gráficos estadísticos están basados en un sector del plano encerrado entre dos ejes, simbolizados con X é Y, llamados respectivamente eje de las abscisas y eje de las ordenadas, y que, esquemáticamente, tiene la forma siguiente: Y (ordenadas) X (abscisas) En el eje Y se representa la cantidad de casos mientras que en el eje X se representa la variable que se desea medir. Estos ejes deben tener las escalas adecuadas para permitir dicha representación Los gráficos se construyen a partir de varias clasificaciones existentes en un cuadro. Un mismo cuadro puede presentarse con más de un gráfico en el caso de que uno solo resulte insufi- Introducción a la Estadística 18 ciente. Sin embargo, lo ideal es construir los gráficos de modo que se represente el aspecto más importante y destacable de un cuadro. Algunos elementos propios de la construcción de gráficos son los siguientes: Todo gráfico debe tener un título, cuya construcción sigue los mismos lineamientos que el de los cuadros. Sin embargo, cuando el gráfico acompaña a un cuadro que ya tiene título y se presentan en conjunto, el título del cuadro sirve también para identificar el gráfico. Debe indicarse claramente en que unidad de medida se trabaja con cada eje, colocando esas unidades a la derecha en el eje “X” y en la parte superior en el eje “Y”. Son fundamentales las referencias que permiten identificar qué representa cada barra (que se rellena con colores o grafismos diferentes), y que se colocan en el interior del gráfico (siempre que sea posible) o en el exterior. Se pueden trazar líneas horizontales que marcan valores de la escala, para permitir una lectura más sencilla y rápida de los valores correspondientes al eje Y. Hay distintos tipos de gráficos y no existen reglas definidas que indique qué gráfico debe usarse en cada caso. Más bien hay normas y razones de conveniencia que sugieren el uso de un tipo de gráfico y no de otro para determinados casos. En líneas generales los tipos de gráficos son: De bastones Lineales Poligonal Simples verticales Simples horizontales De superficie De barras Barras múltiples Barras compuestos De partes componentes Circulares De bastones: se utilizan generalmente para representar distribuciones con pocos valores de una variable discreta. Se marcan los valores de una variable sobre el eje de abscisa y se levanta una ordenada para cada uno de ellos, que es proporcional a la cantidad de observaciones. Este tipo de gráfico es útil para enfatizar comparaciones entre sí de un número reducido de ítems. 19 Introducción a la Estadística Autos vendidos por la concesionaria Autos vendidos (unidades) 700 600 500 400 300 200 100 0 2016 2017 2018 Años Gráficos de líneas: se construyen, como su nombre lo indica, sobre la base de una poligonal, es decir una línea quebrada, que va mostrando las variaciones de la variable que se desea analizar. Para la correcta construcción de un gráfico lineal deben tenerse presente que se aplica cuando se dispone de datos que tienen una evolución a lo largo del tiempo (para varios días, semanas, meses, o años) ya que, precisamente, la poligonal que sirve de base para graficar se asocia visualmente con la idea de una evolución temporal; en cambio no es aplicable a datos que correspondan a diferentes zonas geográficas (ciudades, provincias, barrios, etc.). Autos vendidos (unidades) Autos vendidos por la concesionaria 500 450 400 350 300 250 200 150 100 50 0 2012 Nacionales Importados 2013 2014 2015 2016 2017 2018 Años Gráfico de Barras simples verticales: consiste en construir el gráfico con rectángulos, todos de igual base y altura proporcional. 20 Introducción a la Estadística Autos vendidos (unidades) Autos vendidos por la concesionaria 700 600 500 400 300 200 100 0 2016 2017 2018 Años Gráfico de Barras simples horizontales: veamos el mismo ejemplo, pero ahora, con barras horizontales. Autos vendidos Años 2018 2017 2016 0 100 200 300 400 500 600 700 Autos vendidos (unidades) Gráfico de Barras múltiples: en este tipo de gráfico coexisten, para cada valor de la variable, dos o más barras, y en esas condiciones se puede presentar, por ejemplo, la evolución para varios momentos simultáneamente. Sin embargo, no conviene construir los gráficos de barras múltiples con una cantidad de barras que exceda las tres debido a las dificultades de interpretación. 21 Introducción a la Estadística Autos vendidos (unidades) Autos vendidos 500 400 300 Nacionales 200 Importados 100 0 2016 2017 2018 Años Gráfico de Barras compuestas: se utilizan fundamentalmente para mostrar composiciones para diferentes momentos o lugares. Consta de barras rectangulares de igual altura y tantas como momentos o lugares tengamos. Autos vendidos 700 Autos vendidos (unidades) 600 500 400 300 Importados 200 Nacionales 100 0 2016 2017 2018 Años En el caso anterior el gráfico se construyó con valores absolutos, pero puede construirse con valores relativos (porcentajes). En ese caso la escala del eje Y se indica en forma porcentual. La altura de todas las barras es la misma y equivale a un valor porcentual del 100 %. Observe el mismo ejemplo anterior, pero esta vez con valores relativos: 22 Introducción a la Estadística Autos vendidos (unidades) Autos vendidos 100% 80% 60% Importados 40% Nacionales 20% 0% 2016 2017 2018 Años Las diferencias entre los gráficos son notorias: en el primero la altura de las columnas difiere según los valores que les corresponden; en el segundo, la altura de las barras es la misma, y el interior de cada una está dividido según la participación porcentual de cada carrera. Gráfico de partes componentes: permite representar, para distintos momentos del tiempo, las partes componentes de un total, pero en este caso, a pesar de que se utilizan líneas rectas para efectuar los trazos, lo que importan son precisamente las superficies o áreas que aquellas delimitan, cuyo tamaño va mostrando la evolución de cada componente a lo largo del tiempo. A diferencia del gráfico lineal, el de partes componentes tiene una estructura similar a la barra compuesta, es decir que cada parte va acumulando los valores a la parte anterior, por lo que la última parte agregada muestra el total. Autos vendidos Autos vendidos (unidades) 500 400 300 200 Nacionales 100 Importados 0 2016 2017 2018 Años Asimismo, del mismo modo que los gráficos de barras compuestas, pueden construirse con valores absolutos o con valores relativos (porcentajes), en cuyo caso se observarán diferencias en la lectura e interpretación de los datos involucrados. 23 Introducción a la Estadística Autos vendidos (unidades) Autos vendidos 100% 80% 60% 40% Importados 20% Nacionales 0% 2016 2017 2018 Años Gráficos circulares: son gráficos que se confeccionan tomando como base la figura geométrica del círculo, el cual se divide en sectores que representan valores porcentuales similares a las partes de un total. En un lenguaje más vulgar, estos gráficos son conocidos como los de “torta”. Autos vendidos - Año 2018 225 Nacionales Importados 434 Los gráficos circulares son muy útiles para presentar la composición de un total en un momento en particular, no así para mostrar la evolución de una variable en el tiempo. Asimismo los gráficos circulares pueden construirse tomando en consideración los datos absolutos como los datos porcentuales. Introducción a la Estadística 24 Autos vendidos - Año 2018 34% Nacionales Importados 66% PREGUNTAS TEÓRICAS 1. Una población de 400 elementos es sometida a un muestreo sistemático donde el tamaño dela muestra es 16. Para elegir el arranque ("a") se selecciona un número aleatorio que resulta ser 57842. ¿Cuánto vale a? 2. ¿Cómo influye la variabilidad de una variable en el tamaño de la muestra que se desea seleccionar? a) en forma directa b) en forma inversa c) no influye 3. En el muestreo sistemático, el cálculo N/n ¿ se realiza para obtener cuál de los siguientes elementos?: a) el arranque “a” b) la progresión “p” c) el primer elemento a seleccionar