Notas de Estadística Aplicada a la Administración, Contaduría e Informática Administrativa I. Dr. Francisco Javier Tapia Moreno. Estadística aplicada a las licenciaturas: Administración, Contaduría e Informática Administrativa Por Dr. Francisco Javier Tapia Moreno 1 Notas de Estadística Aplicada a la Administración, Contaduría e Informática Administrativa I. Dr. Francisco Javier Tapia Moreno. Prólogo. Este es primer folleto de estadística aplicada a las licenciaturas: Administración, Contaduría e Informática Administrativa que se ofrecen de la Universidad de Sonora. Los temas presentados aquí son congruentes con el programa vigente de la materia de Estadística I del área económico- administrativo. Este fascículo corresponde al primer tema del programa que titulado Introducción, en él, el alumno identificará la importancia de la estadística en su contexto profesional.(Ver sección 1), conocerá e identificará las etapas de un estudio estadístico (ver sección 2), conocerá los conceptos básicos que se usan en la realización de un estudio estadístico (ver sección 3) y aprenderá a distinguir el uso de la estadística descriptiva, estadística inferencial y la estadística bayesiana mediante la presentación de problemas prácticos aplicados a su área profesional (ver sección 4). Además, se informará, de estudios ya realizados, del buen uso que se le puede dar a la estadística y de los beneficios que se pueden lograr si se utiliza adecuadamente, y de los problemas que puede generar si se hace un mal uso de la misma (ver la sección 5). Por último, distinguirá la diferencia entre un censo y una muestra y conocerá los diferentes tipos de muestreo y las principales características de cada de ellos (ver la sección 6). Nuestro propósito al elaborar este primer folleto es dotar al alumno de la información necesaria y suficiente, apegada al programa vigente, a fin de que el estudiante cubra con los conocimientos estadísticos necesarios para llevar a cabo el análisis de información estadística que ofrezcan periódicos, revistas, documentos de Internet, etc. y tome decisiones por sí mismo de la veracidad o falsedad de tal información. Este trabajo se sitúa en el marco de un esfuerzo colectivo realizado por el Departamento de Matemáticas por dotar al alumno del material didáctico necesario para que éste optimice su proceso de enseñanza/aprendizaje/formación de las matemáticas. Hermosillo, Sonora, México. Agosto de 2010 2 Notas de Estadística Aplicada a la Administración, Contaduría e Informática Administrativa I. Dr. Francisco Javier Tapia Moreno. Contenido Pag. 02 Prólogo. Índice. 03 Tema I. Introducción 1. 1.1. 1.2. 1.3. 1.4. 2. 2.1. 2.2. 2.3. 2.4. 2.5. Introducción a la estadística aplicada Importancia de la estadística en la administración y en la contaduría. Importancia de la estadística para los estudiantes. Etapas del proceso investigativo. La función de la estadística dentro del proceso de investigación empírica. Cuestionario 1. Estadística en la vida diaria. a. Importancia y aplicaciones de la estadística. La Importancia de las Mediciones. Un minuto para pensar. Para qué la estadística. ¿Por qué aplicamos tan poco la estadística? ¿Qué debemos hacer? Cuestionario 2. 05 06 06 06 07 07 07 07 07 08 09 10 10 10 3. Conceptos Básicos. b) Diferencia entre estadística descriptiva e inferencial, en estudios ya realizados. 3.1. Conceptos preliminares. 3.1.1. Análisis estadístico. 3.2. Clasificación de datos. 3.2.1. Tipos de variables. 3.3. Escalas de medición. 3.4. Conceptos Fundamentales. 3.4.1. Caracteres. 3.4.2. Modalidades de los caracteres. 3.4.3. La matriz de datos. 3.4.4. Clases de datos. Ejercicios 1 11 11 11 11 14 14 14 15 15 16 16 17 17 4. Análisis de estudios estadísticos. 4.1. Definición de Estadística Descriptiva y Estadística Inferencial. 18 19 3 Notas de Estadística Aplicada a la Administración, Contaduría e Informática Administrativa I. Dr. Francisco Javier Tapia Moreno. 4.2. Identificación de las etapas de un estudio estadístico. Ejercicios 2. 20 21 5. Uso indebido de la estadística. 5.1. Usos y abusos de la Estadística. Ejemplos. Ejercicios 3. 22 22 23 6. Nociones básicas sobre muestreo. Introducción al Muestreo. 6.1. Muestreo aleatorio o probabilístico. 6.2. Muestreo no aleatorio o no probabilístico. 24 6.3. Técnicas de muestreo sobre una población. Cuestionario 3. Ejercicios 4. 24 24 25 31 32 Lecturas recomendadas. 33 Bibliografía recomendada para reforzar este tema. 33 Referencias. 33 4 Notas de Estadística Aplicada a la Administración, Contaduría e Informática Administrativa I. Dr. Francisco Javier Tapia Moreno. Tema I. Introducción a la Estadística Aplicada Todos los campos de la estadística tratan el mismo problema básico, que es el problema de la toma de decisiones ante la incertidumbre. Todas las reglas de decisiones deben evaluarse por sus consecuencias. Estas consecuencias se pueden expresar en términos de riesgo o, más intrínsecamente, en términos de las probabilidades de tomar cualquiera de las acciones posibles que son inducidas por el experimento, las reglas de decisión, y los posibles estados del sistema. En resumen no es en los hechos visibles, sino más bien en las decisiones derivadas de las observaciones, en las que debiera ponerse el énfasis principal de las observaciones estadísticas elementales. Hoy en día, la dirección, en todos sus niveles, se guía generalmente por los datos obtenidos mediante el análisis de registros, más que por conocimientos obtenidos meramente de la observación personal y la experiencia. Por medio de la aplicación de métodos estadísticos apropiados se puede medir el rendimiento diario, estudiar las relaciones significativas, analizar las experiencias pasadas y prever las tendencias futuras probables. El uso de métodos estadísticos y la realización del trabajo analítico que es fundamentalmente de carácter estadístico – ya sea que se le dé o no el nombre distintivo de estadística – ocupa un lugar conspicuo en el trabajo de todos los departamentos de una compañía. En la estadística, pueden hacerse las aplicaciones a casi cualquier agregado de observaciones o mediciones. Por esta razón, es muy útil en los negocios, en la economía, sociología, biología, psicología, educación, física, química, agricultura y campos similares. Para mucha gente la estadística significa descripciones numéricas. Sin embargo, en términos más precisos, la estadística está constituida por un conjunto de principios y procedimientos para el estudio de los fenómenos aleatorios. En este sentido la ciencia estadística tiene virtualmente un alcance ilimitado de aplicaciones en un espectro tan amplio de disciplinas que van desde las ciencias, ingeniería, economía hasta las leyes, medicina y la mercadotecnia. La estadística como una ciencia aplicada constituye una vasta rama del conocimiento para la investigación, dado que la finalidad de toda investigación es obtener conclusiones válidas que permiten establecer y dejar en un espacio específico y concreto la importancia que un problema conlleva. Los tipos de estudios estadísticos tienen vital importancia en la investigación, ya que la finalidad de ésta es que a partir de la recolección de “buenos datos”, proyectar conclusiones claras y de gran significancia, por ello se hace distinción en la forma de obtener los datos; y que para lograrlo están las técnicas de diseño estadístico, las cuales comprenden lo siguientes: 1) Estudios observacionales, donde el investigador es el observador y se utiliza principalmente para describir lo suficiente respecto al problema. 2) Estudios experimentales, donde se hacen interpretaciones bastantes claras de diferencias, por medio de procedimientos aleatorios. 3) Estudio de muestreo, donde una investigación empieza a tomar forma como tal, debido a que dependiendo de la obtención de muestras significativas se obtienen resultados significativos que para una investigación es el objetivo primordial en su desarrollo y conclusión. 5 Notas de Estadística Aplicada a la Administración, Contaduría e Informática Administrativa I. Dr. Francisco Javier Tapia Moreno. Importancia de la estadística en la administración y en la contaduría. 1.1. El muestreo es imprescindible en la investigación, ya sea ésta de cualquier ciencia aplicada, también ha sido el proceso por medio del cual algunas disciplinas han podido introducir en ellas metodologías y procedimientos para su consolidación como tal, una de las grandes disciplinas beneficiadas es la administración. La Estadística es de gran importancia en las diferentes empresas, enfocadas desde cualquier área profesional ya que ayudan a lograr una adecuada planeación y control apoyados en los estudios de pronósticos, presupuestos etc. Los estudios estadísticos que se realizan dentro de una empresa, motivan a la alta gerencia para que se definan los objetivos básicos de la empresa y en base a ellos se precise una estructura adecuada, determinando la responsabilidad y autoridad de cada una de las partes que integran la organización. Además, incrementan la participación de los diferentes niveles de la organización, cuando existe motivación adecuada, obligan a mantener un archivo de datos históricos controlables, facilitan a la administración la utilización óptima de los diferentes insumos, facilitan también, la coparticipación e integración de las diferentes áreas de la compañía, obligan a realizar un auto análisis periódico, facilitan el control administrativo, son un reto que constantemente se presenta a los ejecutivos de una organización para ejercitar su creatividad y criterio profesional a fin del mejoramiento de la empresa, ayudan a lograr una mayor efectividad y eficiencia en las operaciones. Para un administrador (a) o contador (a), la realización de pronósticos es de suma importancia ya que son útiles para prevenir los cambios del entorno, de manera que anticipándose a ellos sea más fácil la adaptación de las organizaciones y la integración de los objetivos y decisiones de las mismas. A través de los pronósticos, se pueden prever las perdidas en los resultados de los estados financieros futuros, y de esta manera se pueden tomar decisiones bien sea la reducción de costos y gastos, planear estrategias que ayuden al mejoramiento de la compañía, y que se cumpla con el objetivo de toda empresa que es la de generar dinero. Por ejemplo, con base en un análisis de rotación de inventarios se puede tomar la decisión de aumentar o sacar del mercado un determinado producto. Lo importante es detectar en cuáles áreas de su competencia profesional es útil aplicar los tipos de análisis estadísticos arriba mencionados. Importancia de la estadística para los estudiantes. 1.2. 1. Todo ciudadano estamos en continuo contacto con las estadísticas en todos los medios de comunicación. Debemos saber comprender la información que se ofrece para detectar mentiras y tomar decisiones informadas. 2. Como lector de artículos de investigación debe poder comprender la información cuantitativa que se le ofrece en los artículos que lee. 3. Como productor de investigaciones, debe poder utilizar las estadísticas en sus propias investigaciones. 1.3. Etapas del proceso investigativo. El proceso investigativo tradicional con el que se genera una disertación o tesis consiste de varias etapas o momentos entre los que se distinguen como esenciales: 1. El planteamiento del objetivo de la investigación o creación de la pregunta de investigación. 2. El planteamiento de las hipótesis de investigación. 3. La recopilación de datos para someter a prueba la hipótesis de investigación. 4. El análisis de los datos recogidos. 5. La evaluación de las hipótesis a la luz de estos análisis. 6 Notas de Estadística Aplicada a la Administración, Contaduría e Informática Administrativa I. Dr. Francisco Javier Tapia Moreno. La función de la estadística dentro del proceso de investigación experimental. 1.4. Dentro del proceso de investigación se puede llamar estadística a todos y cada uno de los siguientes procesos: 1.Recolección de datos a través de cuestionarios y observaciones. 2. Presentación de los datos en tablas y gráficas. 3. Transcripción de datos por medio de medidas de tendencia central y dispersión. 4. Análisis e interpretación de resultados. 5. Presentación de conclusiones (donde se interpretan cualitativamente los resultados cuantitativos). 6. Proceso (puntos 1-5) en su totalidad como la justificación para la toma de decisiones. Cuestionario 1. 1. 2. 3. 4. 5. 6. 7. Menciona los tres tipos de estudios estadísticos existentes. Explica brevemente en qué consiste cada uno de los tres estudios estadísticos. Por qué es importante la estadística para el sector empresarial? ¿Por qué es importante que todas las personas sepamos algo de estadística? Menciona las etapas de un proceso investigativo. ¿Cuál es la función de la estadística en el proceso de investigación empírica? ¿Para ti que es la estadística? 2. Estadística en la vida diaria. b. Importancia y aplicaciones de la estadística. 2.1. La Importancia de las Mediciones. De acuerdo con el doctor Lefcovich [1], no se puede gestionar o administrar lo que no se mide. Las mediciones son la clave. Si no puedes medir una dificultad en tu trabajo, no podrás controlarla. Si no puedes controlarla, no podrás administrarla. Si no puedes administrarla, no podrás mejorarla. La falta sistemática o ausencia estructural de estadísticas en las organizaciones impide una administración científica de las mismas. Dirigir sólo en base a datos financieros del pasado, realizar predicciones basadas más en la intuición o en simples extrapolaciones, y tomar decisiones desconociendo las probabilidades de éxito u ocurrencia, son sólo algunos de los problemas o inconvenientes más comunes hallados en las empresas. Carecer de datos estadísticos en cuanto a lo que acontece tanto interna como externamente, impide decidir sobre bases racionales, y adoptar las medidas preventivas y correctivas con el suficiente tiempo para evitar daños, en muchos casos irreparables, para la organización. Peter Drucker (padre de la administración) [2], hace dos afirmaciones básicas. Primero, afirma que pocos factores son tan importantes para la actuación de la organización como la medición. Segundo, lamenta el hecho de que la medición sea el área más débil de la gestión en muchas empresas. Prácticamente todos los autores de libros de gestión han lamentado que la medición sea crítica para el éxito y que la mayoría de los directores no tengan habilidades cuantitativas adecuadas. En otras épocas disponer de los datos y luego analizarlos resultaba una labor costosa y agotadora, pues ella se basaba en la labor manual de los empleados. Pero hoy se cuenta con computadoras cada día más veloces y 7 Notas de Estadística Aplicada a la Administración, Contaduría e Informática Administrativa I. Dr. Francisco Javier Tapia Moreno. económicas, al tiempo que se dispone de programas más potentes y flexibles, por lo cual las empresas que utilicen dicho potencial obtendrán una fuerte diferencia competitiva en relación a sus adversarios, pero más aún, podrán mejorar continuamente el desempeño en los diversos índices y mediciones que hacen a los procesos y actividades de la empresa. Las empresas que no hagan uso de estas nuevas potencialidades y afronten debidamente éstas nuevas exigencias, no sólo perderán capacidad competitiva, sino que quedarán desacoplados ante los continuos cambios del entorno, poniendo en serio riesgo su propia continuidad. En otras épocas con lentos procesos de cambios, los cuales resultaban casi imperceptibles en el tiempo, se podía administrar una empresa con pocos datos estadísticos. Hoy en un mundo de profundos y veloces cambios en todos los órdenes ya no es posible actuar con apatía. Hoy un empresario necesita predecir a tiempo los niveles de demanda de sus productos, necesita reconocer a tiempo los cambios de tendencia, debe no sólo saber en qué se gasto, sino cómo se gasto en el período de tiempo y en qué conceptos. Para negociar, para tomar decisiones, para corregir problemas de calidad, para aumentar la productividad, para fijar precios, para mejorar el mantenimiento y disponibilidad de las máquinas e instalaciones, para mejorar la concesión y cobranza de los créditos se requiere contar con datos estadísticos. Toda decisión, todo análisis, todo presupuesto, está prácticamente en el aire si no se cuenta con datos estadísticos suficientes y fiables. No sólo a nivel empresa, sino también a nivel país, los que más han avanzado han sido aquellos que hicieron de las estadísticas una herramienta fundamental. W. Edwards Deming [3], un pionero en métodos estadísticos para el control de calidad, señaló que en Japón se pone mucho énfasis en las estadísticas para directores de empresa. En parte fue la aplicación de las técnicas estadísticas enseñadas por Deming lo que hizo que Japón pasara de ser un fabricante de imitaciones baratas a líder internacional en productos de primera calidad. Sin estadísticas una empresa carece de capacidad para reconocer que actividades o productos le generan utilidades, y cuales sólo pérdidas. No contar con datos e interpretarlos correctamente es para los administradores como caminar en la oscuridad. Contar con los datos les ilumina, les permite ver lo que está aconteciendo y en consecuencia tomar las medidas más apropiadas. Un minuto para pensar 2.2. ¿Podrías responder a las siguientes preguntas? ¿Qué clientes les generan los mayores beneficios a las empresas? ¿Qué zonas o regiones geográficas son las que generan mayores ventas en unidades monetarias y volúmenes? (en total y por producto) ¿Cuáles son las reparaciones que más se han producido en el último trimestre? ¿En qué día de trabajo de cada mes logra llegar al punto de equilibrio cierta empresa? ¿Qué tipo de reparaciones han generado mayores egresos? ¿Puedes decirme cuáles son la capacidad de los diferentes procesos en materia de costos, productividad y calidad en una empresa? ¿Cuál es su nivel en sigma de cada una de las actividades? ¿Cuál es el nivel de rotación o permanencia de clientes? ¿Sabes en qué etapa del ciclo de vida se encuentra cada uno de sus productos o servicios? ¿Cuál es el nivel de satisfacción de los clientes? Si diriges o administras un sanatorio ¿cuáles son las enfermedades que más clientes reportan? ¿Cuáles son los problemas que más consultas originan? Si posees un restaurante ¿cuáles son los platos más pedidos durante el año y por temporada? ¿Cuáles son los vinos más pedidos y cuáles los más vendidos? Si diriges una librería ¿cuáles son los temas más vendidos? ¿Cuál es la rentabilidad que le aporta cada tema? ¿Cómo contribuye cada tema a lograr el punto de equilibrio? Si diriges un hotel ¿cuál es el tiempo promedio de estadía? ¿La cantidad de clientes por zona o región? ¿La cantidad de tiempo por región y su relación con la cantidad de tiempo de estadía? 8 Notas de Estadística Aplicada a la Administración, Contaduría e Informática Administrativa I. Dr. Francisco Javier Tapia Moreno. ¿La facturación por profesión, zona, motivo de su visita (turismo, negocios, salud, profesionales, capacitación, otros)? Estás son sólo unas pocas preguntas de las cuales estoy seguro tú no podrás responder o para hacerlo, deberás destinar de una gran cantidad de tiempo en personal, aparte de generar una información poco confiable, costosa y fuera de tiempo. Si no cuentas con estos datos, ¿cómo le harías tú? para: tomar con tiempo las medidas correctivas; confeccionar un presupuesto viable y efectivo; administrar eficazmente su flujo de fondos; evitar los excesos de productos en existencia y la obsolescencia de inventarios; gestionar la mejora de los diversos procesos; saber cuándo está mejorando la productividad; negociar un incremento de precios; detectar la causa de un problema y solucionarlo. En pocas palabras: ¿Sabes realmente qué ocurre dentro de cualquier organización que sea de tu interés? Para poder saber qué pasa en esta organización, es necesario contar con datos en tiempo y forma, sabiéndolos interpretar correctamente. Es aquí donde la estadística y los sistemas de información convergen para posibilitar al directivo y éste pueda gestionar con mucha mayor eficiencia y eficacia su organización. 2.3. Para qué la estadística. Los análisis estadísticos son fundamentales a los efectos de gestionar y mejorar temas o actividades tales como: 1. El control de calidad. 2. El nivel de averías y sus frecuencias. 3. Los tiempos para cambios o preparación de herramientas. 4. Los niveles de productividad de distintos procesos, actividades y productos. 5. Los costos correspondientes a distintos tipos de conceptos y actividades. 6. La gestión de créditos y cobranzas. 7. El seguimiento del flujo de fondos. 8. Los niveles de satisfacción de los clientes y usuarios. 9. Los tipos de accidentes y sus frecuencias. 10. El análisis mediante diagramas de Pareto de defectos, costes, rentabilidades, ventas. 11. Ventas por clientes, vendedores, zonas y productos. 12. Predicciones de ventas por zonas, productos, servicios o sucursales. 13. Capacidad de los procesos en cuanto a generación de niveles de costes, calidad y productividad. 14. Tiempos totales de ciclos productivos. 15. Tiempos de respuestas. 16. Gestión de inventarios. 17. Cumplimiento de aprovisionamiento por parte de los proveedores. 18. Predicción de ventas por canales de comercialización. 19. Proyectos de inversión. 20. Probabilidades para la construcción del “Árbol para la Toma de Decisiones”. 21. Evolución de los distintos ratios económicos – financieros y patrimoniales a lo largo del tiempo. 22. Estudios e investigación de mercado. 23. Tiempos de máquinas y personas por actividad. 24. Cantidad y representación porcentual de múltiples problemas y sus efectos económicos en la empresa. 25. Tasa de polivalencia del personal. 26. Productos más demandados, a nivel global, por zona y por canal de comercialización. 27. Porcentajes de actividades generadoras de valor agregado para los clientes finales, de valor agregado para la empresa y carentes de valor agregado. 28. Tiempos promedios, máximos y mínimos de reparaciones por tipo de averías. 9 Notas de Estadística Aplicada a la Administración, Contaduría e Informática Administrativa I. Dr. Francisco Javier Tapia Moreno. 29. 30. 31. 32. Cálculos de costes y en especial para el Costeo Basado en Actividades. Para los cálculos de productividades. Coeficientes de correlación. Estadísticas del personal (directivos y empleados). ¿Por qué aplicamos tan poco la estadística? 2.4. En parte por una cuestión cultural de parte de los empresarios, pero en mayor medida a la falta de preparación de los profesionales, en materia estadística, sobre todo de aquellos que asesoran en cuanto a la gestión de las empresas. Lo antes descrito es menos frecuente en los países anglosajones, los cuales tienen una fuerte cultura e inclinación por las estadísticas y las probabilidades. Otro tanto se da en Japón o Corea, países que dan a la educación de las estadísticas y matemáticas una fuerte preponderancia en sus planes de estudios y luego en la aplicación práctica. Sin lugar a dudas la cuestión no es disponer de datos estadísticos, si los mismos no son debidamente interpretados, o ni siquiera son tenidos en consideración. Por lo tanto es menester concientizar y formar a los directivos y empleados acerca de la fundamental y trascendental importancia de la información estadística a la hora de planificar, dirigir y controlar la marcha de la empresa. ¿Qué debemos hacer? 2.5. El primer paso como se expresara antes, es concientizar, para luego pasar a capacitar. El tercer paso consiste en la implementación. Diagnosticar para saber qué datos necesita la organización es un paso fundamental, pues a partir de allí se diseñarán los software más apropiados a las actividades, procesos y requerimientos específicos de cada empresa. Si bien la intuición nunca dejará de perder importancia, el tener el respaldo de datos confiables le permitirá poder adoptar decisiones sobre una base más apropiada. Es esto lo que se da en llamar la Gestión Moderna Basada en Estadísticas (GMBE). En conclusión, las modernas estadísticas acompañadas de las poderosas herramientas informáticas permiten a los directivos, asesores y personal, contar con la suficiente información para mejorar a partir de ella los procesos de la empresa, tomar mejores decisiones comerciales, mejorar la seguridad y hacer un uso mucho más productivo y provechoso de los recursos. Las estadísticas son fundamentales tanto para la administración financiera, como para la administración de operaciones, las ventas, el marketing, las cobranzas, la logística y la gestión de personal entre otras áreas y actividades de toda corporación. Cada día se exige ser más productivos, eliminando sistemáticamente los despilfarros. Hacer ello posible exige de información. Pretender dirigir una empresa como hace cincuenta años ya no es válido ni posible. El empresario tiene en sus manos la decisión de mejorar la empresa a través de una GMBE, o seguir conduciendo su empresa en la oscuridad. Cuestionario 2. 1. 2. 3. 4. 5. 6. ¿Qué es la estadística? ¿Para qué es útil la estadística en las empresas? ¿Por qué es importante realizar estudios estadísticos en las empresas? Mencione las maneras de obtener datos o información para realizar un estudio estadístico. ¿Cómo se relaciona tu área de estudio con la estadística? ¿Qué sugiere un diseño adecuado para la obtención de datos o información? 10 Notas de Estadística Aplicada a la Administración, Contaduría e Informática Administrativa I. Dr. Francisco Javier Tapia Moreno. 7. ¿Qué papel juega el muestreo en tu área de estudio? 8. ¿Por qué es importante realizar mediciones en una empresa? 9. ¿Cuál es la opinión de Peter Ducker (padre de la Administración), acerca de las mediciones? 10. ¿Qué ventajas ofrece la tecnología para la realización de mediciones o estadísticas? 11. ¿Cómo pueden usar la estadística los empresarios actuales? 12. ¿Qué repercusiones puede haber en una empresa que carece de estadísticas o mediciones? 13. Menciona por lo menos 6 usos de la estadística en el sector empresarial. 14. ¿Por qué la aplicación de la estadística en las empresas mexicanas es casi nula? 15. ¿Qué debemos hacer para estimular el uso de la estadística en las empresas mexicanas? 16. ¿Cuál es tu opinión personal acerca del uso de la estadística en tu vida diaria? 3. Conceptos Básicos. c) Diferencia entre estadística descriptiva e inferencial, en estudios ya realizados. Habitualmente el propósito de la Estadística Aplicada es el de sacar conclusiones de una población en estudio, examinando solamente una parte de ella denominada muestra. Este proceso, denominado Inferencia Estadística, suele venir precedido de otro, denominado Estadística Descriptiva, en el que los datos son ordenados, resumidos y clasificados con objeto de tener una visión más precisa y conjunta de las observaciones, intentando descubrir de esta manera posibles relaciones entre los datos, viendo cuales toman valores parecidos, cuales difieren grandemente del resto, destacando hechos de posible interés, etc. Al hablar de estadística descriptiva, uno se refiere a cualquier tratamiento de datos que esté diseñado para resumir o describir algunas de sus características más importantes sin intentar deducir nada que escape al alcance de los datos. También, entre los objetivos de la Estadística Descriptiva está el presentar los datos de tal modo que permitan sugerir o aventurar cuestiones a analizar en mayor profundidad, así como estudiar si pueden mantenerse algunas suposiciones necesarias en determinadas inferencias como la de simetría, normalidad, homocedasticidad (propiedad del modelo de regresión lineal general), etc. El propósito de esta sección es estudiar los conceptos y explicar técnicas que permitan realizar ambos procesos, a los cuales de forma conjunta se les suele denominar Análisis de Datos. 3.1. Conceptos preliminares. En esta sección se mencionan algunas definiciones importantes y se resalta la relación existente entre el análisis estadístico y la deducción o inferencia estadística con el propósito de utilizar estos conceptos para una buena toma de decisión en el manejo de una empresa. 3.1.1. Análisis estadístico. El término estadística es bastante común, podemos escucharlo en la radio, la televisión o leerlo en periódicos o revistas con bastante frecuencia. Con seguridad hemos leído frases como “Las estadísticas nos muestran que el pueblo de México está a favor de la globalización en la economía” o bien, las estadísticas nos muestran que “El nivel adquisitivo de los mexicanos ha disminuido en los últimos 10 años al menos un 50%” y así en general podemos leer o escuchar información semejante acerca de los deportes, población, espectáculos, etc. 11 Notas de Estadística Aplicada a la Administración, Contaduría e Informática Administrativa I. Dr. Francisco Javier Tapia Moreno. Aunque estos ejemplos realmente forman parte del concepto total de “Estadística”, la palabra tiene un sentido más amplio para aquellas personas cuyo trabajo requiere un conocimiento de los aspectos más técnicos de la estadística. Para estas personas la palabra “Estadística” tiene relación con aquellos conceptos y técnicas que se emplean en la recopilación, organización, presentación, análisis, interpretación y comunicación de información numérica. La estadística, surge de la necesidad que tiene los seres humanos de conocer y transformar la realidad. La estadística, con sus métodos modernos, contribuye al análisis e interpretación de la realidad así como también a la toma de decisiones para su transformación. La aplicación de los métodos estadísticos los podemos clasificar en tres etapas: a) Planeación de un proceso eficaz de búsqueda y registro de la información. b) Organización, sistematización y resumen de la información para facilitar su manejo, presentación y descripción. c) Análisis de la información obtenida, verificación de hipótesis, obtención de conclusiones y toma de decisiones. En la planeación y diseño de búsqueda y recolección de la información, así como en la estimación de las características de interés de la población a partir de la información contenida en una porción de ésta, la estadística aporta los métodos de muestreo, estimación y diseño de experimentos. Existen dos tipos de estadística: La estadística clásica o tradicional (frecuentista) y la estadística bayesiana o inferencia bayesiana. La diferencia entre ambas está en el concepto de probabilidad. Mientras que para la estadística clásica es un concepto objetivo, que se encuentra en la naturaleza, para la estadística bayesiana se encuentra en el observador, siendo así un concepto subjetivo. De este modo, en la estadística clásica sólo se toma como fuente de información las muestras obtenidas suponiendo, para los desarrollos matemáticos, que se puede tomar tamaños límite de las mismas. En el caso bayesiano, sin embargo, además de la muestra también juega un papel fundamental la información previa o la historia que se posee relativa a los fenómenos que se tratan de modelar. En general, la estadística según los métodos que aporta, se puede dividir en las tres ramas siguientes: Estadística descriptiva, Estadística inferencial e inferencia Bayesiana. La Estadística descriptiva proporciona los métodos que permiten organizar, resumir, presentar y describir los resultados de las observaciones de la característica de interés, contenida en una muestra, con el objeto de hacer estimaciones, por lo general puntuales, sobre las características principales de la población (su distribución, media poblacional, variabilidad, etc.), la Estadística inferencial proporciona los métodos que permiten la estimación de los parámetros poblacionales, y corroborar hipótesis sobre uno o más parámetros poblacionales, a partir de una o más muestras aleatorias extraídas de la población y la Estadística bayesiana o inferencia bayesiana se basa en la interpretación de la probabilidad como el grado personal de creencia, permite asignar probabilidades a los parámetros por el simple hecho de que son desconocidos, cosa que en la estadística clásica no se hace. En pocas palabras, en la estadística bayesiana se considera que los parámetros representan variables aleatorias y por lo tanto están sujetos a una probabilidad de ocurrencia. La necesidad de esta interpretación de la probabilidad queda de manifiesto cuando observamos la cantidad de sucesos de los que tratamos de extraer probabilidades que no pueden ser interpretados desde el punto de vista frecuentista. En este curso, sólo nos enfocaremos en la primera rama de la estadística clásica, la estadística descriptiva. La estadística es una herramienta científica. Su valor depende de cómo se utilice como herramienta. Sin embargo, la estadística es frecuentemente mal utilizada. Los siguientes son algunos de los malos usos comunes de datos estadísticos: Datos estadísticos inadecuados. Tales como cuando el tamaño de la muestra no es el adecuado o bien, no es representativo de la población. Existen muchas otras clases de datos inadecuados. Por ejemplo, algunos datos son respuestas inexactas de una encuesta, porque las preguntas usadas en la misma son vagas o engañosas, algunos datos son toscas imitaciones porque no hay disponibles datos exactos o es demasiado costosa su obtención, y algunos datos son irrelevantes en un problema dado, 12 Notas de Estadística Aplicada a la Administración, Contaduría e Informática Administrativa I. Dr. Francisco Javier Tapia Moreno. porque el estudio estadístico no está bien planeado. y en algunas ocasiones los datos son inventados por el encuestador al no encontrar personas que quieran responder a la encuesta por larga o tendenciosa. Un sesgo del usuario. Significa que un usuario de los datos perjudicialmente dé más énfasis a ciertos hechos, los cuales son empleados para mantener su predeterminada posición u opinión. Existen dos clases de sesgos; conscientes e inconscientes. Ambos son comunes en el análisis estadístico. Hay numerosos ejemplos de sesgos conscientes. Por ejemplo un anuncio de publicidad, frecuentemente utiliza estadística para probar que su producto es muy superior al producto de su competidor. Un político usa la estadística como herramienta para querer mostrar la preferencia a su candidatura, etc. Es casi imposible que un sesgo inconsciente esté completamente ausente de un trabajo estadístico. En lo que respecta al ser humano, es difícil obtener una actitud completamente objetiva al abordar un problema, aun cuando un científico debe tener una mente abierta. Un estadístico debe estar enterado del hecho de que su interpretación de los resultados del análisis estadístico está influenciado por su propia experiencia, conocimiento y antecedentes con relación al problema dado. Supuestos falsos. En el análisis estadístico frecuentemente se hacen supuestos. Un estadístico debe ser extremadamente cuidadoso para evitar supuestos falsos. Supuestos falsos pueden ser hechos por quien usa los datos, o bien quien: a) está tratando deliberadamente de confundir a los oyentes, b) carece de conocimiento de métodos estadísticos o c) es simplemente descuidado. No es raro que un anunciante proponga deliberadamente que no existe mercancía de primera clase fuera de su producto o bien que no está enterado de ello. Una línea de tendencia no debería ser dibujada para el propósito de pronosticar las ventas futuras si los datos estadísticos están limitados a un corto período de tiempo, especialmente cuando se trata de un período de sólo tres meses. Supuestos falsos hechos por descuidos son numerosos. Muchos experimentados hombres de negocios, por ejemplo, saben que nuestra economía es dinámica y que el poder de compra del dinero o el valor del dólar cambia año tras año. Sin embargo, frecuentemente cuando uno hace una proyección para futuras transacciones, la persona hará un supuesto descuidado que el valor del dólar y las condiciones económicas son de esperarse que sean exactamente las mismas en el futuro. Indicación falsa de relación. En el análisis de correlación, la relación de dos o más conjuntos de datos estadísticos son analizados. Cuando los valores en un conjunto de datos están creciendo y los valores correspondientes en otro conjunto, están también creciendo, matemáticamente hablando, una correlación positiva entre los dos conjuntos de datos puede ser encontrada. Si la conclusión está basada solamente en los resultados matemáticos puede llegar a una indicación falsa de relación. Por ejemplo, un estadístico puede tener dos conjuntos de datos. Un conjunto muestra la producción anual de vehículos de la planta Ford, y el otro indica el número de accidentes anuales en un pequeño poblado. Ambas cifras se incrementaron si se tomó en un mismo período casi a la misma tasa año con año. Si los dos conjuntos de datos son analizados conjuntamente, los cálculos matemáticos indicarán que están estrechamente relacionados. Si una conclusión se basa sólo en la indicación matemática, uno puede establecer que el incremento de accidentes en carretera en ese pequeño poblado fue debido a que se incremento la producción de los vehículos de la planta Ford durante el mismo período. El enunciado es obviamente falso. Un resultado matemático sirve como una guía para quien tenga que hacer una conclusión; no es en sí misma una conclusión. Comparación impropia. Es la comparación entre dos cosas, las cuales no son realmente comparables porque son básicamente diferentes. Por ejemplo, si comparamos los pesos de los estudiantes de una universidad y los pesos de los estudiantes de una escuela primaria. Por comparación, podemos encontrar que los pesos de los estudiantes universitarios son mayores que los pesos de los alumnos de la escuela primaria. Si extraemos una conclusión basada en la comparación que los estudiantes universitarios son "obesos" en comparación con los estudiantes de primaria, podemos encontrar que la comparación carece de sentido. Errores en operaciones matemáticas. El razonamiento estadístico basado en respuestas equivocadas de operaciones matemáticas frecuentemente conduce a conclusiones falsas. 13 Notas de Estadística Aplicada a la Administración, Contaduría e Informática Administrativa I. Dr. Francisco Javier Tapia Moreno. Para ver más casos del uso indebido de la estadística consultar [4], [5], [6], [7] y [8]. 3.2. Clasificación de datos. Para hablar de cómo se clasifican los datos estadísticamente, es necesario primero tener el concepto de variable y los tipos en que éstas se dividen. La finalidad de las siguientes secciones es dar un panorama general de los tipos de variables que existen y su forma de medición 3.2.1. Tipos de variables. 3.3. Variable. Es una característica de interés observable en cada elemento de una población o de una muestra. Las variables se clasifican en cualitativas y cuantitativas. Variables cualitativas, tal como su nombre lo indica, son las que presentan una cierta cualidad, son variables que no se pueden expresar con números. Por ejemplo, al referirse a la cantidad fabricada de un cierto producto, puede ser que existan tres fabricantes y se tienen que categorizar en el productor A, el productor B y el producto C para poder mencionar su volumen anual de producción. O bien, al referirse al sexo de una persona, se tienen dos cualidades o categorías, femenino y masculino. Las variables cualitativas pueden ser nominales y ordinales. Las variables cualitativas nominales sólo permiten la clasificación, no se puede establecer entre ellas ningún tipo de orden, por ejemplo, color, lugar de residencia, sexo, tamaño, raza, estado civil, etc. Mientras que las variables cualitativas ordinales toman distintos valores ordenados siguiendo una escala establecida. Por ejemplo, nivel socioeconómico, intensidad de consumo de alcohol, días de la semana, meses del año, grado académico. etc. Estas variables regularmente están sujetas a escalas de medición tales como escalas de Likert, Killip o Apgar. Variables cuantitativas, son variables que se expresan con números. Por ejemplo, edad, estatura, cantidad de trabajadores, sueldo, antigüedad en la empresa, etc. Las variables cuantitativas pueden ser continuas o discretas. Las Variables continuas son aquellas variables que teóricamente pueden tomar cualquier valor dentro de un intervalo de valores. Es decir, las variables continuas se miden uniformemente y pueden tomar valores fraccionarios. Ejemplos de variables continuas lo son la estatura, el tiempo realizado en la fabricación de un artículo, la distancia recorrida por un automóvil en la entrega de un cierto producto, la longitud de un trozo de madera, etc. Las Variables discretas son aquellas variables que sólo pueden tomar cantidades contables (que se puedan contar) de valores distintos. Estos es, las variables discretas sólo puede tomar valores enteros y, entre un valor y otro siempre existirá un vacío o interrupción. Ejemplos de este tipo de variables es, el número de artículos fabricados en una empresa un día determinado, el número de pedidos tomados en una pizzería de la localidad, el número de hijos en una familia, el número de trabajadores en una empresa, etc. Variables aleatorias. Son aquellas variables cuyos resultados provienen de factores fortuitos o sea, toman valores al azar. Dato. Es el valor que toma la variable. Escalas de medición. La escala de medición es la característica de los objetos a manera de que cada dato sea una función simple de las variables estudiadas. Las escalas de medición pueden ser clasificadas en "débiles" y "fuertes" según sea la característica de cada una. Las ideas sobre las escalas de medida han tenido un tremendo impacto en el pensamiento estadístico, sobre todo en lo que se refiere a los dominios propios de las técnicas paramétricas y 14 Notas de Estadística Aplicada a la Administración, Contaduría e Informática Administrativa I. Dr. Francisco Javier Tapia Moreno. no paramétricas. La medición debe permitir una objetividad absoluta; por ello el investigador debe enfocar críticamente todas las variables y no tratar de imponer determinadas escalas sólo porque le sean de diseño familiar. A cada categoría que se utilice para estudiar la variable se le puede asignar a un valor numérico. Las reglas para hacerlo están determinadas por los niveles de medición. Los niveles de medición posibles son: el nominal, el ordinal, el de intervalo y el de razón. Escala nominal. Como el nombre lo indica, consiste en clasificar las observaciones con nombres o categorías, las cuales deben ser mutuamente excluyentes. Es posible asignar números a las distintas clases pero hay que tener presente que no existe una relación de orden entre ellos. Como ejemplo de mediciones en esta escala es: el estado civil, nacionalidad, sexo de las personas, material del envase que más le atrae al consumidor etc. En este tipo de escala, la única medida centralizadora posible es la moda. También se puede describir por conteos. Gráficamente se representa con barras o gráficas sectoriales llamados diagramas de pastel. Escala ordinal. En esta escala las observaciones, además de cumplir con las características de la escala nominal, mantienen, de acuerdo a cierto criterio, una relación de orden. Son muy utilizadas cuando manejamos información no cuantitativa. En esta escala las categorías están ordenadas y, por lo tanto, no pueden intercambiarse porque el orden se rompería. Además, en ellas no pueden faltar categorías intermedias porque se rompería el orden secuencial. Ejemplos que caen en esta escala son: el nivel socioeconómico, tamaño del producto con mayor consumo, niveles en los puestos de las empresas, etc. Las medidas convenientes son la moda y la mediana. También son útiles los cuartiles, deciles y percentiles. Las gráficas convenientes son las de barras y las sectoriales (de pastel). Escala de intervalo. La escala de intervalo trabaja con valores numéricos, tiene todas las características de una escala ordinal y en ella se conoce la distancia entre dos números cualesquiera. Está caracterizada por una unidad de medida común y constante que asigna un número real a todos los elementos de un conjunto ordenado. En esta clase de medida, la proporción de dos intervalos cualesquiera es independiente de la unidad de medida y del punto cero, por lo tanto, el punto cero y la unidad de medida son arbitrarios. El ejemplo clásico de esta escala es la medición de temperaturas con las escalas Celsius y Fahrenheit. La unidad de medida y el punto cero en ellas son arbitrarios y son diferentes en ambas escalas. Escala de razón. Esta escala tiene todas las características de una escala de intervalo y además tiene un punto cero real en su origen. La proporción de un punto a otro de la escala es independiente de la unidad de medida. Su diferencia básica con la escala de razón es que el cero no es arbitrario sino inherente al sistema. Por ese hecho podemos comparar significativamente dos mediciones mediante su razón, y es decir, por ejemplo, que una persona con un peso de 120 kg. tiene el doble de peso de una persona con un peso de 60 kg. Ejemplos para esta escala son: el peso, edad, velocidad, etc. 3.4. Conceptos Fundamentales. Toda rama de la investigación científica tiene su vocabulario propio y la estadística no es su excepción. En esta sección se definirán algunos conceptos propios de la terminología de la Estadística Descriptiva. 3.4.1. Caracteres. Cada uno de los individuos de la población en estudio posee uno o varios caracteres. Así por ejemplo, si la población en consideración es la de los trabajadores de una determinada empresa de Hermosillo, éstos poseen una serie de caracteres o características que permiten describirlo. Los caracteres en este ejemplo, pueden ser 15 Notas de Estadística Aplicada a la Administración, Contaduría e Informática Administrativa I. Dr. Francisco Javier Tapia Moreno. "departamento en el que labora", "sueldo que gana", "sexo", "edad", "estado civil", etc. Precisamente la observación de uno o más de esos caracteres en los individuos de la muestra es lo que dará origen a los datos. Los caracteres pueden ser de dos clases: cuantitativos, cuando son tales que su observación en un individuo determinado proporciona un valor numérico como medida asociada, como ocurre por ejemplo con los caracteres "edad" o "sueldo que gana", y cualitativos, cuando su observación en los individuos no suministra un número, sino la pertenencia a una clase determinada, como por ejemplo el "sexo", o el "departamento en el que labora". 3.4.2. Modalidades de los caracteres. Consideremos un carácter cualquiera, como por ejemplo la "satisfacción del cliente". Este carácter, al ser observado en un individuo (grado de satisfacción), puede presentar tres posibilidades, es decir, es posible recibir tres respuestas diferentes: insatisfecho, satisfecho, muy satisfecho. Pues bien, a las posibilidades, tipos o clases que pueden presentar los caracteres las denominaremos modalidades. Las modalidades de un carácter deben ser a la vez incompatibles y exhaustivas. Es decir, las diversas modalidades de un carácter deben cubrir todas las posibilidades que éste puede presentar y además deben ser disjuntas. Es decir, un individuo no puede presentar a la vez más de una de ellas y además debe presentar alguna de ellas. Así, al estudiar algún carácter, como por ejemplo el " servicio al cliente", el investigador deberá considerar todas las posibles modalidades del carácter (todas las posibles respuestas; excelente, bueno, regular, malo, pésimo.), con el objetivo de poder clasificar a todos los individuos que observe. 3.4.3. La matriz de datos. Habitualmente, la información primaria sobre los individuos, es decir, la forma más elemental en la que se expresan los datos es la de una matriz, en la que aparecen en la primera columna los individuos identificados de alguna manera y en las siguientes columnas las observaciones de los diferentes caracteres en estudio para cada uno de los individuos, tal y como aparece en la Tabla 1. Dicha matriz recibe el nombre de matriz de datos. TABLA 1. MATRIZ DE DATOS carácter 1 carácter 2 . . . carácter m individuo 1 * * ... * individuo 2 * * ... * ... ... ... ... ... individuo n * * ... * Por ejemplo, los datos correspondientes a una investigación llevada a cabo para el estudio de los trabajadores de una empresa galletera de Cd. Obregón, produjeron como resultado la matriz de datos de la Tabla 2, en donde se recopilaron las observaciones de los caracteres "edad", "sexo", "estatura", "peso", antigüedad, escolaridad y "estado civil" en los 100 individuos seleccionados en la muestra. 16 Notas de Estadística Aplicada a la Administración, Contaduría e Informática Administrativa I. Dr. Francisco Javier Tapia Moreno. TABLA 2. ESTUDIO DE 100 OBREROS EN UNA EMPRESA GALLETERA DE CD. OBREGÓN, SON. Estatura Peso Antigüedad Escolaridad Estado Mts. Kg. (años) civil Edad Sexo individuo 1 32 masculino 1.76 80 4 secundaria casado individuo 2 29 femenino 1.66 58 2 bachillerato soltera ... ... ... ... ... ... ... ... individuo 100 61 masculino 1.78 90 15 primaria viudo En algunas ocasiones se reserva el nombre de matriz de datos a la obtenida de la anterior eliminando la primera columna. 3.4.4. Clases de datos. Es habitual denominar a los caracteres variables estadísticas o simplemente variables, calificándolas de cualitativas o cuantitativas según sea el correspondiente carácter, y hablar de los valores de la variable al referirnos a sus modalidades, aunque de hecho solamente tendremos verdaderos valores numéricos cuando analicemos variables cuantitativas. En ocasiones, con objeto de facilitar la toma de los datos, el investigador los agrupa en intervalos. Así por ejemplo, resulta más sencillo averiguar cuántos individuos hay en una muestra con una estatura, por ejemplo, entre 1.70 y 1.80 metros que medirlos a todos, en especial si tenemos marcas en la pared cada 10 cm. Obsérvese que siempre se producirá una pérdida de información al agrupar los datos en intervalos y, dado que hoy en día la utilización del ordenador suele ser de uso corriente, un agrupamiento en intervalos es en general no aconsejable. Sin embargo, por razones docentes admitiremos esta posibilidad, ya que precisamente el agrupamiento en intervalos traerá complicaciones adicionales en el cálculo de algunas medidas representativas de los datos. Consideraremos, por tanto, tres tipos posibles de datos: 1. Datos correspondientes a un carácter cualitativo 2. Datos sin agrupar correspondientes a un carácter cuantitativo 3. Datos agrupados en intervalos correspondientes a un carácter cuantitativo Ejercicios 1. 1. 2. 3. 4. 5. 6. 7. Define formalmente qué es la estadística. Escribe las tres etapas en que se clasifica la aplicación de los métodos estadísticos. Menciona los tres tipos de estadística existentes. Indica las dos ramas en que se divide la estadística clásica y su respectiva descripción. Subraya algunos malos usos comunes que se hace de la estadística. Define los siguientes conceptos: a) Variable b) Dato y c) Modalidad. Relaciona en la tabla, los conceptos y definiciones que se correspondan entre sí Concepto 1. Variable discreta 2. Variable nominal 3. Variable cuantitativa Definición a. Son aquellas variables cuyos resultados provienen de factores fortuitos o sea, toman valores al azar. b. son variables que no se pueden expresar con números. 17 Notas de Estadística Aplicada a la Administración, Contaduría e Informática Administrativa I. Dr. Francisco Javier Tapia Moreno. 4. 5. 6. 7. Variable continua Variable aleatoria Variable ordinal Variable cualitativa c. En este tipo de variables no se puede establecer entre ellas ningún tipo de orden. d. Estas variables toman distintos valores ordenados siguiendo una escala establecida e. son variables que se expresan con números. f. Estas variables pueden tomar cualquier valor dentro de un intervalo. g. Estas variables que sólo pueden tomar valores enteros. 8. Menciona los diferentes tipos de escala que existen y explica brevemente en qué consiste cada una de ellas. 9. Señala las modalidades de los siguientes caracteres: a) Estado civil. b) Actitud del cliente. c) Satisfacción del cliente. d) Forma de pago del cliente. e) Monto de la compra del cliente. f) Valor del cheque para el proveedor. g) Cartera de clientes. h) Estado del inventario. 4. Análisis de estudios estadísticos. Como se mencionó en la sección 3.1.1, existen tres tipos de estudios estadísticos llamados, Estadística descriptiva y Estadística Inferencial. En esta sección conoceremos la diferencia existente entre estos dos estudios mediante sus respectivas definiciones y ejemplos de estudios realizados. La Estadística descriptiva se ocupa de los métodos de recolección, descripción, visualización y resumen de datos originados a partir de los fenómenos en estudio. Los datos pueden ser resumidos numérica o gráficamente. Ejemplos básicos de descriptores numéricos son: la media y la desviación estándar. Resúmenes gráficos incluyen varios tipos de figuras y gráficos. Ejemplos de este tipo de análisis descriptivo pueden encontrarse en la prensa diaria, en la parte de información económico-social: series de tiempo, gráfica de barras, diagramas circulares, índices de precios, resultados de una encuesta y más elaborado, para más de una variable, en pirámide de edades, comparativas, etc. También puede encontrarse el uso de la estadística descriptiva en tablas de consumo, resultados deportivos, Accidentes laborales, Ventas anuales realizadas y, en general, hechos cuantificados en valores absolutos (tal cual), porcentajes (%) o índices (con un periodo base inicial = 100). En otras palabras, la Estadística Descriptiva se refiere a la recolección, presentación, descripción, análisis e interpretación de una colección de datos, esencialmente consiste en resumir éstos con uno o dos elementos de información (medidas descriptivas) que caracterizan la totalidad de los mismos. La estadística descriptiva es un método de obtener de un conjunto de datos conclusiones sobre sí mismos y no sobrepasan el conocimiento proporcionado por éstos. Puede utilizarse para resumir o describir cualquier conjunto ya sea que se trate de una población o de una muestra, cuando en la etapa preliminar de la Estadística Inferencial se conocen los elementos de una muestra. Por otro lado, la Estadística Inferencial se encarga de la generación de los modelos, inferencias y predicciones asociadas a los fenómenos en cuestión teniendo en cuenta lo aleatorio e incertidumbre en las observaciones. Se usa para modelar patrones en los datos y extraer inferencias acerca de la población de estudio. Los gobiernos y las organizaciones utilizan estos modelos para tomar 18 Notas de Estadística Aplicada a la Administración, Contaduría e Informática Administrativa I. Dr. Francisco Javier Tapia Moreno. decisiones que afectan directamente nuestras vidas. Es decir, la estadística Inferencial se refiere al proceso de lograr generalizaciones acerca de las propiedades del todo (población), partiendo de lo específico (muestra), las cuales llevan implícitos una serie de riesgos. Para que éstas generalizaciones sean válidas, la muestra deben ser representativa de la población y la calidad de la información debe ser controlada, además puesto que las conclusiones así extraídas están sujetas a errores, se tendrá que especificar el riesgo o probabilidad con que se pueden cometer estos errores. En sus particularidades la estadística inferencial distingue la estimación y la contrastación de hipótesis. Es estimación cuando se usan las características de la muestra para hacer inferencias sobre las características de la población. Es contrastación de hipótesis cuando se usa la información de la muestra para responder a interrogantes sobre la población. Los estadísticos se refieren a esta rama como inferencia estadística pero ésta implica generalizaciones y afirmaciones con respecto a la probabilidad de su validez. 4.1. Definición de Estadística Descriptiva y Estadística Inferencial. Estadística Descriptiva es la ciencia encargada de la recolección, presentación, descripción, análisis e interpretación de una colección de datos, esencialmente consiste en resumir éstos con uno o dos elementos de información (medidas descriptivas) que caracterizan la totalidad de los mismos. Estadística Inferencial es el conjunto de técnicas que se utiliza para obtener conclusiones que sobrepasan los límites del conocimiento aportado por los datos, busca obtener información de un colectivo mediante un sistemático procedimiento del manejo de datos de la muestra. Ahora, veamos algunos ejemplos que nos aclaren la diferencia entre estos dos tipos de estudios estadísticos. Ejemplo 1. Suponga que un administrador calcula la producción promedio diaria de la empresa donde labora durante un mes. Como la estadística calculada describe el desempeño diario del departamento de producción en un mes determinado, pero no hace ninguna generalización acerca de los diferentes meses del año, podemos decir que el administrador está utilizando estadística descriptiva. Graficas, tablas y diagramas que muestran los datos de manera que sea más fácil su entendimiento, son ejemplos de estadística descriptiva. Ejemplo 2. Suponga ahora que el administrador de la empresa decide utilizar el promedio de la producción mensual, obtenida en el ejemplo 3, para estimar la producción promedio anual de la empresa. El proceso de estimación de tal promedio sería un problema concerniente a la estadística inferencial. Ejemplo 3: Cuando van a llegar cualquier tipo de elecciones, por ejemplo, las elecciones generales, es muy frecuente que los medios de comunicación, nos adelanten los resultados de encuestas o sondeos en los que se nos indica el resultado final de dichas elecciones con una precisión específica y con un error determinado. Estos sondeos son realizados por distintas técnicas sobre un grupo (muestra) más o menos numeroso de personas. Naturalmente, cuanto mayor sea el número de mexicanos encuestados con derecho al voto, mayor será la fiabilidad de la encuesta, pero también mayor será el costo del sondeo. El estudio de esta muestra se haría mediante estadística descriptiva, pero lo que nos interesa no es el resultado de este estudio reducido sino el resultado final de las elecciones. El paso de generalizar los resultados de la muestra a toda la población, se hace mediante técnicas de la Estadística Inferencial. La elección de la muestra debe hacerse mediante métodos de muestreo (ver sección 6) para que el estudio resulte lo más fiable posible. 19 Notas de Estadística Aplicada a la Administración, Contaduría e Informática Administrativa I. Dr. Francisco Javier Tapia Moreno. Ejemplo 4. Supongamos que estamos laborando en una gran empresa, con un número muy elevado de trabajadores, por ejemplo 5,000, y queremos hacer un estudio estadístico sobre la altura de los trabajadores y las trabajadoras. Un método sería pasar departamento por departamento y medir a cada trabajador y trabajadora, esto nos podría llevar un tiempo considerable pero sería la forma más exacta de hacer dicho estudio, aunque es fácil encontrarnos con ausencias y tendríamos que volver varios días y pasar lista para conseguir la estatura de todo personal. Una vez que tengamos todos los datos en nuestro poder los resultados los obtendríamos mediante Estadística descriptiva. Otra posibilidad podría ser pasar departamento por departamento, y decirles a los trabajadores y trabajadoras que anoten su estatura en un papel y después recoger la información. También así tendríamos un estudio de Estadística descriptiva, aunque seguramente menos fiable que con el método anterior, pues casi con toda seguridad, y lo digo por experiencia, algunos trabajadores y trabajadoras escribirán su estatura a cálculo y otros(as), con ganas de bromear, muy por encima o muy por debajo de la realidad. Y una última posibilidad sería escoger una muestra, es decir un grupo de por ejemplo 500 personas, hacer el estudio descriptivo sobre ellas y después generalizarlo a todo el personal con Estadística de inferencia. En este caso, comprobaríamos por una parte que cuanto mayor sea la muestra más trabajo tendremos, pero más fiable será el resultado final y por otra, que la elección de la muestra debe hacerse de manera que permita también fiarnos del resultado obtenido. 4.2. Identificación de las etapas de un estudio estadístico. Los descubrimientos o avances científicos pueden ser fruto de la: 1) Casualidad, muy a menudo unida a una intuición genial. Por ejemplo, el descubrimiento de los rayos X, la penicilina, el yodo, la ley de la gravedad, etc. 2) Búsqueda de soluciones a problemas, como la necesidad de fabricar un nuevo producto, y los mencionados en la sección 2.2 y 2.3, y 3) la curiosidad teórica, con Einstein como uno de los mejores ejemplos. El primer camino es excepcional, no porque no se den ocasiones, sino porque la mayoría de las personas no reconocen la trascendencia de la observación. La suerte sólo favorece a los preparados dijo Pasteur. Los otros dos caminos son los habituales, y fueron ya mencionados en la sección 1.1, pero cada uno de ellos requiere un estudio planificado en el cual se distinguen las cinco etapas básicas siguientes: 1) Planteamiento del problema. Consiste en definir el objetivo de la investigación y precisar el universo o población de la misma y planear los métodos por los que se recopilarán los datos. En esta etapa se define qué se va a estudiar, por qué, para qué, cómo, etc. El “cómo” incluye a) el diseño de la investigación: lo que habitualmente se conoce en los trabajos científicos como material y métodos, por ejemplo el número de individuos a estudiar, las características que deben reunir, el procedimiento de elección, tratamiento aplicado, variables a medir, etc. b) las necesidades de material, personal y dinero. Como ya se mencionó, el planteamiento inicial es provisional, pudiendo ser modificado en función de los pasos 2 y 3. 2) Relevancia de la información. Mediante técnicas que permitan luego aplicar criterios para codificar esos datos. En esta etapa, es preciso saber lo máximo posible sobre el tema de la investigación, consultando libros y revistas especializadas. Es lo que se llama “revisión bibliográfica” o “revisión de la literatura”. Este material debe ser valorado críticamente. Ante cada trabajo concreto hay que hacerse una serie de preguntas. ¿Quién lo ha escrito? , ¿Dónde? , ¿Cuándo?, ¿el material y el método utilizados son correctos?, ¿están justificadas las conclusiones?, etc. El motivo de esta valoración crítica es que es muy, muy difícil hacer bien un trabajo científico, por lo que la inmensa mayoría tienen errores y deficiencias más o menos transcendentes. Tras este examen habrá cosas claras y generalmente aceptadas, mientras que otras serán inciertas, dudosas o controvertidas. Se tomará buena nota de los fallos observados en otros investigadores para no incurrir en ellos. 20 Notas de Estadística Aplicada a la Administración, Contaduría e Informática Administrativa I. Dr. Francisco Javier Tapia Moreno. 3) Formulación de la hipótesis. En esta etapa se realiza una explicación provisional de unos hechos. Al concluir la investigación se verá si es o no cierta (“verificación” de la hipótesis). Los estudios puramente descriptivos no tienen hipótesis, aunque pueden servir de base para formular la hipótesis. 4) Recopilación u obtención y presentación de los datos. En esta fase se escogen los métodos adecuados para mostrar los datos recopilados en forma resumida, las cuales deben expresarse de manera que su lectura sea sencilla. Existen 3 formas de presentación: con palabras (para pocos datos), mediante tablas estadísticas y mediante gráficos estadísticos. Para ello se va cumpliendo exactamente lo previsto en el punto “Material y métodos” del paso 1. Una vez recogidos todos los datos se clasifican y ordenan siguiendo las normas de la Estadística Descriptiva. Es importante buscar posibles errores de ejecución y desechar todo lo que no se ajuste exactamente al método previsto. 5) Inferencia estadística. Esta etapa sólo se usa en los casos en los que se trabaja con muestras y consiste en conocer valores de la población en base a los de las muestras. En esta fase se interpreta información de manera que pueda llevar a conclusiones válidas. Los gobiernos y las organizaciones utilizan la estadística para tomar decisiones que afectan directamente nuestras vidas. 6) Interpretación. En esta etapa se explica el sentido de todos los datos obtenidos. Para ello, se aplica el método de análisis estadístico que corresponda al tipo de datos y al objetivo de la investigación. Así se verifica la hipótesis de trabajo, es decir se confirma o se desecha. Las hipótesis no confirmadas también tienen su valor. Así, puede concluirse que un nuevo producto no es más eficaz que los que había, que una nueva técnica de producción no mejora la actual, etc. Todo ello permitirá sacar conclusiones. Hay que distinguir entre las conclusiones estadísticas, que como se verá en su momento, llevan anexo un juicio de significación y si es posible un juicio de causalidad, y las conclusiones del estudio que se basan en las anteriores. Es conveniente recordar que las conclusiones estadísticas lo son a nivel de grupo, no a nivel individual. Son válidas para la inmensa mayoría de los individuos, no para todos. “La estadística no es una ciencia exacta”. Un error frecuente es sacar conclusiones basadas en la información previa y no en el estudio. La distinción anterior se hace a efectos teóricos y didácticos, pues en la práctica al comienzo del trabajo se omiten las tres primeras etapas y al cabo de un tiempo, éstas quedan claramente definidas, cosa que inaceptablemente debe de ocurrir antes de iniciar el paso 4º, de la realización del reporte. Para más información sobre este tema consultar [9], [10] y [11]. Ejercicios 2 1. Suponga que trabaja en una empresa, ¿usted puede tomar como muestra la totalidad de clientes de la empresa? ¿Por qué? ¿Qué forma de elegir la muestra se te ocurre? 2. Explica la brevemente diferencia existente entre la estadística descriptiva y la estadística Inferencial. 3. Menciona las seis fases de un estudio estadístico y descríbelas en forma abreviada. 21 Notas de Estadística Aplicada a la Administración, Contaduría e Informática Administrativa I. Dr. Francisco Javier Tapia Moreno. 5. Ejemplos del uso indebido de la estadística. El verdadero significado de los hechos se puede distorsionar fácilmente. Por lo tanto, el investigador estadístico debe estar alerta para evitar malas interpretaciones de los datos y detectar usos erróneos de las estadísticas. Es esencial mantener una actitud crítica. Hay muchas personas que por carencia de sentido crítico de carácter estadístico, se impresionan muy fácilmente por coincidencias sorprendentes que a la luz de la teoría de la probabilidad y de la estadística nada tienen de sorprendentes. Sin embargo, existen otras personas que tienen una percepción general de que el conocimiento estadístico es demasiadamente y con mucha frecuencia intencional y mal usado, encontrando formas de interpretar los datos que sean favorables al presentador. El popular libro How to Lie with Statistics ("Como Mentir con Estadísticas") de Darrell Huff discute muchos casos de mal uso de la estadística, con énfasis en gráficas malintencionadas. Al escoger (o rechazar o modificar) una cierta muestra, los resultados pueden ser manipulados; eliminando outliers (casos raros) por ejemplo. Este puede ser el resultado de fraudes o sesgos intencionales por parte del investigador. El Decano de Harvard Lawrence Lowell escribió en 1909 que las estadísticas, "como algunos pasteles, son buenas si se sabe quién las hizo y se está seguro de los ingredientes." Enseguida mencionamos algunos ejemplos del uso impropio de datos (el gran arte de “mentir” con estadísticas) que habrán de alertar sobre ciertos errores comunes. 5.1. Usos y abusos de la Estadística. Ejemplos. "Las cifras no mienten, pero el hombre las manipula" La estadística puede ser efectivamente, mal usadas. Podemos nombrar numerosos ejemplos del mal uso intencionado de la estadística, sobre todo por aquellos que emplean sus habilidades en el campo para servir intereses particulares, distorsionando y falsificando los datos. Ejemplo5*: Cierto estado realizará sus elecciones para elegir al gobernador, una agencia realizó encuestas a una muestra representativa de electores y los resultados fueron, 9,800 electores dijeron estar a favor del candidato A y 10,000 del candidato B, como no había casi diferencias en la cantidad de votos de uno y otro, el partido PTK que representa el candidato B, pidió no mostrar los resultados, pero el editor del diario local le dijo: - si me permiten señores, creo que pudiéramos presentar los resultados de la siguiente manera: Gráfica 1. Comportamiento de la intención de votos 19,800 electores del estado. 22 Notas de Estadística Aplicada a la Administración, Contaduría e Informática Administrativa I. Dr. Francisco Javier Tapia Moreno. -A lo que contestó el partido PTK, ¡¡me gusta!! Si el gráfico que representa la intención de votos hubiera sido el Gráfico 2, ¿El partido PTK hubiera aceptado la publicación? ¿Por qué?, Uno de los gráficos está mal confeccionado?, ¿qué diferencia hay? ¿Qué aspectos faltarían indicar en el gráfico? Gráfico 2. Comportamiento de la intención de votos 19,800 electores del estado. *Adaptado de http://estadisticaestasahi.blogspot.com/2008/04/las-cifras-no-mienten-pero-el-hombre.html Ejemplo 6. Las estadísticas muestran que casi todos los accidentes de circulación se producen entre vehículos que ruedan a velocidad moderada. Muy pocos ocurren a más de 150 km/h. ¿Significa esto que resulta más seguro conducir a gran velocidad? No, de ninguna manera. Con frecuencia, las correlaciones estadísticas no reflejan causas y efectos. Casi todo el mundo circula a velocidad moderada, y como es natural, la mayoría de los accidentes se producen a estas velocidades. Ejemplo7. Si las estadísticas mostrasen que la mortalidad por tuberculosis es mayor en Segovia que en las demás provincias, ¿significaría esto que el clima segoviano favorece el contagio tuberculoso? Todo lo contrario. El clima segoviano es tan beneficioso para los tuberculosos que muchos acuden allí para restablecerse. Naturalmente, ésta es la causa de que aumenten allí los fallecimientos provocados por el mal. Ejercicios 3. 1. Menciona o investiga algunos casos de cómo puedes ser engañado mediante el uso de la estadística. 2. Una vez que te has documentado de los usos y abusos que se pueden lograr con la estadística, ¿cuál es tu opinión personal sobre la estadística? 3. ¿Cómo puedes evitar el hacer mal uso de la estadística? 23 Notas de Estadística Aplicada a la Administración, Contaduría e Informática Administrativa I. Dr. Francisco Javier Tapia Moreno. 6. Nociones básicas sobre muestreo. Introducción al Muestreo El propósito de un estudio estadístico suele ser, extraer conclusiones acerca de la naturaleza de una población. Al ser la población grande y no poder ser estudiada en su integridad en la mayoría de los casos, las conclusiones obtenidas deben basarse en el examen de solamente una parte de ésta, lo que nos lleva, en primer lugar a la justificación, necesidad y definición de las diferentes técnicas de muestreo mejor conocidas como diseños de experimentos. Los primeros términos obligados a los que se debe hacer referencia en un estudio estadístico son: estadístico (de muestra) o estimador y parámetro. Un estadístico es una medida cuantitativa, derivada de un conjunto de datos de una muestra, con el objetivo de estimar o contrastar características de una población o modelo estadístico. Un parámetro es un valor o medida que representa a una población, tal como la media aritmética, la proporción de individuos que presentan determinada característica, la desviación estándar y la varianza, etc. Dentro de este contexto, será necesario asumir un estadístico o estimador como una variable aleatoria con una determinada distribución, y que será la pieza clave en las dos amplias categorías de la inferencia estadística: la estimación y el contraste de hipótesis. El concepto de estimador, como herramienta fundamental, lo caracterizamos mediante una serie de propiedades que nos servirán para elegir el “mejor” para un determinado parámetro de una población, así como algunos métodos para la obtención de ellos, tanto en la estimación puntual como por intervalos. ¿Cómo deducir la ley de probabilidad sobre determinado carácter de una población cuando sólo conocemos una muestra? Este es un problema al que nos enfrentamos cuando, por ejemplo, tratamos de estudiar la relación entre las visitas realizadas de un grupo de clientes a un negocio determinado, y el monto de las compras realizadas por éstos e intentemos extender las conclusiones obtenidas sobre una muestra, a la población total de los clientes de la empresa. Como se vio en el tema anterior, la tarea fundamental de la estadística inferencial, es hacer deducciones o realizar pronósticos acerca de la población a partir de una muestra extraída de la misma. A continuación, estudiaremos algunas técnicas de muestreo basados en una rama de la estadística denominada teoría del muestreo. 6.1. Muestreo aleatorio o probabilístico. Consideremos una población finita, de la que deseamos extraer una muestra. Cuando el proceso de extracción es tal que garantiza a cada uno de los elementos de la población la misma oportunidad de ser incluidos en dicha muestra, denominamos al proceso de selección muestreo aleatorio. Existen varias formas de realizar un muestreo aleatorio las cuales son discutidas en la sección 6.3. El muestreo aleatorio puede ser planteado bajo dos puntos de vista: con reposición y sin reposición. Si el muestreo es con reposición de individuos u objetos se le llama muestreo con reemplazo y si el muestreo es sin reposición de individuos entonces se dice que es un muestreo sin reemplazo. Es decir, Muestreo con reemplazo: Es aquel en que un elemento puede ser seleccionado más de una vez en la muestra para ello se extrae un elemento de la población se observa y se devuelve a la población, por lo que de esta forma se pueden hacer infinitas extracciones de la población aun siendo esta finita. En este tipo de muestreo, o Cada elemento de la población tiene la misma probabilidad de ser elegido. 24 Notas de Estadística Aplicada a la Administración, Contaduría e Informática Administrativa I. Dr. Francisco Javier Tapia Moreno. o Las observaciones se realizan con reemplazo. De este modo, cada observación es realizada sobre la misma población (no disminuye con las extracciones sucesivas). El muestreo aleatorio con reposición es también denominado muestreo aleatorio simple. Muestreo sin reemplazo: No se devuelve los elementos extraídos a la población hasta que no se hallan extraídos todos los elementos de la población que conforman la muestra. 6.2. Muestreo no aleatorio o no probabilísticos. En este tipo de muestreos, los individuos son seleccionados por cualquier procedimiento que no ofrezca, a cada individuo de la población, la misma oportunidad de ser elegido. En ocasiones el contexto del estudio permite o facilita la aplicación de este tipo de muestreo, donde el investigador tiene la posibilidad de escoger la técnica de elección de los individuos de la población. Varias de estas técnicas son discutidas en la sección siguiente. Sin embargo, independientemente de la técnica elegida, siempre se estará sujeto a favorecer a ciertos tipos de individuos de la población más que a otros, es decir, se producirá una muestra sesgada. En estudios descriptivos la presencia de sesgo es una desventaja grave que el investigador regularmente se encuentra al realizar un estudio estadístico, en cuanto a valorar el muestreo y en cuanto escribir el reporte final de su informe. Por lo tanto, puede ser prudente pensar en él por adelantado antes de elegir la técnica de muestreo. Al valorar una muestra no aleatoria, el investigador debe hacerse las preguntas siguientes: ¿Serán los resultados de la muestra el mismo que se conseguiría con la población? ¿Es verdad que el criterio que se ha utilizado en seleccionar la muestra (por ejemplo, la buena voluntad del cliente a participar en el estudio), no tiene ninguna correlación con esas variables que se desea registrar de la muestra? Si hay correlación alta la muestra estará sesgada, y el investigador debe considerar el construir una nueva muestra con menos correlación. 6.3. Técnicas de muestreo sobre una población. La teoría del muestreo tiene por objetivo, el estudio de las relaciones existentes entre la distribución de un carácter en dicha población y las distribuciones de dicho carácter en todas sus muestras. Las ventajas de estudiar una población a partir de sus muestras son principalmente: Costo reducido: Si los datos que buscamos los podemos obtener a partir de una pequeña parte del total de la población, los gastos de recopilación y tratamiento de los datos serán menores. Por ejemplo, cuando se realizan encuestas previas respecto a la preferencia de un cierto producto, es más barato preguntar a 4 mil personas su gusto, que a 30 millones de personas; Mayor rapidez: últimamente, Estamos acostumbrados a ver cómo con los resultados del escrutinio de las primeras mesas electorales, se obtiene una aproximación bastante buena del resultado final de unas elecciones, muchas horas antes de que el recuento final de votos haya finalizado; 25 Notas de Estadística Aplicada a la Administración, Contaduría e Informática Administrativa I. Dr. Francisco Javier Tapia Moreno. Más posibilidades: Para hacer cierto tipo de estudios, por ejemplo el de duración de cierto tipo de bombillas, no es posible en la práctica destruirlas todas para conocer su vida media, ya que no quedaría nada que vender. Es mejor destruir sólo una pequeña parte de ellas y sacar conclusiones sobre las demás. De este modo se ve que al hacer estadística inferencial debemos enfrentarnos con dos problemas: Elección de la muestra (muestreo), que es a lo que nos dedicaremos en este capítulo. Extrapolación de las conclusiones obtenidas sobre la muestra, al resto de la población (inferencia). En la investigación científica, es habitual que se empleen muestras como medio de acercarse al conocimiento de la realidad. Sin embargo, para que esto sea posible, para que a través de las muestras sea posible reproducir el universo con la precisión que se requiera en cada caso es necesario que el diseño muestral se atenga a los principios recogidos en las técnicas de muestreo. Antes de pasar a describir algunos de los métodos de muestreo más habituales, necesitamos conocer algunos conceptos importantes en este contexto: Población: Es todo conjunto de elementos, finito o infinito, definido por una o más características, de las que gozan todos los elementos que lo componen, y sólo ellos. En muestreo se entiende por población a la totalidad del universo que interesa considerar, y que es necesario que esté bien definido para que se sepa en todo momento que elementos lo componen. No obstante, cuando se realiza un trabajo puntual, conviene distinguir entre población teórica u objetivo: conjunto de elementos a los cuales se quiere extrapolar los resultados, y población estudiada: conjunto de elementos accesibles en nuestro estudio. Lo que se desea es que la población objetivo y la población estudiada sean iguales. Censo: En ocasiones resulta posible estudiar cada uno de los elementos que componen la población, realizándose lo que se denomina un censo, es decir, el estudio de todos los elementos que componen la población. La realización de un censo no siempre es posible, por diferentes motivos: a) economía: el estudio de todos los elementos que componen una población, sobre todo si esta es grande, suele ser un problema costoso en tiempo, dinero, esfuerzo, etc.; b) que las pruebas a las que hay que someter a los sujetos sean destructivas; c) que la población sea infinita o tan grande que exceda las posibilidades del investigador. Si la numeración de elementos, se realiza sobre la población accesible o estudiada, y no sobre la población teórica, entonces el proceso recibe el nombre de marco o espacio muestral. Muestra: En todas las ocasiones en que no es posible o conveniente realizar un censo, lo que hacemos es trabajar con una muestra, entendiendo por tal una parte representativa de la población. Para que una muestra sea representativa, y por lo tanto útil, debe de reflejar las similitudes y diferencias encontradas en la población, ejemplificar las características de la misma. Cuando decimos que una muestra es representativa indicamos que reúne aproximadamente las características de la población que son importantes para la investigación. Ejemplo 8. Suponga que desea medir el grado de preferencia de los habitantes de Hermosillo, hacia los restaurantes locales, pero por problemas económicos sólo es posible acceder a los consumidores de ciertas colonias de Hermosillo. Surgen los siguientes cuestionamientos: Pregunta ¿A quién deseo generalizar los resultados? ¿A quién puedo acceder en el estudio? ¿Cómo puedo acceder a ellos? ¿Quién forma parte del estudio? Respuesta A todos los habitantes de Hermosillo (población teórica). A todos los habitantes en las colonias visitadas (población estudiada). Numerando los sujetos accesibles (espacio o marco muestral). Un grupo elegido aleatoriamente (muestra) de los sujetos enumerados (población). 26 Notas de Estadística Aplicada a la Administración, Contaduría e Informática Administrativa I. Dr. Francisco Javier Tapia Moreno. Además del muestreo simple, existen los muestreos dobles y los muestreos múltiples: Muestreo doble: Cuando el resultado del estudio de la primera muestra no es decisivo, una segunda muestra es extraída de la misma población. Las dos muestras son combinadas para analizar los resultados. Este método permite a una persona principiar con una muestra relativamente pequeña para ahorrar costos y tiempo. Si la primera muestra arroja una resultado definitivo, la segunda muestra puede no necesitarse. Muestreo múltiple: El procedimiento bajo este método es similar al expuesto en el muestreo doble, excepto que el número de muestras sucesivas requerido para llegar a una decisión es más de dos muestras. Métodos de muestreo clasificados de acuerdo con las maneras usadas en seleccionar los elementos de una muestra. Los elementos de una muestra pueden ser seleccionados de dos maneras diferentes: Tipos y técnicas de muestreo. Algunos autores proponen diferentes criterios de clasificación de los diferentes tipos de muestreo, aunque en general pueden dividirse en dos grandes grupos: métodos de muestreo probabilísticos y métodos de muestreo no probabilísticos. Muestreos Probabilísticos. Los métodos de muestreo probabilísticos son aquellos que se basan en el principio de equiprobabilidad. Es decir, aquellos en los que todos los individuos tienen la misma probabilidad de ser elegidos para formar parte de una muestra y, consiguientemente, todas las posibles muestras de tamaño n tienen la misma probabilidad de ser elegidas. Sólo estos métodos de muestreo probabilísticos nos aseguran la representatividad de la muestra extraída y son, por tanto, los más recomendables [12]. Dentro de los métodos de muestreo probabilísticos encontramos las siguientes técnicas: Muestreo aleatorio simple: El procedimiento empleado es el siguiente: 1) se asigna un número a cada individuo de la población y 2) a través de algún medio mecánico (bolas dentro de una bolsa, tablas de números aleatorios, números aleatorios generados con una calculadora u ordenador, etc) se eligen tantos sujetos como sea necesario para completar el tamaño de muestra requerido. Este procedimiento, atractivo por su simpleza, tiene poca o nula utilidad práctica cuando la población que estamos manejando es muy grande. Muestreo aleatorio sistemático: Este procedimiento exige, como el anterior, numerar todos los elementos de la población, pero en lugar de extraer n números aleatorios sólo se extrae uno. Se parte de ese número aleatorio i , que es un número elegido al azar, y los elementos que integran la muestra son los que ocupan los lugares i , i k , i 2k , i 3k , , i n 1k , es decir, se toman los individuos de k en k, siendo k el resultado de dividir el tamaño de la población entre el tamaño de la muestra: k N . El número i que empleamos como punto de partida será un número al azar entre 1 y n k. El riesgo de este tipo de muestreo, está en los casos en que se dan periodicidades en la población ya que al elegir a los miembros de la muestra con una periodicidad constante (k) podemos introducir una homogeneidad que no se da en la población. Por ejemplo, imaginemos que estamos seleccionando una muestra sobre listas de 10 individuos en los que los 5 primeros son varones y los 5 últimos mujeres, si empleamos un muestreo aleatorio sistemático con k = 10 siempre seleccionaríamos o sólo hombres o sólo mujeres, no podría haber una representación de los dos sexos. Muestreo aleatorio estratificado: Trata de obviar las dificultades que presentan los anteriores ya que simplifican los procesos y suelen reducir el error muestral para un tamaño dado de la muestra. Consiste en considerar categorías típicas diferentes entre sí (estratos) que poseen gran homogeneidad 27 Notas de Estadística Aplicada a la Administración, Contaduría e Informática Administrativa I. Dr. Francisco Javier Tapia Moreno. respecto a alguna característica (se puede estratificar, por ejemplo, según la profesión, el municipio de residencia, el sexo, el estado civil, etc). Lo que se pretende con este tipo de muestreo es asegurarse de que todos los estratos de interés estarán representados adecuadamente en la muestra. Cada estrato funciona independientemente, pudiendo aplicarse dentro de ellos el muestreo aleatorio simple o el estratificado para elegir los elementos concretos que formarán parte de la muestra. En ocasiones las dificultades que plantean son demasiado grandes, pues exige un conocimiento detallado de la población. (tamaño geográfico, sexos, edades, etc.). La distribución de la muestra en función de los diferentes estratos se denomina afijación, y puede ser de diferentes tipos: 1) Afijación Simple: A cada estrato le corresponde igual número de elementos muestrales. 2) Afijación Proporcional: La distribución se hace de acuerdo con el peso (tamaño) de la población en cada estrato. 3) Afijación Óptima: Se tiene en cuenta la previsible dispersión de los resultados, de modo que se considera la proporción y la desviación típica. Tiene poca aplicación ya que no se suele conocer la desviación. Ejemplo 9. Suponga que la administración de una empresa sonorense, está interesada en estudiar el grado de aceptación de un nuevo plan de pensiones propuesto por la compañía. Para tal efecto selecciona una muestra de 600 trabajadores. Se sabe por los datos de la administración que de los 10,000 trabajadores de la firma, 6,000 trabajan en el área de producción, 3,000 en el área de mantenimiento y 1,000 en el área administrativa. Como la administración está interesada en que en la muestra estén representados todos los tipos de trabajadores, debe realizarse un muestreo estratificado empleando como variable de estratificación el área de trabajo. Si empleamos una afijación simple, elegiríamos 200 trabajadores de cada área, pero en este caso parece más razonable utilizar una afijación proporcional pues, hay bastante diferencia en el tamaño de los estratos. Por consiguiente, calculamos que proporción supone cada uno de los estratos respecto de la población para poder reflejarlo en la muestra. Área de producción: 6 000 0.60 10 000 Área de Mantenimiento: Área administrativa: 3 000 0.30 10 000 1 000 0.10 10 000 Para conocer el tamaño de cada estrato en la muestra, no tenemos más que multiplicar esa proporción por el tamaño de la muestra. Área de producción: 0.60600 360 trabajadores Área de Mantenimiento: 0.30600 180 trabajadores Área administrativa: 0.10600 60 empleados Muestreo aleatorio por conglomerados: Los métodos presentados hasta ahora, están pensados para seleccionar directamente los elementos de la población, es decir, que las unidades muestrales son los elementos de la población. En el muestreo por conglomerados la unidad muestral es un grupo de elementos de la población que forman una unidad, a la que llamamos conglomerado. Las unidades hospitalarias, los departamentos universitarios, una caja de determinado producto, etc., son conglomerados naturales. En otras ocasiones se pueden utilizar conglomerados no naturales como, 28 Notas de Estadística Aplicada a la Administración, Contaduría e Informática Administrativa I. Dr. Francisco Javier Tapia Moreno. por ejemplo, las urnas electorales. Cuando los conglomerados son áreas geográficas suele hablarse de "muestreo por áreas". El muestreo por conglomerados consiste en seleccionar aleatoriamente un cierto número de conglomerados (el necesario para alcanzar el tamaño muestral establecido) y en investigar después todos los elementos pertenecientes a los conglomerados elegidos. Ejemplo 10. En una investigación en la que se trata de conocer el grado de satisfacción laboral de los profesores de la Universidad de Sonora, se requiere de una muestra de 700 maestros. Ante la dificultad de acceder individualmente a estos instructores, se decide hacer una muestra por conglomerados. Sabiendo que el número de profesores por carrera es en promedio de 35, los pasos a seguir serían los siguientes: 1. Recoger un listado de todas las carreras. 2. Asignar un número a cada una de ellas. 700 20 que nos proporcionarán 35 3. Elegir por muestreo aleatorio simple o sistemático las 20 carreras los 700 profesores que necesitamos. Dado lo compleja que puede llegar a ser la situación real de muestreo con la que nos enfrentemos, es muy común emplear lo que se denomina muestreo polietápico. Este tipo de muestreo se caracteriza por operar en sucesivas etapas, empleando en cada una de ellas el método de muestreo probabilístico más adecuado. Las ventajas, desventajas e inconvenientes de los distintos tipos de muestreo probabilístico aparecen en la Tabla 3*. TABLA 3. CARACTERÍSTICAS, VENTAJAS E INCONVENIENTES DE LOS DISTINTOS MUESTREOS PROBABILÍSTICOS. Características Ventajas Aleatorio simple Sencillo y de fácil comprensión. Cálculo rápido de medias y varianzas. Se basa en la teoría estadística, y por tanto existen paquetes informáticos para analizar los datos Seleccionar una muestra de tamaño n de una población de N unidades, cada elemento tiene una probabilidad de inclusión igual y conocida de n/N. Conseguir un listado de los N elementos de la población. Fácil de aplicar. No siempre es necesario tener un listado de toda la población. Cuando la población está ordenada siguiendo una tendencia conocida, asegura una cobertura de unidades de todos los tipos. Determinar el tamaño muestral n. Sistemático Definir un intervalo k = N/n. Elegir un número aleatorio ( r ), entre 1 y k (r = al arranque aleatorio). Estratificado Seleccionar los elementos de la lista. En ciertas ocasiones resultará conveniente estratificar la muestra según ciertas variables de interés. Para ello debemos conocer la Tiende a asegurar que la muestra represente adecuadamente a la población en función de 29 Desventajas Requiere que se posea de antemano un listado completo de toda la población. Cuando se trabaja con muestras pequeñas es posible que no represente a la población adecuadamente. Si la constante de muestreo está asociada con el fenómeno de interés, las estimaciones obtenidas a partir de la muestra pueden contener sesgo de selección. Se ha de conocer la distribución en la población de las variables utilizadas para Notas de Estadística Aplicada a la Administración, Contaduría e Informática Administrativa I. Dr. Francisco Javier Tapia Moreno. composición estratificada de la población objetivo a hacer un muestreo. unas variables seleccionadas. Se obtienen estimaciones más precisas Su objetivo es conseguir una muestra lo más semejante posible a la población en lo que a la o las variables estratificadoras se refiere. Es muy eficiente cuando la población es muy grande y dispersa. No es preciso tener un listado toda la población sólo de las unidades primarias de muestreo. Una vez calculado el tamaño muestral apropiado, este se reparte de manera proporcional entre los distintos estratos definidos en la población usando una simple regla de tres. Se realizan varias fases de muestreo sucesivas (polietápico). Por Conglomerados La necesidad de listados de las unidades de una etapa se limita a aquellas unidades de muestreo seleccionadas en la etapa anterior. la estratificación. El error estándar es mayor que en el muestreo aleatorio simple o estratificado. El cálculo del error estándar es complejo. *Fuente: http://www.estadistica.mat.uson.mx/Material/elmuestreo.pdf Última visita 29 de junio de 2010. Muestreos no probabilísticos. En algunas ocasiones, para estudios exploratorios, el muestreo probabilístico resulta excesivamente costoso y se acude a métodos no probabilísticos, aun siendo conscientes de que no sirven para realizar generalizaciones, pues no se tiene certeza de que la muestra extraída sea representativa, ya que no todos los sujetos de la población tienen la misma probabilidad de ser elegidos. En general se seleccionan a los sujetos siguiendo determinados criterios procurando que la muestra sea representativa. Muestreo por cuotas o accidental: También denominado en ocasiones "accidental". Se asienta generalmente sobre la base de un buen conocimiento de los estratos de la población y/o de los individuos más "representativos" o "adecuados" para los fines de la investigación. Mantiene, por tanto, semejanzas con el muestreo aleatorio estratificado, pero no tiene el carácter de aleatoriedad de aquél. En este tipo de muestreo se fijan unas "cuotas" que consisten en un número de individuos que reúnen determinadas características, por ejemplo: 20 individuos de 25 a 40 años, de sexo femenino y residentes en Cd. Obregón Una vez determinada la cuota se eligen los primeros que se encuentren que cumplan esas características. Este método se utiliza mucho en las encuestas de opinión. Ejemplo 11. La Administración del Centro Tutelar de Menores de Hermosillo, desea estudiar la incidencia de las drogas en la adolescencia. Lo que se debe hacer es: conocer por los informes de la Coordinación Estatal de Centros Tutelares de Menores, cuales son los centros más afectados por el problema, fijar un número de sujetos a entrevistar proporcional a cada uno de los estratos (cuotas) y finalmente dejar en manos de los responsables del trabajo de campo a que sujetos concretos se deberá entrevistar. Muestreo opinático o intencional. Este tipo de muestreo, se caracteriza por un esfuerzo deliberado de obtener muestras "representativas", mediante la inclusión en la muestra de grupos supuestamente típicos. Es muy frecuente su utilización en sondeos preelectorales de zonas que, en anteriores votaciones han marcado tendencias de voto. Ejemplo 12. A criterio del investigador los elementos son elegidos sobre lo que él cree que pueden aportar al estudio. Por ejemplo, cajeros de un banco; desempleados; algún tipo de enfermo; propietarios de autos, etc. 30 Notas de Estadística Aplicada a la Administración, Contaduría e Informática Administrativa I. Dr. Francisco Javier Tapia Moreno. Muestreo casual o incidental: Se trata de un proceso en el que el investigador, selecciona directa e intencionadamente los individuos de la población. El caso más frecuente de este procedimiento, es utilizar como muestra los individuos a los que se tiene fácil acceso (los profesores de universidad emplean con mucha frecuencia a sus propios alumnos). Un caso particular, es el de los voluntarios. Ejemplo 13. Un reportero de TV o de radio que va por la calle preguntado a la gente que se encuentra, sobre alguna problemática urbana. Por ejemplo, escasez de agua, estado de limpieza de la ciudad, calidad del servicio urbano, etc. Estaría efectuando un muestreo casual o incidental. Bola de nieve: Se localiza a algunos individuos, los cuales conducen a otros, y éstos a otros, y así hasta conseguir una muestra suficiente. Este tipo se emplea muy frecuentemente cuando se hacen estudios con poblaciones "marginales", delincuentes, sectas, determinados tipos de enfermos, etc. Esta técnica también recibe el nombre de muestreo de red (network sample) o muestreo de multiplicidad (multiplicity sample). Ejemplo 14. Supón que entrevistas a miembros de un grupo empresarial sobre un tema de tu interés, y le pides a las personas que te mencionen a otros individuos en ese grupo empresarial que puedan dar información sobre el tema que te interesa, estarías aplicando el muestreo por cuotas. También estarías aplicando este tipo de muestreo si les pides que te indiquen algunas personas que compartan sus puntos de vista, y de personas que sean de opinión opuesta. Una vez que consigues esta información, podrás entrevistar a nuevos individuos y continuar del mismo modo hasta que no obtengas nuevos puntos de vista de nuevos entrevistados. Este es un buen método por ejemplo, para recoger los distintos puntos de vista existentes en un grupo, pero su inconveniencia es que no obtenemos una idea exacta de la distribución de las opiniones. Otras técnicas de muestreo existentes. El incremento en el poder computacional también ha llevado al crecimiento en popularidad de métodos intensivos computacionalmente basados en re-muestreo, tales como tests de permutación y de bootstrap, mientras que técnicas como el muestreo de Gibbs han hecho los métodos bayesianos más accesibles. La revolución en computadores tiene implicaciones en el futuro de la estadística, con un nuevo énfasis en estadísticas "experimentales" y "empíricas". Existen una gran cantidad de paquetes estadísticos disponible para los investigadores tales como SPSS, Statgraphics, Stata, Statdisk, Minitab y Statplus, algunos de ellos se pueden obtener de forma gratuita. Cuestionario 3. 1. 2. 3. 4. 5. 6. 7. 8. ¿Por qué es necesario tomar una muestra? ¿Qué es la representatividad de la muestra? ¿Qué diferencia existe entre un muestreo probabilístico y uno no probabilístico? ¿Qué ventajas y desventajas plantean los muestreos no probabilísticos? ¿Qué tipos de errores se pueden cometer en la elección de una muestra? ¿Qué factores se consideran para determinar el tamaño de muestra? ¿Cuál es el principal inconveniente del muestreo de juicio? El muestreo de juicio y el muestreo de probabilidad, ¿son mutuamente excluyentes por necesidad? Explique su respuesta. 9. Dé una lista de las ventajas del muestreo de probabilidad en comparación 31 Notas de Estadística Aplicada a la Administración, Contaduría e Informática Administrativa I. Dr. Francisco Javier Tapia Moreno. Con una enumeración completa o censo. 10. ¿cuáles son algunas desventajas del muestreo de probabilidad en relación con el muestreo de juicio? Ejercicios 4. 1. Menciona las ventajas que ofrece el realizar muestreos. 2. Señala las desventajas que ofrece el llevar a cabo muestreos. 3. Relaciona los conceptos siguientes: 4. Concepto Definición o Estadístico a) Valor o medida que representa a una población. (muestral) b) Conjunto de elementos de referencia sobre el que se realizan las o Muestra observaciones. o Población c) Medida cuantitativa, derivada de un conjunto de datos llamado muestra. o Censo d) Estudio de todos los elementos que componen la población. o Parámetro e) Parte representativa de la población. 5. Menciona los dos tipos de muestro existentes y describe en qué consiste cada uno de ellos. 6. Relaciona correctamente las técnicas de muestreo con el procedimiento correcto. Técnica de muestreo 1. Aleatorio simple. 2. Aleatorio sistemático. 3. Aleatorio estratificado. 4. Aleatorio por conglomerados. 5. Por cuotas. 6. Opinático o intencional. 7. Casual o incidental. 8. Bola de nieve. Procedimiento para efectuarlo a) Se agrupan los elementos de la población en sub-poblaciones y se toman muestras representativas de éstas. b) la selección de los elementos y la determinación del tamaño de la muestra no se hacen de forma objetiva siguiendo criterios técnicos, sino según el arbitrio, la intuición o la experiencia del encuestador. c) se eligen grupos, bloques o conjuntos de unidades de acuerdo a ciertas características o regiones geográficas o zonas territoriales. d) el primer elemento de la muestra se elige al azar, dentro de un subconjunto poblacional, y el resto de los elementos se seleccionan de forma metódica o constante. e) La selección es aleatoria y se hace generalmente mediante el uso de una tabla de números aleatorios, pero también se puede seleccionar haciendo uso de una urna, lotería o cualquier otro artificio que genere números aleatorios. f) los sujetos participantes de un estudio refieren a otros individuos, que a su vez refieren a otros que son también incluidos en la muestra. g) se selecciona directa e intencionadamente a los elementos de la muestra. h) los elementos de la muestra son seleccionados por el investigador de acuerdo a criterios que él considera importantes para el estudio. 7. Define el concepto de afijación y menciona los tres tipos existentes de las mismas. 32 Notas de Estadística Aplicada a la Administración, Contaduría e Informática Administrativa I. Dr. Francisco Javier Tapia Moreno. 8. Lecturas recomendadas. Estadística: Un panorama. http://tesistesina.blogspot.com/2007/10/estadstica-un-panorama.html última visita: 1 de julio de 2010. Levin, Rubin,Balderas, Del Valle, Gómez. Estadística para Administración y Economía. Pearson/Prentice Hall. Séptima edición. 2004. Pags. 236-242. Liga del Libro: http://books.google.com.mx/books?id=uPhtNCqC4isC&pg=PP1&dq=Levin,+Rubin,Balderas,+Del+Valle,+G%C3%B3 mez#v=onepage&q=&f=false Patricio Bonta, Mario Farber. 199 preguntas sobre marketing y publicidad. Grupo Editorial Norma. 2004. Pags. 87-95 Liga del Libro: http://books.google.com.mx/books?id=sJikTspq7iUC&pg=PA88&lpg=PA88&dq=preguntas+sobre+muestreo&source= bl&ots=gD-ftkQL5h&sig=bHLmkslIiEEtrHJjrUCycyNriQw&hl=es&ei=1hWYSphE8WGtgegof3BBA&sa=X&oi=book_result&ct=result&resnum=6# 9. Bibliografía recomendada para reforzar este tema. Estadística para negocios – Hanke – Editorial Irwin – 1995 Métodos de Pronósticos – Makridakis – Editorial Limusa – 1998 Informática para Gestores y Economistas – Casas Luengo / García – Editorial Anaya - 2000 Triola, Mario F. Probabilidad y Estadistica. 9ed. – Pearson; México, 2004. Carl McDaniel, Roger Gates. Investigación de mercados. Thomson . Sexta Edición. 2005 http://books.google.com.mx/books?id=tAUM5u-2Y9EC&pg=PT79&dq=definicion+de+muestreo#v=onepage&q=&f=false Naresh K. Malhotra Investigación de mercados. Pearson prentice Hall. Cuarta Edición http://books.google.com.mx/books?id=bLnONjl5IBIC&printsec=frontcover#v=onepage&q=&f=false 10. Referencias. [1] http://www.wikilearning.com/monografia/estadistica_aplicada_a_los_negocios-bibliografia/12550-7. Última visita 29 de junio de 2010. [2] http://www.buenastareas.com/ensayos/Estadistica/249312.html. Última visita 29 de junio de 2010. [3] http://www.gestiopolis.com/canales8/ger/calidad-por-edwards-deming.htm Última visita 29 de junio de 2010. [4] Mentiras, pecados y abusos estadísticos. http://www.dmae.upm.es/WebpersonalBartolo/articulosdivulgacion/estadistica.html. Última visita 29 de junio de 2010. [5] Uso y abuso de los datos estadísticos. http://www.formapyme.com/reportajes/55/10/540/Politica-y-Gobierno/Uso-y-abuso-de-los-datos-estadisticos-.html. Última visita 29 de junio de 2010. [6] José Jimeno Agius. Usos y abusos de la Estadística. Universitat de València. 1999. [7] http://books.google.com.mx/books?id=w2bWNWaWCZUC&pg=PA10&lpg=PA10&dq=%22usos+y+abusos+de+la+estad%C3%ADstica%22&sourc e=bl&ots=uAZtyfl63p&sig=3b6JD6S8Ik3VLZXCWTfwFckZwUo&hl=es&ei=4uSNSr7kLYKkswPJ25nkCQ&sa=X&oi=book_result&ct=result&res num=6#v=onepage&q=%22usos%20y%20abusos%20de%20la%20estad%C3%ADstica%22&f=false . Última visita 29 de junio de 2010. [8] http://books.google.com.mx/books?id=qEeK5IZR6IsC&pg=PA94&lpg=PA94&dq=El+arte+del+enga%C3%B1o+estad%C3%ADstico&source=bl&o ts=QCcz9EdoMR&sig=sOkK97HjS2aOeTlPRlb8Ozdgtw&hl=es&ei=ko2OSrPDIorgtgOWtqWECw&sa=X&oi=book_result&ct=result&resnum=4#v=onepage&q=&f=false. Última visita 29 de junio de 2010. [9] http://descartes.cnice.mec.es/materiales_didacticos/unidimensional_lbarrios/definicion_est.htm Última visita: 29 de junio de 2010. [10] http://es.wikipedia.org/wiki/Estad%C3%ADstica_descriptiva Última visita 29 de junio de 2010. [11] http:/www.eduardobuesa.es/Tema11.pdf. Última visita 29 de junio de 2010. [12] http://www.uned.es/psico-doctorado-interuniversitario/mmccsweb/doc/asignaturas/a_datos/MAS%20SOBRE%20MUESTREO.pdf ; Última visita: 1 de julio de 2010. 33