INTRODUCCIÓN A LA ESTADÍSTICA Que es la Estadistica? Una colección de información numérica recibe el nombre de estadísticas. Historia de la Estadística Es seguro que desde la antigüedad se realizaron inventarios de habitantes, bienes, productos, etc. Estos inventarios o censos (palabra derivada del latín cencere que significa valuar o tasar) se realizaron con fines catastrales, tributarios y militares. Historia de la Estadística Los comienzos de la estadística pueden ser hallados en el antiguo Egipto, cuyos faraones lograron recopilar, hacia el año 3050 antes de Cristo, prolijos datos relativos a la población y la riqueza del país. De acuerdo al historiador griego Heródoto, dicho registro de riqueza y población se hizo con el objetivo de preparar la construcción de las pirámides. En el mismo Egipto, Ramsés II hizo un censo de las tierras con el objeto de verificar un nuevo reparto. Historia de la Estadística En Egipto ya en el año 3050 a. c se tiene noticias de estadísticas destinadas a fines semejantes a los señalados y especialmente en la construcción de las pirámides. En China en el año 2000 a. c. se conocen estudios similares. El nacimiento de Cristo coincide con la realización de un censo poblacional en gran escala en el Imperio Romano. Durante mucho tiempo se entendía por “estadística” la información relacionada con el gobierno Historia de la Estadística En el antiguo Israel la Biblia da referencias, en el libro de los Números, de los datos estadísticos obtenidos en dos recuentos de la población hebrea. El rey David por otra parte, ordenó a Joab, general del ejército hacer un censo de Israel con la finalidad de conocer el número de la población. Historia de la Estadística También los chinos efectuaron censos hace más de cuarenta siglos. Los griegos efectuaron censos periódicamente con fines tributarios, sociales (división de tierras) y militares (cálculo de recursos y hombres disponibles). La investigación histórica revela que se realizaron 69 censos para calcular los impuestos, determinar los derechos de voto y ponderar la potencia guerrera. Historia de la Estadística Pero fueron los romanos, maestros de la organización política, quienes mejor supieron emplear los recursos de la estadística. Cada cinco años realizaban un censo de la población y sus funcionarios públicos tenían la obligación de anotar nacimientos, defunciones y matrimonios, sin olvidar los recuentos periódicos del ganado y de las riquezas contenidas en las tierras conquistadas. Para el nacimiento de Cristo sucedía uno de estos empadronamientos de la población bajo la autoridad del imperio. Historia de la Estadística os métodos estadísticos permanecieron casi olvidados durante la Edad Media. Durante los siglos XV, XVI, y XVII, hombres como Leonardo de Vinci, Nicolás Copérnico, Galileo, Neper, William Harvey, Sir Francis Bacon y René Descartes, hicieron grandes operaciones al método científico, de tal forma que cuando se crearon los Estados Nacionales y surgió como fuerza el comercio internacional existía ya un método capaz de aplicarse a los datos económicos. Historia de la Estadística Ya en nuestra era, en el año 727, los árabes realizaron estadísticas similares en lo que hoy es España. En Inglaterra en el año 1083 y 1662 y el Alemania en 1741, se llevaron a cabo censos referentes a defunciones, nacimientos, enfermedades, posesión de bienes, migraciones y otros problemas y los datos obtenidos se utilizaron en la previsión y planificación. Historia de la Estadística Los eruditos del siglo XVII demostraron especial interés por la Estadística Demográfica como resultado de la especulación sobre si la población aumentaba, decrecía o permanecía estática.. El primer empleo de los datos estadísticos para fines ajenos a la política tuvo lugar en 1691 y estuvo a cargo de Gaspar Neumann, un profesor alemán que vivía en Breslau. Después de revisar miles de partidas de defunción pudo demostrar que en años terminado en 7 no fallecían más personas que en los demás. Los procedimientos de Neumann fueron conocidos por el astrónomo inglés Halley, descubridor del cometa que lleva su nombre, quien los aplicó al estudio de la vida humana. Sus cálculos sirvieron de base para las tablas de mortalidad que hoy utilizan todas las compañías de seguros. Historia de la Estadística Durante el siglo XVII y principios del XVIII, matemáticos como Bernoulli, Francis Maseres, Lagrange y Laplace desarrollaron la teoría de probabilidades. No obstante durante cierto tiempo, la teoría de las probabilidades limitó su aplicación a los juegos de azar y hasta el siglo XVIII no comenzó a aplicarse a los grandes problemas científicos Historia de la Estadística Godofredo Achenwall, profesor de la Universidad de Gotinga, acuñó en 1760 la palabra estadística, que extrajo del término italiano statista (estadista). Creía, y con sobrada razón, que los datos de la nueva ciencia serían el aliado más eficaz del gobernante consciente. Historia de la Estadística Jacques Quételect es quien aplica las Estadísticas a las ciencias sociales. Este interpretó la teoría de la probabilidad para su uso en las ciencias sociales y resolver la aplicación del principio de promedios y de la variabilidad a los fenómenos sociales. Quételect fue el primero en realizar la aplicación práctica de todo el método Estadístico, entonces conocido, a las diversas ramas de la ciencia. Historia de la Estadística Entretanto, en el período del 1800 al 1820 se desarrollaron dos conceptos matemáticos fundamentales para la teoría Estadística; la teoría de los errores de observación, aportada por Laplace y Gauss; y la teoría de los mínimos cuadrados desarrollada por Laplace, Gauss y Legendre. A finales del siglo XIX, Sir Francis Gaston ideó el método conocido por Correlación, que tenía por objeto medir la influencia relativa de los factores sobre las variables. De aquí partió el desarrollo del coeficiente de correlación creado por Karl Pearson y otros cultivadores de la ciencia biométrica como J. Pease Norton, R. H. Hooker y G. Udny Yule, que efectuaron amplios estudios sobre la medida de las relaciones. Historia de la Estadística OTROS HICHIERON GRANDES APORTES Blaise Pascal Thomas Bayes KARL PEARSON Andréi Nikoláyevich Kolmogórov George Waddel Snedecor Ronald Aylmer Fisher William Sealy Gosset Que es la Estadistica? La podemos definir como la ciencia rama de la Matemática que se ocupa de recolectar, organizar, presentar, analizar e interpretar información cuantitativa para obtener conclusiones válidas, solucionar problemas, predecir fenómenos y ayudar a una toma de decisiones más efectivas. Que es la Estadistica? Ciencia que recoge, organiza, presenta, analiza e interpreta datos con el fin de propiciar la toma de decisiones más eficaz. La estadística es una ciencia con base matemática referente a la recolección análisis e interpretación de datos, que busca explicar condiciones regulares en fenómenos de tipo aleatorio. Estadística es una colección de métodos para planear experimentos, obtener datos, y después organizar, resumir, presentar, analizar, interpretar y llegar a conclusiones basadas en los datos. Que es la Estadistica? Es una ciencia y una herramienta que estudia el uso y los análisis provenientes de una muestra representativa de datos, busca explicar las correlaciones y dependencias de un fenómeno de ocurrencia en forma aleatoria o condicional. La estadística es un lenguaje que permite comunicar información basada en datos cuantitativos y cualitativos. Que es la Estadística? es una colección de métodos para planear experimentos, obtener o recolectar datos, y después organizar, resumir, presentar, analizar, interpretar y llegar a conclusiones basadas en los datos. Datos son las observaciones recolectadas (como mediciones, géneros, respuestas de encuesta). - Recopilación.- Consiste en la obtención de datos relacionados con el problema motivo de estudio, utilizando instrumentos, tales como: cuestionarios, entrevistas, informes, memorias, etc. - Organización.- Consiste en realizar una crítica, corrección, clasificación y tabulación de los datos obtenidos en el paso anterior. métodos - Presentación.- Consiste en mostrar datos de manera significativa y descriptiva. Los datos deben colocarse en un orden lógico que revele rápida y fácilmente el mensaje que contienen. La presentación se la puede hacer a través de gráficos estadísticos. - Análisis.- Consiste en descomponer el fenómeno en partes y luego examinar cada una de ellas con el objetivo de lograr una explicación, haciendo uso, en su mayoría, de los cálculos matemáticos. métodos - Interpretación.- Consiste en un proceso mental, mediante el cual se encuentra un significado más amplio de los datos estadísticos con el objetivo de llegar a conclusiones para la toma de decisiones y solución de problemas. Ejemplo de Estadística Algunos ejemplos son el sueldo inicial de los graduados de universidad, el número de muertes provocadas por el alcoholismo el año pasado, el cambio en el promedio industrial Dow Jones de ayer a hoy y la cantidad de cuadrangulares conectados por los Chicago Cubs durante la temporada 2005. La longitud promedio del ciclo económico de negocios desde 1945 es de 61meses. ¿Por que estudiar Estadística? La primera razón consiste en que la información numérica prolifera por todas partes. Ejemplo de Estadística USA Today (www.usatoday.com) imprime instantáneas, que son el resultado de encuestas llevadas a cabo por diversas agencias de investigación, fundaciones y por el gobierno federal. Por ejemplo, muchos prefieren el correo electrónico en lugar del correo postal. Sin embargo, de acuerdo con una encuesta reciente, el Servicio Postal de Estados Unidos informa que 67% de los adultos señalan que el correo ordinario resulta más personal que el correo electrónico; 56% indica que les causa placer recibir el correo normal y 55% espera con ansias abrir el correo. ¿Por que estudiar Estadística? Otra razón para inscribirse en un curso de estadística estriba en que las técnicas estadísticas se emplean para tomar decisiones que afectan la vida diaria.. Ejemplo de Estadística Las compañías de seguros utilizan el análisis estadístico para establecer tarifas de seguros de casas, automóviles, de vida y de servicio médico. Las tablas disponibles contienen cálculos aproximados de que a una mujer de 20 años de edad le queden 60.25 años de vida; a una mujer de 87 años le queden 4.56 años de vida y a un hombre de 50 años 27.85. Las primas de seguros de vida se establecen con base en estos cálculos de expectativas de vida. Ejemplo de Estadística La Agencia de Protección del Ambiente está interesada en la calidad del agua del lago Erie, entre otros. Con periodicidad toma muestras de agua para determinar el nivel de contaminación y mantener la norma de calidad. ¿Por que estudiar Estadística? Sin importar el empleo que haya elegido, usted encarará la necesidad de tomar decisiones en las que saber hacer un análisis de datos resultará de utilidad. ¿Por que estudiar Estadística? En suma, existen por lo menos tres razones para estudiar estadística: 1) Los datos proliferan por todas partes 2) Las técnicas estadísticas se emplean en la toma de decisiones que influyen en su vida 3) Sin importar la carrera que elija, tomará decisiones profesionales que incluyan datos. Una comprensión de los métodos estadísticos permite tomar decisiones con mayor eficacia. Analisis Estadistico El análisis estadístico permite descubrir y presentar la información que se encuentra contenida en datos cuantitativos y cualitativos. El análisis estadístico es el conjunto de métodos, técnicas y procedimientos para el manejo de datos, su ordenación, presentación, descripción, análisis e interpretación. Tipos de estadística i) Estadística Descriptiva o Deductiva Es un proceso mediante el cual se recopila, organiza, presenta, analiza e interpreta datos de manera tal que describa fácil y rápidamente las características esenciales de dichos datos mediante el empleo de métodos gráficos, tabulares o numéricos, así por ejemplo: Supóngase que un docente de Matemática calcula la calificación promedio de uno de sus cursos a su cargo. Como solo se está describiendo el desempeño del curso pero no hace ninguna generalización acerca de los diferentes cursos, en este caso el maestro está haciendo uso de la Estadística Descriptiva. Tipos de estadística Descriptiva: Es la ciencia que “recoge, organiza, presenta, analiza… datos”. Método para organizar, resumir y presentar datos de manera informativa. Tipos de estadística Descriptiva: Es la ciencia que “recoge, organiza, presenta, analiza… datos”. Método para organizar, resumir y presentar datos de manera informativa. Tipos de estadística ii) Estadística Inferencial o Inductiva Llamada también inferencia estadística, la cual consiste en llegar a obtener conclusiones o generalizaciones que sobrepasan los límites de los conocimientos aportados por un conjunto de datos. Busca obtener información sobre la población basándose en el estudio de los datos de una muestra tomada a partir de ella, así por ejemplo: Supóngase ahora que el docente de Matemática utiliza el promedio de calificaciones obtenidas por uno de sus cursos para estimar la calificación promedio de los 5 cursos a su cargo. Como se está realizando una generalización acerca los diferentes cursos, en este caso el maestro usa la Estadística Inferencial Estadística inferencial El principal interés respecto de la estadística inferencial tiene que ver con encontrar algo relacionado con la población a partir de una muestra de dicha población. Por ejemplo, una encuesta reciente mostró que solamente 46% de los estudiantes del último grado de secundaria podían resolver problemas que incluyeran fracciones, decimales y porcentajes. Estadística inferencial ESTADÍSTICA INFERENCIAL Métodos empleados para determinar una propiedad de una población con base en la información de una muestra. Estadística Las Variables y sus Escalas de Medición Las variables Una variable es una característica a medir de una población y que puede variar de un sujeto a otro. Para Fracica, “uno de los aspectos fundamentales para la realización de una investigación es la necesidad de conocer ciertas características de la población objeto de estudio”, a las cuales “se les conoce como variables y pueden ser de tipo cuantitativo o cualitativo”. • Por ejemplo: la temperatura, la edad, tamaño de la empresa, ingresos individual, etc. Las variables Las variables son atributos de las personas u objetos que adoptan valores diferentes. Definiciones Los datos cuantitativos consisten en números que representan conteos o mediciones. Los datos cualitativos (o categóricos o de atributo) se dividen en diferentes categorías que se distinguen por alguna característica no numérica. EJEMPLOS 1. Datos cuantitativos: Los pesos de las supermodelos. 2. Datos cualitativos: El género (hombre/mujer) de atletas profesionales. Las variables Cualitativas Cuando la característica que se estudia es de naturaleza no numérica, recibe el nombre de variable cualitativa o atributo. Algunos ejemplos de variables cualitativas son el género, la filiación religiosa, tipo de automóvil que se posee, estado de nacimiento y color de ojos. Son atributos que se expresan mediante palabras no numéricas. Como por ejemplo, profesión, religión, marca de automóvil, estado civil, sexo, raza, etc. Las variables Cualitativas Cuando los datos son de naturaleza cualitativa, importa la cantidad o proporción que caen dentro de cada categoría. Por ejemplo, ¿qué porcentaje de la población tiene ojos azules? ¿Cuántos católicos o cuántos protestantes hay en Estados Unidos? ¿Qué porcentaje del total de automóviles vendidos el mes pasado eran SUV? Los datos cualitativos se resumen en tablas o gráficas de barras. Ordinal: Se puede establecer un orden entres sus categorías. Ejemplo: Tamaño de la empresa, clase social, rango militar, etc. Cualitativas: Los valores son un conjunto de cualidades no numéricas, llamadas categorías. Nominal: No se puede establecer un orden en sus categorías Ejemplo: Raza, Sexo, Religión, ocupación, estado civil, etc. Dicotómica: Esta solo toma 2 categorías. Ejemplo: Si o No, Sexo, etc. Politómica: Esta toma mas de 2 categorías. Ejem.: Raza, Provincia, etc. Las variables Cuantitativas Variable Cuantitativa Es toda magnitud representada por números. Como por ejemplo, peso, estatura, número de habitantes, etc. Tipos de Variables Continua: Cuantitativas: Los valores son números. Pueden ser medidas en términos numéricos Entre 2 valores numéricos consecutivos existen infinitos posibles valores. toman cualquier valor dentro de un intervalo específico. Ejemplo: Los ingresos, Km de distancia, la estatura, peso, PIB, el tiempo, talla, temperatura, El promedio de puntos al graduarse etc. Discreta: Entre 2 valores numéricos consecutivos no existe otro valor. Existe un número finito de valores entre dos valores. Adoptan sólo ciertos valores y existen vacíos entre ellos. Ejemplo: Expresiones de cantidades enteras positivas (cosas que se puedan contar), la edad, número pacientes con cáncer, la escolaridad, número de hijos, el número de camas en una casa etc. Datos cuantitativos - Variable Discreta Es una característica cuantitativa representada por números enteros o exactos, que generalmente resultan del proceso de conteo, como por ejemplo: número de estudiantes de la promoción del año anterior. - Variable Continua Es una característica cuantitativa que puede tomar cualquier valor representado por un número racional, que generalmente resultan del proceso de medición, como por ejemplo, tiempo destinado a estudiar Estadística Datos cuantitativos Datos discretos resultan cuando el número de posibles valores entre dos números cualquieras es finito. Las cantidades de huevos que ponen las gallinas Datos continuos (numéricos) resultan de un infinito de posibles valores entre dos valores cualquiera. Las cantidades de leche que las vacas producen Variables según cantidad de atributos o nivel de medición Razón Intervalo Ordinal Nominal Nivel Nominal Las observaciones acerca de una variable cualitativa sólo se clasifican y cuentan. La variable de interés se refiere al país o región. Se trata de una variable de nivel nominal porque registra la información de acuerdo con la fuente de suministro del petróleo y no existe orden natural. No existe un orden particular en las categorías. Nivel Nominal Cuando los datos sólo pueden contarse y clasificados en categorías, no existe un orden específico entre las clases. Como por ejemplo, se cuentan cuántos hombres y cuántas mujeres asisten a determinado evento. Nivel Nominal Nivel de medición nominal son los datos consistentes exclusivamente en nombres. Sí/no/indeciso: Respuestas de sí, no e indeciso en una encuesta. 2. Colores: Los colores de automóviles conducidos por estudiantes universitarios (rojo, negro, azul, blanco y otros). Nivel Ordinal nivel de medición ordinal cuando pueden acomodarse en algún orden. Un profesor universitario asigna calificaciones de A, B, C, D, o E, las cuales pueden acomodarse en orden; - Nivel Ordinal Cuando se ordenan los datos por jerarquías, una categoría es mayor que otra. Como por ejemplo, excelente es mejor que bueno o bueno es mejor que regular. Otro ejemplo: Una persona puede tener mucho o poco dinero. Nivel Ordinal Homeland Security Advisory System. El Departamento de Seguridad Nacional publica información relativa al riesgo de que las autoridades federal, estatal y local, así como los estadounidenses, sean víctimas de ataques terroristas. A la izquierda aparecen los primeros cinco niveles de riesgo, que van del más bajo al más alto y se incluye una descripción y códigos de colores. En resumen, las propiedades del nivel ordinal de los datos son las siguientes: 1. Las clasificaciones de los datos se encuentran representadas por conjunto de etiquetas o nombres (alto, medio, bajo), las cuales tienen valores relativos. 2. En consecuencia, los valores relativos de los datos se pueden clasificar u ordenar Nivel de Intervalo El nivel de medición de intervalo se parece al nivel ordinal, pero con la propiedad adicional de que la diferencia entre dos valores de datos cualesquiera tiene un significado. Sin embargo, los datos en este nivel no tienen un punto de partida inherente (natural) desde cero (donde nada de la cantidad esté presente). Nivel de Intervalo Las temperaturas corporales de 98.2°F y 98.6°F son ejemplos de datos en este nivel de medición. Tales valores están ordenados, y podemos determinar su diferencia de 0.4°F. Sin embargo, no existe un punto de partida natural. El valor de 0°F quizá parezca un punto de partida, pero es arbitrario y no representa la ausencia total de calor. Como 0°F no es un punto de partida desde cero natural, es erróneo decir que 50°F es dos veces más caliente que 25°F. Años: Los años 1000, 2000, 1776 y 1492. (El tiempo no inició en el año 0, así que el año 0 es arbitrario en vez de ser un punto de partida de cero natural, que representaría “ausencia de tiempo”). Nivel de razón El nivel de medición de razón se parece al nivel de intervalo, aunque tiene la propiedad adicional de que sí tiene un punto de partida o cero inherente (donde cero indica que nada de la cantidad está presente). Para valores en este nivel, tanto las diferencias como las proporciones tienen significado. Pesos: Los pesos (en quilates) de anillos engastados con diamante (0 efectivamente representa ausencia de peso y 4 quilates es dos veces el peso de 2 quilates). 2. Precios: Los precios de los libros de texto universitarios ($0 efectivamente representa ningún costo y un libro de $90 es tres veces más costoso que un libro de $30). Variables según cantidad de atributos Tipo VARIABLES CATEGÓRICAS VARIABLES NUMÉRICAS Naturaleza CUALITATIVAS CUANTITATIVAS Escala (0) NOMINAL (1) ORDINAL (2) INTERVALO (3) RAZÓN Ningún atributo Un atributo Dos atributos Tres atributos Atributos de la Orden Distancia escala Origen Valor Final Origen Orden Distancia Origen Orden Distancia Origen Posee categorías a las que Posee las categorías Tiene intervalos iguales y Tiene intervalos constantes se asigna un nombre sin ordenadas, pero no medibles. No tiene un entre valores; además de permite cuantificar la origen real, por lo que un origen real. El cero distancia entre una puede asumir valores significa la ausencia del categoría y otra. negativos. individuo. Característica que exista ningún orden implícito entre ellas. Ejemplos Orden Distancia Género Masculino Femenino Estado Civil Instrucción Intensidad Temperatura Hora del día Peso Hijos Soltero Primaria Leve -10C 00 Horas 00.00Kg Uno Casado Secundaria Moderado 0C 10 Horas 10.24Kg Dos Conviviente Superior Severo 20C 20 Horas 20.00Kg Tres Variables según cantidad de atributos Tipo VARIABLES CATEGÓRICAS VARIABLES NUMÉRICAS Naturaleza CUALITATIVAS CUANTITATIVAS Escala Ejemplos Valor Final (0) NOMINAL (1) ORDINAL (2) INTERVALO (3) RAZÓN Ningún atributo Un atributo Dos atributos Tres atributos Género Masculino Femenino Estado Civil Instrucción Intensidad Temperatura Hora del día Peso Hijos Soltero Primaria Leve -10C 00 Horas 00.00Kg Uno Casado Secundaria Moderado 0C 10 Horas 10.24Kg Dos Conviviente Superior Severo 20C 20 Horas 20.00Kg Tres Dicotómicas: Tienen solamente dos categorías. Ejemplos de Ordinal Dicotómica: Observaciones Continuas: Provienen de medir. Se pueden representar con números enteros o Nuevo – Continuador fraccionarios. Entre dos valores siempre existe un valor Sano – Enfermo intermedio SÍ – NO Politómicas: Tienen más de dos categorías. Discretas: Provienen de contar. Solamente pueden ser representados con números enteros. Las variables Variable independiente: es aquella que explica, condiciona o determina el cambio en los valores de la variable dependiente. Variable dependiente: Es el fenómeno o situación explicada o que está en función de otra, es el resultado esperado Las variables Ejemplo: Hipótesis: Los alumnos que estudian dos o más horas diarias tienen mayor rendimiento que los que estudian menos horas. a)Unidades de análisis: Los alumnos b)Las variables: variable independiente: horas de estudio (cuantitativa) y variable dependiente: rendimiento académico (cuantitativa) c)Los elementos lógicos: “Mayor que” Las variables Ejemplo: Hipótesis o supuesto: “Los alumnos que estudian en grupo, obtienen mejores calificaciones que los que estudian en forma individual”. A)Unidades de análisis: “Los alumnos” B)Variables Variable independiente: Forma de estudio: estudio en grupo y estudio individual (variable cualitativa nominal) Variable dependiente: cuantitativa continua) Calificación académica(variable C) Los elementos lógicos: “Mayor que”, “Menor que” Las variables Ejemplo: Hipótesis o supuesto: “La tasa de natalidad es significativamente mayor en los practicantes musulmanes que en los practicantes católicos”. B)Variables Variable independiente: Religión (variable cualitativa nominal: católica, musulmana) Variable dependiente: Tasa de natalidad(variable cuantitativa continua) C) Los elementos lógicos: “Mayor que”, “Menor que” Unidades de análisis: “Practicante religiosos” Las variables Variables Dummy: es aquella que toma el valor 0 o 1 para indicar la ausencia o presencia de algún efecto de una variable categórica que puede esperarse para cambiar el resultado. Las variables dummy son variables cualitativas, también conocidas como indicativas, binarias, categóricas y dicotómicas. Sólo pueden asumir los valores 0 y 1, indicando respectivamente ausencia o presencia de una cualidad o atributo. Modelos de análisis de la varianza (ANOVA), si sólo esta compuesta de variables explicativas cualitativas. Modelos de análisis de la covarianza (ANCOVA), si incluyen una combinación de variables cuantitativas y cualitativas. Las variables Dummy: Ejemplos Santiago Romana Samaná Peravia Nominal Sin instrucción Primaria Secundaria Ordinal Superior Ejemplos Medidas de tendencia central • Media • Mediana • Moda Medidas de dispersión • Desviación estándar • Varianza • Error típico Cuantitativa Primaria Secundaria Universitaria Especialidad Cualitativa POBLACIÓN Conjunto de individuos u objetos de interés o medidas obtenidas a partir de todos los individuos u objetos de interés. Definiciones Población es la colección completa de todos los elementos (puntuaciones, personas, mediciones, etcétera) a estudiar. Se dice que la colección es completa, pues incluye a todos los sujetos que se estudiarán. Una población puede ser finita o infinita. Es población finita cuando está delimitada y conocemos el número que la integran, así por ejemplo: Estudiantes de la Universidad UTN. Es población infinita cuando a pesar de estar delimitada en el espacio, no se conoce el número de elementos que la integran, así por ejemplo: Todos los profesionales universitarios que están ejerciendo su carrera. Definiciones Muestra es un subconjunto de miembros seleccionados de una población Por ejemplo, un sondeo de Gallup preguntó a 1087 adultos: “¿Consume bebidas alcohólicas como licor, vino o cerveza o es abstemio?”. Los 1087 sujetos de la encuesta constituyen una muestra mientras que la población consiste en el conjunto de los 202,682,345 estadounidenses adultos. MUESTRA Porción o parte de la población de interés. La toma de muestras para aprender algo sobre una población es de uso frecuente en administración, agricultura, política y acciones de gobierno, MUESTRA MUESTRA Las cadenas de televisión hacen un monitoreo continuo de la popularidad de sus programas contratando a Nielsen y a otras organizaciones con el fin de que éstas tomen muestras sobre las preferencias de los teleespectadores. Por ejemplo, en una muestra de 800 personas que ven el televisor a la hora de mayor audiencia, 320, o 40%, señaló que vio CSI (Crime Scene Investigation) la semana pasada. Estos índices de audiencia se emplean para establecer tarifas de publicidad o para suspender programas. MUESTRA Las cadenas de televisión hacen un monitoreo continuo de la popularidad de sus programas contratando a Nielsen y a otras organizaciones con el fin de que éstas tomen muestras sobre las preferencias de los teleespectadores. Por ejemplo, en una muestra de 800 personas que ven el televisor a la hora de mayor audiencia, 320, o 40%, señaló que vio CSI (Crime Scene Investigation) la semana pasada. Estos índices de audiencia se emplean para establecer tarifas de publicidad o para suspender programas. Definiciones ELEMENTO O INDIVIDUO Unidad mínima que compone una población. El elemento puede ser una entidad simple (una persona) o una entidad compleja (una familia), y se denomina unidad investigativa. Definiciones Los datos muestrales deben reunirse de una forma adecuada, como en un proceso de selección aleatoria. Si los datos muestrales no se reúnen de forma adecuada, resultarían tan inútiles que ninguna cantidad de tortura estadística podría salvarlos. Definiciones DATOS ESTADÍSTICOS Son medidas, valores o características susceptibles de ser observados y contados. Como por ejemplo, la edad de los estudiantes de la Universidad UTN. Los datos estadísticos pueden ser clasificados en cualitativos (la diferencia entre ellos es de clase y no de cantidad), cuantitativos (representan magnitudes), cronológicos (difieren en instantes o períodos de tiempo) y geográficos (referidos a una localidad). Los datos estadísticos se obtienen de fuentes primarias (obtenidos directamente sin intermediarios valiéndose de observaciones, encuestas, entrevistas y sondeos de opinión) y fuentes secundarias (obtenidos a través de intermediarios valiéndose de textos, revistas, documentos, publicaciones de prensa, y demás trabajos hechos por personas o entidades). Definiciones Censo es la colección de datos de cada uno de los miembros de la población. Es una técnica de recolección de datos estadísticos que se realiza a toda la población ENCUESTA Es la técnica que nos permite recolectar datos estadísticos que se realiza una muestra de la población. Se clasifica en: - Descriptiva.- Cuando registra datos referentes a las características de los elementos o individuos. - Explicativa.- Cuando averigua las causas o razones que originan los fenómenos. - Mixtas.- Cuando es descriptiva y explicativa. Definiciones Parámetro es una medición numérica que describe algunas características de una población. Estadístico es una medición numérica que describe algunas características de una muestra. Ejemplo Parámetro: Cuando Lincoln fue elegido presidente por primera vez, recibió el 39.82% de 1,865,908 votos. Si suponemos que el conjunto de todos esos votos es la población a considerar, entonces el 39.82% es un parámetro, no un estadístico. 2. Estadístico: Con base en una muestra de 877 ejecutivos encuestados, se encontró que el 45% de ellos no contrataría a alguien con un error ortográfico en su solicitud de empleo. Esta cifra del 45% es un estadístico, ya que está basada en una muestra, no en la población completa de todos los ejecutivos. El estadista Benjamin Disraeli pronunció la famosa frase: “Hay tres clases de mentiras: mentiras, viles mentiras y estadísticas”. También se ha dicho que “las cifras no mienten; los mentirosos calculan las cifras” Hay dos fuentes principales de engaño en estadística: 1. el intento malintencionado por parte de personas deshonestas, y 2. los errores de descuido cometidos por personas que no conocen nada mejor. Sin tener en cuenta la fuente, como ciudadanos responsables y como empleados profesionales valiosos, debemos tener una habilidad básica para distinguir entre conclusiones estadísticas que parecen ser válidas de las que son gravemente defectuosas. Errores en inferencia estadística Muestra de respuesta voluntaria (o muestra autoseleccionada) es aquella donde los sujetos deciden ser incluidos por sí mismos. Las encuestas manejadas a través de Internet, en las que los sujetos deciden si responden o no. ● Las encuestas por correo, donde los sujetos deciden si contestan. ● Las encuestas telefónicas, en las que anuncios en el periódico, la radio, o la televisión, le piden que tome un teléfono voluntariamente y llame a un número especial para registrar su opinión. Problema: Las personas más decidas responderán y el studio estará sesgado Errores en inferencia estadística Muestras pequeñas Las conclusiones no deben basarse en muestras que son sumamente pequeñas. Por ejemplo, el Children’s Defense Fund publicó Children Out of School in America, donde se reportó que de los estudiantes de escuela secundaria suspendidos en una región, el 67% fueron suspendidos al menos tres veces. ¡Pero esta cifra está basada en una muestra de sólo tres estudiantes! Errores en inferencia estadística Gráficas Las gráficas —como las de barras y las circulares— en ocasiones sirven para exagerar o disfrazar la verdadera naturaleza de los datos. (En el capítulo 2 analizaremos una variedad de gráficas diferentes). Las dos gráficas en la figura de la siguiente página representan los mismos datos del Bureau of Labor Statistics, aunque el inciso b) está diseñado para exagerar la diferencia entre los salarios semanales de hombres y mujeres. Al no iniciar el eje vertical en cero, la gráfica del inciso b) tiende a producir una impresión subjetiva engañosa, que hace que los lectores incorrectamente crean que la diferencia es mucho peor de lo que en realidades. Errores en inferencia estadística Pictogramas Los dibujos de objetos, llamados pictogramas, también pueden resultar engañosos. Algunos objetos que se usan comúnmente para representar datos incluyen objetos tridimensionales, como bolsas de dinero, pilas de monedas, tanques militares (para gastos militares), barriles (para producción petrolera) y casas Al dibujar tales objetos, los artistas llegan a crear impresiones falsas que distorsionan las diferencias. Errores en inferencia estadística Ignorar unidades de medida como éstas podría llevar a conclusiones incorrectas. La NASA perdió su Mars Climate Orbiter de 125 millones de dólares cuando la sonda se estrelló, porque la programación de control tenía los datos de aceleración en unidades inglesas, pero ellos incorrectamente consideraron que estaban en unidades métricas. Errores en inferencia estadística Porcentajes A veces se utilizan porcentajes engañosos o poco claros. Si usted toma el 100% de alguna cantidad, está tomándolo todo. (No debería requerir de un 110% de esfuerzo para que la declaración anterior tenga sentido). En referencia a la pérdida de equipaje, la Continental Airlines publicó anuncios afirmando que se trata de “un área en la que ya hemos mejorado un 100% en los últimos seis meses”. En un editorial que criticaba ese dato estadístico, el diario The New York Times interpretó correctamente que la cifra de mejora en un 100% significa que ya no se está perdiendo equipaje, logro que todavía no disfruta Continental Airlines. Errores en inferencia estadística Preguntas predispuestas Existen muchos aspectos que afectan las preguntas de una encuesta. Éstas llegan a estar “cargadas” o redactadas intencionalmente de manera que propicien una respuesta deseada. Observe las calificaciones de respuesta “sí” reales para las diferentes redacciones en una pregunta: Errores en inferencia estadística Orden de las preguntas En ocasiones las preguntas de una encuesta se cargan de forma no intencional, en virtud de factores como el orden de los reactivos que se someten a consideración. Observe estas preguntas de una encuesta aplicada en Alemania: Errores en inferencia estadística Orden de las preguntas En ocasiones las preguntas de una encuesta se cargan de forma no intencional, en virtud de factores como el orden de los reactivos que se someten a consideración. Observe estas preguntas de una encuesta aplicada en Alemania: Errores en inferencia estadística Rechazo Cuando se invita a las personas a contestar una encuesta, algunas se niegan con firmeza a responder. La tasa de rechazo ha crecido en años recientes, en parte porque muchos vendedores persistentes de empresas de telemercadeo buscan vender bienes o servicios comenzando con una inducción de ventas que suena como si fuera parte de una encuesta de opinión. Errores en inferencia estadística Correlación y causalidad la correlación no implica causalidad. Esto significa que cuando nosotros encontramos una asociación estadística entre dos variables, no podemos concluir que una de las variables es la causa de la otra (o que la afecta directamente). Si encontramos una correlación entre la riqueza y el CI, no podemos concluir que el CI de una persona afecta directamente su riqueza, ni tampoco podemos concluir que la riqueza de la persona afecta directamente su puntuación de CI. Errores en inferencia estadística Estudios para el propio beneficio Algunas veces los estudios reciben el patrocinio de grupos con intereses específicos que buscan promover. Números precisos “En la actualidad existen 103,215,027 hogares en Estados Unidos.” Puesto que esta cantidad es muy precisa, mucha gente considera erróneamente que también es exacta. En este caso, ese número es un estimado y sería mejor decir que el número de hogares es de alrededor de 103 millones. Errores en inferencia estadística Imágenes parciales “El 90% de todos nuestros automóviles, vendidos en este país en los últimos 10 años, continúa circulando”. Millones de consumidores escucharon ese anuncio comercial y no se dieron cuenta de que el 90% de los automóviles que el anunciante vendió en este país se vendieron durante los últimos tres años, de modo que la mayoría de esos automóviles que circulaban estaban casi nuevos. La afirmación era técnicamente correcta, aunque muy engañosa, al no presentar los resultados completos. Errores en inferencia estadística Distorsiones deliberadas En el libro Tainted Truth, Cynthia Crossen cita un ejemplo de la revista Corporate Travel que publicó resultados que mostraban que, entre las compañías de renta de automóviles, Avis fue la ganadora en una encuesta realizada a personas que utilizan ese servicio. Cuando Hertz solicitó información detallada acerca de la encuesta, las respuestas originales de ésta desaparecieron y el coordinador de encuestas de la revista renunció. Hertz demandó a Avis (por publicidad falsa basada en la encuesta) y a la revista; al final las compañías llegaron a un acuerdo. Control de los efectos de las variables Control de los efectos de las variables Replicas y Tamaño de Muestras La repetición de un experimento se llama réplica, la cual se utiliza con efectividad cuando tenemos los sujetos suficientes como para reconocer las diferencias que resultan de los diferentes tratamientos. (En otro contexto, la réplica se refiere a la repetición o duplicación de un experimento para confirmar o verificar los resultados).. Utilice un tamaño de muestra que sea lo bastante grande para distinguir la verdadera naturaleza de cualquiera de los diferentes efectos, y obtenga la muestra usando un método adecuado, como uno basado en la aleatoriedad. Replicas y Tamaño de Muestras Replicas y Tamaño de Muestras