.UNIVERSIDAD LATINOAMERICANA Y DEL CARIBE CARACAS ' DOCTORADO EN CIENCIAS DE LA EDUCACIÓN TERMINO ACADÉMICO PROGRAMA: CIENCIAS DE LA EDUCACIÓN CÓDIGO: UNIDAD CURRICULAR: MÉTODOS CUANTITATIVOS DE INVESTIGACIÓN EDUCATIVA HORAS/SEMANAL TEÓRICAS PRÁCTICAS OTRAS ACTIVIDADES HORARIO: DOMINGOS DE 9:00 A.M. a 5:00 pm UNIDADES CRÉDITO 03CE0204 PRELACION: NINGUNA HORAS/TERMINO 3 24 NÚCLEO: SAN CARLOS PROFESOR RESPONSABLE: DR. CARLOS CRESPO 1. INTRODUCCIÓN El propósito del presente estudio consiste en conferirle a los aspirantes a los estudiantes las competencias necesarias para desarrollar su trabajo de investigación a la luz de la metodología cuantitativa en el marco del paradigma positiviasta. Para ello se enfatiza en el trabajo teórico práctico a objeto de profundizar en los diferentes diseños de investigación en el marco de la citada perspectiva epistemológica. Se espera que con el desarrollo de este módulo el participante esté en capacidad de manejar los problemas ontológicos, epistemológicos y metodológicos que implica el desarrollo de un proceso de investigación de corte cuantitativa. 2. OBJETIVOS GENERAL Y ESPECÍFICOS. Objetivo General. Reconocer, desarrollar y evaluar trabajos de investigación en el marco del paradigma positivista. 3. DESCRIPCIÓN DE LOS CONTENIDOS -La epistemología como rama de la filosofía. El conocimiento y sus componentes. La relación entre sujeto y objeto del conocimiento. El origen, el alcance y las posibilidades del conocimiento. El concepto de paradigma. Los paradigmas el campo de las ciencias sociales. Las implicaciones epistemológicas en el proceso de investigación en general y de la educación en particular. El diseño de investigación. Los diseños cuantitativos: experimental y no experimenetal El muetreo en la investigación cuantitativa. El muetreo probabilística y no probabilistico. La población y el tamaño de la muestra. La estadística inferencial. La curva normal. Hipótesis estadísticas. Pruebas de hipótesis. Pruebas para los diferentes tipos de estudio. El SPSS (Statistical Package for Social Sciences.). Su studio, manejo, uso y aplicaci ón en la organización y análisis de los datos. Aplicación del SPSS en el desarrollo de estudios cuantitativos. Ejercicios. Revisión de trabajos finales. 4. ESTRATEGIAS METODOLÓGICAS 1. 2. 3. 4. Clases expositivas y discusión de lecturas a cargo del docente del curso. Resolución de problemas. Revisión de trabajos de investigación. Talleres socializados, lectura de ponencias.. 5. PROGRAMACIÓN SESIÓN 1. 2. CONTENIDOS La decisión epistemológica y sus implicaciones en el trabajo de investigación.. 3. Los diferentes tipos de diseños cuantitativos y sus implicaciones en el desarrollo de la investigación. Aplicación del SPSS en el desarrollo de estudios cuantitativos. 4. La utilización del SPSS en trabajos prácticos. Resolución de problemas 6.PLAN DE EVALUACIÓN Plan de Evaluación. 1.- Resolución de problemas en metodología cuantitativa (30%) 2.- Talleres socializados contentivos de los diferentes tópicos estudiados. (30%) 3.Participacipación individual (20%) 3.- Presentación del trabajo final.. (20%) 7. BIBLIOGRAFÍA INICIAL Blalock, H. (2000). Fundamentos de Investigación Social. 2a edición en español. México. Edit. Thompson. Hernández, R., Fernández, C. y Baptista, P. (2006) Metdología de la Investigación. Cuarte edición. México, D. F. Me Graw Hill Interamericana. Ruiz Olabuénaga, J., Austegui, A. Y Melgasa L. (S/f) Como Elaborar un Proyecto de Investigación. Bilbao, España. Universidad de Desuto. ICE. Visauta, B. (1997) Análisis Estadístico con SPSS para Windows. Madrid. Me Graw Hill. Carlos E. Crespo H. Docente-investigador C.l: FIRMA DEL DELEGADO DE CURSO C.l. Caracas 20 de abril de 2008 ESTADÍSTICA APLICADA A LA INVESTIGACIÓN Dr. José Clemente Ventura Material en validación No se permite su reproducción ESTADÍSTICA APLICADA A LA INVESTIGACIÓN NOTAS DE CLASE Dr. José Clemente Ventura Este curso está dirigido a suministrar una visión general sobre el uso apropiado de un conjunto de técnicas de análisis de datos. Para esto se identificarán varias de dichas técnicas, se establecerán las situaciones en las cuales pueden emplearse y se darán ejemplos de su uso. Los ejemplos que se desarrollarán en este material se refieren al archivo de datos ORGANIZACIÓN el cual se anexa al final de estas notas. CONCEPTOS BÁSICOS La estadística es un área de la matemática relativa a la descripción análisis e interpretación de datos numéricos obtenidos sistemáticamente por encuestas o experimentos. De acuerdo con esta definición, la estadística tiene como objetivos: 1. Describir conjuntos de datos. Esto implica sintetizar datos, resumirlos de manera que el conjunto original quede representado en forma condensada por unas pocas expresiones, tablas y gráficos. 2. Analizar datos. El propósito del análisis de datos es el de aplicar técnicas estadísticas de manera que produzcan respuestas a las preguntas de la investigación que se desarrolla. La pregunta fundamental de análisis de datos es: ¿Cuál técnica de análisis debe emplearse? La respuesta depende de (a)¿Cuáles son las preguntas de investigación? (b)¿Cuáles son las técnicas estadísticas aplicables para responder dichas preguntas? (c)¿Cuál es el nivel de medición de las variables? El análisis de datos es una de las herramientas con amplio uso en investigación. Sin embargo, debe tenerse presente que, tal como lo plantean Kinnear y Taylor (1998) el análisis más complejo disponible no compensa una definición inadecuada del problema, un mal diseño del estudio, un muestreo inadecuado, una deficiente medición, un mal trabajo de campo o un procesamiento inadecuado; el análisis de datos es una más de las actividades a realizar adecuadamente en una investigación. 3-. Interpretar los resultados obtenidos. Se trata de buscar el más amplio sentido a las respuestas dadas en el análisis de datos. No es raro observar que a pesar de tener datos bien recogidos y aplicar las técnicas apropiadas se lleguen a conclusiones erróneas Con base en estos tres objetivos se tiene que la estadística comprende: Estadística Descriptiva: Conjunto de técnicas para la reducción de datos cuantitativos a un número pequeño de términos descriptivos más adecuados y de lectura más simple. Los estudios descriptivos se dirigen principalmente a dar respuesta al ¿qué es?. Por ejemplo: • ¿Qué tipo de actividades se cumplen en las clases de sexto grado y con cuál frecuencia? • ¿Cuál es la tendencia del índice de crecimiento de una empresa en los últimos cinco años? • ¿Tiene la población de un determinado pueblo una actitud positiva hacia la implantación de un nuevo programa comunitario? Estadística Inferencíal: Conjunto de técnicas dirigidas a la toma de decisiones respecto a la población a partir de resultados obtenidos en muestras de esa población. La estadística ¡nferencial contesta preguntas tales como: • ¿Mejora el rendimiento el uso de una nueva estrategia instruccional? • ¿Qué factores determinan la elección de un determinado producto? Dos términos implícitos en ia definición de estadística inferencial son: Población: Conjunto de individuos, objetos o medidas que tienen alguna característica común observable y forman el universo para el propósito del problema de investigación. Muestra: Cualquier subconjunto de la población Los métodos de estadística inferencial requieren especificar claramente la población a la cual se aplica ia inferencia. La población puede ser claramente definida tal como ocurre cuando se toma una muestra de habitantes de un barrio para determinar su opinión sobre el problema de la inseguridad. Si la muestra está bien tomada, los resultados pueden generalizarse a la población del barrio. La población puede también ser conceptual; esta es una población que no existe pero que puede ser hipotéticamente conceptualizada. Por ejemplo, supóngase que se quiere determinar el efecto de un nuevo curso de estadística en estudiantes de Economía; en este caso, se analiza el efecto del curso en varios grupos de estudiante de esta carrera. Los resultados se generalizan a estudiantes con características similares a los grupos considerados. Otros términos que requieren definiciones son: Elemento o unidad de muestreo: Miembro individual de una población. No necesariamente es un individuo; puede ser un evento, un grupo de sujetos o incluso una ciudad. Dato: Para un elemento o unidad de muestreo, es un número o medida obtenida como resultado de observación o experimento. Parámetro: Número que resume una característica medible de la población el cual resulta de la manipulación de datos a nivel poblacional. Por ejemplo: media aritmética (p), desviación estándar (6), coeficiente de correlación (p). Estadígrafo: Número resultante de la manipulación de datos en una muestra de acuerdo a ciertos procedimientos específicos. Igual que en el caso anterior se tienen como ejemplos: media aritmética (x), desviación estándar (s), coeficiente de correlación (r). El cálculo de parámetros resulta difícil por lo complejo del manejo de la población. En consecuencia, se calculan estadígrafos y se estiman parámetros a partir de ellos. VARIABLES Una variable es una propiedad en la cual los miembros de una población difieren entre si. Edad, calificación, lugar de residencia, sueldo mensual son variables. La figura 1 muestra para el archivo ORGANIZACIÓN un esquema de representación de datos, variables y elementos. ID DT SEXO 1 A 2 A i. A 4 A M M M 5 6 7 8 9 10 A A A A A CON 1m- CA ESP AGR ASO EDAD n*£ M 7 -•' M 2 • ------ TIT 1 39 29 3 4 J _ ------ r*2 , r -9- ----- ' ¿1, —7D 3 3 44 33 M M M M M M INv3 ¿ -"2-.v --'- INS 2 INS 1 . ,ASI 2 INS 2.v. ASI I 2 2 2 1 1 2 ^sn 2o 28 33 33 27 32 10 23 29 19 22 25 SCT SI 2 4 _ JX- -----36 26 ?1 23 í*. 31 • 32 26 24 25 26 20 3o 27 29 27 27 36 Dato Elemento Figura 1: Esquema de representación de se obtiene a partir de la datos. forma en la cual se define Para los efectos de este taller, las conceptual variables se clasificarán en: operacionalmente Variable continua: Puede tomar variable. cualquier valor entre dos valores dados. Por ejemplo: promedio y una Los niveles que se tienen son: de calificaciones, peso, estatura. Variable discreta: Toma sólo valores específicos. Por ejemplo: número de hijos, calificaciones. Nominal: Los elementos se clasifican en dos o NIVELES DE MEDICIÓN más categorías mutuamente excluyentes El nivel de medición de una y totalmente exhaustivas variable es importante ya que los de estadísticos a utilizar dependen elemento se clasifica en del mismo. El nivel de medición sólo modo una que cada categoría y todos los elementos clasificados. Por secciones de estén calificaciones, etc. ejemplo: un Nivel curso, Diferentes Rangos Se mide distancia entre Cero absoluto asignaturas en un determinado año escolar, departamentos en una empresa. __________ c ategorías ____________ c ategorías _____ Nominal X Ordinal X X Intervalo X X Razón ____________ x__________ x ________ Ordinal: Los elementos no sólo se clasifican en categorías sino que entre las categorías existe un orden determinado por el grado en el cual cada categoría posee Tabla 1: Características de los cuatro niveles de medición una característica de Interés. Sin ESTADÍSTICA DESCRIPTIVA embargo, no se establece cuanto más o menos tiene una categoría respecto a otra, sólo se tiene un orden entre categorías. ejemplo: nivel de categoría académica Por estudios, de La primera etapa en el análisis de datos es la de describir o reducir los datos. La estadística docentes, prestigio de descriptiva ofrece un profesiones, clasificación de conjunto de técnicas y empleados. procedimientos para este Intervalo: Conjunto de valores fin, los cuales se analizan numéricos para los cuales la a continuación. distancia entre sucesivos es constante y dos valores FRECUENCIAS Y de tamaño PORCENTAJES medible. Estas Para caracterizar un escalas tienen un punto de conjunto origen arbitrario. Por ejemplo: la generalmente se utilizan mayoría de las pruebas y tests frecuencia y porcentajes. utilizados y La frecuencia de una evaluación de eficiencia. Razón: categoría se define como Representa el más alto nivel de el número de datos en la medición. las categoría; por ejemplo, niveles el número de sujetos con anteriores más un punto de nivel de doctorado en el origen absoluto, por lo cual la archivo ORGANIZACIÓN razón entre dos medidas tiene es significado. Escalas de este nivel frecuencia. en Educación Tiene características de todas los son: peso, estatura, promedio de 9, de ésta datos es la El porcentaje es una medida condensada. relativa que se obtiene al dividir acuerdo la frecuencia entre el total de escala que se utiliza se casos y multiplicarla por 100. tiene Por ejemplo, el porcentaje de tablas doctores apropiados. en el archivo ORGANIZACIÓN es: al un De tipo conjunto y de de gráficos VARIABLES NOMINALES U ORDINALES g — x100=12,5 que se expresa como 12,5% Corno tablas se tienen las distribuciones frecuencia de con frecuencias absolutas y relativas (porcentajes). El porcentaje tiene la ventaja Una de que al ser una medida frecuencias relativa resumen en forma de permite comparar distribución es de un Por tabla de un conjunto de ejemplo, supóngase que se tiene datos en el cual se otro conjunto de 50 datos con 8 muestra la frecuencia de doctores. cada distribuciones El diferentes. porcentaje de una de las doctores en el segundo conjunto categorías de la variable es en tabla — x 1 0 0 = 1 6 % 5 0 consideración. 2 presenta distribución de segundo de doctores grupo. Si una medida en escala nominal. Tabla de frecuenc ia NIVEL DE ESPECI ALIZAC IÓN Relativamente hay un mayor número la de frecuencias variable La en el bien la Frecuencia cantidad es menor también lo es el total de casos, por lo que el porcentaje es mayor. Válidos PREORADO MAESTRÍA DOCTORADO Total TABLAS Y GRÁFICOS Se utilizan para reducir datos y presentarlos en forma Tabla 2: Distribución de frecuencias de la variable Nivel de especialización 27 36 Porcentaje 37.5 50.0 9 12.5 72 100.0 5 0 Las distribuciones de frecuencias responden preguntas como: Relativamente hay • ¿Cuántos usuarios de la marca mayor pueden considerarse leales? doctores en el segundo • ¿Qué porcentaje de grupo. número Si un de bien la estudiantes puede cantidad considerarse como usuarios también lo es el total de frecuentes de la casos, por lo que el biblioteca, usuarios medios, porcentaje es mayor. es menor usuarios esporádicos y no TABLAS Y GRÁFICOS usuarios? • Cuál es la distribución del Se utilizan para reducir ingreso de los clientes? datos y presentarlos en Un gráfico sirve como ayuda forma condensada. De visual en la presentación de acuerdo datos estadísticos. En el caso de escala que se utiliza se variables nominales u ordinales tiene se usan básicamente dos tipos: tablas gráficos de barras y diagramas apropiados. circulares. La figura 2 presenta VARIABLES NOMINALES U ORDINALES dos tipos de gráficos de barras y un gráfico variables circular del para archivo al un tipo conjunto y de de gráficos Corno tablas se tienen las distribuciones de ORGANIZACIÓN. frecuencia El porcentaje tiene la ventaja frecuencias absolutas y de que al ser una medida relativas relativa Una permite distribuciones comparar diferentes. Por con (porcentajes). distribución frecuencias es de un ejemplo, supóngase que se tiene resumen en forma de otro conjunto de 50 datos con 8 tabla de un conjunto de doctores. de datos en el cual se doctores en el segundo conjunto muestra la frecuencia de es cada El porcentaje — x 1 0 0 = 1 6 % una de las categorías de la variable en tabla consideración. 2 presenta distribución frecuencias variable La la de de medida una en DISTRIBUCIÓN POR ESPECIALIZACIÓN escala nominal. Tabla de frecuencia NIVEL DE ESPECIALIZACI ÓN Frecuencia Válidos PREORADO MAESTRÍA 27 36 37.5 50.0 9 12.5 72 100.0 DOCTORADO Total Tabla 2: Distribución de frecuencias de la variable Nivel de especialización Las distribuciones de frecuencias responden preguntas como: • ¿Cuántos usuarios de la marca pueden considerarse leales? • ¿Qué porcentaje de estudiantes puede considerarse como usuarios frecuentes de la biblioteca, usuarios medios, usuarios esporádicos y no usuarios? • Cuál es la distribución del ingreso de los clientes? Un gráfico sirve como ayuda visual en la presentación de datos estadísticos. En el caso de variables nominales u ordinales se usan básicamente dos tipos: gráficos de barras y diagramas circulares. La figura 2 presenta dos tipos de gráficos de barras y un variables gráfico circular del Porcentaje para archivo ORGANIZACIÓN. DISTRIBUCIÓN POR CATEGORÍA ACADÉMICA INSTRUCTOR ASISTENTE AGREGADO ASOCIADO TTTULAR CATEGORÍA ACADÉMICA DISTRIBUCIÓN POR CATEGORÍA ACADÉMICA Y POR SEXO SEXO CU MASCULINO FEMENINO INSTRUCTOR AGREGADO ASISTENTE T IT UL A ASOCIADO CATEGORÍA ACADÉMICA Figura 2: Gráficos para variables nominales y ordinales Al elaborar un gráfico de barras deben considerarse las siguientes convenciones: 1. Todas las barras deben ser del mismo tamaño. 2. Las separaciones entre barras deben ser iguales y, a lo sumo, de la mitad del ancho de las barras. 3. El eje de las abscisas (frecuencias) debe medir entre 50 y 70 % del eje de las ordenadas (categorías). 4. El eje de las abscisas (frecuencias) debe comenzar en cero. Cuando se irrespeta alguna de estas condiciones se producen errores que dan origen a mala interpretación de los datos (ver ejercicio 10 de Estadística Descriptiva). VARIABLES DE INTERVALO Y DE RAZÓN Como tabla generalmente se utiliza la distribución de frecuencias con frecuencias absolutas y relativas, simples y acumuladas. Como gráficos, además de los gráficos utilizados con las variables nominales u ordinales, se tienen el polígono de frecuencias y el histograma los cuales se muestran en la figura 3. Tabla de frecuencias de Satisfacción con institución Frecuencia Válidos Porcentaje Porcentaje válido Porcentaje acumulado 20-22 6 8,3 8,3 8,3 23-25 9 12,5 12,5 20,8 26-28 13 18,1 18,1 38,9 29-31 9 12,5 12,5 51,4 32-34 10 13,9 13,9 65.3 35-37 9 12,5 12,5 77,8 38-40 10 13,9 13,9 91.7 41-43 6 8,3 8,3 100,0 Total 100,0 Tabla 3: Tabla de frecuencias de una variable de intervalo Histograma de Satisfacción con la institución 20-22 23-25 26-28 29-31 32-34 35-37 38-40 41-43 Satisfacción con institución Polígono de frecuencias de Satisfacción con institución 21 24 27 30 Satisfacción con institución Figura 3: Histograma y polígono de frecuencias de la variable Satisfacción con la institución Para los histogramas y los polígonos de frecuencias también son válidas las condiciones 1, 3 y 4 enunciadas para los gráficos de barras (página 6). Con respecto a la tabla de frecuencias el número de clases a considerar debe situarse entre 5 y 15, dependiendo del número de datos y el rango de los valores. Menos de 5 clases implica pérdida de información por exceso de agrupamiento; más de 15 clases lleva a diluir la distribución. Las clases se construyen de tal modo que los intervalos sean de igual tamaño y no se sobrepongan (mutuamente excluyentes). Al elaborar un gráfico como un polígono de frecuencias puede observarse la distribución de los datos. Puede observarse si los datos se congregan alrededor de uno o más puntos o si se distribuyen simétricamente. Si los datos toman la forma de una curva normal muchos de los puntajes se concentran cerca del "medio" de los puntajes observados y hay un decrecimiento gradual y simétrico en ambas direcciones desde el área media de puntajes, la curva semeja una campana. En una distribución sesgada muchos de los puntajes terminan siendo "altos" (o bajos) con un pequeño porcentaje en la otra dirección. Estas no son distribuciones simétricas. Si los puntajes tienden a concentrarse alrededor de más de un punto, se tiene una distribución multfmodal. Si los puntajes se distribuyen más o menos equitativamente a lo largo del continuo de valores, entonces se tiene una distribución rectangular. a) curva normal c) distribución multimodal Figura b) distribuciones sesgadas d) distribución rectangular 4: Tipos de distribuciones de datos MEDIDAS DE POSICIÓN Una medida de posición provee información sobre la localización de parte de la distribución. Percentil: Indica el puntaje por debajo del cual está un porcentaje dado de datos de una distribución. Por ejemplo: PercentiUo = 120 significa que por debajo del puntaje 120 está el 60% de los casos. Rango percentíl: Indica el porcentaje de datos de una distribución por debajo de un valor dado. Por ejemplo: Rp45=72 significa que el 72% de los casos está por debajo del puntaje 45. El rango percentil toma valores entre 1 y 100 mientras que el percentil toma valores en el rango de la escala de medición. La tabla 4 muestra los percentiles 10, 25 50 y 75 para las variables Edad Autoestima, Satisfacción con la institución y Satisfacción con condiciones de trabajo del archivo ORGANIZACIÓN, producidos por el paquete estadístico SPSS. Estadísticos N Percentiles Perdidos EDAD AUTOESTIMA SATISFACCIÓN CON INSTITUCIÓN SATISFACCIÓN CON CONDICIONES DE TRABAJO 10 25 50 75 Válidos 72 0 29.30 32.00 36.00 40.00 72 0 15.30 18.00 21.50 26.00 72 0 23.00 26.00 31.00 37.00 72 0 20.00 24.00 30.00 38.00 Tabla 4: Percentiles 10, 25 50 y 75 de variables del archivo ORGANIZACIÓN MEDIDAS DE TENDENCIA CENTRAL Una medida de tendencia central es un valor numérico que se usa para describir el "centro" de una distribución de datos. El "centro" puede ser determinado de varias maneras; las medidas más comunes para describirlo son la moda, la mediana y la medía aritmética. Las medidas de tendencia central comúnmente se les llama promedios. Moda (Mo): Se define como el puntaje o la categoría de una distribución con la frecuencia más alta. Puede ocurrir que se tenga más de un puntaje o categoría con la frecuencia más alta; en este caso se tiene más de una moda. Además, la moda es inestable, basta que cambien algunos valores para que la moda cambie de valor o de categoría. Es la única medida posible con variables nominales. Mediana (Md): Se utiliza con variables ordinales o de orden superior. Se define como el punto que divide la distribución en dos partes iguales; 50% por encima y 50% por debajo de dicho valor. La mediana no toma en cuenta cada puntaje de la distribución por lo que no considera valores muy extremos que pudieran existir. Media aritmética (x): Se utiliza con variables de intervalo o de razón. Es el punto de equilibrio de una distribución; esto implica que la suma de valores por encima de la media es igual a la suma de valores por debajo de ella. Su expresión matemática está dada pon _Zx¡ Se suman todos los datos de la distribución y se divide entre el número de casos. Como la media considera todos los datos, responde a la posición de cada puntaje de la distribución. & además sensible a valores extremos. Comparación de las medidas de tendencia central No existe una mejor medida de tendencia central. La selección de la medida depende del problema que se está estudiando y del nivel de medición de la variable que se analiza. Cuando la variable es de intervalo o de razón y la distribución es simétrica y unimodal, las tres medidas coinciden. Si la distribución es asimétrica, las medidas son diferentes; en tal caso, dada la sensibilidad de la media a valores extremos, se prefiere la mediana cono m edida de tendencia central. La tabla 5 muestra la media aritmética, la mediana y la moda para un conjunto de variables del archivo ORGANIZACIÓN. Estadísticos N EDAD AUTOESTIMA Válidos 72 Perdidos 0 72 0 M^tfja"^^ Mediana ( V 36^4) 36.00 SATISFACCIÓN CON INSTITUCIÓN Moda 35 22.15 21.50 18 31.24 31.00 33" 30.61 30.00 20 SATISFACCIÓN CON CONDICIONES DE TRABAJO 72 a 0 • Existen varías modas. Se mostrará el menor de los valores. 7ajb/a 5: Medidas de tendencia central para variables del archivo ORGANIZACIÓN. MEDIDAS DE VARIABILIDAD Las medidas de tendencia central dan solo información sobre el "centro" de una distribución. Otra característica de la distribución que es necesario conocer se refiere a como los datos se distribuyen alrededor de ese "centro"; las medidas de variabilidad o dispersión proporcionan información sobre la distribución de datos de una variable. El término "variabilidad" puede usarse para establecer si una distribución de puntajes es homogénea (si los puntajes son similares), heterogénea (si los puntajes son disímiles) o se encuentra en algún punto entre estas posiciones extremas. Las medidas de variabilidad más utilizadas son: Rango (R): Se defina como la diferencia entre el mayor y el menor valor de una distribución: R = XM - Xm Como se basa en los dos valores extremos es altamente inestable. Además, no refleja el patrón de dispersión de la distribución. Rango Intercuartll: Comprende el 50% intermedio de las observaciones, Se define como la diferencia entre el percentil 75 y el percentil 25. Dado que no considera valores extremos, se prefiere al rango como medida de dispersión; es apropiado cuando se usa la mediana. Varianza y desviación estándar: Éstas son medidas de dispersión que consideran cada caso de la distribución. La desviación estándar es una medida del grado en el cual, en promedio, los puntajes se desvían de la media aritmética; la varianza es el cuadrado de la desviación estándar. s n-1 Como consideran todos los puntajes de una distribución, estas medidas son afectadas por valores extremos. Coeficiente de variación: Expresa la variación relativa de una distribución. Simbólicamente se define como: cv=4ioo x Como el coeficiente no tiene unidades, es útil para comparar la distribución de distintas distribuciones. La tabla 6 presenta medidas de dispersión para el conjunto de variables que se está considerando. Estadísticos Coeficiente N Válidos de Perdidos 1 Desv^tfp^ Varianza Rango Mínimo Máximo EDAD 72 0 (5.23) 27.31 26 27 53 (443 AUTOESTIMA 72 0 5.58 31.17 23 10 33 ^^-_ SATISFACCIÓN CON INSTITUCIÓN 72 0 6.53 42.58 23 20 43 20.90 72 0 8.46 71.51 30 15 45 27.64 SATISFACCIÓN CON CONDICIONES DE TRABAJO Tabla 6: Medidas de dispersión PUNTAJES ESTANDARIZADOS Se utilizan para medir cuan lejos queda un puntaje de la media aritmética de la distribución en términos de unidades de desviación estándar. Los puntajes estandarizados se refieren a la posición relativa que ocupa el dato en la distribución, no al puntaje absoluto. Son útiles para determinar y comparar la posición relativa de un sujeto en dos o más distribuciones. Una distribución de puntajes estandarizados tiene media aritmética igual a 0 y desviación estándar igual a'l: =1 z=0 La tabla 7 presenta los puntajes estandarizados, además de la identificación del sujeto y los puntajes originales para la variable Satisfacción con la institución (SI). Obsérvese que mientras los puntajes originales varían entre 20 (caso 64) y 42 (caso 37), los valores estandarizados varían entre-1,68718 y 1,84056. ID 1 2 3 4 5 6 1 8 9 10 11 12 13 14 15 16 17 18 SI 24 26 21 23 32 26 24 25 26 20 26 21 27 38 31 31 32 33 ZSI -1.10896 -.80245 -1.56872 -1.26221 .11707 -.80245 -1.10896 -.95571 -.80245 -1.72198 -.80245 -1.56872 -.64920 1.03659 -.03618 -.03618 .11707 .27032 ID 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 SI 42 38 27 33 42 38 33 28 20 27 23 23 29 28 33 25 29 34 ZSI 1.64961 1.03659 -.64920 .27032 1.64961 1.03659 .27032 -.49595 -1.72198 -.64920 -1.26221 -1.26221 -.34269 -.49595 .27032 -.95571 -.34269 .42358 ID 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 • 52 53 54 SI 43 33 33 37 35 36 27 30 37 43 36 27 40 38 35 28 37 41 ZSI 1.80286 .27032 .27032 .88334 .57683 .73008 -.64920 -.18944 .88334 1.80286 .73008 -.64920 1.34310 1.03659 .57683 -.49595 .88334 1.49635 ID 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 SI 40 37 42 38 28 38 37 33 30 20 39 29 38 20 23 30 30 23 ZSI 1.34310 .88334 1.64961 1.03659 -.49595 1.03659 .88334 .27032 -.18944 -1.72198 1.18985 -.34269 1.03659 -1.72198 -1.26221 -.18944 -.18944 -1.26221 Tabla 7: Puntajes estandarizados. DISTRIBUCIONES BIVARIADAS Cuando se mide más de una variable es común determinar la naturaleza de la relación entre pares de variables, preguntar si el conocimiento de puntajes individuales en una variable da información respecto a la posición individual en la otra variable; si los incrementos o decrementos en una variable están relacionados con incrementos o decrementos en la otra. También son de interés la dirección y la fuerza de la relación. Una distribución bivariada representa los valores de dos venables sobre los mismos sujetos. Puede ser representada por tablas y gráficos, los cuales dependen del nivel de medición de las variables. Una tabla D'ivariada consta de filas en las cuales se representan las categorías de una variable y columnas en las cuales se representan las categorías de la otra variable. Cuando una de las variables es nominal u ordinal (categórica), la otra variable-debe ser i también categórica; en caso de ser de intervalo o de razón se reduce a unas pocas categorías, agrupando valores. En este caso su representación tabular viene dada por una tabla de contingencia, tal como se muestra en la tabla 8. Tabla de contingencia CATEGORÍA ACADÉMICA * CONDICIÓN Recuento Tabla de contingencia NIVEL DE ESPECIALIZACICN * EDAD CONDICIÓN CATEGORÍA ACADÉMICA Recuento ____ ^ _____________________________________________ ORDINARIO OTROS Total 12 7 12 12 24 19 AGREGADO 5 9 14 ASOCIADO 4 e 10 INSTRUCTOR ASISTENTE TITULAR Total 1 4 5 29 43 72 EDAD Ss|o 27-36 NIVEL DE ESPECULACIÓN Alto 46-53 Total 27 9 72 PREGRADO DOCTORADO Total a) dos variables categóricas M e d io 3644 18 8 W « 7 35 b) una variable categórica y una variable de Intervalo recodificada 33 Tabla de contingencia satisfacción con Institución * Satisfacción con Condiciones de Trabajo Recuento Satisfacción con Condiciones de Trabajo Muy Insatisfecho 27-32 satisfacción con Institución Muy insatisfecho 20-24 3 21 3 7 1 Insatisfecho 25-29 7 1 7 2 3 20 Med. satisf. 30-34 4 2 1 5 3 15 Satisfecho 35-39 2 4 4 Muy satisfecho 40-44 Total Med. Muy Insatisfecho Satisfecho satisfecho 15-20 21-26 39-45 Total saüsf. 33-38 3 13 9 1 2 20 6 2 14 16 8 16 72 c) dos variables de intervalo recodificadas Tabla 8: Ejemplos de tablas de contingencia En la primera tabla se incluyen las venables Condición y Categoría académica, ambas categóricas. En la segunda tabla se tienen las variables Especialización (ordinal) y Edad (razón) que se transformó en variable categórica al definir las categorías: Baja (27 a 35 años). Media (36 a 44 años) y Alta (45 a 53 años). La tercera tabla incluye variables (SI y SCT) recodificadas. En el cruce de una categoría de la primera variable con una categoría de la segunda se tiene la frecuencia de casos que cumplen ambas condiciones. Por ejemplo, en la segunda tabla se tienen 18 sujetos con nivel de maestría y edad entre 35 y 44 años. Una forma frecuente de resumir información es con el uso de porcentajes, de este modo pueden compararse diversas categorías de diferente tamaño. La tabla 9 presenta los dos primeros casos de la tabla 8 como porcentajes; el primero respecto al total de cada fila y el segundo respecto al total de cada columna. Tabla de contingencia CATEGORÍA ACADÉMICA' CONDICIÓN Tabla d« contingencia NIVEL DE ESPECIALIZACIÓN • EDAD Recuento_________________________________________________________ CONDICIÓN ORDINARIO CATEGORÍA ACADÉMICA OTROS EDAD Total 100 INSTRUCTOR ASISTENTE AGREGADO 50 36,8 35,7 ASOCIADO TITULAR Total Recuento 40 20 40,3 50 63,2 S4.3 100 SO SO 100 100 5S.7 100 NIVEL DE PREGRADO ESPECULACIÓN ^^ DOCTORADO 100 Total a) Porcentaje respecto a filas Bajo 27- Medio 35 36-44 51,4 24,2 Alto 45Total 53 25,0 37,5 48,8 54,8 21,2 25,0 50,0 50,0 12,5 100 100 100 100 b) Porcentaje respecto a columnas Tabla 9: Tablas de contingencia expresadas en porcentajes En la primera tabla pueden compararse las categorías académicas respecto a la condición del docente. En la segunda se comparan los porcentajes de los grupos de edades respecto al nivel de especialización de los docentes. Cuando las variables son de intervalo o de razón, la distribución bivariada puede representarse gráficamente mediante un diagrama de dispersión. En este tipo de gráfico los dos ejes de un plano cartesiano representan las dos variables de la distribución; cada caso se incluye si tiene puntajes en las dos variables; la representación de cada sujeto está dada por un punto donde se cortan las dos rectas que pasan por el puntaje del sujeto en cada eje y son paralelas al otro eje. Un diagrama de dispersión muestra la relación entre dos variables a través del patrón que se forma por el conjunto de puntos. La figura 5 muestra el diagrama de dispersión con las variables Autoestima (AE) y Satisfacción con condiciones de trabajo (SCT). DIAGRAMA DE DISPERSIÓN D O O O a o a D D QB o f 1 8 O 30 1 oa o a a Q o X 5 10 15 20 25 30 35 AutoestimaF/gura 5: Diagrama de dispersión de AE con SCT. En un diagrama de dispersión se pueden analizar tres aspectos: - Forma: las relaciones pueden ser nulas, lineales o curvilíneas. En el ejemplo anterior la relación es lineal ya que puede ajustarse una línea recta a los puntos representados. - Dirección: las relaciones lineales pueden ser positivas o negativas. En el primer caso, a medida que crecen los puntajes de una variable también lo hacen los puntajes de la otra variable. En las relaciones negativas a medida que crece el puntaje de una variable, los de la otra disminuyen. En el ejemplo, la relación es positiva. - Precisión: se refiere a la dispersión de los puntos en torno a la recta o curva que se ajusta a ellos. Alta precisión implica que los puntos se encuentran muy próximos a la recta o curva que los representa. En el ejemplo se tiene una dispersión moderada. La figura 6 representa otros tipos de relación adicionales a la mostrada en la figura 5. a) lineal negativa •r -1 c) curvilínea d) no relación Figura 6: Diagramas de dispersión para varías formas de relación entre dos variables Relación entre variables En una distribución bivariada puede medirse la fuerza de la asociación entre las dos variables; para esto se utiliza un coeficiente bivariado, estadístico que mide como varían conjuntamente ambas variables. Cuando la relación entre variables es lineal, el coeficiente es un número que varía entre -1 y 1. Si las dos variables están altamente relacionadas, el valor del coeficiente se aproxima a 1 o -1 dependiendo de si la relación es positiva o negativa (ver figura 5 y figura 6a); cuando el valor se aproxima a O, significa que la relación lineal entre las variables tiende a desaparecer. Los coeficientes más utilizados son: - El coeficiente de correlación de Pearson para variables de intervalo o razón. - El coeficiente de correlación de Spearman cuando por lo menos una de las variables es ordinal; la otra variable es ordinal o de orden superior, en cuyo caso la variable se transforma en ordinal. La tabla 10 incluye en primer lugar los coeficientes de correlación de Pearson entre las variables Autoestima, Edad, Satisfacción con condiciones de trabajo y Satisfacción con la institución. El valor más alto se da entre Autoestima y Satisfacción con condiciones de trabajo (0,416); el más bajo entre Autoestima y Edad (0,112). La segunda parte se refiere a la significación de estos coeficientes la cual se analizará al estudiar Estadística Inferencia!. La última parte incluye el número de casos en cada cálculo. Correlaciones AUTOESTIMA Correlación de Pearson AUTOESTIMA EDAD SATISFACCIÓN CON CONDICIONES DE TRABAJO SATISFACCIÓN CON INSTITUCIÓN Slg. (bilateral) AUTOESTIMA EDAD SATISFACCIÓN CON CONDICIONES DE TRABAJO SATISFACCIÓN CON INSTITUCIÓN N SATISFACCIÓN CON DE CON EDAD INSTITUCIÓN 1.000 .112 .112 1.000 TISFACCIt CONDICIONES TRABAJO .418" .388" .122 .093 .416" .122 1.000 .171 .398" .093 .171 1.000' .000 .001 .348 .348 309 .438 ,151 .000 .309 • .001 .438 .151 AUTOESTIMA 72 72 72 72 EDAD 72 72 72 72 SATISFACCIÓN CON CONDICIONES DE TRABAJO 72 72 72 72 SATISFACCIÓN CON INSTITUCIÓN 72 72 72 72 *'• La corraiscjcn es significativa al mve¡ 0,01 (bilateral) Tabla 10: Correlaciones de Pearson. La tabla 11 presenta el coeficiente de Spearman entre las variables Categoría académica (ordinal) y Edad (razón); este coeficiente es rs=0,799. El segundo y tercer cuadro son similares al caso anterior. Correlaciones CATEGORÍA ACADÉMICA Rho de Spearman correlación Coeficiente de CATEGORÍA ACADÉMICA EDAD 1.000 EDAD .799** 1.000 . 799" Sig. (bilateral) N CATEGORÍA ACADÉMICA EDAD .000 .000 CATEGORÍA ACADÉMICA 72 72 EDAD 72 72 "• La correlación es significativa al nivel 0,01 (bilateral) Tabla11: Coeficiente de correlación de Spearman La magnitud de un coeficiente de correlación es sensible a varios factores: 1. Unos pocos pares de valores extremos pueden influenciar un coeficiente. 2. Mediciones imprecisas en alguna de las variables pueden reducir un coeficiente. 3. Cuando se reduce el rango de una de las venables, puede reducirse un coeficiente. Por ejemplo, si se consideran sólo aquellos aspirantes a ingresar a la educación superior que están en el tercio superior de puntajes, posiblemente muestre baja correlaci ón con el rendimiento académico en el primer año de estudios superiores. 4. La combinación de distintos grupos con diferentes medias puede influenciar el coeficiente de correlación. En la figura 7 se representan las situaciones descritas. a) Influencia de valores extremos b) Restricción de rango r=0 •••¡r=+ • • *» pr$wi¿'-k^¿v $$PS?$ r=- c)Combinación de grupos Figura 7): Factores que influyen en un coeficiente de correlación. Un punto importante a tener en cuenta es que la ausencia de relación entre dos variables implica un coeficiente de correlación nulo; sin embargo, el reciproco no es necesariamente cierto: una relación puede ser curvilínea perfecta y su coeficiente de correlación lineal es nulo. Por otra parte, la correlación no implica causalidad; sólo indica la existencia de una relación entre variables sin especificar en lo absoluto cuál es la causa y cuál el efecto. En ocasiones se presentan relaciones sin sentido con coeficientes de correlación relativamente "altos". Por ejemplo, para sujetos menores de 25 años existe una relación positiva entre el tamaño del dedo pulgar y la distancia máxima que se recorre en un minuto. Este tipo de relación se llama relación espuria y generalmente se debe a la influencia de una o más variables llamadas variables intervinientes. En el ejemplo anterior, es evidente que la edad influye en ambas variables provocando la relación entre ellas; si se elimina la influencia de la edad, la relación entre tamaño del dedo pulgar y la distancia máxima que se recorre en un minuto será muy próxima a 0. El coeficiente de correlación parcial entre dos variables controlando por una tercera variable o grupo de variables que puedan tener influencia sobre las dos primeras, permite manejar situaciones como la descrita. La tabla 12 incluye el coeficiente de correlación parcial entre las variables Satisfacción con la institución y Satisfacción con condiciones de trabajo controlando por la influencia de Autoestima; obsérvese que el coeficiente de correlación de Pearson baja de r=0,151 (tabla 10) a r=0,061, la diferencia es debida a la influencia de Autoestima. - - P A R T Í Controlling for.. SCT AL C O R R E L A T I O N AE SCT SI 1.0000 ( 0) P= . .0061 ( 69) P= .960 C O E F F I C I E N T S - - - SI .0061 1.0000 í 69) ( 0) P= .960 P= . (Coeffícient / (D.F.) / 2-tailed Significance) Tabla 12: Coeficiente de correlación parcial entre SI y SCT. Regresión lineal simple El análisis de regresión es un procedimiento estadístico dirigido a estudiar la naturaleza de la relación entre una variable de intervalo o razón llamada variable de criterio y un conjunto formado por una o más variables llamadas variables predictoras. Una vez determinada la dirección de la relación entre variables, el análisis permite hacer predicciones sobre los valores de la variable de criterio con base en el conocimiento de los valores de las variables predictoras. El análisis de regresión puede ser simple o múltiple, lineal o no lineal. El modelo más sencillo es el de regresión lineal simple con el cual se explica la relación lineal entre una variable de criterio y una variable predictora; su representación está dada por una línea recta: Y = bo + biX donde los coeficientes bo y bi se calculan de tal manera que la recta minimice los errores que se cometan al ajustaría a los puntos que representan la relación. Una relación lineal no requiere que todos los puntos estén sobre una línea recta, es necesario •que el patrón de puntos de datos sea recto. El patrón en si mismo puede ser concentrado con muchos puntos cerca de la imaginaria línea recta o puede ser disperso (ver figura 6). La tabla 13 y la figura 8 muestran los resultados del programa estadístico SPSS al ajustar una recta que explique la relación entre Satisfacción con condiciones de trabajo (SCT) como variable de criterio y Autoestima (AE) como variable predictora. Coeficientes ' Coeficientes no Coeficientes estandarizados estandarizados B Error tlp. Beta Modelo 1 (Constante) AUTOESTIMA 16.646 3.759 .630 .165 t 4.429 .416 a. Variable dependiente: SATISFACCIÓN CON CONDICIONES DE TRABAJO Tabl 13: Resultados de la rec jresión lineal de SCT sobre AE. 50 • a a o ao 3.830 Sig. .000 .000 §«, o o ao £ a 18 í o o a c *-/- — o a 1 D a ^^^^^ a o a - o o oo 1° ' a o |j e ttlf^ffo 2~**^a DD aa 0 ooo O Í}S~~Q u 30 • o oo DO ao 1 .9 a oo aa aa a a a ot»«rv»d» ° Lineal 1 10 10 13 20 ÍS 30 35 AUTOESTIMA Figura 8: Representación de la recta de regresión lineal de SCT sobre AE. En la tabla 13 se tienen los coeficientes bo y bi de la ecuación de regresión lineal: bo: 16,64ó (constante) bi: 0,630 (coeficiente de AE) La ecuación de regresión es: SCT = 16,646 + 0,630AE El coeficiente de la variable de criterio (bi = 0,630) se le llama pendiente de la recta y representa el cambio en SCT al varia r AE en una unidad. El coeficiente constante (bo = 16,646) es el punto de corte de la recta de regresión con el eje de SCT; esto es, el valor de SCT cuando AE es igual a 0. El gráfico de la figura 8 muestra la recta de regresión y los puntos del diagrama de dispersión de la distribución bivariada de SCT y AE. Obsérvese como la recta se ajusta a los puntos de manera tal que se minimizan los errores cometidos. ESTADÍSTICA INFERENCIA!. La estadística inferencial tiene como objeto obtener conclusiones respecto a poblaciones a partir del conocimiento del comportamiento de una muestra. En esta clase de estudio se considera que los datos se obtienen en una muestra y el objetivo de la investigación es obtener un enunciado sobre la población. Estas conclusiones no son exactas, existe cierta probabilidad de que los resultados sean erróneamente interpretados; la teoría estadística permite fijar esa probabilidad. CONCEPTO DE PROBABILIDAD Para definir probabilidad es necesario un conjunto de definiciones previas: Un experimente es un proceso mediante el cual se obtiene una observación o medición; por ejemplo, registrar los puntajes de una prueba de conocimientos. Un experimento puede producir uno o más resultados a los que se llama eventos o sucesos; por ejemplo, el rendimiento de cada estudiante en la prueba anterior. Un evento es simple cuando no puede ser descompuesto en otros eventos. Un evento formado por varios eventos simples es un evento compuesto. Por ejemplo, cada una de las calificaciones posibles en la prueba anterior es un evento simple mientras que aprobado y aplazado son eventos compuestos. Al conjunto de todos los eventos simples posibles se le llama espado muestra!. Así, si la escala de calificaciones de la prueba en estudio es de 1 a 20, el conjunto E = {1,2, ...,20} es Despacio muesíral. A partir de estos conceptos puede definirse la probabilidad de ocurrencia de un evento A. Esta definición puede tomar dos formas: . a. Definición teórica que considera en un espacio muestral los casos favorables al evento A y el total de casos del espacio. / - . _ número de casos favorables a A ' número total de casos Por ejemplo, la probabilidad de obtener una puntuación inferior a 10 puntos en la prueba en referencia es: b. Definición empírica que es igual a la teórica salvo el hecho de que la información no proviene de un espacio muestral sino de la observación de casos. Así, en el ejemplo anterior, se considera un conjunto de sujetos a los cuales se les aplicó la prueba; la probabilidad de obtener un puntaje inferior a 10 puntos está dada por: / x_ número de sujetos con puntaje Inferior a 10 puntos número total de sujetos MUESTREO El término muestreo se refiere a las estrategias para seleccionar una muestra de una población como base para llegar a conclusiones sobre toda la población. Para esto la muestra debe ser tan similar a la población como sea posible. El uso de una muestra en lugar de estudiar una población presenta una serie de beneficios: 1. Se ahorra tiempo y dinero 2. Una muestra puede ser más exacta ya que elimina o minimiza varia fuentes de inexactitud y error como son la trascripción de un número mayor de datos, uso de una mayor cantidad de encuestadores y otros similares. 3. No siempre es posible estudiar toda la población. 4. Una muestra es mejor si el estudio conlleva la destrucción o contaminación del elemento muestreado. Proceso de muestreo La figura 9 muestra la secuencia de pasos necesarios para el proceso de selecci ón de una muestra. Establecer el tamaño de la muestra Figura 9: Proceso para la selección de una muestra. El primer paso, definir la población, implica la definición precisa de: -> Elementos de la población: Unidades acerca de las cuales se solicita la información. Son la base del análisis que se llevará a cabo. -> Unidad de muestreo: Se refiere a los elementos disponibles para su selección en alguna etapa del proceso de muesíreo. Cuando el muestreo es de una sola etapa, coinciden con los elementos de la población. -> La extensión o alcance, referidos a los límites geográficos en los que se encuentra la población. -» El tiempo en el cual se realiza el estudio. El segundo paso implica, cuando es posible, la determinación del marco muestra!; éste generalmente consiste en una lista de todas las unidades de muestreo para su selección en una etapa del proceso. Cuando el muestreo es de una sola etapa, coincide con la población. El tercer paso se refiere a la selección de un procedimiento para fijar la muestra a utilizar. Estos procedimientos se revisarán más adelante. El cuarto paso se relaciona con la determinación del tamaño de una muestra. Una muestra pequeña generalmente conduce a conclusiones erróneas; una muestra grande produce perdida de tiempo y dinero. Más adelante se revisarán procedimientos para la determinación del tamaño ideal de la muestra. El último paso, selección de la muestra, es la consecuencia de los cuatro anteriores. Procedimientos de muestreo - E n l a f i gu ra 1 0 se ti ene u n es qu e ma de lo s p roc edi mie nt os de mu es tre o; és tos p ue de n clasificarse en procedimientos probabilísticos y procedimientos no probabil ísticos. Procedimientos de muestreo Probabilísimo: - Simple - Sistemático - Estratificado - Por conglomerados No probabilístico: - Por conveniencia o accidental - Por juicio o intencional - Por cuota - Bola de nieve - Secuencia! Figura 10: Tipos de muestreo En un muestreo probabilístico cada elemento de la población tiene una probabilidad conocida de ser seleccionado como integrante de la muestra. El muestreo se hace mediante reglas matemáticas específicas. En el muestreo no probabilístico la selección de casos depende del juicio personal del ¡nvestlgadoVquien puede decidir de manera arbitraria o consciente los elementos a incluir en la muestra. Muchas veces se usa en lugar del muestreo probabilístico, especialmente cuando no se puede definir con claridad la población. El segundo paso implica, cuando es posible, la determinación del marco muestral; éste generalmente consiste en una lista de todas las unidades de muestreo para su selección en una etapa del proceso. Cuando el muestreo es de una sola etapa, coincide con la población. El tercer paso se refiere a la selección de un procedimiento para fijar la muestra a utilizar. Estos procedimientos se revisarán más adelante. El cuarto paso se relaciona con la determinación del tamaño de una muestra. Una muestra pequeña generalmente conduce a conclusiones erróneas; una muestra grande produce perdida de tiempo y dinero. Más adelante se revisarán procedimientos para la determinación del tamaño ideal de la muestra. El último paso, selección de la muestra, es la consecuencia de los cuatro anteriores. Muestreo probabllístfco Simple: Es el muesíreo probabilístico básico. En su versión más elemental, cada miembro de la población se representa'por un disco o una ficha los cuales se colocan en una urna, se mezclan bien y se extrae la muestra de tamaño deseado. Puede utilizarse también una tabla de números aleatorios, una calculadora con función de generación de números aleatorios o un paquete estadístico de computador. Sistemático: Se selecciona aleatoriamente un primer elemento de la muestra y a partir de éste se toma cada i-simo elemento siendo i el cociente entre el tamaño de la población y el tamaño de la muestra. Estratificado: Se divide la población en subpoblaciones llamadas estratos. Estos estratos deben ser mutuamente excluyentes y colectivamente exhaustivos lo cual significa que cada elemento debe pertenecer a un solo estrato y que los estratos deben contener todos los elementos de la población. La división en estratos puede obedecer a uno o más criterios; por ejemplo, puede dividirse la población en hombres y mujeres dando origen a dos estratos o puede dividirse por sexo y por lugar de residencia con lo cual cada combinación de sexo y algún lugar de residencia definido da lugar a un estrato. A continuación, dentro de cada estrato se procede a seleccionar los elementos por alguno de los procedimientos anteriores. Por conglomerados: La población se divide en grupos o conglomerados mutuamente excluyentes y colectivamente exhaustivos, luego se selecciona una muestra aleatoria de grupos. Para cada grupo seleccionado pueden considerarse todos los elementos o se toma una muestra de elementos por muestreo aleatorio simple o sistemático. Muestreo no probabilístico Accidental: El investigador toma cualquier unidad de muestreo accesible hasta alcanzar el número deseado. Se utiliza cuando no es posible obtener una lista de la población. Aún así, se recomienda evitarlo en lo posible ya que la muestra obtenida generalmente no representa la población. Intencional: Un "experto" escoge casos que considera "representativos" de la población. Por cuotas: Se selecciona un conjunto de características de la población tales como edad, sexo y clase social y se toman muestras de acuerdo con el porcentaje que dichas características ocupan en la población utilizando alguno de los procedimientos anteriores. Bola de nieve: Se selecciona un grupo inicial de casos; los siguientes se eligen con base en la información o las referencias que se derivan de los casos iniciales. Secuencia!: Se toman casos, generalmente por muestreo intencional, hasta que la inclusión de un nuevo caso no aporte información relevante adicional. La idea es incorporar casos hasta que se alcanza un punto de saturación. Otros tipos de muestreo no probabilístico pueden consultarse en un texto de metodología de la investigación. Con respecto a la población y la muestra debe tenerse en cuenta que factores comp un bajo número de respuestas, falta de participación de sujetos seleccionados para la muestra o mortalidad de los elementos de la muestra puede varia la población para la cual se generalizan los resultados. La población definitiva debe definirse en función de los integrantes finales de la muestra y no de la muestra inicial aún cuando el muestreo sea probabilístico. Distribuciones muéstrales Una distribución muestral es una distribución de los valores de algún estadístico muestral obtenido de muestras aleatorias del mismo tamaño, de una población dada. Una distribución muestral importante es la distribución muestral de medias aritméticas obtenidas de muestras del mismo tamaño n de una población. Para obtener una distribución de este tipo se toman todas las muestras del mismo tamaño de la población, se calculan todas sus medias aritméticas. La distribución tiende a ser normal, puede visualizarse en el gráfico de la figura 11. Figura 11: Curva normal La gráfica obtenida se llama curva normal. Esta distribución representa el comportamiento poblacional de muchas variables tanto en Ciencias Sociales como en Ciencias Naturales. La curva tiene las siguientes propiedades: 1. El punto más alto de la curva normal corresponde a la media aritmética de la distribución que coincide con la mediana y la moda. 2. La curva normal es simétrica respecto a un eje que pasa por la media aritmética y es perpendicular al eje de las abscisas. 3. La curva normal es asintótica respecto al eje de las abscisas lo cual significa que la curva no se cierra. 4. El área bajo la curva se distribuye de acuerdo con: - Entre la media aritmética (n) y una desviación estándar (a) se encuentra el 68,26% de los puntos (34,13% a cada lado de \i). - Entre la media aritmética (n) y dos desviaciones estándar (2a) se encuentra el 95,44% de los puntos (47,72% a cada lado de ja). - Entre la media aritmética (n) y tres desviaciones estándar (3a) se encuentra el 99,72% de los puntos (49,86% a cada lado de u,). •> La distribución de todas las medias aritméticas de muestras del mismo tamaño de una población dada tiene como media aritmética a la media aritmética de la población (u.) y como desviación estándar a la desviación estándar de la población (a) dividida por la raíz cuadrada del tamaño de la muestra (n); esto es: a/ ESTIMACIÓN El objetivo de ia estimación es el de inferir parámetros poblacionales a partir del conocimiento de estadísticos muéstrales. La estimación puede hacerse de dos maneras: estimación puntual y estimación por intervalos. ESTIMACIÓN PUNTUAL La estimación puntual es un solo valor que se mide a partir de una muestra y se usa como estimación del parámetro poblacional correspondiente. Por ejemplo, en el archivo ORGANIZACIÓN, puede estimarse puntualmente las medias aritméticas de una población mayor a los 72 casos incluidos, diciendo que las medias poblacionales de las variables del archivo son iguales a las medias de dichas variables para los 72 casos (ver tabla 13). Estimaciones Media aritmética (puntual) Intervalo de confianza del 95% para la media Límite superior Intervalo de confianza del 99% para la media Límite Límite inferior superior EDAD 36,24 Límite 35,01 inferior 37,46 34,61 3737 AUTOESTIMA 22,15 20,84 23,46 20,41 23,89 SATISFACCIÓN CON INSTITUCIÓN 31,24 29,70 32,77 29,20 332? SATISFACCIÓN CON CONDICIONES DE TRABAJO 30,61 26,42 32,60 27,97 33,25 Tabla 14: Estimación puntual y por intervalos de Edad, AE, SI y SCT. ESTIMACIÓN POR INTERVALOS En este caso se construye un intervalo dentro del cual, con cierto nivel de probabilidad, se encuentra el parámetro poblaclonal. Se trata de hacer una predicción razonable del parámetro no ya como un punto sino como un intervalo en el cual dicho parámetro pudiera estar incluido. Estimación de la media poblaclonai La estimación por intervalo de la media poblacional Implica sumar y restar una determinada cantidad a la media muestral para así construir un Intervalo dentro del cual existe alguna probabilidad de que se encuentre la media poblacional. . Sin considerar los pormenores teóricos relativos a la construcción de este Intervalo, se dirá que si x y s son la media aritmética y la desviación estándar de una muestra de tamaño n tomada aleatoriamente de la población, entonces: - Existe aproximadamente un 95% de probabilidad de que el intervalo comprendido entre los s s límites x-2-j= y x+2—¡= contendrá la media aritmética poblacional. Vn Vn - Existe aproximadamente un 99% de probabilidad de que el intervalo comprendido entre los s s límites x-2,57-pr y x+2,57-p- contendrá la media aritmética poblacional. Vn Vn Por ejemplo, en la tabla 14 se tiene que con 95% de probabilidad es posible que el intervalo (35,01 ;37,4ó) contenga la media poblaclonal de EDAD. A 95% y 99% se les llama nivel de confianza y al intervalo obtenido se le llama intervalo de confianza. El nivel de confianza que se quiere alcanzar es una estimación, la fija el investigador; obsérvese que para mayor nivel de confianza es más amplio el intervalo por lo que se pierde precisión en la estimación. TAMAÑO ÓPTIMO DE UNA MUESTRA Cuando se quiere determinar una muestra para una investigación surge la pregunta: ¿Cuál debe ser el tamaño de la muestra a considerar? Tamaños "grandes" implican gastos Innecesarios mientras que tamaños "pequeños" pueden llevar a conclusiones erróneas. En el caso más general de medias aritméticas se sabe que el error de estimación está dado pon donde, cuando se tienen muestras mayores a 30 elementos, t es aproximadamente 2 para un nivel de confianza del 95% y aproximadamente 2,57 para un nivel de confianza de l 99%. Cuando la muestra es menor a 30, este valor debe consultarse en una tabla de distribución t de Student. Con un simple despeje se obtiene el valor de n. e Obsérvese que la determinación de n depende de tres factores: 1. El nivel de confianza deseado. Este nivel es establecido por el investigador; niveles de confianza más fuertes (99% en lugar de 95%) determinan muestras más grandes. 2. La desviación estándar poblacional, la cual generalmente es desconocida y se estima a partir de estudios pilotos con pequeñas muestras (s). Cuando esto no es posible y se tiene conocimiento de que la distribución de la variable es normal, entonces se sabe que el 99,72% de los datos están a 3 desviaciones estándar por encima y por debajo de la media aritmética, por lo que el rango de la variable termina siendo prácticamente igual a a; por lo tanto una estimación de la desviación estándar viene dada por: 0 = rango 6 3. El error tolerable e; esto es, el error máximo que se está dispuesto a aceptar, el cual también es fijado por el investigador. Por otra parte, si el tamaño de la población es finito entonces puede aplicarse una corrección al tamaño obtenido dada por: n n= 1+n-1 N donde n es el tamaño óptimo muestral calculado de acuerdo con las expresiones anteriores y N es el tamaño de la población . PRUEBA DE HIPÓTESIS La prueba de hipótesis implica hacer inferencias acerca de la naturaleza de la población sobre la base de observaciones de una muestra obtenida de dicha población. En términos generales, una hipótesis es una conjetura sobre algún fenómeno o conjunto de hechos. En estadística inferencial una hipótesis es una conjetura sobre uno o más parámetros poblacionales. Antes de iniciar el procedimiento de prueba de hipótesis deben considerarse los siguientes aspectos: -¿Cuál es la población relevante? -¿Cómo puede obtenerse la muestra de la población? - ¿Cuáles características de la muestra se considerarán para medición? - ¿Cuál(es) es(son) el(los)'estadístico(s) a considerar para la comprobación de la hipótesis? El proceso para una prueba de hipótesis parte del establecimiento de dos hipótesis mutuamente excluyeníes. a) Hipótesis nula (Ho): en la cual se especifican valores hipotéticos para uno o más de los parámetros poblacionales. La hipótesis nula es una afirmación de la situación actual. b) Hipótesis alterna(Hi): en la cual se afirma que el parámetro poblacional tiene un valor distinto al hipotético, representa la conclusión para la cual se busca evidencia, la. pregunta de investigación. i Por ejemplo, pudiera tenerse interés en determinar si el puntaje promedio poblacional de la variable Satisfacción con condiciones de trabajo (SCT), del archivo ORGANIZACIÓN, es de 27 puntos. La hipótesis nula se plantea como: Ho: U.SCT =27 La hipótesis alterna puede plantearse como: esto es, el puntaje promedio de la población es diferente a 27. Puede también establecerse como hipótesis alterna que el promedio poblacional de SCT es mayor (o menor) a 27. HI:U.SCT >27 En el primer caso se tiene una hipótesis no direccional; en el segundo caso la hipótesis es direccional. En una hipótesis no direccional se establece que hay diferencia entre parámetros, pero no se determina la relación exacta entre los mismos. En una hipótesis direccional se establece la dirección de la relación entre parámetros. El procedimiento para la prueba de estas hipótesis puede resumirse en los siguientes pasos: 1 . Se asume cierta la hipótesis nula. 2. Se examinan los datos empíricos obtenidos (a través de alguna prueba estadística). Se establece la pregunta: ¿Cuál es la probabilidad de obtener una diferencia igual o mayor a la observada al diseñar muestras aleatorias de poblaciones donde Ho se supone cierta? Lo cual equivale a la pregunta ¿Es la evidencia empírica inconsistente con lo que se esperaría si la hipótesis nula fuera cierta? 4. Si la probabilidad es pequeña (menor a un valor predeterminado) se rechaza Ho y se acepta Hi. En caso contrario, no se tienen evidencias para rechazar Ho y la diferencia observada puede ser atribuida a errores muéstrales. La prueba estadística a utilizar en el punto 2 depende del problema en estudio. Recuérdese que para el caso de la media aritmética (como el ejercicio en consideración) se estableció que las medias aritméticas de muestras de tamaño n se distribuyen normalmente, con: Cuando la desviación estándar poblacional (a) es desconocida y sólo se conocen estadísticos de las muestras, se utiliza s como estimación de a y las distribuciones t como distribución muestral de las medias aritméticas. Estas distribuciones son similares a la normal a la cual se aproximan a medida que aumenta el tamaño de la muestra. Las distribuciones t introducen el conceptee grados de libertad, el cual se asocia con el número de datos y el número de restricciones que se imponen a las variables. Los cuatro pasos del proceso de prueba de hipótesis aplicados a este caso son: 1 .- Se asume cierta la hipótesis nula Ho: usa =27 2.- Se examinan los datos empíricos a través de una prueba estadística. En este caso se quiere ver cuan lejos está la media muestral de la supuesta media poblacional; la situación se presenta en la figura 12. p= 27 X = 30,61 Figura 12: Representación gráfica de la prueba de hipótesis. El problema puede traducirse en la determinación de cuan alejada está la media aritmética muestral (x) de la media poblacional supuesta de usa =27. Las tablas 5 y 6 muestran que para la variable SCT se tienen: A 30,61 S=8,46 La pregunta que surge es: Si la muestra es representativa de la población ¿Es la diferencia entre i la media muestral y la media poblacional supuesta lo suficientemente "grande" para suponer que la muestra proviene de una población cuya media no sea 27? Sin entrar en los detalles sobre la aplicación de la prueba t para este ejercicio, los resultados de su aplicación se muestran en la tabla 14. Prueba para una muestra Valor de prueba = 27 Sig. (bilateral) SATISFACCIÓN CON CONDICIONES DE TRABAJO Tabla 14: Prueba t para una muestra de la variable SCT. Los resultados de la tabla muestran: - Valor de la prueba t = 3,623 - Grados de libertad: n-1 =71 - Significación: se analiza más adelante 3.- Se establece la pregunta: ¿Cuál es la probabilidad de obtener una diferencia igual o mayor a la observada al diseñar muestras aleatorias de poblaciones donde Ho se supone cierta? En la columna significación de la tabla 14 se tiene la probabilidad buscada; p = 0,001 (significación bilateral) lo cual significa que la probabilidad de que, siendo la media poblacional de 27 se obtenga una muestra aleatoria de tamaño 72 con una media que se aleje 3,61 unidades o más de 27 es de p= 0,001. La probabilidad de obtener una muestra aleatoria de tamaño 72 con una media de 30,61 es de £= ' =0,0005 (un solo lado). En el primer caso, significación bilateral, la hipótesis alterna es: Hi:Mscr*27 En el segundo caso, significación unilateral, la hipótesis alterna es: Hi:psa>27 4.- La última parte establece que si la probabilidad es menor a un valor predeterminado, se rechaza Ho y se acepta Hi . El valor predeterminado se llama nivel de significación; este valor es arbitrario y depende del investigador. Normalmente se fija en 0,05 lo cual significa que se rechaza Ho cuando la probabilidad de obtener una diferencia igual o mayor a la observada es menor a 0,05. En el ejercicio en análisis la probabilidad es de p=0,0005 (para hipótesis direccional) que evidentemente es menor a 0,05, por lo que se rechaza Ho y se acepta que la media poblacional es mayor a 27 (hipótesis alterna). TIPOS DE ERRORES Al hacer una prueba de hipótesis se trabaja con una muestra, no con la población, por lo que no llega a tenerse absoluta seguridad de tomar una decisión correcta. Puede ocurrir que Ho sea verdadera y no se rechace o que Ho sea falsa y se tome la decisión de rechazarla; en ambos casos la decisión tomada es correcta. El problema surge cuando se dan situaciones cruzadas; esto es, cuando Ho es verdadera y se rechaza o cuando Ho es falsa y no se rechaza. Obsérvese que cuando se toma el nivel de significación como 0,05 se está aceptando que se va a rechazar Ho cuando la probabilidad de obtener una diferencia tan grande como la observada es 0,05 o menos; puede ocurrir que la diferencia ocurra porque la muestra no provenga de la población a la cual se refiere Ho o porque la diferencia sea debida a desviaciones de la muestra y no a una diferencia real; en el primer caso la decisión tomada es correcta, en el segundo caso se comete un error. Al fijar el nivel de significación en 0,05 se acepta la posibilidad de tomar una decisión errónea (rechazar Ho siendo cierta) 5% de las veces o menos. El nivel de significación puede bajarse, por ejemplo a 0,01, pero dado que se trabaja con muestras no puede suprimirse. Al disminuir el nivel de significación, se reduce la probabilidad de rechazar Ho siendo cierta. Sin embargo, esto trae como consecuencia el incremento en la probabilidad de cometer un segundo error: no rechazar Ho siendo falsa. El diagrama en la tabla 15 muestra la situación que se plantea. Ho No se rechaza Se rechaza Cierta Falsa Decisión correcta Error tipo II Error tipo 1 a Decisión correcta e Tabla 15: Resumen de errores de prueba de hipótesis. El nivel de significación puede definirse ahora como la probabilidad de cometer un error de tipo PRUEBAS DE SIGNIFICACIÓN La prueba de significación a utilizar en un proceso dado es determinada por una serie de factores. En primer lugar depende de las hipótesis que se formulan, las cuales pueden dar lugar a pruebas de asociación o de diferencias. En segundo lugar depende del tipo de datos con el cual se trabajan, lo que puede determinar el uso de una prueba paramétrica o de una prueba no paramétrica. Las pruebas paramétricas son más potentes, lo cual significa que se reduce la posibilidad de cometer un error tipo II (no rechazar una hipótesis nula que es falsa). Sin embargo, deben cumplirse ciertos requisitos para el uso de estas técnicas: • Los datos deben representarse en escala de intervalo o razón. • A nivel poblacional, la variable debe tener una distribución normal (o por lo menos la distribución debe ser conocida). • Los sujetos en el estudio deben ser seleccionados en forma aleatoria. En este sentido, autores como Kertinger (1981) plantean que la aleatorizacíón debe ser siempre considerada y debe hacerse, por lo menos, con los tratamientos a aplicar. Entre las pruebas paramétricas se tienen: • Prueba t para una muestra. • Prueba t para determinar la significación de la diferencia entre dos medias muéstrales. Puede ocurrir que las medias se refieran a muestras independientes, a muestras relacionadas o a las mismas muestras en dos momentos diferentes. • Pruebas t para determinar la significación de un coeficiente de significación y la pendiente de una recta de regresión. • Análisis de varianza para estudiar la diferencia de medias muéstrales en más de dos grupos de una variable. Entre las pruebas no paramétricas se tienen: » Prueba %2 para estudiar la bondad de ajuste de una variable categórica a una distribución determinada o la independencia entre dos variables categóricas. Prueba t para una muestra Esta prueba se utiliza en investigaciones en las cuales se quiere determinar si una muestra es representativa de una población; esto equivale a preguntarse si una media muestral está tan alejada de la media poblacional (real o supuesta) que la muestra no proviene de la población considerada. Un ejemplo de aplicación de esta prueba se desarrolló en el ejercicio anterior sobre prueba de hipótesis. Algunas hipótesis en las cuales se aplica la prueba t para una muestra son: - El promedio semanal de accidentes de transito en el estado x durante el año pasado fue igual al promedio semanal nacional en el mismo periodo. - El nivel de comprensión lectora de los niños de tercer grado del distrito escolar Y está por encima del nivel de los niños en el estado. - En promedio, los habitantes del barrio z que requieren el uso del transporte público, caminan 15 minutos para llegar a la parada del transporte. Prueba t para muestras independientes En investigación varias hipótesis se relacionan con los parámetros de dos poblaciones diferentes; por ejemplo, la satisfacción de los hombres con la institución puede ser diferente a la satisfacción de las mujeres; la autoestima en docentes ordinarios puede varias respecto a la autoestima de los docentes contratados. Las muestras deben ser independientes; esto es, no debe existir relación entre los sujetos de ambas muestras; la mejor manera de lograr independencia es la aleatoriedad en la selección de muestras. En general, en este caso la hipótesis nula se plantea en términos de igualdad de medias. Por ejemplo, para el caso de la variable Satisfacción con la institución (SI), se tiene: HO:U.M = U.F ó HO:(JM-U.F = O La hipótesis alterna no direccional viene dada por: H1:|JM*MF ó H !: MM - MF * O La tabla 16 presenta los resultados obtenidos al probar esta hipótesis. ' Estadísticos del grupo _____________ SEXO SATISFACCIÓN CON INSTITUCIÓN FEMENINO M A SC U L|N O __________ N 36 „, 32.81 ^ Desviación Error típ. de Media _______ tip_. ________ la media 6~Í2 M 1.02 „„ Prueba de muestras independientes Prueba T para la igualdad de medias ________________ Diferencia de Tabla 16: Prueba t para muestras independientes. La primera parte de la tabla incluye estadísticos descriptivos de la variable SI para los dos grupos (femenino, masculino): Número de casos (N) Media aritmética (x) Desviación estándar (s) Error estándar de la media (s/>/ñ) Al considerar los cuatro pasos planteados para la prueba de hipótesis se tiene que, en primer lugar se asume cierta la hipótesis nula: Ho: PM = U.F En segundo lugar se examinan los datos. La idea de esta prueba es la de determinar cu ál es la probabilidad de que, siendo cierta la hipótesis nula, se obtenga aleatoriamente una diferencia entre medias muéstrales igual o mayor a la observada: Xf-Xm = 32,81-29,67 = 3,14 (figura 15) Xm-Xf=-3.14 Mm-Mf=° Xf-Xm*3,14 Figura 15: Representación de la prueba de hipótesis para la diferencia de des medias muéstrales. La prueba a aplicar en este caso es la prueba t para muestras independientes. Los resultados de la aplicación de esta prueba se muestran en el segundo cuadro de la tabla 16. El resultado obtenido es t = 2,089 con 70 grados de libertad. El tercer paso en la prueba de hipótesis se refiere a la pregunta: ¿Cuál es la probabilidad de obtener una diferencia igual o mayor 3,14 al diseñar muestras aleatorias de una población donde Ho (diferencia igual a cero) se supone cierta? Esta probabilidad est á dada por la significación 0,040. El último paso consiste en comparar la probabilidad obtenida con un valor predeterminado. Si se fija este valor en 5%, esto implica que se acepta que la diferencia es distinta a la esperada (0) cuando la probabilidad de que ocurra por azar es menor al 5%, lo que ocurre en este caso ya que la probabilidad de obtener por azar una diferencia de 3,14 o más es de 0,40 o 4%. Por lo tanto, se rechaza Ho y se acepta que a nivel pobiacional s! hay diferencia significativa entre los grupos femenino y masculino en cuanto a la satisfacción con la Institución. Prueba t para muestras relacionadas Estas pruebas se utilizan en situaciones tales como: - Comparación entre pre-test y post- test de un mismo grupo antes y después de un tratamiento. i - Cuando se tienen grupos pareados en los cuales los sujetos se aparean en cuanto a alguna variable. - Para comparar el comportamiento de un grupo en dos variables medidas en escalas similares (pueden ser estandarizadas); esta última situación es la que se plantea en el ejercicio que se presenta en la tabla ] 7, en la cual se comparan las variables SCT y SI sobre el mismo grupo de sujetos. El problema es similar a los estudiados; se trata de determinar la probabilidad de obtener aleatoriamente una diferencia de medias igual a la obtenida cuando se supone cierta la hipótesis nula. Las hipótesis estadísticas son: Ho: MSCT= MSI Hi: La prueba estadística que se utiliza para este caso en la tabla 1 7. Estadísticos de muestras relacionadas Desviación Media Par SATISFACCIÓN CON 1 CONDICIONES DE TRABAJO N tlp. Error tip. de la media 1.00 3124 SATISFACCIÓN CON INSTITUCIÓN 6 53 ' 72 .77 Prueba de muestras relacionadas Diferencias relacionadas t Par SATISFACCIÓN CON 1 CONDICIONES DE TRABAJOSATISFACCIÓN CON INSTITUCIÓN Desviación Error tfp. de tlp. la media Si9 ' gi (bilateral) 71 .589 Tabla 17: Prueba t para muestras relacionadas. Los resultados muestran que: Xsa =30,61 X si = 31,24 d = XSCT - Xsi = 30,61 -31,24 = -0,63 La prueba estadística utilizada es la prueba t para muestras relacionadas la cual en este caso tiene el siguiente resultado t = -0,543 con 71 grados de libertad. La probabilidad de obtener una diferencias de -0,63 o menos 8o de 0,63 o más) es p = 0,589. Este valor es mayor de 0,05 por lo que se concluye que no hay bases para suponer que a nivel poblacional exista diferencia entre satisfacción con las condiciones de trabajo y satisfacción con la institución. Prueba t para coeficientes de correlación lineal Para un coeficiente de correlación lineal determinado entre dos variables a nivel muestral, puede plantearse la hipótesis de que dicho coeficiente es nulo a nivel poblacional, lo cual es equivalente a decir que no existe relación lineal entre las variables. Ho: p = O La hipótesis alterna puede ser no direccional: Hi:p*0 o puede plantearse como hipótesis direccional, tal como: Hi:p>0 Esta prueba se aplica a hipótesis tales como: s Existe relación negativa entre el nivel de pobreza y los años de escolaridad. s El grado de satisfacción con el trabajo se relaciona con el rendimiento en el mismo. s A mayor interés por una tarea, mayor es el nivel de participación. La mayoría de los paquetes estadísticos no incluye explícitamente el resultado de la prueba t para determinar la significación de un coeficiente de correlación, sólo presentan el nivel de significación. Por ejemplo, en la tabla 10 de la página 17 se observa que el coeficiente de correlación entre Autoestima (AE) y Satisfacción con trabajo (SCT) es r = 0,416. Como este coeficiente se obtiene en la muestra, surge la pregunta: ¿Es el coeficiente de correlación entre AE y SCT tan diferente de cero como para concluir que a nivel poblacional existe correlación lineal entre ambas variables? La respuesta se obtiene en la segunda parte de la tabla 10 donde están los niveles de significación; para el coeficiente entre AE y SCT se tiene 0,000 lo cual no significa que el nivel sea cero sino que es muy pequeño y que alguna cifra menor a 5 está después del tercer decimal. Si se toma a = 0,05 como nivel de significación, ei valor obtenido de p es bastante menor a este nivel por lo que se rechaza Ho y se acepta que en la población el coeficiente de correlación lineal de Pearson entre AE y SCT es diferente a cero. También existe una prueba t para determinar la significación de la pendiente de una recta de regresión, lo cual equivale a determinar la significación de la recta de regresión En la tabla 13 se tiene la recta de regresión de SCT sobre AE dada por: SCT = 0,630AE + 16,646 Se quiere probar que a nivel poblacional la pendiente es no nula; el conjunto de hipótesis viene dado por: Ho: pi = O Hi: pi*0 donde |3i es la pendiente de ka recta a nivel poblacional. En la tabla 13 se tiene que el estadístico t para la pendiente es 3,83 con significación menor a 0,0005 por lo que si se toma como nivel de significación a = 0,05, se concluye que se rechaza Ho y se acepta que a nivel poblacional la pendiente es diferente de cero lo que significa que existe una recta de regresión entre AE y SCT. Prueba %2 de bondad de ajuste Esta prueba se utiliza con variables categóricas en las cuales las categorías son mutuamente excluyentes (un sujeto no puede pertenecer a dos categorías) y totalmente Inclusivas (todos los sujetos pertenecen por lo menos a una categoría). En esta prueba se compara una distribución hipotética con una distribución generada por una muestra. Las hipótesis para esta prueba se plantean como: Ho: La distribución observada es igual a la distribución teórica Hi: Ambas distribuciones son diferentes Esta prueba se aplica a problemas tales como: . - ¿Es de esperar que la distribución de alumnos sea igual en el futuro para los tres docentes de Estadística? - ¿Se distribuyen por igual las ventas de cuatro marcas de jabón en los supermercados de país? El estadístico de prueba está dado por: X2=X ' Con K - 1 grados de libertad donde O: es la frecuencia observada en cada categoría E: es la frecuencia esperada K: es el número de categoría Para cada categoría se calcula el cociente (O - E)2/E y se suman los resultados. Por ejemplo, se supone que en toda institución de educación superior por cada docente con grado de doctor hay dos docentes con grado de maestría y tres sólo con título de pregrado (distribución 3:2:1). En el archivo ORGANIZACIÓN, la distribución de los sujetos es 27 sujetos con título de pregrado, 36 con grado de maestría y 8 con doctorado(la distribución teórica debe ser 36:24:12). se quiere probar si ambas distribuciones difieren significativamente entre si. La distribución de sujetos por el nivel de especialización máximo alcanzado y la distribución esperada se muestran en el primer cuadro de la tabla 18. NIVEL DE ESPECIALIZACIÓ N observado N esperado Residual PREGRADO 27 36.0 -9.0 MAESTRÍA 36 24.0 9 12.0 - DOCTORADO 12.0 72 3.0 Total Estadísticos de contraste NIVEL DE ESPECIALIZACIÓN Chi-cuadrado ° 9l 9.000 2 Sig. asintót. X2=X ' .011 Con K - 1 grados de libertad donde O: es la frecuencia observada en cada categoría E: es la frecuencia esperada K: es el número de categoría Para cada categoría se calcula el cociente (O - E)2/E y se suman los resultados. Por ejemplo, se supone que en toda institución de educación superior por cada docente con grado de doctor hay dos docentes con grado de maestría y tres sólo con título de pregrado (distribución 3:2:1). En el archivo ORGANIZACIÓN, la distribución de los sujetos es 27 sujetos con título de pregrado, 36 con grado de maestría y 8 con doctorado(la distribución teórica debe ser 36:24:12). se quiere probar si ambas distribuciones difieren significativamente entre si. La distribución de sujetos por el nivel de especialización máximo alcanzado y la distribución esperada se muestran en el primer cuadro de la tabla 18. NIVEL DE ESPECIALIZACIÓN N observado N esperado Residual PREGRADO 27 36.0 -9.0 MAESTRÍA 36 24.0 9 12.0 - DOCTORADO 12.0 72 3.0 Total Estadísticos de contraste j NIVEL DE ESPECIALIZACIÓN Chi-cuadrado ° 9l Sig. asintót. 9.000 2 .011 Tabla 18: Prueba x2 para bondad de ajuste Se quiere probar la hipótesis de que ambas distribuciones coinciden a nivel poblacional. La prueba a utilizar es x 2 para bondad de ajuste. Los resultados muestran que x 2 = 9 con dos grados de libertad y una significación de p=0,0l I. Si se toma a = 0,05 como nivel de significación se rechaza Ho y se acepta que a nivel poblacional hay diferencias entre las distribuciones. Prueba x2 para independencia de variables Con esta prueba se determina si dos variables categ óricas son independientes o están relacionadas. Las hipótesis en este caso son: Ho: Ambas variables son independientes Hi: Las variables están relacionadas Para la prueba estadística se construye primero una tabla de doble entrada o de contingencia en la cual se colocan las categorías de una variable como filas y las categorías de la otra variable como columnas (ver primer cuadro de la tabla 19). La frecuencia esperada de una casilla determinada £.5 se obtiene como: donde c¡: total de la columna i f¡: total de la fila j n : total de casos El estadístico de prueba es: ,(0£)! x-?r f c - Esta prueba se aplica a hipótesis tales como: - ¿Se venden los tres productos de la marca X de la misma forma en las dos cadenas de tiendas YyZ? -¿Existe relación entre turno de trabajo (diurno o nocturno) y rendimiento en el trabajo (alto, medio o bajo)? - En la población de la cual se extrajo el archivo ORGANIZACIÓN ¿Existe relación entre nivel académico (pregrado, maestría, doctorado) y condición académica (ordinario, contratado)? Por ejemplo, se plantea que la variables Sexo y Edad del archivo ORGANIZACIÓN están relacionadas. Dado que Edad es una variable de razón debe primero reducirse a pocas categorías. Los resultados de la aplicación de la prueba %2 se presentan en la tabla 19. La tabla de contingencia muestra que la variable Edad se ha agrupado en tres categorías, las cuales corresponden a las columnas; la variable Sexo se distribuye en las dos filas. En cada casilla se tienen, tanto la frecuencia observada como la frecuencia esperada. Prueba x2 para independencia de variables Con esta prueba se determina si dos variables categ óricas son independientes o están relacionadas. Las hipótesis en este caso son: Ho: Ambas variables son independientes Hi: Las variables están relacionadas Para la prueba estadística se construye primero una tabla de doble entrada o de contingencia en la cual se colocan las categorías de una variable como filas y las categorías de la otra variable como columnas (ver primer cuadro de la tabla 19). La frecuencia esperada de una casilla determinada £.5 se obtiene como: donde c¡: total de la columna i f¡: total de la fila j n : total de casos El estadístico de prueba es: ,(0£)! x-?r f c - Esta prueba se aplica a hipótesis tales como: - ¿Se venden los tres productos de la marca X de la misma forma en las dos cadenas de tiendas YyZ? -¿Existe relación entre turno de trabajo (diurno o nocturno) y rendimiento en el trabajo (alto, medio o bajo)? - En la población de la cual se extrajo el archivo ORGANIZACIÓN ¿Existe relación entre nivel académico (pregrado, maestría, doctorado) y condición académica (ordinario, contratado)? Por ejemplo, se plantea que la variables Sexo y Edad del archivo ORGANIZACIÓN están relacionadas. Dado que Edad es una variable de razón debe primero reducirse a pocas categorías. Los resultados de la aplicación de la prueba %2 se presentan en la tabla 19. La tabla de contingencia muestra que la variable Edad se ha agrupado en tres categorías, las cuales corresponden a las columnas; la variable Sexo se distribuye en las dos filas. En cada casilla se tienen, tanto la frecuencia observada como la frecuencia esperada. Tabla de contingencia SEXO * EDAD EDAD Bajo 35 Medio 36-44 Alto 2745-53 Total SEXO FEMENINO Recuento 15 19 2 36 2 36 Frecuencia esperada MASCULINO Recuento Frecuencia ^ 20 ^ 14 ^ esperada Total Frecuencia Recuento 35 Q 33 Q 35 33 4 72 ^ esperada Pruebas de chi-cuadrado Sig. asint Valor (bilateral) Cuadrado Pearson N de casos 72 válidos gl . ^ de a- 2 casillas (33.3%) tienen una frecuencia esperada inferior a 5. U frecuencia mínima esperada es 2.00 Tabla 19: Prueba x2 para independencia de variables El segundo cuadro tiene el valor calculado de x2 = I --472 con 2 grados de libertad y p=0,479. Si se toma a= 0,05 como nivel de significación, no se tienen bases para rechazar la hipótesis nula de independencia de variables ERRORES COMUNES AL UTILIZAR ESTADÍSTICA EN UNA INVESTIGACIÓN Como último punto se señalan algunos errores comunes que se cometen al seleccionar una técnica estadística en una investigación: - Seleccionar una técnica estadística que no es apropiada para el análisis a efectuar. - Recolectar datos antes de decidir la técnica estadística a utilizar. - Seleccionar un método estadístico complicado en lugar de uno simple. Recuérdese que la estadística debe servir a la investigación, no dominarla. Nada se gana con emplear procedimientos sofisticados, cuando puede llegarse a conclusiones similares con procesos más simples. Indicar someramente las técnicas estadísticas a utilizar, recoger los datos y luego decidir sobre las técnicas específicas. En estas condiciones se corre el riesgo de recoger datos para luego encontrar que no existe un análisis apropiado, que el estudio requiere un conocimiento. que va más allá del nivel estadístico del investigador o que la técnica que se pensaba aplicar no es pertinente para los datos existentes. - Seleccionar en primer lugar los procedimientos estadísticos a utilizar y luego diseñar el estudio ajustándolo a las técnicas seleccionadas. Por otra parte, debe tenerse claro que la significación estadística no necesariamente implica significación práctica. La primera se refiere a los resultados de una prueba estadística lo cual no siempre implica resultados significativos en una investigación. Puede ocurrir por ejemplo que el nivel de participación de los ciudadanos de un pueblo en un determinado proyecto se incremente en un 3% y que este resultado sea estadísticamente significativo, pero cabe preguntarse cuáles implicaciones prácticas tiene el incremento del 3%. Por último, debe enfatizarse que la Estadística es un auxiliar de la investigación. No se trata de ajustar la investigación a la Estadística sino de determinar cuál técnica estadística se debe utilizar para dar respuesta a una pregunta de investigaciòn