I Escuela Internacional de Verano de Lingüística de Corpus Creación y uso de corpus para aplicaciones lingüísticas UNIVERSITAT POMEPU FABRA Barcelona, 01-04 Septiembre 2010 Sesión 3: Explotación de corpus y análisis de datos. Análisis cuantitativo Raquel Casesnoves y Rogelio Nazar Grupos uVaL e IulaTerm Viernes 3, 09:30h Material Didáctico 1. Introducción Este documento condensa el material que se impartirá en la sesión de análisis cuantitativo de esta Escuela de Verano de Lingüística de Corpus. El propósito de esta sesión -que durará una hora y media- es ofrecer una introducción a algunos de los conceptos estadísticos más elementales que pueden ser aplicados al análisis de datos lingüísticos. Es, por tanto, un documento que no espera más conocimientos previos que una formación básica en lingüística teórica. La sesión está enfocada hacia la explicación de conceptos matemáticos abstractos, y no incluye conocimiento sobre sistemas informáticos, más allá de algunas referencias a paquetes estadísticos. La sesión está dividida en dos módulos de 45 minutos. El primero tratará de manera introductoria nociones elementales sobre métodos estadísticos para la explotación de corpus textuales. Los ejes de la propuesta estarán trazados en torno a la forma correcta de plantear y operacionalizar un problema y una hipótesis científica, incluyendo métodos empíricos para la contrastación de hipótesis. Los conceptos a tratar serán los siguientes: 1) población y muestra 2) frecuencia obervada y frecuencia esperada 3) probabilidad y variable aleatoria 4) histograma y distribución binomial 5) hipótesis nula y p-valor Con el propósito de explicar estos conceptos de la forma más amena posible, éstos estarán articulados en torno a la narrativa de un experimento científico en el que se plantea una pregunta sobre la proporción de frases en pasiva en inglés escrito. De esta manera, los conceptos se explicarán a través de los pasos seguidos para responder a esta pregunta. El segundo módulo no está únicamente enfocado a lo que se conoce hoy como la lingüística de corpus, en donde lo que se analiza generalmente es texto escrito por profesionales, sino al análisis lingüístico en general. Explica, de manera un poco más avanzada, la 1 I Escuela Internacional de Verano de Lingüística de Corpus Creación y uso de corpus para aplicaciones lingüísticas UNIVERSITAT POMEPU FABRA Barcelona, 01-04 Septiembre 2010 utilización de conceptos estadísticos en el análisis de la lengua oral, la variación lingüística y la sociolingüística. En este módulo desarrollaremos un poco más algunos de los conceptos introducidos en el módulo anterior y los relacionaremos con algunos conceptos nuevos. En concreto, el módulo se trazará en torno a los siguientes ejes: 1) definición de ‘lengua oral’ 2) definición del objeto de estudio 3) formulación de hipótesis 4) constitución del corpus a. técnicas de recogida de datos b. muestreo 5) validación o refutación de hipótesis Cada uno de estos módulos incorpora por separado bibliografía recomendada para continuar la lectura. 2. Primer Módulo: nociones elementales Lo primero que hay que decir sobre la estadística es que se trata de una materia compleja. La curva de aprendizaje es muy empinada al principio, y el estudiante suele experimentar cierta desazón cuando comienza su recorrido. A esto se suma la enorme dificultad para encontrar profesionales que dominen los dos campos de estudio que constituyen la lingüística cuantitativa: la estadística y la lingüística. Esto último probablemente sea consecuencia del divorcio existente entre las dos culturas a las que hizo referencia C. P. Snow 1: la del conocimiento humanístico y la del científico, dos culturas que se ignoran o se repelen en una desconfianza mutua, divorcio que aún persiste en la estructura de las currículas de educación media. La consecuencia principal de esta división en la educación y en la cultura es que quien primero pisó el terreno de la lingüística probablemente haya llegado allí por el camino de las humanidades, y esto acarrea la desventaja de no tener una formación en matemáticas. Se trata de una situación de “trabajo interdisciplinario forzoso”, por eso además del esfuerzo individual resulta vital el contacto con personas que tengan formación en estadística antes de realizar investigaciones en lingüística cuantitativa. Incluso cuando se trate de personas que no posean un conocimiento previo sobre lingüística, puesto que para la estadística la naturaleza de los datos es indiferente: se puede aplicar el mismo pensamiento estadístico para estudiar palabras, organismos, dinero, personas o cualquier otra entidad. Sin embargo, si lo que se quiere es hacer investigación en 1 C. P. Snow (1960). The Two Cultures. Cambridge: University Press. 2 I Escuela Internacional de Verano de Lingüística de Corpus Creación y uso de corpus para aplicaciones lingüísticas UNIVERSITAT POMEPU FABRA Barcelona, 01-04 Septiembre 2010 lingüística, la dependencia es mutua. Quienes van en dirección contraria, hacia la lingüística desde matemáticas o estadística, difícilmente puedan plantear correctamente preguntas sin dominar el campo y sin trabajar en equipo. Como plantea Gabriel Altmann: No hay garantía de que un buen matemático pueda producir automáticamente buena lingüística. Un conocimiento especializado en lingüística es una condición necesaria, de lo contrario se produce un trabajo matemáticamente demandante pero lingüísticamente irrelevante. Altmann (1997: 13) Para Altmann, la lingüística cuantitaiva no trata sobre matemáticas complicadas sino sobre saber concebir y formular hipótesis. En la próxima sección examineramos un ejemplo concreto de una pregunta lingüísticamente interesante y un planteamiento estadístico para responderla. La metodología de análisis expuesta en el ejemplo puede ser trasladada a una diversidad de problemáticas particulares y, de la misma manera que el conjunto de técnicas estadísticas, puede ser útil para obtener una mayor certeza o confianza en el resultado de nuestras investigaciones. Naturalmente, no se trata de caer en el error de depositar toda la fe en el “p-valor”, esa certeza absoluta que parece desprenderse de la frase “el resultado es estadísticamente significativo”. Como señalan Amaral y Guimera (2006), con estadísticas es muy fácil equivocarse -incluso científicos reconocidos lo hacen- y obtener resultados “estadísticamente significativos” y a la vez falsos, porque no se ha aplicado correctamente la técnica o porque -consciente o inconscientementea la técnica se le ha hecho decir lo que el investigador quería escuchar. 2.1. Ejemplo de aplicación de métodos estadísticos al estudio de la proporción de pasivas en inglés Quienes a veces tenemos que escribir en inglés sin ser hablantes nativos y sin tener mucha confianza en nuestro dominio de la lengua tenemos tendencia a preocuparnos, particularmente en la redacción de texto científico o argumentativo, por no abusar de las pasivas. Muchas veces se nos ha dicho que en inglés no hay que escribir con más de 15% de oraciones en pasiva porque entonces el texto deja de sonar natural. La pregunta por la proporción de pasivas en inglés es un tema que atrae a los lingüistas. En lo que sigue vamos a relatar un experimento que hicieron Baroni y Evert (2008) para ilustrar la explicación de técnicas estadísticas. Su pregunta de investigación es si es cierto que el inglés escrito sólo tiene un 15% de oraciones en 3 I Escuela Internacional de Verano de Lingüística de Corpus Creación y uso de corpus para aplicaciones lingüísticas UNIVERSITAT POMEPU FABRA Barcelona, 01-04 Septiembre 2010 pasiva, y para responder la pregunta hicieron un análisis del Brown corpus2, que está compuesto por texto escrito por profesionales. En principio, la forma de operativizar el problema parece sencilla: tomamos una muestra aleatoria de 100 oraciones y comprobamos cuántas están escritas en pasiva. En términos estadísticos, esta muestra tendría que ser representativa de la población, que en este caso es el conjunto de todas las oraciones en inglés (reales y potenciales) gramaticalmente correctas. La hipótesis nula en este caso sería que en inglés sólo 15% de las oraciones están en pasiva. Si efectivamente comprobamos que son más o menos 15 las oraciones en pasiva, entonces la hipótesis nula no se puede descartar. El resultado fue, sin embargo, que 19 oraciones estaban en pasiva. Ante tal proporción, con una frecuencia esperada de 15 y una frecuencia observada de 19, la pregunta es si cabe rechazar la hipótesis nula y afirmar, en cambio, que la verdadera proporción de oraciones en inglés se acerca más bien al 20%. La cuestión es que tal afirmación entraña un riesgo de que volvamos a hacer el experimento y esta vez obtengamos una proporción diferente, porque siempre hay una variación que se debe atribuir al azar. Es imposible que obtangamos siempre la cantidad exacta de 15 oraciones en cada muestra de 100 si asumimos que la hipótesis nula es cierta. Tenemos que considerar que toda muestra entraña un error aleatorio, y aquí el término error tiene un sentido técnico. No se trata de un error en la aplicación de la metodología, sino a la variación aleatoria en la proporción de oraciones en pasiva que obtenemos cada vez que repetimos el experimento, lo que nos lleva a considerar a esta proporción como una variable aleatoria. Esto quiere decir que si la hipótesis nula fuese cierta y si cien lingüistas tomaran cada uno una muestra aleatoria de 100 oraciones del Brown corpus obtendrían distintas cantidades de pasivas. La mayoría habría obtenido 15, un subgrupo menor habrá encontrado 14 y otro subgrupo de tamaño similar habrá encontrado 16, y así cada vez menos lingüistas habrán obtenido proporciones de pasivas menores o mayores a la media. Si representáramos la cantidad de lingüistas obteniendo distintas proporciones de pasivas en un histograma, cabría esperar (más o menos) una distribución en forma de campana tal como se muestra en la Figura 1. 2 El Brown Corpus fue compuesto en 1964 por Henry Kucera y Nelson Francis, de la Brown University, como una muestra de inglés escrito profesional. Para más detalles consultar el Manual en la siguiente URL: http://khnt.aksis.uib.no/icame/manuals/brown/ 4 I Escuela Internacional de Verano de Lingüística de Corpus Creación y uso de corpus para aplicaciones lingüísticas UNIVERSITAT POMEPU FABRA Barcelona, 01-04 Septiembre 2010 Figura 1: Proporción de pasivas en inglés como una variable aleatoria (tomado de Baroni y Evert, 2008). En la distribución mostrada en la Figura 1, vemos que la media de 15 coincide con la moda, que es el valor más frecuente, y este mismo valor coincide también con la mediana, que es el valor que divide los casos en dos: la mitad tiene menos de 15 y la otra mitad tiene más. Desde esta perspectiva, la proporción de 19 pasivas no parece tan alejada de la media de 15. Si sumamos los porcentajes de los que han obtenido 19 con los de 20, 21 ... hasta el valor máximo, obtendríamos algo más del 16%. Es decir, 16 de los 100 lingüistas obtendrían en su experimento 19 o más pasivas incluso cuando la media es realmente de 15% de pasivas. A esto es lo que llamaremos el p-valor, a la probabilidad de obtener este resultado asumiendo que la hipótesis nula es cierta. En distintos ámbitos científicos existen por convención distintos niveles de significación para este p-valor, por debajo del cual se supone que un determinado resultado es estadísticamente significativo, generalmente de 0,05 ó 0,01 en la escala de probabilidad, que va de 0 a 1. Si hubiésemos obtenido 30 o más, la probabilidad de la hipótesis nula es cada vez menor, tendiendo hacia lo imposible: no se puede estar absolutamente seguros de que es imposible obtener 30 pasivas en una muestra de 100 si se supone que hay 15 de media, sin embargo, sí podemos estar seguros de que esto es altamente improbable, una probabilidad inferior a 0,05, por lo tanto un resultado estadísticamente significativo. En esencia, de esto se trata la validación de hipótesis. Se trata en principio de formular una hipótesis nula que es contraria a nuestra hipótesis de investigación y entonces intentar demostrar que la 5 I Escuela Internacional de Verano de Lingüística de Corpus Creación y uso de corpus para aplicaciones lingüísticas UNIVERSITAT POMEPU FABRA Barcelona, 01-04 Septiembre 2010 hipótesis nula es improbable. En el ejemplo recién descrito, la hipótesis de investigación implícitamente era que la proporción es mayor. Sin embargo, el resultado obtenido con este tamaño de muestra no nos permite demostrar que la hipótesis nula no es cierta. Si, en cambio, hubiésemos hecho el experimento con una muestra mayor, de mil oraciones, por ejemplo, y hubiésemos obtenido como resultado 190 pasivas, entonces nuestras conclusiones habrían sido distintas. Esto es porque el tamaño de la muestra determina la forma de la campana que vimos en la Figura 1. A medida que el tamaño de muestra crece, cabe esperar que la campana tenga una forma más angosta. Este tipo de curvas es encontrado -sorprendentemente- en la medición de una gran diversidad de fenómenos de la naturaleza y su forma se encuentra bien estudiada. La ecuación 1, llamada distribución binomial, es un modelo que nos permite estimar de forma aproximada la curva que dibuja esta campana, gracias al cual podemos predecir qué forma tendrá a distintos tamaños de muestra o, lo que es lo mismo, cuál es la probabilidad de obtener un determinado resultado en un determinado tamaño de muestra asumiendo que la hipótesis nula es correcta. (1) La variable n representa el tamaño de muestra, k el valor obtenido y el valor esperado, que coincide con la punta de la campana. El coeficiente binomial, expresado con el símbolo y pronunciado “combinaciones de n en k”, se puede definir como la cantidad de subconjuntos de k elementos que se puede obtener a partir de un conjunto de n elementos. Para poder calcularlo, utilizaríamos la ecuación 2. (2) El símbolo n! representa el factorial de n, definido en la ecuación 3 como el producto de todos los números que hay desde 1 hasta n. Es decir, que si n = 3, entonces n! = 6, ya que 1 x 2 x 3 = 6. (3) Si reemplazamos las variables de la fórmula 1 por los valores que tenemos en nuestro experimento, n = 1000, k = 190 y = 150, obtenemos que la probabilidad de haber obtenido este resultado por casualidad es muy inferior al umbral de 0.01 y por lo tanto estadísticamente significativo. Prácticamente todos los paquetes estadísticos incoporan la función para calcular este test-binomial, por lo tanto no es necesario calcularlo manualmente. Aún así, si conocemos estos pasos siempre podremos hacerlo manualmente o con la ayuda de una calculadora. 6 I Escuela Internacional de Verano de Lingüística de Corpus Creación y uso de corpus para aplicaciones lingüísticas UNIVERSITAT POMEPU FABRA Barcelona, 01-04 Septiembre 2010 2.2. Bibliografía recomendada para el primer módulo Altmann, Gabriel (1997). «The Art of Quantitative Linguistics». Journal of Quantitative Linguistics, 4:1, 13—22 [en línea]. http://dx.doi.org/10.1080/09296179708590074 [Consulta: agosto 2010]. Amaral, Luis y Guimera, Roger (2006). «Lies, damned lies and statistics». Nature Physics 2 [en línea]. 75—76. http://viseu.chemeng.northwestern.edu/site_media/publication_pdfs/Amaral-2006Nat.Phys.-2-75.pdf [Consulta: agosto 2010]. Baayen, Harald (2001). Word Frequency Distributions. Londres: Kluwer Ac. Pub. Baroni, Marco y Evert, Stefan (2010). «Statistical Analysis of Corpus Data with R: A Gentle Introduction for Computational Linguists and Similar Creatures» [en línea]. http://cogsci.uniosnabrueck.de/~severt/SIGIL/sigil_R/ [Consulta: agosto 2010]. Baroni, Marco y Evert, Stefan (2008). «Statistical methods for corpus exploitation». En A. Lüdeling and M. Kytö (eds.). Corpus Linguistics. An International Handbook, article 36 [en línea]. Berlin: Mouton de Gruyter. http://purl.org/stefan.evert/PUB/BaroniEvertHSK38_manuscript.pdf [Consulta: agosto 2010]. Johnson, Keith (2008). Quantitative Methods in Linguistics. Oxford: Blackwell Pub. Herdan, Gustav (1964) Quantitative Linguistics. Londres, Butterworths. Oaekes, Michael (1998). Statistics for Corpus Linguistics. Edimburgo: Edinburgh University Press. 3. Segundo Módulo: Estadística en el análisis de corpus orales Objetivo del módulo Después de haber introducido algunas nociones elementales en el análisis de un corpus textual, el objetivo de este segundo módulo es ahora introducir al estudiante en la constitución y explotación de datos procedentes de corpus oral y, más concretamente, en el ‘método sociolingüístico’ planteado por William Labov (el variacionismo). Se trata de un ‘método hipotético-deductivo’, es decir, que parte de consideraciones provisionales que luego tendrán que ser validadas o invalidadas. Estas suposiciones previas no son 7 I Escuela Internacional de Verano de Lingüística de Corpus Creación y uso de corpus para aplicaciones lingüísticas UNIVERSITAT POMEPU FABRA Barcelona, 01-04 Septiembre 2010 más que las hipótesis de estudio, que podrán ser muy generales y/o muy concretas. A pesar de utilizar mayoritariamente ejemplos del análisis de lengua oral, la explicación de los métodos se desarrollará a partir de conceptos generales que puedan ser útiles en la explotación de cualquier corpus. Metodología del módulo Planteamos esta parte de la sesión en torno a varios puntos que intentaremos responder aclarando algunas nociones teóricas que se aplicarán a un ejemplo concreto: 1) 2) 3) 4) De qué hablamos cuando decimos ‘lengua oral’ Definición del objeto de estudio Formulación de hipótesis Constitución del corpus a. técnica de recogida de datos b. muestreo 5) Validación o refutación de las hipótesis: estadístico análisis 3.1. De qué hablamos cuando decimos ‘lengua oral’ En esta sesión nos centramos en el registro o estilo de la lengua oral natural, casual y espontánea, también llamada ‘vernacular’. El habla vernacular, tal y como se emplea en la sociolingüística de la variación, se refiere a la variedad o estilo más espontáneo del repertorio verbal de un hablante nativo y no debe confundirse con el uso que a veces se le puede dar como opuesto a una variedad estándar y, por lo tanto, con poco prestigio social. Se supone que, en condiciones naturales, el hablante no presta atención a su discurso (o tiene un grado mínimo de atención), por lo tanto no se producen autocorreciones ni se piensa en si lo que se dice es correcto o incorrecto. 3.2. Definición del objeto de estudio En una investigación sobre el habla vernacular la definición del objeto de estudio se basa en la previa observación del comportamiento 8 I Escuela Internacional de Verano de Lingüística de Corpus Creación y uso de corpus para aplicaciones lingüísticas UNIVERSITAT POMEPU FABRA Barcelona, 01-04 Septiembre 2010 lingüístico de los individuos de la comunidad que vayamos a estudiar, es decir, que se requiere de un trabajo exploratorio y cualitativo. El investigador, especialmente si no forma parte de la comunidad estudiada, debería participar activamente en conversaciones diádicas o grupales y examinar cómo habla un individuo en diferentes situaciones. El objeto de estudio constituye lo que en estadística se llama variable dependiente y que en este tipo de investigación será siempre un rasgo lingüístico variable. Las variantes serán las diferentes realizaciones de la variable. Ejemplo 1: el estudio del ceceo en un pueblo de la província de Cádiz, es decir, la pronunciación de la «s» de manera semejante a «c» delante de «e», «i» y de la «z», como fricativa alveolar sorda [ ]. Variantes: realización de la fricativa como sorda o como sonora. Ejemplo 2: las diferentes realizaciones de la /-s/ postnuclear en la Isla de El Hierro (Gran Canaria). Variantes: [s], relajación [h] y supresión o cero fonético [0]. Ejemplo 3: la expresión del Imperfecto de Subjuntivo en el barrio de Benimaclet (Valencia). Variantes: -ra, -se (fuera, fuese). 3.3. Formulación de hipótesis La observación de la comunidad de habla nos llevará a formular una hipótesis inicial bastante general que luego podremos ir especificando. Las hipótesis son muy importantes en tanto que nos ayudan a definir las variables independientes, es decir, los factores que explican la variación. Estos factores pueden ser tanto lingüísticos, los contextos de ocurrencia, como extralingüísticos (sociales y estilísticos). Ejemplo 2: tras unas semanas de observación llegamos a intuir que las diferentes realizaciones de la /-s/ en El Hierro dependen principalmente de dos factores sociales: el nivel sociocultural de la persona y su edad, pero consideramos tentativamente un tercer factor que sería su sexo. Sin embargo, podríamos considerar también otros factores: - el contexto fónico; en posición interna ‘cesta’ o en posición final (ya sea prevocálico tónico ‘además’, prevocálico átono ‘casas’ o delante de pausa, - el carácter gramatical de la palabra: marca de plural, (1ª, única o redundante), marca verbal de 2ª persona del singular o carácter monomorfémico (no gramatical). 3.4. Constitución del corpus 9 I Escuela Internacional de Verano de Lingüística de Corpus Creación y uso de corpus para aplicaciones lingüísticas UNIVERSITAT POMEPU FABRA Barcelona, 01-04 Septiembre 2010 Este apartado está dedicado a explicar cómo y de dónde obtenemos los datos necesarios para estudiar el habla vernacular, es decir, el instrumento y la fuente, ya que en la mayoría de los casos el investigador no contará con un corpus oral ya constituido y deberá constituirlo por medio de la observación. El instrumento La técnica de recogida de datos que más se utiliza para obtener este tipo de habla vernacular es la entrevista. Aunque la entrevista cara a cara es la manera más sistemática de conseguir muestras de habla, por definición implica un contexto formal donde el entrevistado, al sentirse observado, presta cierto grado de atención a su discurso y ya no habla de forma espontánea y natural. El reto del entrevistador consistirá en superar lo que se ha denominado la paradoja del observador: el objetivo del investigador es describir el habla de los individuos en situaciones naturales, sin que se sientan observados, pero la única manera de acceder a estos datos es justamente la observación sistemática. Para vencer esta dificultad se han ideado algunas estrategias dentro del marco de la entrevista para desviar la atención del entrevistado y de esa manera facilitar el acceso al habla casual, tales como preguntar por una situación en que el informante se haya encontrado en peligro de muerte o bien sobre cuentos y juegos infantiles, por la carga emocional que suelen comportar estos temas. La fuente Es evidente que, si queremos estudiar el habla, la fuente de los datos serán los hablantes de una determinada comunidad lingüística. Sin embargo, excepto en el caso de comunidades muy reducidas, no vamos a entrevistar a toda la población. Tenemos que elegir a los individuos que entrevistaremos diseñando una muestra. Esta elección se hace en función del fenómeno que queremos explicar, el objeto de estudio, así como las hipótesis iniciales. Ejemplo 2: si el objeto de estudio es la realización de la /s/ implosiva o después de núcleo, que puede realizarse como sibilante, relajarse o simplemente no producirse, y se cree que las personas mayores se comportan de manera diferente a los jóvenes, tendremos que considerar la edad cuando diseñemos la muestra. Idealmente, la muestra tiene que ser representativa y exhaustiva del universo (de la comunidad lingüística o del grupo objeto de estudio) y la representatividad de la muestra depende de la selección de los hablantes. En el primer módulo tomábamos una muestra aleatoria de oraciones de un corpus, lo cual no es problemático porque los extractores de concordancias suelen ofrecer la posibilidad de ordenar 10 I Escuela Internacional de Verano de Lingüística de Corpus Creación y uso de corpus para aplicaciones lingüísticas UNIVERSITAT POMEPU FABRA Barcelona, 01-04 Septiembre 2010 las oraciones extraídas de forma aleatoria. Aquí, sin embargo, vamos a profundizar en la noción de muestreo y en las diferentes técnicas de muestreo que existen, clasificadas según la manera en que seleccionamos los elementos de la muestra, que en el caso del variacionismo serán los hablantes. Las dos clases son el muestreo aleatorio o probabilístico y el muestreo no probabilístico. a) Muestreo al azar, aleatorio o probabilístico Se dice que una muestra es aleatoria cuando la manera de selección es tal que cada elemento de la población tiene igual oportunidad de ser seleccionado. Sólo este método permite obtener una muestra representativa. Hay cuatro tipos de muestreo al azar: simple, sistemático, estratificado y por conglomerados (fija o proporcional). 1. Muestreo al azar simple: cuando asignamos un número a cada individuo o elemento de la población y a través de algún procedimiento mecánico (bolas dentro de una bolsa, números aleatorios asignados por ordenador, etc.) elegimos tantos elementos como sean necesarios para completar el tamaño de muestreo requerido. 2. Muestreo al azar sistemático: cuando elegimos los elementos de una manera ordenada. Ejemplo 4: queremos saber la opinión que tiene la gente de un barrio determinado sobre los servicios de limpieza del ayuntamiento y tenemos un cuestionario con preguntas que queremos hacer cara a cara. Podemos elegir un edificio de cada diez y de cada edificio un piso de cada siete. 3. Muestreo al azar estratificado: cuando estratificamos la población en grupos, estratos o cuotas, por ejemplo, según el sexo, la edad, la clase social, lugar de origen,etc. Ejemplo 2: en el caso de la realización de la /s/ se establecerían diferentes grupos de edad y luego se elegirían al azar individuos de cada grupo. El número de elementos de cada estrato (de hablantes de cada grupo de edad) podrá ser proporcional o no al tamaño del estrato en relación con la población. 4. Muestreo al azar por conglomerados: los tipos de muestreo anteriores están pensados para seleccionar directamente los elementos de la población, es decir, que la unidad muestral son los elementos de la población (los hablantes de un grupo de edad determinado, por ejemplo). En cambio, en el muestreo por conglomerados la unidad muestral es un grupo de elementos de la población que forman una unidad llamada conglomerado. Ejemplos: los departamentos universitarios, una zona geográfica, un colegio, etc. Primero seleccionamos aleatoriamente un cierto número de conglomerados (el necesario para alcanzar el tamaño muestral establecido), luego seleccionamos una parte de los grupos al azar o de manera 11 I Escuela Internacional de Verano de Lingüística de Corpus Creación y uso de corpus para aplicaciones lingüísticas UNIVERSITAT POMEPU FABRA Barcelona, 01-04 Septiembre 2010 sistemática y, finalmente, tomamos todos los elementos o parte de ellos de los grupos seleccionados para obtener una muestra. Ejemplo 5: realizamos una investigación para conocer el grado de satisfacción laboral de los maestros. Nuestro presupuesto nos permite tomar una muestra de 700 sujetos. Sabiendo que el número de maestros por colegio es aproximadamente de 35, los pasos a seguir serían los siguientes: i) Listar todos los colegios. ii) Asignar un número a cada colegio. iii) Elegir por muestreo aleatorio simple o sistemático 20 colegios (700/35 = 20) que nos proporcionarán los 700 maestros que necesitamos. b) Muestreo no probabilístico El muestreo probabilístico suele ser costoso en recursos humanos y económicos especialmente si se trata de un solo inverstigador, por eso a veces es necesario recurrir a métodos no probabilísticos. En general se seleccionan los sujetos siguiendo determinados criterios para intentar que la muestra sea representativa. Existen diferentes tipos de muestreo intencionado pero nos fijaremos únicamente en el muestreo por cuotas por ser el más utilizado tanto en las encuestas de opinión como en las investigaciones sociolingüísticas cuyo objetivo es el habla vernacular. En este tipo de muestreo se fijan unas cuotas que consisten en un número de individuos que reúnen una serie de características. Ejemplo 6: 30 individuos entre 18 y 40 años de sexo masculino residentes en la província de Barcelona. Ejemplo 7: en una comunidad lingüística, donde creemos que existen diversos procesos de cambio en curso (que varían con el tiempo) y que están estratificados socialmente, según el nivel socioeconómico del hablante, decidimos de antemano una muestra de 32 individuos. Las características que deben cumplir dependen de la edad y el nivel sociocultural con un número equilibrado de hombres y mujeres en cada subgrupo. Si fijamos cuatro grupos de edad (niños, adolescentes, adultos y mayores) y dos niveles socioculturales y distribuímos los hablantes de manera fija y uniforme resulta la siguiente tabla: Nivel sociocultural Edad 4-10 (niños) 14-17 (adolescentes) 30-40 (adultos) 60 y más (mayores) Medio-alto Hombres Mujeres Medio-bajo Hombres Mujeres Ejemplo 2: la realización de la /s/ postnuclear en la Isla del Hierro (Gran Canaria). Se fijaron 56 informantes, agrupados en tres grupos 12 I Escuela Internacional de Verano de Lingüística de Corpus Creación y uso de corpus para aplicaciones lingüísticas UNIVERSITAT POMEPU FABRA Barcelona, 01-04 Septiembre 2010 de edad, tres niveles socioculturales y sexo, pero el número de hablantes que hay en cada celda no es fijo. Nivel sociocultural Hombres 20-34 35-54 55 y más Mujeres 20-34 35-54 55 y más Medio Medio-bajo Bajo 4 3 1 2 4 8 1 2 3 3 1 1 2 2 7 2 4 6 3.5. Refutación o validación de hipótesis: el análisis cuantitativo de los datos Una cita de Moreno Fernández aclara de forma muy simple la diferencia entre análisis cualitativo y análisis cuantitativo. Analizar es básicamente descomponer (etimológicamente ‘desatar’). Un análisis consiste, por tanto, en separar las partes de un todo hasta dar con cada uno de los elementos que lo componen. En general, hay dos formas de realizar un análisis: identificando simplemente las partes de ese todo o identificando esos elementos y averiguando en qué cantidad aparece cada uno de ellos. A la primera posibilidad se la denomina análisis cualitativo; a la segunda, análisis cuantitativo. Moreno Fernández (1990: 90) El análisis cuantitativo implica: a) el análisis del fenómeno en los datos y la codificación de cada caso de ocurrencia según las hipótesis formuladas b) la cuantificación y el estudio estadístico c) la interpretación de los resultados La codificación de los datos En esta fase, cada palabra obtenida con la variable objeto de estudio se clasifica según las hipótesis iniciales, es decir, según las variables independientes consideradas, que serían los factores lingüísticos y/o sociales que explican esas diferentes realizaciones. Cada uno de los factores en los grupos de variables independientes representa una hipótesis sobre el efecto que se presume que este factor tendrá en la frecuencia de la realización de una u otra de las variantes en estudio. Por ejemplo, el factor ‘jóven’ (entre 15-30 años) dentro del grupo de 13 I Escuela Internacional de Verano de Lingüística de Corpus Creación y uso de corpus para aplicaciones lingüísticas UNIVERSITAT POMEPU FABRA Barcelona, 01-04 Septiembre 2010 variable ‘edad’ si previamente hemos postulado que los jóvenes relajan la /s/ implosiva con más frecuencia que los mayores. A cada factor se le asigna una código (una letra o un número) de tal manera que cada ocurrencia se convertirá en una serie de dígitos. Ejemplo de codificación de la palabra ‘cestas’ en la frase ‘Colocó en la habitación todas las cestas’ del hablante ‘mujer’ de 36 años de nivel sociocultural alto en la investigación de la /s/ implosiva en El Hierro: RP2A1 R- categoría gramatical: marca redundante de plural P- contexto fónico: prepausal 2- sexo: mujer A- edad: adulta 1- nivel sociocultural: alto La cuantificación y el estudio estadístico La cuantificación requiere, en general, de la aplicación de programas de computación que realizan una serie de estudios estadísticos indispensables cuando tenemos una gran cantidad de datos y queremos saber si se establecen correlaciones entre la variable dependiente y las variables independientes consideradas, es decir, entre la mayor o menor frecuencia de realización de una variante (el cero fonético, por ejemplo, en el caso de la /s/) y los factores lingüísticos y sociales establecidos. La incorporación de modelos matemáticos es imprescindible para llegar a describir la variación de la lengua. El Paquete Estadístico para las Ciencias Sociales en general que más se utiliza es el SPSS y VARBRUL o GoldVarb para los estudios de variación sociolingüística concretamente. El software R es también una variante de paquete estadístico de código libre que está ganando una gran popularidad entre los lingüistas. En primer lugar, antes de realizar cualquier prueba estadística debemos presentar los datos cuantitativos generales, es decir, la frecuencia de realización de cada variante (frecuencia observada), su distribución según las variables independientes consideradas 3. -[s] -[h] 3 20-34 7,1 88,3 35-54 15,6 80,3 55 y más 21,4 75,7 Los datos presentados corresponden al estudio de Samper Padilla y Pérez Martín (2003) y Pérez Martín (2006). 14 I Escuela Internacional de Verano de Lingüística de Corpus Creación y uso de corpus para aplicaciones lingüísticas UNIVERSITAT POMEPU FABRA Barcelona, 01-04 Septiembre 2010 -[0] 4,6 4 2,9 Tabla 1: Distribución de las variantes de /-s/ en posición final según el factor edad Figura 2. Correlación entre grupos de edad y realizaciones fónicas Como vemos en la Figura 2, los datos indican la existencia de un cambio entre los grupos de edad. La pronunciación de la variante [s] se incrementa en el paso de la 1ª (20-34) generación a la 2ª (35-54) y también de ésta a la 3ª (55 y más). El aumento de la realización plena va acompañado de un descenso de la relajación [h], variante mayoritaria. En segundo lugar, realizamos las pruebas estadísticas que nos permitarán validar o refutar las hipótesis iniciales, es decir, establecer si existe dependencia, si influyen, los factores sociales y lingüísticos considerados en la mayor o menor realización de las variantes lingüísticas. La tabulación cruzada calcula la frecuencia de las variantes de la variable dependiente según cada una de las variables independientes (la frecuencia esperada) y ofrece, entre otras posibilidades, el valor de chi-cuadrada, que permite determinar si la relación entre las dos variables es estadísticamente significativa (la hipótesis es nula si existe una relación). La chi-cuadrada es un estadístico que nos informa qué tan probable es que los resultados observados en la Tabla 1 se hayan dado por casualidad. Es decir, que la edad en realidad no influye en la realización de /-s/ en posición final y que las diferencias que vemos se deben al azar. Como se ve en la 15 I Escuela Internacional de Verano de Lingüística de Corpus Creación y uso de corpus para aplicaciones lingüísticas UNIVERSITAT POMEPU FABRA Barcelona, 01-04 Septiembre 2010 fórmula 4, lo que hace esencialmente es comparar la diferencia entre la frecuencia esperada (E) y la frecuencia observada (O) en cada celda i del total de n celdas en la tabla. La frecuencia esperada según la hipótesis nula es que todas las celdas tienen que tener la misma frecuencia, por lo tanto podemos calcularla como el promedio de los valores que encontramos en las tres celdas de la fila, o sea 14.7, ya que es el promedio de 7,1; 15,6 y 21,4. El cuadrado de la diferencia es una manera de evitar números negativos, para poder sumar todas esas diferencias. (4) Si la hipótesis nula fuese cierta, entonces no debería existir una diferencia significativa entre los valores de la tabla, es decir que los valores que observamos tienen que deberse al error de muestreo y que esperaríamos tener más o menos los mismos valores en todas las celdas. Entonces, lo que hace este estadístico es decir qué tan probable es que el resultado sea debido al azar. Mientras mayor sea la diferencia, menos probable es que se haya debido al azar. En una tabla de tres celdas (por los tres grupos de edad), una diferencia superior a 6 tiene una probabilidad de haberse dado por casualidad de 0,05, es decir que la diferencia es significativa. Ejemplo 8: la vibrante múltiple /R/ en Caguas (Puerto Rico). Presenta dos variantes o realizaciones: alveolar [rr] y velar [R]. Se formuló la hipótesis de que la variación estaba condicionada por factores como la edad de los hablantes, el sexo y el estilo (más o menos formal). Cada uno de estos factores constituye una variable independiente cuyo efecto se mide por medios cuantitativos. En cuanto a los factores lingüísticos, se consideraron: el contexto precedente, inicial absoluta, precedida de consonante (‘enredo’) o precedida de vocal (‘horror’); la posición, inicial de palabra (‘la rosa’) o interior de palabra ‘Enrique’; el acento, vocal tónica (‘Enrique’) o vocal atona (‘horror’) y, finalmente, la clase de palabra, nombre propio u otra. El análisis que presentamos (recogido en Silva-Corvalán, 1989) es el resultado cuantitativo de la tabulación cruzada únicamente según la clase de palabra. Variante alveolar Variante velar Sustantivo propio N Count Percent 205/217 94,5% 12/217 5,5% Otra clase de palabra N Count Percent 1512/1677 90,2% 165/1677 9,8% Tabla 2: Variable (rr) según clase de palabra (p ≤ 0,03) (SPSS) 16 I Escuela Internacional de Verano de Lingüística de Corpus Creación y uso de corpus para aplicaciones lingüísticas UNIVERSITAT POMEPU FABRA Barcelona, 01-04 Septiembre 2010 La Tabla 2 presenta el número de casos y la frecuencia observada de la variable dependiente en porcentaje vertical (el programa presenta además la frecuencia esperada y el porcentaje horizontal y total). Responde a la pregunta: ¿Qué efecto tiene la clase de palabra en la realización alveolar o velar de /rr/? El valor p indica que la frecuencia de ocurrencia de las variantes alveolar y velar según la clase de palabra es estadísticamente significativa y, por lo tanto, la hipótesis nula queda rechazada. La Tabla 3 presenta los resultados del análisis realizado con GoldVarb de la contribución de distintos factores que propician la aspiración [h] de /s/ en posición final. Input: 0.804 Contexto fónico Preconsonántico Prevocálico átono Prevocálico tónico Prepausal Edad 1ª generación 2ª generación 3ª generación Carácter gramatical 1ª marca de plural Marca redundante de plural Marca verbal de 2ª personal del sing Carácter monomorfémico Nivel sociocultural Medio Medio bajo Bajo 0.66 0.53 0.16 0.08 0.66 0.48 0.41 0.39 0.52 0.48 0.69 0.46 0.51 0.50 Tabla 3: Factores que favorecen la variante [h] según diversos factores (GoldVarb) La ventaja que ofrece el programa GoldVarb es que permite comparar, en un sólo análisis, el efecto de todos los grupos de variables independientes sobre la variable dependiente. Los valores que presenta la Tabla 3 representan el peso relativo que tiene cada factor en la realización de la relajación. Estos valores están dentro del intervalo 0-1. Cuanto más alto sea el valor, más influye en la aparición de la variante. En relación a los factores lingüísticos, el carácter monomorfémico de la palabra es el que más contribuye a la relajación de la /s/, seguido del contexto preconsonántico y también, aunque algo menos, del contexto prevocálico átono. En cuanto a los factores sociales, la edad 17 I Escuela Internacional de Verano de Lingüística de Corpus Creación y uso de corpus para aplicaciones lingüísticas UNIVERSITAT POMEPU FABRA Barcelona, 01-04 Septiembre 2010 es el más relevante, siendo los jóvenes los que más probabilidad tienen de relajar /s/ en posición final. 3.6. Bibliografía recomendada para el segundo módulo Labov, William (1972). Sociolinguistic Patterns. Philadelphia: University of Pennsylvania Press. Pradilla, Miquel Àngel (2001). «La sociolingüística de la variació: aproximació metodològica (I)». Noves SL, Revista de Sociolingüística [en línea]. http://www6.gencat.net/llengcat/noves/hm01hivernprimavera/metodologia/pradilla1_7.htm [Consulta: agosto 2010]. Pradilla, Miquel Àngel (2001). «La sociolingüística de la variació: aproximació metodològica (II)». Noves SL, Revista de Sociolingüística [en línea]. http://www6.gencat.net/llengcat/noves/hm01estiu/metodologia/pradilla b1_9.htm [Consulta: agosto 2010]. Silva-Corvalán, Carmen (1989). Sociolingüística. Teoría y práctica. Madrid: Ed. Alhambra. 4. Conclusiones En esta sesión dedicada hemos intentado introducir algunos conceptos básicos en estadística, como son la diferencia entre población y muestra, frecuencia observada y frecuencia esperada e hipótesis de investigación e hipótesis nula. Además, hemos dado las herramientas indispensables que se necesitan para poder enfrentarse al análisis cuantitativo de un corpus, textual u oral. Esperamos, sobre todo, haber contribuido un poco a quitar ese miedo al fantasma de la estadística, mero instrumento que debe ayudarnos en vez de asustarnos. 18