Sesión 3: Explotación de corpus y análisis de datos. Análisis

Anuncio
I Escuela Internacional de Verano de Lingüística de Corpus
Creación y uso de corpus para aplicaciones lingüísticas
UNIVERSITAT POMEPU FABRA
Barcelona, 01-04 Septiembre 2010
Sesión 3: Explotación de corpus y análisis de datos.
Análisis cuantitativo
Raquel Casesnoves y Rogelio Nazar
Grupos uVaL e IulaTerm
Viernes 3, 09:30h
Material Didáctico
1. Introducción
Este documento condensa el material que se impartirá en la sesión de
análisis cuantitativo de esta Escuela de Verano de Lingüística de
Corpus. El propósito de esta sesión -que durará una hora y media- es
ofrecer una introducción a algunos de los conceptos estadísticos más
elementales que pueden ser aplicados al análisis de datos
lingüísticos. Es, por tanto, un documento que no espera más
conocimientos previos que una formación básica en lingüística
teórica. La sesión está enfocada hacia la explicación de conceptos
matemáticos abstractos, y no incluye conocimiento sobre sistemas
informáticos, más allá de algunas referencias a paquetes estadísticos.
La sesión está dividida en dos módulos de 45 minutos. El primero
tratará de manera introductoria nociones elementales sobre métodos
estadísticos para la explotación de corpus textuales. Los ejes de la
propuesta estarán trazados en torno a la forma correcta de plantear y
operacionalizar un problema y una hipótesis científica, incluyendo
métodos empíricos para la contrastación de hipótesis. Los conceptos
a tratar serán los siguientes:
1) población y muestra
2) frecuencia obervada y frecuencia esperada
3) probabilidad y variable aleatoria
4) histograma y distribución binomial
5) hipótesis nula y p-valor
Con el propósito de explicar estos conceptos de la forma más amena
posible, éstos estarán articulados en torno a la narrativa de un
experimento científico en el que se plantea una pregunta sobre la
proporción de frases en pasiva en inglés escrito. De esta manera, los
conceptos se explicarán a través de los pasos seguidos para
responder a esta pregunta.
El segundo módulo no está únicamente enfocado a lo que se conoce
hoy como la lingüística de corpus, en donde lo que se analiza
generalmente es texto escrito por profesionales, sino al análisis
lingüístico en general. Explica, de manera un poco más avanzada, la
1
I Escuela Internacional de Verano de Lingüística de Corpus
Creación y uso de corpus para aplicaciones lingüísticas
UNIVERSITAT POMEPU FABRA
Barcelona, 01-04 Septiembre 2010
utilización de conceptos estadísticos en el análisis de la lengua oral,
la variación lingüística y la sociolingüística.
En este módulo desarrollaremos un poco más algunos de los
conceptos introducidos en el módulo anterior y los relacionaremos
con algunos conceptos nuevos. En concreto, el módulo se trazará en
torno a los siguientes ejes:
1) definición de ‘lengua oral’
2) definición del objeto de estudio
3) formulación de hipótesis
4) constitución del corpus
a. técnicas de recogida de datos
b. muestreo
5) validación o refutación de hipótesis
Cada uno de estos módulos incorpora por separado bibliografía
recomendada para continuar la lectura.
2. Primer Módulo: nociones elementales
Lo primero que hay que decir sobre la estadística es que se trata de
una materia compleja. La curva de aprendizaje es muy empinada al
principio, y el estudiante suele experimentar cierta desazón cuando
comienza su recorrido. A esto se suma la enorme dificultad para
encontrar profesionales que dominen los dos campos de estudio que
constituyen la lingüística cuantitativa: la estadística y la lingüística.
Esto último probablemente sea consecuencia del divorcio existente
entre las dos culturas a las que hizo referencia C. P. Snow 1: la del
conocimiento humanístico y la del científico, dos culturas que se
ignoran o se repelen en una desconfianza mutua, divorcio que aún
persiste en la estructura de las currículas de educación media.
La consecuencia principal de esta división en la educación y en la
cultura es que quien primero pisó el terreno de la lingüística
probablemente haya llegado allí por el camino de las humanidades, y
esto acarrea la desventaja de no tener una formación en
matemáticas. Se trata de una situación de “trabajo interdisciplinario
forzoso”, por eso además del esfuerzo individual resulta vital el
contacto con personas que tengan formación en estadística antes de
realizar investigaciones en lingüística cuantitativa. Incluso cuando se
trate de personas que no posean un conocimiento previo sobre
lingüística, puesto que para la estadística la naturaleza de los datos
es indiferente: se puede aplicar el mismo pensamiento estadístico
para estudiar palabras, organismos, dinero, personas o cualquier otra
entidad. Sin embargo, si lo que se quiere es hacer investigación en
1
C. P. Snow (1960). The Two Cultures. Cambridge: University Press.
2
I Escuela Internacional de Verano de Lingüística de Corpus
Creación y uso de corpus para aplicaciones lingüísticas
UNIVERSITAT POMEPU FABRA
Barcelona, 01-04 Septiembre 2010
lingüística, la dependencia es mutua. Quienes van en dirección
contraria, hacia la lingüística desde matemáticas o estadística,
difícilmente puedan plantear correctamente preguntas sin dominar el
campo y sin trabajar en equipo. Como plantea Gabriel Altmann:
No hay garantía de que un buen matemático pueda producir
automáticamente buena lingüística. Un conocimiento especializado en
lingüística es una condición necesaria, de lo contrario se produce un
trabajo
matemáticamente
demandante
pero
lingüísticamente
irrelevante.
Altmann (1997: 13)
Para Altmann, la lingüística cuantitaiva no trata sobre matemáticas
complicadas sino sobre saber concebir y formular hipótesis. En la
próxima sección examineramos un ejemplo concreto de una pregunta
lingüísticamente interesante y un planteamiento estadístico para
responderla. La metodología de análisis expuesta en el ejemplo
puede ser trasladada a una diversidad de problemáticas particulares
y, de la misma manera que el conjunto de técnicas estadísticas,
puede ser útil para obtener una mayor certeza o confianza en el
resultado de nuestras investigaciones. Naturalmente, no se trata de
caer en el error de depositar toda la fe en el “p-valor”, esa certeza
absoluta que parece desprenderse de la frase “el resultado es
estadísticamente significativo”. Como señalan Amaral y Guimera
(2006), con estadísticas es muy fácil equivocarse -incluso científicos
reconocidos lo hacen- y obtener resultados “estadísticamente
significativos” y a la vez falsos, porque no se ha aplicado
correctamente la técnica o porque -consciente o inconscientementea la técnica se le ha hecho decir lo que el investigador quería
escuchar.
2.1. Ejemplo de aplicación de métodos estadísticos al estudio de la proporción
de pasivas en inglés
Quienes a veces tenemos que escribir en inglés sin ser hablantes
nativos y sin tener mucha confianza en nuestro dominio de la lengua
tenemos tendencia a preocuparnos, particularmente en la redacción
de texto científico o argumentativo, por no abusar de las pasivas.
Muchas veces se nos ha dicho que en inglés no hay que escribir con
más de 15% de oraciones en pasiva porque entonces el texto deja de
sonar natural. La pregunta por la proporción de pasivas en inglés es
un tema que atrae a los lingüistas. En lo que sigue vamos a relatar un
experimento que hicieron Baroni y Evert (2008) para ilustrar la
explicación de técnicas estadísticas. Su pregunta de investigación es
si es cierto que el inglés escrito sólo tiene un 15% de oraciones en
3
I Escuela Internacional de Verano de Lingüística de Corpus
Creación y uso de corpus para aplicaciones lingüísticas
UNIVERSITAT POMEPU FABRA
Barcelona, 01-04 Septiembre 2010
pasiva, y para responder la pregunta hicieron un análisis del Brown
corpus2, que está compuesto por texto escrito por profesionales.
En principio, la forma de operativizar el problema parece sencilla:
tomamos una muestra aleatoria de 100 oraciones y comprobamos
cuántas están escritas en pasiva. En términos estadísticos, esta
muestra tendría que ser representativa de la población, que en este
caso es el conjunto de todas las oraciones en inglés (reales y
potenciales) gramaticalmente correctas. La hipótesis nula en este
caso sería que en inglés sólo 15% de las oraciones están en pasiva. Si
efectivamente comprobamos que son más o menos 15 las oraciones
en pasiva, entonces la hipótesis nula no se puede descartar. El
resultado fue, sin embargo, que 19 oraciones estaban en pasiva. Ante
tal proporción, con una frecuencia esperada de 15 y una
frecuencia observada de 19, la pregunta es si cabe rechazar la
hipótesis nula y afirmar, en cambio, que la verdadera proporción de
oraciones en inglés se acerca más bien al 20%. La cuestión es que tal
afirmación entraña un riesgo de que volvamos a hacer el experimento
y esta vez obtengamos una proporción diferente, porque siempre hay
una variación que se debe atribuir al azar. Es imposible que
obtangamos siempre la cantidad exacta de 15 oraciones en cada
muestra de 100 si asumimos que la hipótesis nula es cierta.
Tenemos que considerar que toda muestra entraña un error aleatorio,
y aquí el término error tiene un sentido técnico. No se trata de un
error en la aplicación de la metodología, sino a la variación aleatoria
en la proporción de oraciones en pasiva que obtenemos cada vez que
repetimos el experimento, lo que nos lleva a considerar a esta
proporción como una variable aleatoria. Esto quiere decir que si la
hipótesis nula fuese cierta y si cien lingüistas tomaran cada uno una
muestra aleatoria de 100 oraciones del Brown corpus obtendrían
distintas cantidades de pasivas. La mayoría habría obtenido 15, un
subgrupo menor habrá encontrado 14 y otro subgrupo de tamaño
similar habrá encontrado 16, y así cada vez menos lingüistas habrán
obtenido proporciones de pasivas menores o mayores a la media. Si
representáramos la cantidad de lingüistas obteniendo distintas
proporciones de pasivas en un histograma, cabría esperar (más o
menos) una distribución en forma de campana tal como se muestra
en la Figura 1.
2
El Brown Corpus fue compuesto en 1964 por Henry Kucera y Nelson Francis, de
la Brown University, como una muestra de inglés escrito profesional. Para más
detalles
consultar
el
Manual
en
la
siguiente
URL:
http://khnt.aksis.uib.no/icame/manuals/brown/
4
I Escuela Internacional de Verano de Lingüística de Corpus
Creación y uso de corpus para aplicaciones lingüísticas
UNIVERSITAT POMEPU FABRA
Barcelona, 01-04 Septiembre 2010
Figura 1: Proporción de pasivas en inglés como una variable aleatoria
(tomado de Baroni y Evert, 2008).
En la distribución mostrada en la Figura 1, vemos que la media de 15
coincide con la moda, que es el valor más frecuente, y este mismo
valor coincide también con la mediana, que es el valor que divide los
casos en dos: la mitad tiene menos de 15 y la otra mitad tiene más.
Desde esta perspectiva, la proporción de 19 pasivas no parece tan
alejada de la media de 15. Si sumamos los porcentajes de los que han
obtenido 19 con los de 20, 21 ... hasta el valor máximo, obtendríamos
algo más del 16%. Es decir, 16 de los 100 lingüistas obtendrían en su
experimento 19 o más pasivas incluso cuando la media es realmente
de 15% de pasivas. A esto es lo que llamaremos el p-valor, a la
probabilidad de obtener este resultado asumiendo que la hipótesis
nula es cierta. En distintos ámbitos científicos existen por convención
distintos niveles de significación para este p-valor, por debajo del cual
se supone que un determinado resultado es estadísticamente
significativo, generalmente de 0,05 ó 0,01 en la escala de
probabilidad, que va de 0 a 1.
Si hubiésemos obtenido 30 o más, la probabilidad de la hipótesis nula
es cada vez menor, tendiendo hacia lo imposible: no se puede estar
absolutamente seguros de que es imposible obtener 30 pasivas en
una muestra de 100 si se supone que hay 15 de media, sin embargo,
sí podemos estar seguros de que esto es altamente improbable, una
probabilidad inferior a 0,05, por lo tanto un resultado
estadísticamente significativo.
En esencia, de esto se trata la validación de hipótesis. Se trata en
principio de formular una hipótesis nula que es contraria a nuestra
hipótesis de investigación y entonces intentar demostrar que la
5
I Escuela Internacional de Verano de Lingüística de Corpus
Creación y uso de corpus para aplicaciones lingüísticas
UNIVERSITAT POMEPU FABRA
Barcelona, 01-04 Septiembre 2010
hipótesis nula es improbable. En el ejemplo recién descrito, la
hipótesis de investigación implícitamente era que la proporción es
mayor. Sin embargo, el resultado obtenido con este tamaño de
muestra no nos permite demostrar que la hipótesis nula no es cierta.
Si, en cambio, hubiésemos hecho el experimento con una muestra
mayor, de mil oraciones, por ejemplo, y hubiésemos obtenido como
resultado 190 pasivas, entonces nuestras conclusiones habrían sido
distintas. Esto es porque el tamaño de la muestra determina la forma
de la campana que vimos en la Figura 1. A medida que el tamaño de
muestra crece, cabe esperar que la campana tenga una forma más
angosta. Este tipo de curvas es encontrado -sorprendentemente- en
la medición de una gran diversidad de fenómenos de la naturaleza y
su forma se encuentra bien estudiada. La ecuación 1, llamada
distribución binomial, es un modelo que nos permite estimar de
forma aproximada la curva que dibuja esta campana, gracias al cual
podemos predecir qué forma tendrá a distintos tamaños de muestra
o, lo que es lo mismo, cuál es la probabilidad de obtener un
determinado resultado en un determinado tamaño de muestra
asumiendo que la hipótesis nula es correcta.
(1)
La variable n representa el tamaño de muestra, k el valor obtenido y
el valor esperado, que coincide con la punta de la campana. El
coeficiente binomial, expresado con el símbolo
y pronunciado
“combinaciones de n en k”, se puede definir como la cantidad de
subconjuntos de k elementos que se puede obtener a partir de un
conjunto de n elementos. Para poder calcularlo, utilizaríamos la
ecuación 2.
(2)
El símbolo n! representa el factorial de n, definido en la ecuación 3
como el producto de todos los números que hay desde 1 hasta n. Es
decir, que si n = 3, entonces n! = 6, ya que 1 x 2 x 3 = 6.
(3)
Si reemplazamos las variables de la fórmula 1 por los valores que
tenemos en nuestro experimento, n = 1000, k = 190 y
= 150,
obtenemos que la probabilidad de haber obtenido este resultado por
casualidad es muy inferior al umbral de 0.01 y por lo tanto
estadísticamente significativo. Prácticamente todos los paquetes
estadísticos incoporan la función para calcular este test-binomial, por
lo tanto no es necesario calcularlo manualmente. Aún así, si
conocemos estos pasos siempre podremos hacerlo manualmente o
con la ayuda de una calculadora.
6
I Escuela Internacional de Verano de Lingüística de Corpus
Creación y uso de corpus para aplicaciones lingüísticas
UNIVERSITAT POMEPU FABRA
Barcelona, 01-04 Septiembre 2010
2.2. Bibliografía recomendada para el primer módulo
Altmann, Gabriel (1997). «The Art of Quantitative Linguistics». Journal of
Quantitative
Linguistics,
4:1,
13—22
[en
línea].
http://dx.doi.org/10.1080/09296179708590074
[Consulta:
agosto
2010].
Amaral, Luis y Guimera, Roger (2006). «Lies, damned lies and statistics».
Nature Physics 2 [en línea]. 75—76.
http://viseu.chemeng.northwestern.edu/site_media/publication_pdfs/Amaral-2006Nat.Phys.-2-75.pdf [Consulta: agosto 2010].
Baayen, Harald (2001). Word Frequency Distributions. Londres: Kluwer Ac.
Pub.
Baroni, Marco y Evert, Stefan (2010). «Statistical Analysis of Corpus Data
with R: A Gentle Introduction for Computational Linguists and Similar
Creatures»
[en
línea].
http://cogsci.uniosnabrueck.de/~severt/SIGIL/sigil_R/ [Consulta: agosto 2010].
Baroni, Marco y Evert, Stefan (2008). «Statistical methods for corpus
exploitation». En A. Lüdeling and M. Kytö (eds.). Corpus Linguistics. An
International Handbook, article 36 [en línea]. Berlin: Mouton de
Gruyter.
http://purl.org/stefan.evert/PUB/BaroniEvertHSK38_manuscript.pdf
[Consulta: agosto 2010].
Johnson, Keith (2008). Quantitative Methods in Linguistics. Oxford: Blackwell
Pub.
Herdan, Gustav (1964) Quantitative Linguistics. Londres, Butterworths.
Oaekes, Michael (1998). Statistics for Corpus Linguistics. Edimburgo:
Edinburgh University Press.
3. Segundo Módulo: Estadística en el análisis de corpus orales
Objetivo del módulo
Después de haber introducido algunas nociones elementales en el
análisis de un corpus textual, el objetivo de este segundo módulo es
ahora introducir al estudiante en la constitución y explotación de
datos procedentes de corpus oral y, más concretamente, en el
‘método sociolingüístico’ planteado por William Labov (el
variacionismo). Se trata de un ‘método hipotético-deductivo’, es
decir, que parte de consideraciones provisionales que luego tendrán
que ser validadas o invalidadas. Estas suposiciones previas no son
7
I Escuela Internacional de Verano de Lingüística de Corpus
Creación y uso de corpus para aplicaciones lingüísticas
UNIVERSITAT POMEPU FABRA
Barcelona, 01-04 Septiembre 2010
más que las hipótesis de estudio, que podrán ser muy generales y/o
muy concretas.
A pesar de utilizar mayoritariamente ejemplos del análisis de lengua
oral, la explicación de los métodos se desarrollará a partir de
conceptos generales que puedan ser útiles en la explotación de
cualquier corpus.
Metodología del módulo
Planteamos esta parte de la sesión en torno a varios puntos que
intentaremos responder aclarando algunas nociones teóricas que se
aplicarán a un ejemplo concreto:
1)
2)
3)
4)
De qué hablamos cuando decimos ‘lengua oral’
Definición del objeto de estudio
Formulación de hipótesis
Constitución del corpus
a. técnica de recogida de datos
b. muestreo
5) Validación o refutación de las hipótesis:
estadístico
análisis
3.1. De qué hablamos cuando decimos ‘lengua oral’
En esta sesión nos centramos en el registro o estilo de la lengua oral
natural, casual y espontánea, también llamada ‘vernacular’.
El habla vernacular, tal y como se emplea en la sociolingüística de la
variación, se refiere a la variedad o estilo más espontáneo del
repertorio verbal de un hablante nativo y no debe confundirse con el
uso que a veces se le puede dar como opuesto a una variedad
estándar y, por lo tanto, con poco prestigio social.
Se supone que, en condiciones naturales, el hablante no presta
atención a su discurso (o tiene un grado mínimo de atención), por lo
tanto no se producen autocorreciones ni se piensa en si lo que se dice
es correcto o incorrecto.
3.2. Definición del objeto de estudio
En una investigación sobre el habla vernacular la definición del objeto
de estudio se basa en la previa observación del comportamiento
8
I Escuela Internacional de Verano de Lingüística de Corpus
Creación y uso de corpus para aplicaciones lingüísticas
UNIVERSITAT POMEPU FABRA
Barcelona, 01-04 Septiembre 2010
lingüístico de los individuos de la comunidad que vayamos a estudiar,
es decir, que se requiere de un trabajo exploratorio y cualitativo. El
investigador, especialmente si no forma parte de la comunidad
estudiada, debería participar activamente en conversaciones diádicas
o grupales y examinar cómo habla un individuo en diferentes
situaciones. El objeto de estudio constituye lo que en estadística se
llama variable dependiente y que en este tipo de investigación
será siempre un rasgo lingüístico variable. Las variantes serán las
diferentes realizaciones de la variable.
Ejemplo 1: el estudio del ceceo en un pueblo de la província de Cádiz,
es decir, la pronunciación de la «s» de manera semejante a «c»
delante de «e», «i» y de la «z», como fricativa alveolar sorda [ 
].
Variantes: realización de la fricativa como sorda o como sonora.
Ejemplo 2: las diferentes realizaciones de la /-s/ postnuclear en la Isla
de El Hierro (Gran Canaria). Variantes: [s], relajación [h] y supresión o
cero fonético [0].
Ejemplo 3: la expresión del Imperfecto de Subjuntivo en el barrio de
Benimaclet (Valencia). Variantes: -ra, -se (fuera, fuese).
3.3. Formulación de hipótesis
La observación de la comunidad de habla nos llevará a formular una
hipótesis inicial bastante general que luego podremos ir
especificando. Las hipótesis son muy importantes en tanto que nos
ayudan a definir las variables independientes, es decir, los
factores que explican la variación. Estos factores pueden ser tanto
lingüísticos, los contextos de ocurrencia, como extralingüísticos
(sociales y estilísticos).
Ejemplo 2: tras unas semanas de observación llegamos a intuir que
las diferentes realizaciones de la /-s/ en El Hierro dependen
principalmente de dos factores sociales: el nivel sociocultural de la
persona y su edad, pero consideramos tentativamente un tercer
factor que sería su sexo. Sin embargo, podríamos considerar también
otros factores:
- el contexto fónico; en posición interna ‘cesta’ o en posición final (ya
sea prevocálico tónico ‘además’, prevocálico átono ‘casas’ o delante
de pausa,
- el carácter gramatical de la palabra: marca de plural, (1ª, única o
redundante), marca verbal de 2ª persona del singular o carácter
monomorfémico (no gramatical).
3.4. Constitución del corpus
9
I Escuela Internacional de Verano de Lingüística de Corpus
Creación y uso de corpus para aplicaciones lingüísticas
UNIVERSITAT POMEPU FABRA
Barcelona, 01-04 Septiembre 2010
Este apartado está dedicado a explicar cómo y de dónde obtenemos
los datos necesarios para estudiar el habla vernacular, es decir, el
instrumento y la fuente, ya que en la mayoría de los casos el
investigador no contará con un corpus oral ya constituido y deberá
constituirlo por medio de la observación.
El instrumento
La técnica de recogida de datos que más se utiliza para obtener este
tipo de habla vernacular es la entrevista. Aunque la entrevista cara a
cara es la manera más sistemática de conseguir muestras de habla,
por definición implica un contexto formal donde el entrevistado, al
sentirse observado, presta cierto grado de atención a su discurso y ya
no habla de forma espontánea y natural. El reto del entrevistador
consistirá en superar lo que se ha denominado la paradoja del
observador: el objetivo del investigador es describir el habla de los
individuos en situaciones naturales, sin que se sientan observados,
pero la única manera de acceder a estos datos es justamente la
observación sistemática.
Para vencer esta dificultad se han ideado algunas estrategias dentro
del marco de la entrevista para desviar la atención del entrevistado y
de esa manera facilitar el acceso al habla casual, tales como
preguntar por una situación en que el informante se haya encontrado
en peligro de muerte o bien sobre cuentos y juegos infantiles, por la
carga emocional que suelen comportar estos temas.
La fuente
Es evidente que, si queremos estudiar el habla, la fuente de los datos
serán los hablantes de una determinada comunidad lingüística. Sin
embargo, excepto en el caso de comunidades muy reducidas, no
vamos a entrevistar a toda la población. Tenemos que elegir a los
individuos que entrevistaremos diseñando una muestra. Esta elección
se hace en función del fenómeno que queremos explicar, el objeto de
estudio, así como las hipótesis iniciales.
Ejemplo 2: si el objeto de estudio es la realización de la /s/ implosiva o
después de núcleo, que puede realizarse como sibilante, relajarse o
simplemente no producirse, y se cree que las personas mayores se
comportan de manera diferente a los jóvenes, tendremos que
considerar la edad cuando diseñemos la muestra.
Idealmente, la muestra tiene que ser representativa y exhaustiva del
universo (de la comunidad lingüística o del grupo objeto de estudio) y
la representatividad de la muestra depende de la selección de los
hablantes. En el primer módulo tomábamos una muestra aleatoria de
oraciones de un corpus, lo cual no es problemático porque los
extractores de concordancias suelen ofrecer la posibilidad de ordenar
10
I Escuela Internacional de Verano de Lingüística de Corpus
Creación y uso de corpus para aplicaciones lingüísticas
UNIVERSITAT POMEPU FABRA
Barcelona, 01-04 Septiembre 2010
las oraciones extraídas de forma aleatoria. Aquí, sin embargo, vamos
a profundizar en la noción de muestreo y en las diferentes técnicas
de muestreo que existen, clasificadas según la manera en que
seleccionamos los elementos de la muestra, que en el caso del
variacionismo serán los hablantes. Las dos clases son el muestreo
aleatorio o probabilístico y el muestreo no probabilístico.
a) Muestreo al azar, aleatorio o probabilístico
Se dice que una muestra es aleatoria cuando la manera de selección
es tal que cada elemento de la población tiene igual oportunidad de
ser seleccionado. Sólo este método permite obtener una muestra
representativa. Hay cuatro tipos de muestreo al azar: simple,
sistemático, estratificado y por conglomerados (fija o proporcional).
1. Muestreo al azar simple: cuando asignamos un número a cada
individuo o elemento de la población y a través de algún
procedimiento mecánico (bolas dentro de una bolsa, números
aleatorios asignados por ordenador, etc.) elegimos tantos
elementos como sean necesarios para completar el tamaño de
muestreo requerido.
2. Muestreo al azar sistemático: cuando elegimos los elementos
de
una
manera
ordenada.
Ejemplo 4: queremos saber la opinión que tiene la gente de un
barrio determinado sobre los servicios de limpieza del
ayuntamiento y tenemos un cuestionario con preguntas que
queremos hacer cara a cara. Podemos elegir un edificio de cada
diez y de cada edificio un piso de cada siete.
3. Muestreo al azar estratificado: cuando estratificamos la
población en grupos, estratos o cuotas, por ejemplo, según el
sexo, la edad, la clase social, lugar de origen,etc.
Ejemplo 2: en el caso de la realización de la /s/ se establecerían
diferentes grupos de edad y luego se elegirían al azar
individuos de cada grupo. El número de elementos de cada
estrato (de hablantes de cada grupo de edad) podrá ser
proporcional o no al tamaño del estrato en relación con la
población.
4. Muestreo al azar por conglomerados: los tipos de muestreo
anteriores están pensados para seleccionar directamente los
elementos de la población, es decir, que la unidad muestral son
los elementos de la población (los hablantes de un grupo de
edad determinado, por ejemplo). En cambio, en el muestreo por
conglomerados la unidad muestral es un grupo de elementos
de la población que forman una unidad llamada conglomerado.
Ejemplos: los departamentos universitarios, una zona
geográfica,
un
colegio,
etc.
Primero
seleccionamos
aleatoriamente un cierto número de conglomerados (el
necesario para alcanzar el tamaño muestral establecido), luego
seleccionamos una parte de los grupos al azar o de manera
11
I Escuela Internacional de Verano de Lingüística de Corpus
Creación y uso de corpus para aplicaciones lingüísticas
UNIVERSITAT POMEPU FABRA
Barcelona, 01-04 Septiembre 2010
sistemática y, finalmente, tomamos todos los elementos o parte
de ellos de los grupos seleccionados para obtener una muestra.
Ejemplo 5: realizamos una investigación para conocer el grado
de satisfacción laboral de los maestros. Nuestro presupuesto
nos permite tomar una muestra de 700 sujetos. Sabiendo que el
número de maestros por colegio es aproximadamente de 35,
los pasos a seguir serían los siguientes:
i) Listar todos los colegios.
ii) Asignar un número a cada colegio.
iii) Elegir por muestreo aleatorio simple o sistemático 20
colegios (700/35 = 20) que nos proporcionarán los 700
maestros que necesitamos.
b) Muestreo no probabilístico
El muestreo probabilístico suele ser costoso en recursos humanos y
económicos especialmente si se trata de un solo inverstigador, por
eso a veces es necesario recurrir a métodos no probabilísticos. En
general se seleccionan los sujetos siguiendo determinados criterios
para intentar que la muestra sea representativa. Existen diferentes
tipos de muestreo intencionado pero nos fijaremos únicamente en el
muestreo por cuotas por ser el más utilizado tanto en las encuestas
de opinión como en las investigaciones sociolingüísticas cuyo objetivo
es el habla vernacular. En este tipo de muestreo se fijan unas cuotas
que consisten en un número de individuos que reúnen una serie de
características.
Ejemplo 6: 30 individuos entre 18 y 40 años de sexo masculino
residentes en la província de Barcelona.
Ejemplo 7: en una comunidad lingüística, donde creemos que existen
diversos procesos de cambio en curso (que varían con el tiempo) y
que están estratificados socialmente, según el nivel socioeconómico
del hablante, decidimos de antemano una muestra de 32 individuos.
Las características que deben cumplir dependen de la edad y el nivel
sociocultural con un número equilibrado de hombres y mujeres en
cada subgrupo. Si fijamos cuatro grupos de edad (niños,
adolescentes, adultos y mayores) y dos niveles socioculturales y
distribuímos los hablantes de manera fija y uniforme resulta la
siguiente tabla:
Nivel sociocultural
Edad
4-10 (niños)
14-17 (adolescentes)
30-40 (adultos)
60 y más (mayores)
Medio-alto
Hombres
Mujeres
Medio-bajo
Hombres
Mujeres
Ejemplo 2: la realización de la /s/ postnuclear en la Isla del Hierro
(Gran Canaria). Se fijaron 56 informantes, agrupados en tres grupos
12
I Escuela Internacional de Verano de Lingüística de Corpus
Creación y uso de corpus para aplicaciones lingüísticas
UNIVERSITAT POMEPU FABRA
Barcelona, 01-04 Septiembre 2010
de edad, tres niveles socioculturales y sexo, pero el número de
hablantes que hay en cada celda no es fijo.
Nivel sociocultural
Hombres
20-34
35-54
55 y más
Mujeres
20-34
35-54
55 y más
Medio
Medio-bajo
Bajo
4
3
1
2
4
8
1
2
3
3
1
1
2
2
7
2
4
6
3.5. Refutación o validación de hipótesis: el análisis cuantitativo de los datos
Una cita de Moreno Fernández aclara de forma muy simple la
diferencia entre análisis cualitativo y análisis cuantitativo.
Analizar es básicamente descomponer (etimológicamente ‘desatar’). Un
análisis consiste, por tanto, en separar las partes de un todo hasta dar
con cada uno de los elementos que lo componen. En general, hay dos
formas de realizar un análisis: identificando simplemente las partes de
ese todo o identificando esos elementos y averiguando en qué cantidad
aparece cada uno de ellos. A la primera posibilidad se la denomina
análisis cualitativo; a la segunda, análisis cuantitativo.
Moreno Fernández (1990: 90)
El análisis cuantitativo implica:
a) el análisis del fenómeno en los datos y la codificación de cada
caso de ocurrencia según las hipótesis formuladas
b) la cuantificación y el estudio estadístico
c) la interpretación de los resultados
La codificación de los datos
En esta fase, cada palabra obtenida con la variable objeto de estudio
se clasifica según las hipótesis iniciales, es decir, según las variables
independientes consideradas, que serían los factores lingüísticos y/o
sociales que explican esas diferentes realizaciones. Cada uno de los
factores en los grupos de variables independientes representa una
hipótesis sobre el efecto que se presume que este factor tendrá en la
frecuencia de la realización de una u otra de las variantes en estudio.
Por ejemplo, el factor ‘jóven’ (entre 15-30 años) dentro del grupo de
13
I Escuela Internacional de Verano de Lingüística de Corpus
Creación y uso de corpus para aplicaciones lingüísticas
UNIVERSITAT POMEPU FABRA
Barcelona, 01-04 Septiembre 2010
variable ‘edad’ si previamente hemos postulado que los jóvenes
relajan la /s/ implosiva con más frecuencia que los mayores.
A cada factor se le asigna una código (una letra o un número) de tal
manera que cada ocurrencia se convertirá en una serie de dígitos.
Ejemplo de codificación de la palabra ‘cestas’ en la frase ‘Colocó en
la habitación todas las cestas’ del hablante ‘mujer’ de 36 años de
nivel sociocultural alto en la investigación de la /s/ implosiva en El
Hierro: RP2A1
R- categoría gramatical: marca redundante de plural
P- contexto fónico: prepausal
2- sexo: mujer
A- edad: adulta
1- nivel sociocultural: alto
La cuantificación y el estudio estadístico
La cuantificación requiere, en general, de la aplicación de programas
de computación que realizan una serie de estudios estadísticos
indispensables cuando tenemos una gran cantidad de datos y
queremos saber si se establecen correlaciones entre la variable
dependiente y las variables independientes consideradas, es decir,
entre la mayor o menor frecuencia de realización de una variante (el
cero fonético, por ejemplo, en el caso de la /s/) y los factores
lingüísticos y sociales establecidos. La incorporación de modelos
matemáticos es imprescindible para llegar a describir la variación de
la lengua.
El Paquete Estadístico para las Ciencias Sociales en general que más
se utiliza es el SPSS y VARBRUL o GoldVarb para los estudios de
variación sociolingüística concretamente. El software R es también
una variante de paquete estadístico de código libre que está ganando
una gran popularidad entre los lingüistas.
En primer lugar, antes de realizar cualquier prueba estadística
debemos presentar los datos cuantitativos generales, es decir, la
frecuencia de realización de cada variante (frecuencia observada),
su distribución según las variables independientes consideradas 3.
-[s]
-[h]
3
20-34
7,1
88,3
35-54
15,6
80,3
55 y más
21,4
75,7
Los datos presentados corresponden al estudio de Samper Padilla y Pérez Martín
(2003) y Pérez Martín (2006).
14
I Escuela Internacional de Verano de Lingüística de Corpus
Creación y uso de corpus para aplicaciones lingüísticas
UNIVERSITAT POMEPU FABRA
Barcelona, 01-04 Septiembre 2010
-[0]
4,6
4
2,9
Tabla 1: Distribución de las variantes de /-s/ en posición final según el
factor edad
Figura 2. Correlación entre grupos de edad y realizaciones fónicas
Como vemos en la Figura 2, los datos indican la existencia de un
cambio entre los grupos de edad. La pronunciación de la variante [s]
se incrementa en el paso de la 1ª (20-34) generación a la 2ª (35-54) y
también de ésta a la 3ª (55 y más). El aumento de la realización plena
va acompañado de un descenso de la relajación [h], variante
mayoritaria.
En segundo lugar, realizamos las pruebas estadísticas que nos
permitarán validar o refutar las hipótesis iniciales, es decir, establecer
si existe dependencia, si influyen, los factores sociales y lingüísticos
considerados en la mayor o menor realización de las variantes
lingüísticas. La tabulación cruzada calcula la frecuencia de las
variantes de la variable dependiente según cada una de las variables
independientes (la frecuencia esperada) y ofrece, entre otras
posibilidades, el valor de chi-cuadrada, que permite determinar si la
relación entre las dos variables es estadísticamente significativa (la
hipótesis es nula si existe una relación). La chi-cuadrada es un
estadístico que nos informa qué tan probable es que los resultados
observados en la Tabla 1 se hayan dado por casualidad. Es decir, que
la edad en realidad no influye en la realización de /-s/ en posición final
y que las diferencias que vemos se deben al azar. Como se ve en la
15
I Escuela Internacional de Verano de Lingüística de Corpus
Creación y uso de corpus para aplicaciones lingüísticas
UNIVERSITAT POMEPU FABRA
Barcelona, 01-04 Septiembre 2010
fórmula 4, lo que hace esencialmente es comparar la diferencia entre
la frecuencia esperada (E) y la frecuencia observada (O) en cada
celda i del total de n celdas en la tabla. La frecuencia esperada según
la hipótesis nula es que todas las celdas tienen que tener la misma
frecuencia, por lo tanto podemos calcularla como el promedio de los
valores que encontramos en las tres celdas de la fila, o sea 14.7, ya
que es el promedio de 7,1; 15,6 y 21,4. El cuadrado de la diferencia
es una manera de evitar números negativos, para poder sumar todas
esas diferencias.
(4)
Si la hipótesis nula fuese cierta, entonces no debería existir una
diferencia significativa entre los valores de la tabla, es decir que los
valores que observamos tienen que deberse al error de muestreo y
que esperaríamos tener más o menos los mismos valores en todas las
celdas. Entonces, lo que hace este estadístico es decir qué tan
probable es que el resultado sea debido al azar. Mientras mayor sea
la diferencia, menos probable es que se haya debido al azar. En una
tabla de tres celdas (por los tres grupos de edad), una diferencia
superior a 6 tiene una probabilidad de haberse dado por casualidad
de 0,05, es decir que la diferencia es significativa.
Ejemplo 8: la vibrante múltiple /R/ en Caguas (Puerto Rico).
Presenta dos variantes o realizaciones: alveolar [rr] y velar [R]. Se
formuló la hipótesis de que la variación estaba condicionada por
factores como la edad de los hablantes, el sexo y el estilo (más o
menos formal). Cada uno de estos factores constituye una variable
independiente cuyo efecto se mide por medios cuantitativos.
En cuanto a los factores lingüísticos, se consideraron: el contexto
precedente, inicial absoluta, precedida de consonante (‘enredo’) o
precedida de vocal (‘horror’); la posición, inicial de palabra (‘la rosa’)
o interior de palabra ‘Enrique’; el acento, vocal tónica (‘Enrique’) o
vocal atona (‘horror’) y, finalmente, la clase de palabra, nombre
propio u otra.
El análisis que presentamos (recogido en Silva-Corvalán, 1989) es el
resultado cuantitativo de la tabulación cruzada únicamente según la
clase de palabra.
Variante alveolar
Variante velar
Sustantivo propio
N Count
Percent
205/217
94,5%
12/217
5,5%
Otra clase de palabra
N Count
Percent
1512/1677
90,2%
165/1677
9,8%
Tabla 2: Variable (rr) según clase de palabra (p ≤ 0,03) (SPSS)
16
I Escuela Internacional de Verano de Lingüística de Corpus
Creación y uso de corpus para aplicaciones lingüísticas
UNIVERSITAT POMEPU FABRA
Barcelona, 01-04 Septiembre 2010
La Tabla 2 presenta el número de casos y la frecuencia observada de
la variable dependiente en porcentaje vertical (el programa presenta
además la frecuencia esperada y el porcentaje horizontal y total).
Responde a la pregunta: ¿Qué efecto tiene la clase de palabra en la
realización alveolar o velar de /rr/? El valor p indica que la frecuencia
de ocurrencia de las variantes alveolar y velar según la clase de
palabra es estadísticamente significativa y, por lo tanto, la hipótesis
nula queda rechazada.
La Tabla 3 presenta los resultados del análisis realizado con GoldVarb
de la contribución de distintos factores que propician la aspiración [h]
de /s/ en posición final.
Input: 0.804
Contexto fónico
Preconsonántico
Prevocálico átono
Prevocálico tónico
Prepausal
Edad
1ª generación
2ª generación
3ª generación
Carácter gramatical
1ª marca de plural
Marca redundante de plural
Marca verbal de 2ª personal del sing
Carácter monomorfémico
Nivel sociocultural
Medio
Medio bajo
Bajo
0.66
0.53
0.16
0.08
0.66
0.48
0.41
0.39
0.52
0.48
0.69
0.46
0.51
0.50
Tabla 3: Factores que favorecen la variante [h] según diversos factores
(GoldVarb)
La ventaja que ofrece el programa GoldVarb es que permite
comparar, en un sólo análisis, el efecto de todos los grupos de
variables independientes sobre la variable dependiente. Los valores
que presenta la Tabla 3 representan el peso relativo que tiene cada
factor en la realización de la relajación. Estos valores están dentro
del intervalo 0-1. Cuanto más alto sea el valor, más influye en la
aparición de la variante.
En relación a los factores lingüísticos, el carácter monomorfémico de
la palabra es el que más contribuye a la relajación de la /s/, seguido
del contexto preconsonántico y también, aunque algo menos, del
contexto prevocálico átono. En cuanto a los factores sociales, la edad
17
I Escuela Internacional de Verano de Lingüística de Corpus
Creación y uso de corpus para aplicaciones lingüísticas
UNIVERSITAT POMEPU FABRA
Barcelona, 01-04 Septiembre 2010
es el más relevante, siendo los jóvenes los que más probabilidad
tienen de relajar /s/ en posición final.
3.6. Bibliografía recomendada para el segundo módulo
Labov, William (1972). Sociolinguistic Patterns. Philadelphia: University of
Pennsylvania Press.
Pradilla, Miquel Àngel (2001). «La sociolingüística de la variació: aproximació
metodològica (I)». Noves SL, Revista de Sociolingüística [en línea].
http://www6.gencat.net/llengcat/noves/hm01hivernprimavera/metodologia/pradilla1_7.htm [Consulta: agosto 2010].
Pradilla, Miquel Àngel (2001). «La sociolingüística de la variació: aproximació
metodològica (II)». Noves SL, Revista de Sociolingüística [en línea].
http://www6.gencat.net/llengcat/noves/hm01estiu/metodologia/pradilla
b1_9.htm [Consulta: agosto 2010].
Silva-Corvalán, Carmen (1989). Sociolingüística. Teoría y práctica. Madrid:
Ed. Alhambra.
4. Conclusiones
En esta sesión dedicada hemos intentado introducir algunos
conceptos básicos en estadística, como son la diferencia entre
población y muestra, frecuencia observada y frecuencia esperada e
hipótesis de investigación e hipótesis nula. Además, hemos dado las
herramientas indispensables que se necesitan para poder enfrentarse
al análisis cuantitativo de un corpus, textual u oral. Esperamos, sobre
todo, haber contribuido un poco a quitar ese miedo al fantasma de la
estadística, mero instrumento que debe ayudarnos en vez de
asustarnos.
18
Descargar