Unidades Semánticas y Prosódicas para Estructurar un Corpus de

Anuncio
Unidades Semánticas y Prosódicas para Estructurar un Corpus
de Habla Espontánea en Español
Manuel Alcántara Plá
DFKI GmbH
1. Introducción
La búsqueda de una estructura para el lenguaje es uno de los objetivos de la lingüística desde
sus orígenes y su importancia se ha visto reforzada en los últimos tiempos con el interés de la
lingüística computacional en proporcionar una formalización del funcionamiento de las
lenguas. La mayoría de las aproximaciones tradicionales han estado basadas en fundamentos
sintácticos, pero estos análisis han resultado insuficientes para poder interpretar los
contenidos de las emisiones lingüísticas, lo que es el objetivo de muchos de los trabajos y
proyectos actuales, como los que se ocupan de extracción de información o de la traducción
automática.
Esta circunstancia ha provocado un giro hacia la semántica especialmente
acusado en las aproximaciones más empiristas.
Quizá el problema más grave de los análisis sintácticos sea que estén pensados para
un tipo concreto de lenguaje, algo que parecen haber heredado las aproximaciones
semánticas. En los casos más restrictivos, nos encontramos con sistemas diseñados ad hoc
para un objetivo determinado, como por ejemplo las anotaciones semánticas de los sistemas
de pregunta-respuesta (QA). Entre los menos restrictivos, podemos incluir las gramáticas
tradicionales que no explicitan ninguna limitación, pero que están claramente basadas en la
lengua escrita.
Este artículo presenta un propuesta para estructurar el tipo de lenguaje más amplio y
usado a la vez que menos estudiado: la lengua oral. Este objetivo nos ha llevado a tomar tres
decisiones atípicas en este tipo de trabajos. En primer lugar, tomaremos los datos de un
corpus de habla espontánea. La escasez de estudios basados en este tipo de corpus es
escandalosa incluso en disciplinas típicamente orales como son la fonética y la pragmática.
Cuando se basan en lengua oral, suelen hacerlo en lecturas (p.ej. los citados en Botinis 2000),
lo que se podría considerar a medio camino entre la lengua oral y la escrita puesto que los
signos de puntuación siguen reglas gramaticales y no prosódicas, pero hay claras evidencias
de que los hablantes los utilizan en las lecturas para guiar la entonación (así como es
frecuente el uso incorrecto de la puntuación por estar contaminada por la prosodia (Croft,
Turtle y Lewis 1991)).
Nuestra segunda elección atípica es la de optar por un corpus de español. La mayoría
de la bibliografía existente coincide en analizar corpus en inglés, lo que nos ha dado no sólo
una gran cantidad de información sobre esta lengua, sino también una inercia que insiste en
marginar el resto. Esta situación es negativa incluso para el inglés ya que no tenemos base
para realizar estudios comparativos que seguramente enriquecerían nuestras conclusiones
lingüísticas.
La última elección es la de centrar nuestro trabajo en las relaciones existentes entre la
semántica y la prosodia. Ambos aspectos son considerados en este estudio como la base de la
lengua hablada, pero han sido poco estudiados hasta el momento a causa del sintacticentrismo
imperante en la lingüística del siglo pasado. No han faltado los autores que, como Alan
Cruttenden, han advertido que estas relaciones constituyen una de las áreas donde deberían
concentrarse los mayores esfuerzos, pero también que “todavía no está claro qué tipos de
significados habría que tratar” (Cruttenden 1997).
En las próximas páginas, propondremos anotaciones sencillas que permitan estudiar
las estructuras semánticas y prosódicas en el habla espontánea. Se trata en ambos casos de
etiquetados básicos en cuyo diseño se tuvo en cuenta tanto su valor informativo como el coste
de sus análisis. Como mencionábamos, necesitamos anotaciones eficaces, pero también que
no requieran de grandes inversiones de modo que se puedan aplicar a corpus de lenguas
“desfavorecidas” económicamente. Aquí facilitaremos datos de un corpus real de español
para demostrar las relaciones entre ambos niveles y analizar en detalle cuáles son sus
características.
2. El Corpus: UAM C-Oral-Rom
He utilizado para este trabajo 50.000 palabras tomadas del corpus UAM C-Oral-Rom. Este
corpus está formado por grabaciones de habla espontánea en español y cubre una gran
variedad de contextos, dominios, hablantes e incluso canales. Las grabaciones están
clasificadas según se correspondan con habla formal o informal (50% de cada), con habla en
contexto natural, telefónico o en medios de comunicación, y según el número de hablantes. El
subcorpus que hemos utilizado fue elegido con la premisa de que las diferentes clases
estuvieran representadas. Más adelante utilizaremos estas distinciones en nuestro estudio.
Cada grabación aparece en el corpus con la siguiente información: datos externos
(sobre los hablantes, el contexto comunicativo, el tema, la fecha, etc.), la transcripción
ortográfica, la transcripción fonética, el etiquetado prosódico (unidades tonales y
proferencias), el alineamiento de las proferencias con el sonido, y el etiquetado morfológico.
El subcorpus elegido por nosotros incluye también el etiquetado semántico según el formato
SESCO que describiremos más abajo. Tanto las transcripciones como las anotaciones son de
gran calidad puesto que fueron realizadas manualmente por expertos y validadas
posteriormente siguiendo los exigentes estándares del proyecto europeo C-Oral-Rom que
originó este corpus. Contar con estas garantías y, en especial, con el sonido alineado fue
esencial al trabajar con una colección de textos de estas características puesto que garantizó
que lo que se analizaba era fiel a lo que los hablantes habían producido. Todos los datos y
ejemplos de este artículo han sido tomados de este corpus.
3. Las Estructuras y la Oralidad
La gramática por la que se rige la lengua hablada es distinta a la de la escrita. Las diferencias
han sido bien resumidas por Emanuela Cresti (Cresti and Moneglia 2005) para las lenguas
romances (español, francés, italiano y portugués) con datos bastante coincidentes entre ellos.
Para destacar un ejemplo con graves repercusiones, la mayoría de las gramáticas publicadas
parten de la idea de que el verbo es el núcleo de la oración; sin embargo, encontramos que
aproximadamente el 37% de las oraciones de estos corpus orales carecen de verbo.
No todas las particularidades del lenguaje hablado afectan del mismo modo a las
estructuras lingüísticas. González et. al (2004) proponen una útil distinción entre los rasgos
de producción y los rasgos de interacción. Entre los primeros se incluyen las palabras
fragmentadas, los apoyos vocálicos, los reinicios, etc. que son los más relevantes para el
análisis semántico que propondremos en este artículo ya que añaden elementos extraños a la
producción lingüística. Además, es interesante remarcar que algunos de estos fenómenos
pueden indicar por sí mismos límites prosódicos (Croft et al. 1991). Entre los rasgos de
interacción se incluyen el número de turnos, la velocidad, los solapamientos, etc. que afectan
principalmente a la prosodia, pero también –aunque indirectamente- a las estructuras
lingüísticas en casos como las interrupciones que provocan oraciones inacabadas.
El fragmento (1) es un ejemplo de la complejidad que le añaden estos rasgos al
análisis lingüístico. Los rasgos de producción aparecen anotados con “[/]” (reinicios) y
cursivas (palabras pronunciadas de modo distinto al estándar). Dentro de los rasgos de
interacción, cada turno comienza con un hablante numerado y precedido por un asterisco, las
partes solapadas aparecen entre “< >” mientras que “+” indica una interrupción. Las barras
“/” y “//” marcan los límites prosódicos de unidades tonales y proferencias respectivamente
(como se explicará en la sección 5). En relación con los contenidos semánticos, es interesante
señalar que los cuatro hablantes participan en la misma conversación, pero no discuten sobre
los mismos temas: la calidad de los hospitales (tema que viene de los turnos precedentes),
cómo volverá a casa el hablante 2, qué desesperantes son los interlocutores y cuánto trabajo
tiene que hacer aún el hablante 2.
(1)
*HABLANTE 1: pero que sí que [/] que los hospitales / hija mía / tamién dependen de
los sitios // y cómo <los / cuiden> //
*HABLANTE 2: [<] <o qué ? o me bajas tú> ?
*HABLANTE 3: a mí me da lo mismo //
*HABLANTE 4: pero que te esperes un poco / tía petarda //
*HABLANTE 1: <y> +
*HABLANTE 2: <ay!> // qué pesaos sois // y luego tengo que bañar yo a la niña / y to
//
La complejidad señalada hace que sea difícil estructurar lingüísticamente el discurso
espontáneo, especialmente en el nivel pragmático y sintáctico y a partir de las propuestas
tradicionales. Sin embargo, esta estructuración cuenta con dos puntos de referencia claros
como veremos en las siguientes secciones. El primero es el de los significados. Las lenguas
se utilizan fundamentalmente para transmitir eventos y este contenido debe tener una
estructura de modo que pueda expresarse a través de la sintaxis. Si obviamos el significado
sustantivo de una oración, lo que nos queda es su estructura semántica. El segundo es el de la
prosodia puesto que todas las lenguas tienen sus propios patrones entonativos y estos son
utilizados intuitivamente por los hablantes para distinguir unos mensajes de otros (Cresti
2000).
4. Las Estructuras Semánticas
El sistema utilizado para anotar las estructuras semánticas del corpus se denomina SESCO y
se compone de un conjunto de etiquetas basadas en estructuras eventivas de tipo
montagueano (Alcántara 2007). El significado es definido como una relación formal que
permite relacionar la estructura sintáctica y el evento expresado por ésta. Remitimos a la obra
citada para una descripción en detalle de la anotación y su motivación teórica, pero
dedicaremos esta sección a exponer sus aspectos más básicos y controvertidos.
El número ideal de tipos eventivos es una discusión que podríamos casi catalogar de
crónica dentro de la semántica (Dik 1997, Dowty 1977, Chafe 1976). SESCO propone una
clasificación con sólo tres tipos: estados, procesos y acciones, que pueden subdividirse en
seis subclases dependiendo del tipo de argumentos que conlleven. Esta clasificación implica
una clara reducción con respecto a la más popular propuesta por Vendler en el año 1967 y,
por lo tanto, simplifica la tarea del etiquetado. La reducción se debe a que las actividades, los
logros y las realizaciones de Vendler son analizadas composicionalmente como procesos y
acciones. Esta composicionalidad y el uso de referencias que vinculan distintas partes de un
mismo evento o de diferentes dentro de un mismo discurso han demostrado dotarle al sistema
de un importante poder de cara al análisis lingüístico. Esta composicionalidad conlleva la
siguiente jerarquía (que es considerada universal para todas las lenguas (Moreno Cabrera
1997)): estado (entidad + propiedad/localización) > proceso (estado + estado) > acción
(agente + proceso).
Todas las lenguas conocidas tienen predicados y argumentos como núcleo de sus
estructuras semánticas (Jurafsky and Martin 2000). El estudio de los argumentos tiene una
larga tradición especialmente centrada en el concepto de caso. Como ocurría con los tipos
eventivos, prácticamente cada teoría a propuesto un número diferente de casos (Fillmore
1968, Samlowsky 1976), algunos pensados para un dominio concreto (p.ej. Thayse 1991) y
otros para lenguas completas (p.ej. Hjemslev 1935). SESCO cuenta con únicamente cuatro
tipos de argumentos: los agentes (que realizan las acciones), las entidades (que se relacionan
en los estados con propiedades o localizaciones), las propiedades y las localizaciones. Las
entidades de los estados que forman parte de acciones (en realidad, del proceso acometido
por una acción) suelen denominarse en otras teorías pacientes, pero carecen de una etiqueta
propia en SESCO.
Las relaciones indirectas (IR) son esas partes del evento que no son ni predicados ni
argumentos, pero que concretan el contenido de estos (a menudo denominadas adjuntos). De
nuevo, su clasificación es motivo de discusión en la literatura, incluyendo tipologías muy
exaustivas (p.ej. Croft, Turtle y Lewis 1991) y muy reducidas (p.ej. Moreno Cabrera 1997).
SESCO cuenta con una clasificación intermedia con sólo tres grandes clases que pueden ser
subdivididas en otras más específicas. Las clases se distinguen utilizando definiciones
temporales: B-IR son las que ocurren antes del evento, D-IR ocurren a la vez –relativamenteque el evento y A-IR ocurren con posterioridad a este. Estos conceptos termporales son
entendidos con flexibilidad de modo que B-IR incluye, entre otras, condiciones, causas y
origen geográfico. D-IR incluye el caso instrumental, localización y concomitancia. Por
último, A-IR incluye relaciones como las de finalidad y destino.
Otro aspecto controvertido en la semántica actual es el del análisis del tiempo
(Steedman 2003) y probablemente sea TimeML el proyecto más ambicioso sobre este tema
en la lingüística de corpus (Pustejovsky et al. 2003). SESCO simplifica la problemática
tomando el tiempo de la enunciación como punto de referencia: el tiempo será pasado,
presente o futuro con relación al enunciado. Aún siendo un etiquetado evidentemente
simplista, permite una anotación rápida y suficiente como base del habla espontánea, donde
los hablantes cambian de tema y de referencias constantemente (como pudimos observar en
el ejemplo (1) ).
Los predicados (y el tiempo en que ocurren), los argumentos y las relaciones
indirectas son componentes de los tres tipos eventivos. Las acciones y los procesos contienen
además estructuras subeventivas. Estas estructuras no son consideradas en SESCO eventos,
sino relaciones abstractas porque su predicado no aparece en el discurso, sino que es parte
únicamente de la estructura de un evento superior. El ejemplo (2) muestra la estructura
eventiva de “nosotros vamos allí”, donde los subeventos Σ (estados) son típicas relaciones
abstractas. Sus predicados son denominados bases y son universales. El proceso “ir” aparece
estructurado en (2) como una transición de un estado locativo a otro.
(2)
Ρ: Ir
[
Σ: ¬B2 (nosotros, allí)
Σ: B2 (nosotros, allí)
]
Sólo existen cuatro bases diferentes, las cuales se corresponden con los predicados
más básicos, es decir, los más probables en caso de que no haya ningún predicado explícito ni
anafórico (Alcántara y Bertomeu 2005). Se definen del siguiente modo: B1 es la base de las
relaciones abstractas que son estados atributivos en procesos que crean nuevas entidades; B2
es la base de los estados que son parte de movimientos (como en el ejemplo (2)); B3 es la
base de los estados que son parte de mutaciones; y B4 es la base de estados en procesos y
acciones en los que la entidad adquiere o pierde una posesión. Con el 64% de los casos, B1 y
B3 son las bases más frecuentes en nuestro corpus.
SESCO anota, como hemos visto, eventos y estos siempre ocurren en un sitio y
tiempo concretos. Esto implica que la mayoría de los núcleos eventivos (predicados) son
verbos, pero no todos. El caso más frecuente de eventos no verbales en el habla espontánea es
el de las denominadas oraciones de veracidad, como la del hablante 2 en el ejemplo (3). La
pregunta del primer hablante es un estado atributivo verbal en el que el otro hablante es
relacionado con la propiedad de estar “malísimo”; la respuesta es también un estado
atributivo, pero esta vez no es un verbo el que relaciona la proposición del primer hablante
con la propiedad de no ser verdadero (en ese momento), sino un adverbio.
(3)
*Hablante 1: que estás malísimo?
*Hablante 2: no
5. Las Unidades Prosódicas
El corpus UAM C-Oral-Rom fue anotado con información prosódica según la teoría expuesta
en Cresti (2000) y Cresti & Moneglia (2005). Los textos están divididos en unidades tonales
y proferencias, ambas definidas como “variaciones prosódicas en el continuum del habla
perceptiblemente relevantes”. Como hicimos en la anterior sección, remitimos a las obras
citadas para los interesados en los detalles de la anotación, de la que describiremos aquí sólo
sus aspectos clave.
Los límites de las unidades tonales (LUT) están marcados por cambios prosódicos
perceptibles que dividen el discurso en unidades informativas. Por su parte, las proferencias
pueden estar formadas por una o más unidades tonales y componen un patrón entonativo
completo. Al igual que los LUT, los límites de las proferencias (LP) están marcados por
cambios prosódicos perceptibles. Los LP aparecen etiquetados con “//” mientras que los LUT
lo son mediante “/”. En el corpus, los LP se etiquetan también con “?” (como en (5)), “!” y
“...” si tienen entonación interrogativa, exclamativa o en suspensión respectivamente.
(4)
y / luego / creo que en verano / lo hacemos en el teatro al aire libre de Pinto / porque yo
/ no es por nada / voy a hablar otra vez de mi pueblo //
(5)
qué tareas desempeñas / aquí en el centro ?
Como podemos ver en estos ejemplos, el etiquetado prosódico nos ofrece una
estructuración del discurso en dos niveles y nos permite dividirlo en unidades. El patrón
entonativo de una proferencia especifica su fuerza ilocutiva de modo que cada LP implica
también el final de un acto de habla. De esta forma, la entonación guía la interpretación del
significado básico de una proposición y le añade así significado a la estructura eventiva que
definíamos en la sección previa. Emanuela Cresti define la proferencia como “la unidad
lingüística mínima que permite una interpretación lingüística en el mundo”, lo que
fundamenta el puente entre la semántica y la prosodia que queremos demostrar en las
próximas páginas.
6. Límites Prosódicos y Estructuras Eventivas
El subcorpus anotado con información semántica y prosódica confirma la relación existente
entre ambos niveles, pero con algunos importantes matices que se expondrán a continuación.
El dato más destacado es el que nos dice que el 90% de los finales de las estructuras
eventivas coinciden con cambios prosódicos. Los cambios son en el 68,3% de los casos LP.
A pesar de que el final de los eventos no debería coincidir con LUT según las definiciones
dadas en la sección anterior, coinciden en el 21,7% restante.
El ejemplo (6) contiene muestras de los dos tipos de límites prosódicos con los límites
eventivos marcados entre corchetes. En este caso, sólo uno de los eventos coincide con un LP
(etiquetado con puntos suspensivos). El fragmento nos sirve para ejemplificar la diversidad
de usos de los LUT. Aquí aparecen limitando partes del evento (“en total fueron diez o doce
días / porque”), distintos sintagmas dentro de una misma parte eventiva (“la ciudad / el arte /
la Cartuja”) y distinguiendo eventos diferentes (“conocían / yo soy de Burgos / y de esta
forma”).
(6)
[en total fueron diez o doce días / porque comenzamos / por Burgos / que no lo
conocían] / [yo soy de Burgos] / [y de esta forma / les enseñé / la ciudad / el arte / la
catedral / la Cartuja] ...
Más adelante intentaremos explicar por qué en unos casos se prefiere LP y en otros
LUT, pero primero señalaremos que la relación entre la semántica y la prosodia no es tan
evidente como nos pueden hacer suponer los porcentajes mencionados si nos centramos en el
etiquetado prosódico. Por ejemplo, sólo el 8.2% de los LUT coinciden con un límite eventivo.
Muchos LUT delimitan partes del evento en lugar de eventos completos (como, por ejemplo,
en (7), aunque el uso de LUT aquí tampoco es consistente y deja sin dividir “yo” y “en el
pueblo”) y son muy frecuentes los casos que, como en (8), no tienen ninguna relación con las
estructuras semánticas.
(7)
yo en el pueblo / también / como tú //
(8)
entonces ahora vamos a seguir en el / apasionante mundo de / la oración compleja //
La relación de los LP con los eventos es más clara: el 75,3% de los LP se utilizan para
marcar un final eventivo. Además, su segundo uso más frecuente está también relacionado
con estos límites puesto que funcionan como delimitadores de marcadores discursivos o
fragmentos que no forman parte de los eventos, sino que suelen utilizarse para guiar la
interacción. Por ejemplo, el fragmento en (9) contiene el marcador “bueno”, fórmula típica en
español para mostrar que se va a introducir un tema nuevo. En estos casos, los LP no limitan
tanto el final de un evento como su inicio.
(9)
bueno // tu hermana qué tal ?
7. Unidades Lingüísticas y Clases de Textos
La elección del hablante entre LP y LUT para delimitar eventos parece estar determinada por
factores extralingüísticos. Los más relevantes según los datos del corpus que detallaremos a
continuación son el contexto comunicativo y el número de hablantes que participan en la
interacción. La información etiquetada en C-Oral-Rom nos permite estudiar ambos por
separado. En cuanto al contexto comunicativo, el corpus diferencia entre interacciones
informales privadas, informales públicas, en medios de comunicación, formales y telefónicas
(informales). La siguiente gráfica muestra los porcentajes de límites eventivos en cada clase
de texto coincidentes con LP, LUT o sin cambio prosódico.
72,40%
Telefónico
Formal
56,20%
33,20%
Media
69,10%
I. Público
68,90%
I. Privado
0%
16,40% 11,10%
22,10%
20%
74,80%
20%
40%
10,60%
8,80%
11%
LP
LUT
Sin marca
14,60% 10,50%
60%
80%
100%
Los LP son los límites más frecuentes en todas las clases de textos, pero predominan
especialmente en los más informales (privados y telefónicos, siendo ambas clases similares
con la excepción del canal). En contraste, la proporción apenas supera el 56% en los formales
mientras que aquellas clases que comparten rasgos tanto con los textos informales como con
los formales –es decir, media e informal público- tienen porcentajes intermedios.
Si nos centramos en los otros límites, observamos que los textos informales tienen los
porcentajes más bajos de LUT, lo que provoca que las cantidades de casos sin cambios
prosódicos sean similares a las de las otras clases. Las interacciones formales son las que
presentan un mayor número de LUT (33,2%), circunstancia que, como veremos más adelante,
puede relacionarse con el hecho de que son monólogos o semimonólogos tales como
conferencias, presentaciones públicas, etc. Los datos de los medios de comunicación y de los
textos informales públicos vuelven a ser similares (22,1% y 20% respectivamente) reflejando
el hecho de que ambos utilizan un lenguaje informal matizado por circunstancias
relativamente formales (p.ej. clases de instituto, entrevistas profesionales, programas de
entrevistas, etc.).
Los siguientes dos ejemplos muestran estas tendencias. (10) es un fragmento tomado
de una conferencia sobre sicología del lenguaje dada en una universidad. El interlocutor está
sentado frente a su auditorio y cuenta con una hora para exponer sus ideas. Su entonación es
parsimoniosa y, como podemos ver en el etiquetado, con frecuentes cambios prosódicos. El
fragmento incluye nueve unidades tonales de las que dos coinciden con finales de eventos (el
último evento termina junto con un LP).
(10)
*Hablante 1: [pero hace años / no había teléfonos móviles] / [y sin embargo / aunque
con menos frecuencia / se veía alguien que avanzaba por la calle / y que estaba también
gesticulando] / [y decíamos / este buen señor / habla solo] //
El ejemplo (11) está tomado de una conversación entre tres amigos en el salón de la
casa de uno de ellos. El tema que guía la conversación es el de los problemas amorosos que
ellos y otros amigos padecen. El ambiente es, por lo tanto, completamente diferente al de (10)
y observamos que el tipo de entonación y su relación con la estructura eventiva también lo
son. La proporción de LUT y LP es la contraria, con nueve LP y sólo tres LUT. Además,
todos los eventos terminan con un límite de proferencia y sólo uno de ellos incluye más de
una unidad tonal. Es interesante señalar que tres proferencias no incluyen información
eventiva, sino interjecciones típicas del habla informal.
(11)
*Hablante 1: [es que es muy triste] // [y no quiero que os echéis a llorar] //
*Hablante 2: [seguro que no es tan triste / como vivir / con Miguel Ángel] //
*Hablante 1: jóder //
*Hablante 3: vaya hombre //
*Hablante 1: jóder / macho //
*Hablante 2: [no] // [como dormir con él] // [que es diferente] //
8. Unidades Lingüísticas y Número de Hablantes
El número de hablantes que participan en la interacción afecta a la relación entre las
estructuras eventivas y la prosodia especialmente en los textos informales ya que en estos las
normas son más relajadas y abundan las interrupciones y los solapamientos. La siguiente
gráfica muestra los porcentajes de aparición de los diferentes cambios prosódicos en los
límites eventivos en interacciones con un hablante, con dos o con más de dos -siempre en
textos informales.
Conversación
77,60%
Diálogo
8,5% 13,9%
72,90%
17,5%
9,7%
LP
LUT
Sin marca
60,15%
Monólogo
0%
20%
40%
30,9%
60%
80%
9,0%
100%
Lo primero que llama la atención en estos datos es la semejanza existente entre los
porcentajes de los monólogos y aquellos que encontrábamos en los textos formales en la
anterior sección. Para encontrar una explicación, debemos tener en cuenta las cualidades de
percepción de ambos límites, rasgo en que hace especial hincapié la teoría de Emanuela
Cresti en la que se basa la anotación prosódica. Por su perfil terminal, los LP muestran más
claramente el final de un evento. Esta claridad tiene una contrapartida consistente en que
puede ser confundido con un final de turno. Por este motivo, el hablante de un monólogo
hace mayor uso de los LUT para mostrar que su turno no ha terminado y que debe ser
respetado. Los diálogos, sin embargo, tienen aproximadamente la mitad de LUT que los
monólogos, y las conversaciones con tres o más hablantes –donde los turnos son
irremediablemente breves- no llegan a la mitad de LUT que aparecen en los diálogos. Cuanto
mayor es el interés (o la esperanza) por mantener el turno, mayor es el uso de LUT.
Es interesante observar que la frecuencia de finales eventivos sin cambio prosódico es
sorprendentemente elevado en las conversaciones con varios hablantes. En ellas, los eventos
aparecen marcados como proferencias o aparecen sin marca alguna.
9. Estructuras sintácticas
El nivel sintáctico no forma parte en sí mismo de los análisis de este artículo. Sin embargo,
no quisiéramos dejar de mencionar algunos trabajos que han mostrado que el etiquetado
semántico puede ser utilizado como base para una estructuración sintáctica de la lengua
hablada. Como vimos en la descripción de C-Oral-Rom, este corpus incluye información
morfológica, en concreto sobre el lema y la categoría gramatical de cada palabra. Esta
anotación morfológica es completamente plana, sin sintagmas ni estructuras oracionales. Para
lograr estas, realizamos algunos experimentos partiendo de la base de que las estructuras
semánticas debían tener consecuencias en el plano sintáctico. Los resultados fueron claros:
cada tipo de argumento eventivo tenía una posición preferente con respecto al verbo y una
combinación de categorías gramaticales diferentes. Incluso un mismo argumento, p. ej. el de
las entidades, resultó tener combinaciones sintácticas distintas si el estado al que pertenecía
era atributivo o locativo (Alcántara 2007).
Un dato interesante y en fuerte contraste con las gramáticas tradicionales es el de los
elementos implícitos, es decir, aquellos que son interpretados anafóricamente o gracias a la
flexión verbal (que en español nos dice la persona y el número del sujeto oracional). En los
argumentos que suelen aparecer en posición de sujeto (los agentes y las entidades), los
porcentajes de casos implícitos son muy elevados: del 69,8% para los agentes y del 58,3%
para las entidades. En el otro extremo se encuentran las relaciones indirectas, que no son
parte del núcleo eventivo y que, por lo tanto, son más difíciles de recuperar si no aparecen; de
hecho, sólo el 3,3% de estas relaciones son implícitas.
Una estructuración tan sencilla y viable como la proporcionada por SESCO es
suficiente para permitir un acercamiento seguro al análisis sintáctico del habla espontánea,
algo que no se podría hacer sin contar con una base tan general. De momento los resultados
se centran en las combinaciones encontradas dentro de las distintas partes de la estructura
eventiva, obviando las posibles relaciones que pueda haber entre ellos, pero también han
servido para profundizar en aspectos más concretos como es el estudio de los elementos
elípticos y anafóricos (Alcántara y Bertomeu 2005). Al igual que con la prosodia, la
conjunción de la semántica con la sintaxis nos de pistas valiosas sobre la estructuración de
ambos y es un camino en el que queremos profundizar en el futuro.
10. Conclusiones
En este artículo queríamos mostrar cómo es posible resolver un problema complejo en el
análisis de corpus por medio del uso de dos anotaciones sencillas. La estructura lingüística de
la lengua hablada es una cuestión central en los actuales estudios de lingüística teórica y de
lingüística computacional, y su resolución es fundamental para el análisis de corpus como el
que hemos utilizado en nuestro trabajo.
Los datos mostrados en las secciones anteriores prueban que la semántica y la
prosodia están relacionadas en la construcción de sus estructuras, pero también que no lo
están siempre del mismo modo. Los cambios prosódicos que marcan un final de evento
pueden ser límites de proferencias (LP) o límites de unidades tonales (LUT), y nuestro
trabajo muestra que la preferencia por uno u otro tipo no es en absoluto arbitraria. Diversos
factores extralingüísticos afectan a esta elección, en especial el contexto comunicativo y el
número de hablantes que participan en la interacción. La prosodia parece guiada por las
circunstancias que rodean su producción tanto como por la estructura de lo que transmite. De
este modo, se ve parcialmente confirmada la tendencia general dentro de la literatura más
reciente que apuesta por una prosodia independiente de la sintaxis.
Otro aspecto relevante destacado por los datos del corpus es que la aproximación al
análisis de las estructuras debe realizarse desde la semántica y apoyarse en la prosodia, y no
al revés. Esto es así porque los eventos tienen una relación más estricta con los cambios
prosódicos que estos con los semánticos: un evento casi siempre coincide con un límite
prosódico, pero hay muchos límites prosódicos que no coinciden con eventos.
Por último, se puede obtener una conclusión que va más allá de los fenómenos
propiamente tratados en este artículo. Las anotaciones utilizadas han sido diseñadas con
pretensión de universalidad y ya han sido probadas en corpus de habla espontánea. El coste
de la transcripción y la anotación de un corpus de estas características es siempre elevado,
pero esperamos que trabajos como el aquí presentado ayuden a que sean cada vez más
frecuentes. Nuestros datos dan una visión interesante a este respecto. La anotación automática
con SESCO no había sido posible hasta ahora por la imposibilidad de determinar
automáticamente dónde empezaban y terminaban sus unidades dentro del continuum que es
el habla no etiquetada. El uso de esta anotación junto con la información prosódica no nos ha
servido sólo para comprender mejor cómo se interrelacionan ambos niveles, sino que también
no es de gran ayuda para mejorar la anotación y, en especial, para estar más cerca de su
automatización.
Al igual que la prosodia puede ser la clave aquí para la división del texto en unidades
semánticas, es lógico pensar que el uso de corpus etiquetados lo puede ser para resolver
problemas centrales de los demás niveles lingüísticos. A este respecto, el apunte sobre las
estructuras sintácticas nos ha mostrado cómo una estructuración sencilla en el nivel
semántico puede ser de gran ayuda para resolver las complejidades de la sintaxis del habla
espontánea.
Bibliografía
Alcántara Plá, M. 2007 (en prensa). Introducción al análisis de estructuras lingüísticas en
corpus. Aproximación semántica. Madrid: UAM Editorial.
Alcántara Plá, M. y N. Bertomeu. 2005. “Ellipsis in Spontaneous Spoken Language”.
Proceedings of the Workshop on Cross-modular Approaches to Ellipsis. Edinburgh.
Biber, D., Johansson, S., Leech, G., Conrad, S., and Finegan, E. 1999. The Longman
Grammar of Spoken and Written English. London y Nueva York: Longman.
Botinis, A. (ed.) Intonation. 2000. Analysis, Modelling and Technology. Dordrecht: Kluwer.
Brants, Sabine, Dipper, Stefanie, Hansen, Silvia, Lezius, Wolfgang y Smith, George. 2002.
“The TIGER Treebank”. Proceedings of the Workshop on Treebanks and Linguistic Theories
Sozopol.
Carlson, R., Granstrom, B., Heldner, M., House, D., Megyesi, B., Strangert, E., y M. Swerts.
“M. Boundaries and groupings - the structuring of speech in diferent communicative
situations: a description of the GROG project”. THM-QPSR, 44, 65-68.
Chafe, W. 1976. Givenness, contrastiveness, de_niteness, subjects, and topics. En Li (ed.):
Subject and Topic. Nueva York: Academic Press.
Cresti, E. 2000. Corpus di italiano parlato. Florencia: Accademia della Crusca.
Cresti, Emanuela y Massimo Moneglia (eds.). 2005. C-ORAL-ROM. Integrated Reference
Corpora for Spoken Romance Languages. Amsterdam: Benjamins.
Croft, W.B., H. R. Turtle y D. D. Lewis. 1991. “The use of phrases ans structured queries in
information retrieval”. Proceedings of the 14th Annual International ACM/SIGIR Conference
on Research and Development in Information Retrieval. Chicago.
Cruttenden, A. 1997. Intonation. Cambridge: Cambridge University Press.
Dik, Simon. 1997. The Theory of Functional Grammar. Berlin: Walter de Gruyter.
Dowty, David R. 1977. “Towards a Semantic Analysis of Verb Aspect and the English
`Imperfective` Progressive”. Linguistics and Philosophy, 1, 3-44.
Fillmore, Charles. 1968. “The Case for Case”. En Emmon Bach y R.T.Harms (eds.).
Universals in Linguistic Theory. Chicago: Holt, Rinehart & Winston.
González , A., de la Madrid, G., Alcántara, M., de la Torre, R., y A. Moreno. 2004. “Orality
and Difficulties in the Transcription of Spoken Corpora”. Proceedings of the IV International
Conference on Language Resources and Evaluation (LREC2004).
t'Hart, J., Collier, R., y Cohen, A. 1990. A Perceptual Study of Intonation. Cambridge:
Cambridge University Press.
Hjemslev, L. 1935. La Catégorie des Cas: Étude de Grammaire Générale. Copenague:
Munksgaard.
Jurafsky, Daniel y James H. Martin. 2000. Speech and Language Processing: An
Introduction to Natural Language Processing, Computational Linguistics, and Speech
Recognition. NJ: Prentice-Hall.
Moreno Cabrera, Juan Carlos. 1997. Introducción a la lingüística. Enfoque tipológico y
universalista. Madrid: Síntesis.
Pustejovsky, James, José Castaño, Robert Ingria, Roser Saurí, Robert Gaizauskas, Andrea
Setzer y Graham Katz. 2003. “TimeML: Robust Specification of Event and Temporal
Expressions in Tex”. Proceedings of IWCS-5, Fifth International Workshop on
Computational Semantics, Tilburg.
Samlowsky, W. “Case grammar.” In Charniak, E. y Y. Wilks. 1976. Computational
Semantics. Amsterdam: North-Holland.
Steedman, M. 2003. “Information-Structural Semantics for English Intonation”. LSA Summer
Institute Workshop on Topic and Focus.
Thayse, A. (ed.). 1991. From Natural Language Processing to Logic for Expert Systems: A
Logic Based Approach To Artificial Intelligence. Chichester: John Wiley and Sons.
Descargar