hacia un etiquetado sintactico del corpus

Anuncio
HACIA UN ETIQUETADO
SINTÁCTICO DEL CORPUS
C-ORAL-ROM
Septiembre 2003
Ana González Ledesma
Trabajo de Estudios Avanzados
Departamento de Lingüística, Lenguas Modernas,
Lógica y Filosofía de la Ciencia
Facultad de Filosofía y Letras
Universidad Autónoma de Madrid
Director: Dr. Antonio Moreno Sandoval
ÍNDICE
I. Introducción
II. C-Oral-Rom Madrid
II.1.1 Estructura del texto
II.1. Las cabeceras
II. 2. Las transcripciones
III. La herramienta para el etiquetado, XML
III.1 El formato XML
III. 1. 1. ¿Por qué XML?
III. 1. 2. ¿Qué es XML?
III. 1. 3. ¿Cómo es XML?
IV. C-ORAL-ROM y SESIC
V.1 El problema de la segmentación del corpus.
V.1.1. La continuación de turno
V.1.2. Sintaxis y entonación
V.1.3. El concepto de oración
V.1.4. La oración compuesta
V.1.4.1 Aproximación teórica
V.1.4.1.1 El nivel oracional
V.1.4.1.2 El nivel discursivo
V.1.4.1.3 Proyección sobre el etiquetado
2
V. Aspectos de implementación
V. 1. Explicación de las etiquetas
V. 2. DTD y SESIC
V. 3. Evaluación del sistema de etiquetado
V. 4. PERL y la anotación automática
VI. Líneas futuras de investigación
VII. Bibliografía
APÉNDICES
Apéndice I Ejemplos de conversaciones etiquetadas en XML
3
I. INTRODUCCIÓN
El objetivo de este estudio es desarrollar un sistema de etiquetado con información
sintáctica para el corpus oral del español C-ORAL-ROM Madrid.
Por anotación entendemos la inserción de marcas o etiquetas que identifiquen
información dentro del texto Moreno (2000).
Para que un corpus sea útil no solo tiene que registrar un número representativo de
datos sino que además tiene que estar anotado. Pongamos un ejemplo recogido por Anne
Abeille en la obra Building and using Parsed Corpora:
(1) Paul ouvre le sac de pommes de terre et le pose sur la table
“Pablo abre la bolsa de patatas y la pone en la mesa”.
Con referencia a la relación entre la Lingüística Computacional y la Lingüística de
Corpus, esta autora señala lo siguiente:
“Corpora have become popular resources for linguists and engineers
developing applications in Natural Language Processing (NLP). Linguists
typically look for various occurrences of specific words or patterns,
engineers extract lexicons and language models associating probabilities
with sequences of words”.
Sin embargo, si trabajáramos con este ejemplo y computáramos, por un lado, el
número de palabras, y por otro, el número de ocurrencias de una misma palabra, los
resultados serían parciales, porque no tendríamos en cuenta ni la ambigüedad ni las
secuencias de palabras que no tienen un significado composicional (multiword).
Así pues, diríamos que la frase (1) contiene catorce palabras cuando en realidad
tiene doce (pommes de terre es todo una unidad lexemática).
De la misma forma, si utilizáramos un programa que computase las ocurrencias de
una misma palabra, se obtendrían dos apariciones de la palabra le, sin tener en cuenta que,
en el ejemplo, esta palabra es ambigua porque pertenece a dos categorías gramaticales
distintas: en el primer caso es un artículo, mientras que en el segundo es un pronombre.
4
De lo que se deduce que para obtener un conocimiento gramatical preciso de los
corpus es necesario introducir información lingüística en ellos. Dicha información, que
puede ser de muchas clases (semántica, morfológica, sintagmática, etc.) debe ser elegida en
función de los objetivos de estudio que posteriormente el lingüista desee llevar a cabo.
En nuestro caso, el tipo de anotación que se va a realizar va a ser de carácter
sintáctico. Los corpus anotados sintácticamente reciben el nombre de treebanks. Para un
estado de la cuestión sobre los diferentes tipos de treebank remitimos a Civit y Bufí (2002),
donde se resumen los diferentes esquemas etiquetados de los treebanks existentes hasta la
fecha. En España, el único corpus de árboles sintácticos publicado es el UAM Spanish
Treebank (Moreno et al. 2000), que está realizado sobre un corpus de lenguaje escrito
recogido de El País Digital compuesto de 26000 palabras y 16000 oraciones.
El estudio que aquí proponemos tiene como objetivo hacer un treebank de lengua
oral del español.
En cualquier caso, independientemente del tipo de datos que se desee etiquetar, para
la creación de un corpus anotado se necesita:
1.- Diseño de un etiquetado (tagset, formalismo, DTD).
2.- Desarrollo del etiquetado (herramientas computacionales, sistema de
validación manual, etc.)
3.- Evaluación del etiquetado (tasas de error, precisión, etc.)
El reto más importante que se plantea en esta clase de trabajos es el de
compatibilizar todos estos frentes. No sería útil diseñar un sistema de etiquetas que
posteriormente fuera muy difícil de implementar o incompatible con la herramienta de
etiquetado. De la misma forma que tampoco se debería etiquetar, ya sea manualmente o de
forma automática, sin validar los resultados posteriormente por medio de algún mecanismo
que controlara o supervisara que se ha sido coherente en el etiquetado manual y exitoso en
la anotación automática.
De acuerdo con todo ello, vamos a dividir nuestra exposición en los siguientes
capítulos. En el primero de ellos, se presentan las características más importantes del
corpus con el que se ha trabajado. El segundo capítulo, está dedicado a la presentación de la
5
metalengua utilizada para el etiquetado, que va a ser XML. En el capítulo siguiente se
tratarán los diferentes aspectos de la implementación del corpus: la formas de segmentación
del corpus, las etiquetas seleccionadas para anotar el corpus, y el lenguaje de programación
utilizado para la anotación automática. Finalmente, en el último capítulo se expondrán las
líneas de investigación futuras.
6
II. C-ORAL-ROM MADRID
El objetivo de este trabajo es el de desarrollar tanto un sistema de marcas como de
herramientas informáticas para etiquetar el corpus C-ORAL-ROM Madrid. A continuación
se presentarán sus características principales.
La elaboración de este corpus está siendo llevada a cabo por el Laboratorio de
Lingüística Informática de la Universidad Autónoma de Madrid (http://www.lllf.uam.es) y
su desarrollo forma parte de un proyecto de investigación europeo más amplio, llamado CORAL-ROM, cuyo propósito es el de elaborar cuatro corpus en cuatro lenguas romances
que posean características homogéneas, tales como el número de palabras, las situaciones
comunicativas seleccionadas para la grabación, etc., con el fin de facilitar su
comparabilidad. Las tres lenguas restantes son el portugués (la Fundación de la Universidad
de Lisboa), el francés (Universidad de Provenza) y el italiano (Universidad de Florencia).
C-ORAL-ROM Madrid ha grabado, transcrito, alineado y etiquetado, según las
normas del proyecto, más de 300.000 palabras. Las grabaciones hechas en contextos
naturales, esto es, las que no son ni de radio ni de televisión, han sido realizadas teniendo
en cuenta siempre los siguientes requisitos: espontaneidad, calidad del sonido y variedad de
registros. Tanto la recogida como la manipulación de los datos ha recibido en todo
momento un tratamiento digital.
Los criterios de clasificación del corpus grabado giran en torno a la clase de
situación comunicativa. En principio, existen dos grandes grupos: formal e informal. El
bloque de informal a su vez está dividido en dos subclases que son, por un lado, la clase
familiar/privado (por ejemplo, charla entre amigos o familiares), y por otro, público (por
ejemplo, una interacción del tipo cliente-vendedor). El parámetro que los distingue es el
tipo de relación simétrica/asimétrica que existe entre los participantes. Por otra parte, el
otro gran bloque, el formal, está subdividido en los siguientes grupos: medios de
comunicación, conversaciones telefónicas, y contextos naturales como, por ejemplo,
conferencias, sermones, etc.
A continuación, se presentarán las convenciones más importantes con las que se
presenta el texto o transcripción; esta información desempeña un importante papel en el
tratamiento del texto durante el etiquetado.
7
En primer lugar, hay que señalar que todo texto está dividido en dos partes: una
cabecera y un texto en el que se ha transcrito el sonido.
II. 1. ESTRUCTURA DEL TEXTO
II.1. 1 Las cabeceras
En la cabecera se recoge información contextual relevante para poder identificar,
comprender e interpretar posteriormente el texto que le sigue. Dicha información está
clasificada en los siguientes apartados, cada uno de ellos, como veremos a continuación,
esta precedido con el símbolo de la arroba @:
@Title: un breve título
@File: el nombre del archivo
@Participants: los datos sobre los participantes
@Date: la fecha
@Place: la ciudad donde se produjo la grabación
@Situation: la situación
@Topic: el tema o subtemas que se tratan
@Source: el origen del texto
@Class: el tipo según las distinciones de informal/formal indicadas más arriba
@Lenght: el tamaño en minutos y segundos
@Words: número de palabras
@Acoustic_quality: el nivel de la calidad del sonido
@Transcriptor: el transcriptor responsable del texto
@Revisor: el revisor
@Comments: y posibles comentarios que pueda requerir la transcripción
El @Title aparece escrito en la lengua de cada corpus (en nuestro caso aparecerá en
español) y sirve para identificar el texto de un modo rápido para los transcriptores.
El dato @File responde a una codificación estándar y fija, con la cual se han
clasificado diferentes archivos.
En @Participants aparece una línea para cada interlocutor con los siguientes datos:
1. Siglas que marcarán sus intervenciones en el texto.
8
2. Nombre por el que le llaman los otros interlocutores
3. Género (man/woman)
4. Edad (A para de 18 a 25 años, B de 25 a 40 años, C de 40 a 60 años y D
mayores de 60 años),
5. Educación (1 para educación primaria, 2 para educación secundaria y 3 para
universitarios)
6. Profesión.
7. Papel en el texto.
8. Origen geográfico/posibles influencias lingüísticas.
A continuación presentamos un ejemplo de este apartado:
(2) @Participants: PED, Pedro, (man, B, 3, professor, interviewer, Madrid)
.
La fecha (@Date) se registra separada por barras y con las cuatro cifras del año
(ejemplo: 20/06/2001).
El lugar geográfico donde se han realizado las grabaciones del corpus (@Place) ha
sido Madrid y Segovia, aunque en los hablantes sí encontramos una amplia gama de
procedencias.
En la situación (@Situation) y en los temas (@Topic) se ha intentado ser
informativo pero breves.
Todo el corpus de Madrid ha sido grabado para el proyecto, por lo que su origen
(@Source) es C-ORAL-ROM, salvo en las grabaciones del género media, en las que la
fuente son las cadenas de radio o televisión que o bien nos han proporcionado grabaciones
de su programación, o bien nos han dado permiso para que se pudieran grabar.
El tipo de texto (@Class) sigue la clasificación que presentamos en la tabla
siguiente:
9
Familiar/Privado
Informal
Público
Monólogo
Diálogo
Conversación
Formal
Formal en contextos
Media
Teléfono
Discurso político
Noticias
Conversación privada
Debate político
Deportes
Conversaciones
naturales
hombre-máquina
Sermones
entrevistas
Conversaciones
hombre-máquina
Discurso docente
El tiempo
Charla profesional
Charla científica
Conferencia
Reportaje
Negocios
Debate político
Discurso judicial
Discusión temática
Charla cultural
Charla científica
1.- Tabla de la distribución del corpus C-Oral-Rom
10
Mostraremos algunos ejemplos:
@Class: informal, privado, monólogo.
@Class: formal, debate político, diálogo.
Los minutos y los segundos (@Length) se indican con (’) y (”) (p.ej. 12’ 15’’); el
número de palabras (@Words) se registra sin signos (p.ej. 1543).
La calidad del sonido (@Acoustic_quality) será siempre 'A' (muy buena, calidad
digital) o 'B' (buena).
En los campos destinados al transcriptor (@Transcriber) y a los revisores
(@Revisor) aparecen simplemente los nombres de los responsables. En @Comments el
transcriptor tiene libertad para reflejar todo aquello que crea pertinente.
II.1.2. Las transcripciones
En primer lugar, dentro de las características más importantes del modo en que se ha
llevado a cabo la transcripción, es necesario señalar que no se ha realizado una
transcripción fonética o fonológica del sonido, sino que se ha hecho una transliteración del
mismo siguiendo la norma ortográfica, aunque no hay signos de puntuación, ni mayúsculas,
excepto en los nombres propios. A su vez se ha dado cuenta con diferentes marcas de los
apoyos silábicos, los sonidos no lingüísticos y de las variantes no estándar, como
comentaremos más adelante.
a) Los turnos
Las transcripciones están divididas en turnos, los cuales comienzan con un asterisco
seguido de las siglas que se le han consignado al interlocutor en la cabecera (por ejemplo:
*ABC: ). En caso de imposibilidad de identificar al interlocutor, se utiliza la variable
*XYZ.
(3) *UEL: pues / la verdad es que casi me quedé dormido // < y +/. >
11
b) Los comentarios
Tras los turnos pueden aparecer comentarios sobre el sonido o sobre la
pronunciación, señalados por %. Tanto los errores de producción como las expresiones no
consideradas formas correctas desde un punto de vista estrictamente normativo, se reflejan
en los comentarios de tipo %alt pero no en el texto transcrito propiamente dicho. Así por
ejemplo, si un hablante dice “cameón” en lugar de camión, en C-ORAL-ROM este
fenómeno se reflejaría de la siguiente forma:
(4) *MIG: se me ha atravesado un camión / y casi me atropella //
%alt: between (2) and (3) ma.
%alt: (6) cameón
Los números indican la posición en la que se encuentra la expresión lingüística
destacada en el comentario.
c) Las marcas prosódicas
Las transcripciones también contienen etiquetas prosódicas basadas en la teoría de
la entonación de Emanuela Cresti (Cresti, 2000). Posteriormente utilizaremos esta
información para hablar de la relación entre entonación y sintaxis.
La marca / sirve para indicar los límites de las unidades tonales (tone units). Cada
barra / se corresponde en el sonido con un cambio en la entonación. Si aparece tras las
siglas del interlocutor, indica continuación de turno, esto es, que se continúa la unidad
informativa del hablante anterior (en medio ha habido una intervención de otro
participante).
Las marcas // ? ... (según sea asertivo, interrogativo o de suspendido) señalan el
final de las unidades informativas completas (utterances). Ejemplo:
(5) *OÑO: [<] < hhh // > en tu línea / no ?
%act: (1) laugh
d) Apoyos silábicos, interjecciones, signos no lingüísticos y sonidos
incomprensibles.
El & sirve para marcar palabras que no se han pronunciado completamente (por
ejemplo: &cantarí por 'cantaría') y para los apoyos silábicos, que se han convencionalizado
en las formas &eh y &ah.
12
Las interjecciones se transcriben entre signos de admiración.
(6) ¡dios mío!
La marca hhh se utiliza para reflejar los sonidos no lingüísticos que son relevantes
para la información o para la entonación. Pueden constituir por sí mismos un turno de
palabra. En los comentarios se señala el tipo de sonido:
( 7) *TER: y yo no paso por eso / sabes ?
*MAR: hhh //
%act: (4) asentimiento
La marca xxx expresa una emisión que no se ha entendido.
e) La reformulación
Existen dos marcas que señalan la presencia de reformulación:
a. La marca [/] se utiliza cuando se repite parte de la cadena hablada a un
lado y a otro de la reformulación:
(8) Pero es que [/] es que hay dos //
b. La marca [///] indica un cambio diferente en la nueva elección del
hablante; no se vuelve a repetir ninguna palabra a la derecha de la marca de
reformulación:
(9) Pero como hay [///] tengo que decir esto //
f) La interrupción
El signo + indica que se ha producido una interrupción, ya sea dentro de un mismo
turno, en el que el hablante se ha autointerrumpido y cambia de tema (10), ya sea en el
turno siguiente, provocada por otro hablante (11). Ejemplos:
(10)
*MAR: así es que + por cierto / el otro día me la encontré //
(11)
*MAR: así es que +
*PAN: por cierto / Mari / el otro día me la encontré //
13
g) La pausa
La # indica una pausa lo suficientemente larga como para comprender que ese
silencio tiene una relevancia en la conversación.
h) El solapamiento
También se representan los solapamientos. Los fragmentos de habla solapados
aparecen entre ángulos: <>. El último turno solapado siempre se comienza con este signo
[<]:
(12) *PAL: decía / tengo que decir que el único que pasó de no sé
cuánto / fue Use / pero bueno / es que Use / decía / hhh / o sea /
xxx [///] < nos barrerá a todos / >
%act: (22) laugh
*NUR: [<] < qué pelota // > qué pelota //
Ni los fragmentos ni los hhh se han tenido en cuenta a la hora de contar el número
de palabras del fichero.
14
III. XML, la metalengua para el etiquetado
III. 1 El formato XML
III. 1. 2. ¿Por qué XML?
En el desarrollo de un sistema de etiquetado es imprescindible contar con un
lenguaje formal que, por un lado, nos ayude a etiquetar y que, por otro, controle mediante
un sistema de validación, que se está siendo coherente durante el proceso de etiquetado.
Para ello, hemos elegido el formato XML (eXtensible Markup Language) porque,
dentro de los modos de etiquetado, es el que parece estar imponiéndose en diversas áreas de
conocimiento.
Este formato de etiquetado ha sido aceptado recientemente por el consorcio TEI
(Text Encoding Initiative), organismo que desde el año 1987 procura la adopción de
estándares internacionales e interdisciplinares para la representación (codificación) de todo
tipo de textos lingüísticos, using an encoding scheme that is maximally expressive and
minimally obsolescent (http://www.tei-c.org/).
Para un conocimiento mayor y actualizado del formato XML, recomendamos la
página de Internet del consorcio W3C World Wide Web (http://www.w3.org/) dedicado al
desarrollo de herramientas tecnológicas dirigidas al progreso de Internet como lugar de
intercambio de información.
III. 1.2 ¿Qué es XML?
XML es un subconjunto de SGML (Standard Generalized Markup Language) diseñado
con el fin de lograr un formato universal para los datos y documentos estructurados de la
Red. Dentro de los datos estructurados se incluyen todo tipo de informaciones: agendas,
datos bancarios, informes técnicos, etc. Su desarrollo se inició en 1996 y desde el año 1998
W3C recomienda su uso.
XML es, por lo tanto, un conjunto de reglas de formato para estructurar textos de un
modo que sea comprensible por todo individuo o programa que conozca las convenciones.
La sencillez con la que se ha diseñado permite que sea fácilmente asimilable sin necesidad
de conocimientos informáticos.
15
Destacaremos primero las tres características que nos han llevado a elegirlo para
SESIC.
1. Nos permite diseñar el sistema de etiquetas con total libertad, sin restricciones
en el número ni en el tipo de elementos que deseamos incluir.
2. También nos facilita la construcción de una estructura de datos que no admite
ambigüedades, posibilitando una recuperación rápida y fiable de la información.
3. XML se está convirtiendo en el formato más utilizado tanto en el ámbito
académico como en el comercial, y esto nos garantiza, por un lado, la existencia
de herramientas de calidad para el trabajo que nos hemos propuesto llevar a
cabo, y por otro, posibilidades de difusión prácticamente ilimitadas.
Esto es posible gracias a su carácter eXtensible e independiente, ya que no está
ligado a ningún lenguaje de programación. Además, no supone un obstáculo a la hora de
etiquetar con nuestro método distintas lenguas porque es plenamente compatible con la
tabla de códigos Unicode, un estándar que también posee un elevado ritmo de implantación
(ya adoptado por Apple, HP, IBM, JustSystem, Microsoft, Oracle, SAP, Sun, Sybase,
Unisys...) y que permite el uso simultáneo de cualquier alfabeto (http://www.unicode.org/).
También es oportuno señalar que XML se puede utilizar gratuitamente sin pago de
licencias, lo que multiplica el número de usuarios y de desarrolladores de software
dedicados a él.
Además, las pruebas realizadas en el Laboratorio de Lingüística Informática de la
UAM para el proyecto C-ORAL-ROM han servido para comprobar la escalabilidad
(scalability) de los sistemas XML, los cuales permiten el manejo sencillo de grandes
cantidades de información.
16
III. 1. 3. ¿Cómo es XML?
La apariencia de un texto XML es muy similar a la de uno HTML (Hypertext
Markup Language), el subconjunto de SGML más conocido hasta el momento por ser la
base de Internet. Ambos funcionan con la misma idea: texto marcado con etiquetas
nombradas entre ángulos, < >, y con atributos del tipo nombre=valor. En los dos lenguajes
de etiquetado, el resultado es texto con etiquetas, inteligible a simple vista sin necesidad de
aplicaciones externas.
La diferencia fundamental se encuentra en que HTML posee un conjunto cerrado de
etiquetas y atributos (no es eXtensible) mientras que XML permite la creación ilimitada de
ambos elementos. De este modo, no sólo debemos etiquetar, sino también definir qué y
cómo se etiqueta. Las transcripciones etiquetadas estarán vinculadas a un archivo externo,
denominado DTD (Document Type Definition), en el que están definidas las etiquetas, los
atributos, sus valores e, implícitamente, las jerarquías entre los elementos.
Las ventajas de XML sobre HTML están provocando la asimilación por parte de
este último de las características del primero, creándose un nuevo subconjunto de SGML
que se conoce como XHTML (eXtensible HyperText Markup Language, más información
en http://www.xhtml.org/).
Todos nuestros textos XML comienzan con la siguiente línea:
<?xml version="1.0" encoding="UTF-8"?>
<? y ?> son obligatorios para marcar el inicio y el final de una instrucción. Xml
advierte de que la operación es XML. Version=”1.0” señala la versión de XML que
estamos utilizando; al ser de licencia libre, XML se actualiza frecuentemente, pero siempre
respetando la compatibilidad con las anteriores versiones. Encoding=”UTF-8” delimita el
tipo de codificación en que está escrito el texto (en este caso utilizaremos la tabla
UNICODE UTF-8 por los motivos explicados arriba).
La siguiente línea establece el tipo de documento y la relación con la DTD:
<!DOCTYPE TRANSCRIP SYSTEM "sesic.dtd">
17
El documento es una TRANSCRIPCION y la DTD se encuentra en el archivo
sesic.dtd. Al no incluir un path, se asume que la DTD se encuentra en el mismo directorio
que la transcripción (la DTD es un documento escrito también en XML y, generalmente, de
un tamaño en kilobytes muy manejable).
A partir de este momento, se inicia el etiquetado con los elementos definidos que se
hayan establecido en la DTD. Haremos un análisis sintáctico simple como ejemplo de
etiquetado de la oración:
(13)
Los tímidos son indescifrables
Supongamos que hemos definido las siguientes etiquetas: <ORACIÓN>,
<SUJETO>, <VERBO> y <ATRIBUTO>. El resultado en un texto en XML sería:
(14)
<ORACIÓN>
<SUJETO>los tímidos</SUJETO>
<VERBO>son</VERBO>
<ATRIBUTO>indescifrables</ATRIBUTO>
</ORACIÓN>
La oración está etiquetada entre una marca que señala su inicio (<ORACIÓN>) y
otra que señala el final de ella (</ORACIÓN>). La diferencia entre ambas es la barra /, que
significa cierre de etiqueta. Con el mismo método se etiqueta el sujeto, el verbo y el
atributo, y en general todos los textos XML. Cada marca da nombre a lo que en XML se
denomina un elemento.
Supongamos ahora que queremos distinguir entre los verbos que son copulativos y
los que no lo son. Podríamos crear un nuevo elemento del tipo <COPULATIVO> y
añadirlo a nuestro análisis. Sin embargo, esta solución sería poco elegante, pues significaría
que el elemento VERBO tiene dentro otro elemento que a su vez incluye el texto 'es':
( 15 ) <VERBO><COPULATIVO>es</COPULATIVO></VERBO>
18
Tampoco parece justificable que el elemento <COPULATIVO> se abra después y
se cierre antes que el elemento <VERBO> porque en realidad se refieren a la misma pieza
léxica. Para estos casos, XML ofrece la posibilidad de añadir a nuestros elementos
atributos con valores igualmente definidos. Proponemos para nuestro problema el atributo
tipo con los valores "copulativo" y "predicativo". El etiquetado final sería:
( 16 ) <VERBO tipo="copulativo">es</VERBO>
Como detalles formales, cabe advertir que la diferencia entre mayúsculas y
minúsculas es pertinente en todos los nombres XML y que los valores de los atributos
siempre deben aparecer entre comillas.
Un elemento puede tener tantos atributos y tantos subelementos como sean
necesarios, con la precaución en estos últimos de que se cierren en el orden inverso al que
se abrieron, como se observa en el ejemplo (17), la etiqueta ORACIÓN es el primer
elemento en abrirse y el último en cerrarse:
(17 )
<ORACIÓN>
<SUJETO>los tímidos</SUJETO>
<VERBO tipo="copulativo">son</VERBO>
<ATRIBUTO>indescifrables</ATRIBUTO>
</ORACIÓN>
Un ejemplo de DTD con la cual podríamos validar la buena formación del texto del
ejemplo (17) sería el siguiente:
(18)
<!-- DTD : Ejemplo -->
<!-- Sistema de Etiquetado Sintáctico para Corpus -->
<!-- Autor : Ana González Ledesma -->
<!-- Version : 1.3 - 25/06/2003 -->
<!-- DEFINICIÓN DE LOS ELEMENTOS -->
<!-- el elemento mayor es la oración, el cual se compone de otros tres elementos: sujeto, verbo,
atributo -->
<!ELEMENT TEXTO (SUJETO | VERBO | ATRIBUTO)+ >
19
<!— #PCDATA significa que cualquier cadena de palabras puede ser sujeto -->
<!ELEMENT SUJETO (#PCDATA)>
<!— cualquier cadena de palabras puede ser VERBO -->
<!ELEMENT VERBO (#PCDATA)>
<!— Cualquier cadena de palabras puede ser ATRIBUTO -->
<!ELEMENT ATRIBUTO (#PCDATA)>
<!-- DEFINICION DE LOS ATRIBUTOS -->
<!— El etiquetado marca dos tipos de verbos, los predicativos y los copulativos. Es obligatorio
reflejar esta información, por ello escribimos #REQUIRED . En el caso de que hubiéramos
considerado esta información como opcional, la expresión utilizada sería #IMPLIED -->
<!ATTLIST V
tipo (copulativo | predicativo) #REQUIRED
>
Si etiquetáramos un texto y cometiéramos un error durante el etiquetado, al
validarlo con la DTD, XML nos avisaría de que el texto no está bien formado y nos
colocaría el puntero en la parte del texto donde el programa piensa que se encuentra el
error.
20
IV. C-ORAL-ROM Y SESIC (Sistema de etiquetado sintáctico)
IV.1. El problema de la segmentación. Discurso oral frente a discurso escrito.
Hasta hace poco tiempo, el discurso oral no solo había sido siempre rechazado ante
el prestigio del discurso escrito sino que se había hecho una manipulación del mismo
intentando amoldarlo a los patrones de este último.
Es posible que la necesidad de captar e inmovilizar el discurso oral a través de su
transcripción para convertirlo en un texto susceptible de ser analizado haya contribuido a
aumentar la confusión entre estos dos discursos de naturaleza tan diferente. Recordemos,
por ejemplo, la transcripción de corpus orales con signos de puntuación (Benveniste
(1998)).
Normalmente, estamos acostumbrados a estudiar la sintaxis bajo el prisma de la
modalidad escrita, de ahí que cuando nos proponemos estudiar el discurso oral, el primer
obstáculo con el que nos encontremos sea con la segmentación del continuo oral.
Pongamos un ejemplo para que nos familiaricemos con esta idea:
(19) *MAR: que éramos cuatro mujeres como te digo y cuatro hombres ya yo tenía
a mi hermano para mí entonces yo tenía que hacerle todas sus cosas lavarle los
calcetines la ropa todo darle todo limpio y él me tenía que vestir a mí y darme lo
que lo que yo necesitaba ves ? libros &eh ir a dejarme al colegio porque estaba un
poquito lejos ...
Hemos eliminado las marcas prosódicas del texto para que se perciba con mayor
claridad que para etiquetar este continuo oral desde un punto de vista sintáctico debemos en
primer lugar resolver las siguientes cuestiones acerca de cómo segmentar el corpus:
1) Linealidad del lenguaje escrito vs. simultaneidad del lenguaje oral. La
continuación del turno.
2) La relación entre sintaxis y entonación.
3) El concepto de oración.
21
4) El problema de la oración compuesta.
IV.1. 1. Linealidad del lenguaje escrito vs simultaneidad del lenguaje oral. La
continuación del turno.
Llegados a este punto tenemos que plantearnos cómo vamos a tratar los turnos en
los que un hablante no termina su intervención, su interlocutor le interrumpe o se solapa
con él, y el hablante acaba en el turno siguiente. Pongamos un ejemplo:
(20) *LET: hombre / yo a esa tía <no le tocaba>
*DAN: <sólo el objetivo> //
*LET: / un pelo // porque es una cerda // pero vamos //
Como vemos, este fenómeno, por otra parte tan común en las conversaciones sobre
todo de tipo informal privado, en C-ORAL-ROM se marca con una barra / al principio de la
segunda intervención del hablante interrumpido o solapado.
Podríamos preguntarnos cómo tratar estos casos desde un punto de vista sintáctico.
Esto es, ¿cuándo daremos por terminada la oración de LET? ¿Analizaremos sintácticamente
por separado su intervención o la uniremos para conformar una frase?
El problema de fondo que subyace a este fenómeno es el de la incapacidad de
reflejar a través de la escritura un hecho que se da simultáneamente en un tiempo
determinado sin que este paso que se produce al transcribir y que va de la simultaneidad de
lo oral a la linealidad de los escrito no perturbe nuestra concepción del solapamiento y
nuestra forma de analizar el discurso.
De esta forma, si nos decantáramos por la primera opción de las propuestas, esto es,
por la de considerar que la oración termina cuando empieza otro hablante, estaríamos de
nuevo cayendo en el mismo error de siempre, que es el de tratar el lenguaje oral como un
texto escrito.
En el ejemplo anterior, LET acaba su intervención en el texto, pero en la realidad,
si escuchamos la grabación, no. Es por esto que la segunda posibilidad, es decir, la de
intentar respetar la sintaxis de la oración (“interrumpida” para una percepción escrita) es la
que se ha implantado aquí.
22
Por tanto, se analizará como una unidad oracional completa:
(21)
hombre / yo a esa tía no le tocaba un pelo //
En el siguiente capítulo, se explicará cómo se han tratado estos casos
automáticamente.
IV.1. 2. Sintaxis y entonación.
Con respecto a la presencia de la entonación en la sintaxis, Narbona (1988) nos
indica lo siguiente:
“Las gramáticas no suelen prestar gran atención a esta clase de hechos (a no ser en
aquellos casos en que resulta inevitable, como al hablar de la interrogación por
ejemplo), dado que casi siempre operan con secuencias aisladas, inventadas o
aducidas ad hoc, generalmente enunciativas, neutras.”
A continuación veamos el ejemplo con el que comenzamos el capítulo, pero esta
vez con marcas prosódicas. ¿Cuántas oraciones diríamos que contiene este párrafo?
(22) *MAR: que / éramos / cuatro mujeres / como te digo y cuatro hombres // ya yo
tenía a mi hermano // para mí // entonces yo tenía que hacerle todas sus cosas //
lavarle / calcetines / la ropa / todo / darle / todo limpio / y él / me tenía que vestir a
mí // y darme lo que [/] lo que yo necesitaba // ves ? libros / &eh / ir a dejarme al
colegio porque estaba un poquito / lejos ...
Se hace necesaria por tanto la reflexión sobre las relaciones entre sintaxis y
entonación. Para abordar este aspecto, Gutiérrez (1993), se apoya en la siguiente cita de la
obra Prosodic Systems and Intonation in English de David Cristal (1969):
“Una estructura gramatical dada tiene una correlación regular con un modelo
determinado de entonación; un cambio en la entonación produce una nueva
interpretación de la estructura sintáctica de un enunciado sin que sea necesario
ningún cambio morfológico”.
23
Como ya se ha señalado más arriba, C-ORAL-ROM está marcado desde un punto
de vista entonativo por dos etiquetas: la primera, una barra, segmenta el flujo oral en
unidades entonativas; la segunda, las dos barras, el signo de interrogación y los puntos
suspensivos en unidades informativas o utterances.
Cabe preguntarse por tanto si las unidades informativas coinciden con lo que se
entiende tradicionalmente por oración. Para reflexionar sobre esta cuestión, trabajaremos
con el siguiente ejemplo:
(23) *LOR: claro / y yo me quedé / así / yo pensando / será que aquí tiene
asegurado el coche / y aquí / lo lleva él // a este taller //
Pensemos ahora en cuál es la relación sintáctica entre estos dos unidades
informativas:
1.- y aquí / lo lleva él //
2.- a este taller //
Si no tuviéramos información sobre la entonación, la relación sintáctica entre estos
dos enunciados tendría varios análisis:
(1) Son independientes
(2) A este taller es una aposición con respecto a la oración principal.
(3) A este taller sería un sintagma “reduplicado” que convive con el clítico lo.
Las diferentes posibilidades que se ofrecen demuestran la gran trascendencia que va
a tener el modo de dividir el corpus. En primer lugar, porque el simple hecho de segmentar
implica ya un análisis sintáctico; y en segundo lugar, porque posteriormente, este hecho
tendrá consecuencias en el posterior análisis sintáctico de las unidades segmentadas.
La solución que se ha tomado ha sido la de introducir en SESIC la etiqueta de
Enunciado (<E>), con la que se hará coincidir la etiqueta de utterance o unidad informativa
(//,?, ...). Esto significa que el corpus se dividirá inicialmente en unidades informativas.
24
A continuación se presentan algunas de las motivaciones que nos han llevado a
tomar esta resolución:
1.- En el ejemplo que hemos puesto, aunque es evidente que los dos sintagmas
guardan una relación sintáctico-semántica, tenemos que fiarnos de la competencia del
hablante. Si él ha decidido separarlos entonativamente en dos unidades totales o utterances
es que se pueden analizar por separado. En su obra Estructuras sintácticas del español
actual, la autora Mª Luz Gutiérrez señala que tradicionalmente se le han asignado tres
funciones a la entonación: la función integradora, la distintiva y la segmentadora. Según la
autora, esta última “delimita los enunciados y segmenta el continuum del discurso en un
determinado número de unidades por razones fisiológicas, por necesidades de comprensión
del mensaje, o por motivos lingüísticos. Lo ideal es que los motivos fisiológicos coincidan
con los lingüísticos, pero no hay una coordinación perfecta y constante entre ellos. Este es
un problema aún por estudiar. En español, lo único que sabemos es entre qué partes del
discurso no se ejerce la función segmentadora”.
Por tanto, nunca vamos a encontrarnos esta entonación:
(24) El // niño // come patatas.
De ahí que tomemos como punto de referencia fiable la relación entre entonación y
sintaxis para segmentar el corpus en enunciados.
2.- Por otro lado, la tarea de decidir dónde empieza un enunciado y dónde acaba
implicaría la segmentación manual de un corpus de más de trescientas mil palabras. Dicha
segmentación estaría sometida completamente al criterio de una sola persona y no existiría
ninguna forma de validación. Sin embargo, como ya hemos explicado, las marcas
prosódicas en C-ORAL-ROM pertenecen a una teoría de la entonación postulada por
Emmanuela Cresti (2000) y la tarea de marcado prosódico se ha realizado bajo el acuerdo y
supervisión de las personas encargadas de transcribir el corpus.
25
3.- A su vez, esta solución compatibiliza los tres frentes que señalamos en la
introducción, esto es, que el sistema de etiquetado sea coherente, etiquetable y
automatizable. Con esta solución, se puede segmentar todo el corpus en enunciados de
forma completamente automatizada.
IV.1. 3 El concepto de oración
En este estudio, vamos a trabajar con la definición de oración de Gutiérrez (1993):
“La característica principal de la oración es su autonomía lingüística, la cual
se presenta a tres niveles: semántico, fónico y sintáctico. Es decir, una
oración tiene sentido completo, tienen una figura completa en su entonación
(el fundamental acaba en movimiento descendente) y presenta la relación
sintáctica básica sujeto-verbo.”
A continuación, vamos a comprobar si este concepto de oración funciona para un
corpus oral de nuestras características.
Comenzaremos analizando el siguiente ejemplo:
(25) *MIG: levanta el banderín de fuera de juego // y el árbitro / pues pita fuera de
juego porque [/] porque + entiendes ? el que lo anula es el árbitro / si el árbitro dice
que no / es que no //
Hasta ahora hemos conseguido dividir el corpus en enunciados, esto es, en secuencias
comprendidas entre dos pausas fuertes. Los enunciados del ejemplo (25) serían los
siguientes:
i. levanta el banderín de fuera de juego //
ii. y el árbitro / pues pita fuera de juego porque [/] porque +
iii. entiendes ?
iv. el que lo anula es el árbitro / si el árbitro dice que no / es que no //
26
Por tanto, sabemos que el turno de MIG está compuesto por cuatro enunciados, pero
¿cuántas oraciones hay?
Fijémonos en el enunciado iv:
(26) el que lo anula es el árbitro / si el árbitro dice que no / es que no //
Si las producciones de este corpus fueran escritas en lugar de orales, probablemente
el ejemplo hubiera estado escrito de esta forma:
(27) El que lo anula es el árbitro. Si el árbitro dice que no, es que no.
Diríamos entonces que hay dos oraciones perfectamente independientes desde un
punto de vista sintáctico.
(28) El que lo anula es el árbitro.
(29) Si el árbitro dice que no, es que no.
Sin embargo, como ya hemos indicado, el discurso oral se mueve por unas
motivaciones distintas al escrito. Recordemos las palabras de Gutiérrez (1993) citadas
anteriormente: “Lo ideal es que los motivos fisiológicos coincidan con los lingüísticos, pero
no hay una coordinación perfecta y constante entre ellos”. En efecto, no siempre se da esta
correspondencia. Así, en la mayoría de las ocasiones, no terminar la entonación cuando por
el contrario sí que se ha terminado la oración constituye un recurso para hacerle ver a
nuestro interlocutor que no hemos terminado nuestro exposición y que por tanto vamos a
continuar hablando. Mantener la entonación ascendente es una forma de conservar nuestro
turno de palabra. Y esto es precisamente lo que ocurre en el ejemplo (26), donde la oración
el que lo anula es el árbitro está acabada desde un punto de vista sintáctico y sin embargo
no acaba con dos barras ( final de unidad informativa), sino que está separada por la
oración que le sigue por una pausa tonal (/).
Esto demuestra que en el nivel tradicionalmente denominado oracional no hay una
correspondencia equivalente entre sintaxis y entonación, con lo cual, un enunciado puede
estar compuesto por una o más oraciones separadas por una barra.
27
Por tanto, la afirmación de que una oración se carecterice por tener una figura
completa en su entonación (el fundamental acaba en movimiento descendente), como
señalaba Gutiérrez, no es válida para nuestro corpus.
Otra característica del concepto de oración que encabezaba este apartado era la
autonomía sintáctica y semántica. Este criterio nos ayuda a segmentar el enunciado iv en
estas dos oraciones:
(28) El que lo anula es el árbitro /
(29) Si el árbitro dice que no / es que no //
Pero sin embargo el ejemplo (29) nos hace reflexionar sobre cuáles son los límites
de esta autonomía sintáctica y semántica que señalaba Gutiérrez (1993). Ya que como
sabemos, las oraciones introducidas por conjunciones como si, porque, etc, pueden
funcionar de forma independiente:
(30) *MIC: si dice que no // qué quieres que yo le haga ?
(31) *RAQ: pues porque no me da la gana y punto //
Por lo que, para identificar una oración, solo nos quedaría el concepto de
implicación semántica. Pero la misma implicación semántica existe entre los ejemplos (32)
y (33), pero, sin embargo, tradicionalmente reciben análisis diferentes en lo que a la
dependencia sintáctica se refiere:
(32) Si el árbitro dice que no / es que no //
(33) Coser y cantar / todo es empezar //
De todo lo expuesto hasta aquí se pueden obtener dos conclusiones. La primera es
que es necesario redefinir el concepto de oración. La segunda es que no se puede segmentar
el corpus a nivel oracional de forma coherente si no quedan establecidos primero conceptos
como el de subordinación, coordinación, yuxtaposición, etc.
28
IV.1. 2. 4 Entre la oración y el discurso: El problema de "la oración compuesta"
De nuevo este concepto entra en conflicto con la representación del lenguaje oral.
Observemos la siguiente transcripción:
(16) Que lo ha anulado porque se ha equivocado el árbitro pero era válido //
¿Cuántas oraciones diríamos que existen aquí?
Se pueden hacer tres análisis sintácticos:
1. Analizarlo todo como una oración
2. Analizarlo como dos oraciones coordinadas por la conjunción pero:
(17) Que lo ha anulado porque se ha equivocado el árbitro
(18) Pero era válido
3. Analizarlo como tres oraciones:
(19) Que lo ha anulado
(20) Porque se ha equivocado el árbitro
(21) Pero era válido
Los conceptos de coordinación, yuxtaposición y subordinación se tambalean a la
hora de clasificar estas oraciones. Se hace pues imprescindible un posicionamiento teórico
al respecto que nos ayude a etiquetar estas oraciones.
IV.1. 2. 4.1 Una primera aproximación teórica al problema de la oración compuesta.
El problema de la subordinación en español está aún muy lejos de ser resuelto. Para
una estado de la cuestión acerca de este tema remitimos a García (1999).
En nuestro etiquetado se van a distinguir dos niveles: la oración y el discurso.
IV.1. 2. 4. 1. 1 El nivel oracional
Dentro de la oración se pueden dar dos tipos de relaciones: o bien la coordinación o
bien la subordinación.
29
Se entiende por coordinación, la unión de dos o más sintagmas de la misma
naturaleza gramatical a los que se les asigna en conjunto una misma función sintáctica.
(22) Juan y María se casaron por el juzgado
Por el contrario, se entiende que hay subordinación en aquellas oraciones
precedidas de una partícula (conjunción o pronombre relativo) que cumplen una función
sintáctica dentro de la oración que introducen, y que complementan a un núcleo. García
(1999)
(23) Te he dicho que te calles ya de una vez.
IV.1. 2. 4. 1. 2 El nivel discursivo
Dentro del discurso, se darán dos tipos de relaciones oracionales: hipotaxis y
parataxis, de acuerdo con dos criterios:
(1) prescindibilidad sintáctica
(2) implicación semántica
1.- Hipotaxis: “una oración guarda una relación hipotáctica con otra cuando una de
ellas no está seleccionada léxicamente por el verbo de la otra oración ni complementa
ningún núcleo suyo. Tampoco puede decirse que cumplen una función de complemento
circunstancial porque no puede ser sustituido por ningún adverbio. Por tanto hay una
prescindibilidad sintáctica pero no semántica”. García (1999)
(23) Si llueve, no saldremos.
Es el caso de las polémicas oraciones condicionales, concesivas, causales, etc.
2.- Parataxis: una oración guarda una relación paratáctica con otra cuando hay
prescincibilidad sintáctica y semántica.
(24) Juan vive en Madrid y María trabaja en Barcelona.
En el apartado siguiente explicaremos cómo hemos adaptado estas ideas a nuestro
corpus y cómo hemos resuelto las posibles dificultades teóricas en el etiquetado.
30
IV.1. 2. 4.1.3 Proyección sobre el etiquetado
En primer lugar, hemos utilizado, como ya dijimos, la unidad informativa como
frontera. De tal forma que en los ejemplos siguientes:
(30) He suspendido porque no he estudiado //
(31 ) He suspendido // porque no he estudiado //
el ejemplo (30) se etiqueta como un enunciado mientras que el ejemplo (31) se
etiqueta como dos enunciados.
A continuación, si nos centramos en (30):
(30 ) He suspendido porque no he estudiado //
observamos que (30) tiene dos verbos unidos por la conjunción porque.
Queda por determinar, por tanto, qué relación hay entre estas dos oraciones, si de
hipotaxis o de parataxis. Como hay prescindibilidad sintáctica e implicación semántica,
entonces habría una relación de hipotaxis.
En resumen, cuando dentro de un enunciado nos encontremos con más de un verbo
dentro de un enunciado, tenemos que reflexionar sobre cuál es la relación que existe entre
ellos y las correspondientes estructuras argumentales que proyectan, para saber si hay
subordinación; y sobre los criterios de prescindibilidad sintáctica e implicación semántica,
para saber si hay hipotaxis o parataxis.
Si volvemos al ejemplo con que comenzamos el capítulo:
(31) El que lo anula es el árbitro / si el árbitro dice que no / es que no //
En este caso nos encontramos con que la secuencia El que lo anula es el árbitro tiene
satisfecha su estructura argumenta y a su vez no es ningún argumento de otro verbo, con lo
cual no hay subordinación. Tampoco hay hipotaxis porque no hay implicación semántica
31
entre esta secuencia y la que le sigue. Por tanto podemos de hablar ya de una oración que se
relaciona con el resto de las oraciones que forman parte del enunciado de forma paratáctica.
En la siguiente secuencia, nos encontramos con dos verbos cuyas redes temáticas están
completas, por tanto no hay implicación sintáctica. En cambio, sí hay implicación
semántica,
por lo que ya sabríamos que son dos oraciones que están relacionadas
hipotácticamente a través de la conjunción si.
32
V. ASPECTOS DE IMPLEMENTACIÓN
V. 1. EXPLICACIÓN DE LAS ETIQUETAS
Hasta ahora los datos de los que se han servido los lingüistas para confeccionar sus
teorías gramaticales procedían o de los textos escritos o de su propia intuición. Señalemos
las palabras de Narbona (1988) al respecto:
“Las escasas observaciones acerca de la sintaxis coloquial de que
disponemos están referidas preferentemente a diálogos insertos en obras
literarias”.
Para ejemplificar el problema que supone etiquetar datos orales con un bagaje
gramatical que no tuvo en cuenta la oralidad a la hora de concebir sus teorías,
presentaremos los siguientes datos recogidos también de Narbona (1988):
(1) Ya puede pasar hambre / que no roba //
(2) Está bueno / lo que es que raspa mucho //
En la primera oración nos encontramos con una oración concesiva; mientras que en
la segunda, con una adversativa, según Narbona (1988). También según este autor, los
tratadistas parecen coincidir en que la lengua oral hace menos uso de la subordinación que
la lengua escrita. Pero desde su punto de vista “sería necesario aclarar previamente qué ha
de entenderse por subordinación, pues resulta inapropiado identificarla con la mera
presencia de un determinado nexo o conjunción, cosa que suele hacerse”
Y añade: “si no forjamos herramientas conceptuales más apropiadas para la
caracterización de la sintaxis coloquial, no podremos desentrañar los principios
vertebradores y articuladores de su organización.”
Así pues, para este autor, las nociones gramaticales existentes hasta el momento, no
sirven para dar cuenta del lenguaje coloquial, y de hecho, atendiendo a su posición, sería un
error hacerlo.
33
Sin embargo, esta actitud nos somete en la eterna disyuntiva. Para cambiar la
gramática necesitamos nuevos datos, y para trabajar con nuevos datos necesitamos
nombrarlos de alguna forma.
Es por ello, que al diseñar el etiquetado tenemos que ser conscientes de los
siguientes obstáculos:
1. Tenemos que etiquetar y por tanto tomar posiciones teóricas con respecto a
temas todavía no solucionados por las gramáticas del español.
2. Tenemos que enfrentarnos a fenómenos poco estudiados o simplemente no
tratados por la sintaxis tradicional, y de los que hay que dar cuenta mediante una
etiqueta.
3. Debemos superponernos a análisis inapropiados de la sintaxis tradicional y que
precisamente están influidos por la elaboración de teorías a partir de datos no
orales. Así por ejemplo, Narbona (1988) señala que como la descripción
gramatical se hace a partir de “secuencias declarativas neutras, los fenómenos de
tematización (o topicalización) se continúan considerando por algunos como
anticipaciones provocadas por razones afectivas o de énfasis y se califican como
dislociaciones o alteraciones e incluso irregularidades”. Pensemos en casos
como por ejemplo “Yo no me gusta de ir a esos sitios”. Pues tenemos que
reflejar estos fenómenos y abstraernos de una visión prejuiciosa que intenta
enfocarlos como un fenómeno irregular (cuando en realidad es muy normal en
el lenguaje oral) por el simple hecho de que estos datos no encajan en las teorías
gramaticales concebidas hasta la fecha.
Es por ello que una de las características más importantes del diseño de las etiquetas
está fuertemente apoyada en el propósito de hacer un etiquetado lineal, sin operar en el
texto ningún tipo de transformación sintáctica que vaya de la estructura básica o profunda a
la superficial.
Los constituyentes se etiquetan en el orden en el que van apareciendo. Esto
complica la DTD porque en cada nivel hay que declarar la posible presencia de elementos
reformulados, marcadores discursivos, apoyos lingüísticos, etc.
34
Pues bien, según esto, cualquier constituyente puede ocupar cualquier posición
sintáctica; y de la misma forma, en principio, cualquier constituyente es susceptible de ser
interrumpido por un signo paralingüístico o reformulado.
Sin embargo, nunca se deberá entender esto último como una regla o principio
gramatical sobre el orden sintáctico de los elementos en el español oral. Solo pretende ser
una generalización lo suficientemente flexible como para dar cuenta de todas las
posibilidades contempladas (o no contempladas) que nos podamos encontrar en los datos
recogidos.
Por su parte, los principios o las reglas gramaticales al respecto se obtendrán
posteriormente, cuando haya una parte representativa del corpus anotada y se puedan
inducir de los datos patrones de orden sintáctico en los diferentes registros del lenguaje oral
en función de su frecuencia de uso o grado de probabilidad.
De esta forma sabremos, por ejemplo, si estas partículas como por ejemplo los
apoyos vocálicos, las reformulaciones o los marcadores discursivos podrían pasar a formar
parte de nuestra concepción de la sintaxis o no. Se despejarán dudas acerca de si todos los
elementos en realidad son reformulables, sobre si los marcadores discursivos aparecen en
cualquier parte del discurso o si, por el contrario, prefieren algunas posiciones sintácticas
determinadas.
A continuación presentamos la tabla de etiquetas seleccionadas:
ELEMENTO
ETIQUETA
TEXTO
CABECERA
TRANSCRIPCIÓN
TURNO
ANÁLISIS
ENUNCIADO
ORACIÓN
CONJUNCIÓN
MARCADOR DISCURSIVO
INTERJECCIÓN
CLÁUSULA MÍNIMA
EXPRESIONES NO LINGÜÍSTICAS
NIVEL SINTAGMÁTICO
NIVEL VERBAL
VERBO
VERBO PLENO
AUXILIAR
CLÍTICO
NEGACIÓN
TEX
CB
T
TUR
A
E
O
C
MD
J
CM
H
SS
VV
V
V1
AUX
CLI
N
35
1.- LA ETIQUETA TEXTO, <TEX></TEX>
Entre estas dos etiquetas se etiquetará todo el texto de la transcripción. Ejemplo:
<TEX>@Partincipants: [...]</TEX>
2.- LA ETIQUETA CABECERA, <CAB></CAB>
Estas dos etiquetas se colocarán al principio y al final de la cadena de palabras que
componen la cebecera de una conversación.
<CAB>
@Title: el cumpleaños de David
@File: efamdl27
@Participants: HEL, Elena, (woman, A, 3, student, participant, Madrid)
MAN, Manuel, (man, A, 3, postgraduate student, participant,
Madrid)
@Date: 24/03/2001
@Place: Madrid
@Situation: chat between friends at parent's home
@Topic: birthday party, friends and studies
@Source: C-ORAL-ROM
@Class: informal, family/private, dialogue
@Length: 10' 04''
@Words: 1565
@Acoustic_quality: A
@Transcriber: Ana
@Revisor: Jesús; Guillermo, Jesús and Ana (prosody)
@Comments:
</CAB>
3.- LA ETIQUETA TRANSCRIPCIÓN, <T></T>
Se colocarán al principio y al final de la transcripción del sonido.
4.- LA ETIQUETA TURNO, <TUR></TUR>
Marcarán el principio y el final de cada turno.
<TUR>*MAN: vaya rollo ayer / para aparcar / eh ? </TUR>
5.- LA ETIQUETA ANÁLISIS, <A></A>
Esta etiqueta contiene el análisis sintáctico de la secuencia de palabras contenida en
cada turno.
<A> vaya rollo ayer / para aparcar / eh ? </A>
36
6.- LA ETIQUETA ENUNCIADO, <E></E>
Como ya sabemos, se etiquetarán entre la apertura y cierre de esta marca, las
unidades informativas o utterances, las cuales vienen comprendidas entre dos barras (//),
signo de interrogación (?) y puntos suspensivos (...). Ejemplo:
*MAN: ya // pero al final / te sale más caro / más tiempo ...
Texto etiquetado: <E> ya </E><E> pero al final / te sale más caro / más tiempo
...</E>
No podemos esperar que todos los turnos de los hablantes que sean oraciones, tal y
como las entendemos, es decir, como la construcción de un verbo que selecciona
léxicamente unos constituyentes. La presencia de un contexto compartido por los hablantes
que, a diferencia de la modalidad escrita no es necesario especificar, explica casos como el
siguiente:
(4) *LOL: hola muah muah qué tal?
Por otra parte, hay producciones que nos sirven para indicar a nuestro interlocutor
que le estamos escuchando, como por ejemplo el caso del si regulativo en una conversación
telefónica. De ahí que también hayamos elegido la etiqueta de enunciado para abarcar este
tipo de intervenciones.
7.- LA ETIQUETA ORACIÓN, <O></O>
Vendrán etiquetadas entre estas dos marcas las secuencias de palabras que
contengan un verbo con sus respectivos argumentos.
<O> yo no sé quién es el / que me lo dijo </O>
En los atributos se especificará la información acerca de su entonación, de la relación
que guarda con otras oraciones o con otros sintagmas del discurso y, por último, en el caso
de que exista subordinación, de la función sintáctica que cumpla.
a.- Entonación: interrumpida, interrogativa, suspendida.
37
b.- Relación sintáctica: coordinación, subordinación, hipotaxis, parataxis.
c.- Función sintáctica: sujeto, complemento directo, complemento
indirecto, etc.
8.- LA ETIQUETA CONJUNCIÓN, <C></C>
Se etiquetarán con esta marca tanto las conjunciones tradicionales como las
locuciones que cumplan esta función. Las palabras que se van a considerar conjunción
están agrupadas en una lista que se irá ampliando durante la etapa de etiquetado manual.
Dentro de esta lista, las palabras que no sean ambiguas, esto es, que siempre reciban el
análisis de conjunción se etiquetarán de forma automática mediante un programa en Perl.
<C>pero</C> mañana no me caso.
Información sintáctica de las conjunciones:
a.- Relación sintáctica con otras oraciones: coordinación, subordinación,
hipotaxis, parataxis
b.- Relación sintáctica con el verbo al que modifican. En la DTD, esta información se
codifica mediante el atributo vmod=.
A la derecha del signo de equivalencia se
introducirá o bien el verbo o bien el antecedente de la oración con la que la conjunción
establece un tipo de relación bien hipotáctica, bien de subordinación, etc.
Así por ejemplo, este atributo es muy útil no solo para los casos tradicionales como
los de un antecedente nominal para el pronombre relativo, sino también para aquellos
casos en los que un hablante A termina o reformula o complementa la sintaxis de una
oración dicha por un hablante B.
(10) *ANT: ha dicho que no volverá //
*MIG: y que no traerá lo que le prestamos //
En el ejemplo (10) la conjunción que tendría en las dos apariciones como vmod=ha
dicho, ya que ambas oraciones introducidas por que tienen una función completiva
de objeto directo con respecto a la forma verbal “ha dicho”.
38
c.- Naturaleza gramatical de la conjunción:
Cg
Adv
Conj
Pron
Prepcom
Categoría gramatical
Adverbio
Conjunción
Pronombre
Locución
Ejemplo
Tan, como, etc.
Que, y, pues, etc.
Que, los que, la que, etc.
En tanto que.
Como se puede observar, una conjunción puede ser un adverbio, una conjunción o
un pronombre o una locución. En principio esto es una contradicción porque
tradicionalmente se han diferenciado las conjunciones de los pronombres relativos. Pero, en
este etiquetado, una conjunción se entiende como una partícula que, o bien une sintagmas u
oraciones, o bien subordina oraciones, independientemente de su naturaleza gramatical.
d.- Posibilidad de reformulación: cuando la conjunción aparezca reformulada
se pondrá este valor como atributo. Ejemplo:
*MIG: y [/] y no sé qué más decirte.
En el etiquetado la primera aparición de la conjunción y aparecerá etiquetada de esta
forma:
<C for=reformulado>y</C>
9.- LA ETIQUETA MARCADOR DISCURSIVO, <MD></MD>
La lista de palabras que se van a etiquetar como MD está recogida de Portolés y
Zorraquino (1999). A esta lista se han añadido otras palabras que para C-ORAL-ROM
Madrid también cumplen esta función; es el caso de la secuencia es que en el ejemplo que
viene a continuación:
(32) *HEL: [<] < porque > a mí se me empezaron a saltar las lágrimas / de la risa /
y me / decía David / pero de qué te ríes / de qué os reís // ¡jo! / contármelo / de qué
os reís // y estaba más perdida ... no me enteraba de nada //
*MAN: es que / no era ... os reíais demasiado / para lo que era // hhh // la margarita
/ hizo su efecto //
%act: (12) laugh
*HEL: sí // pero es que ... Las palabras que siempre y únicamente sean MD se
etiquetarán de forma automática en esta primera etapa del etiquetado.
Posteriormente se confeccionarán reglas contextuales que sean capaces de
desambiguarlas contextualmente.
39
Las palabras que sean MD y que no sean ambiguas desde un punto de vista
categorial se etiquetarán de forma automática. Así, por ejemplo, la multiword o sea
siempre va a ser MD1; por el contrario, la secuencia es que puede ser o bien MD o bien un
verbo más su conjunción, como por ejemplo, en la frase La verdad es que tanto esfuerzo no
merece la pena.
Los marcadores discursivos se van a caracterizar con la siguiente información:
a.- Tipo de MD: la clasificación que se presenta en el cuadro anterior es una
versión reducida de la de Portolés (1998).
Tipo de Marcador Discursivo
estructurador_informativo
conector
Reformulador
Operador_argumentativo
Marcador_conversacional
Ejemplo
en primer lugar, por otra parte, así las cosas
Además, por tanto, en cambio, entonces
es decir, mejor dicho, más bien, o sea, etc.
en realidad, de hecho, por ejemplo, etc.
Hombre, mujer, mira, oye, etc.
d.- Posibilidad de reformulación..
10.- LA ETIQUETA INTERJECCIÓN, <J></J>
Dentro de la documentación del corpus C-ORAL-ROM, existen dos listas de
conjunciones. La primera corresponde a las interjecciones recogidas por la RAE. La
segunda, está compuesta por palabras que a pesar de ser interjecciones claras no aparecen
en el DRAE. Algunos ejemplos de esta última lista son ¡madre mía de mi vida y de mi
corazón!, ¡yuju!, ¡hostias!, ¡por dios bendito!, etc.
Como siempre se marcan entre signos de exclamación, no hay posibilidad de
ambigüedad lingüística en estos casos, por lo que, tanto unas como otras, se etiquetarán
automáticamente.
11.- LA ETIQUETA CLÁUSULA MÍNIMA, <CM></CM>
Leamos el ejemplo siguiente, recogido de un programa de radio sobre deportes.
(33)
*LEC: se me escucha bien ?
*MON: ahora / perfecto //
1
La experiencia sobre desambiguación categorial del corpus C-ORAL-ROM que se está llevando a
cabo actualmente en el LLI nos dice que las posibilidades de que o sea se comporte como una
conjunción, por ejemplo en la oración Sea un cosa o sea otras, son muy reducidas.
40
Para este tipo de estructuras predicativas tales como las del ejemplo (33), Ahora
perfecto, hemos decidido utilizar la etiqueta de CM, cláusula mínima. Enfocaremos esta
etiqueta como una forma de localizar estructuras no verbales que guardan una relación
predicativa. Queremos incidir en este punto en el valor puramente descriptivo de las
etiquetas. No pretendemos con ello explicar si en esta clase de estructuras existe o no un
verbo elidido, ya que ello implicaría un posicionamiento teórico acerca de la existencia de
la elipsis y categorías vacías que consideramos ajeno a los objetivos de este trabajo; los
cuales pretenden introducir información sintáctica en un corpus oral con el fin de que
posteriormente se puedan obtener patrones sintácticos, o bien inducir gramáticas, o
finalmente solucionar cuestiones teóricas tan polémicas como las que estamos tratando.
12.- LA ETIQUETA EXPRESIONES NO LINGÜÍSTICAS, <H></H>
Están marcados de esta forma todos los apoyos vocálicos (&ah, &mm, y &eh), los
sonidos paralingüísticos (hhh) y las palabras incomprensibles (xxx).
*HEL: de Internet // como no le voy a ver //
*MAN: hhh // la tengo //
%act: (1) assent
Con la tabla siguiente presentamos la clasificación de las expresiones no lingüísticas
que se va a reflejar en los atributos.
Signos paralingüísticos
H
Valores
Apoyo vocálico
Ap
&eh &ah &mm
Signo convencionalizado
Hl
Interrogation, assent, laugh,
click, blow.
Signo no convencionalizado
Hn
hhh
Sonido no comprensible
Na
xxx
A pesar de que estas etiquetas no son propiamente sintácticas, creemos que es
relevante etiquetarlas dentro de un sistema de etiquetado sintáctico porque forman una parte
41
muy importante del discurso oral. Si las eliminamos del discurso oral la comprensión de la
transcripción quedaría mermada:
(6) *LOL: xxx cinco mil euros //
*ANA: hhh //
%act: interrogation
*LOL: veinticinco mil euros he dicho //
Es importante saber cuándo interrumpimos la sintaxis del discurso y necesitamos
poner un apoyo vocálico, por ejemplo. Es posible que la inclusión de estos elementos nos
ayuden a tener otra visión de la sintaxis y por ello es necesario representarlos mediante una
etiqueta.
13.- LA ETIQUETA NIVEL SINTAGMÁTICO, <SS></SS>
En esta etapa del desarrollo del etiquetado, quizás sea esta la etiqueta más débil y menos
definida de todas, ya que la agrupación de palabras que conforman un sintagma se hace
manualmente por el lingüista.
El laboratorio de Lingüística Computacional de la Universidad Autónoma está
desarrollando un chunker que agrupe automáticamente las palabras que forman un
sintagma. Cuando este nivel de etiquetado esté desarrollado, se redefinirá esta etiqueta y los
componentes que pueden formar parte de ella.
Los sintagmas aparecerán caracterizados con diferentes tipos de información:
a.- Categoría gramatical.
CG
Nom
Det
Adj
Adv
Pro
Inf
Ger
Categoría funcional
Nombre
Determinante
Adjetivo
Adverbio
Pronombre
Infinitivo
Gerundio
42
Ejemplos
Casa
Ese, el, la, lo...
Miserable
Cómodamente
Él
Cantar
Cantando
b.- Función sintáctica.
FS
Suj
Cd
Ci
Cc
Cero
Cn
Cop
Cpredic
Voc
Función sintáctica
Sujeto
Complemento directo
Complemento indirecto
Complemento circunstancial
Sin función sintáctica
Complemento del nombre
Complementos de un verbo
Copulativo: sujeto y atributo
Complemento predicativo
Vocativo
Ejemplos
El perro come
El perro se come las sobras
Le regalé esto a Ana
Quedamos a las tres
*TUR: el colegio
La madre de tu tía
Esto fue sensacional
No quiero pescado crudo
Antonia, sube a cenar.
c.- Relación sintáctica con otros constituyentes: coordinación, subordinación, hipotaxis,
parataxis, núcleo.
d.- Posibilidad de reformulación: se especificará si el sintagma está interrumpido o
reformulado.
e.- Entonación: solo se pondrá esta etiqueta cuando la entonación del sintagma sea
interrogativa o suspendida.
13.- LA ETIQUETA NIVEL VERBAL, <VV></VV>
Si atendemos a nuestra DTD, el verbo podría haberse tratado como un sintagma más
del que luego se especificaría en los atributos su naturaleza verbal CG=verbo.
Por el contrario, en SESIC se le ha asignado una etiqueta que le distinga de otros
tipos de sintagmas y que le convierta en el verdadero protagonista de la oración, donde
recordemos la descripción en la DTD, todos los demás constituyentes son opcionales
menos este que es obligatorio.
La idea que subyace a este tratamiento de la categoría verbal es la de que SESIC
concibe todas las relaciones intraoracionales en torno al verbo.
Además, una de las metas futuras de este estudio es poner en relación con miras al
etiquetado automático a SESIC con SESCO (sistema de etiquetado semántico para corpus)
el cual está basado en esta concepción teórica.
Por otra parte, en cuanto a la distinción en dos niveles, VV y V, satisface diferentes
inquietudes:
43
Como en cualquier otro nivel también aquí tenemos que predecir la existencia de
reformulación o de otros elementos propios del lenguaje oral y ajenos a la sintaxis verbal.
En segundo lugar, queremos dar cuenta primero de las perífrasis verbales, y
segundo, de aquellas partículas que en SESIC no se consideran sintagmas sino morfemas
verbales, tales como la negación del verbo y los pronombres átonos.
14.- LA ETIQUETA VERBO, <V></V>
Dentro de esta etiqueta puede aparecer:
a.- Un verbo pleno, con información gramatical y léxica, como por ejemplo,
el de la oración Ayer salí. Este caso se etiquetará de la siguiente forma:
(1) Ayer <V><V1>salí</V1></V>
b.- Un verbo compuesto:
(2) Esta noche <V><AUX>he</AUX><V1>salido</V1></V>
c.- Una perífrasis verbal:
(3) Anda diciendo por ahí que eres imbécil
En principio, podríamos haber etiquetado el verbo compuesto o la perífrasis
verbal con una sola etiqueta, <V1>anda diciendo</V1>, como si fueran una
multiword; sin embargo, el hecho de que puedan aparecer constituyentes
entre el verbo auxiliar y el verbo léxico, nos ha llevado a etiquetarlos de
forma separada. Ejemplo:
(3) y que estaba también justi [///]gesticulando //
17.- LA ETIQUETA CLÍTICO, <CLI></CLI>
Hemos decidido tratar los clíticos como una categoría diferente a la de los
sintagmas, y además proyectarlos dentro de la esfera del verbo porque de esta manera se
reflejaría el proceso de gramaticalización que están atravesando estas palabras, a causa del
cual, se encuentran a medio camino entre una palabra plena y un afijo del verbo.
44
En Fernández (1999) se nos dan algunos argumentos a favor de este enfoque.
Resumamos algunos de ellos:

Dependen fonológicamente del verbo con el que aparecen, no pueden darse aislados, ni
siquiera como contestación a una pregunta. A este respecto se asemejan más a los
morfemas ligados que a las palabras.

No pueden entrar en relaciones de contraste ni recibir marcas distintivas como la que se
sigue de ser el objeto de una interrogación, dada su condición de átonos (ejemplos
tomados de esta autora):
(1) Prefieres café o tila?
-Café
(2) Lo prefieres o la prefieres?
- *lo

No pueden formar parte de una coordinación ni tampoco ser elididos por identidad, de
nuevo análogamente a lo que ocurre con los morfemas flexivos:
(3) Juan trajo el coche y la moto
(4) Juan lo y la trajo
(5) Juan lavó y regaló toda su ropa
(6) *Juan la lavó y regaló

Se ajustan a un orden muy rígido de persona, característica más propia de los afijos que
de las palabras plenas.

(7)
Me lo das
(8)
*lo me das
Desencadenan procesos fonológicos en el verbo al que se adjunta: marchensen,
siéntensen , se los doy (les doy el regalo a los niños).
45
Aparte de esto, también hay diferencias entre los diferentes tipos de pronombres, leamos
la siguiente reflexión de Fernández (2000):
“Si se quiere comprender de modo cabal el fenómeno de la cliticización en español, es
preciso tener en cuenta que estamos ante un grupo muy heterogéneo de elementos que se
encuentran posiblemente en proceso de cambio y muestran una gran variación dependiendo
del dialecto. En la mayoría de los trabajos que se ocupan de los pronombres átonos no se ha
planteado la posibilidad de que los clíticos puedan no analizarse todos del mismo modo. [...]
En una primer aproximación emerge de manera bastante clara el hecho de que los clíticos
de primera y segunda persona no son totalmente equiparables a los de tercera. Además solo
los pronombres de tercera persona alternan con expresiones referenciales. Esto hace que la
aparición de los clíticos de primera y segunda personas sea siempre obligatoria.”
Los atributos de los clitícos están inspirados en las reflexiones de esta autora acerca del
comportamiento de los clíticos en español; en ellos se considera la posibilidad de que
aparezcan reformulados, se atiende a su posición pre o posverbal, a la persona y al caso.
.
<!-- CLI va a tener los siguientes atributos-->
<!ATTLIST CLI
for (interrumpido | reformulado) #IMPLIED
posición (enclisis | proclisis) #REQUIRED
primeraysegunda (objetivo) #IMPLIED
tercera (acusativo | dativo) #IMPLIED
se (imp | reflex | pronominal | pasivo | medio) #IMPLIED>
18.- LA ETIQUETA NEGACIÓN, <N></N>, etiquetará dentro del complejo verbal VV
la partícula no. Ejemplo:
(9) No me ha venido.
(10)
<VV>
<N>no</N>
<CLI posición=proclisis primeraysegunda=objetivo>me</CLI>
46
<V>
<AUX>ha</AUX>
<V1>venido</V1>
</V>
</VV>
47
V. 2. DTD y SESIC
En este apartado, se presenta el documento DTD que sirve para validar la buena
formación de un texto etiquetado según el sistema SESIC.
Desde el punto de vista del contenido del documento, una DTD se estructura en
encabezamiento, definición de los elementos y definición de los atributos. En cambio,
desde un punto de vista formal, el texto se divide en dos clases de líneas:
a.- Las que comienzan por la marca <!-- y terminan con -->; entre estas dos
marcas podemos incluir cualquier tipo de comentario acerca de la DTD o del
documento.
b.- Las que comienzan por <! y acaban en -->. Donde se escribe la estructura o el
esquema que deseamos que tenga nuestros documentos en XML.
A continuación, vamos a explicar en las líneas dedicadas a comentarios cada una de las
expresiones que definen la DTD.
<!-- edited with XML Spy v3.5 NT (http://www.xmlspy.com) by () -->
<!-- DTD : SESIC -->
<!-- Sistema de Etiquetado Sintáctico para Corpus -->
<!-- Autor : Ana González Ledesma -->
<!-- Version : 1.3 - 17/02/2003-->
<!-- DEFINICIÓN DE LOS ELEMENTOS -->
<!-- En toda DTD el primer elemento es aquel que contiene el resto de la estructura. En la
nuestra, este elemento es la transcripción, que recibe la etiqueta de TEX. La expresión
que sigue a este comentario se podría leer de esta forma: todo texto está compuesto por
dos elementos, una cabecera y la transcripción propiamente dicha -->
<!ELEMENT TEX (CB, T)>
<!-- la cabecera de una conversación recoge datos referidos a la grabación, los hablantes,
etc.-->
<!ELEMENT CB (#PCDATA)>
<!-- un texto T está compuesto por el fragmento de conversación que se va a analizar,
TUR, y el análisis propiamente dicho, A. El signo + significa uno o más.-->
<!ELEMENT T (TUR, A)+>
<!-- TUR significa turno y abarca la intervención de un hablante.-->
<!ELEMENT TUR (#PCDATA)>
48
<!-- En A comienza el análisis sintáctico de lo expuesto en T. A su vez, un turno está
compuesto por uno o más enunciados.-->
<!ELEMENT A (E+)>
<!-- un Enunciado puede ser un sintagma, un signo paralingüístico, una interjección, un
marcador discursivo, una cláusula mínima, y también puede estar constituido por una o
más oraciones unidas una conjunción. Aunque los marcadores discursivos o los
sintagmas pueden estar también dentro de una oración los hemos sacado de ella porque
pueden formar por sí mismos un turno o un enunciado.
En principio, tenemos que adelantarnos a la posibilidad de que estos elementos
aparezcan en un orden diferente a como los hemos colocado aquí. Recordemos que en
XML el orden es pertinente. Esto es, si se pone primero O y luego MD, necesariamente el
programa va a exigir que los datos se etiqueten en este orden. Es por ello que hemos
tenido que incluir la segunda parte de la expresión, (O | MD | J | CM | H | SS)*), según la
cual estos elementos pueden aparecer en el texto cero o más veces, con lo que nos
aseguramos un buen margen de libertad sintáctica para la aparición de estos elementos.
-->
<!ELEMENT E ((O | MD | J | CM | H | SS)+, (O | MD | J | CM | H | SS)*)>
<!-- un H es un apoyo incluye &ah, &mm, e &eh y los hhh y xxx con y sin significado.
Empty significa que los datos que pueden aparecer en este elemento son únicamente los
que aparecen en los atributos. Esta es una forma de controlar los datos que pueden
aparecer en cada elemento.-->
<!ELEMENT H EMPTY>
<!-- J es una interjección. A pesar de que (#PCDATA) signifique que cualquier cadena de
datos puede ser J, ya hemos señalado en el apartado anterior, que el control sobre los
datos que pueden ser o no interjección se ejerce mediante el etiquetado automático de
listas y no desde la DTD-->
<!ELEMENT J (#PCDATA)>
<!—Las mismas observaciones para el MD, marcador disursivo. -->
<!ELEMENT MD (#PCDATA)>
<!-- una CM, cláusula mínima-->
<!ELEMENT CM (#PCDATA)>
<!-- una O oración. Si leemos detenidamente la expresión que viene a continuación, se
observará que el único elemento obligatorio es VV. Sin embargo, nos hemos visto
obligados a declarar, y más de una vez, la presencia de todos los demás elementos para
prever su posible aparición. Ello no quiere decir que en el lenguaje oral cualquier
constituyente puede ocupar cualquier posición sintáctica, sino que como desconocemos
en qué orden pueden aparecer dejamos abierta cualquier posibilidad. Recordemos que
hay elementos como el MD sabes? o la interjección ¡joder! cuyas posiciones sintácticas
son muy difíciles, hoy por hoy, de predecir.-->
<!ELEMENT O ((SS* | C* | MD* | J* | CM* | H* | VV | O*), (SS | MD | J | CM | H | VV | O|
C)*, ( C | SS | MD | J | CM | H | VV | O)*)>
<!-- un VV contiene un verbo o más de uno siempre que estén reformulados, y la
posibilidad de tener clíticos y negación. Recordemos que el signo de interrogación
significa en lenguaje XML que el elemento puede aparecer cero o una vez.-->
49
<!ELEMENT VV (N?, CLI?, CLI?, V, CLI?, CLI?)>
<!-- N para la negación del verbo
-->
<!ELEMENT N (#PCDATA)>
<!-- CLI es la etiqueta para los clíticos -->
<!ELEMENT CLI (#PCDATA)>
<!-- un V es un verbo simple o compuesto-->
<!ELEMENT V ((AUX)*, (MD | SS)*, (V1)*)>
<!-- un AUX es un verbo auxiliar -->
<!ELEMENT AUX (#PCDATA)>
<!-- V1 para los verbos con significado léxico y gramatical o solo léxico-->
<!ELEMENT V1 (#PCDATA)>
<!-- un SS contiene un sintagma -->
<!ELEMENT SS (#PCDATA)>
<!—C conjunción-->
<!ELEMENT C (#PCDATA)>
<!-- DEFINICIÓN DE LOS ATRIBUTOS -->
<!—La información gramatical de las oraciones se expresa a través de estos valores. -->
<!ATTLIST O
CADENA CDATA #REQUIRED
ent (interrumpido | interrogativa | suspendida) #IMPLIED
relación (coordinación | subordinación | hipotaxis | parataxis) #REQUIRED
FS (suj | cd | ci | cc | cero | cn | cop | rf | cadv | cpred) #REQUIRED
>
<!—Atributos del verbo pleno-->
<!ATTLIST V1
v (inf | imp | gerundio | flex) #REQUIRED
for (interrumpido | reformulado) #IMPLIED
>
<!—Los atributos de CLI reflejan las nociones gramaticales que hemos expuesto en el
apartado anterior. -->
<!ATTLIST CLI
for (interrumpido | reformulado) #IMPLIED
posición (enclisis | proclisis) #REQUIRED
primeraysegunda (objetivo) #IMPLIED
50
tercera (acusativo | dativo) #IMPLIED
se (imp | reflex | pronominal | pasivo | medio) #IMPLIED
>
<!—C, atributos con los que se van a caracterizar las conjunciones.-->
<!ATTLIST C
relación (coordinación | subordinación | hipotaxis | parataxis) #REQUIRED
vmod CDATA #REQUIRED
cg (adv | conj | pron | prepcom) #REQUIRED
for (reformulado) #IMPLIED
>
<!—Los atributos de MD contemplan la clasificación de estas partículas en tipos y la
posibilidad de que aparezcan reformulados -->
<!ATTLIST MD
Tipo (estructurador_informativo | conector | reformulador | operador_argumentativo |
marcador_conversacional) #REQUIRED
for (reformulado) #IMPLIED
>
<!—A través de los atributos del sintagma se expresa la información sobre su naturaleza
categorial, sobre la función sintáctica que desempeña, sobre si está interrumpido o
reformulado, y finalmente sobre el tipo de relación que guarda con el contexto sintáctico.->
<!ATTLIST SS
CF (nom | det | adj | adv | prep | pro | cero | inf | ger | imp) #REQUIRED
FS (suj | cd | ci | cc | cero | cn | cop | cpredic | voc) #REQUIRED
FOR (interrumpido | reformulado) #IMPLIED
relación (coordinación | subordinación | hipotaxis | parataxis | núcleo) #REQUIRED
>
<!—Los atributos de H reflejan la clasificación que se ya hemos explicado -->
<!ATTLIST H
ap (eh | mm | ah) #IMPLIED
hl (laugh | assent | interrogation | click | blow) #IMPLIED
hn (hhh) #IMPLIED
na (xxx) #IMPLIED
>
<!-- Ponemos como atributo la posibilidad de incluir la cadena de palabras como valor
para facilitar el análisis sintáctico en los casos en los que el enunciado sea muy largo.-->
<!ATTLIST E
CADENA CDATA #IMPLIED
>
51
<!—AUX, el auxiliar solo se va a caracterizar con la posibilidad de que aparezca
interrumpido o reformulado. -->
<!ATTLIST AUX
FOR (interrumpido | reformulado) #IMPLIED>
V. 3. EVALUACIÓN DEL SISTEMA DE ETIQUETADO
Para comprobar la validez este sistema de marcas sintácticas se han etiquetado tres
conversaciones de aproximadamente mil quinientas palabras cada una.
Cada conversación pertenece a un género conversacional completamente distinto:
informal coloquial, media y formal.
Hemos decidido probar este sistema con grabaciones que se dieron en situaciones
comunicativas de naturaleza muy diferente, ya que como comprobaremos a continuación el
grado de formalidad influye directa y proporcionalemente en la modalidad sintáctica.
Observemos los siguientes ejemplos:
(1) Conversación entre amigos sobre fútbol
*MIG: tampoco hay mucho que [/] no ?$ que escuchar //$ xxx //$
*PAC: no sé / &eh / has visto el Marca hoy ?$
*MIG: no //$ el Marca no lo he <&com> +$
*PAC: [<] <ponía> [/] decía Gaspart / que le habían robado la
cartera //$
*MIG: <hhh> //$
%act: (1) laugh
*PAC: [<] <por lo del gol> //$ ponía le &ha [/] le han [/] me
han robado la cartera //$
*MIG: y qué [/] y qué ha <dicho él> ?$
*PAC: [<] <pues que> no //$ que decían que era un gol /$
*MIG: que es <legal> //$
*PAC: / [<] <que era> válido //$ <hhh>$
*MIG: [<] <ya> //$
*PAC: / que lo ha anulado / porque se ha equivocado el
árbitro / pero que era válido //$
(2) Programa de radio cultural sobre palíndromos
*MAR: son / las once únicas / que presentan / una grafía /
absolutamente / simétrica //$ y por tanto / resiste la prueba
del espejo / eh ?$ es decir / nos podemos poner / ante un
52
espejo / con un / jersey / en el que hayamos escrito / alguna
cosa / con esas once letras / y vamos a poder leerlo / eh ?$
*PEP: <¡ajá!> //$
*MAR: [<] <sin> que se nos dé la vuelta //$
*PEP: eso está bien //$
(3) Conferencia en la universidad sobre el lenguaje
*SIG: si / de todas maneras / algo se habla / de lenguaje interiorizado / en la
sicología que se enseña en nuestros días / es / gracias / a lo que / en un
momento determinado / dijo / Vigotsky / que para explicar / justamente / los
mecanismos de la mente / hizo notar / que / si se / ve a un niño / jugando solo /
con un juego de construcciones / el niño / acompaña su actividad / de /
verbalizaciones //
Tal y como se deduce de los datos, a medida que el nivel de habla es más formal, y
se acerca más a la modalidad escrita, no solo los turnos son más largos, sino que los
períodos sintácticos se acercan más a la sintaxis escrita. Observemos, por ejemplo, el caso
de la conferencia.
Es por ello que decidimos comprobar que el etiquetado funcionaba para todo el
corpus eligiendo tres géneros representativos en el eje que oscila de lo informal a lo formal.
53
V.4. PERL, ETIQUETADO AUTOMÁTICO
Perl (Practical Extractio and Report Language) es un lenguaje desarrollado por
Larry Wall cuyo punto fuerte son las labores de procesamiento de textos y archivos.
Una vez que ya hemos establecido las etiquetas, Perl nos permite hacer programas
que, primero, preparan el texto de la transcripción en un formato apropiado para que sea
etiquetado, y segundo, introducen algunas etiquetas que son fijas y no necesitan
intervención manual. A continuación se expone, a través de un ejemplo y paso a paso, el
tratamiento que sufre el texto hasta que llega definitivamente a la etapa de etiquetado
manual por el lingüista.
Nos encontramos con el siguiente texto para etiquetar. Es un fragmento de una
conversación de 1500 palabras aproximadamente.
<TimeStamp>B3FE89B2-3564-441E-834A-2C3DEA5D82A3</TimeStamp>[
@Title: fútbol y baloncesto
@File: efamdl03
@Participants: MIG, Miguel, (man, B, 2, taxi driver, participant, Madrid)
PAC, Paco, (man, A, 2, air condition installer, participant, Madrid)
@Date: 04/03/2001
@Place: Madrid
@Situation: chat between friends at home, not hidden, researcher observer
@Topic: football and basketball
@Source: C-ORAL-ROM
@Class: informal, family/private, dialogue
@Length: 7' 08''
@Words: 1589
@Acoustic_quality: A
@Transcriber: Guillermo
@Revisor: Jesús; Manuel, Inma, Jesús, Ana and Guillermo (prosody); Guillermo
@Comments:
]
*MIG: tampoco hay mucho que [/] no ?$ que escuchar //$ xxx //$
*PAC: no sé / &eh / has visto el Marca hoy ?$
*MIG: no //$ el Marca no lo he <&com> +$
*PAC: [<] <ponía> [/] decía Gaspart / que le habían robado la cartera //$
*MIG: <hhh> //$
%act: (1) laugh
*PAC: [<] <por lo del gol> //$ ponía le &ha [/] le han [/] me han robado la cartera //$
*MIG: y qué [/] y qué ha <dicho él> ?$
*PAC: [<] <pues que> no //$ que decían que era un gol /$
*MIG: que es <legal> //$
54
1. Primer paso.
Primero de todo, el texto pasa por un programa que numera las palabras y que sustituye
las marcas del formato C-ORAL-ROM que son incompatibles con XML.2
Este programa
forma parte de los herramientas informáticas desarrolladas por el
Laboratorio de Lingüística Informática.
Una vez llevada a cabo esta operación el texto con el que vamos a trabajar a partir
de ahora es que podemos leer a continuación:
< TimeStamp > B3FE89B2-3564-441E-834A-2C3DEA5D82A3 < /TimeStamp > [
[@Title: fútbol y baloncesto
@File: efamdl03
@Participants: MIG, Miguel, (man, B, 2, taxi driver, participant, Madrid)
PAC, Paco, (man, A, 2, air condition installer, participant, Madrid)
@Date: 04/03/2001
@Place: Madrid
@Situation: chat between friends at home, not hidden, researcher observer
@Topic: football and basketball
@Source: C-ORAL-ROM
@Class: informal, family/private, dialogue
@Length: 7' 08''
@Words: 1589
@Acoustic_quality: A
@Transcriber: Guillermo
@Revisor: Jesús; Manuel, Inma, Jesús, Ana and Guillermo (prosody); Guillermo
@Comments:
]
*MIG: 1-tampoco 2-hay 3-mucho 4-que [/] 5-no ? 6-que 7-escuchar // xxx //
*PAC: 8-no 9-sé / &eh / 10-has 11-visto 12-el 13-Marca 14-hoy ?
*MIG: 15-no // 16-el 17-Marca 18-no 19-lo 20-he < &com > +
*PAC: [ < ] < 21-ponía > [/] 22-decía 23-Gaspart / 24-que 25-le 26-habían 27-robado 28-la
29-cartera //
*MIG: < 30-hhh > //
%act: (1) laugh
*PAC: [ < ] < 31-por 32-lo 33-del 34-gol > // 35-ponía 36-le &ha [/] 37-le 38-han [/]
39-me 40-han 41-robado 42-la 43-cartera //
*MIG: 44-y 45-qué [/] 46-y 47-qué 48-ha < 49-dicho 50-él > ?
*PAC: [ < ] < 51-pues 52-que > 53-no // 54-que 55-decían 56-que 57-era 58-un 59-gol /
*MIG: 60-que 61-es < 62-legal > //
2
Esta herramienta ha sido desarrollada por Manuel Alcántara Plá para su sistema de etiquetado
semántico, SESCO. Desde aquí le expresamos nuestro agradecimiento.
55
2. Segundo paso:
En segundo lugar, pasamos el texto por otro programa que soluciona el problema de la
continuación de turno y le da el tratamiento que ya señalamos unas páginas más arriba.
Recordemos el ejemplo:
*LET: hombre / yo a esa tía <no le tocaba>
*DAN: <sólo el objetivo> //
*LET: / un pelo // porque es una cerda // pero vamos //
El programa que hemos diseñado intenta restablecer la continuidad del discurso, tal y como
se escucha en la grabación, y une la oración hombre / yo a esa tía <no le tocaba> con el
sintagma un pelo.
El texto de salida que da como resultado es el siguiente:
(4) *LET: hombre / yo a esa tía <no le tocaba> / un pelo //
*DAN: <sólo el objetivo> //
*LET: porque es una cerda // pero vamos //
3. Tercer paso
Pues bien, ya hay varias etiquetas, como por ejemplo, la que separan la cabecera del
resto de la transcripción, o bien la que separan los turnos del texto analizado, que se pueden
poner automáticamente a través de un programa en PERL que produzca un archivo de
salida en XML con los cambios originados sin modificar el texto original.
Este programa introduce las etiquetas de apertura y cierre de TEX, CB, T, TUR, A,
<TEX>
<CB></CB>
<T>
<TUR></TUR>
<A>
<E></E>
</A>
</T>
</TEX>
56
En el caso de los monólogos, esta paridad entre turno y texto analizado no tiene
sentido puesto que la mayoría de ellos se componen de un solo turno. En este caso, hemos
remitido en las etiqueta turno al texto fuente.
Ejemplo:
<TUR>enatco003.</TUR>
4.- Cuarto paso
Una vez que ya hemos puesto las etiquetas raíces que segmentan el texto, aún se
pueden introducir desde un punto de vista automático algunas etiquetas más.
Por ejemplo, todas aquellas palabras que en la mayoría de los casos van a tener un
solo análisis. Así por ejemplo, la multiword o sea:
<MD>o sea</MD>
Los mismo ocurriría también para las intejecciones.
En estos casos se etiqueta mediante un programa en PERL que busque en un texto
las palabras de una lista o array y las etiquete de la forma en que se ha definido
previamente.
Actualmente, el Laboratorio de Lingüística computacional está desarronllado un
etiquetado categorial. Cuando esta herramienta pueda utilizarse, mejorará con creces el
etiquetado automático de nuestro corpus, ya que con un corpus desambiguado
categorialmente, solo queda asignar a la categoría de la palabra que se desee anotar la
etiqueta correspondiente en SESIC.
O sea md --- <md>o sea<md>
A continuación presentamos un ejemplo de cómo queda un texto después de haber
pasado estos programas.
<TEX>
<CAB>[@Title: f�y baloncesto @File: efamdl03 @Participants: MIG, Miguel, (man, B, 2, taxi driver,
participant, Madrid)
PAC, Paco, (man, A, 2, air condition installer, participant, Madrid) @Date: 04/03/2001
@Place: Madrid @Situation: chat between friends at home, not hidden, researcher observer@Topic: football and
basketball @Source: C-ORAL-ROM @Class: informal, family/private, dialogue @Length: 7' 08'' @Words: 1589
@Acoustic_quality: A @Transcriber: Guillermo @Revisor: Jes�anuel, Inma, Jes�na and Guillermo (prosody);
Guillermo @Comments: </CAB>
57
<T>
<TUR>*PAC [ < ] < 51-pues 52-que > 53-no // 54-que 55-dec젮 56-que 57-era 58-un 59-gol
/ [ < ] < 63-que 64-era > 65-v૩ do //</TUR>
<A>
<E> [ < ] < <MD>51-pues</MD> 52-que > 53-no //</E><E> 54-que 55-dec젮 56-que
57-era 58-un 59-gol / [ < ] < 63-que 64-era > 65-v૩ do //</E>
</A>
<TUR>*MIG 60-que 61-es < 62-legal > //</TUR>
<A>
<E> 60-que 61-es < 62-legal > //</E>
</A>
<TUR>*PAC < 66-hhh ></TUR>
<A>
<E> < 66-hhh ></E>
</A>
<TUR>*PAC: [ < ] < 51-pues 52-que > 53-no // 54-que 55-dec젮 56-que 57-era 58-un 59-gol
/</TUR>
<A>
<E>: [ < ] < <MD>51-pues</MD> 52-que > 53-no //</E>
<E> 54-que 55-dec젮 56-que 57-era 58-un 59-gol /</E>
</A>
<TUR>*MIG: 60-que 61-es < 62-legal > //</TUR>
<A>
<E>: 60-que 61-es < 62-legal > //</E>
</A>
<TUR>*PAC: / [ < ] < 63-que 64-era > 65-v૩ do // < 66-hhh ></TUR>
<A>
<E>: / [ < ] < 63-que 64-era > 65-v૩ do //</E>
<E> < 66-hhh ></E>
</A>
</T>
</TEX>
1.- Programas utilizados3
Cuando se trate de monólogos en la etiqueta turno se pondrá el nombre del archivo, para que remita a él.
#!/usr/bin/perl
@md=(o_sea, claro, pues);
print "Dime un archivo: ";
3
Deseo mostrar mi agradecimiento Fernando Ares Chicote, informático del proyecto C-ORAL-ROM
por la ayuda prestada en la parte de programación de este trabajo.
58
$nombre =<>;
open (TEX, $nombre)
|| die "no se puede abrir";
undef $/;
$_ = <TEX>;
### $1 -> Nombre Primer participante
### $2 -> Texto del primer participante
### $3 -> signo final de turno
### $4 -> Nombre Segundo participante
### $5 -> Texto del segundo participante (dejar igual)
### $6 -> Nombre Tercer participante
### $7 -> Texto a desplazar
### $8 -> // ? ...
### $9 ->
#m/\n\*(\w\w\w): (.*?)(.|\/)\n\*(\w\w\w): (.*?)\n\*(\w\w\w):
\/(.*?)(\/\/|\?|\.\.\.)(.*?)\n/;
s/\n\*(\w\w\w): (.*?)(.|\/)\n\*(\w\w\w): (.*?)\n\*(\w\w\w):
\/(.*?)(\/\/|\?|\.\.\.)(.*?)\n/\n\*$1 $2$3 $7$8\n\*$4 $5\n\*$6 $9\n/;
print ;
@lineas = split /\n/;
$contador_lineas=0;
foreach (@lineas) {
$contador_lineas++;
# Introducimos las etiquetas de Texto y cabecera
if ($contador_lineas==1) {
s/^(.*?)$/<TEX>\n<CAB>/;
}
elsif (/^\]/) {
s/^\]/<\/CAB>\n<T>\n/;
}
elsif (/^\*/) {
#localizame las líneas que empiezan por asteriscos y ponlas
en una variable
#la meto en la variable frase
s/^\*(.*?)$/<TUR>\*$1<\/TUR>/;
$frase = $1;
$frase =~ s/^(.*?)$/\n<A>$1<\/A>/;
$frase =~ s/<A>\w\w\w/<A>/;
foreach $marcador(@md) {
$frase=~s/(\d+)\-$marcador/<MD>$1\-$marcador<\/MD>/g;
}
$frase=~s/<A>/<A><E>/;
$frase=~ s/(\?|\.\.\.|\/\/|\+)/$1<\/E><E>/g;
$frase=~s/<\/A>/<\/E><\/A>/;
$frase=~s/<E><\/E><\/A>/<\/A>/;
$_= $_."$frase\n";
}
print;
}
print "\n</T>\n</TEXT>";
59
close ($TEX);
60
VI. LÍNEAS FUTURAS DE INVESTIGACIÓN
“La búsqueda incesante de un objeto homogéneo, que posibilitara su descripción en y por
sí mismo, había desembocado-a través de procedimientos diversos pero todos
idealizantes- en el aislamiento de un “sistema” abstracto de formas, o como prefieren otros,
la “competencia” de un hipotético hablante-oyente ideal (mejor sería decir idealizado por el
propio lingüista. [...] Enfrentarse con el coloquio espontáneo, siempre de carácter
interactivo inmediato, natural o informal y aparentemente sin reglas continúa pareciendo
tarea sumamente arriesgada (incluso equivocada según algunos), dado el estado actual de
nuestros conocimientos (o si se prefiere de nuestra ignorancia).”
Narbona (1991)
Estas palabras de Narbona ponen de manifiesto el gran reto que supone el estudio de
la sintaxis oral. Con los estudios realizados a partir de un corpus anotado con información
sintáctica intentaremos cumplir los siguientes objetivos en el futuro:
En primer lugar, permitirá demostrar empíricamente las semejanzas y diferencias de
la sintaxis oral con respecto a la sintaxis escrita; ya que como señala Anne Abeillé Corpus
linguistics have always tended to emphazise minute descriptions of a given language over
general theoring. Es posible que el análisis cualitativo de los datos esté intensificando las
diferencias del lenguaje coloquial y minimizando a su vez las semejanzas con respecto a la
gramática escrita. Mª Luz Gutierrez en su obra Estructuras sintácticas del español actual
ofrece, a partir del análisis de un corpus de lengua escrita, un análisis cuantitativo de la
frecuencia de uso de diversos fenómenos tales como la subordinación o la aparición del
sujeto. Con el tiempo, se podrán contrastar estos resultados con los de nuestro corpus.
En segundo lugar, se convendrá en las diferentes modalidades de la sintaxis oral en
función de los registros lingüísticos que se estudien, insistiendo en el resgitro coloquial, que
es el más difícil de estudiar desde la gramática tradicional. Por ejemplo, podremos saber
cuál es el orden normal de los constituyentes en español en la sintaxis de los textos
informales, y si realmente existe un orden diferente en términos cuantitativos a la sintaxis
escrita.
En tercer lugar, se podrán refutar hipótesis tales como la de Bernstein, según la cual,
existe un código elaborado propio de la clase media y superior, y un código restringido o
61
común propio de la clase obrera, especialmente de las capas inferiores. (Narbona (1988)). O
también, se podrá comprobar de un modo empírico la idea de que la sintaxis coloquial no
está sometida a reglas.
En cuarto lugar, se podrán ampliar las concepciones de la gramática del español, y
más concretamente, se podrá profundizar en nuevas aproximaciones a la oración y a su
relación con el discurso. Por otro lado, la lengua coloquial contará con la elaboración de
procedimientos de descripción gramatical.
En quinto lugar, se podrá comprobar la verdad del tópico de que el lenguaje
coloquial está dominado por la yuxtaposición y el lenguaje escrito por la subordinación. Y
si es cierto, estudiar qué estructuras o recursos sintácticos se utilizan de forma alternativa.
Entres estas estrategias, se puede destacar el empleo de marcadores del discurso como
bueno, pues, entonces, luego, encima, además, etc., los cuales, según Narbona (1988),
debemos dejar de calificarlos como elementos superfluos o de relleno, ya que constituyen
auténticos asideros como engarces textuales.
Por otra parte, en el campo de la Lingüística computacional, se desarrollarán
herramientas para el etiquetado automático de lenguas desde un punto de vista sintáctico.
62
VII. BIBLIOGRAFÍA
ALARCOS, E.(1994): Gramática de la lengua española, Madrid, Espasa-Calpe.
BOSQUE, I. (1990): Las categorías gramaticales, Madrid, Síntesis.
BLANCHE-BENVENISTE, C.(1998): Estudios lingüísticos sobre la relación entre
oralidad y escritura, Barcelona, Gedisa.
BRIZ, A. (1996): El español coloquial: Situación y uso, Madrid, Arco/Libros.
CIVIT, M., BUFÍ, N. (2002) "Estado del arte sobre Treebanks (I)" WP-XTRACT 02/01
CRESTI, E. (2000): Corpus di italiano parlato. Vol. 2. Camioni, Florencia, L´Accademia
della Crusca.
FERNÁNDEZ, O. (1999): El pronombre personal. Formas y distribuciones. Pronombres
átonos y tónicos, capítulo 19, en DEMONTE, V. Et BOSQUE, I. (eds.) (1999): Gramática
descriptiva de la lengua española, Madrid, Espasa/Calpe.
FUENTE, R., FERNÁNDEZ, J., FEIJOÓ, L. (1972): Perífrasis verbales, Madrid, S.G.E.A.
GUTIÉRREZ, Mª L. (1993): Estructuras sintácticas del español actual, Madrid, Sociedad
General Española de Librería.
GUTIÉRREZ, S. (1997): Principios de sintaxis funcional, Madrid, Arco/Libros.
LÓPEZ, Á. (1999):Relaciones paratácticas e hipotácticas, capítulo 54, en DEMONTE, V.
Et BOSQUE, I. (eds.) (1999): Gramática descriptiva de la lengua española, Madrid,
Espasa/Calpe.
LUQUE, J.(1973): Las preposiciones. Valores idiomáticos, vol. 2, Madrid, S.G.E.L.
63
MARTÍN, MªA., MONTOLÍO, E. (Coords.) (1988): Los marcadores del discurso. Teoría y
análisis, Madrid, Arco/Libros.
MARTÍNEZ, J. (1990): Sintaxis oral y escrita, Lingüística 3, Cuestiones de Lingüística y
Didáctica del Español, Logroño.
MORENO, A. (1998): Lingüística computacional, Madrid, Síntesis.
MORENO, A., LÓPEZ, S., SÁNCHEZ, F. (1999): Spanish Tree Bank: Specifications.
Version 5. Documento interno del Laboratorio de Lingüística Informática, http//:lllf.uam.es
MORENO, A. (2000): Avances recientes en lingüística computacional: treebanking e
inducción automática de gramáticas. Cuadernos de Lingüística, Institución Ortega y Gasset
NARBONA, A. (1988): Sintaxis coloquial: problemas y métodos, LEA, 10.1. 81-106.
NARBONA, A. (1990): ¿Es sistematizable la sintaxis coloquial?, Actas del Congreso de la
Sociedad Española de Lingüística. XX Aniversario, Madrid, 1030-1043.
NARBONA, A. (1991): Sintaxis coloquial y análisis del discurso, Revista Española de
Lingüística, Madrid, 187-204.
PORTOLÉS, J. (1998): Marcadores del discurso, Barcelona, Ariel.
PORTOLÉS, J. et ZORRAQUINO, Mª Antonia (1999): Los marcadores del discurso,
capítulo 63, en DEMONTE, V. Et BOSQUE, I. (eds.) (1999): Gramática descriptiva de la
lengua española, Madrid, Espasa/Calpe.
RAE (1985): Esbozo de una nueva gramática de la lengua española,
Espasa/Calpe.
64
Madrid,
VOUTILAINEN, A.(1999): Morphosyntatic tags et Automatic tagging, capítulo 1, en
HALTEREN, H. (ed.) (1999): Sintactyc Wordclass Tagging, Países Bajos, Kluwer
Academic Publishers.
ENLACES
Anne ABeillé http://treebank.linguist.jussieu.fr/toc.html
C-ORAL-ROM http://lablita.dit.unifi.it/coralrom/
Laboratorio de lingüística informática de la UAM http://www.lllf.uam.es/
Langues et Civilisations à Tradition Orale http://lacito.vjf.cnrs.fr/
Speech Comunication (Elsevier Science) http://www.elsevier.nl/locate/specom
Text Encoding Initiative http://www.tei-c.org/
Unicode http://www.unicode.org/
Tutorial de Perl http://geneura.ugr.es/~jmerelo/tutoperl/tutoperl3.html
Tutorial de Perl http://www.iespana.es/perl-es/
Tutorial de Perl http://www.cicei.com/gsi/tutorial_perl/cap8.htm
65
APÉNDICE I EJEMPLOS DE TEXTOS ETIQUETADOS EN XML
1.- FORMAL
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE TEX SYSTEM "U:\becarios\ana\tesina\trabaXML\sesdico1.dtd">
<!-Archivo = enatco03
Fuente = enatco03
Título= las pausas de Siguán
-->
<TEX>
<CB>@Title: las pausas de Siguán
@File: enatco03
@Participants: SIG, Siguán, (man, D, 3, professor, lecturer, Barcelona)
@Date: 27/02/2001
@Place: Madrid
@Situation: lecture at university
@Topic: language and children
@Source: C-ORAL-ROM
@Class: formal, formal in natural context, conference, monologue
@Length: 35' 35''
@Words: 3135
@Acoustic_quality: A
@Transcriber: Manuel
@Revisor: Jesús; Manuel and Guillermo (prosody); Guillermo
@Comments: </CB>
<T>
<TUR>enatco03</TUR>
<A>
<E>
<O CADENA="1-como 2-sabéis/" relación="hipotaxis" FS="cero">
<CC>
<C relación="hipotaxis" cg="conj" vmod="4-es">1-como</C>
</CC>
<VV>
<V>
<V1 v="flex">2-sabéis</V1>
</V>
</VV>
</O>
<O CADENA="3-actualmente / 4-es 5-frecuente / 6-al 7-ir 8-por 9-la 10-calle / 11-ver 12-alguien 13que 14-está 15-gesticulando / 16-aunque 17-esté 18-sólo //" FS="cero" relación="hipotaxis">
<SS CF="adv" FS="cc" relación="subordinación">3-actualmente</SS>
<VV>
<V>
<V1 v="flex">4-es</V1>
</V>
</VV>
<SS CF="adv" FS="cc" relación="subordinación">5-frecuente</SS>
<CC>
<C relación="hipotaxis" vmod="4-es" cg="prepcom">6-al</C>
</CC>
<O CADENA="7-ir 8-por 9-la 10-calle / " relación="hipotaxis" FS="cero">
<VV>
<V>
<V1 v="inf">7-ir</V1>
</V>
</VV>
<SS CF="prep" FS="cc" relación="subordinación">8-por 9-la 10-calle /</SS>
</O>
<O CADENA="11-ver 12-alguien 13-que 14-está 15-gesticulando " relación="subordinación"
FS="cop">
<VV>
66
<V>
<V1 v="inf">11-ver</V1>
</V>
</VV>
<SS CF="pro" FS="cd" relación="subordinación">12-alguien </SS>
<CC>
<C relación="subordinación" vmod="alguien" cg="pron">13-que</C>
</CC>
<O CADENA="14-está 15-gesticulando" relación="subordinación" FS="cn">
<VV>
<V>
<AUX>14-está </AUX>
<V1 v="gerundio">15-gesticulando</V1>
</V>
</VV>
</O>
</O>
<CC>
<C relación="hipotaxis" cg="conj" vmod="está gesticulando">16-aunque </C>
</CC>
<O CADENA="17-esté 18-sólo //" relación="hipotaxis" FS="cero">
<VV>
<V>
<V1 v="flex">17-esté</V1>
</V>
</VV>
<SS CF="adj" FS="cop" relación="subordinación">18-sólo</SS>
</O>
</O>
</E>
<E>
<O CADENA="19-inmediatamente 20-deducimos / 21-que 22-está 23-hablando / 24-por 25-un / 26teléfono 27-móvil // " relación="parataxis" FS="cero">
<SS CF="adv" FS="cc" relación="subordinación">19-inmediatamente</SS>
<VV>
<V>
<V1 v="flex"> 20-deducimos</V1>
</V>
</VV>
<CC>
<C relación="subordinación" vmod="deducimos" cg="conj"> 21-que </C>
</CC>
<O CADENA="22-está 23-hablando / 24-por 25-un / 26-teléfono 27-móvil //"
relación="subordinación" FS="cd">
<VV>
<V>
<AUX>22-está </AUX>
<V1 v="gerundio">23-hablando /</V1>
</V>
</VV>
<SS CF="prep" FS="cc" relación="subordinación">24-por 25-un / 26-teléfono 27-móvil
//</SS>
</O>
</O>
</E>
<E CADENA=" 28-pero 29-hace 30-años / 31-no 32-había 33-teléfonos 34-móviles / 35-y 36-sin 37embargo / 38-aunque 39-con 40-menos 41-frecuencia / 42-se 43-veía 44-alguien 45-que 46-avanzaba 47-por 48-la
49-calle / 50-y 51-que 52-estaba 53-también &justi [///] 54-gesticulando / 55-y 56-decíamos / 57-este 58-buen
59-señor / 60-habla 61-solo // ">
<CC>
<C relación="parataxis" vmod="cero" cg="conj">28-pero</C>
</CC>
<O CADENA="29-hace 30-años / 31-no 32-había 33-teléfonos 34-móviles / " relación="parataxis"
FS="cero">
<SS CF="adv" FS="cc" relación="subordinación">29-hace 30-años</SS>
<VV>
67
<N> 31-no</N>
<V>
<V1 v="flex">32-había</V1>
</V>
</VV>
<SS CF="nom" FS="cd" relación="subordinación"> 33-teléfonos 34-móviles </SS>
</O>
<CC>
<C relación="parataxis" vmod="cero" cg="conj">35-y</C>
</CC>
<MD Tipo="conector" CADENA="36-sin 37-embargo /"/>
<O CADENA="38-aunque 39-con 40-menos 41-frecuencia / 42-se 43-veía 44-alguien 45-que 46avanzaba 47-por 48-la 49-calle / 50-y 51-que 52-estaba 53-también &justi [///] 54-gesticulando /"
relación="parataxis" FS="cero">
<CC>
<C relación="hipotaxis" vmod="43-veía" cg="conj">38-aunque</C>
</CC>
<SS CF="prep" FS="cc" relación="subordinación">39-con 40-menos 41-frecuencia / </SS>
<VV>
<CLI posición="enclisis">42-se</CLI>
<V>
<V1 v="flex">43-veía</V1>
</V>
</VV>
<SS CF="pro" FS="cd" relación="subordinación">44-alguien</SS>
<CC>
<C relación="subordinación" vmod="alguien" cg="pron">45-que </C>
</CC>
<O CADENA=" 46-avanzaba 47-por 48-la 49-calle /" FS="cn" relación="subordinación">
<VV>
<V>
<V1 v="flex">46-avanzaba </V1>
</V>
</VV>
<SS CF="prep" FS="cc" relación="subordinación"> 47-por 48-la 49-calle</SS>
</O>
<CC>
<C relación="coordinación" vmod="46-avanzaba" cg="conj">50-y</C>
</CC>
<CC>
<C relación="subordinación" vmod="alguien" cg="pron">51-que</C>
</CC>
<O CADENA="52-estaba 53-también &justi [///] 54-gesticulando / " relación="subordinación"
FS="cn">
<VV>
<V>
<AUX>estaba</AUX>
<MD Tipo="operador_argumentativo" CADENA="también"/>
<V1 for="reformulado" v="gerundio">justi</V1>
<V1 v="gerundio">54-gesticulando</V1>
</V>
</VV>
</O>
</O>
<CC>
<C relación="parataxis" vmod="avanzaba" cg="conj">55-y </C>
</CC>
<O CADENA="decíamos / 57-este 58-buen 59-señor / 60-habla 61-solo" relación="parataxis"
FS="cero">
<O CADENA="57-este 58-buen 59-señor / 60-habla 61-solo" relación="subordinación" FS="cd">
<SS CF="det" FS="suj" relación="subordinación">57-este 58-buen 59-señor </SS>
<VV>
<V>
<V1 v="flex">60-habla </V1>
</V>
</VV>
68
<SS CF="adj" FS="cpredic" relación="subordinación"> 61-solo</SS>
</O>
</O>
</E>
</A>
</T>
</TEX>
69
2.- INFORMAL
<?xml version="1.0" encoding="ISO-8859-1"?>
<!DOCTYPE TEX SYSTEM "sesdico1.dtd">
<!-Archivo = efmad102-turno1
Fuente = efmadl03
Título= futbol y baloncesto
-->
<TEX>
<CB>@Title: fútbol y baloncesto@File: efamdl03@Participants: MIG, Miguel, (man, B, 2, taxi driver, participant,
Madrid) PAC, Paco, (man, A, 2, air condition installer, participant, Madrid)@Date:04/03/2001 @Place: Madrid
@Situation: chat between friends at home, not hidden, researcher observer@Topic: football and basketball
@Source: C-ORAL-ROM @Class: informal, family/private, dialogue@Length: 7' 08''@Words: 1589
@Acoustic_quality: A @Transcriber: Guillermo @Revisor: Jesús; Manuel, Inma, Jesús, Ana and Guillermo (prosody);
Guillermo @Comments: </CB>
<T>
<TUR>*MIG: 1-tampoco 2-hay 3-mucho 4-que [/] 5-no ? 6-que 7-escuchar // xxx //</TUR>
<A>
<E>
<O CADENA="1-tampoco 2-hay 3-mucho 4-que [/] 5-no ? 6-que 7-escuchar" FS="cn"
relación="parataxis">
<MD Tipo="operador_argumentativo" CADENA="1-tampoco"/>
<VV>
<V>
<V1 v="flex"> 2-hay</V1>
</V>
</VV>
<SS CF="adv" FS="cd" relación="subordinación">3-mucho</SS>
<CC>
<C for="reformulado" relación="subordinación" cg="conj" vmod="mucho">4-que</C>
<MD CADENA="no?" Tipo="marcador_conversacional"/>
<C relación="subordinación" cg="conj" vmod="mucho">6-que</C>
</CC>
<O CADENA="7-escuchar" relación="subordinación" FS="cd"/>
</O>
</E>
<E>
<H na="xxx"/>
</E>
</A>
<TUR>*PAC: 8-no 9-sé / &eh / 10-has 11-visto 12-el 13-Marca 14-hoy ?</TUR>
<A>
<E>
<MD CADENA="no sé" Tipo="marcador_conversacional"/>
<H ap="eh"/>
<O CADENA="has visto el Marca hoy?" FS="cero" relación="parataxis" ent="interrogativa">
<VV>
<V>
<V1 v="flex">10-has 11-visto </V1>
</V>
</VV>
<SS CF="det" FS="suj" relación="subordinación">12-el 13-Marca</SS>
<SS CF="pro" FS="cc" relación="subordinación">hoy</SS>
</O>
</E>
</A>
<TUR>*MIG: 15-no // 16-el 17-Marca 18-no 19-lo 20-he < &com > +</TUR>
<A>
<E>
<SS CF="adv" FS="cero" relación="parataxis">no</SS>
</E>
<E>
<O CADENA="el Marca no lo he com" FS="cero" relación="parataxis" ent="interrumpido">
70
<SS CF="nom" FS="cd" relación="subordinación">
16-el
17-Marca
</SS>
<SS CF="adv" FS="cero" relación="subordinación">
18-no
</SS>
<VV>
<CLI posición="proclisis" tercera="acusativo">19-lo</CLI>
<V>
<V1 v="flex" for="interrumpido">20-he com</V1>
</V>
</VV>
</O>
</E>
</A>
<TUR>*PAC: [ < ] < 21-ponía > [/] 22-decía 23-Gaspart / 24-que 25-le 26-habían 27-robado 28-la 29cartera //
</TUR>
<A>
<E>
<O CADENA="ponía decía Gaspar que le habían robado la cartera" FS="cero" relación="parataxis">
<VV>
<V>
<V1 v="flex" for="reformulado">21-ponía</V1>
<V1 v="flex">22-decía</V1>
</V>
</VV>
<SS CF="nom" FS="suj" relación="subordinación">
23-Gaspar
</SS>
<CC>
<C relación="subordinación" cg="conj" vmod="decía">24-que</C>
</CC>
<O CADENA="le habían robado la cartera" FS="cd" relación="subordinación">
<VV>
<CLI posición="proclisis">25-le</CLI>
<V>
<V1 v="flex">26-habían 27-robado</V1>
</V>
</VV>
<SS CF="nom" FS="cd" relación="subordinación">
28-la
29-cartera
</SS>
</O>
</O>
</E>
</A>
<TUR>*MIG: < 30-hhh > //
%act: (1) laugh </TUR>
<A>
<E>
<H hl="laugh"/>
</E>
</A>
<TUR>*PAC: [ < ] < 31-por 32-lo 33-del 34-gol > // 35-ponía 36-le &ha [/] 37-le 38-han [/] 39-me
40-han 41-robado 42-la 43-cartera //
</TUR>
<A>
<E>
<SS CF="prep" FS="cc" relación="parataxis">
31-por
32-lo
33-del
34-gol
</SS>
71
</E>
</A>
<TUR>*MIG: 44-y 45-qué [/] 46-y 47-qué 48-ha < 49-dicho 50-él > ?
</TUR>
<A>
<E>
<O CADENA=" 44-y 45-qué [/] 46-y 47-qué 48-ha 49-dicho 50-él ?" ent="interrogativa" FS="cero"
relación="parataxis">
<CC>
<C relación="parataxis" cg="conj" for="reformulado" vmod="han robado">44-y</C>
</CC>
<SS CF="pro" FS="cd" relación="parataxis" FOR="reformulado">
47-qué
</SS>
<CC>
<C relación="parataxis" cg="conj" vmod="">44-y</C>
</CC>
<SS CF="pro" FS="cd" relación="parataxis">
47-qué>
</SS>
<VV>
<V>
<V1 v="flex">48-ha 49-dicho</V1>
</V>
</VV>
<SS CF="pro" FS="suj" relación="subordinación">
50-él
</SS>
</O>
</E>
</A>
<TUR>*PAC: [ < ] < 51-pues 52-que > 53-no // 54-que 55-decían 56-que 57-era 58-un 59-gol / *PAC: /
[ < ] < 63-que 64-era > 65-válido // < 66-hhh >
</TUR>
<A>
<E>
<MD Tipo="estructurador_informativo" CADENA="pues"/>
<CC>
<C relación="parataxis" cg="conj" vmod="cero"> 52-que </C>
</CC>
<SS CF="adv" FS="cero" relación="subordinación">
53-no
</SS>
</E>
<E>
<CC>
<C relación="subordinación" cg="conj" vmod="cero"> 54-que </C>
</CC>
<O CADENA="decían que era un gol" relación="parataxis" FS="cero">
<VV>
<V>
<V1 v="flex">55-decían</V1>
</V>
</VV>
<CC>
<C relación="subordinación" cg="conj" vmod="decían"> 56-que </C>
</CC>
<O CADENA="era un gol" relación="subordinación" FS="cd">
<VV>
<V>
<V1 v="flex">57-era</V1>
</V>
</VV>
<SS CF="nom" FS="cop" relación="subordinación">
58-un
72
59-gol
</SS>
</O>
</O>
</E>
</A>
<TUR>*MIG: 60-que 61-es < 62-legal > //
</TUR>
<A>
<E>
<O CADENA="que es legal" FS="cero" relación="parataxis">
<CC>
<C relación="subordinación" cg="conj" vmod="decían">60-que</C>
</CC>
<VV>
<V>
<V1 v="flex">61-es</V1>
</V>
</VV>
<SS CF="adj" FS="cop" relación="subordinación">
62-legal
</SS>
</O>
</E>
</A>
<TUR>*MIG: [ < ] < 67-ya > //
</TUR>
<A>
<E>
<MD Tipo="marcador_conversacional" CADENA="ya"/>
</E>
</A>
<TUR>*PAC: / 68-que 69-lo 70-ha 71-anulado / 72-porque 73-se 74-ha 75-equivocado 76-el 77-árbitro / 78pero 79-que 80-era 81-válido //
</TUR>
<A>
<E>
<CC>
<C relación="subordinación" cg="conj" vmod="cero">68-que</C>
</CC>
<O CADENA="que lo ha anulado" FS="cero" relación="parataxis">
<VV>
<CLI posición="proclisis" tercera="acusativo">69-lo</CLI>
<V>
<V1 v="flex">70-ha 71-anulado</V1>
</V>
</VV>
</O>
<O CADENA="porque se ha equivocado el árbitro" relación="parataxis" FS="cero">
<CC>
<C relación="hipotaxis" cg="conj" vmod="ha anulado">72-porque</C>
</CC>
<VV>
<CLI posición="proclisis" se="pronominal">73-se</CLI>
<V>
<V1 v="flex">74-ha 75-equivocado</V1>
</V>
</VV>
<SS CF="nom" FS="suj" relación="subordinación">
76-el
77-árbitro
</SS>
</O>
<O CADENA="pero que era válido" relación="parataxis" FS="cero"> </O>
</E>
</A>
73
<TUR>*MIG: 82-no // 83-lo 84-que 85-pasa 86-que 87-es 88-que / 89-hhh + 90-más 91-que 92-el 93-árbitro /
94-fue 95-el 96-juez 97-de 98-línea / 99-pero 100-porque 101-salían 102-tres 103-tíos / 104-hacia 105-fuera // 106-lo
107-que 108-pasa 109-que 110-luego 111-se &a [///] &eh / 112-estaban 113-delante 114-de [/] 115-de 116Casillas / 117-cuando 118-llegó 119-el 120-balón // 121-cuando 122-va 123-a 124-rematar / 125-salían 126-hacia
127-fuera / 128-lo 129-que 130-pasa 131-que 132-se 133-abren / 134-y 135-dejan 136-el 137-pasillo // 138-pues
139-dejó 140-justo 141-el 142-pasillo / 143-entonces / 144-hhh / 145-supuestamente / 146-no 147-tiene 148-que
149-ser / 150-fuera 151-juego / 152-porque 153-no [/] 154-no < 155-intercepta xxx > +%act: (51) click
</TUR>
<A>
<E>
<SS CF="adv" FS="cero" relación="parataxis">
82-no
</SS>
</E>
<E>
<O CADENA="lo que pasa que es que hhh más que el árbitro fue el juez de línea"
relación="parataxis" FS="cero">
<SS CF="pro" FS="suj" relación="subordinación">
>83-lo
</SS>
<CC>
<C relación="subordinación" cg="conj" vmod="lo"> 84-que</C>
</CC>
<VV>
<V>
<V1 v="flex">85-pasa</V1>
</V>
</VV>
<CC>
<C relación="subordinación" cg="conj" vmod="pasa">86-que</C>
</CC>
<MD Tipo="conector" CADENA="es que"/>
<H hl="click"/>
<O CADENA="más que el árbitro fue el juez de línea" relación="subordinación" FS="cd">
<SS CF="adv" FS="cero" relación="hipotaxis">
90-más
</SS>
<CC>
<C relación="hipotaxis" cg="conj" vmod="más">91-que</C>
</CC>
<SS CF="nom" FS="cop" relación="subordinación">
92-el
93-árbitro
</SS>
<VV>
<V>
<V1 v="flex">94-fue</V1>
</V>
</VV>
<SS CF="det" FS="cop" relación="subordinación">
95-el
96-juez
97-de
98-línea
</SS>
</O>
<O CADENA="pero porque salían tres tíos hacia fuera/" relación="parataxis" FS="cero"/>
<CC>
<C relación="parataxis" cg="conj" vmod="cero">99-pero </C>
</CC>
<CC>
<C relación="parataxis" cg="conj" vmod="cero">100-porque </C>
</CC>
<VV>
<V>
<V1 v="flex">101-salían </V1>
74
</V>
</VV>
<SS CF="nom" FS="suj" relación="subordinación">
102-tres
103-tíos
</SS>
<SS CF="prep" FS="cc" relación="subordinación">
104-hacia
105-fuera
</SS>
</O>
</E>
</A>
<TUR>*PAC: [ < ] < 156-pero 157-quién 158-lo 159-anuló > ? 160-quién 161-lo 162-anuló ? 163-el
164-árbitro / 165-o 166-el < 167-juez 168-de 169-línea > ?
</TUR>
<A>
<E>
<CC>
<C relación="parataxis" cg="conj" vmod="cero">156-pero</C>
</CC>
<O CADENA="quién lo anuló?" relación="parataxis" FS="cero" ent="interrogativa">
<SS CF="pro" FS="suj" relación="subordinación">
160-quién
</SS>
<VV>
<CLI posición="proclisis" tercera="acusativo"/>
<V>
<V1 v="flex">162-anuló</V1>
</V>
</VV>
</O>
</E>
</A>
<TUR>*MIG: [ < ] < 170-el 171-juez 172-de 173-línea > // 174-levantó 175-la &ma / < &eh
> +
</TUR>
<A>
<E>
<SS CF="nom" FS="cero" relación="parataxis">
170-el
171-juez
172-de
173-línea
</SS>
</E>
<E>
<O CADENA="levantó la eh +" relación="parataxis" FS="cero">
<VV>
<V>
<V1 v="flex">174-levantó</V1>
</V>
</VV>
<SS CF="nom" FS="cd" relación="subordinación" FOR="interrumpido">
175-la
</SS>
<H ap="eh"/>
</O>
</E>
</A>
<TUR>*PAC: [ < ] < 176-y 177-el 178-juez > 179-de 180-línea &pue [/] 181-puede 182-anular
183-un 184-gol ?
</TUR>
<A>
<E>
<CC>
75
<C relación="parataxis" cg="conj" vmod="cero">176-y</C>
</CC>
<O CADENA="el juez de línea pue puede anular un gol?" FS="cero" relación="parataxis"
ent="interrogativa">
<SS CF="nom" FS="suj" relación="subordinación">
177-el
178-juez
179-de
180-línea
</SS>
<VV>
<V>
<AUX FOR="reformulado">pued</AUX>
<AUX>181-puede</AUX>
<V1 v="inf"> 182-anular</V1>
</V>
</VV>
<SS CF="nom" FS="cd" relación="subordinación">
183-un
184-gol
</SS>
</O>
</E>
</A>
<TUR>*MIG: 185-claro / 186-levanta + 187-no 188-hombre / 189-no 190-es 191-que 192-lo 193-anulen //
</TUR>
<A>
<E>
<MD Tipo="marcador_conversacional" CADENA="claro"/>
<O CADENA="levanta +" relación="parataxis" FS="cero">
<VV>
<V>
<V1 v="inf"> 186-levanta</V1>
</V>
</VV>
</O>
</E>
<E>
<SS CF="adv" FS="cero" relación="parataxis">
187-no
</SS>
<MD Tipo="marcador_conversacional" CADENA="hombre"/>
<O CADENA="no es que lo anulen" relación="parataxis" FS="cero">
<SS CF="adv" FS="cero" relación="subordinación">
189-no
</SS>
<VV>
<V>
<V1 v="inf"> 190-es</V1>
</V>
</VV>
<CC>
<C relación="subordinación" cg="conj" vmod="es">191-que</C>
</CC>
<O CADENA="lo anulen" relación="subordinación" FS="cop">
<VV>
<CLI posición="proclisis">192-lo</CLI>
<V>
<V1 v="inf"> 193-anulen</V1>
</V>
</VV>
</O>
</O>
</E>
</A>
76
<TUR>*PAC: 194-pita 195-fuera 196-de 197-juego ?
</TUR>
<A>
<E>
<O CADENA="pita fuera de juego?" relación="parataxis" FS="cero">
<VV>
<V>
<V1 v="inf"> 194-pita</V1>
</V>
</VV>
<SS CF="nom" FS="cd" relación="subordinación">
195-fuera 196-de 197-juego
</SS>
</O>
</E>
</A>
<TUR>*MIG: 198-levanta 199-el 200-banderín 201-de 202-fuera 203-de 204-juego // 205-y 206-el 207-árbitro
/ 208-pues 209-pita 210-fuera 211-de 212-juego 213-porque [/] 214-porque + 215-entiendes ? 216-el 217-que 218-lo
219-anula 220-es 221-el 222-árbitro / 223-si 224-el 225-árbitro 226-dice 227-que 228-no / 229-es 230-que 231-no //
232-aquí 233-es 234-como 235-todo // 236-aquí / 237-dicen 238-que 239-donde 240-hay 241-patrón 242-no 243manda < 244-marinero > //%act: between (16) and (17) PAC coughs
</TUR>
<A>
<E>
<O CADENA="levanta el banderín de fuera de juego" relación="parataxis" FS="cero">
<VV>
<V>
<V1 v="inf"> 198-levanta</V1>
</V>
</VV>
<SS CF="nom" FS="cd" relación="subordinación">
199-el
200-banderín
201-de
202-fuera 203-de 204-juego
</SS>
</O>
<CC>
<C relación="parataxis" cg="conj" vmod="cero">205-y</C>
</CC>
<O CADENA="el árbitro pues pita fuera de juego porque [/] porque" relación="parataxis" FS="cero"/>
<MD Tipo="marcador_conversacional" CADENA="entiendes?"/>
<O CADENA="el que lo anula es el árbitro" relación="parataxis" FS="cero">
<O CADENA="el que lo anula" relación="subordinación" FS="cop">
<SS CF="pro" FS="suj" relación="subordinación">
216-el
</SS>
<CC>
<C relación="subordinación" vmod="el" cg="pron"> 17-que</C>
</CC>
<VV>
<CLI posición="proclisis" tercera="acusativo">218-lo</CLI>
<V>
<V1 v="flex"> 219-anula</V1>
</V>
</VV>
</O>
<VV>
<V>
<V1 v="flex">220-es</V1>
</V>
</VV>
<SS CF="nom" FS="cop" relación="subordinación">
221-el
222-árbitro
77
</SS>
</O>
<O CADENA="si el árbitro dice que no es que no" relación="hipotaxis" FS="cero">
<CC>
<C relación="hipotaxis" cg="adv" vmod="es"> 223-si</C>
</CC>
<O CADENA="el árbitro dice que no" relación="hipotaxis" FS="cero">
<SS CF="nom" FS="suj" relación="subordinación">
224-el
225-árbitro
</SS>
<VV>
<V>
<V1 v="flex">226-dice</V1>
</V>
</VV>
<CC>
<C relación="subordinación" cg="conj" vmod="dice"> 227-que</C>
</CC>
<SS CF="adv" FS="cd" relación="subordinación">
228-no
</SS>
</O>
<O CADENA="es que no" relación="hipotaxis" FS="cero">
<VV>
<V>
<V1 v="flex">229-es</V1>
</V>
</VV>
<CC>
<C relación="subordinación" cg="conj" vmod="es"> 230-que</C>
</CC>
<SS CF="adv" FS="cop" relación="subordinación">
231-no
</SS>
</O>
</O>
<O CADENA="aquí es como todo" relación="parataxis" FS="cero">
<SS CF="adv" FS="cc" relación="subordinación">
232-aquí
</SS>
<VV>
<V>
<V1 v="flex">233-es</V1>
</V>
</VV>
<SS CF="pro" FS="cop" relación="subordinación">
234-como
235-todo
</SS>
</O>
<O CADENA="aquí dicen que donde hay patrón no manda marinero" relación="parataxis"
FS="cero">
<SS CF="adv" FS="cc" relación="subordinación">
236-aquí
</SS>
<VV>
<V>
<V1 v="flex">237-dicen</V1>
</V>
</VV>
<CC>
<C relación="subordinación" cg="conj" vmod="dicen">238-que</C>
</CC>
<O CADENA="donde hay patrón no mandamarinero" relación="subordinación" FS="cd">
</O>
78
</O>
</E>
</A>
<TUR>*PAC: [ < ] < 245-pero > 246-el 247-árbitro / 248-antes 249-de 250-sentenciar / 251-se 252acerca 253-al 254-juez 255-de 256-línea / 257-y 258-le 259-pregunta / 260-no ?
</TUR>
<A>
<E>
<CC>
<C relación="subordinación" cg="conj" vmod="cero">245-pero</C>
</CC>
<O CADENA="el árbitro antes de sentenciar se acerca al juez de línea y le pregunta"
relación="parataxis" FS="cero">
<SS CF="nom" FS="suj" relación="subordinación">
246-el
247-árbitro
</SS>
<SS CF="adv" FS="cc" relación="subordinación">
248-antes
249-de
250-sentenciar
</SS>
<VV>
<CLI posición="proclisis" se="pronominal">251-se</CLI>
<V>
<V1 v="flex">252-acerca</V1>
</V>
</VV>
<SS CF="prep" FS="cc" relación="subordinación">
253-al
254-juez
255-de
256-línea
</SS>
<CC>
<C relación="hipotaxis" cg="conj" vmod="acerca">257-y </C>
</CC>
<O CADENA="le pregunta" relación="hipotaxis" FS="cero">
<VV>
<CLI posición="proclisis" tercera="dativo"> 258-le</CLI>
<V>
<V1 v="flex">259-pregunta</V1>
</V>
</VV>
</O>
</O>
<MD Tipo="marcador_conversacional" CADENA="no?"/>
</E>
</A>
<TUR>*MIG: < 261-¡hombre! 262-claro > //
</TUR>
<A>
<E>
<J>261-¡hombre!</J>
<MD Tipo="marcador_conversacional" CADENA="262-claro"/>
</E>
</A>
</T>
</TEX>
79
80
Descargar