Una base de datos de construcciones en catalán

Anuncio
Una base de datos de construcciones en catalán y español*
Xavier Villalba
Universitat Autònoma de Barcelona. Departament de Filologia Catalana
Facultat de Lletres, Edifici B, Campus UAB
08193 Bellaterra (Cerdanyola del Vallès)
[email protected]
Resumen
En esta comunicación se presenta una parte del proyecto financiado (A)simetrías sintácticas en catalán y español
(MCyT/FEDER BFF2003-08364-C02), que consiste en el desarrollo de una base de datos de construcciones en
catalán y español (HISPACAT). Se discuten en primer lugar los principales objetivos de este proyecto
innovador, que se concibe como una gran fuente de datos para lingüistas de diferentes orientaciones y áreas,
como los estudios sobre bilingüismo, el aprendizaje de L2, la microvariación sintáctica, la adquisición lingüística
y la teoría lingüística. El segundo bloque de la comunicación consiste en una presentación general de la
estructura básica de la base de datos, esto es, de su ontología conceptual y de su arquitectura interna. El tercer
bloque incorpora una visión general del ‘libro de estilo’ de la base de datos, con especial atención al registro
lingüístico y a la fuente de los ejemplos, que siguen los estándares establecidos por las dos grandes gramáticas de
referencia de una y otra lengua: la Gramàtica del Català Contemporani y la Gramática Descriptiva de la
Lengua Española. Finalmente, se comentan diversas fichas para mostrar el tipo de información que codifican y
las utilidades que pueden encontrar en ellas los investigadores de diversos campos, con especial atención a la
pérdida sintáctica (syntactic attrition) y a la interferencia.
Palabras clave: base de datos, construcción, sintaxis comparada, catalán, español
Resum
En aquesta comunicació es presenta una part del projecte finançat (A)simetrías sintácticas en catalán y español
(MCyT/FEDER BFF2003-08364-C02), que consisteix en el desenvolupament d’una base de dades de
construccions en català i castellà (HISPACAT). Primer de tot, es discuteixen els principals objectius d’aquest
projecte innovador, que es concep com una gran font de dades per a lingüistes d’orientacions i camps diferents,
com ara els estudis sobre bilingüisme, l’aprenentatge de L2, la microvariació sintàctica, l’adquisició lingüística i
la teoria lingüística. El segon bloc de la comunicació consisteix en una presentació general de l’estructura bàsica
de la base de dades, això és, de la seva ontologia conceptual i de la seva arquitectura interna. El tercer bloc
incorpora una visió general del ‘llibre d’estil’ de la base de dades, parant atenció especial al registre lingüístic i a
la font dels exemples, que segueixen els estàndards establerts per les dues grans gramàtiques de referència d’una
i altra llengua: la Gramàtica del Català Contemporani i la Gramática Descriptiva de la Lengua Española.
Finalment, es comenten diverses fitxes per mostrar la mena d’informació que codifiquen i les utilitats que hi
poden trobar els investigadors de camps diversos, parant una atenció especial a la pèrdua sintàctica (syntactic
attrition) y a la interferencia.
Paraules clau: base de dades, construcció, sintaxi comparada, català, castellà
Abstract
In this communication a subpart is presented of the funded research project (A)simetrías sintácticas en catalán y
español [Syntactic (A)symmetries in Catalan and Spanish] MCyT/FEDER BFF2003-08364-C02), involving the
building of a database of syntactic contrastive contexts and constructions in Catalan and Spanish (HISPACAT).
We begin exposing the main goals underlying this innovative project, which is conceived as a major empirical
source for linguistic researchers from many different areas, like bilingualism studies, L2 learning, syntactic
microvariation, language acquisition, and theoretical linguistics. In the second part of the communication, a
*
Los resultados y la investigación presentados en esta comunicación han sido posibles gracias a las ayudas
concedidas al Grup de Gramática Teórica a través de los proyectos siguientes: BFF2003-08364-C02-01
(MCyT/FEDER) y 2005-SGR-00753 (DURSI, Generalitat de Catalunya).
general presentation is offered of the main structure of the database, namely its conceptual ontology, and the
internal structure of the files. In the third part of the communication, an outline of the ‘style sheet’ of the
database is presented, paying special attention to the language register and the source of the examples, which are
restricted to standard language, and the major reference grammars of both Catalan and Spanish: the Gramàtica
del Català Contemporani and the Gramática Descriptiva de la Lengua Española. Finally, the last part of the
communication is devoted to analyze several completed files in order to show the kind of information they store,
and the utilities that scholars from several major fields may find in it, with special attention to syntactic attrition,
and code mixing.
Key words: database, construction, comparative syntax, Catalan, Spanish
Tabla de contenido
1. El proyecto “(A)simetrías sintácticas en catalán y
en español” y la base de datos HISPACAT
2. Objetivos de HISPACAT
3. Diseño de HISPACAT
4. Libro de estilo de HISPACAT
5. Aplicaciones de HISPACAT
6. Conclusiones
7. Referencias bibliográficas
1. El proyecto “(A)simetrías sintácticas en catalán y en español” y la base de datos
HISPACAT
El proyecto coordinado BFF2003-08364-C02 “(A)simetrías sintácticas en catalán y en
español” (financiado por el Ministerio de Ciencia y Tecnología y los fondos FEDER de la
Unión Europea) tiene como objetivo global investigar las asimetrías y simetrías que se ponen
de manifiesto en las operaciones y cómputos sintácticos que tienen lugar en las gramáticas de
las lenguas románicas. Se pretende caracterizar qué factores del sistema computacional y qué
rasgos morfosintácticos de las expresiones léxicas determinan las propiedades gramaticales
que marcan las similitudes y diferencias entre español y catalán. En este proyecto se parte de
la hipótesis de que el estudio detallado de las semejanzas y las diferencias sintácticas entre el
español y el catalán ha de permitir una mayor comprensión de los principios que rigen cada
una de estas lenguas, al tiempo que nos ofrecerá pruebas empíricas para la contrastación y
delimitación de los principios universales del lenguaje. Se parte, pues, de una visión
microparamétrica de la sintaxis (véanse los trabajos programáticos (Kayne, 1996, 2005))
como herramienta que ha de permitir detectar y poner a prueba los elementos primitivos
responsables de la variación sintáctica aplicada a la comparación de dos lenguas
genéticamente próximas, que sin embargo divergen en ciertos aspectos de su comportamiento
sintáctico. Y como sea que los principios invariables que presiden el lenguaje no pueden ser
plenamente entendidos y estudiados si no es a través de la variación lingüística, dicha
herramienta resulta valiosísima para la construcción de la teoría general del lenguaje.
La singularidad principal del presente proyecto -su carácter comparativo e
interlingüístico- entronca de forma congruente con la necesidad —ampliamente reivindicada
en la investigación reciente— de explotar las ventajas resultantes de la combinación de las
dos grandes revoluciones científicas en la lingüística moderna: el paradigma históricocomparativo del siglo XIX y el paradigma sincrónico del siglo XX. Un punto de partida
ambicioso y complejo como el señalado comporta la necesidad de coordinar esfuerzos en una
doble dirección: 1) hacia los conocimientos globales sobre el catalán y el español y 2) hacia
los conocimientos específicos, fruto del know how acumulado sobre construcciones y
fenómenos lingüísticos concretos, compartidos o no por ambas lenguas.
En lo que respecta a la segunda línea de investigación, se consideró fundamental el
diseño de la base de datos HISPACAT de construcciones en catalán y español. Existen
actualmente bases de datos consultables en Internet (por ejemplo el Corpus Textual
Informatitzat de la Llengua Catalana del Institut d’Estudis Catalans o el Archivo Gramatical
de la Lengua Española), que serán utilizadas para obtener material analizable en el proyecto,
pero la característica que presentan es que (a) no son comparativas, (b) no presentan los datos
ordenados por campos sintáctico-semánticos (con excepción del AGLE) y (c) no incluyen
datos negativos, de modo que no es posible percibir el perfil de la gramaticalidad que
corresponde a cada construcción. La base de datos HISPACAT viene a paliar las tres
deficiencias anteriores, puesto que:
• Incorpora datos comparativos.
• Está concebida como una base de datos relacional y ordena la información por
esquemas constructivos.
• Incluye datos negativos que perfilan los límites de gramaticalidad de cada
construcción.
Por lo que se refiere al primer aspecto, es fundamental en el diseño de HISPACAT la
presentación de los datos de manera contrastiva para poder mostrar no sólo los puntos de
contacto, sino, sobre todo, las asimetrías sintácticas entre catalán y español, aspecto que no se
ha desarrollado de manera exhaustiva hasta la fecha. Podemos, pues, decir que HISPACAT, a
pesar de su formato de base de datos, es una verdadera gramática comparada del catalán y el
español y pretende vincular los esfuerzos llevados a cabo de manera independiente por los
equipos redactores de (Bosque y Demonte, 1999) y (Solà et al., 2002).
Por lo que respecta al segundo aspecto, HISPACAT está concebida como una base de
datos relacional capaz de permitir búsquedas booleanas complejas y búsquedas temáticas.
Además, el diseño de la base de datos y la organización de la información que contiene está
están subordinados a dos premisas teóricas fundamentales, lo que las diferencia radicalmente
de los corpus textuales disponibles. Por un lado, está basada en conceptos gramaticales, es
decir que el interés no radica en las expresiones lingüísticas sino en los conceptos que
subyacen a ellas y que sirven para configurarlas. Por otro lado, tiene una motivación teórica y
no simplemente práctica: parte de las hipótesis teóricas de que la variación sintáctica es fruto
de (micro)parámetros (Kayne, 1996, 2005) y de que las construcciones no son primitivos
sintácticos sino el resultado de la suma de propiedades (Chomsky, 1981). Esta concepción nos
aleja del marco teórico de la llamada ‘gramática de construcciones’ (Goldberg, 1995) y
admitimos que puede llevar a engaño hablar de ‘construcciones’ sin admitir su estatus teórico.
A pesar de esta pequeña incoherencia, creemos que se trata de un término con suficiente
flexibilidad para recoger tanto estructuras ya identificadas y estudiadas en profundidad por la
tradición gramatical (por ejemplo la pasiva morfológica: María fue vista en la librería) como
combinaciones sintácticas que no han recibido un tratamiento claro ni sistemático ni desde un
punto de vista teórico ni empírico (por ejemplo los reparadores discursivos: María y Juana
acudieron a la cita, pero sólo ella, María me refiero, consiguió el trabajo). Nuestro uso del
concepto ‘construcción’ es, por tanto, intencionadamente amplio y operacional: se trata de
una herramienta para afinar la descripción gramatical y aislar las propiedades fundamentales
—los átomos del lenguaje, por usar la metáfora de Baker (2001)— de la microvariación
sintáctica.
Finalmente —y también en contraste con los corpus textuales actuales—, HISPACAT
permite la inclusión de datos negativos que puedan ayudar a perfilan los límites de
gramaticalidad de cada construcción. Por citar un ejemplo, en el campo ANÁLISIS (véase 3.1)
de la ficha correspondiente a la construcción estativa con el verbo ligero “dar” (“dar SN a
alguien”) equivalente a verbos psicológicos estativos construidos con dativo, se incluyen
ejemplos agramaticales (*dar el miedo) para mostrar que el complemento verbal no puede ser
determinado. Otro caso, es la construcción negación expletiva en el contexto de marcadores
comparativos, cuya ficha contiene en el campo ejemplo(s) español(es) oraciones
agramaticales: Más vale ser feliz con poco dinero que (no) desgraciado con mucho; María
canta mejor que (*no) baila; Mejor sabe María cantar que no bailar; Prefiero tener a (*no)
desear; Juan era antes más simpático que (no) ahora; Juan era antes más simpático de lo que
(*no) es ahora. De esta manera se muestran los límites de la construcción, especialmente en
contraste con el catalán, que admite posibilidades excluidas en español. Las ventajas de
incluir esta información, que obviamente no puede obtenerse de una base textual basada en un
corpus, son evidentes para cualquier persona familiarizada con el aprendizaje de segundas
lenguas. La aportación de información sobre lo que es posible, pero también sobre lo que no
lo es, ayuda a fijar de manera más eficaz las propiedades y la extensión de cada construcción
y viene a suplir la ausencia de evidencia negativa de las gramáticas escolares, carencia que
puede llevar a los aprendices a generalizaciones incorrectas.
2. Objetivos de HISPACAT
La base de datos HISPACAT tiene unos objetivos teóricos y unos objetivos aplicados. Desde
el punto de vista teórico, tiene tres objetivos básicos:
1. ayudar a encontrar los “átomos” que subyacen a la microvariación lingüística;
2. ofrecer una visión panorámica de la (in)variación paramétrica y
3. predecir los dominios más “vulnerables” a los fenómenos de pérdida sintáctica
(syntactic attrition) e interferencia.
Efectivamente, como ha puesto de manifiesto el lingüista estadounidense Richard S. Kayne
(Kayne, 1996, 2005) —véanse también los trabajos de la llamada ‘perspectiva cartográfica’
recogidos en Cinque, 2002, Rizzi, 2004 y Belletti, 2004—, hay que ir más allá del concepto
(macro)parámetro, acuñado para dar cuenta de grandes diferencias estructurales entre grupos
de lenguas —e.g., el parámetro del sujeto nulo o pro-drop, que diferencia las lenguas
románicas, con la excepción del francés, de las lenguas germánicas; véase Villalba, 2004c
para una breve presentación y Jaeggli y Safir, 1986 para una presentación más detallada— y
trabajar con el de microvariación o variación microparamétrica. Este concepto se ha
propuesto para aludir a diferencias mínimas interlingüísticas o intralingüísticas que no afectan
al perfil tipológico general de las lenguas (no son, por lo tanto, macroparámetros), pero que
generan igualmente diferencias en el comportamiento de ciertas unidades lingüísticas. La
variación microparamétrica es la que se da con mayor frecuencia entre lenguas pertenecientes
a un mismo grupo lingüístico o entre dialectos de un mismo sistema y resulta, por tanto, la
opción epistemológica y metodológica más adecuada para un trabajo comparativo como el
que acomete la base de datos HISPACAT —el proyecto trabaja con la noción afín de contexto
contrastivo: Hernanz y Rigau, 2003 y Villalba, 2004a. Con estas premisas teóricas, una vez
completada la base de datos, se pretende obtener información crucial para establecer una lista
de microparámetros que den cuenta de la variación entre catalán y español (objetivo 1) y
establecer una visión de conjunto de los núcleos más estables e inestables de cada sistema
gramatical (objetivo 2), que pueda servir como campo de comprobación empírica de teorías
sobre la pérdida sintáctica y la interferencia (Hyltenstam y Obler, 1989, Silva-Corbalán,
1994, Sorace, 1998), así como punto de partida para establecer y contrastar hipótesis sobre
qué dominios pueden resultar más “vulnerables” a tales fenómenos derivados del contacto
entre el catalán y el español.
Desde el punto de vista aplicado, la base de datos HISPACAT tiene tres objetivos
fundamentales:
1. ofrecer una gran base empírica para investigadores sobre el bilingüismo y el
aprendizaje de segundas lenguas,
2. ofrecer una gramática comparativa para los profesores y estudiantes del catalán o el
español como segunda lengua y
3. ofrecer un catálogo de ejemplos comentados para los profesores y estudiantes del
catalán o el español como segunda lengua.
No hay duda de que cada vez más son los investigadores que se acercan a los fenómenos de
contacto lingüístico y en concreto al bilingüismo y al aprendizaje de segundas lenguas desde
una perspectiva gramatical y no sociolingüística. Para estos investigadores, resulta crucial
contar con una gran base de datos donde contrastar sus hipótesis sin tener que recurrir al
trabajo de campo de manera sistemática. HISPACAT pretende llenar este hueco y contribuir,
pues, a afinar las hipótesis y las descripciones de los expertos en tales ámbitos de la
lingüística aplicada (objetivo 1). HISPACAT también será útil a los profesores y estudiantes
de catalán o español como segunda lengua, puesto que les ofrece en un formato fácilmente
consultable y orientado al usuario una verdadera gramática comparada del catalán y el
español, instrumento del cual no se dispone actualmente (objetivo 2). Finalmente, la inclusión
en HISPACAT de numeroso ejemplos, tanto gramaticales como agramaticales, de las
construcciones estudiadas supone un valor añadido para los profesores y estudiantes de
catalán o español como segunda lengua, puesto que el análisis se acompaña del uso real, lo
que da mayor consistencia a la descripción gramatical y facilita la preparación de materiales
docentes (objetivo 3).
De momento, la base de datos dispone de unas 500 fichas de construcciones y está en
proceso de implantación informática y prueba en un servidor SQL sobre una plataforma
Linux, a cargo de Daniel Jiménez, técnico informático de la Universitat Autònoma de
Barcelona. En breve estará operativa para la introducción de las fichas a través de una
conexión segura en Internet.
3. Diseño de HISPACAT
El diseño de la base de datos HISPACAT se sustenta en dos ejes. Por un lado una ontología
de conceptos gramaticales y por otro un conjunto de fichas estructuradas en campos con
informaciones lingüísticas y de procesamiento. En los subapartados siguientes examinamos
cada aspecto por separado con algo más de detalle.
3.1 La ontologia
La ontología diseñada tiene una base puramente lingüística y se nutre de un vaciado
exhaustivo de los conceptos lingüísticos descritos en las dos principales obras de referencia
gramatical en español y catalán, a saber, la Gramática Descriptiva de la Lengua Española
(Bosque y Demonte, 1999) y la Gramàtica del Català Contemporani (Solà et al., 2002),
respectivamente. El resultado son 176 conceptos terminales estructurados en propiedades y
relaciones y subdivididos a su vez en propiedades léxico-gramaticales y semánticopragmáticas y relaciones sintácticas y semánticas —para la definición de los conceptos son de
utilidad, además de las dos gramáticas de referencia citadas, los diccionarios Pérez Saldanya
et al., 1998 y Villalba, 2004c. A continuación se muestra una estructuración de los conceptos
básicos de la ontología:
1) Conceptos básicos de la ontología
Propietats/Propiedades
1 Propietats lexicogramaticals/Propiedades léxico-gramaticales (PROPLEX)
1.1 Categoria/Categoría (/PROPLEX/CAT)
1.1.1 Verb/Verbo (/PROPLEX/CAT/V)
1.1.2 Nom/Nombre (/PROPLEX/CAT/N)
1.1.3 Adjectiu/Adjetivo (/PROPLEX/CAT/A)
1.1.4 preposición (/PROPLEX/CAT/P)
1.1.5 Adverbi/Adverbio (/PROPLEX/CAT/ADV)
1.1.6 Determinant/Determinante (/PROPLEX/CAT/DET)
1.1.7 Pronom/Pronombre (/PROPLEX/CAT/PRON)
1.1.8 Quantificador/Cuantificador (/PROPLEX/CAT/QUANT)
1.2 Trets morfològics/Rasgos morfológicos (/PROPLEX/TRETSMORF)
1.2.1 Gènere/Género (/PROPLEX/TRETSMORF/GNR)
1.2.2 Nombre/Número (/PROPLEX/TRETSMORF/NOMB)
1.2.3 Persona/Persona (/PROPLEX/TRETSMORF/PERS)
1.3
Modalitat
oracional/Modalidad
oracional
(/PROPLEX/TRETSMORF/MODAL)
1.4 Mode/Modo (/PROPLEX/TRETSMORF/MODE)
1.5 Temps/Tiempo (/PROPLEX/TRETSMORF/TEMPS)
2 Propietats semanticopragmàtiques/Propiedades semántico-pragmáticas
(/PROPSEM)
2.1 Aspecte/Aspecto (/PROPSEM/ASP)
2.1.1 Imperfectiu/Imperfectivo (/PROPSEM/ASP/IMPERF)
2.1.2 Perfectiu/Perfectivo (/PROPSEM/ASP/PERF)
2.2 Modalitat/Modalidad (/PROPSEM/MODAL)
2.2.1
Modalitat
deòntica/Modalidad
deóntica
(/PROPSEM/MODAL/DEON)
2.2.2
Modalitat
epistèmica/Modalidad
epistémica
(/PROPSEM/MODAL/EPIS)
2.3 Prominència discursiva/Prominencia discursiva (/PROPSEM/PROMIN)
2.3.1 Focus/Foco (/PROPSEM/PROMIN/FOC)
2.3.2 Tòpic/Tópico (/PROPSEM/PROMIN/TOP)
Relacions/Relaciones
3 Relacions sintàctiques/Relaciones sintácticas (/RELSINT)
3.1 Concordança/Concordancia (/RELSINT/CONC)
3.1.1
Concordança
gramatical/Concordancia
gramatical
(/RELSINT/CONC/GRAM)
3.1.2
Concordança
pel
sentit/Concordancia
de
sentido
(/RELSINT/CONC/SENT)
3.2 Ordre/Orden (/RELSINT/ORD)
3.2.1 Ordre no marcat/Orden no marcado (/RELSINT/ORD/NOMARC)
3.2.2 Ordre marcat/Orden marcado (/RELSINT/ORD/MARC)
3.3 Selecció/Selección (/RELSINT/SEL)
3.3.1 Argument/Argumento (/RELSINT/SEL/ARG)
3.3.2 Adjunt/Adjunto (/RELSINT/SEL/ADJ)
4 Relacions semàntiques/Relaciones semánticas (/RELSEM)
4.1 Relacions semàntiques predicatives/Relaciones semánticas predicativas
(RELSEM/PRED)
4.1.1 Primària/Primaria (RELSEM/PRED/PRIM)
4.1.2 Secundària/Secundaria (RELSEM/PRED/SEC)
4.2 Relacions semàntiques referencials/Relaciones semánticas referenciales
(RELSEM/REF)
4.2.1
Accessibilitat
contextual/Accesibilidad
contextual
(RELSEM/REF/ACCESS)
4.2.2
Dependència
referencial/Dependencia
referencial
(RELSEM/REF/DEPREF)
4.2.3 Determinació/Determinación (/RELSEM/REF/DETERM)
4.2.4 Quantificació/Cuantificación (/RELSEM/REF/QUANT)
Como se puede apreciar, cada concepto va asociado a un código basado en su posición en la
ontología, que es la información que se introduce en la base de datos, lo que permite no sólo
situar cada concepto en relación a los demás conceptos de la ontología, sino también mostrar
de manera directa redes de relaciones y clases naturales de conceptos (sobre los beneficios de
este sistema para la creación de búsquedas complejas, véase 3.2).
También cabe destacar que la ontología es bilingüe y su base es lingüística, es decir
que está destinada a la descripción y anotación de conceptos lingüísticos, pero al mismo
tiempo no rehuye una base conceptual, puesto que pretende ayudar a reflexionar sobre las dos
lenguas y a establecer generalizaciones sobre su estructura gramatical. Se halla pues cercana a
la General Ontology for Linguistic Description (GOLD) descrita en Farrar y Langendoen,
(2003), aunque no comparta, por razones operativas obvias, su generalidad (véase Villalba,
2004b).
Pasemos ahora a examinar un ‘concepto terminal’, como por ejemplo verbo inergativo
(se consideran verbos inergativos los verbos intransitivos ‘tradicionales’, como llorar, que
tratan su sujeto como un argumento externo (véanse Pérez Saldanya et al., 1998 y Villalba,
2004):
2) Concepto terminal ‘verbo inergativo’
1 Propietats lexicogramaticals/Propiedades lexicogramaticales (PROPLEX)
1.1 Categoria/Categoría (/PROPLEX/CAT)
1.1.1 Verb/Verbo (/PROPLEX/CAT/V)
1. règim/régimen (/PROPLEX/CAT/V/REG)
• inergatiu/inergativo (/PROPLEX/CAT/V/REG/INERG)
Como comentábamos anteriormente, este concepto terminal se codifica como
/PROPLEX/CAT/V/REG/INERG, lo que remite a su posición en la ontología y contribuye a
recoger de manera condensada y homogénea la propiedad gramatical, con los beneficios
evidentes que se derivan para la organización de la base de datos y para la recuperación de la
información a través de búsquedas temáticas.
3.2 Las fichas
El diseño de las fichas de la base de datos mantiene el equilibrio ya comentado entre la
aplicabilidad e interés teórico. Así pues, se combinan campos de utilidad para la gestión de las
informaciones de la base de datos con campos descriptivos y de análisis. A continuación
exponemos el listado de campos de una ficha y una ficha de muestra para ejemplificarlo:
3) Listado de campos de una ficha
NUM: numero de ficha
DEN_CAT: término catalán
DEN_ESP: término español
CONC: conceptos clave
EX_CAT: ejemplos catalanes
REF_CAT: referencia de los ejemplos catalanes
EX_ESP: ejemplos españoles
REF_ESP: referencia de los ejemplos españoles
ANAL: análisis de la construcción
BIB: bibliografía básica
SIN_CAT: sinónimos catalanes (por ejemplo dislocació a l’esquerra amb clític d’un
SD determinat)
SIN_ESP: sinónimos españoles (por ejemplo dislocación a la izquierda con clítico de
un SD determinado)
REL: construcciones relacionadas (por ejemplo dislocación a la derecha con clítico de
un SD definido)
COMENT: comentarios
AUTOR: autor
DATA: fecha de la última modificación
4) Ejemplo de ficha1
NUM: 2
DEN_CAT: demostratiu amb ús díctic postnominal
DEN_ESP: demostrativo con uso deíctico postnominal
CONC:
/PROPLEX/CAT/DET/DEM/DICT;
/RELSINT/ORD/NOMARC;
/RELSEM/REF/DETERM/DICT
EX_CAT: El cambrer aquest no en té ni idea.
REF_CAT: GCC 7.4.3
EX_ESP: El niño este es muy listo y ya no se le engaña fácilmente.
REF_ESP: GDLE 14.3.6
ANÀL: El determinante demostrativo deíctico indica la situación espacial o temporal
del referente del SN en el momento del acto enunciativo. La posición posnominal del
demostrativo deriva de su origen latino como adjetivo e implica la presencia del
artículo ante el núcleo del SN. El demostrativo posnuclear es incompatible con el
artículo indefinido, con cualquier cuantificador o con un núcleo nominal vacío. Los
complementos SP del nombre u oraciones de relativo han de seguir al demostrativo. Si
son SAdj pueden seguirlo o precederlo.
BIB: GCC 7, GDLE 14.
SIN_CAT:
SIN_ESP:
REL: demostrativo con uso deíctico prenominal; demostrativo con uso deíctico débil;
demostrativo inespecífico; demostrativo con interpretación de tipo
COMENT: Según el grado de proximidad temporal o espacial, el demostrativo, tanto
deíctico como anafórico, presenta dos formas en catalán (aquest, aquell), tres formas
en valenciano (aquest, aqueix, aquell) y tres formas en español (este, ese, aquel).
AUTOR: EP
DATA: 10/10/05
1
Como comentamos en más detalle en la sección 4, dado que HISPACAT es una base de datos bilingüe, la
información de las fichas se introduce de manera indistinta en catalán o español, según el investigador. En el
caso que nos ocupa, he traducido del catalán las informaciones de los campos ANÁL, REL y COMENT. Está
previsto que una vez completada la base de datos, todas las informaciones se ofrezcan tanto en catalán como en
español.
Por su importancia tanto teórica como aplicada merecen un comentario aparte los campos
CONC(EPTOS) y (CONSTRUCCIONES) REL(ACIONADAS). El primero incluye una
detallada taxonomía de conceptos de la ontología que ayudan a definir las propiedades básicas
de la construcción. Siguiendo el ejemplo anterior (demostrativo con uso deíctico
postnominal), los conceptos propuestos son los siguientes:
5) Conceptos de la construcción demostrativo con uso deíctico postnominal
/PROPLEX/CAT/DET/DEM/DICT: propiedad léxica → categoría gramatical →
determinante → demostrativo → uso díctico
RELSINT/ORD/MARC/ANT: relación sintáctica → orden → marcado →
anteposición
/RELSEM/REF/DETERM/DICT: relación semántica → referencial → determinación
→ díctico
Esta lista de conceptos gramaticales constituye una suma de propiedades que ayudan a definir
la construcción y que además permiten establecer una red de relaciones con otras
construcciones más o menos cercanas en función de las propiedades compartidas. Ello nos da
la opción de establecer generalizaciones empíricas más detalladas sobre conjuntos de
construcciones que a menudo se han relacionado de manera puramente intuitiva. La manera
de explicitar estas generalizaciones y redes de relaciones es a través del campo
(CONSTRUCCIONES) REL(ACIONADAS). En el ejemplo que nos ocupa, las
construcciones relacionadas son:
•
•
•
•
demostrativo con uso deíctico prenominal
demostrativo con uso deíctico débil
demostrativo inespecífico
demostrativo con interpretación de tipo
Es importante destacar que, además de ventajas teóricas, la inclusión del campo CONC
permite a la base de datos dotarse de un sistema de búsquedas más complejo que los que
habitualmente ofrecen los corpus textuales sin necesidad de recurrir a la anotación: la
búsqueda por conceptos gramaticales. la base de datos HISPACAT permite, pues, listar todas
las construcciones que comparten, por ejemplo, la propiedad RELSINT/ORD/MARC/ANT
(relación sintáctica → orden → marcado → anteposición) y permite hacerlo bien mediante
una búsqueda booleana bien mediante un menú desplegable de los conceptos de la ontología
(cf. el AGLE).
4. Libro de estilo de HISPACAT
4.1 Lengua descrita
La lengua descrita corresponde al catalán y español estándar contemporáneos, tanto en su
versión oral como escrita. La consideración tanto de la lengua escrita como la oral tiene como
fundamento la exhaustividad, puesto que ciertas construcciones se hallan circunscritas a un
registro o a otro. Por ejemplo, mientras que la pasiva morfológica es una construcción típica
de la lengua escrita, los diversos tipos de dislocaciones son mucho más habituales en la
lengua oral.
En cambio, por el momento se ha juzgado prudente dejar de lado la variación
diatópica, ya que nos planteaba un doble problema teórico y práctico. Por un lado, desde un
punto de vista teórico, hubiese sido necesario establecer un límite en el detalle de la
descripción y ello implicaba la difícil decisión de establecer a priori qué contaría como
dialecto y qué no. Por otro lado, la falta de descripciones gramaticales dialectales detalladas y
la limitación de los orígenes de los investigadores del proyecto, hablantes nativos del catalán
central o del español peninsular ponían en peligro la exhaustividad y la coherencia del
proyecto amén de dilatarlo extraordinariamente. Con todo, no se ha querido evitar la
posibilidad de incorporar esporádicamente información dialectal que pudiera resultar
relevante para la descripción de la construcción. La inclusión del campo COMENT(ARIO)
pretendía facilitar esta tarea (véase Villalba, 2004a). Así pues, en la descripción de una
construcción como demostrativo con uso deíctico prenominal se añade la información
dialectal que mientras que el catalán estándar tiene un sistema deícto con dos puntos de
referencia, el sistema del valenciano tiene un sistema de tres puntos, como el español.
4.2 Fuente de los ejemplos
La fuente principal y prioritaria de los ejemplos son las dos gramáticas de referencia del
español y el catalán: Bosque y Demonte (1999) y Solà et al. (2002), respectivamente.
Teniendo en cuenta su exhaustividad y actualidad, se consideró que debían tener prioridad en
la ejemplificación de las construcciones, sin por ello desdeñar fuentes secundarias
(monografías especializadas y artículos) cuando la fuente principal no aportase información.
Tampoco se ha querido descartar la inclusión de ejemplos fruto de la investigación personal
de los investigadores, puesto que hay ciertas construcciones que por su carácter más coloquial
o oral no están testimoniadas en las descripciones gramaticales. Tal podría ser el caso, por
ejemplo de la dislocación a la derecha en español, una construcción sobre la cual no se
dispone de estudios sistemáticos y, por tanto, presenta numerosos huecos en el paradigma.
4.3 Nivel de descripción
También en la línea trazada por Bosque y Demonte (1999) y Solà et al. (2002), HISPACAT
pretende ofrecer (en el campo ANAL) una descripción lo más neutra posible desde el punto de
vista teórico, de manera que sea accesible tanto al especialista como a los docentes y
estudiantes de instituto y centros de enseñanza de idiomas. Se evitan, pues, al máximo los
conceptos teóricos no tradicionales o excesivamente especializados.
4.4 Lengua de redacción de las fichas
Por lo que respecta a la lengua de redacción de las fichas, dado que HISPACAT es una base
de datos bilingüe, se deja libertad a los investigadores en los campos pertinentes —no así,
evidentemente en los campos DEN_CAT, DEN_ESP, EX_CAT, EX_ESP, SIN_CAT O SIN_ESP. Así
pues, tenemos fichas redactadas tanto en catalán como en español. Evidentemente, en una
etapa posterior, está previsto traducir a ambas lenguas el contenido de las fichas, de manera
que la consulta de la base de datos se pueda hacer en catalán o español, según la preferencia
del usuario.
5. Aplicaciones de HISPACAT
A continuación comentamos someramente algunas aplicaciones inmediatas de la base de
datos HISPACAT.
5.1 Estudio de la microvariación
Tomemos el caso concreto de los posesivos. Aunque tanto el catalán como el español
comparten diversos usos, una comparación más detallada nos enseña que existen claros
contrastes: las asimetrías (microvariación) que constituyen uno de los pilares del proyecto.
Considérese el campo ANAL de la construcción siguiente:
6) Construcción posesivo con función de complemento locativo
NUM: 9
DEN_CAT: possessiu amb funció de complement locatiu
DEN_CAST: posesivo con función de complemento locativo
CONC:/PROPLEX/CAT/DET/POSS/TON/POST;
/RELSINT/CONC/GRAM;
/RELSINT/ORD/MARC/POS
EX_CAT: Era sota meu
REF_CAT: GCC 7.5.2.8
EX_CAST:
REF_CAST:
ANÀL: El posesivo con función de complement locativo sólo es posible en catalán y
aparece como complemnento de las preposiciones y locuciones preposicionales de
carácter locativo en sustutución de un SP genitivo (cf. prop teu/prop de tu). La
construcción resulta extraña con locativos inanimados (cf. sota de la taula/??sota seu).
Nótese como el análisis parte de una delimitación de la construcción desde el punto de vista
combinatorio pero dejando claro el contraste interlingüistico; esto es la posible existencia de
un microparámetro que también podemos rastrear en otras construcciones, como la que se
ejemplifica a continuación:
7) Construcción posesivo con función de complemento agente
NUM: 10
DEN_CAT: possessiu amb funció de complement agent
DEN_CAST: posesivo con función de complemento agente
CONC:/PROPLEX/CAT/DET/POSS/TON/POST;
/RELSINT/CONC/GRAM ;
/RELSINT/ORD/MARC/POS
EX_CAT: Totes les observacions eren fetes meves.
REF_CAT: GCC 7.5.2.8
EX_CAST:
REF_CAST:
ANÀL: El posesivo con función de ocmplemento agente expresa la función semántica
de agente de algunos participios con los que tiene que concordar en género y número.
Como señala Bartra (1985), este posesivo aparece en construcciones atributivas
estativas y no pasivas (cf. *El retrat ha estat pintat teu /El retrat era pintat teu) y
corresponde a un genitivo (cf. El retrat era pintat d’en Pere). El complemento
genitivo denota, además del agente, un particpiante con una relación de posesión o
pertenencia respecto al objeto resultante de la acción. Esta construcción aparece
normamente con el verbo fer o con otros verbos de creación, como dibuixar, cosir, etc.
Esta construcción sólo es posible en catalán.
Sin duda, la aportación de estas y otras fichas relacionadas puede ayudar a establecer
generalizaciones sobre los contrastes sistemáticos entre el español y el catalán en el ámbito
pronominal y contribuir a establecer una serie de zonas de microvariación, que generen una
lista de posibles microparámetros y que delimiten las áreas más estables y variables de los
sistemas gramaticales de una y otra lengua (véase también 5.3).
5.2 Ayuda a la enseñanza y aprendizaje de catalán/español como L2
Resulta evidente del examen de una ficha de la utilidad de HISPACAT para los estudiantes de
catalán como segunda lengua. Considérese el caso siguiente:2
8) Construcción SP de lugar estático introducido por a seleccionado por un predicado
estativo
NÚM: 6.1
DEN_CAT: SP de lloc estàtic encapçalat per a seleccionat per un predicat estatiu.
DEN_ESP: SP de lugar estático introducido por a seleccionado por un predicado
estativo.
CONC: PROPLEX/CAT/P/EST; RELSINT/SEL/ARG
EX_CAT: La Queta viu a la platja; Residim a Tàrrega; Habitareu a la setena planta.
REF_CAT: GCC 11.3.1; _____; _____
EX_ESP: _____
REF_ESP: _____
ANAL: La preposición a en catalán es una preposición débil que puede expresar un
lugar estático o dinámico. En español sólo toma este último valor. Para expresar el
locativo estático, el español usa en. En catalán, la preposición en ocupa el sitio de la
preposición a en los dialectos meridionales (como por ejemplo en valenciano) o bien
delante de un demostrativo o cuantificador cuya primera sílaba empieza con vocal: Viu
en aquesta casa. Ante el artículo definido alternan a y en: Viuen al cotxe/en el cotxe.
En balear, normalmente se dice Viu a aquella casa. Cuando el lugar es abstracto o
metafórico, el verbo viure selecciona en: Viuen en la indigència. Si el objeto de la
preposición es un SN desnudo, también se usa en: Viuen en pisos.
La descripción del campo ANAL, combinada con los ejemplos, ayuda al hablante no nativo de
lengua materna española o familiarizado con ella a captar las diferencias del sistema
gramatical catalán, donde la forma básica para introducir complementos locativos estáticos es
a y no en. De esta manera se puede contribuir a evitar uno de los errores típicos de los
estudiantes de catalán como segunda lengua: *Viu en Barcelona.
Se da un caso parejo en la ficha siguiente, que complementa la anterior:
9) Construcción SP de lugar estático seleccionado por el predicado introducido por en
NÚM: 6.2
DEN_CAT: SP de lloc estàtic regit pel predicat encapçalat per en
DEN_ESP: SP de lugar estático seleccionado por el predicado introducido por en
CONC: PROPLEX/CAT/P/EST; RELSINT/SEL/ARG
EX_CAT: Viuen en la indigencia; Viuen en un pis; Acamparem en una gran
esplanada.
REF_CAT: GCC 11.5.1.4; GCC 11.5.1.3; _____
EX_ESP: Casilda se marchó a vivir definitivamente en París; Habitó en Salamanca;
Amanecí en Oviedo.
REF_ESP: GDLE 10.8.1.3; ____
ANÀL: En catalán, la preposición en ocupa el lugar de la preposición a delante de un
demostrativo o cuantificador cuya primera sílaba empieza con vocal. No obstante, el
uso de en como locativo estático en catalán es más general en los dialectos
2
Traduzco al español los campos pertinentes.
meridionales y también en registros más formales. Cuando el lugar es abstracto o
metafórico, el verbo viure selecciona en: Viuen en la indigència. Si el objeto de la
preposición es un SN desnudo, también se usa en: Viuen en pisos.
Cuando el locativo estativo significa a casa (de), el español usa la preposición en,
mientras que el catalán, en general, no. Así pues, en español tenemos Amaneció en
casa y en catalán Va pernoctar a casa.
Como se aprecia fácilmente, el análisis es intencionadamente descriptivo y carente de aparato
teórico y terminológico especializado y se centra en establecer el contraste en el uso
preposicional de los locativos estáticos en las dos lenguas, aspecto que resulta el más útil para
el aprendizaje del catalán pues parte del sistema ya conocido por el estudiante.
También desde el punto de vista docente HISPACAT presenta numerosos beneficios.
El más inmediato es el de permitir obtener de manera rápida y fiable ejemplos de todo tipo de
construcciones con los que ilustrar las explicaciones gramaticales en el aula, sin tener que
recurrir a ejemplos no contrastados o problemáticos, los cuales pueden complicar la
exposición teórica del profesor.
5.3 Base empírica para los estudios de pérdida sintáctica o interferencia
Una última muestra de las aplicaciones de la base de datos HISPACAT consiste en la
creación de campos de prueba para hipótesis sobre la pérdida sintáctica o la interferencia en
casos de bilingüismo o de aprendizaje de segundas lenguas. A continuación se dan un par de
ejemplos claros de interferencia reflejados en HISPACAT (señalo con negrita la parte más
relevante de la ficha):
10) Construcción adverbios de fase ya y todavía en posición inmediatamente
postverbal
NUM: S26-19
DEN_CAT: adverbis de fase ya i todavía en posició immediatament postverbal
DEN_CAST: adverbios de fase ya y todavía en posición inmediatamente postverbal
CONC: /PROPLEX/CAT/ADV/ASP; /RELSINT/ORD/MARC/POS
EX_CAT:
REF_CAT:
EX_CAST: Està {ya/todavía} aquí
REF_CAST: Solà i Pujols (2003-26.2.2.1:2924)
ANÀL: Tanto en español como en catalán es posible el orden adverbio-verbo:
{Ya/Todavía}està aquí / {Ja/Encara} és aquí). El hecho de que en español exista otro
orden está seguramente relacionado con la posibilidad de una posición más alta (más a
la izquierda) del verbo, manifestada en otros datos como Tiene {Juan/usted } mucha
suerte o Es quizá cierto, en donde el verbo puede preceder el sujeto y ciertos adverbios
en castellano y no (o más dificilmente) en catalán.3
COMENT: Como en muchos otros casos, el calco del orden de palabras del
español se da en catalán y se usa extensamente en el catalán escrito.
AUTOR: JS
DATA: 23/10/2005
3
Nótese el énfasis en establecer una relación entre dos fenómenos aparentemente inconexos para poderlos
derivar de una misma propiedad o microparámetro: la posición del verbo en la estructura oracional.
11) Construcción cuantificador cada en expresiones temporales aparentemente no
distributivas
NUM: S26-1
DEN_CAT: quantificador cada en expressions temporals aparentment no distributives
DEN_CAST: cuantificador cada en expresiones temporales aparentemente no
distributivas
CONC:
/PROPLEX/CAT/DET/;
/RELSINT/SEL/ADJ/OR;
/RELSEM/REF/QUANT/INTER
EX_CAT: Cada diumenge vaig al cinema
REF_CAT: Solà i Pujols (2002-26.1.2.3:2896)
EX_CAST:
REF_CAST:
ANÀL: El determinante cada es distributivo y requiere, dentro de su alcance, algún
elemeno sobre el que pueda establecer una distribución: Cada columna del Partenó
aguanta el sostre *(en un punt diferent). Con expresiones temporales, el uso
distributivo es aparente en casos como Cada dia va a escola a una hora diferent, pero
no en casos como Cada dia va a escola, en donde el español usa el cuantificador no
distributivo (Todos los días va a la escuela). […]
BIB: Solà i Pujols (GCC-26.1.2.3:2896); Sánchez López (1999-16.3.2.3:1068, n.28);
Brucart (2002-8.2.3.3:h)
SIN_CAT:
SIN_CAST:
REL:
COMENT: De hecho, en español quizás no es imposible este uso (por descontado,
no lo es en el castellano de los catalanohablantes). No obstante, Sánchez López
(1999-16:1068 nota 26), dice que se prefiere Todos los domingos voy al cine a
*??
Cada domingo voy al cine.
AUTOR: JS
DATA: 15/04/2005
En ambos casos se da una interferencia del sistema gramatical de una lengua (del español
sobre el catalán en el primer caso y a la inversa en el segundo).
Sin duda, datos como estos que sólo se encuentran parcialmente comentados en la
bibliografía lingüística pueden aportar un importante campo de contrastación empírica de
hipótesis sobre los fenómenos gramaticales derivados del contacto entre lenguas.
6. Conclusiones
De la exposición precedente podemos concluir que la base de datos HISPACAT no es un
proyecto puramente aplicado sino que parte de unas premisas teóricas concretas (la teoría de
la microvariación sintáctica) y tiene la pretensión de contribuir a esclarecer problemas
empíricos de gran importe teórico, como es determinar los átomos de la microvariación
sintáctica o las zonas del sistema gramatical más vulnerables a la variación sintáctica. Para
ello se ha escogido un diseño de corte lingüístico, pero no puramente textual sino
deliberadamente conceptual, puesto que ello nos permite establecer generalizaciones
empíricas e hipótesis teóricas de mayor alcance. Con todo, cabe resaltar que junto a sus
virtudes como ayuda a la investigación teórica, HISPACAT también es una herramienta de
consulta útil para investigadores, docentes y estudiantes, especialmente en los ámbitos de la
enseñanza de segundas lenguas, el bilingüismo y la perdida e interferencia sintácticas.
Referencias bibliográficas
Baker, M. (2001). The Atoms of Language. The mind's hidden rules of grammar. New York:
Basic Books.
Belletti, A. ed. (2004). Structures and Beyond – The Cartography of Syntactic Structures vol
3: Oxford University Press.
Bosque, I., y Demonte, V. eds. (1999). Gramática descriptiva de la lengua española. Madrid:
Espasa.
Cinque, G. ed. (2002). Functional Structure in DP and IP - The Cartography of Syntactic
Structures vol 1: Oxford University Press.
Chomsky, N. (1981). Lectures on Government and Binding. Dordrecht: Foris.
Farrar, S., y Langendoen, T. (2003). “A linguistic ontology for the semantic web”, Glot
International 7, p. 97-100.
Goldberg, A. E. (1995). Constructions: A Construction Grammar Approach to Argument
Structure. Chicago: University of Chicago Press.
Hernanz, M. L., y Rigau, G. (2003). “(A)simetrías sintácticas en catalán y español”. Proyecto
MCyT/FEDER BFF2003-08364-C02. Ms. UAB. Bellaterra, Cerdanyola del Vallès.
Hyltenstam, K., y Obler, L. eds. (1989). Bilingualism across the Lifespan: Aspects of
Acquisition, Maturation, and Loss: Cambridge University Press.
Jaeggli, O., y Safir, K. (1986). “The null-subject parameter and parametric theory. En
Osvaldo Jaeggli y Ken Safir, eds. The null-subject parameter. Dordrecht: Kluwer. p.
1-44
Kayne, R.S. (1996). “Microparametric Syntax. Some Introductory Remarks. En J.R. Black y
V. Montapanyane, eds. Microparametric Syntax and Dialectal Variation.
Amsterdam/Filadelfia: John Benjamins. p. ix-xvii.
Kayne, R.S. (2005). Some Notes on Comparative Syntax, with Special Reference to English
and French. En G. Cinque y RS. Kayne, eds. Handbook of Comparative Syntax. New
York: Oxford University Press. p. 3-69.
Pérez Saldanya, M., Mestre, R., y Sanmartín, O. (1998). Diccionari de lingüística. Oliva:
Colomar Editors.
Rizzi, L. (2004). On The Cartography of Syntactic Structures. En L. Rizzi, ed. The Structure
of CP and IP – The Cartography of Syntactic Structures vol 2. Oxford University
Press: Oxford.
Silva-Corbalán, C. (1994). Language Contact and Change: Spanish in Los Ángeles: Oxford
University Press.
Solà, J., Lloret, M. R., Mascaró, J., y Pérez Saldanya, M. eds. (2002). Gramàtica del català
contemporani. Barcelona: Empúries.
Sorace, A. (1998). “Near-nativeness, optionality and L1 attrition”. Proceedings of the 12th
International Symposium of Theoretical and Applied Linguistics, Thessaloniki.
Villalba, X. (2004a). “Proposta de guió de treball”. Documents de treball del Projecte
BFF2003-08364-C02 (MCyT i FEDER): Report 2004-01. Grup de Gramática Teórica,
UAB.
Villalba, X. (2004b). “Ontologia conceptual”. Documents de treball del Projecte BFF200308364-C02 (MCyT i FEDER): Report 2004-02. Grup de Gramática Teórica, UAB.
Villalba, X. (2004c). Diccionari Ballesta de Gramàtica Generativa: Catalan Journal in
Linguistics Monographs. Cerdanyola del Vallès, Spain: Servei de Publicacions de la
Universitat Autònoma de Barcelona.
Descargar