Una base de datos de construcciones en catalán y español* Xavier Villalba Universitat Autònoma de Barcelona. Departament de Filologia Catalana Facultat de Lletres, Edifici B, Campus UAB 08193 Bellaterra (Cerdanyola del Vallès) [email protected] Resumen En esta comunicación se presenta una parte del proyecto financiado (A)simetrías sintácticas en catalán y español (MCyT/FEDER BFF2003-08364-C02), que consiste en el desarrollo de una base de datos de construcciones en catalán y español (HISPACAT). Se discuten en primer lugar los principales objetivos de este proyecto innovador, que se concibe como una gran fuente de datos para lingüistas de diferentes orientaciones y áreas, como los estudios sobre bilingüismo, el aprendizaje de L2, la microvariación sintáctica, la adquisición lingüística y la teoría lingüística. El segundo bloque de la comunicación consiste en una presentación general de la estructura básica de la base de datos, esto es, de su ontología conceptual y de su arquitectura interna. El tercer bloque incorpora una visión general del ‘libro de estilo’ de la base de datos, con especial atención al registro lingüístico y a la fuente de los ejemplos, que siguen los estándares establecidos por las dos grandes gramáticas de referencia de una y otra lengua: la Gramàtica del Català Contemporani y la Gramática Descriptiva de la Lengua Española. Finalmente, se comentan diversas fichas para mostrar el tipo de información que codifican y las utilidades que pueden encontrar en ellas los investigadores de diversos campos, con especial atención a la pérdida sintáctica (syntactic attrition) y a la interferencia. Palabras clave: base de datos, construcción, sintaxis comparada, catalán, español Resum En aquesta comunicació es presenta una part del projecte finançat (A)simetrías sintácticas en catalán y español (MCyT/FEDER BFF2003-08364-C02), que consisteix en el desenvolupament d’una base de dades de construccions en català i castellà (HISPACAT). Primer de tot, es discuteixen els principals objectius d’aquest projecte innovador, que es concep com una gran font de dades per a lingüistes d’orientacions i camps diferents, com ara els estudis sobre bilingüisme, l’aprenentatge de L2, la microvariació sintàctica, l’adquisició lingüística i la teoria lingüística. El segon bloc de la comunicació consisteix en una presentació general de l’estructura bàsica de la base de dades, això és, de la seva ontologia conceptual i de la seva arquitectura interna. El tercer bloc incorpora una visió general del ‘llibre d’estil’ de la base de dades, parant atenció especial al registre lingüístic i a la font dels exemples, que segueixen els estàndards establerts per les dues grans gramàtiques de referència d’una i altra llengua: la Gramàtica del Català Contemporani i la Gramática Descriptiva de la Lengua Española. Finalment, es comenten diverses fitxes per mostrar la mena d’informació que codifiquen i les utilitats que hi poden trobar els investigadors de camps diversos, parant una atenció especial a la pèrdua sintàctica (syntactic attrition) y a la interferencia. Paraules clau: base de dades, construcció, sintaxi comparada, català, castellà Abstract In this communication a subpart is presented of the funded research project (A)simetrías sintácticas en catalán y español [Syntactic (A)symmetries in Catalan and Spanish] MCyT/FEDER BFF2003-08364-C02), involving the building of a database of syntactic contrastive contexts and constructions in Catalan and Spanish (HISPACAT). We begin exposing the main goals underlying this innovative project, which is conceived as a major empirical source for linguistic researchers from many different areas, like bilingualism studies, L2 learning, syntactic microvariation, language acquisition, and theoretical linguistics. In the second part of the communication, a * Los resultados y la investigación presentados en esta comunicación han sido posibles gracias a las ayudas concedidas al Grup de Gramática Teórica a través de los proyectos siguientes: BFF2003-08364-C02-01 (MCyT/FEDER) y 2005-SGR-00753 (DURSI, Generalitat de Catalunya). general presentation is offered of the main structure of the database, namely its conceptual ontology, and the internal structure of the files. In the third part of the communication, an outline of the ‘style sheet’ of the database is presented, paying special attention to the language register and the source of the examples, which are restricted to standard language, and the major reference grammars of both Catalan and Spanish: the Gramàtica del Català Contemporani and the Gramática Descriptiva de la Lengua Española. Finally, the last part of the communication is devoted to analyze several completed files in order to show the kind of information they store, and the utilities that scholars from several major fields may find in it, with special attention to syntactic attrition, and code mixing. Key words: database, construction, comparative syntax, Catalan, Spanish Tabla de contenido 1. El proyecto “(A)simetrías sintácticas en catalán y en español” y la base de datos HISPACAT 2. Objetivos de HISPACAT 3. Diseño de HISPACAT 4. Libro de estilo de HISPACAT 5. Aplicaciones de HISPACAT 6. Conclusiones 7. Referencias bibliográficas 1. El proyecto “(A)simetrías sintácticas en catalán y en español” y la base de datos HISPACAT El proyecto coordinado BFF2003-08364-C02 “(A)simetrías sintácticas en catalán y en español” (financiado por el Ministerio de Ciencia y Tecnología y los fondos FEDER de la Unión Europea) tiene como objetivo global investigar las asimetrías y simetrías que se ponen de manifiesto en las operaciones y cómputos sintácticos que tienen lugar en las gramáticas de las lenguas románicas. Se pretende caracterizar qué factores del sistema computacional y qué rasgos morfosintácticos de las expresiones léxicas determinan las propiedades gramaticales que marcan las similitudes y diferencias entre español y catalán. En este proyecto se parte de la hipótesis de que el estudio detallado de las semejanzas y las diferencias sintácticas entre el español y el catalán ha de permitir una mayor comprensión de los principios que rigen cada una de estas lenguas, al tiempo que nos ofrecerá pruebas empíricas para la contrastación y delimitación de los principios universales del lenguaje. Se parte, pues, de una visión microparamétrica de la sintaxis (véanse los trabajos programáticos (Kayne, 1996, 2005)) como herramienta que ha de permitir detectar y poner a prueba los elementos primitivos responsables de la variación sintáctica aplicada a la comparación de dos lenguas genéticamente próximas, que sin embargo divergen en ciertos aspectos de su comportamiento sintáctico. Y como sea que los principios invariables que presiden el lenguaje no pueden ser plenamente entendidos y estudiados si no es a través de la variación lingüística, dicha herramienta resulta valiosísima para la construcción de la teoría general del lenguaje. La singularidad principal del presente proyecto -su carácter comparativo e interlingüístico- entronca de forma congruente con la necesidad —ampliamente reivindicada en la investigación reciente— de explotar las ventajas resultantes de la combinación de las dos grandes revoluciones científicas en la lingüística moderna: el paradigma históricocomparativo del siglo XIX y el paradigma sincrónico del siglo XX. Un punto de partida ambicioso y complejo como el señalado comporta la necesidad de coordinar esfuerzos en una doble dirección: 1) hacia los conocimientos globales sobre el catalán y el español y 2) hacia los conocimientos específicos, fruto del know how acumulado sobre construcciones y fenómenos lingüísticos concretos, compartidos o no por ambas lenguas. En lo que respecta a la segunda línea de investigación, se consideró fundamental el diseño de la base de datos HISPACAT de construcciones en catalán y español. Existen actualmente bases de datos consultables en Internet (por ejemplo el Corpus Textual Informatitzat de la Llengua Catalana del Institut d’Estudis Catalans o el Archivo Gramatical de la Lengua Española), que serán utilizadas para obtener material analizable en el proyecto, pero la característica que presentan es que (a) no son comparativas, (b) no presentan los datos ordenados por campos sintáctico-semánticos (con excepción del AGLE) y (c) no incluyen datos negativos, de modo que no es posible percibir el perfil de la gramaticalidad que corresponde a cada construcción. La base de datos HISPACAT viene a paliar las tres deficiencias anteriores, puesto que: • Incorpora datos comparativos. • Está concebida como una base de datos relacional y ordena la información por esquemas constructivos. • Incluye datos negativos que perfilan los límites de gramaticalidad de cada construcción. Por lo que se refiere al primer aspecto, es fundamental en el diseño de HISPACAT la presentación de los datos de manera contrastiva para poder mostrar no sólo los puntos de contacto, sino, sobre todo, las asimetrías sintácticas entre catalán y español, aspecto que no se ha desarrollado de manera exhaustiva hasta la fecha. Podemos, pues, decir que HISPACAT, a pesar de su formato de base de datos, es una verdadera gramática comparada del catalán y el español y pretende vincular los esfuerzos llevados a cabo de manera independiente por los equipos redactores de (Bosque y Demonte, 1999) y (Solà et al., 2002). Por lo que respecta al segundo aspecto, HISPACAT está concebida como una base de datos relacional capaz de permitir búsquedas booleanas complejas y búsquedas temáticas. Además, el diseño de la base de datos y la organización de la información que contiene está están subordinados a dos premisas teóricas fundamentales, lo que las diferencia radicalmente de los corpus textuales disponibles. Por un lado, está basada en conceptos gramaticales, es decir que el interés no radica en las expresiones lingüísticas sino en los conceptos que subyacen a ellas y que sirven para configurarlas. Por otro lado, tiene una motivación teórica y no simplemente práctica: parte de las hipótesis teóricas de que la variación sintáctica es fruto de (micro)parámetros (Kayne, 1996, 2005) y de que las construcciones no son primitivos sintácticos sino el resultado de la suma de propiedades (Chomsky, 1981). Esta concepción nos aleja del marco teórico de la llamada ‘gramática de construcciones’ (Goldberg, 1995) y admitimos que puede llevar a engaño hablar de ‘construcciones’ sin admitir su estatus teórico. A pesar de esta pequeña incoherencia, creemos que se trata de un término con suficiente flexibilidad para recoger tanto estructuras ya identificadas y estudiadas en profundidad por la tradición gramatical (por ejemplo la pasiva morfológica: María fue vista en la librería) como combinaciones sintácticas que no han recibido un tratamiento claro ni sistemático ni desde un punto de vista teórico ni empírico (por ejemplo los reparadores discursivos: María y Juana acudieron a la cita, pero sólo ella, María me refiero, consiguió el trabajo). Nuestro uso del concepto ‘construcción’ es, por tanto, intencionadamente amplio y operacional: se trata de una herramienta para afinar la descripción gramatical y aislar las propiedades fundamentales —los átomos del lenguaje, por usar la metáfora de Baker (2001)— de la microvariación sintáctica. Finalmente —y también en contraste con los corpus textuales actuales—, HISPACAT permite la inclusión de datos negativos que puedan ayudar a perfilan los límites de gramaticalidad de cada construcción. Por citar un ejemplo, en el campo ANÁLISIS (véase 3.1) de la ficha correspondiente a la construcción estativa con el verbo ligero “dar” (“dar SN a alguien”) equivalente a verbos psicológicos estativos construidos con dativo, se incluyen ejemplos agramaticales (*dar el miedo) para mostrar que el complemento verbal no puede ser determinado. Otro caso, es la construcción negación expletiva en el contexto de marcadores comparativos, cuya ficha contiene en el campo ejemplo(s) español(es) oraciones agramaticales: Más vale ser feliz con poco dinero que (no) desgraciado con mucho; María canta mejor que (*no) baila; Mejor sabe María cantar que no bailar; Prefiero tener a (*no) desear; Juan era antes más simpático que (no) ahora; Juan era antes más simpático de lo que (*no) es ahora. De esta manera se muestran los límites de la construcción, especialmente en contraste con el catalán, que admite posibilidades excluidas en español. Las ventajas de incluir esta información, que obviamente no puede obtenerse de una base textual basada en un corpus, son evidentes para cualquier persona familiarizada con el aprendizaje de segundas lenguas. La aportación de información sobre lo que es posible, pero también sobre lo que no lo es, ayuda a fijar de manera más eficaz las propiedades y la extensión de cada construcción y viene a suplir la ausencia de evidencia negativa de las gramáticas escolares, carencia que puede llevar a los aprendices a generalizaciones incorrectas. 2. Objetivos de HISPACAT La base de datos HISPACAT tiene unos objetivos teóricos y unos objetivos aplicados. Desde el punto de vista teórico, tiene tres objetivos básicos: 1. ayudar a encontrar los “átomos” que subyacen a la microvariación lingüística; 2. ofrecer una visión panorámica de la (in)variación paramétrica y 3. predecir los dominios más “vulnerables” a los fenómenos de pérdida sintáctica (syntactic attrition) e interferencia. Efectivamente, como ha puesto de manifiesto el lingüista estadounidense Richard S. Kayne (Kayne, 1996, 2005) —véanse también los trabajos de la llamada ‘perspectiva cartográfica’ recogidos en Cinque, 2002, Rizzi, 2004 y Belletti, 2004—, hay que ir más allá del concepto (macro)parámetro, acuñado para dar cuenta de grandes diferencias estructurales entre grupos de lenguas —e.g., el parámetro del sujeto nulo o pro-drop, que diferencia las lenguas románicas, con la excepción del francés, de las lenguas germánicas; véase Villalba, 2004c para una breve presentación y Jaeggli y Safir, 1986 para una presentación más detallada— y trabajar con el de microvariación o variación microparamétrica. Este concepto se ha propuesto para aludir a diferencias mínimas interlingüísticas o intralingüísticas que no afectan al perfil tipológico general de las lenguas (no son, por lo tanto, macroparámetros), pero que generan igualmente diferencias en el comportamiento de ciertas unidades lingüísticas. La variación microparamétrica es la que se da con mayor frecuencia entre lenguas pertenecientes a un mismo grupo lingüístico o entre dialectos de un mismo sistema y resulta, por tanto, la opción epistemológica y metodológica más adecuada para un trabajo comparativo como el que acomete la base de datos HISPACAT —el proyecto trabaja con la noción afín de contexto contrastivo: Hernanz y Rigau, 2003 y Villalba, 2004a. Con estas premisas teóricas, una vez completada la base de datos, se pretende obtener información crucial para establecer una lista de microparámetros que den cuenta de la variación entre catalán y español (objetivo 1) y establecer una visión de conjunto de los núcleos más estables e inestables de cada sistema gramatical (objetivo 2), que pueda servir como campo de comprobación empírica de teorías sobre la pérdida sintáctica y la interferencia (Hyltenstam y Obler, 1989, Silva-Corbalán, 1994, Sorace, 1998), así como punto de partida para establecer y contrastar hipótesis sobre qué dominios pueden resultar más “vulnerables” a tales fenómenos derivados del contacto entre el catalán y el español. Desde el punto de vista aplicado, la base de datos HISPACAT tiene tres objetivos fundamentales: 1. ofrecer una gran base empírica para investigadores sobre el bilingüismo y el aprendizaje de segundas lenguas, 2. ofrecer una gramática comparativa para los profesores y estudiantes del catalán o el español como segunda lengua y 3. ofrecer un catálogo de ejemplos comentados para los profesores y estudiantes del catalán o el español como segunda lengua. No hay duda de que cada vez más son los investigadores que se acercan a los fenómenos de contacto lingüístico y en concreto al bilingüismo y al aprendizaje de segundas lenguas desde una perspectiva gramatical y no sociolingüística. Para estos investigadores, resulta crucial contar con una gran base de datos donde contrastar sus hipótesis sin tener que recurrir al trabajo de campo de manera sistemática. HISPACAT pretende llenar este hueco y contribuir, pues, a afinar las hipótesis y las descripciones de los expertos en tales ámbitos de la lingüística aplicada (objetivo 1). HISPACAT también será útil a los profesores y estudiantes de catalán o español como segunda lengua, puesto que les ofrece en un formato fácilmente consultable y orientado al usuario una verdadera gramática comparada del catalán y el español, instrumento del cual no se dispone actualmente (objetivo 2). Finalmente, la inclusión en HISPACAT de numeroso ejemplos, tanto gramaticales como agramaticales, de las construcciones estudiadas supone un valor añadido para los profesores y estudiantes de catalán o español como segunda lengua, puesto que el análisis se acompaña del uso real, lo que da mayor consistencia a la descripción gramatical y facilita la preparación de materiales docentes (objetivo 3). De momento, la base de datos dispone de unas 500 fichas de construcciones y está en proceso de implantación informática y prueba en un servidor SQL sobre una plataforma Linux, a cargo de Daniel Jiménez, técnico informático de la Universitat Autònoma de Barcelona. En breve estará operativa para la introducción de las fichas a través de una conexión segura en Internet. 3. Diseño de HISPACAT El diseño de la base de datos HISPACAT se sustenta en dos ejes. Por un lado una ontología de conceptos gramaticales y por otro un conjunto de fichas estructuradas en campos con informaciones lingüísticas y de procesamiento. En los subapartados siguientes examinamos cada aspecto por separado con algo más de detalle. 3.1 La ontologia La ontología diseñada tiene una base puramente lingüística y se nutre de un vaciado exhaustivo de los conceptos lingüísticos descritos en las dos principales obras de referencia gramatical en español y catalán, a saber, la Gramática Descriptiva de la Lengua Española (Bosque y Demonte, 1999) y la Gramàtica del Català Contemporani (Solà et al., 2002), respectivamente. El resultado son 176 conceptos terminales estructurados en propiedades y relaciones y subdivididos a su vez en propiedades léxico-gramaticales y semánticopragmáticas y relaciones sintácticas y semánticas —para la definición de los conceptos son de utilidad, además de las dos gramáticas de referencia citadas, los diccionarios Pérez Saldanya et al., 1998 y Villalba, 2004c. A continuación se muestra una estructuración de los conceptos básicos de la ontología: 1) Conceptos básicos de la ontología Propietats/Propiedades 1 Propietats lexicogramaticals/Propiedades léxico-gramaticales (PROPLEX) 1.1 Categoria/Categoría (/PROPLEX/CAT) 1.1.1 Verb/Verbo (/PROPLEX/CAT/V) 1.1.2 Nom/Nombre (/PROPLEX/CAT/N) 1.1.3 Adjectiu/Adjetivo (/PROPLEX/CAT/A) 1.1.4 preposición (/PROPLEX/CAT/P) 1.1.5 Adverbi/Adverbio (/PROPLEX/CAT/ADV) 1.1.6 Determinant/Determinante (/PROPLEX/CAT/DET) 1.1.7 Pronom/Pronombre (/PROPLEX/CAT/PRON) 1.1.8 Quantificador/Cuantificador (/PROPLEX/CAT/QUANT) 1.2 Trets morfològics/Rasgos morfológicos (/PROPLEX/TRETSMORF) 1.2.1 Gènere/Género (/PROPLEX/TRETSMORF/GNR) 1.2.2 Nombre/Número (/PROPLEX/TRETSMORF/NOMB) 1.2.3 Persona/Persona (/PROPLEX/TRETSMORF/PERS) 1.3 Modalitat oracional/Modalidad oracional (/PROPLEX/TRETSMORF/MODAL) 1.4 Mode/Modo (/PROPLEX/TRETSMORF/MODE) 1.5 Temps/Tiempo (/PROPLEX/TRETSMORF/TEMPS) 2 Propietats semanticopragmàtiques/Propiedades semántico-pragmáticas (/PROPSEM) 2.1 Aspecte/Aspecto (/PROPSEM/ASP) 2.1.1 Imperfectiu/Imperfectivo (/PROPSEM/ASP/IMPERF) 2.1.2 Perfectiu/Perfectivo (/PROPSEM/ASP/PERF) 2.2 Modalitat/Modalidad (/PROPSEM/MODAL) 2.2.1 Modalitat deòntica/Modalidad deóntica (/PROPSEM/MODAL/DEON) 2.2.2 Modalitat epistèmica/Modalidad epistémica (/PROPSEM/MODAL/EPIS) 2.3 Prominència discursiva/Prominencia discursiva (/PROPSEM/PROMIN) 2.3.1 Focus/Foco (/PROPSEM/PROMIN/FOC) 2.3.2 Tòpic/Tópico (/PROPSEM/PROMIN/TOP) Relacions/Relaciones 3 Relacions sintàctiques/Relaciones sintácticas (/RELSINT) 3.1 Concordança/Concordancia (/RELSINT/CONC) 3.1.1 Concordança gramatical/Concordancia gramatical (/RELSINT/CONC/GRAM) 3.1.2 Concordança pel sentit/Concordancia de sentido (/RELSINT/CONC/SENT) 3.2 Ordre/Orden (/RELSINT/ORD) 3.2.1 Ordre no marcat/Orden no marcado (/RELSINT/ORD/NOMARC) 3.2.2 Ordre marcat/Orden marcado (/RELSINT/ORD/MARC) 3.3 Selecció/Selección (/RELSINT/SEL) 3.3.1 Argument/Argumento (/RELSINT/SEL/ARG) 3.3.2 Adjunt/Adjunto (/RELSINT/SEL/ADJ) 4 Relacions semàntiques/Relaciones semánticas (/RELSEM) 4.1 Relacions semàntiques predicatives/Relaciones semánticas predicativas (RELSEM/PRED) 4.1.1 Primària/Primaria (RELSEM/PRED/PRIM) 4.1.2 Secundària/Secundaria (RELSEM/PRED/SEC) 4.2 Relacions semàntiques referencials/Relaciones semánticas referenciales (RELSEM/REF) 4.2.1 Accessibilitat contextual/Accesibilidad contextual (RELSEM/REF/ACCESS) 4.2.2 Dependència referencial/Dependencia referencial (RELSEM/REF/DEPREF) 4.2.3 Determinació/Determinación (/RELSEM/REF/DETERM) 4.2.4 Quantificació/Cuantificación (/RELSEM/REF/QUANT) Como se puede apreciar, cada concepto va asociado a un código basado en su posición en la ontología, que es la información que se introduce en la base de datos, lo que permite no sólo situar cada concepto en relación a los demás conceptos de la ontología, sino también mostrar de manera directa redes de relaciones y clases naturales de conceptos (sobre los beneficios de este sistema para la creación de búsquedas complejas, véase 3.2). También cabe destacar que la ontología es bilingüe y su base es lingüística, es decir que está destinada a la descripción y anotación de conceptos lingüísticos, pero al mismo tiempo no rehuye una base conceptual, puesto que pretende ayudar a reflexionar sobre las dos lenguas y a establecer generalizaciones sobre su estructura gramatical. Se halla pues cercana a la General Ontology for Linguistic Description (GOLD) descrita en Farrar y Langendoen, (2003), aunque no comparta, por razones operativas obvias, su generalidad (véase Villalba, 2004b). Pasemos ahora a examinar un ‘concepto terminal’, como por ejemplo verbo inergativo (se consideran verbos inergativos los verbos intransitivos ‘tradicionales’, como llorar, que tratan su sujeto como un argumento externo (véanse Pérez Saldanya et al., 1998 y Villalba, 2004): 2) Concepto terminal ‘verbo inergativo’ 1 Propietats lexicogramaticals/Propiedades lexicogramaticales (PROPLEX) 1.1 Categoria/Categoría (/PROPLEX/CAT) 1.1.1 Verb/Verbo (/PROPLEX/CAT/V) 1. règim/régimen (/PROPLEX/CAT/V/REG) • inergatiu/inergativo (/PROPLEX/CAT/V/REG/INERG) Como comentábamos anteriormente, este concepto terminal se codifica como /PROPLEX/CAT/V/REG/INERG, lo que remite a su posición en la ontología y contribuye a recoger de manera condensada y homogénea la propiedad gramatical, con los beneficios evidentes que se derivan para la organización de la base de datos y para la recuperación de la información a través de búsquedas temáticas. 3.2 Las fichas El diseño de las fichas de la base de datos mantiene el equilibrio ya comentado entre la aplicabilidad e interés teórico. Así pues, se combinan campos de utilidad para la gestión de las informaciones de la base de datos con campos descriptivos y de análisis. A continuación exponemos el listado de campos de una ficha y una ficha de muestra para ejemplificarlo: 3) Listado de campos de una ficha NUM: numero de ficha DEN_CAT: término catalán DEN_ESP: término español CONC: conceptos clave EX_CAT: ejemplos catalanes REF_CAT: referencia de los ejemplos catalanes EX_ESP: ejemplos españoles REF_ESP: referencia de los ejemplos españoles ANAL: análisis de la construcción BIB: bibliografía básica SIN_CAT: sinónimos catalanes (por ejemplo dislocació a l’esquerra amb clític d’un SD determinat) SIN_ESP: sinónimos españoles (por ejemplo dislocación a la izquierda con clítico de un SD determinado) REL: construcciones relacionadas (por ejemplo dislocación a la derecha con clítico de un SD definido) COMENT: comentarios AUTOR: autor DATA: fecha de la última modificación 4) Ejemplo de ficha1 NUM: 2 DEN_CAT: demostratiu amb ús díctic postnominal DEN_ESP: demostrativo con uso deíctico postnominal CONC: /PROPLEX/CAT/DET/DEM/DICT; /RELSINT/ORD/NOMARC; /RELSEM/REF/DETERM/DICT EX_CAT: El cambrer aquest no en té ni idea. REF_CAT: GCC 7.4.3 EX_ESP: El niño este es muy listo y ya no se le engaña fácilmente. REF_ESP: GDLE 14.3.6 ANÀL: El determinante demostrativo deíctico indica la situación espacial o temporal del referente del SN en el momento del acto enunciativo. La posición posnominal del demostrativo deriva de su origen latino como adjetivo e implica la presencia del artículo ante el núcleo del SN. El demostrativo posnuclear es incompatible con el artículo indefinido, con cualquier cuantificador o con un núcleo nominal vacío. Los complementos SP del nombre u oraciones de relativo han de seguir al demostrativo. Si son SAdj pueden seguirlo o precederlo. BIB: GCC 7, GDLE 14. SIN_CAT: SIN_ESP: REL: demostrativo con uso deíctico prenominal; demostrativo con uso deíctico débil; demostrativo inespecífico; demostrativo con interpretación de tipo COMENT: Según el grado de proximidad temporal o espacial, el demostrativo, tanto deíctico como anafórico, presenta dos formas en catalán (aquest, aquell), tres formas en valenciano (aquest, aqueix, aquell) y tres formas en español (este, ese, aquel). AUTOR: EP DATA: 10/10/05 1 Como comentamos en más detalle en la sección 4, dado que HISPACAT es una base de datos bilingüe, la información de las fichas se introduce de manera indistinta en catalán o español, según el investigador. En el caso que nos ocupa, he traducido del catalán las informaciones de los campos ANÁL, REL y COMENT. Está previsto que una vez completada la base de datos, todas las informaciones se ofrezcan tanto en catalán como en español. Por su importancia tanto teórica como aplicada merecen un comentario aparte los campos CONC(EPTOS) y (CONSTRUCCIONES) REL(ACIONADAS). El primero incluye una detallada taxonomía de conceptos de la ontología que ayudan a definir las propiedades básicas de la construcción. Siguiendo el ejemplo anterior (demostrativo con uso deíctico postnominal), los conceptos propuestos son los siguientes: 5) Conceptos de la construcción demostrativo con uso deíctico postnominal /PROPLEX/CAT/DET/DEM/DICT: propiedad léxica → categoría gramatical → determinante → demostrativo → uso díctico RELSINT/ORD/MARC/ANT: relación sintáctica → orden → marcado → anteposición /RELSEM/REF/DETERM/DICT: relación semántica → referencial → determinación → díctico Esta lista de conceptos gramaticales constituye una suma de propiedades que ayudan a definir la construcción y que además permiten establecer una red de relaciones con otras construcciones más o menos cercanas en función de las propiedades compartidas. Ello nos da la opción de establecer generalizaciones empíricas más detalladas sobre conjuntos de construcciones que a menudo se han relacionado de manera puramente intuitiva. La manera de explicitar estas generalizaciones y redes de relaciones es a través del campo (CONSTRUCCIONES) REL(ACIONADAS). En el ejemplo que nos ocupa, las construcciones relacionadas son: • • • • demostrativo con uso deíctico prenominal demostrativo con uso deíctico débil demostrativo inespecífico demostrativo con interpretación de tipo Es importante destacar que, además de ventajas teóricas, la inclusión del campo CONC permite a la base de datos dotarse de un sistema de búsquedas más complejo que los que habitualmente ofrecen los corpus textuales sin necesidad de recurrir a la anotación: la búsqueda por conceptos gramaticales. la base de datos HISPACAT permite, pues, listar todas las construcciones que comparten, por ejemplo, la propiedad RELSINT/ORD/MARC/ANT (relación sintáctica → orden → marcado → anteposición) y permite hacerlo bien mediante una búsqueda booleana bien mediante un menú desplegable de los conceptos de la ontología (cf. el AGLE). 4. Libro de estilo de HISPACAT 4.1 Lengua descrita La lengua descrita corresponde al catalán y español estándar contemporáneos, tanto en su versión oral como escrita. La consideración tanto de la lengua escrita como la oral tiene como fundamento la exhaustividad, puesto que ciertas construcciones se hallan circunscritas a un registro o a otro. Por ejemplo, mientras que la pasiva morfológica es una construcción típica de la lengua escrita, los diversos tipos de dislocaciones son mucho más habituales en la lengua oral. En cambio, por el momento se ha juzgado prudente dejar de lado la variación diatópica, ya que nos planteaba un doble problema teórico y práctico. Por un lado, desde un punto de vista teórico, hubiese sido necesario establecer un límite en el detalle de la descripción y ello implicaba la difícil decisión de establecer a priori qué contaría como dialecto y qué no. Por otro lado, la falta de descripciones gramaticales dialectales detalladas y la limitación de los orígenes de los investigadores del proyecto, hablantes nativos del catalán central o del español peninsular ponían en peligro la exhaustividad y la coherencia del proyecto amén de dilatarlo extraordinariamente. Con todo, no se ha querido evitar la posibilidad de incorporar esporádicamente información dialectal que pudiera resultar relevante para la descripción de la construcción. La inclusión del campo COMENT(ARIO) pretendía facilitar esta tarea (véase Villalba, 2004a). Así pues, en la descripción de una construcción como demostrativo con uso deíctico prenominal se añade la información dialectal que mientras que el catalán estándar tiene un sistema deícto con dos puntos de referencia, el sistema del valenciano tiene un sistema de tres puntos, como el español. 4.2 Fuente de los ejemplos La fuente principal y prioritaria de los ejemplos son las dos gramáticas de referencia del español y el catalán: Bosque y Demonte (1999) y Solà et al. (2002), respectivamente. Teniendo en cuenta su exhaustividad y actualidad, se consideró que debían tener prioridad en la ejemplificación de las construcciones, sin por ello desdeñar fuentes secundarias (monografías especializadas y artículos) cuando la fuente principal no aportase información. Tampoco se ha querido descartar la inclusión de ejemplos fruto de la investigación personal de los investigadores, puesto que hay ciertas construcciones que por su carácter más coloquial o oral no están testimoniadas en las descripciones gramaticales. Tal podría ser el caso, por ejemplo de la dislocación a la derecha en español, una construcción sobre la cual no se dispone de estudios sistemáticos y, por tanto, presenta numerosos huecos en el paradigma. 4.3 Nivel de descripción También en la línea trazada por Bosque y Demonte (1999) y Solà et al. (2002), HISPACAT pretende ofrecer (en el campo ANAL) una descripción lo más neutra posible desde el punto de vista teórico, de manera que sea accesible tanto al especialista como a los docentes y estudiantes de instituto y centros de enseñanza de idiomas. Se evitan, pues, al máximo los conceptos teóricos no tradicionales o excesivamente especializados. 4.4 Lengua de redacción de las fichas Por lo que respecta a la lengua de redacción de las fichas, dado que HISPACAT es una base de datos bilingüe, se deja libertad a los investigadores en los campos pertinentes —no así, evidentemente en los campos DEN_CAT, DEN_ESP, EX_CAT, EX_ESP, SIN_CAT O SIN_ESP. Así pues, tenemos fichas redactadas tanto en catalán como en español. Evidentemente, en una etapa posterior, está previsto traducir a ambas lenguas el contenido de las fichas, de manera que la consulta de la base de datos se pueda hacer en catalán o español, según la preferencia del usuario. 5. Aplicaciones de HISPACAT A continuación comentamos someramente algunas aplicaciones inmediatas de la base de datos HISPACAT. 5.1 Estudio de la microvariación Tomemos el caso concreto de los posesivos. Aunque tanto el catalán como el español comparten diversos usos, una comparación más detallada nos enseña que existen claros contrastes: las asimetrías (microvariación) que constituyen uno de los pilares del proyecto. Considérese el campo ANAL de la construcción siguiente: 6) Construcción posesivo con función de complemento locativo NUM: 9 DEN_CAT: possessiu amb funció de complement locatiu DEN_CAST: posesivo con función de complemento locativo CONC:/PROPLEX/CAT/DET/POSS/TON/POST; /RELSINT/CONC/GRAM; /RELSINT/ORD/MARC/POS EX_CAT: Era sota meu REF_CAT: GCC 7.5.2.8 EX_CAST: REF_CAST: ANÀL: El posesivo con función de complement locativo sólo es posible en catalán y aparece como complemnento de las preposiciones y locuciones preposicionales de carácter locativo en sustutución de un SP genitivo (cf. prop teu/prop de tu). La construcción resulta extraña con locativos inanimados (cf. sota de la taula/??sota seu). Nótese como el análisis parte de una delimitación de la construcción desde el punto de vista combinatorio pero dejando claro el contraste interlingüistico; esto es la posible existencia de un microparámetro que también podemos rastrear en otras construcciones, como la que se ejemplifica a continuación: 7) Construcción posesivo con función de complemento agente NUM: 10 DEN_CAT: possessiu amb funció de complement agent DEN_CAST: posesivo con función de complemento agente CONC:/PROPLEX/CAT/DET/POSS/TON/POST; /RELSINT/CONC/GRAM ; /RELSINT/ORD/MARC/POS EX_CAT: Totes les observacions eren fetes meves. REF_CAT: GCC 7.5.2.8 EX_CAST: REF_CAST: ANÀL: El posesivo con función de ocmplemento agente expresa la función semántica de agente de algunos participios con los que tiene que concordar en género y número. Como señala Bartra (1985), este posesivo aparece en construcciones atributivas estativas y no pasivas (cf. *El retrat ha estat pintat teu /El retrat era pintat teu) y corresponde a un genitivo (cf. El retrat era pintat d’en Pere). El complemento genitivo denota, además del agente, un particpiante con una relación de posesión o pertenencia respecto al objeto resultante de la acción. Esta construcción aparece normamente con el verbo fer o con otros verbos de creación, como dibuixar, cosir, etc. Esta construcción sólo es posible en catalán. Sin duda, la aportación de estas y otras fichas relacionadas puede ayudar a establecer generalizaciones sobre los contrastes sistemáticos entre el español y el catalán en el ámbito pronominal y contribuir a establecer una serie de zonas de microvariación, que generen una lista de posibles microparámetros y que delimiten las áreas más estables y variables de los sistemas gramaticales de una y otra lengua (véase también 5.3). 5.2 Ayuda a la enseñanza y aprendizaje de catalán/español como L2 Resulta evidente del examen de una ficha de la utilidad de HISPACAT para los estudiantes de catalán como segunda lengua. Considérese el caso siguiente:2 8) Construcción SP de lugar estático introducido por a seleccionado por un predicado estativo NÚM: 6.1 DEN_CAT: SP de lloc estàtic encapçalat per a seleccionat per un predicat estatiu. DEN_ESP: SP de lugar estático introducido por a seleccionado por un predicado estativo. CONC: PROPLEX/CAT/P/EST; RELSINT/SEL/ARG EX_CAT: La Queta viu a la platja; Residim a Tàrrega; Habitareu a la setena planta. REF_CAT: GCC 11.3.1; _____; _____ EX_ESP: _____ REF_ESP: _____ ANAL: La preposición a en catalán es una preposición débil que puede expresar un lugar estático o dinámico. En español sólo toma este último valor. Para expresar el locativo estático, el español usa en. En catalán, la preposición en ocupa el sitio de la preposición a en los dialectos meridionales (como por ejemplo en valenciano) o bien delante de un demostrativo o cuantificador cuya primera sílaba empieza con vocal: Viu en aquesta casa. Ante el artículo definido alternan a y en: Viuen al cotxe/en el cotxe. En balear, normalmente se dice Viu a aquella casa. Cuando el lugar es abstracto o metafórico, el verbo viure selecciona en: Viuen en la indigència. Si el objeto de la preposición es un SN desnudo, también se usa en: Viuen en pisos. La descripción del campo ANAL, combinada con los ejemplos, ayuda al hablante no nativo de lengua materna española o familiarizado con ella a captar las diferencias del sistema gramatical catalán, donde la forma básica para introducir complementos locativos estáticos es a y no en. De esta manera se puede contribuir a evitar uno de los errores típicos de los estudiantes de catalán como segunda lengua: *Viu en Barcelona. Se da un caso parejo en la ficha siguiente, que complementa la anterior: 9) Construcción SP de lugar estático seleccionado por el predicado introducido por en NÚM: 6.2 DEN_CAT: SP de lloc estàtic regit pel predicat encapçalat per en DEN_ESP: SP de lugar estático seleccionado por el predicado introducido por en CONC: PROPLEX/CAT/P/EST; RELSINT/SEL/ARG EX_CAT: Viuen en la indigencia; Viuen en un pis; Acamparem en una gran esplanada. REF_CAT: GCC 11.5.1.4; GCC 11.5.1.3; _____ EX_ESP: Casilda se marchó a vivir definitivamente en París; Habitó en Salamanca; Amanecí en Oviedo. REF_ESP: GDLE 10.8.1.3; ____ ANÀL: En catalán, la preposición en ocupa el lugar de la preposición a delante de un demostrativo o cuantificador cuya primera sílaba empieza con vocal. No obstante, el uso de en como locativo estático en catalán es más general en los dialectos 2 Traduzco al español los campos pertinentes. meridionales y también en registros más formales. Cuando el lugar es abstracto o metafórico, el verbo viure selecciona en: Viuen en la indigència. Si el objeto de la preposición es un SN desnudo, también se usa en: Viuen en pisos. Cuando el locativo estativo significa a casa (de), el español usa la preposición en, mientras que el catalán, en general, no. Así pues, en español tenemos Amaneció en casa y en catalán Va pernoctar a casa. Como se aprecia fácilmente, el análisis es intencionadamente descriptivo y carente de aparato teórico y terminológico especializado y se centra en establecer el contraste en el uso preposicional de los locativos estáticos en las dos lenguas, aspecto que resulta el más útil para el aprendizaje del catalán pues parte del sistema ya conocido por el estudiante. También desde el punto de vista docente HISPACAT presenta numerosos beneficios. El más inmediato es el de permitir obtener de manera rápida y fiable ejemplos de todo tipo de construcciones con los que ilustrar las explicaciones gramaticales en el aula, sin tener que recurrir a ejemplos no contrastados o problemáticos, los cuales pueden complicar la exposición teórica del profesor. 5.3 Base empírica para los estudios de pérdida sintáctica o interferencia Una última muestra de las aplicaciones de la base de datos HISPACAT consiste en la creación de campos de prueba para hipótesis sobre la pérdida sintáctica o la interferencia en casos de bilingüismo o de aprendizaje de segundas lenguas. A continuación se dan un par de ejemplos claros de interferencia reflejados en HISPACAT (señalo con negrita la parte más relevante de la ficha): 10) Construcción adverbios de fase ya y todavía en posición inmediatamente postverbal NUM: S26-19 DEN_CAT: adverbis de fase ya i todavía en posició immediatament postverbal DEN_CAST: adverbios de fase ya y todavía en posición inmediatamente postverbal CONC: /PROPLEX/CAT/ADV/ASP; /RELSINT/ORD/MARC/POS EX_CAT: REF_CAT: EX_CAST: Està {ya/todavía} aquí REF_CAST: Solà i Pujols (2003-26.2.2.1:2924) ANÀL: Tanto en español como en catalán es posible el orden adverbio-verbo: {Ya/Todavía}està aquí / {Ja/Encara} és aquí). El hecho de que en español exista otro orden está seguramente relacionado con la posibilidad de una posición más alta (más a la izquierda) del verbo, manifestada en otros datos como Tiene {Juan/usted } mucha suerte o Es quizá cierto, en donde el verbo puede preceder el sujeto y ciertos adverbios en castellano y no (o más dificilmente) en catalán.3 COMENT: Como en muchos otros casos, el calco del orden de palabras del español se da en catalán y se usa extensamente en el catalán escrito. AUTOR: JS DATA: 23/10/2005 3 Nótese el énfasis en establecer una relación entre dos fenómenos aparentemente inconexos para poderlos derivar de una misma propiedad o microparámetro: la posición del verbo en la estructura oracional. 11) Construcción cuantificador cada en expresiones temporales aparentemente no distributivas NUM: S26-1 DEN_CAT: quantificador cada en expressions temporals aparentment no distributives DEN_CAST: cuantificador cada en expresiones temporales aparentemente no distributivas CONC: /PROPLEX/CAT/DET/; /RELSINT/SEL/ADJ/OR; /RELSEM/REF/QUANT/INTER EX_CAT: Cada diumenge vaig al cinema REF_CAT: Solà i Pujols (2002-26.1.2.3:2896) EX_CAST: REF_CAST: ANÀL: El determinante cada es distributivo y requiere, dentro de su alcance, algún elemeno sobre el que pueda establecer una distribución: Cada columna del Partenó aguanta el sostre *(en un punt diferent). Con expresiones temporales, el uso distributivo es aparente en casos como Cada dia va a escola a una hora diferent, pero no en casos como Cada dia va a escola, en donde el español usa el cuantificador no distributivo (Todos los días va a la escuela). […] BIB: Solà i Pujols (GCC-26.1.2.3:2896); Sánchez López (1999-16.3.2.3:1068, n.28); Brucart (2002-8.2.3.3:h) SIN_CAT: SIN_CAST: REL: COMENT: De hecho, en español quizás no es imposible este uso (por descontado, no lo es en el castellano de los catalanohablantes). No obstante, Sánchez López (1999-16:1068 nota 26), dice que se prefiere Todos los domingos voy al cine a *?? Cada domingo voy al cine. AUTOR: JS DATA: 15/04/2005 En ambos casos se da una interferencia del sistema gramatical de una lengua (del español sobre el catalán en el primer caso y a la inversa en el segundo). Sin duda, datos como estos que sólo se encuentran parcialmente comentados en la bibliografía lingüística pueden aportar un importante campo de contrastación empírica de hipótesis sobre los fenómenos gramaticales derivados del contacto entre lenguas. 6. Conclusiones De la exposición precedente podemos concluir que la base de datos HISPACAT no es un proyecto puramente aplicado sino que parte de unas premisas teóricas concretas (la teoría de la microvariación sintáctica) y tiene la pretensión de contribuir a esclarecer problemas empíricos de gran importe teórico, como es determinar los átomos de la microvariación sintáctica o las zonas del sistema gramatical más vulnerables a la variación sintáctica. Para ello se ha escogido un diseño de corte lingüístico, pero no puramente textual sino deliberadamente conceptual, puesto que ello nos permite establecer generalizaciones empíricas e hipótesis teóricas de mayor alcance. Con todo, cabe resaltar que junto a sus virtudes como ayuda a la investigación teórica, HISPACAT también es una herramienta de consulta útil para investigadores, docentes y estudiantes, especialmente en los ámbitos de la enseñanza de segundas lenguas, el bilingüismo y la perdida e interferencia sintácticas. Referencias bibliográficas Baker, M. (2001). The Atoms of Language. The mind's hidden rules of grammar. New York: Basic Books. Belletti, A. ed. (2004). Structures and Beyond – The Cartography of Syntactic Structures vol 3: Oxford University Press. Bosque, I., y Demonte, V. eds. (1999). Gramática descriptiva de la lengua española. Madrid: Espasa. Cinque, G. ed. (2002). Functional Structure in DP and IP - The Cartography of Syntactic Structures vol 1: Oxford University Press. Chomsky, N. (1981). Lectures on Government and Binding. Dordrecht: Foris. Farrar, S., y Langendoen, T. (2003). “A linguistic ontology for the semantic web”, Glot International 7, p. 97-100. Goldberg, A. E. (1995). Constructions: A Construction Grammar Approach to Argument Structure. Chicago: University of Chicago Press. Hernanz, M. L., y Rigau, G. (2003). “(A)simetrías sintácticas en catalán y español”. Proyecto MCyT/FEDER BFF2003-08364-C02. Ms. UAB. Bellaterra, Cerdanyola del Vallès. Hyltenstam, K., y Obler, L. eds. (1989). Bilingualism across the Lifespan: Aspects of Acquisition, Maturation, and Loss: Cambridge University Press. Jaeggli, O., y Safir, K. (1986). “The null-subject parameter and parametric theory. En Osvaldo Jaeggli y Ken Safir, eds. The null-subject parameter. Dordrecht: Kluwer. p. 1-44 Kayne, R.S. (1996). “Microparametric Syntax. Some Introductory Remarks. En J.R. Black y V. Montapanyane, eds. Microparametric Syntax and Dialectal Variation. Amsterdam/Filadelfia: John Benjamins. p. ix-xvii. Kayne, R.S. (2005). Some Notes on Comparative Syntax, with Special Reference to English and French. En G. Cinque y RS. Kayne, eds. Handbook of Comparative Syntax. New York: Oxford University Press. p. 3-69. Pérez Saldanya, M., Mestre, R., y Sanmartín, O. (1998). Diccionari de lingüística. Oliva: Colomar Editors. Rizzi, L. (2004). On The Cartography of Syntactic Structures. En L. Rizzi, ed. The Structure of CP and IP – The Cartography of Syntactic Structures vol 2. Oxford University Press: Oxford. Silva-Corbalán, C. (1994). Language Contact and Change: Spanish in Los Ángeles: Oxford University Press. Solà, J., Lloret, M. R., Mascaró, J., y Pérez Saldanya, M. eds. (2002). Gramàtica del català contemporani. Barcelona: Empúries. Sorace, A. (1998). “Near-nativeness, optionality and L1 attrition”. Proceedings of the 12th International Symposium of Theoretical and Applied Linguistics, Thessaloniki. Villalba, X. (2004a). “Proposta de guió de treball”. Documents de treball del Projecte BFF2003-08364-C02 (MCyT i FEDER): Report 2004-01. Grup de Gramática Teórica, UAB. Villalba, X. (2004b). “Ontologia conceptual”. Documents de treball del Projecte BFF200308364-C02 (MCyT i FEDER): Report 2004-02. Grup de Gramática Teórica, UAB. Villalba, X. (2004c). Diccionari Ballesta de Gramàtica Generativa: Catalan Journal in Linguistics Monographs. Cerdanyola del Vallès, Spain: Servei de Publicacions de la Universitat Autònoma de Barcelona.