ELS DICCIONARIS ESPECIALITZATS EN LÍNIA: UNA NOVA CULTURA DE LA LEXICOGRAFIA AGUSTÍ MAYOR I LLORET Institut d’Estudis Catalans. Secció de Ciències i Tecnologia* [email protected] 1. INTRODUCCIÓ Durant molt de temps la difusió del coneixement científic ha estat limitada a uns àmbits i sectors determinats; però, d’un temps ençà, el desenvolupament tecnològic ha canviat la manera de difondre aquest coneixement tant al si d’una comunitat lingüística com entre comunitats lingüístiques diferents. D’una banda, l’aparició d’Internet ha comportat la “internacionalització” definitiva del coneixement, ha permès la circulació lliure de la informació i la possibilitat de posar a l’abast de moltes comunitats lingüístiques una gran quantitat d’informació que facilite l’aprenentatge, la difusió i el desenvolupament científic de moltes àrees d’especialitat. De l’altra, l’evolució de la informàtica ha permès disposar de tota una sèrie de recursos que possibiliten l’emmagatzemament d’immenses quantitats d’informació i un tractament detallat i ràpid de les dades. La lexicografia, com altres disciplines científiques, també ha sabut aprofitar aquest canvi en la difusió del coneixement, i ha variat alguns mètodes i/o criteris que seguia en la concepció i l’elaboració d’obres lexicogràfiques. Una bona mostra de totes aquestes qüestions, la tenim en la gran quantitat de recursos lexicogràfics en format de base de dades que han aparegut en els darrers anys, a causa d’aquesta internacionalització o lliure accés a la informació. 1.1. Objectius Els objectius d’aquest estudi són: a) veure com ha canviat el concepte de diccionari en comparació amb el de base de dades, b) analitzar les noves funcionalitats que ofereixen les aplicacions informàtiques en les bases de dades actuals, c) analitzar les estructures internes i l’estructuració de la informació que ofereixen algunes bases de dades, d) esmentar els grans canvis que ha comportat, en lexicografia i en la concepció tradicional i difusió dels diccionaris, el desenvolupament tecnològic tant pel que fa al maquinari com pel que fa l’àmbit comunicatiu; e) fer una aportació en el disseny de bases de dades terminològiques per a aprofitar les noves possibilitats que ofereixen els mitjans informàtics i de comunicació. 1.2. Mostra per a l’anàlisi Com a punt de partida d’aquest estudi s’han analitzat factors hiperestructurals (interns i externs), macroestructurals, microestructurals, d’estructures d’accés i d’iconoestructura de les bases de dades següents: - Access Science: http://www.accessscience.com/ - Biotech: http://biotech.icmb.utexas.edu/search/dict-search.html - TERMIUM: http://www.termium.com/ - Le Grand Dictionnaire Terminologique: http://www.granddictionnaire.com - Dictionnaire Interactif: http://www.sciences-en-ligne.com/ - Cercaterm: http://www.termcat.cat No obstant això, la finalitat d’aquest estudi no és exposar les dades específiques obtingudes en l’anàlisi, sinó oferir, a partir d’aquestes dades, noves idees en el disseny de bases de dades terminològiques. * Programa del Diccionari de Ciència i Tecnologia. Agustí Mayor i Lloret 610 2. ELS DICCIONARIS ESPECIALITZATS EN LÍNIA: UN NOVA CULTURA DE LA LEXICOGRAFIA 2.1. Què entenem per diccionari i per base de dades? Actualment, entenem diccionari com l’ obra que recull els mots d’una llengua, els termes d’una ciència, d’un art, d’una activitat, etc., amb llur significació, disposats en un ordre determinat, normalment alfabètic, que pot contenir d’altres informacions de naturalesa gramatical, fonètica, etc. i diccionari electrònic com “diccionari en suport informàtic”; mentre que per base de dades entenem l’“estructura que permet rebre dades, emmagatzemar-les i extreure-les a petició d’usuaris múltiples i independents entre ells”1. Com bé podem observar en el DIEC, la definició de diccionari designa únicament un diccionari en suport paper que s’ocupa, bé de la llengua general, bé d’una àrea de coneixement especialitzat. La concepció dels reculls lexicogràfics actuals, però, canvia amb els avenços tecnològics pel que fa al suport de les obres lexicogràfiques (CD, DVD o en línia). En les bases de dades, el gran canvi és la no restricció a una única disciplina, ja que cada vegada són més habituals les bases de dades en línia que estan formades per diverses obres lexicogràfiques o terminològiques. Per tant, els dos grans avenços que aporta l’ús de base de dades en línia respecte als diccionaris en paper, a més de ser consultables des de qualsevol lloc on es dispose d’una connexió a Internet, són: 1. la concepció dels diccionaris com a «eines dinàmiques» i no com a obres “estàtiques”, en el sentit que la informació continguda en la base de dades pot ser actualitzada sense que això implique per a l’usuari haver d’anar a consultar una altra obra; 2. la inclusió de més d’una obra terminològica o lexicogràfica implica que les bases de dades puguen arribar a convertir-se en vertaderes biblioteques de diccionaris o d’obres especialitzades en línia. Al nostre parer, l’evolució natural de les bases de dades en línia és convertir-se en plataformes científiques especialitzades, no en una disciplina científica concreta sinó en una branca del coneixement, com ara la de ciència i tecnologia, on poder trobar informació de diversos graus d’especialitat que siga útil i, al mateix temps, que estalvie faena tant a estudiants com a traductors i especialistes. Pel que fa als sistemes de què disposem actualment, la informatització del coneixement terminològic ha possibilitat l’actual estat de desenvolupament, tant en els sistemes d’emmagatzematge i en les possibilitats de tractament de les dades com en la universalització d’aquest coneixement, gràcies a l’aparició d’Internet. Aquesta expansió tecnològica de medis i mitjans és recent i ha provocat la cerca d’uns estàndards, tant per a la codificació com per al posterior reconeixement i tractament de les dades, que optimitzen el rendiment dels actuals sistemes de gestió terminològica. La cerca d’estàndards en la codificació i l’etiquetatge de les dades ha provocat la utilització de diversos formats de dades, moltes vegades no compatibles entre ells, que han requerit la creació de determinades aplicacions que permeteren una correcta migració de les dades entre els diversos formats. Per tant, tenint en compte els grans avenços en l’emmagatzematge de dades, fóra bo trobar un sistema normalitzat de codificació de les dades perquè tots els usuaris que treballen en terminologia i en lexicografia l’adoptaren i adaptaren els sistemes actuals amb la finalitat de garantir una compatibilitat total entre les dades terminològiques independentment del format i de la procedència. Si s’aconsegueix aquesta fita, estarem garantint la incorporació de qualsevol producte terminològic i/o lexicogràfic a la nostra base de dades i estarem promovent, indirectament, la col·laboració entre entitats i/o institucions tant per a l’intercanvi de dades com per a la creació de nous productes lexicogràfics i terminològics. D’altra banda, i com a segona necessitat, si tenim en compte que un dels grans avantatges d’Internet ha estat la possibilitat de posar en contacte persones que es troben en llocs diferents i que, des de llocs diferents, aquestes persones pugen estar connectades a la mateixa base de dades, fóra bo que la base de dades permetera que aquests usuaris pogueren modificar les dades i desar-les en la mateixa base de dades. Amb aquesta possibilitat, d’una banda, facilitem el treball dels usuaris de la base de dades, ja que en tot moment sap on són les dades i, d’altra banda, facilitem la coordinació de projectes, ja que un usuari (amb el permisos pertinents de l’administrador de la base de dades) podria consultar el treball de tots els usuaris que pogueren treballar en la base de dades simultàniament. 1 Totes les definicions han estat extretes d’Institut d’Estudis Catalans, Diccionari de la llengua catalana: http://www.iec.cat (15-092006). ELS DICCIONARIS ESPECIALITZATS EN LÍNIA: UNA NOVA CULTURA DE LA LEXICOGRAFIA 611 2.2. Estructures internes de diccionaris i estructuració d’informació: diccionari tradicional versus diccionari en línia2 Els diccionaris tradicionals posseixen determinats nivells d’estructura interna que permeten organitzar la informació que contenen. Tot i que encara es debat quina és la informació o quins són els aspectes que cada estructura ha de tractar depenent del tipus de diccionari, es podria dir que cada estructura tracta unes qüestions teòriques delimitades d’un diccionari. 2.2.1. Hiperestructura La hiperestructura en els diccionaris en paper està formada per una sèrie de documents, situats tant en la part inicial com en la part final del diccionari, que aporten informació de tipus lingüístic (com ara introducció, claus de codificació, indicacions d’ús...) i de tipus enciclopèdic o de divulgació de l’àmbit d’especialitat (com ara taules de símbols, taules de constants fonamentals...). El concepte d’hiperestructura en les bases de dades en línia obri noves perspectives i nous enfocaments que s’han de tenir en compte, com ara: a. les visites guiades pel web, b. un mapa del web, c. assistència en línia, d. els enllaços a webs recomanats, e. l’accés a la informació recent, f. els fòrums de discussió, g. els apartats d’actualitat. Tot i això, també hem notat que hi ha components, obligatoris en la teoria lexicogràfica, que han estat bandejats en bona mesura, com ara la inclusió de: a. la presentació, b. la guia d’ús del diccionari, c. el llistat d’abreviacions, d. la guia gràfica d’un article, e. l’arbre de coneixement. Aquestes parts, al nostre parer, són cabdals perquè l’usuari entenga el funcionament de les bases de dades i sàpiga, en tot moment, quina és la informació que es pot trobar consultant els articles de la base de dades. 2.2.2. Macroestructura La macroestructura tracta els aspectes relacionats amb la selecció, disposició, ordenació i representació dels termes que formaran part del diccionari. Alguns resultats macroestructurals que ens han cridat l’atenció han estat que: x hi ha bases de dades que encara inclouen subentrades en els articles, x la major part, per no dir la totalitat, de les bases de dades estan ordenades i concebudes alfabèticament, i cap no està ordenada des d’un punt de vista conceptual; x no totes les bases de dades ofereixen la consulta de les entrades per matèries, és a dir, no totes ofereixen la possibilitat d’acotar la cerca per matèries al mateix temps que la cerca per terme; aquesta mancança es tradueix en la obtenció d’un resultat dels termes que només pertanyen a una (o més) àrees d’especialitat —si més no, d’una manera accessible i còmoda per a l’usuari. Al nostre parer, creiem que hi ha una mancança important en el disseny macroestructural (tant global com organitzatiu) de les bases de dades especialitzades, ja que, si tenim en compte que el significat (el qual està associat a una àrea de coneixement) és allò que descriu l’objecte o quelcom i que permet el seu reconeixement, no entenem com no ha estat tractat com la part essencial d’una base de dades. Per tant , no creiem adequat que totes les bases de dades giren al voltant de la forma gràfica del terme, la qual és només una manera arbitrària i convencional de denominar el concepte que, a més, admet variació (fet que creiem el més greu des d’un punt de vista organitzatiu en el disseny d’una eina informàtica), i no hi ha cap base de dades terminològica que estiga concebuda posant com a centre motor i organitzatiu de la base el concepte o significat, el qual és únic –si més no, per a una àrea de coneixement determinada. 2 Per a l’elaboració d’aquest apartat s’ha tingut en compte la bibliografia següent: Bergenholtz i Tarp (1995), Gelpí (2004), Nielsen (2002). Agustí Mayor i Lloret 612 2.2.3. Microestructura La microestructura és el conjunt d’informació sobre un terme en concret que constitueix l’article lexicogràfic, la qual ha de ser la mateixa per a la totalitat d’articles del diccionari amb la finalitat de garantir la uniformitat i l’homogeneïtat del producte resultant. Val a dir que aquesta part no girarà al voltant de la teoria de les funcions3, la qual defèn que les bases de dades han d’oferir una informació diferent segons les necessitats dels usuaris que les consulten (les quals depenen dels perfils d’aqueixos usuaris en la base de dades), proposada per alguns autors, per dos motius: d’una banda, perquè s’hauria de demostrar la viabilitat d’aquesta teoria i, de l’altra, matisar algunes bases dels seus defensors i detractors –fet que allargassaria el nostre estudi i el desviaria del propòsit inicial. El gran avantatge que signifiquen les bases de dades terminològiques en relació amb els diccionaris en paper és que en els primeres no hi ha, en principi, restriccions d’espai. No obstant això, un dels grans debats lexicogràfics ha estat quina és la informació mínima pertinent que han de tenir els diccionaris d’acord la seua tipologia, de la seua finalitat... La informació mínima que ha de contenir un article de diccionari monolingüe de llengua general és4: l’entrada, la categoria gramatical, la definició i l’exemple. Alguns autors defenen que la informació d’un diccionari terminològic, a més de l’equivalent (si és bilingüe), hauria d’abastar5: x informació etimològica i fonètica, x indicatius d’acceptabilitat dels termes o marques de ponderació, x indicacions dels àmbits d’especialitat en què s’usen els termes, x informacions complementàries de caràcter lingüístic, semàntic o pragmàtic, etc., x exemples i contextos, x imatges (gràfics, fotografies, dibuixos...), x fonts de referència. Al nostre parer, la informació mínima que ha de tenir un article terminològic d’una base de dades terminològica multilingüe és la següent6: x el lema o forma gràfica, x la llengua del lema, x la categoria gramatical del lema, x abreviació associada al lema (si n’hi ha), x la definició, x un equivalent, com a mínim, x la llengua de cada l’equivalent, x la categoria gramatical de cada l’equivalent, i x un exemple d’ús del lema. Tot i això, si el que volem és un canvi en la concepció de les base de dades, perquè siguen enteses com a plataformes científiques de coneixement, és necessari que, d’una banda, la base de dades estiga dissenyada per a poder recollir qualsevol tipus d’informació que puguem trobar en un diccionari terminològic, general i/o enciclopèdic i que, d’altra banda, la plataforma permeta incorporar les noves possibilitats que s’han obert amb el desenvolupament tecnològic. 2.2.4. Estructures d’accés Per estructures d’accés entenem generalment els camins o mitjans pels quals l’usuari pot trobar qualsevol informació que hi ha en un diccionari en paper, tant el terme (estructura d’accés externa) com la informació que conté l’article del diccionari (estructura d’accés interna). En el diccionari en paper, la previsió d’unes estructures d’accés poliaccessibles per a l’usuari està molt relacionat amb el nivell macroestructural del diccionari: si els entrades estan agrupades o no, si hi ha subentrades, com es destaquen les subentrades tipogràficament perquè l’usuari puga reconèixer i localitzar la informació a primer cop d’ull o amb facilitat... Ara bé, en una base de dades terminològica, si bé no tenim –generalment– alguns dels problemes típics dels diccionaris en paper, com ara els relacionats amb la disposició i la representació de les subentrades, 3 Vg. Bergenholtz i Tarp (2003) o Bergenholtz i Kaufmann (1997). Rafel i Fontanals (2002: 71). 5 Franquesa i Bonet (2002: 17). 6 Aquesta disposició de la informació mínima que hauria de contenir una base de dades terminològica multilingüe no vol entrar en contraposició amb el nostre postulat macroestructural que el significat és el centre sobre el qual ha de girar el disseny i conceptualització de la base de dades. Per tant, volem remarcar que aquesta disposició no implica una jerarquització en importància, sinó que és només la manera com, sincrònicament, es representen les dades. 4 ELS DICCIONARIS ESPECIALITZATS EN LÍNIA: UNA NOVA CULTURA DE LA LEXICOGRAFIA 613 creiem que la previsió d’una poliaccessibilitat a la informació inclosa dins l’article terminològic es podria limitar al disseny d’un sistema de cerca avançada, al qual aprofitara els recursos informàtics de què disposem, que permeta cercar, com a mínim, en la totalitat de camps de l’article. No obstant això, també entenem per estructures d’accés allò que alguns autors anomenen estructura referencial i que defineixen com “el conjunt de procediments [...] que tenen com a objectiu donar a l’usuari informació complementària a propòsit de qualsevol dels elements informatius que conté el diccionari”7. Aquest tipus de referències poden ser internes o externes, a més d’explícites o implícites. En els diccionaris en paper la major part de les referències eren internes (perquè adrecen a l’usuari a una informació dintre del diccionari): explícites (quan la informació és indicada explícitament amb algun signe), és a dir, el que en lexicografia s’entén com a remissió; o implícites (sense indicació de cap signe), com ara la informació morfològica d’un terme si no s’aparta de la norma regular; per tant, podem observar que fan referència als nivells macroestructural i microestructural del diccionari. En les bases de dades en línia, les noves funcions que ofereix Internet augmenten notablement els mitjans de tenir una estructura d’accés (o referencial) fornida que possibilita la concepció de les bases de dades com a plataformes de coneixement. Algunes de les recomanacions a tenir en compte en el disseny de l’estructura d’accés (o referencial) són: x incloure remissions dins del mateix article, x incloure remissions entre articles, x incloure remissions transversals amb la macroestructura, com ara amb l’àrea temàtica o amb una ordenació conceptual de les entrades; x incloure remissions transversals amb la hiperestructura, com ara amb les claus de codificació del diccionari, l’arbre de camp, la guia d’ús..., x incloure remissions transversals amb l’iconoestructura, com ara un enllaç a la taula periòdica dels elements químics des de cada article que es considere oportú; x incloure enllaços a pàgines web que continguin informació especialitzada relacionada amb el lema de l’article, x incloure enllaços a enciclopèdies o a fonts que puguin exemplificar el significat i l’ús del lema de l’article, x incloure enllaços a fòrums de discussió; x incloure enllaços a webs d’actualitat científica, x incloure enllaços a altres diccionaris i/o bases de dades en línia, d’acord amb la temàtica de l’article. Aquestes serien algunes de les recomanacions que creiem necessàries en el disseny de l’estructura d’accés (o referencial) perquè desperte en l’usuari la curiositat d’ampliar el coneixement sobre una àrea d’especialitat o sobre el terme motiu de la cerca. Ara bé, si tenim en compte que la base de dades (o la plataforma) inclourà més d’una obra lexicogràfica i/o terminològica, necessitem, a més de la planificació referencial anterior, un disseny global que permeta, d’una banda, reconstruir l’obra lexicogràfica buidada en la plataforma i, de l’altra, garantir l’accés a tots els documents inicials i finals d’aqueixa obra. Per tant, el fet de tenir diverses obres en una base de dades implica una major complicació, tant pel que fa a l’estructura d’accés com pel que fa a la hiperestructura de la base de dades que acollirà aquestes obres. 2.2.6. Iconoestructura Per iconoestructura entenem tots aquells elements, siguen multimèdia o no, que contextualitzen i/o afegeixen informació gràfica a l’entrada de la base de dades. Aquests elements són: taules, gràfiques, esquemes, fotografies (en color o en blanc i negre), dibuixos, animacions, enregistraments sonors i enregistraments audiovisuals. Val a dir que moltes de les bases de dades actuals encara no han incorporat, en el seu disseny, la inclusió d’aquesta mena de recursos, que poden ser de gran ajuda per a la correcta representació i/o exemplificació d’un concepte. Globalment, hem notat que: x moltes de les bases de dades actuals inclouen fotografies i/o dibuixos, x només unes poques incorporen les taules, els gràfics, i que x són molt minoritàries les bases de dades que inclouen animacions, enregistraments sonors i enregistraments audiovisuals. 7 Rafel i Fontanals (2002: 79). Agustí Mayor i Lloret 614 3. CONCLUSIONS A tall de cloenda farem un resum de les aportacions tractades al llarg d’aquesta exposició que entenem com a necessitats de disseny que han de canviar la concepció de les bases de dades actuals perquè esdevinguen vertaderes plataformes de coneixement: - Des del punt de vista tecnològic, urgix la presa de consciència entre empreses i institucions en l’adopció d’un sistema de dades únic i universal que faciliti el lliure accés i el lliure intercanvi de les dades, independentment de la seua procedència i sense haver de crear aplicacions d’importació o, en el pitjor dels casos, un etiquetatge manual de les dades. - Des del punt de vista terminològic, urgix la creació de bases de dades en línia on els usuaris pugin desar el seu treball en el servidor que suporta la base de dades, amb la finalitat de facilitar la localització de les dades i garantir-ne la seguretat. - Des del punt de vista hiperestructural i d’estructura d’accés (o estruct. referencial), necessitem que les bases de dades en línia interactuen amb la Xarxa que possibilita la seva existència: d’una banda, amb la creació de fòrums de discussió interns de la base de dades (per a possibilitar l’intercanvi d’informació entre usuaris de comunitats lingüístiques diferents) i, de l’altra, amb la interconnexió de la base de dades tant amb altres bases de dades i reculls terminològics i lexicogràfics com amb pàgines web de difusió científica amb la finalitat d’estimular l’ampliació del coneixement sobre una àrea d’especialitat o sobre el terme motiu de la cerca. - Des del punt de vista macroestructural, el disseny de bases de dades el centre organitzatiu de les quals siga la definició del concepte i no la forma gràfica del lema, la qual no deixa de ser convencional i pateix una forta variació inter- i intralingüística. - Des del punt de vista microestructural, necessitem que les bases de dades ens obliguen a introduir una informació mínima sobre el terme, sense la compleció de la qual el programa informàtic no ens hauria de deixar seguir la faena, amb la finalitat de garantir l’homogeneïtat de la informació que ofereix la base de dades. No obstant això, hem de dissenyar la microestructura perquè siga capaç de recollir qualsevol mena d’informació –lingüística, lexicogràfica, terminològica i/o enciclopèdica– que puga satisfer les necessitats de consulta de l’usuari, d’acord amb el seu perfil, necessitats i finalitats. - Des del punt de vista d’estructures d’accés, necessitem el disseny d’una cerca avançada capaç de cercar en qualsevol camp dintre de la fitxa terminològica. - Des del punt de vista de la iconoestructura, necessitem que, d’ara endavant, el disseny de les bases de dades permeta annexar enregistraments sonors i enregistraments audiovisuals, els quals poden de gran utilitat tants als usuaris com als lexicògrafs i/o especialistes. Totes aquestes recomanacions estan pensades per a obtenir plataformes terminològiques: a. que possibiliten la incorporació de qualsevol tipus de producte terminològic tant en suport electrònic com en suport paper; b. que possibiliten un tractament i una gestió global, tant puntual com de conjunt, de les dades terminològiques, I c. que permeten la creació de materials terminològics/terminogràfics nous en llengua catalana. Creiem que aquestes noves bases de dades: a. estimularan la formació de grups de treball entre els especialistes de les diverses àrees de coneixement, b. potenciaran la creació terminològica entre la comunitat científica, I c. despertaran, en un usuari no especialitzat, la curiositat d’ampliar coneixements en una àrea d’especialitat. REFERENCIES BIBLIOGRÀFIQUES Bergenholtz, H. i S. Tarp (1995): Manual of specialised lexicography. Amsterdam/Philadelphia, John Benjamins. Bergenholtz, H. i S. Tarp (2003): “Two opposing theories: On H.E. Wiedgands’s recent discovery of lexicografic functions”, Hermes, 31, pàgs. 171-196: http://netdob.asb.dk/Lit/Hermes/H31_11.pdf Bergenholtz, H. i U. Kaufmann (1997): “Terminography and Lexicography. A critical Survey of Dictionnaries form a Single Specialised Field”, Hermes, 18, pàgs. 91-125: http://www.dendanskenetordbog.dk/Lit/Hermes/H18_05.pdf Climent, S. (coord.) (2002): Lexicografia i terminologia. Barcelona, Universitat Oberta de Catalunya. Franquesa i Bonet, E. (2002): “Terminologia”. A Climent, S. (coord.), pàg. 17. Gelpí, C. (2004): “Diccionarios digitales especializados por la temática: estado actual y perspectivas”, Geo Crítica / Scripta Nova. Revista electrónica de geografía y ciencias sociales, VIII, n. 170-69: http://www.ub.es/geocrit/sn/sn170-69.htm Institut d’Estudis Catalans: Diccionari de la llengua catalana: http://www.iec.cat. ELS DICCIONARIS ESPECIALITZATS EN LÍNIA: UNA NOVA CULTURA DE LA LEXICOGRAFIA 615 Nielsen, S. (2002): “Lexicographical Basis for an Electronic Bilingual Accounting Dictionary; Theoretical Considerations”, Lexico Nordica, 9-2002, pàgs. 173-194: http://www.sprog.asb.dk/sn/lexicographicalbasis.htm Rafel i Fontanals, J. (2002): “Lexicografia”. A Climent, S. (coord.), pàg. 71.