CORPUS VIRTUALES ÍNDICE Introducción ¿Quién utiliza los corpora? Elaboración de un corpus virtual Criterios para la elaboración del corpus ¿Cómo elaborar un corpus? ¿QUÉ ES UN CORPUS? “Gran colección de textos reales que se han compilado en un formato electrónico acorde un conjunto de criterios específicos” (Bowker and Pearson, 2002) CARACTERÍSTICAS Real → Extraído de la realidad Formato electrónico → puede ser procesado por un ordenador Grande → un número significativo de textos. Criterios específicos → colección de textos con características comunes ¿PARA QUÉ Y QUIÉN UTILIZA LOS CORPORA? Para estudiar el uso de la lengua en ejemplos reales Lexicografía → Realizar diccionarios, identificar contextos y usos Sociolingüística → Diferencias de uso de lenguas entre clases sociales, sexos, etc. Traducción → Terminología, patrones fraseológicos, uso de la lengua Aprendizaje de lenguas→ Ejemplos de términos en determinados contextos y así aprender su verdadero uso TIPOS DE CORPORA (CORPAS PASTOR, 2001) ACCESO Robustos/reales Corpus de referencia del español actual (CREA) http://corpus.rae.es/creanet.html TIPOS DE CORPORA SEGÚN MODO DE British National Corpus (BNC) http://www.natcorp.ox.ac.uk/ Virtuales o ad hoc: «[…] ad hoc corpora, i.e., corpora compiled “on the fly” by the translator in order to investigate aspecific problem enconuntered during a particular translation» (Aston, 1999). No se trata de recuperar información para solventar una determinada problemática […] sino más bien de reunir toda la documentación posble disponible sobre un tema en poco tiempo, ya se trate de documentar un único texto o un bloque textual (Corpas Pastor, 2001). ROBUSTO VIRTUALES • Más fiables y extensos • Fáciles de crear y es útil para una necesidad concreta • Información lingüística y contextual • Ya están alineados • Disponen de software • Una rica fuente de información • Necesitan ser evaluados cuidadosamente DE IDIOMAS SEGÚN NÚMERO Monolingües Multilingües Bilingües Comparables: Selección de textos en más de una lengua o variedad lingüística parecidos en cuanto a sus características y que comparten criterios de selección. Paralelo:Texto en una lengua alineado con su traducción. Documentación aplicada a la traducción EJEMPLO DE UN CORPUS BILINGÜE COMPARABLE Condiciones Este acuerdo se ha redactado en inglés de Estados Unidos. En caso de existir discrepancias entre el original y una versión traducida, el original en inglés es el documento vinculante. La sección 16 contiene modificaciones a las condiciones generales que atañen a los usuarios que no se encuentran en Estados Unidos. Fecha de la última revisión: 26 de abril de 2011. Información de la empresa El sitio web www.facebook.es y los servicios que incluye son ofrecidos por: Facebook Ireland Limited Fuente: http://www.facebook.com/terms.php?r ef=pf Terms MySpace, Inc. (“MySpace” or “we”) operates MySpace.com, which is a social networking platform that allows Members to create unique personal profiles online in order to find and communicate with old and new friends. The services offered by MySpace include any MySpace-branded URL (the "MySpace Website"), MySpace messaging services (including, without limitation, instant messaging, private messaging, and email services), MySpace music and video services, MySpace developer services, MySpace mobile services, and any other features, content, or applications offered from time to time by MySpace in connection with MySpace’s business (collectively, the "MySpace Services"). The MySpace Services are hosted in the United States. Source: http://www.myspace.com/international #!/Help/Terms EJEMPLO DE UN CORPUS BILINGÜE PARALELO ALINEADO Condiciones Terms Este acuerdo se ha redactado en inglés de Estados Unidos. En caso de existir discrepancias entre el original y una versión traducida, el original en inglés es el documento vinculante. La sección 16 contiene modificaciones a las condiciones generales que atañen a los usuarios que no se encuentran en Estados Unidos. This agreement was written in English (US). To the extent any translated version of this agreement conflicts with the English version, the English version controls. Please note that Section 16 contains certain changes to the general terms for users outside the United States. Fecha de la última revisión: 26 de abril de 2011. Date of Last Revision: April 26, 2011. Información de la empresa Company Information El sitio web www.facebook.es y los servicios que incluye son ofrecidos por: The website under www.facebook.com and the services on these pages are being offered to you by: Facebook Ireland Limited Facebook Ireland Limited Fuente: http://www.facebook.com/terms.php?ref=pf Source: http://engb.facebook.com/terms.php?ref=pf ELABORACIÓN DE UN CORPUS VIRTUAL Factores a tener en cuenta: Tipo de texto: folleto, guía de usuario… Idioma Restricciones diatópicas: British/American English, español peninsular, etc. Original/traducción Completo/parcial Localizar la información y análisis del TO Selección de los S.R.I. y volcado de datos Análisis de la información Utilización del software PASOS A SEGUIR LOCALIZAR LA INFORMACIÓN Y ANÁLISIS DEL TO (Texto Original) Descargamos el TO y lo transformamos en texto plano (formato ASCII → se puede usar bllock de notas). Lo introducimos en un gestor de corpus: AntConc, WordSmith Tools, Concordance → disponibles online* *No se hará uso de estas herramientas en la clase de Documentación SELECCIÓN DE LOS S.R.I Y VOLCADO DE DATOS Establecimiento de los descriptores para interrogar a los sistemas de recuperación de información (S.R.I.) Medline, en este caso (mirar diapositiva siguiente) Selección de términos en LM para la búsqueda: Episiotomy, dysparheunia, vaginal tear, urinary incontinence ¿DÓNDE ? Búscadores generales: google.com, yahoo.com, bing.com, etc. Metabuscadores: vivisimo.com, metacrawler.com, ixquick.com, dogpile.com (http://www.buscaya.com/met abuscadores/metab.htm) Buscadores especializados Directorios (ask.com, yahoo.com…) Listas de distribución: • rediris.es Portales Buscadores institucionales: Recursos/Fuentes normalizadoras: Organización para la Estandarización (ISO) Fuentes legales Páginas webs: educación (.edu), organismos institucionales (.org) Páginas webs: ministerios, UE, ONU Recursos lingüísticos: Diccionarios, glosarios, vocabularios, bases de datos, tesauros, corpus.