Tema 3 Diseño y compilación de corpus Recursos informáticos para la investigación literaria Máster en Estudios Literarios Universidad de Alicante Curso 2014-2015 Borja Navarro Colorado [email protected] @bncolorado Contenidos + Definición de corpus. + Diseño del corpus. + Compilación del corpus. + Almacenamientos y limpieza del corpus. + Introducción a los metadatos. Corpus, corpora “A corpus is a collection of pieces of language text in electronic form, selected according to external criteria to represent, as far as possible, a language or language variety as a source of data for linguistic research” John Sinclair 2004 Corpus, corpora ● Para que los datos del corpus sean fiables, el corpus debe: – – – – Ser representativo de aquello que se quiere estudiar. Selección de textos de acuerdo a unos criterios claros, bien definidos y justificados. Formato digital. Tamaño máximo necesario. Codificación ● ● ● Representación digital del texto. Un carácter = un número binario de 7 u 8 dígitos. Problema: distintos modos de representación. – – – ASCII Latin1 UTF-8 y UNICODE Diseño del corpus ● Definir y justificar los criterios de selección de textos. – – Determinados por las necesidades y objetivos del estudio. Máxima representatividad del hecho literario. Criterios de selección ● ¿Cuántos textos?, ¿cuántos autores? ● ¿Qué tipo de texto (narrativa, lírica, etc)? ● ¿Qué tamaño es el apropiado?, ¿textos completos o fragmentos? ● ¿Todos los textos del autor o sólo obras seleccionadas? ● ¿Textos de qué periodo?, ¿qué temas?, etc. Demostrad Demostradque queel elcorpus corpuses esuna una representación representaciónfiable fiableyyobjetiva objetivadel del hecho hecho literario literario aa estudiar. estudiar. Actividad para pensar 1. Corpus de novela española del siglo XIX (época realista): Benito Pérez Galdós: 80 novelas aprox. Leopoldo Alas “Clarín”: 2 novelas. ¿Es ¿Es representativo representativo de de la la novelística novelística del del XIX? XIX? ¿Queda ¿Queda Clarín Clarín infrainfrarepresentado? representado? Actividad para pensar 2. Corpus de sonetos del Siglo de Oro (XVI-XVII): Garcilaso de la Vega: 38 sonetos máximo. Lope de Vega: más de 1000 sonetos (1382). ¿Es ¿Es representativo representativo de de la la sonetística sonetística áurea? áurea? ¿Queda ¿Queda Lope Lope de de Vega Vega suprasuprarepresentado? representado? Compilación Búsqueda y descarga de los textos. Fuentes fiables: – Bibliotecas virtuales y repositorios textuales. Bibliotecas virtuales ● Biblioteca Virtual Miguel de Cervantes. ● Internet Archive. ● Gutenberg Project. ● Oxford Text Archive ● Archivo Digital de Manuscritos y Textos Españoles ● Europeana ● Biblioteca Digital Hispánica (BNE). Bibliotecas virtuales ● Más: http://www.todoereaders.com/lista-de-sitios-para-descargar-ebooks-gratis-de-forma-l egal.html http://www.bne.es/es/Servicios/FuentesInformacion/BibliotecasDigitales/ http://www.hathitrust.org/ ... ¿Qué ¿Qué bibliotecas bibliotecas virtuales virtuales conoces? conoces? ¡Compártelas! ¡Compártelas! #riilua #riilua Compilación ● ● Cómo descargar... Problemas: – – Aspectos legales Calidad del texto: ● ● Digitalización Edición crítica. Almacenamiento ● Directorio propio ● Un fichero por texto (más o menos): modularidad. ● Formato simple. Extensión “.txt” ● ● Nombres de fichero descriptivos. Evitad tildes y eñes. Numerar desde 00 si es necesario. Ejemplo... Almacenamiento Editores de texto simple ● ● ● ● NotePad++ (Windows) TextWrangler (Mac) TextEdit (Mac) Gedit (Linux) Cualquier editor para lenguajes de programación. Limpieza Dejad el texto literario puro. ● Errores productor de la digitalización o la descarga. ● Borrar caracteres erróneos y palabras no propias del texto ● Buscar y reemplazar... Ejemplo ArribaAbajoCapítulo I Que trata de la condición y ejercicio del famoso hidalgo don Quijote de la Mancha En un lugar de la Mancha, de cuyo nombre no quiero acordarme, no ha mucho tiempo que vivía un hidalgo de los de lanza en astillero, adarga antigua, rocín flaco y galgo corredor. Una olla de algo más vaca que carnero, salpicón las más noches, duelos y quebrantos los sábados, lantejas los viernes, algún palomino de añadidura los domingos, consumían las tres partes de su hacienda. El resto della concluían sayo de velarte, calzas de velludo para las fiestas, con sus pantuflos de lo mesmo, y los días de entresemana se honraba con su vellorí de lo más fino. Tenía en su casa una ama que pasaba de los cuarenta, y una sobrina que no llegaba a los veinte, y un mozo de campo y plaza, que así ensillaba el rocín como tomaba la podadera. Frisaba la edad de nuestro hidalgo con los cincuenta años; era de complexión recia, seco de carnes, enjuto de rostro, gran madrugador y amigo de la caza. Quieren decir que tenía el sobrenombre de Quijada, o Quesada, que en esto hay alguna diferencia en los autores que deste caso escriben; aunque por conjeturas verosímiles se deja entender que se llamaba Quijana. Pero esto importa poco a nuestro cuento: basta que en la narración dél no se salga un punto de la verdad.... ArribaAbajoCapítulo II Que trata de la primera salida que de su tierra hizo el ingenioso don Quijote Hechas, pues, estas prevenciones, (...) Metadatos Información sobre el texto: autor, título,año, editorial, url, fuente, etc. ● Guarda en fichero aparte. ● Índice de textos, autor, url, fuente, etc. ● ¿Hoja de cálculo?, ¿archivo “leeme.txt” / “readme.txt”? Más información en próximos temas... Para el trabajo final... ● Tomad nota de todo el proceso (diario): – – – – Url de donde se ha obtenido el texto Fecha de descarga Problemas en el proceso de limpieza y solución adoptada. etc. Actividad Compartir con la clase direcciones de Bibliotecas Virtuales y otros recursos interesantes de la web. – – – Twitter. Enviar tweets con la etiqueta #riilua Buscar tweets con esta etiqueta. Bibliografía citada ● Sinclair, John (2004) “Developing Linguistic Corpora: a Guide to Good Practice” AHDS. http://users.ox.ac.uk/~martinw/dlc/chapter1.htm