Tema 5 Anotación de corpus Recursos informáticos para la investigación literaria Máster en Estudios Literarios Universidad de Alicante Curso 2014-2015 Borja Navarro Colorado [email protected] @bncolorado Contenidos + Análisis en profundidad con métodos computacionales. + Representación de información mediante lenguajes de marcado: XML. + Estándares: TEI. + Procesos de anotación. Creative Commons Attribution-Share Alike 3.0 Unported http://commons.wikimedia.org/wiki/File:Iceberg.jpg Análisis computacional ● Superficial: – – – ● Frecuencias, n-gramas, concordancias. Lematización. Expresiones regulares. Profundo: – Anotación de corpus. ● – Manual o automática. Data/Text Mining. Anotación del corpus Representación de la información implícita de un corpus textual. – – – – – – Tipográfica Bibliográfica. Estructural. Lingüística. Ecdótica Otros (personajes, lugares, fechas, métrica...) Anotación de corpus Qué anotar/representar Lenguaje de representación. Método de anotación. Lenguajes de marcado ● ● Lenguajes formales para representar información de un texto. Basado en etiquetas: <b>casa</b> = casa <i>casa</i> = casa <u>casa</u> = casa HTML y XML Derivados de SGML. Etiquetas representadas por <...>. HTML: optimizado para internet. XML: propósito general. Ejemplo HTML <HTML> <HEAD> <TITLE>Mi página web</TITLE> </HEAD> <BODY> <h1>El título</h1> Texto, <b>texto</b> y más texto. </BODY> </HTML> XML En XML el significado de las etiquetas no está predefinido. Qué significa cada etiqueta se especifica en un documento aparte (DTD). Ejemplo XML <?xml version="1.0" encoding="ISO-8859-1"?> <libro> <titulo></titulo> <capitulo> <titulo></titulo> <seccion> <titulo></titulo> </seccion> </capitulo> </libro> My mistress' eyes are nothing like the sun, Coral is far more red than her lips red. If snow be white, why then her breasts are dun, If hairs be wires, black wires grow on her head. I have seen roses damasked, red and white, But no such roses see I in her cheeks. And in some perfumes is there more delight Than in the breath that from my mistress reeks. I love to hear her speak, yet well I know That music hath a far more pleasing sound. I grant I never saw a goddess go, My mistress when she walks, treads on the ground. And yet, by Heaven, I think my love as rare As any she belied with false compare. Componentes documento XML ● ● ● ● Elementos y atributos: etiquetas. Parsed Character Data (PCDATA): texto. Instrucciones de proceso. Referencias de caracteres y entidades. Elementos y atributos ● ● Etiquetas: <...> Simples: <title>La Celestina</title> ● Complejas (atributo=valor): <verso type=“endecasilabo”> Un soneto me manda hacer Violante </verso> Referencia a caracteres Para referirse a caracteres especiales (&...;) – – – – – “&lt;” representa a /</ “&amp;” representa a /&/ “&aacute;” representa /á/ “&eacute;” representa /é/ etc. Estándares Si cada uno creara sus propias etiquetas... Necesidad de desarrollar estándares TEI TEI ● ● ● ● Text Encoding Initiative http://www.tei-c.org/index.xml Recomendaciones para codificar cualquier tipo de texto. Representar cualquier información textual necesaria para los estudios humanísticos. – Más de 500 etiquetas. Aprender TEI ● La guía resulta compleja: http://www.tei-c.org/Guidelines/P5/ ● Para aprender y anotar un corpus con TEI: http://www.teibyexample.org/ http://www.teibyexample.org/xquery/TBEvalidator.xq Estructura general TEI <TEI xmlns="http://www.tei-c.org/ns/1.0"> <teiHeader> … <teiHeader> <text> ... <text> <TEI> Encabezado (teiHeader) ● ● ● Obligatorio. Información metatextual y bibliográfica. Elemento básico: fileDesc – – – ● titleStmt: título, autor, etc. publicationStmt: datos de publicación electrónica sourceDesc: datos bibliográficos fuente impresa. Otros datos (opcionales): codificación, contexto de digitalización, historial de revisiones, etc. Ejemplo <teiHeader> <fileDesc> <titleStmt> <title>Poemas de Garcilaso anotados por Francisco Sánchez El Brocense</title> </titleStmt> <publicationStmt> <p>Edición electrónica de ejemplo</p> </publicationStmt> <sourceDesc> <p>Garcilaso de la Vega, Francisco Sánchez de las Brozas (1612) Obras del excelente poeta Garcilasso de la Vega con anotaciones y emiendas del maestro Francisco Sanchez. Madrid. Iuan de la Cuesta </p> </sourceDesc> </fileDesc> </teiHeader> Prosa ● ● <p>: párrafo. <div>: unidades textuales. – ● ● @type para indicar el tipo de unidad <Head>: encabezados Ejemplos: – http://www.teibyexample.org/examples/TBED03v00.htm <text> Ejemplo <body> <div1 type=“capitulo” n=”1”> <head> <title>Que trata de la condición y ejercicio del famoso hidalgo don Quijote de la Mancha</title> </head> <p>En un lugar de la Mancha, de cuyo nombre no quiero acordarme, no ha mucho tiempo que vivía un hidalgo de los de lanza en astillero, adarga antigua, rocín flaco y galgo corredor....no se salga un punto de la verdad.</p> <p>Es, pues, de saber que este sobredicho hidalgo,... hacen merecedora del merecimiento que merece la vuestra grandeza».</p> </div1> </body> </text> Verso ● <lg>: estrofa. – ● <l>: verso. – ● ● @type para indicar tipo @n para numeración <rhyme>: rima Ejemplos: http://www.teibyexample.org/examples/TBED04v00.ht m Ejemplo <text> <body> <head> <title>-I-</title> </head> <lg type="cuarteto"> <l n="1" met="---+---+-+-">Cuando me paro a contemplar mi estado,</l> <l n="2" met="-+-+---+-+-">y a ver los pasos por do me ha traído,</l> <l n="3" met="+--+--+--+-">hallo, según por do anduve perdido,</l> <l n="4" met="--++-+-+-+-">que a mayor mal pudiera haber llegado;</l> </lg> (...) <lg type="terceto"> <l n="9" met="+--+---+-+-">Yo acabaré, que me entregué sin arte</l> <l n="10" met="---+-+---+-">a quien sabrá perderme y acabarme</l> <l n="11" met="+--+---+-+-">si ella quisiere, y aun sabrá querello;</l> </lg> </body> </text> Teatro ● Acto, escena y demás unidades textuales: <div> – ● ● ● ● ● @type para indicar el tipo. <head> título (“Acto 1”) <speaker>: personaje <sp>: habla de personaje <stage>: acotaciones Ejemplos: http://www.teibyexample.org/examples/TBED05v00.htm Otras propuestas ● NarrativeML (Mani 2013). – – Basado en teoría narratológica. Elementos: ● ● ● ● Narrador y audiencia Personajes Eventos, tiempo y espacio Objetivos y argumento: cadena/secuencia de eventos. Procesos de anotación ● Manual: lenta y compleja. – ● Consistencia. Automática: – – Herramientas de Lingüística Computacional. Ejemplos: ● ● ● ● ● http://nlp.lsi.upc.edu/freeling/demo/demo.php https://www.textrazor.com/demo http://gplsi.dlsi.ua.es/demos/socialrankings/ etc. Semi-automática. Conclusiones ● ● ● Necesidad de representar la información implícita del corpus literario. Representación formal: XML, TEI, etc. Procesos semi-automáticos de anotación: – – Adaptar herramientas de LC al texto literario. Revisar y corregir corpus literarios anotados. Para el trabajo final... ● Proponer la anotación de un texto literario siguiendo las recomendaciones TEI. – – Definir una propuesta (tipo de información a anotar, recomendaciones TEI a seguir, etc.) Anotar y validar un pequeño fragmento. Actividad ● Analizar y validar un poema anotado. – http://www.teibyexample.org/ – http://www.teibyexample.org/xquery/TBEvalidator.xq Bibliografía citada ● Mani (2013) Computational Modeling of Narrative. Morgan & Claypool Pub. ● http://www.teibyexample.org ● http://www.tei-c.org/index.xml ● ...