Centro de Análisis Informático de Textos _____________________________________________________________________________________ INDICACIONES SOBRE LA PREPARACIÓN FORMAL DE LOS CORPUS TEXTUALES El objetivo de este documento es indicar al investigador cuales son los requisitos que ha de tener un texto o corpus textual para que el CAIT pueda ejecutar un análisis de calidad. Qué es un corpus textual y cómo se construye Se entiende por corpus textual un conjunto de textos seleccionados a través de uno o más criterios de homogeneidad. Dicho de otra manera, textos seleccionados que tienen algo en común. Los criterios de selección de textos son múltiples y variados y dependen directamente de la pregunta de investigación y objeto de estudio del investigador. En determinados casos y circunstancias el personal del CAIT puede asesorar sobre la constitución de un corpus. Sobre el tamaño del corpus textual El CAIT cuenta con recursos que permiten analizar textos o corpus textuales con un volumen comprendido entre unas 20 páginas y varios miles. Las lenguas El CAIT está orientado al análisis de textos en castellano. En caso de contar con un texto o corpus en otra lengua o con textos en diversas lenguas conviene consultar con el CAIT. El texto o corpus ha de estar “limpio” El CAIT ofrece un servicio de análisis de textos, por lo que todo elemento en el corpus que no sea texto está de más e imposibilita el análisis. La limpieza del corpus consiste en la supresión de elementos tales como fotografías, marcos, gráficas, dibujos, líneas, iconos,…etc. En resumidas cuentas, un corpus textual sólo ha de contener texto. En caso de que el texto contenga caracteres no alfanuméricos conviene consultar con el CAIT sobre la supresión o sustitución de los mismos. Sobre la forma de los elementos del texto Los programas utilizados normalizan el texto, por lo que quedan suprimidas todas las partes que aparezcan en negrita, cursiva, subrayadas, resaltadas o en distinto color. En caso de que el investigador tenga interés en mantener la diferenciación entre las partes ha de consultar con el CAIT sobre las posibilidades existentes. Está altamente recomendado que el investigador indique qué palabras desea conservar con mayúscula y cuales con minúscula. La diferenciación es útil, entre otras cosas, para desambiguar y diferencias palabras. Por ejemplo, no es lo mismo “el estado de las cosas” que de “las cosas del Estado”. También es útil diferenciar entre allende y Allende. Lo más práctico es que el texto esté por completo en minúscula y que las palabras cuya mayúscula se quiera conservar vengan precedidas por un carácter no alfanumérico. (En el ejemplo: se ha usado * para identificar las palabras que empiezan por mayúscula) [email protected] http://www.ucm.es/info/cait Tlf: 91 3942625 1 Despacho 3517 Facultad de Ciencias Políticas y Sociología Centro de Análisis Informático de Textos _____________________________________________________________________________________ En numerosas ocasiones resulta útil transformar un conjunto de palabras en una sola por su propiedad de unidad semántica. Lo común es unir las palabras por medio de un guión bajo. (En el ejemplo: Corea del Norte pasa a *corea_del_*norte) El investigador, en función de sus intereses, puede incluir delimitadores que dividen el texto en segmentos, lo cual tiene interés para distintos tipos de análisis. El delimitador universal es el punto, al cual se suman la coma, los signos de interrogación, de exclamación, los paréntesis,…etc. Así, podemos incluir un carácter no alfanumérico para considerar como segmento, por ejemplo, un párrafo. (En el ejemplo: se ha usado el carácter $ para delimitar párrafos) Ténganse en cuenta estas cuestiones al manejar siglas de organizaciones. (Ver ejemplo) Particiones Una partición es una división en función de una propiedad dada. El particionar un texto o corpus tiene interés para la aplicación de distintos tipos de análisis. Ejemplos de particiones son: dividir un texto por páginas, por capítulos, por autor, por personajes o actores, por fecha,…etc. Una forma usual de indicar una partición es: <propiedad=valor> (En el ejemplo: Se ha considerado la propiedad “Actor”, la cual tiene dos valores: “Entrevistador” y “Ana”) En todo caso se recomienda contar con el asesoramiento del CAIT para la partición de un corpus. Ejemplo A continuación se muestra un texto sin preparar y una propuesta de formalización para análisis: Entrevistador: ¿Qué opina de la intervención de EE.UU. en esta cumbre? Ana: Creo que no ha sido demasiado acertado criticar aquí las posiciones de Corea del Norte y de Arabia Saudí. Por otro lado, creo que sus propuestas en materia económica han sorprendido a los asistentes. Entrevistador: ¿A qué se refiere? <Actor=Entrevistador> $ ¿qué opina de la intervención de *eeuu en esta cumbre? <Actor=Ana> $ creo que no ha sido demasiado acertado criticar aquí las posiciones de *corea_del_*norte y de *arabia_*saudí. $ por otro lado, creo que sus propuestas en materia económica han sorprendido a los asistentes. sobretodo a los representantes de los países asiáticos. <Actor=Entrevistador> $ ¿a qué se refiere? NOTA: Para la formalización textual se recomienda el uso de las herramientas Reemplazar, Sustituir o Formato. Estas herramientas son comunes en la mayoría de los procesadores de texto. [email protected] http://www.ucm.es/info/cait Tlf: 91 3942625 2 Despacho 3517 Facultad de Ciencias Políticas y Sociología