Métodos em lingüistica de corpus e processamento da língua natural María Paula Santalla del Río Pablo Gamallo Otero Ferramentas para o processamento da língua natural e para a extracção de informação Pablo Gamallo Otero http://gramatica.usc.es/~gamallo/ Bibliografia Chantal Pérez Hernández, Antonio Moreno (2008), “Lingüística computacional y lingüística de corpus: Potencialidades para la investigación textual”. http://tecnolengua.uma.es/tl5.html. Disponível em: http://gramatica.usc.es/~gamallo/aulas/lingcomputacional/biblio/LingCompCorpus.pdf (LEITURA RECOMENDADA) Bibliografia Tony Berber Sardinha (2004), Lingüística de Corpus, Editora Manole, Brasil. Marco Baroni (2009), “Distributions in text”. In Anke Lüdeling and Merja Kytö (eds.), Corpus linguistics: An international handbook, Berlin: Mouton de Gruyter. Disponível em: http://gramatica.usc.es/~gamallo/aulas/lingcomputacional/biblio/Baroni_distributions.pdf J. Torruella y J. Llisterri (1999): “Diseño de corpus textuales y orales”, en J. M. Blecua et al. (eds.), Filología e informática. Nuevas tecnologías en los estudios filológicos, Barcelona: Editorial Milenio y Universidad Autónoma de Barcelona, págs. 45-77. Disponível em: http://liceu.uab.es/~joaquim/publicacions/Torruella_Llisterri_99.pdf Pablo Gamallo & Isaac González (2009) "Una gramática de dependencias basada en patrones de etiquetas", Procesamiento del Lenguaje Natural, 43, pp. 315-324. Disponível em: http://www.sepln.org/revistaSEPLN/revista/43/articulos/art34.pdf PLANO DO CURSO 1.Noções básicas de EI 2.Breve introdução a Linux 3.Tokenizadores e concordâncias 3.1. contar tokens e formas, ordenar, comparar textos, ... 3.2. riqueza lexical de textos 3.3. Key Word in Context 4.Etiquetadores (PoS tagging) 4.1. Tree-Tagger 4.2. FreeLing 5.Analisadores (parsing) 5.1. DepPattern OBJECTIVOS Utilizar ferramentas robustas de processamento de corpus: tokenizadores, etiquetadores, analisadores, ... Extrair informação (contar, ordenar...) do corpus processado