Extracção automática de informação a partir de corpus

Anuncio
Métodos em lingüistica de corpus e
processamento da língua natural
María Paula Santalla del Río
Pablo Gamallo Otero
Ferramentas para o
processamento da língua natural
e para a extracção de informação
Pablo Gamallo Otero
http://gramatica.usc.es/~gamallo/
Bibliografia
Chantal Pérez Hernández, Antonio Moreno (2008), “Lingüística computacional
y lingüística de corpus: Potencialidades para la investigación textual”.
http://tecnolengua.uma.es/tl5.html. Disponível em:
http://gramatica.usc.es/~gamallo/aulas/lingcomputacional/biblio/LingCompCorpus.pdf
(LEITURA RECOMENDADA)
Bibliografia
Tony Berber Sardinha (2004), Lingüística de Corpus, Editora Manole, Brasil.
Marco Baroni (2009), “Distributions in text”. In Anke Lüdeling and Merja
Kytö (eds.), Corpus linguistics: An international handbook, Berlin: Mouton de
Gruyter. Disponível em:
http://gramatica.usc.es/~gamallo/aulas/lingcomputacional/biblio/Baroni_distributions.pdf
J. Torruella y J. Llisterri (1999): “Diseño de corpus textuales y orales”, en J.
M. Blecua et al. (eds.), Filología e informática. Nuevas tecnologías en los
estudios filológicos, Barcelona: Editorial Milenio y Universidad Autónoma de
Barcelona, págs. 45-77. Disponível em:
http://liceu.uab.es/~joaquim/publicacions/Torruella_Llisterri_99.pdf
Pablo Gamallo & Isaac González (2009) "Una gramática de dependencias
basada en patrones de etiquetas", Procesamiento del Lenguaje Natural, 43,
pp. 315-324. Disponível em:
http://www.sepln.org/revistaSEPLN/revista/43/articulos/art34.pdf
PLANO DO CURSO
1.Noções básicas de EI
2.Breve introdução a Linux
3.Tokenizadores e concordâncias
3.1. contar tokens e formas, ordenar, comparar textos, ...
3.2. riqueza lexical de textos
3.3. Key Word in Context
4.Etiquetadores (PoS tagging)
4.1. Tree-Tagger
4.2. FreeLing
5.Analisadores (parsing)
5.1. DepPattern
OBJECTIVOS
Utilizar ferramentas robustas de
processamento de corpus: tokenizadores,
etiquetadores, analisadores, ...

Extrair informação (contar, ordenar...)
do corpus processado

Descargar