Posibilidades de enlace entre M´exico y el Centro de

Anuncio
Posibilidades de enlace entre México y el
Centro de Investigación TALP–UPC
Alberto Barrón-Cedeño1,2
Lluı́s Màrquez1
1
Maria Fuentes1
Lluı́s Padró1
TALP Research Center, Universitat Politècnica de Catalunya, España
2
Facultad de Informática, Universidad Politécnica de Madrid, España
{albarron, mfuentes, padro, lluism} @lsi.upc.edu
1. Introducción
En esta contribución se presenta el Centro de Tecnologı́as y Aplicaciones
del Lenguaje y del Habla (TALP)1 , de la Universidad Politécnica de Cataluña (UPC)2 . Se incluye la investigación que en él se lleva a cabo ası́ como
posibles vı́as de colaboración.
La contribución se distribuye de la siguiente forma. La sección 2 presenta nuestro centro de investigación. La sección 3 discute las áreas de
oportunidad en el contexto de nuestra investigación. La sección 4 sugiere algunas actividades de investigación para impulsar la cooperación. La
sección 5 describe algunos de los mecanismos que hemos identificado
para la cooperación entre la UPC y las instituciones mexicanas.
2. TALP: Centro de Tecnologı́as y Aplicaciones del Lenguaje y del Habla
El TALP es un centro especı́fico de investigación interdepartamental
de la Universidad Politécnica de Cataluña. El ámbito tecnológico del cen1
2
http://www.talp.upc.edu
http://www.upc.edu
1
tro es el procesado automático del lenguaje natural, tanto en forma oral
como escrita, con el objetivo de ayudar a superar las barreras lingüı́sticas
y mejorar la accesibilidad a los sistemas de información.
El centro se conformó en 1998 a partir de la unión de dos grupos de
investigación de la UPC: el Grupo de Procesamiento del Lenguaje Natural (GPLN) y el Grupo de Procesado de la Voz (VOZ); ambos grupos de
investigación consolidados del gobierno catalán. Actualmente, el centro
reúne a alrededor de cuarenta investigadores. Como parte de su infraestructura, desde 2004 el centro cuenta con una sala inteligente, creada en
colaboración con el Grupo de Procesado de Video e Imagen, de la UPC.
Este entorno permite estudiar el habla oral en contextos más o menos
naturales.
2.1.
Misión
El grupo de procesado de voz tiene como objetivo desarrollar interfases que mejoren la comunicación hombre–máquina y persona–persona.
Creado en 1985, desarrolla y mantiene sistemas de reconocimiento de
voz multilingüe, sistemas de conversión de texto a voz y herramientas de
traducción automática. Para ello, el grupo trabaja en diversas áreas de
investigación: parametrización robusta y mejora de señales de voz, modelado estadı́stico de unidades subléxicas, comprensión del habla en dominios limitados, reconocimiento de voz mono y multidialectal, sistemas
de adaptación al locutor, traducción automática del habla, sı́ntesis del habla, producción de la prosodia, conversión de voz, etc.
Por su parte, el grupo de procesamiento del lenguaje natural inició su
actividad en 1988. Desde sus orı́genes ha sido un grupo interdisciplinar,
con participación activa y continuada de lingüistas de la Universidad de
Barcelona. Ha desarrollado una prolı́fica actividad en diversas áreas de
investigación dentro del procesamiento del lenguaje natural y la inteligencia artificial. En procesamiento básico de la lengua destacan los campos
de desambiguación morfosintáctica, análisis sintáctico, parsing semántico, desambiguación semántica y la aplicación de métodos estadı́sticos
en diversas tareas. Igualmente, se desarrolla investigación en traducción
automática, extracción de información, respuesta a preguntas, resumen
automático, procesamiento de diccionarios, de corpus textuales, y de recursos lingüı́sticos en general.
2
Cabe destacar FreeLing3 , una biblioteca de código abierto que proporciona una amplia gama de servicios de análisis lingüı́stico para diversos
idiomas. FreeLing ofrece a los desarrolladores de aplicaciones de PLN
funciones de análisis y anotación lingüı́stica de textos, con la consiguiente
reducción del coste de construcción de dichas aplicaciones.
El centro TALP pertenece a varias redes, acciones y asociaciones nacionales e internacionales. Entre las redes, cabe destacar ELSNET (European Network of Excellence in Human Language Technologies); METANET (European Network of Excellence in Multilingual Europe Technology
Alliance), contribuyendo desde METANET4U; SIMILAR (European Network of Excellence “The European taskforce creating human-machine interfaces SIMILAR to human-human communication); RTH (Red Española
de Tecnologı́as del Habla); TIMM (Red Española Temática de Investigación Multilingüe y Multimodal. Entre las acciones se encuentran Europea
COST-2101 (Biometrics for Identity Documents and Smart Cards); Europea COST 2102 (Cross-modal analysis of verbal and nonverbal communication). Finalmente, el centro pertenece a asociaciones como EAMT
(European Association for Machine Translation) y ELRA (European Language Resource Association).
El TALP fomenta la transferencia de conocimientos, experiencia y tecnologı́a especialmente mediante la cooperación con instituciones públicas
y empresas en proyectos de investigación aplicada y desarrollo. Existen
acuerdos de licencia de sus recursos lingüı́sticos y de algunas de las tecnologı́as desarrolladas. Hace más de 10 años, con la tecnologı́a del grupo
en reconocimiento y sı́ntesis de voz, se creó el spin-off que dio lugar a la
actual empresa VERBIO4 . Más recientemente, se ha creado un spin-off
relacionado con tecnologı́a de identificación de hablante5 .
2.2.
Lı́neas de investigación
A continuación se señalan las lı́neas de investigación sobre las que se
trabaja actualmente en el centro. Las citas incluidas corresponden a tesis
de doctorado desarrolladas en el marco de las distintas lı́neas.
3
http://nlp.lsi.upc.edu/freeling/
http://www.verbio.com/
5
http://www.hertasecurity.com/
4
3
Adquisición de conocimiento léxico–semántico. Extracción de conocimiento estructurado sobre el significado de las palabras en los documentos de texto. (Daudé, 2005; Cuadros, 2011).
Aprendizaje automático para el procesado de lenguaje natural. Desarrollo
de algoritmos que permiten a las computadoras adquirir comportamientos basados en observaciones empı́ricas (Carreras, 2005; Escudero, 2006; Padró, 2008; Gonzàlez, 2012).
Speech coding. Aplicación de técnicas de compresión de datos a señales
digitales de audio con habla. (Pujalte, 2003)
Conversión texto a habla. Producción artificial de habla humana (Febrer,
2000; Duxans, 2006; Adell, 2009; Pérez, 2012).
Diálogos humano-máquina Sistemas computacionales cuya intención es
conversar con un humano, manteniendo estructuras coherentes (Gatius, 2001; Padrell, 2002; González, 2010).
Extracción de información Extracción automática de información estructurada a partir de documentos electrónicos no estructurados o semiestructurados (Turmo, 2002; Català, 2003).
Herramientas para el procesado de lenguaje. Software útil para el desarrollo de aplicaciones que entiendan el lenguaje en menor o mayor
grado (Ageno, 2003; Sapena, 2012; Lluı́s, 2013; Naderi, 2013).
Interacción humano-máquina. Procesamiento de habla y audio en interfases multimodales (Anguera, 2006; Temko, 2008; Abad, 2007;
Ejarque, 2011; Segura, 2011; Zelenak, 2012).
Reconocimiento automático del hablante. Identificación de la persona
que está hablando por medio de las caracterı́sticas de su voz (biometrı́a de voz) (Saeta, 2005; Anguita, 2007; Ejarque, 2011).
Reconocimiento automático del habla. La traducción de lengua hablada a escrita (Hernández, 2000; Diehl, 2007; Erro, 2008; Farrús, 2008;
Caballero, 2009).
Recuperación de información. Búsqueda de información en documentos multimedia (Ferrés, 2007; Fuentes, 2008; Comas, 2012).
4
Recursos lingüı́sticos. Desarrollo de repositorios de datos útiles tanto
para el procesado de habla como de texto (Civit, 2003).
Traducción automática. La traducción de texto o habla de un lenguaje
natural a otro (de Gispert, 2007; Crego, 2008; Lambert, 2008; Costajussà, 2008; Giménez, 2008; Khalilov, 2009; Agüero, 2012).
3. Áreas de oportunidad
3.1.
Proyectos anteriores
Además de los proyectos subvencionados por el gobierno catalán, el
TALP ha participado en más de treinta proyectos nacionales y europeos.
Entre ellos cabe destacar: MEANING, HOPS, CHIL, FAUST, Tecnoparla y
Buscamedia. En el marco de los proyectos MEANING, KNOW y KNOW2
se desarrollaron investigaciones para el procesado semántico y la adquisición e integración de conocimiento. El grupo GPLN tiene particular interés
en tareas de extracción de información, tales como la clasificación de documentos o la respuesta a preguntas.
Igualmente, cabe destacar los recientes proyectos centrados en traducción automática: FAUST (Feedback Analysis for User Adaptive Statistical Translation) y MOLTO (Multilingual On-Line Translation). El primero
ha buscado desarrollar sistemas de traducción automática capaces de
mejorar a partir de la retroalimentación del usuario en tiempo real.
Además, los miembros del centro participan con regularidad en campañas internacionales de evaluación relacionadas con traducción automática, sı́ntesis de voz, reconocimiento del hablante y audio, parsing y desambiguación, entre otras.
3.2.
Proyectos actuales y potencial colaboración
X-LIKE: Cross-lingual Knowledge Extraction. Proyecto financiado por la
U.E. bajo el séptimo programa marco (FP7). El equipo del TALP trabaja
principalmente en: (i) procesado básico de lenguaje, con la herramienta
FreeLing; (ii) parsing sintáctico utilizando Treeler y (iii) investigación sobre
mapeo translingüe de predicados relacionales.
Duración: 2013-2015
5
Investigador principal UPC: X. Carreras.
CAMOMILE: (Collaborative Annotation of multi-MOdal, MultI-Lingual and
multi-mEdia documents). Proyecto financiado por el Ministerio de Ciencia
e Innovación. El equipo de la UPC es responsable del reconocimiento de
locutores.
Duración: 2013-2014
Investigador principal UPC: J. Hernando.
SKATeR: Scenario Knowledge Acquisition by Textual Reading. Su objetivo es trabajar en la integración de procesamiento de texto, interpretación
semántica e inferencia y razonamiento, entre otros, ası́ como su explotación en diversas aplicaciones. Entre sus objetivos se encuentra desarrollar interfases colaborativas intuitivas, que permitan a las comunidades
de usuarios mejorar su conocimiento sobre distintos dominios, tales como
comunidades multilingües que incluyan el inglés, español, catalán, vasco
y gallego.
Duración: 2013-2015
Investigador principal UPC: H. Rodrı́guez.
SpeechTech4All Investigación avanzada en tecnologı́as del habla para
aplicación a entornos audiovisuales de interacción hombre-máquina inclusiva. Proyecto enfocado en tecnologı́as del habla para las lenguas oficiales
de España, el cual incluye reconocimiento del habla, traducción automática y conversión de texto a habla. Duración: 2013-2015
Investigador Principal UPC: A. Bonafonte.
TACARDI: Traducción Automática en Contexto y Aumentada con Recursos Dinámicos de Internet. Busca mejorar la traducción automática desde
dos enfoques. Primero, por medio de la explotación de recursos extraı́dos
de Internet, tales como documentos comparables o Wikipedia. Segundo,
a través del desarrollo de traductores que vayan más allá del nivel de la
oración: que enfrenten documentos enteros.
6
Programa segunda voz Desarrollo de una voz sintética basada en la
voz natural anterior a la operación de pacientes que han perdido el habla,
total o parcialmente, como resultado de un proceso operatorio que afecte
a las cuerdas vocales.
Duración: 2013-1015.
Investigador Principal: J. Fonollosa
4. Actividades para el impulso a la cooperación
Durante los últimos años, una “base de conocimiento” ha crecido más
que ninguna otra: Wikipedia. Sin embargo, la Wikipedia en español no ha
alcanzado el crecimiento esperado de acuerdo con la población hispanoparlante. Por ello, consideramos particularmente interesante el desarrollar
tecnologı́a para: (i) fomentar el crecimiento de la Wikipedia en español (a
base del enriquecimiento y creación de artı́culos e inclusión de las distintas variantes del español) y (ii) explotar dicho conocimiento. Ambas tareas
plantean retos interesantes tanto desde el punto de vista del procesamiento de lenguaje natural como de la recuperación de información.
Para fomentar el crecimiento de Wikipedia, es necesario desarrollar
sistemas para la “aceleración de bases de conocimiento” (Frank et al.,
2012), traductores automáticos6 y bases léxicas con variantes lingüı́sticas
(e.g. (Eisenstein et al., 2010)), entre otras herramientas y recursos.
El conocimiento que existe actualmente en la enciclopedia (y el que
se seguirá generando), ha demostrado ser valiosı́simo en tareas muy diversas. Entre muchas otras: desambiguación (Mihalcea, 2007), descubrimiento de errores comunes (Nelken y Yamangil, 2008), análisis de paráfrasis (Vila, Rodrı́guez, y Martı́, 2010) o sistemas para la estimación de similitud (Gabrilovich y Markovitch, 2007). Sin embargo, la mayorı́a de estos
trabajos se ha desarrollado para el inglés y su adaptación al español y
otras lenguas de la región es necesario.
6
http://en.wikipedia.org/wiki/Wikipedia:Translation
7
5. Mecanismos de cooperación
Además de las colaboraciones que pueden generarse a partir de los
proyectos antes señalados, identificamos que una vı́a prometedora para
la cooperación son los posgrados y programas de doctorado ofrecidos por
la UPC, en la que imparten docencia los miembros del centro:
Posgrado en Inteligencia Artificial. El objetivo de este programa es proporcionar al estudiante bases sólidas y conocimiento avanzado sobre inteligencia artificial7 . De particular relevancia para nuestro contexto son las ramas de procesamiento de lenguaje natural y aprendizaje automático.
Posgrado en Tecnologı́as de la Información y la Comunicación. Se trata de un programa de maestrı́a en ingenierı́a de las telecomunicaciones. De especial interés en esta rama es la rama de procesamiento
electrónico de la señal8 .
Posgrado en Data Mining and Knowledge Management. Master internacional sobre el tema. El último semestre se desarrolla dentro una
empresa. Por ejemplo, en 2012 algunos estudiantes pasaron este
periodo en Yahoo! Research. De especial interés es el enfoque dado al procesamiento de datos textuales9 .
Otra vı́a de particular interés para la cooperación es el doctorado industrial de la Generalidad de Cataluña10 . El objetivo de este programa es
contribuir al desarrollo e innovación del tejido industrial catalán mediante
la transferencia de talento a la industria. Para ello, el proyecto de doctorado se realiza en el entorno de una empresa, que es beneficiaria de los
objetivos alcanzados. A cambio, la empresa se compromete a financiar al
estudiante.
En relación con el punto anterior, cabe señalar que la investigación
llevada a cabo en el centro tiene una componente muy aplicada. Prueba
de ello es el hecho de que, una vez finalizado el doctorado, varios miembros del centro han comenzado carreras profesionales en reconocidas
7
http://postgrau.upc.edu/ai/
http://mastersuniversitaris.upc.edu/mint/ y http://www.tsc.upc.edu/doctorate/
9
http://www.em-dmkm.eu/
10
http://doctorat.upc.edu/programes/doctorat-industrial/TIC
8
8
empresas del sector, tales como Telfónica I+D, Yahoo! Research, Semantix Group, VICOMTech, Google, Nuance, Motorola Solutions, Barcelona
Media, Verbio y Pal-Robotics.
Bibliografı́a
Abad, A. 2007. A multimicrphone approach to speech processing in a smartroom environment. Ph.D. tesis, UPC.
Adell, J. 2009. Prosodic Analysis and Modelling of Conversational Elements for
Speech Synthesis. Ph.D. tesis, UPC, July.
Ageno, A. 2003. An Island-Driven Parsing System. Ph.D. tesis, UPC, March.
Agüero, P. D. 2012. Sı́ntesis de voz aplicada a la traducción voz a voz. Ph.D.
tesis, UPC, October.
Anguera, X. 2006. Robust Speaker Diarization for Meetings. Ph.D. tesis, UPC.
Anguita, J. 2007. Reconocimiento del locutor mediante adaptación jacobiana de
los modelos acústicos. Ph.D. tesis, UPC.
Caballero, M. 2009. Reconocimiento de voz multidialectal. Ph.D. tesis, UPC.
Carreras, X. 2005. Learning and Inference in Phrase Recognition: A FilteringRanking Architecture using Perceptron. Ph.D. tesis, UPC.
Català, N. 2003. Acquiring Information Extraction Patterns from Unannotated
Corpora. Ph.D. tesis, UPC, July.
Civit, M. 2003. Criterios de etiquetación y desambiguación morfosintáctica de
corpus en español. Ph.D. tesis, Linguistics Depart., Universitat de Barcelona.
Comas, Pere R. 2012. Spoken Question Answering for Spoken Documents.
Ph.D. tesis, Departament LSI. Universitat Politècnica de Catalunya., June.
Costa-jussà, M. R. 2008. New Reordering and Modeling Approaches for Statistical Machine Translation. Ph.D. tesis, UPC, September.
Crego, J. M. 2008. Architecture and Modeling for N-gram-based Statistical Machine Translation. Ph.D. tesis, UPC.
Cuadros, M. 2011. Multilingual Acquisition of Large Scale Knowledge Resources. Ph.D. tesis, UPC, October.
9
Daudé, J. 2005. Enlace de Jerarquı́as Usando el Etiquetado por Relajación.
Ph.D. tesis, UPC, July.
de Gispert, A. 2007. Introducing Linguistic Knowledge into Statistical Machine
Translation. Ph.D. tesis, UPC.
Diehl, F. 2007. Multilingual and Crosslingual Acoustic Modelling for Automatic
Speech Recognition. Ph.D. tesis, Universitat Politècnica de Catalunya.
Duxans, H. 2006. Voice Conversion applied to Text-to-Speech Systems. Ph.D.
tesis, Universitat PolitÚcnica de Catalunya.
Eisenstein, Jacob, Brendan O’Connor, Noah A. Smith, y Eric P. Xing. 2010.
A latent variable model for geographic lexical variation. En Proceedings of
the 2010 Conference on Empirical Methods in Natural Language Processing, EMNLP ’10, páginas 1277–1287, Stroudsburg, PA, USA. Association
for Computational Linguistics.
Ejarque, P. 2011. Normalización estadı́stica para fusión biométrica multimodal.
Ph.D. tesis, UPC.
Erro, D. 2008. Intra-lingual and Cross-lingual Voice Conversion Using Harmonic
plus Stochastic Models. Ph.D. tesis, UPC.
Escudero, G. 2006. Machine Learning Techniques for Word Sense Disambiguation. Ph.D. tesis, UPC.
Farrús, M. 2008. Fusing Prosodic and Acoustic Information for Speaker Recognition. Ph.D. tesis, UPC.
Febrer, A. 2000. Sı́ntesi de la parla per concatenació basada en la selecció.
Ph.D. tesis, UPC.
Ferrés, D. 2007. Geographical information resolution and its application to the
question answering systems. Master’s thesis, UPC.
Frank, John R., Max Kleiman-Weiner, Daniel A. Roberts, Feng Niu, Ce Zhang,
Christopher Re, y Ian Soboroff. 2012. Building an entity-centric stream filtering test collection for trec 2012.
Fuentes, M. 2008. A Flexible Multitask Summarizer for Documents from Different
Media, Domain, and Language. Ph.D. tesis, UPC, March.
10
Gabrilovich, Evgeniy y Shaul Markovitch. 2007. Computing Semantic Relatedness Using Wikipedia-based Explicit Semantic Analysis. En Proceedings
of the 20th International Joint Conference on Artificial Intelligence, páginas
1606–1611, San Francisco, CA, USA. Morgan Kaufmann Publishers Inc.
Gatius, M. 2001. Using an Ontology for Guiding Natural Language Interation with
Knowledge Based Systems. Ph.D. tesis, UPC, January.
Giménez, J. 2008. Empirical Machine Translation and its Evaluation. Ph.D. tesis,
UPC, July.
Gonzàlez, Edgar. 2012. Unsupervised Learning of Relation Detection Patterns.
Ph.D. tesis, Universitat Politècnica de Catalunya, June.
González, Meritxell. 2010. DIGUI: A Flexible Dialogue System for Guiding the
User Interaction to Access Web Services. Ph.D. tesis, Universitat PolitÚcnica
de Catalunya, October.
Hernández, G. 2000. Confidence Measures for Speech Recognition and Utterance Verification. Ph.D. tesis, UPC, June.
Khalilov, M. 2009. New statistical and syntactic models for machine translation.
Ph.D. tesis, Universitat PolitÚcnica de Catalunya, October.
Lambert, Patrik. 2008. Exploiting Lexical Information and Discriminative Alignment Training in Statistical Machine Translation. Ph.D. tesis, Universitat PolitÚcnica de Catalunya, February.
Lluı́s, X. 2013. Efficient joint parsing of syntactic and semantic dependencies.
Master’s thesis, UPC.
Mihalcea, Rada. 2007. Using Wikipedia for Automatic Word Sense Disambiguation. En North American Chapter of the Association for Computational
Linguistics (NAACL 2007).
Naderi, A. 2013. Graph-based entity linking. Master’s thesis, UPC.
Nelken, Rani y Elif Yamangil. 2008. Mining Wikipedia’s Article Revision History
for Training Computational Linguistics Algorithms. En AAAI Workshop on Wikipedia and Artificial Intelligence: an Evolving Synergy, Chicago, Il. AAAI.
Padrell, Jaume. 2002. Reconeixement de la parla per a sistemes de diàleg oral.
Ph.D. tesis, UPC, May.
11
Padró, M. 2008. Applying Causal-State Splitting Reconstruction Algorithm to
Natural Language Processing Tasks. Ph.D. tesis, UPC, June.
Pujalte, S. 2003. Esquemes CELP algebraic per a codificació de veu en banda
ampla. Ph.D. tesis, UPC, November.
Pérez, Javier. 2012. Voice Source Characterization for Prosodic and Spectral
Manipulation. Ph.D. tesis, Universitat Politècnica de Catalunya, July.
Saeta, J. Rodrı́guez. 2005. Decision Threshold Estimation and Model Quality
Evaluation Techniques for Speaker Verification. Ph.D. tesis, UPC.
Sapena, E. 2012. A constraint-based hypergraph partitioning approach to coreference resolution. Ph.D. tesis, UPC, May.
Segura, C. 2011. Speaker localization and orientation in multimodal smart environments. Ph.D. tesis, UPC.
Temko, A. 2008. Acoustic Event Detection and Classification. Ph.D. tesis, UPC.
Turmo, Jordi. 2002. An Information Extraction System Portable to New Domains.
Ph.D. tesis, UPC.
Vila, Marta, Horacio Rodrı́guez, y M. Antònia Martı́. 2010. Wrpa: A system for
relational paraphrase acquisition from wikipedia. Procesamiento del Lenguaje
Natural, 45:11–19.
Zelenak, M. 2012. Detection and handling of overlapping speech for speaker
diarization. Ph.D. tesis, UPC.
12
Descargar