Los proyectos SINAMED e ISIS: Mejoras en el Acceso a... Información Biomédica mediante la integración de

Anuncio
Los proyectos SINAMED e ISIS: Mejoras en el Acceso a la
Información Biomédica mediante la integración de
Generación de Resúmenes, Categorización
Automática de Textos y Ontologías
Antonio Vaquero, Francisco Alvarez
Manuel Maña, Jacinto Mata,
Universidad Complutense de Madrid
Juan L. Domínguez
Facultad de Informática
Universidad de Huelva
Ciudad Universitaria 28040 Madrid, España
Escuela Politécnica Superior
[email protected],
21071 Palos de la Frontera, Huelva, España
[email protected]
[email protected], [email protected],
[email protected]
José María Gómez, Diego Gachet,
Manuel de Buenaga
Universidad Europea de Madrid
Escuela Superior Politécnica
28670 Villaviciosa de Odón, Madrid, España
{jmgomez, gachet, buenaga}@uem.es
1
El proyecto SINAMED (Ministerio de
Educación y Ciencia, TIN2005-08988-C02-01,
TIN2005-08988-C02-02)
está
orientado
principalmente a la investigación básica,
específicamente, el diseño e integración de
técnicas de generación de resúmenes y
categorización automática de textos basadas en
la utilización de ontologías y recursos léxicos
para el acceso a información bilingüe en el
ámbito biomédico El proyecto ISIS (Ministerio
de Industria y Comercio, programa PROFIT FIT-350200-2005-16) tiene una orientación
práctica y de transferencia de tecnología, y su
meta es la mejora del acceso inteligente a la
información médica, teniendo en cuenta en
mayor medida un entorno concreto sobre
usuarios potenciales: médicos y pacientes. Está
enfocado a la provisión
de herramientas
avanzadas y más eficaces para la búsqueda,
localización, utilización, y comprensión de
diferentes fuentes de información médica.
Introducción
Los sistemas inteligentes de acceso a la
información están integrando de manera
creciente técnicas de minería de texto y de
análisis del contenido, y recursos semánticos
como las ontologías. En los proyectos ISIS y
SINAMED juegan un papel central la
utilización de categorización de texto, la
extracción automática de resúmenes y las
ontologías, para la mejora del acceso a la
información en un dominio biomédico
específico: los historiales clínicos de pacientes
y la información científica biomédica asociada.
En el desarrollo de los dos proyectos
participa un consorcio formado por grupos de
investigación
de
tres
universidades
(Universidad Europea de Madrid, Universidad
de Huelva, Universidad Complutense de
Madrid), un hospital (Hospital de Fuenlabrada,
Madrid), y una compañía de desarrollo de
software (Bitext).
2
3
Objetivos de los proyectos
Técnicas de acceso y análisis del
contenido
En los proyectos que presentamos en este
artículo, proponemos integrar las técnicas de
categorización y generación automática de
resúmenes de texto en los procesos de búsqueda
y navegación. Es de esperar que una
organización
adecuada
provoque
una
disminución de la sensación de sobrecarga de
los usuarios debida al exceso de información.
Los proyectos SINAMED e ISIS
están
enfocados al acceso a la información contenida
en una parte específica del dominio biomédico:
registros clínicos de pacientes y documentación
científica relacionada. Estos dos proyectos
tienen una fuerte correspondencia mutua y una
orientación diferente pero complementaria.
353
Manuel Maña, Jacinto Mata, Juan L. Domínguez, Antonio Vaquero, Francisco Álvarez, José María Gómez, Diego Gachet y Manuel de Buenaga
Al mismo tiempo, se pretende conseguir que el
usuario mejore la comprensión de la
información de los documentos recuperados
(Aronson et al., 2004; Maña et al. 2004).
3.1
3.3
El uso de ontologías para representar objetos
y las relaciones que estén entren ellos se está
haciendo una práctica común en muchos áreas.
En el dominio de la biomedicina, los usos de las
ontologías incluyen PLN, descubrimiento de
conocimiento
y
soporte
para
la
interoperabilidad. Sin embargo, hay que hacer
la diferencia entre ontologías biomédicas y
terminologías biomédicas.
Las ontologías biomédicas proveen un
marco organizacional de los conceptos
involucrados en entidades y procesos
biológicos, en un sistema de relaciones
jerárquicas y asociativas que permite razonar
sobre el conocimiento médico. En contraste, las
terminologías biomédicas promueven una
manera estándar de nombrar los conceptos del
dominio (Bodenreider, et al., 2003).
Como ya se ha referenciado, la integración
de recursos disponibles en el dominio como
UMLS tiene un papel central en el proyecto:
además se consideran necesidades analizadas en
(Nirenburg et al., 2005), que incluyen el énfasis
en disponer de metodologías sistemáticas para
resultar viable la adaptación a tareas diferentes
de las iniciales para las que se desarrollaron
(e.g., indexación).
Categorización de texto
La categorización automática de texto puede
aplicarse, por ejemplo, para clasificar informes
médicos utilizando descriptores estándar, como
el Medical Subject Headings (MeSH). Sin
embargo, la variabilidad del lenguaje y la falta
de los datos necesarios para un aprendizaje
efectivo limita la efectividad de estos sistemas.
Por otra parte, la categorización de texto rara
vez se ha aplicado en el entorno biomédico,
mientras que el uso de esta técnica a
información médica escrita en español es
virtualmente inexistente.
Los problemas mencionados pueden
abordarse con el uso de recursos léxicosemánticos. En el dominio médico, existen
recursos específicos disponibles, como UMLS
(Unified Medical Language System), que lo
hacen posible.
3.2
Ontologías
Generación de resúmenes
En los entornos de acceso a la información,
los resúmenes (mono o multi-documento) han
probado su utilidad, mejorando la efectividad
cuando se aplican a diversas tareas, como
recuperación ad hoc o interactiva.
La aplicación al dominio médico conlleva
una serie de retos que no han sido
suficientemente abordados en trabajos previos.
Entre ellos, pueden destacarse los siguientes
problemas. La gran parte de los sistemas de
generación de resúmenes están concebidos para
manipular documentos escritos en un único
idioma (fundamentalmente inglés), aunque hay
gran variedad de colecciones de texto y
recursos en otros idiomas (especialmente en
español). Además, la mayoría de los sistemas
trabajan con documentos pertenecientes a algún
dominio muy restringido. Por tanto, es
necesario desarrollar técnicas que puedan
aplicarse a dominios más amplios o, al menos,
que puedan adaptarse fácilmente de un
subdominio a otro.
Como en categorización de texto, pensamos
que la integración de conocimiento proveniente
de recursos como UMLS, que tiene además
algunos componentes bilingües, puede jugar un
papel muy importante en la solución de ambos
problemas.
4
Referencias bibliográficas
Aronson, A.R., Mork, J.G., Gay, C.W.,
Humphrey, S.M., Rogers, W.J.: The NLM
Indexing Initiative’s Medical Text Indexer.
In: Proceedings of Medinfo, San Francisco
(2004)
Bondenreider, O., Mitchell, J. and McCray, A.
Biomedical Ontologies. In Proceedings of
the
2003
Pacific
Simposium
on
Biocomputing. World Scientific, pp. 562564. 2003
Maña, M.J., de Buenaga, M., Gómez, J.M.:
Multidocument summarization: An added
value to clustering in interactive retrieval.
ACM TOIS, 22 (2), pp. 215-241 (2004)
Nirenburg, S., McShane, M., Zabludowski, M.,
Beale, S. and Pfeifer, C.
Ontological
Semantic text processing in the biomedical
domain. Working Paper #03-05, Institute for
Language and Information Technologies,
University of Maryland Baltimore County.
2005
354
Descargar