búsqueda de patrones en bases de datos de electrocardiogramas

Anuncio
Congr. int. ing. electrón. mem. Electro 2011, vol.33, pp. 1-5 Chihuahua, Chih. Mexico
http://depi.itchihuahua.edu.mx/display/memorias_electro/MemoriaElectro2011.zip
ISSN 1405-2172
BÚSQUEDA DE PATRONES EN BASES DE DATOS DE
ELECTROCARDIOGRAMAS: UN ANÁLISIS COMPARATIVO
Lara Dévora Sandra Luz, Vega López Inés Fernando
Universidad Autónoma de Sinaloa
Facultad de Informática Culiacán
Josefa Ortíz de Domínguez s/n Ciudad Universitaria, Culiacán, Sinaloa
Tel.: (667) 716-1361 y Tel.: 715-6481
[email protected], [email protected]
RESUMEN
La gran capacidad de almacenamiento y poder de
procesamiento en los sistemas de cómputo actuales
permiten almacenar grandes cantidades de nuevos tipos de
datos, cuyo análisis resulta crítico en una amplia variedad
de aplicaciones científicas y de ingeniería. De particular
interés, resultan las bases de datos que se generan a partir
de señales digitales de electrocardiografía. Esta situación
nos presenta con el reto de desarrollar modelos de cómputo
que permitan su estructuración, almacenamiento y
organización para que operaciones de búsqueda puedan
realizarse de manera eficiente. En este trabajo presentamos
una evaluación experimental de las técnicas que pueden
dar un soporte eficiente a la búsqueda de patrones de
interés en bases de datos de electrocardiogramas. Nuestros
resultados muestran que técnicas basadas en la
segmentación temporal de la señal permiten un
almacenamiento estructurado de los datos mientras que, al
mismo tiempo, observan altos indicadores de eficiencia en
la búsqueda de patrones.
expertos del dominio en el proceso de extracción de
conocimiento de los datos, es decir, en la detección de
patrones de comportamiento en las señales biomédicas que
permitan explicar los fenómenos bajo estudio.
Desarrollar modelos computacionales que den soporte al
análisis eficiente de señales biomédicas es un problema
complejo no solo por el gran tamaño de las bases de datos
involucradas sino porque el orden y la validez temporal de
cada registro deben ser tomados en cuenta. El análisis de
este tipo de datos tiene implicaciones tecnológicas y
sociales de suma importancia. Por ejemplo, la
Organización Mundial de la Salud reconoce que las
enfermedades cardiovasculares son la principal causa de
muerte a nivel mundial [1].
Las señales biomédicas son series de tiempo donde se
mide periódicamente una variable de interés sobre el
comportamiento fisiológico de un paciente. Por ejemplo, la
actividad eléctrica del corazón (electrocardiogramas). Una
serie de tiempo es una secuencia de números reales que
representan la medición de un evento a lo largo del tiempo.
Para estructurar bases de datos de series de tiempo, los
esfuerzos de investigación se han enfocado a desarrollar
técnicas para reducir el tamaño de la representación de una
serie de tiempo y, al mismo tiempo, tratar de preservar la
mayoría de las características distintivas del objeto
original. A este proceso se le conoce como
caracterización o extracción del vector característico. Este
proceso de extracción puede verse también como un
proceso de compresión donde existe pérdida de
información. Las técnicas de caracterización de series de
tiempo más destacadas y que constituyen el estado del arte
pueden ser clasificadas como: a) transformaciones del
espacio tiempo/frecuencia (DFT y DWT), b) técnicas
basadas en segmentación (PAA [2] y APCA [3]) y c)
técnicas basadas en la cuantificación (Clipped [4]) o
técnicas híbridas (SAX [5]).
1. INTRODUCCION
La gran capacidad de almacenamiento y poder de
procesamiento en los sistemas de cómputo actuales nos
permiten considerar almacenar grandes cantidades de
nuevos tipos de datos, cuyo análisis resulta crítico en una
amplia variedad de aplicaciones científicas y de ingeniería.
En particular, la gran acumulación de datos clínicos en
bases de datos médicas nos presenta con el reto de
desarrollar modelos de cómputo que permitan su
estructuración, almacenamiento y organización para que
operaciones de búsqueda puedan realizarse de manera
eficiente.1Estas operaciones se vuelven el eje central en el
desarrollo de técnicas de minería de datos que asistan a los
El presente trabajo fue financiado en parte por la
Universidad Autónoma de Sinaloa a través de su Programa
de Fomento y Apoyo a Proyectos de Investigación,
proyecto 2008/181, por la Secretaría de Economía a través
del proyecto PROSOFT 2007/1253 y por el Consejo
Nacional de Ciencia y Tecnología, proyecto 106098.
1
Congr. int. ing. electrón. mem. Electro 2011, vol.33, pp. 1-5 Chihuahua, Chih. Mexico
http://depi.itchihuahua.edu.mx/display/memorias_electro/MemoriaElectro2011.zip
ISSN 1405-2172
Es necesario hacer notar que el impacto que las técnicas de
caracterización tienen en la efectividad de la búsqueda de
patrones en bases de datos de series de tiempo es altamente
dependiente de las características particulares del conjunto
de datos a analizar [6]. Esta situación motiva nuestro
trabajo, cuyo objetivo y principal contribución es comparar
de manera exhaustiva las técnicas de caracterización de
series de tiempo y determinar cual o cuales de ellas pueden
dar un soporte eficiente a la búsqueda de patrones de
interés en bases de datos de electrocardiogramas.
vectores característicos de dos patrones, pueda estimar su
distancia Euclidea. Para todas las técnicas de
caracterización utilizadas en este trabajo es posible definir
una función que sub estime la distancia Euclidea de dos
patrones a partir de sus vectores característicos. Es decir,
dados dos patrones, X1 y X2, y sus vectores característicos
x1 y x2, es posible definir DLB(x1, x2), tal que DLB(x1, x2) ≤
DE(X1, X2), donde DE(X1, X2) es la distancia Euclidea entre
los patrones X1 y X2. Gracias a esta característica, el
algoritmo de búsqueda puede detectar patrones semejantes
utilizando solamente sus vectores característicos. Sin
embargo, al subestimar la distancia real, el uso de vectores
característicos puede incluir falsos positivos en el proceso
de búsqueda, mismos que deberán ser filtrados en una
etapa posterior.
2. METODOLOGIA
En la comparación de las técnicas de caracterización de
series de tiempo aplicadas a electrocardiogramas para la
búsqueda eficiente de patrones en bases de datos,
establecimos el siguiente diseño experimental.
La eficiencia del algoritmo de búsqueda depende entonces
de la cantidad de falsos positivos que deban ser filtrados.
Idealmente, una técnica de caracterización que proporcione
una función de distancia tal que la diferencia entre DLB(x1,
x2) y DE(X1, X2) tienda a cero, produciría cero falsos
positivos y tendría una eficiencia óptima.
En primera instancia, una señal biomédica, en este caso un
electrocardiograma, es tratada como una serie de tiempo.
Definimos el término patrón de interés como el primer
motif en una serie de tiempo. El primer motif es aquella
subsecuencia del electrocardiograma cuya semejanza con
su vecino más cercano es mayor a la semejanza que
observa cualquier otra subsecuencia en el mismo
electrocardiograma con su vecino más cercano [7]. En la
literatura se ha reportado que la técnica de los vecinos más
cercanos es difícil de mejorar en problemas de
clasificación de series de tiempo [8].
Para evaluar la efectividad de las diversas técnicas de
caracterización aplicadas a la búsqueda de patrones en
bases de datos de electrocardiogramas, hemos
seleccionado el índice TLB (Tightness of Lower Bounds,
por sus siglas en inglés), propuesto por Trajcevski el at.
[9]. El índice TLB se calcula como el cociente de la
distancia aproximada entre patrones calculada a partir de
sus vectores característicos y la distancia Euclidea real, de
acuerdo a la siguiente expresión.
Para establecer la cercanía o semejanza entre patrones, en
este trabajo se utiliza la distancia Euclidea, de manera que
dos patrones son semejantes en la medida que la distancia
Euclidea entre ellos se reduce. Sean A y B dos patrones
(subsecuencias) de electrocardiograma, ambos de longitud
N, la distancia Euclidea entre ellos se define de acuerdo
con la siguiente expresión.
DE(A,B) =
N
2
∑ (A − B )
i
i
i =1
,
TLB =
D L B ( x1 , x 2 )
,
DE ( X 1, X 2 )
(2)
donde, X1 y X2, son dos patrones en la base de datos y x1 y
x2, son sus vectores característicos, respectivamente.
(1)
Así, se espera que una técnica de caracterización permita
búsquedas eficientes cuando su valor TLB tienda a 1. Lo
cual significa que la distancia Euclidea real y la distancia
aproximada son casi iguales y, por lo tanto, se produciría
un número reducido de falsos positivos en el proceso de
búsqueda, haciéndolo más eficiente. Por otro lado, una
mala técnica de caracterización tendrá valores TLB
cercanos a 0, significando que la diferencia entre la
distancia Euclidea real y la aproximada es máxima y que
por lo tanto se generará un alto número de falsos positivos
en el proceso de búsqueda, con el consecuente aumento en
el tiempo dedicado al proceso de filtrado.
donde Ai es el i-esimo elemento del patrón A.
El algoritmo de búsqueda de patrones utilizado en este
trabajo recibe como entrada una versión caracterizada de
los electrocardiogramas que constituyen el conjunto de
datos de prueba. El utilizar la versión caracterizada
proporciona estructura a la base de datos y reduce
significativamente la cantidad de datos que el algoritmo de
búsqueda debe leer, incrementando así su eficiencia. Esta
es una técnica probada en bases de datos de series de
tiempo [6] y que por lo tanto resulta directamente
aplicable a bases de datos de electrocardiogramas.
En nuestros experimentos, la variable a evaluar es el índice
TLB de cada técnica de caracterización como una medida
Para medir la semejanza entre patrones en este escenario se
debe utilizar una función de distancia que, a partir de los
2
Congr. int. ing. electrón. mem. Electro 2011, vol.33, pp. 1-5 Chihuahua, Chih. Mexico
http://depi.itchihuahua.edu.mx/display/memorias_electro/MemoriaElectro2011.zip
ISSN 1405-2172
de su eficiencia en la búsqueda de patrones en bases de
datos de electrocardiogramas.
Como se mencionó en la sección anterior, caracterizar una
serie de tiempo es un tipo de compresión con pérdida. Para
evaluar cómo la pérdida de información influye en la
eficiencia con la que se puede realizar la búsqueda de
patrones, decidimos utilizar vectores característicos de
diversos tamaños (a mayor tamaño, menor la pérdida de
información). En los experimentos se incluyen
comparaciones con vectores característicos de de 8, 16 y
32 dimensiones. Para el caso de las técnicas basadas en
cuantificación, donde no necesariamente existe variación
en la dimensionalidad de los vectores, lo que hacemos es
Búsqueda de Patrones de Longitud 256 en la Base
de Datos de Pruebas de Compresión.
Búsqueda de Patrones de Longitud 128 en la Base de
Datos de Arritmias.
Búsqueda de Patrones de Longitud 256 en la Base
de Datos QT.
Búsqueda de Patrones de Longitud 512 en la Base de
Datos de Frecuencia Cardiaca.
Fig. 1. Índice TLB para la Búsqueda de motifs de diferentes longitudes en Bases de Datos de Electrocardiogramas a partir de
Vectores Característicos. Sobre el eje X, se muestran resultados para Vectores Característicos de 8, 16 y 32 dimensiones.
generar una representación cuyo espacio de
almacenamiento sea equivalente al espacio requerido
por vectores con las dimensiones definidas
anteriormente. En el caso de Clipped, el tamaño de la
representación es siempre (n ÷ 8) bytes, donde n es la
longitud del patrón de búsqueda. Para el caso de SAX,
decidimos utilizar siempre 256 símbolos y modificar
solamente el número de segmentos de la
representación.
debemos tener en cuenta que la búsqueda de motifs
puede generar coincidencias triviales si el proceso
incluye pares de sub-secuencias con una separación
temporal mínima [7]. Por esta razón, en nuestros
experimentos, el algoritmo de búsqueda de motifs
considera solamente pares de patrones con una
separación de al menos 32 posiciones en el tiempo,
respectivamente.
En este trabajo se utilizarón registros de
electrocardiogramas obtenidos de una de las
principales fuentes de señales electrocardiográficas a
nivel mundial del Instituto Tecnológico de
Massachusetts (MIT) y disponible a través de Internet
Además de controlar el tamaño del vector
característico, en nuestros experimentos modificamos
el tamaño de patrón a buscar, utilizando patrones de
longitudes de 128, 256 y 512 valores. Finalmente
3
Congr. int. ing. electrón. mem. Electro 2011, vol.33, pp. 1-5 Chihuahua, Chih. Mexico
http://depi.itchihuahua.edu.mx/display/memorias_electro/MemoriaElectro2011.zip
ISSN 1405-2172
QT (c), y frecuencia cardiaca (d). Las barras en cada
gráfica ilustran el promedio del índice TLB obtenido
al buscar el primer motif en cada registro del conjunto
de datos utilizando vectores característicos de 8, 16 y
32 dimensiones para cada una de las técnicas en
evaluación. Además de modificar el tamaño de los
vectores característicos, se realizaron experimentos
con diferentes longitudes de patrones (128, 256 y 512
valores). En estas gráficas podemos observar que las
técnicas APCA (basada en segmentación) y DFT
(transformación del espacio de frecuencias) tienen
índices TLB más altos, lo que significa búsquedas más
eficientes. En nueve de los 12 experimentos aquí
presentados APCA resulta más eficiente (de acuerdo a
su índice TLB), mientras que en las 3 restantes la
mejor técnica es DFT. Curiosamente DFT es más
eficiente cuando la dimensionalidad del vector
característico es menor. APCA, por su parte resulta
más sensible a la dimensionalidad de su vector
característico, observándose una correlación positiva
entre eficiencia (índice TLB) y dimensionalidad. La
técnica CLIPPED no se muestra en la grafica por
arrojar valores por debajo de 0 en todos los casos.
en el sitio http://www.physionet.org. Esta base de
datos está diseñada especialmente para la evaluación
de algoritmos para el análisis automatizado de la
señales de electrocardiograma.
Base de datos de Pruebas de Compresión. Esta base
de
datos
contiene
168
electrocardiogramas
muestreados a 250 Hz, cada registro cuenta con 2
señales y una resolución de 12 bits, requiriendo con un
espacio de almacenamiento de 15 K. La base de datos
tiene un tamaño total de 2.5 MB.
Base de datos de Arritmia. Esta base de datos
contiene 48 registros de electrocardiogramas
muestreados a 360 Hz, cada registro cuenta con 2
señales y una resolución de 11 bits, requiriendo de un
espacio de almacenamiento de 1.95 MB. La base de
datos tiene un tamaño total de 89.5 MB de espacio de
almacenamiento.
Base de datos QT. Esta base de datos contiene 105
registros de electrocardiogramas muestreados a 250
Hz. Cada registro cuenta con 2 señales y una
resolución de 12 bits, requiriendo de un espacio de
almacenamiento de 0.66 MB. La base de datos tiene
un tamaño total de 69.2 MB de espacio de
almacenamiento.
Base de datos Frecuencia Cardiaca. Esta base de
datos contiene 7 registros de electrocardiogramas
muestreados a 128 Hz. Cada registro cuenta con 2
señales y una resolución de 12 bits, requiriendo de un
espacio de almacenamiento que varía desde 2.1 MB
hasta 5.2 MB. La base de datos tiene un tamaño total
de 23.3 MB de espacio de almacenamiento.
4. CONCLUSIÓN
En este trabajo presentamos una evaluación
experimental de las técnicas de caracterización que
constituyen el estado del arte para el almacenamiento
estructurado y búsqueda de patrones sobre series de
tiempo. Medimos el desempeño de estas técnicas sobre
diversas bases de datos de electrocardiogramas
tomando como indicador de su eficiencia el índice
TLB. En los experimentos, se modificaron tanto la
longitud de los patrones de búsqueda como la
dimensionalidad de los vectores característicos,
cubriendo así un amplio rango de escenarios. En
nuestros experimentos, observamos que una técnica
basada en segmentación adaptativa (APCA) promete
buenos resultados, aunque hay evidencia de una
correlación positiva entre eficiencia y tamaño del
vector característico. Esto amerita la realización de
futuros experimentos que evalúen la relación costo
beneficio entre la dimensionalidad del vector
característico y la ganancia/pérdida de eficiencia en la
búsqueda de patrones en bases de datos de
electrocardiogramas. Resulta interesante también que
en tres de los cuatro conjuntos de datos utilizados en
los experimentos, los índices de TLB son
relativamente bajos (menos de 0.5). En trabajos
futuros abordaremos este punto para determinar si el
valor nominal del índice TLB tiene o no un impacto
significativo en el tiempo de ejecución del algoritmo
de búsqueda.
3. RESULTADOS
En los experimentos, se evaluaron exhaustivamente las
diferentes técnicas de caracterización midiendo la
eficiencia de las búsquedas de patrones de interés en
ECG. En los datos experimentales además de tomar
patrones de diferente longitud, también se tomaron
base de datos con diferente frecuencia de muestreo en
donde se observaron cambios en los resultados de TLB
dependiendo de la longitud del patrón. Las Bases de
Datos utilizadas cuentan con 2 señales cada una, de las
cuales solo se utilizó la primera señal ya que se
realizaron algunos experimentos con la segunda señal
mostrando resultados coincidentes con la primera
señal.
En la Figura 1 se muestran los resultados de los
experimentos de búsqueda de patrones sobre las base
de datos de pruebas de compresión (a), Arritmia (b),
4
Congr. int. ing. electrón. mem. Electro 2011, vol.33, pp. 1-5 Chihuahua, Chih. Mexico
http://depi.itchihuahua.edu.mx/display/memorias_electro/MemoriaElectro2011.zip
ISSN 1405-2172
5. RECONOCIMIENTOS
Los autores desean agradecer a Gerardo Beltrán,
Daniel López y Armando Beltrán, por su apoyo en la
fase experimental del trabajo aquí presentado.
6. BIBLIOGRAFÍA
[1] Rodríguez, L. A. Análisis Comparativo de
Diferentes
Algoritmos
de
Compresión
de
Electrocardiogramas Mediante la Calidad en la
Medición de sus Intervalos Característicos. Tesis de
Maestría, Universidad Autónoma de Sinaloa,
Culiacán, Sin., México, 2008.
[2] Keogh, E., Chakrabarti, K., Pazzani, M. &
Mehrotra, Dimensionality reduction for fast similarity
search in large time series databases, VLDB Journal
of Knowledge and Information Systems, 2000.
Volume 3, Issue 3, pp 263-286.
[3] Keogh, Eamonn, Kaushik Chakrabarti, Sharad
Mehrotra, and Michael Pazzani, The Locally Adaptive
Dimensionality Reduction for Indexing Large Time
Series Databases. In Proceedings of the ACMSIGMOD Conference, pages 151—162, Santa
Barbara, CA, May 2001.
[4] Bagnall, A. J., Ratanamahata, C., Keogh, E.,
Lonardi, S. and Janacek, G.J., A Bit level
representation for time series data mining with shape
based similarity, Data Mining and Knowledge
Discovery, (DMKD) Journal, Springer Netherlands,
Volume 13, Number 1, Jul. 2006, pp. 11-40.
[5] Lin, J., Keogh, E., Wei, L. and Lonardi, S.
Experiencing SAX: a novel symbolic representation
of time series. Data Mining Knowledge Discovery.
15(2): 107-144, 2007.
[6] Vega, Inés F. Summarizing Time-Evolving
Data. PhD thesis, University of Arizona, Tucson, May
2004.
[7] Mueen, A.; Keogh, E.; Zhu, Q.; Cash, S. &
Westover, B., Exact Discovery of Time Series Motifs,
in Proceedings of SIAM International Conference on
Data Mining 2009, pp. 473-484.
[8] Ye, L. and E. Keogh. Time Series Shapelets: A
New Primitive for Data Mining. In Proceedings of the
ACM SIGKDD International Conference. Pages 947–
955. Paris, France. 2009.
[9] H. Ding, G. Trajcevski, P. Scheuermann, X.
Wang and E. Keogh, Querying and Mining of Time
Series Data: Experimental Comparison of
Representations and Distance Measures, PVLDB
1(2): 1542-1552 (2008).
5
Descargar