Congreso Internacional de Investigación Tijuana. Revista Aristas: Investigación Básica y Aplicada. ISSN 2007-9478, Vol. 4, Núm. 7. Año 2015. INVESTIGACIONES ACTUALES RELACIONADAS AL RECONOCIMIENTO DE PATRONES Resumen— Actualmente el Reconocimiento de Patrones y Aprendizaje Automático se ha afianzado como un área de la inteligencia artificial que busca adquirir e identificar objetos (patrones), representarlos, clasificarlos y posteriormente evaluarlos creando así un sistema de aprendizaje automático. El presente artículo pretende mostrar las nuevas tendencias del reconocimiento de patrones y aprendizaje automático para solucionar problemas reales, tales como, reconocimiento de rostros, reconocimiento de movimiento de objetos y colores para robots autónomos, en la alimentación para diferenciar alimentos en mal estado con los que se pueden todavía comer, etc. Con la intención de conocer los avances de investigación en reconocimiento de patrones que actualmente se estudian. Palabras claves— Reconocimiento de patrones, aprendizaje automático, aprendizaje supervisado, aprendizaje no supervisado. Juan Alberto Antonio Velázquez Tecnológico de Estudios Superiores de Jocotitlán Carretera Toluca-Atlacomulco KM. 44.8 Ejido de San Juan y San Agustín Jocotitlán, [email protected] Alejo Eleuterio Roberto Tecnológico de Estudios Superiores de Jocotitlán Carretera Toluca-Atlacomulco KM. 44.8 Ejido de San Juan y San Agustín Jocotitlán, [email protected] López González Erika Tecnológico de Estudios Superiores de Jocotitlán Carretera Toluca-Atlacomulco KM. 44.8 Ejido de San Juan y San Agustín Jocotitlán, [email protected] Gil Antonio Leopoldo (Tecnológico de Estudios Superiores de Jocotitlán Carretera Toluca-Atlacomulco KM. 44.8 Ejido de San Juan y San Agustín Jocotitlán, [email protected] Rosa María Valdovinos Rosas Universidad Autónoma del Estado de México, Facultad de Ingeniería Cerro de Coatepec [email protected] 1. INTRODUCCIÓN El reconocimiento de Patrones es una ciencia que desciende de la rama de la inteligencia artificial que se encarga de la descripción y clasificación (reconocimiento) de objetos, personas, representaciones de todo lo que interactúa con el ser humano y que al final se puede representar computacionalmente. Por ejemplo con la ayuda del reconocimiento de patrones hoy en día se puede dar un diagnóstico más acertado para encontrar espectros que diferencien individuos sanos a individuos que están enfermos de enfermedades renales crónicas [1]. El reconocimiento de la voz y sonidos se ha empleado en la terapia del lenguaje en niños con problemas psicomotores [2]. Con la ayuda del reconocimiento de patrones y con la ayuda de los síntomas en un paciente se puede determinar si contiene la bacteria gonococcus o la bacteria Neisseria gonorrea causantes de la gonorrea [3]. Por otro lado otros investigadores que estudian el área de robótica con visión artificial han utilizado el reconocimiento de imágenes y con la ayuda del reconocimiento de patrones manipular un robot programado en un circuito FPGA y que fuera capaz de reconocer objetos de colores utilizando una cámara [4]. Otras áreas en las cuales se aplica el Reconocimiento de patrones es el procesamiento de imágenes satelitales, reconocimientos de rostros, control de robots, reconocimiento de caracteres escritos, sistemas de reconocimiento de voz, desarrollo de diarios, lectura de direcciones postales, [5] etc. Se deduce por problemas de Reconocimiento de Patrones a todos aquellos relacionados con la clasificación de objetos y fenómenos que tienen factores que inciden en los mismos. Existen varios enfoques en el reconocimiento automático de patrones. Los más utilizados son: Los que se basan en la teoría de probabilidad y estadística, los que utilizan funciones discriminantes, los que se basan en la neurocomputación y los que trabajan con algoritmos de 18 al 20 de febrero 2015. Facultad de Ciencias Químicas e Ingeniería. UABC. Copyright 2015. Tijuana, Baja California, México. 114 Congreso Internacional de Investigación Tijuana. Revista Aristas: Investigación Básica y Aplicada. búsqueda de optimización basados en heurística entre otros [5]. 1.1 Características generales Enfoque Estadístico. Una de las primeras herramientas utilizadas en la solución de Reconocimiento de Patrones es la Estadística; utiliza el Análisis Discriminante, la Teoría de Probabilidad y el Análisis de Agrupamientos (Cúmulus, clúster) [6]. El enfoque estadístico es el más simple de todos los enfoques y consiste en representar cada patrón mediante un vector resultante del muestreo y cuantificación de las señales externas y cada clase por uno o varios patrones modelo. Ha sido aplicado en muchos problemas, en particular cuando se relaciona con imágenes y señales. Los estudios apropiados de variables, la variabilidad de los patrones de una clase, las medidas de semejanza entre patrones, así como la relación entre patrones y clases y caracterizan a este enfoque son los siguientes: Existen dos diferentes formas de reconocimiento estadístico que son [5]: El reconocimiento paramétrico y el reconocimiento no paramétrico. Entre tanto que, el reconocimiento paramétrico trabaja por medio de métodos estadísticos como la Teoría de Decisión de Bayes para calcular la probabilidad a priori de las clases. El Reconocimiento no paramétrico dispone de un conjunto de patrones que se representan en forma de vector y utiliza funciones discriminantes donde se establecen regiones en un universo de estudio donde se encuentran las clases a las que contienen a los patrones y para determinar a la clase que pertenece un patrón nuevo necesita la información de éste que se proporciona por los patrones de entrenamiento [7]. 1.2 Enfoque sintáctico estructural Este enfoque se deriva de la Teoría de los lenguajes formales y su origen está relacionado con el reconocimiento de imágenes y señales. Por ejemplo, si existe una señal electrocardiográfica ésta se puede descomponer en partes. Este tipo de reconocimiento busca las relaciones estructurales que guardan los objetos de estudio, es decir busca la cantidad de información que un objeto x tiene sobre un objeto y, y el metalenguaje con el que puede ser capaz de describirse, utilizando descriptores sintácticos con la ayuda de la teoría de lenguajes formales [2]. En otras palabras, el propósito es encontrar la gramática cuyo lenguaje estaría formado sólo por señales que estarían estrechamente vinculadas unas con otras y aquellas señales que no tuvieran que ver con las primeras, responderían a gramáticas diferentes, por lo que pertenecerían a otro lenguaje. 1.3 Redes neuronales artificiales ISSN 2007-9478, Vol. 4, Núm. 7. Año 2015. Este tipo de enfoque utiliza una estructura formada por varios nodos (neuronas) que se interconectan entre sí mediante pesos y que se concentran en diferentes capas (de entrada, oculta por lo general). Esta estructura es entrenada con los patrones disponibles, de tal manera que al finalizar el entrenamiento, la red neuronal tenga la capacidad de etiquetar nuevos patrones de forma eficiente y en poco tiempo. Es una herramienta que debido a su alto poder de clasificación y resolución de problemas del tipo no lineal se utiliza hoy en día para la solución de problemas de reconocimiento de patrones aunque puede tener algunos inconvenientes como el desconocimiento a priori de la estructura de capas y el número de nodos necesarios para cada problema, contar con un aprendizaje excesivamente costoso y tener problemas de caer en mínimos locales durante su entrenamiento [6]. 1.4 Enfoque de reconocimiento lógico combinatorio de patrones Este enfoque trabaja en la imagen del modelado de un problema y debe ser lo más parecido a la realidad del mismo, sin hacer suposiciones que carezcan de fundamento. Las ideas centrales consisten también en suponer que los objetos se describen por medio de una combinación de rasgos numéricos y no numéricos, y los distintos valores pueden ser procesados por funciones numéricas [8]. Utiliza un fundamento teórico-matemático basándose en la lógica matemática, la teoría de testores, la teoría clásica de conjuntos, la teoría de los subconjuntos difusos, la teoría combinatoria y las matemáticas discretas en general. 2. CLASIFICACIÓN EN EL RECONOCIMIENTO DE PATRONES. En la clasificación de patrones se dice que dado un universo de estudio dividido en clases y una muestra de objetos ya clasificados, se tienen que buscar mecanismos que permitan clasificar nuevos objetos (patrones) [6]. El proceso de clasificación consiste en incorporar información sobre un patrón o conjunto de entrenamiento en el diseño del clasificador que incluye un tipo de aprendizaje [5]. Existen 3 tipos de aprendizaje que son: el aprendizaje supervisado, no supervisado y semisupervisado o parcialmente supervisado. En el primero se cuenta con un conjunto de patrones pero también llamado muestra de entrenamiento o conjunto de datos del entrenamiento (CE). Un experto humano es quien realiza la clasificación según sus propiedades [9]; para resolver problemas de clasificación supervisada se han perfeccionado gran cantidad de métodos como: clasificadores Bayesianos, arboles de decisión, redes neuronales, máquinas de vectores de soporte, vecinos más cercanos, algoritmos de votación, clasificadores 18 al 20 de febrero 2015. Facultad de Ciencias Químicas e Ingeniería. UABC. Copyright 2015. Tijuana, Baja California, México. 115 Congreso Internacional de Investigación Tijuana. Revista Aristas: Investigación Básica y Aplicada. basados en patrones, etc. [6]. En el aprendizaje no supervisado también conocido como agrupamiento [6], que utiliza algoritmos conocidos como auto-asociativos y no requiere de un etiquetado previo en los patrones de entrada y utiliza técnicas de clustering [5]. El aprendizaje no paramétrico (por agrupamiento) [10], se divide en tres métodos de agrupamiento, jerárquicos, particionales y basados en densidad [7]: En el agrupamiento jerárquico el conjunto de datos se va particionando por niveles, en cada nivel se unen o se dividen en dos grupos del nivel anterior, puede ser aglomerativo o divisivo y éstos en su resultado gráfico es mediante dendrogramas. En las aglomerativas: Se utiliza un acercamiento ascendente: cada observación comienza en su propio grupo, y los pares de grupos son mezclados mientras uno sube en la jerarquía. En las divisivas: Es un acercamiento descendente: todas las observaciones comienzan en un grupo y generalmente se realizan divisiones mientras uno baja en la jerarquía. En el agrupamiento del tipo particional son los que al inicio realizan una división de los datos en grupos y posteriormente mueven los objetos de un grupo a otro según se optimice alguna función objetivo. Los algoritmos basados en densidad enfocan el problema de la división de un tipo de datos en grupos y se toma en cuenta la distribución de densidad de los puntos, de modo que los grupos que se forman tienen una alta densidad de puntos en su interior mientras que entre ellos aparecen zonas de baja densidad. Agrupamiento Restringido: El número de grupos está previamente definido. Esto resulta útil cuando se tiene conocimiento acerca de la estructura del universo de estudio, pero se desconoce la clasificación de la muestra. Agrupamientos Libres: El número de grupos es desconocido. Éste es el caso más general, sólo cuenta con una muestra de objetos, pero se desconoce la forma en que se estructura el universo. Y en el aprendizaje parcialmente supervisado se combinan las 2 técnicas anteriores, pero se parte de un conjunto pequeño de patrones de entrenamiento que va creciendo a medida que hay nuevos patrones sin etiquetar [11] y su objetivo es aumentar el conocimiento durante la fase de clasificación, facilitando así la simplificación de obtención de patrones etiquetados. 3. Aplicaciones actuales y Reconocimiento de Patrones Tendencias en el La historia de reconocimiento automatizado de patrones se remonta a la llegada de la informática moderna a través de mucho tiempo desde la aparición de la ISSN 2007-9478, Vol. 4, Núm. 7. Año 2015. inteligencia artificial como resultado de la psicología cognitiva y la lógica matemática donde se incluyen solución a diagnósticos de fallas, robótica y suministro de asesoría experta; el concepto de inteligencia artificial se debe a John McCarthy quien en 1956 al discutir la posibilidad de construir máquinas que hicieran operaciones inteligentes acuño este término [12]. El reconocimiento de patrones como una rama que desciende de la inteligencia artificial fue reconocido por el investigador King-Sun Fu en el año de 1971 [13]. Desde entonces, la popularidad y el crecimiento del campo de reconocimiento de patrones han sido alimentados por el mismo significado científico y su aplicabilidad al mundo real. El reconocimiento de patrones es un área de investigación muy desafiante y multidisciplinaria, atrae a investigadores y profesionales de muchos campos, incluyendo la informática, la inteligencia, la estática, la ingeniería y las ciencias médicas computacionales, por mencionar sólo unos pocos. A continuación se muestran algunas de las aplicaciones y tendencias de Reconocimiento de Patrones hoy en día. 3.1 Reconocimiento de Escritura cursiva (manuscrito) El reconocimiento de escritura cursiva o escritura a mano, es una tarea difícil para muchas aplicaciones del mundo real, tales como la autenticación de documentos, procesamiento de formularios, el reconocimiento de la dirección postal, máquinas de lectura para ciegos, reconocimiento cheque bancario, y la interpretación de documentos históricos. Al respecto Verma y Blumenstein [14], revisan las técnicas de reconocimiento de escritura existentes y presenta el estado actual de la técnica en el reconocimiento de escritura a mano cursiva. El artículo también presenta estrategias de segmentación y un enfoque basado en segmentación para el reconocimiento automático de la escritura cursiva sin restricciones. También se ofrece una revisión exhaustiva de la literatura con las técnicas básicas y avanzadas y resultados de investigación en reconocimiento de escritura para estudiantes de posgrado, así como para investigadores avanzados. En este trabajo se utilizó la técnica de clasificación por aprendizaje supervisado donde el autor propone en primer lugar, se propone un método de segmentación basado en curvas de nivel, el cual soluciona el primer problema con la forma delineada del caracter. Un enfoque de extracción del contorno para el caracter entre dos puntos de segmentación es significativa y útil. La extracción de contorno es muy importante porque una extracción basada en una disección vertical puede cortar un carácter a la mitad o de manera inadecuada. El 18 al 20 de febrero 2015. Facultad de Ciencias Químicas e Ingeniería. UABC. Copyright 2015. Tijuana, Baja California, México. 116 Congreso Internacional de Investigación Tijuana. Revista Aristas: Investigación Básica y Aplicada. contorno entre dos puntos consecutivos de segmentación se extrae utilizando prioridad y enfoque basado en la segmentación forzada, que se basa en la evaluación de precedencia y la regla para forzar un punto de segmentación para el reconocimiento del carácter. Por último, se propone un enfoque de validación neuronal para eliminar puntos de segmentación incorrectos. Este enfoque se basa en tres clasificadores que utilizan perceptrones multicapa (MPLs) y máquinas de vectores soporte (SVMs). El éxito de las técnicas basadas en redes neuronales para el reconocimiento numérico y de caracteres ha dado la motivación para su uso. El reciente éxito en la aplicación de SVMs en el área de reconocimiento de escritura, justifica su uso junto con técnicas basadas en redes neuronales, en algunos casos superando a las redes neuronales. El primer clasificador es entrenado con información de trazos izquierdos y derecho del caracter. El segundo clasificador es entrenado con información descriptiva desde el punto mismo de segmentación. El tercer clasificador es entrenado con los caracteres adyacentes o compatibles. Los núcleos finales se fusionan, y se eliminan los puntos de segmentación dando por resultado un carácter reconocible. ISSN 2007-9478, Vol. 4, Núm. 7. Año 2015. donde se define la diferencia entre dos imágenes de caracteres escritos a mano [15] Fuente: Elaboración propia Las técnicas EM para el reconocimiento de escritura a mano en base a la formulación 2DW que en el cual uno de los 2 factores determinan las características de EM. Se estudian 2 tipos de clases paramétrico 2DW basado en EM y no paramétrico 2DW basado en EM. Figura 2. Técnicas de clasificación paramétricas y no paramétricas EM empleadas en el reconocimiento de caracteres manuscritos [15] 3.2 Técnicas de juego con elasticidad, para el reconocimiento de caracteres manuscritos. El investigador Seiichi Uchida de Kyushu University de Japón comenta en su artículo [15], un estudio de las características de la adaptación elástica (elastic matching, EM), que son técnicas empleadas en el reconocimiento de caracteres manuscritos. EM a menudo se denomina plantilla deformable, adaptación flexible, o comparación de plantillas no lineal, y se define como el problema de optimización de la deformación de dos dimensiones (2DW) que especifica la correspondencia píxel a píxel entre dos patrones de imagen de carácter sometidos a elasticidad. La distancia de los puntos en un patrón deformable es evaluada bajo la optimización 2DW y es invariante al rango de deformaciones geométricas de cada caracter. Por lo tanto, mediante el uso de la distancia EM como una función discriminante, los sistemas de reconocimiento robustos a las deformaciones de caracteres escritos a mano se pueden optimizar más fácilmente. Fuente: Elaboración propia La mayoría de las técnicas de EM paramétricos para el reconocimiento de caracteres manuscritos suponen que las deformaciones geométricas de caracteres escritos a mano pueden ser descritos por algunas transformaciones lineales. Wakahara y sus colegas han propuesto técnicas afines a 2DW basados en transformación, llamados GAT (transformación global afín) [16], para el reconocimiento de caracteres manuscritos. En GAT, 2DW se describe por una sola transformación afín global. El problema de optimización de GAT es aproximado como un problema lineal mediante la fijación de los parámetros en la parte no lineal de una función objetivo a valores constantes. Este problema puede ser resuelto aproximada por el método de iteración sucesiva. En la clase no paramétrico 2DW, cada variable controla un pixel correspondiente y representa una medida que controla a 2DW indirectamente. Para clasificar los puntos mediante la función no paramétrico y continua 2DW, a En el trabajo realizado por estos investigadores, se menudo se asume como una función continua y derivable proponen técnicas de EM donde se clasifican según el que optimiza por alguna estrategia iterativa donde 2DW tipo de 2DW y las propiedades de cada clase a utilizar. se actualiza. En este sentido la clase no paramétrica y Varios temas alrededor de EM, como la categoría de continua 2DW es similar en paramétrico 2DW. Usando la dependiente deformación de los caracteres escritos a relajación determinística se puede ver como una mano que también se discuten. estrategia de optimización iterativo para problemas variacionales. Cuando estrategia de optimización para los Figura 1. Reconocimiento de 2 patrones A y B donde se aplica problemas variacionales. Al optimizar con clases no la asignación de deformación 2D-2D y posteriormente 2DW 18 al 20 de febrero 2015. Facultad de Ciencias Químicas e Ingeniería. UABC. Copyright 2015. Tijuana, Baja California, México. 117 Congreso Internacional de Investigación Tijuana. Revista Aristas: Investigación Básica y Aplicada. paramétricas y continua 2DW por relajación determinista y usando la ecuación de Euler-Lagrange se obtiene un sistema de ecuaciones no lineales para resolver el problema elástico de los caracteres. ISSN 2007-9478, Vol. 4, Núm. 7. Año 2015. Figura 3. Imagen del cerebro para su estudio en la localización de patologías [19]. 3.2 Reconocimiento de Rostros El reconocimiento automático facial, sirve hoy en día para identificar a los individuos mediante la explotación de las características distintivas de la superficie del rostro humano, las curvas de la cuenca de los ojos, la nariz y la barbilla, donde el tejido y el hueso son más evidentes y que no lo hacen cambiar con el tiempo [17]. Este reconocimiento se hace con la ayuda de una computadoras que identifica automáticamente a una persona mediante una imagen digital mediante el análisis de las características faciales de una persona extraídas de la imagen o de un fotograma de video y mediante técnicas como el procesado de imágenes, reconocimiento de patrones, visión por computadoras y redes neuronales puede ayudar a reconocer un rostro. En el trabajo realizado por Tin Shan, Abbas Bigdeli, Brian Lovell y Shaokang Chen [18] se habla de la problemática existente en la adquisición de imágenes, tales como el ángulo de la iluminación, la expresión facial y el pose de la cabeza. La precisión de adquisición puede caer a 10% o incluso a menos en condiciones de adquisición de imágenes no controladas. Tales condiciones se encuentran a menudo en la captura automática de la identidad para la vigilancia de vídeo y para la identificación de rostros por medio de una cámara del teléfono. De hecho, el teléfono móvil es una ayuda ya que su cámara con alta resolución para el reconocimiento avanzado de patrones en rostros. Muchos teléfonos modernos pueden reconocer de forma fiable aún en ambientes ruidosos. El rendimiento de los sistemas de reconocimiento facial se reduce significativamente cuando grandes variaciones pose están presentes. Se han propuesto muchos enfoques para compensar el cambio pose. Wiskott, Fellous, Kuiger, y von der Malsburg extienden el DLA (arquitectura de enlace dinámico) reconocedor de caras basado para hacer frente a grandes variaciones de pose. La imagen de la cara está representada por un gráfico de marcado llamado el gráfico racimo de rostros (FBG, face bunch graph) que consiste en N nodos conectados a E bordes. Los nodos están localizados como puntos de referencia faciales xn, n=1,…,N, que son llamados puntos faciales. En la Biomedicina se ha logrado avances como lo mencionado por [19], en clasificación de imágenes en la medicina. Es una de las metodologías más utilizadas en el campo de la biomedicina para detección de anomalías en la anatomía del cuerpo humano. La clasificación de la imagen cerebral pertenece a una amplia categoría de reconocimiento de patrones en las que diferentes imágenes anormales se agrupan en incomparables categorías basadas en la naturaleza de estas patologías que dañan al cerebro. Fuente: Elaboración propia Hoy en día, estas técnicas son automatizadas. La aplicación de técnicas de inteligencia Artificial (AI) para el reconocimiento de patrones es explorado en el contexto de Resonancia Magnética (RM) anormal para la clasificación de imágenes del cerebro con patologías extrañas. La teoría ilustra la categoría detrás de las técnicas de IA y su efectividad para su aplicación práctica en la clasificación de imágenes médicas. Aparte de las técnicas de IA como las redes neuronales, la teoría fuzzy y algoritmos genéticos también se tratan en esta investigación. En la robótica y con la ayuda del reconocimiento de imágenes donde se aborda el problema del reconocimiento de señales generadas por una persona para guiar a un robot. En el trabajo realizado por [20], donde el método propuesto se basa en el análisis de color de vídeo de una persona que se mueve por señas. El análisis consiste en la segmentación de medio cuerpo, el brazo y la ubicación del antebrazo con ayuda del reconocimiento de las posiciones del brazo y el antebrazo. El método propuesto fue probado experimentalmente en vídeos con diferentes colores de destino y las condiciones de iluminación. Las evaluaciones cuantitativas indican 97.76% de la detección correcta de los signos en 1.807 frames de video. 3.3 Reconocimiento de patrones en la alimentación. En otro caso como la alimentación se dice en [21] que la caracterización y clasificación de las tortillas de maíz resulta ser un proceso extremadamente delicado y difícil cuando se trata de regulaciones para importación/exportación y certificación de procesos de producción. En este trabajo se presenta un método para la extracción de características no invasivas, basado en imagen digital y una serie de procedimientos para caracterizar diferentes cualidades de las tortillas de maíz para su posterior clasificación. La novedad en todo este método radica en el extremadamente y reducido conjunto de características necesarias para la caracterización; tomando en cuenta sólo las características geométricas y de color. No obstante, en este conjunto de características puede evaluar diversos elementos de calidad como la homogeneidad del proceso de horneado y otros por igual. Los resultados experimentales en un tamaño muestra de 600 tortillas muestran el método presentado en torno al 95% de efectividad en la calidad de las mismas. 18 al 20 de febrero 2015. Facultad de Ciencias Químicas e Ingeniería. UABC. Copyright 2015. Tijuana, Baja California, México. 118 Congreso Internacional de Investigación Tijuana. Revista Aristas: Investigación Básica y Aplicada. 3.4 Reconocimiento de patrones en la seguridad informática. En lo que se refiere a la seguridad informática se menciona en el trabajo [22], donde se captura el tráfico de red y se ve que cada vez es mayor los incidentes por ataques, debido al uso creciente de dispositivos inteligentes e Internet. Importe de los estudios de detección de intrusos se centró en la selección o reducción característica porque algunas de las características son irrelevantes y redundantes, que resulta largo proceso de detección y degrada el rendimiento de un sistema de detección de intrusiones (IDS). El propósito de este estudio es identificar importantes características de los tipos de intrusiones seleccionados en la construcción del IDS que es computacionalmente eficiente y efectiva. Para ello se evalúa el funcionamiento de los métodos de selección de características estándar; CFS (basada en la selección de correlación característica), IG (Ganancia de Información) y GR (Radio de ganancia). En este artículo, se propone un nuevo método de selección de características utilizando la función de la media del total en cada clase. Se aplica un algoritmo clasificador basado en árboles, para evaluar el método de reducción de características. Se compara sus resultados del método propuesto con otros métodos mencionados en otros trabajos. ISSN 2007-9478, Vol. 4, Núm. 7. Año 2015. repositorio UCI Machine Learning [25]. Los datos de la UCSD establecen correspondiente a una versión reducida de una base de datos utilizada en el Concurso de Data Mining en el 2007 organizado por la Universidad de California en San Diego y por la Fair Isaac Corporation. El conjunto de datos de Irán [26], trata de una modificación de una base de datos de clientes corporativos de un pequeño banco privado en Irán. Cada juego original, excepto la base de datos de Irán debido a su extremadamente alta relación de desequilibrio (iRatio = 19), ha sido alterada por azar bajo-muestreo de la clase minoritaria de morosos, lo que produce seis conjuntos de datos con diferentes desequilibrio ratios, iRatio = {4, 6, 8, 10, 12, 14}. Por lo tanto, hemos obtenido un total de 25 conjuntos de datos. La Tabla 1 resume las principales características de los conjuntos de datos, incluidas la relación de desequilibrio, es decir, el número de ejemplos no predeterminados dividido por el número de los casos predeterminados. Tabla 1. Algunas características de los conjuntos de datos utilizados en los experimentos. Tener en cuenta que estaban representadas todas las variables de entrada como valores numéricos 3.5 Reconocimiento de patrones en la predicción de riesgos en los costos de crédito. En el trabajo realizado por R. Alejo, A.I. Marqués, J.S. Sánchez y J.A. Antonio-Velázquez [24], donde se menciona que las aplicaciones prácticas de la evaluación del riesgo de crédito donde a menudo el tomar decisiones incorrectas en el ámbito financiero debido a la falta de datos suficientes por defecto. La difícil cuestión de la distribución de clases muy desigual entre clientes morosos y clientes no morosos se toma e a través de una solución algorítmica basada en el aprendizaje del costo razonable. El estudio se llevó a cabo en la red neuronal perceptrón multicapa, quién pertenece a la solución de aprendizaje supervisado, popular a través de tres funciones de costos de clasificación errónea, que se incorporan en el proceso de formación. Los resultados experimentales sobre los conjuntos de datos de crédito de la vida real muestran que las funciones de costos propuestos para formar una red de este tipo neural son muy eficaces para mejorar la predicción de los ejemplos que pertenecen a la (minoritaria) clase moroso. Fuente: Elaboración propia 3.5.1 Protocolo Experimental Fue adoptado un método de validación cruzada de 5 veces para estimar el rendimiento: Se han tomado los conjuntos de datos para probar el rendimiento de las estrategias investigadas en el trabajo. Los conjuntos de datos australianos, alemanes y japoneses utilizados son de la base de datos del Cada conjunto de datos se ha dividido en cinco bloques estratificados o pliegues de tamaño N / 5 (donde n denota el número total de ejemplos en el conjunto de datos). Posteriormente, cinco iteraciones de la formación y la 18 al 20 de febrero 2015. Facultad de Ciencias Químicas e Ingeniería. UABC. Copyright 2015. Tijuana, Baja California, México. 119 Congreso Internacional de Investigación Tijuana. Revista Aristas: Investigación Básica y Aplicada. prueba se realiza de tal manera que en cada iteración un pliegue diferente de los datos se lleva a cabo de salida para la prueba mientras que los cuatro pliegues restantes se utilizan para la formación el clasificador. En consecuencia, los resultados corresponden a la media de los cinco atributos calculados. Los cuatro modelos MLP diferentes se han aplicado a los conjuntos de entrenamiento desequilibradas. Para cada MLP que consiste en una capa oculta con cuatro neuronas, la tasa de aprendizaje y el impulso se han fijado en 0,1 y 0,01, respectivamente, mientras que la interrupción criterio ha sido fijada a cualquiera de 25.000 épocas o MSE = 0,001. La mayoría de las aplicaciones de puntuación de crédito a menudo emplean la precisión de clasificación (ACC) y/o las tasas de error para estimar el rendimiento de los sistemas de aprendizaje. Sin embargo, evidencias empíricas y evidencias teóricas muestran que estas medidas son parciales con respecto a los datos de desequilibrio y las proporciones de las clasificaciones correctas e incorrectas. Para hacer frente a los problemas del desequilibrio de clases, el receptor de funcionamiento característico (ROC), se sugiere como una herramienta adecuada para la visualización y la selección de los clasificadores basados en hacer predicciones de riesgo de crédito precisas el equilibrio entre los beneficios (verdaderos positivos) y costos (falsos positivos). Una representación cuantitativa de una curva de ROC es el área debajo de ella (AUC). Por sólo una carrera de un clasificador, el AUC puede calcularse como AUC= (sensibilidad especificidad +) / 2, donde la sensibilidad es el porcentaje de malos ejemplos que se han predicho correctamente, mientras que la especificidad corresponde al porcentaje de buenos casos que se predijeron son buenos. 4. CONCLUSIONES En los trabajos anteriormente citados nos ayudan a comprender como el reconocimiento de patrones es una ciencia computacional que ayuda a solucionar problemáticas mediante el estudio de las clases representadas en diversas formas pero categorizadas en su estudio en 2 tipos de aprendizaje que son el aprendizaje supervisado y no supervisado que ayudan a los investigadores hoy en día a utilizar cada vez más técnicas de reconocimiento de patrones en especial en lo relacionado con el aprendizaje no supervisado en el cual un experto humano no está al pendiente de los resultados obtenidos. Se espera que en un futuro no muy lejano se tengan noticias sobre nuevas expectativas en lo relacionado al reconocimiento de patrones. ISSN 2007-9478, Vol. 4, Núm. 7. Año 2015. 5. REFERENCIAS [1] L. A. Gonzalez-Naranjo, G. M. Vasquez y L. A. Ramírez Gómez, «End-Stage Renal Disease in Systemic Lupus Erythematosus,» Revista Colombiana de Reumatología, vol. 16, nº 2, pp. 75-81, 2009. [2] J. A. Franco Galván, «RECONOCIMIENTO DE VOZ PARA NIÑOS CON DISCAPACIDAD EN EL HABLA,» Universidad de las Americas de Puebla, Puebla, Puebla, 2004. [3] Umoh, U.A, A. A. Umoh, G. G. James, U. U. Oton, J. J. Udoudo y E. B., «Design of Pattern Recognition System for the Diagnosis of Gonorrhea Disease,» International Journal of Scientific & Technologic Research, vol. 1, pp. 5-8, 2012. [4] J. Pérez León, J. H. Sossa Azuela y L. A. Villa Vargas, Tele-manipulación de objetos mediante un robot Khepera II, Vols. 1 de 2c-30, México D.F.: CIC IPN, 2009, pp. 30-35. [5] R. M. Valdovinos Rosas, Técnicas de Submuestreo, Toma de Decisiones y Análisis de Diversidad en Aprendizaje Supervisado con Sistemas Múltiples de Clasificación., Castelló de la Plana, España: Universitat Jaume I, 2006. [6] J. A. Carrasco Ochoa y J. F. Martínez Trinidad, «Theory of Pattern Recognition,» Komputer Sapiens, vol. II, nº III, pp. 5-9, 2011. [7] D. Pascual, F. Pla y S. Sánchez, «Algoritmos de agrupamiento,» Universida Jaume I, pp. 163-175, 2007. [8] X. Olvera-Rocha y M. Ortiz-Posadas, «Diagnóstico Diferencial de Glaucoma Mediante el Enfoque Lógico-Combinatorio de Reconocimiento de Patrones,» Serie Verde, pp. 674-677, 2011. [9] C. Soto y C. Jiménez, «APRENDIZAJE SUPERVISADO PARA LA DISCRIMINACIÓN Y,» scielo, vol. 1, pp. 26-33, 2011. [10] D. E. Pinto Avendaño, P. Rosso y H. Jiménez Salazar, Tratamiento de Textos Cortos: Agrupamiento y Evaluaci´on, Valencia, España: Universidad Politécnica de Valencia, 2007. [11] O. Chapelle, B. Schölkopf y A. Zien, SemiSupervised Learning, Massachusetts: The MIT Press, 2006. [12] A. Pazos , N. Pedreira, J. R. Rabuñal y J. Pereira, «Inteligencia Artificial y Computación Avanzada,» Inteligencia Artificial y Computación Avanzada, vol. 1, nº 13, pp. 9-34, 2007. [13] P. S.P Wang, Pattern Recognition, Machine Intelligence and Biometrics, Beijing, China: Higher Eduacation Press, Beijing, 2011. [14] B. Verma y M. Blumenstein, «Fusion of Segmentation Strategies for Off-Line Cursive Handwriting Recognition,» Pattern Recognition Technologies and Applications: Recent Advances, vol. 1, nº 1, pp. 1-16, 2008. [15] S. Uchida, «Elastic Matching Techniques for Handwritten Character Recognition,» Pattern 18 al 20 de febrero 2015. Facultad de Ciencias Químicas e Ingeniería. UABC. Copyright 2015. Tijuana, Baja California, México. 120 Congreso Internacional de Investigación Tijuana. Revista Aristas: Investigación Básica y Aplicada. Recognition Technologies and Applications Recent Advances, vol. 1, nº 1, pp. 17-38, 2008. [16] S. Makino y T. Wakahara, «Affine-Invariant Recognition of Face Images Using GAT Correlation,» in Proceedings of International Workshop on Advanced Technology 2006, vol. 1, pp. 279-284, 2006. [17] M. Williams, «Technology Review,» Better Face-Recognition Software, 30 Mayo 2007. [En línea]. Available: http://www.technologyreview.com/news/407976/betterface-recognition-software/. [Último acceso: 23 09 2014]. [18] T. Shan, A. Bigdel y S. Chen, «Robust Face Recognition Technique for a Real-Time Embedded Face Recognition System,» Pattern Recognition Technologies and Applications: Recent Advances, vol. 1, nº 1, pp. 188211, 2008. [19] D. J. Hemanth y J. Anitha, «Tecniques for Pattern Recognition in Biomedical Image Processing Applications (IRMA),» Information Resources Management Association, vol. 2, nº 1, pp. 711-716, 2013. [20] L. Saldivar-Piñon, M. I. Chacon-Murguia, R. Sandoval-Rodriguez y J. Vega-Pineda, «Human Sign Recognition for Robot Manipulation,» Pattern Recognition, Lecture Notes in Computer Science 4th Mexican Conference, MCPR 2012, vol. 7329, pp. 107116, 2012. [21] M. A. Moreno-Armendariz, S. Godoy-Calderón, H. Calvo y O. M. Rojas-Padilla, «Assessing the Quality Level of Corn Tortillas with Inductive Characterization and Digital Image Analysis,» Pattern Recognition, Lecture Notes in Computer Science 4th Mexican Conference, MCPR 2013, vol. 7914, pp. 40-53, 2013. [22] C. Hee-su, J. Byung-oh, C. Sang-Hyun y P. Twae-kyung, «Feature Selection for Intrusion Detection using NSL-KDD,» Recent Advances in Computer Science, pp. 184-187, 2013. [23] J. A. C. Ochoa, «Reconocimiento de Patrones,» 2004. [En línea]. Available: http://ccc.inaoep.mx/~ariel/recpat.pdf. [Último acceso: 26 Agosto 2014]. [24] R. Alejo, V. García, A. I. Marqués, S. J. S. y A.-V. J.A, «Making Accurate Credit Risk Predictions with Cost-Sensitive MLP Neural Networks,» Management ISSN 2007-9478, Vol. 4, Núm. 7. Año 2015. Intelligent Systems, Advances in Intelligent Systems and Computing, vol. 220, pp. 1-8, 2013. [25] Frank, A., Asunción, A.: UCI Machine learning repository (2010), http://archive.ics.uci.edu/ml. [26] Sabzevari, H., Soleymani, M., Noorbakhsh, E.: A comparison between statical and datamining methods for credit scoring in case of limited avalable data. In: Proc. the 3rd CRC Credit Scoring Conference (2007). ______________________________________________ Juan Alberto Antonio Velázquez: Ingeniero en sistemas Computacionales con estudios de Maestría en Tecnologías de Cómputo en el Centro de Investigación y Desarrollo Tecnológico en Cómputo del Instituto Politécnico Nacional. Actualmente se desarrolla en el área de investigación en el Tecnológico de Estudios Superiores de Jocotitlán en la línea de investigación de Aplicaciones de minería de datos y reconocimiento de patrones para el apoyo en la toma de decisiones y aplicaciones de redes y sistemas distribuidos además de colaborar en el Centro Universitario de Ixtlahuaca. Roberto Alejo Eleuterio: Ingeniero en sistemas computacionales, con estudios de maestría en ciencias de la ingeniería en el Instituto Tecnológico de Toluca, además de doctorarse en la universidad Jaume I en Castello de la Plana España: Actualmente desarrolla trabajos de investigación en minería de datos y reconocimiento de patrones en el Tecnológico de Estudios Superiores de Jocotitlán en la línea de investigación de Aplicaciones de minería de datos y reconocimiento de patrones para el apoyo en la toma de decisiones y aplicaciones de redes y sistemas distribuidos además de colaborar en el Centro Universitario de Ixtlahuaca como profesor de posgrado en el programa de maestría en TIC’s. Candidato a SNI Conacyt. Erika López González: Ingeniera en Computación con estudios de Maestría en Tecnologías de Cómputo en el Centro de Investigación y Desarrollo Tecnológico en Cómputo del Instituto Politécnico Nacional. Actualmente se desarrolla en el área de investigación en el Tecnológico de Estudios Superiores de Jocotitlán en la línea de investigación de Aplicaciones de minería de datos y reconocimiento de patrones para el apoyo en la toma de decisiones y aplicaciones de redes y sistemas distribuidos. Leopoldo Gil Antonio: Licenciado en electrónica con estudios de Maestría en Tecnologías de Cómputo en el Centro de Investigación y Desarrollo Tecnológico en Cómputo del Instituto Politécnico Nacional. Actualmente se desarrolla en el área de investigación en el Tecnológico de Estudios Superiores de Jocotitlán en la línea de investigación de Aplicaciones de minería de datos y reconocimiento de patrones para el apoyo en la toma de decisiones y aplicaciones de redes y sistemas distribuidos. Rosa María Valdovinos Rosas: Doctora en la universidad Jaume I en Castello de la Plana España. Profesor-Investigador de Tiempo Completo en la Facultad de Ingeniería de la UAEM en la División de Computación 18 al 20 de febrero 2015. Facultad de Ciencias Químicas e Ingeniería. UABC. Copyright 2015. Tijuana, Baja California, México. 121