Reconocimiento de voz usando Redes Neuronales

See discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/260266806 Reconocimiento de Voz usando Redes Neuronales Conference Paper · January 2013 CITATIONS READS 0 1,305 4 authors, including: Yolanda Pérez-Pimentel Ismael Osuna Galán Universidad Politécnica de Chiapas Universidad Politécnica de Chiapas 9 PUBLICATIONS 7 CITATIONS 13 PUBLICATIONS 8 CITATIONS SEE PROFILE SEE PROFILE Juan Villegas Cortez Metropolitan Autonomous University 57 PUBLICATIONS 81 CITATIONS SEE PROFILE Some of the authors of this publication are also working on these related projects: Evolutionary Associative Memories applied to EEG signal features View project Análisis de ataques de red del tipo DHCP spoofing, TCP SYN flood y paquetes malformados. View project All content following this page was uploaded by Juan Villegas Cortez on 20 February 2014. The user has requested enhancement of the downloaded file. Avances de Ingeniería Electrónica 2013 Compiladores Miguel Magos Rivera Pablo Velarde Alvarado Ramiro Velázquez Guerrero Universidad Autónoma Metropolitana Azcapotzalco Universidad Autónoma de Nayarit Avances de Ingeniería Electrónica 2013 Miguel Magos Rivera Universidad Autónoma Metropolitana Azcapotzalco Departamento de Electrónica Pablo Velarde Alvarado Universidad Autónoma de Nayarit Área de Ciencias Básicas e Ingenierías Ramiro Velázquez Guerrero Universidad Panamericana-Bonaterra Facultad de Ingeniería Universidad Autónoma Metropolitana Unidad Azcapotzalco Av. San Pablo 180 Col. Reynosa Tamaulipas Del Azcapotzalco C.P. 02200 México D.F. Rector Dr. Romualdo López Zárate Secretario Mtro. Abelardo González Aragón Director CBI Dr. Luis Enrique Noreña Franco Universidad Autónoma de Nayarit Ciudad de la Cultura "Amado Nervo" C.P. 63155 Tepic, Nayarit. Rector C. P. Juan López Salazar Secretario M. en C. Jorge Ignacio Peña González Coordinador Académico de Área de CBI Dr. Enrique Montoya Suarez © Universidad Autónoma Metropolitana Unidad Azcapotzalco Universidad Autónoma de Nayarit Miguel Magos Rivera Pablo Velarde Alvarado Ramiro Velázquez Guerrero Avances de Ingeniería Electrónica 2013 ISBN: 978-607-28-0126-4 México 2013 Comité Técnico Dra. Abascal Mena Ma. Del Rocío UAM-Cuajimalpa Dr. Adam Medina Manuel CENIDET-Cuernavaca M.C. Alfaro Ruiz Victor M. Universidad de Costa Rica Dr. Arechiga Martínez René New Mexico Tech Electrical Engineering Department. USA. Dr. Astorga Zaragoza Carlos CENIDET-Cuernavaca Dr. Aviles Cruz Carlos UAM-Azcapotzalco Dr. Cabello Pardos Enrique Universidad Rey Juan Carlos de España Dr. Carlos Hernández Salvador Cinvestav Saltillo M.C. Cardona Román Diana Marcela Universidad Nacional de Colombia Dr. Claudio Sánchez Abraham CENIDET-Cuernavaca Dr. Delgado Mata Carlos Universidad Panamericana-Aguascalientes M. Sc. Esquit Hernández Carlos A. Universidad del Valle de Guatemala Dr. Fallad Chavez Jalil Centro Universitario de la Costa Sur M.C. Fuentes Covarrubias Gerardo Universidad de Colima M.C. Fuentes Covarrubias Ricardo Universidad de Colima Dr. Incera Diéguez José Alberto D. Instituto Tecnológico Autónomo de México Dr. Jiménez Alaniz Juan Ramón UAM-Iztapalapa Dr. López Ornelas Erick UAM-Cuajimalpa Dr. López Pacheco Dino Martin Université de Nice, Francia Dr. Magos Rivera Miguel UAM-Azcapotzalco Dr. Martin de Diego Isaac Universidad Rey Juan Carlos de España Dr. Ramírez Treviño Alberto Instituto Tecnológico Superior de Cajeme Dr. Reyes Reyes Juan Instituto Tecnológico de Zacatepec Dr. Rodríguez Segura Elías José J. Instituto Tecnológico de Celaya Dra. Ruiz Beltrán Elvia Instituto Tecnológico de Aguascalientes M. C. Santiago Espinosa Felipe Universidad Tecnológica de la Mixteca Dr. Varona Salazar Jorge SnowBush México Dr. Vázquez Álvarez Iván UAM-Azcapotzalco Dr. Velázquez Guerrero Ramiro Universidad Panamericana-Aguascalientes INTRODUCCION El desarrollo de la industria electrónica mundial en la última década ha sido impresionante, actualmente los dispositivos y equipos electrónicos abarcan prácticamente todas las áreas del quehacer humano. Asimismo, las áreas de investigación y de aplicación se expanden cada día dando paso a nuevas ramas afines a la electrónica y sus aplicaciones como son: robótica, biónica, telemática, nano-electrónica y domótica, por mencionar solo algunas. Los resultados, tanto de los trabajos de investigación, como de las aplicaciones tecnológicas, que realizan los grupos de profesores y de estudiantes de las instituciones educativas como de investigación son numerosos y variados. En este libro se presenta una muestra de trabajos seleccionados de entre más de 100 recibidos para su evaluación. El Comité Técnico formado por cerca de 30 investigadores de más de 20 instituciones de educación superior e institutos de investigación todo el país, se dio a la tarea de elegir aquellos trabajos que, por su nivel y temática, ofrecen un panorama de la investigación que se realiza en el país en temas afines a la Ingeniería Electrónica. Título de Trabajo Página Implementación de un Algoritmo de Colonia de Hormigas para la Asignación de Sensores para Evento-Detectabilidad 1 Substituciones SPR0 en el Rechazo de Perturbaciones 11 Implementación de Esquemas de Control de un Circuito RLC 17 Selección Automática de Paquetes en un Centro de Distribución de una Mensajería 27 Construcción de Observadores de Secuencias para Sistemas de Eventos Discretos 37 Simulación en Simulink-PSIM del Control por Pasividad de un Motor Síncrono de Imanes Permanentes (PMSM) 44 Human Health and the Electromagnetic Fields Radiated by the RFID System 53 Nueva Técnica de Arbitraje para Redes de Comunicación Basadas en la Línea Eléctrica como Medio de Comunicación 59 Antena Plana con Sustrato Textil para la Banda ISM de 2.4GHz 68 Mediciones del Espectro de Potencia en la Banda de 2.4 GHz en la Universidad Autónoma de San Luis Potosí, México 76 Diseño y Medición de una Antena de Banda Ancha para Recepción Satelital en Banda L 86 Protocols and Localization of a X-bee Base Network 95 Análisis de Capacidad de Comunicaciones Vehiculares 102 Canal e Interferencia en Femtoceldas Aplicada a Medición Interferométrica-Espectral de la Birrefringencia en Fibras de Cristal Fotónico 107 Implementación de Simulaciones Usando Easy Java Simulations para Laboratorio Virtual 113 El Desarrollo de Competencias Genéricas en los IAS Mediante Nexus 122 Analysis of Networks Described by Equations of Fractional Order 128 CD-CA Converter Based on the Quasi ‘Z’ Source Inverter 136 SOGI-FLL Normalizado en FPGA para la Sincronización con la Red Eléctrica en Energías Renovables 144 Time Constant and Transitory Response of a RC Circuit described for Fractional Differential Equations 155 Sistema de Control de Lámparas LED con Fines de Uso Eficiente y Ahorro de la Energía Eléctrica 162 Análisis de Convertidores CD/CD Bidireccionales para la Compensación de Disturbios en Microredes de CD Empleando Supercapacitores 173 Medidor Inalámbrico de Potencia y Consumo de Energía con Aplicación en Diagnósticos Energéticos 181 Estudio de Sistemas de Iluminación Basado en HBLED con Alimentación Fotovoltaica 191 Título de Trabajo Página Convertidor CA/CD Bidireccional para Aplicación en Microredes de CD: Estado del Arte 200 Inversor de Pequeña Escala para Aplicación en Cargadores de Celulares 210 Módulo Regulador de Voltaje con Control PID y Distribución de Corriente Digital 218 Diseño, Implementación y Automatización de un Invernadero Solar 227 Construcción y Evaluación de un Bioretroalimentador de Señal EMG de Uso Doméstico como Auxiliar en Terapia Física 234 Criterios de Optimización Geométrica para una Termocupla Peltier 242 Un Análisis Numérico-Experimental de la Transferencia del Calor Mediante Imágenes Termográficas 249 Propuesta de un Sistema de Medición de Nivel de Combustible para Vehículo Baja SAE 255 Aplicación de Técnicas Analógicas y Digitales para Minimización de Ruido de 60 Hz en Señales Electrocardiográficas: un Caso Práctico 264 Desarrollo de una Interfaz Gráfica para un Módulo de Control de Nivel 274 Detección de Polarización Circular Usando Retardadores de Fase para Aplicaciones de Radioastronomía 282 Fuente de Luz con Leds para Videoqueratómetro 292 Design of Pulse Oximeter Controlled by a Microcontroller 299 Prototipo de Oxímetro Basado en un Sistema de Acondicionamiento de Bajo Costo Arduino 305 Robot CNC Multiherramienta Controlado con un FPGA 312 Enriquecimiento de Señal de Activación de Frenos ABS para Automóviles 322 UAMIBOT: Un Robot Móvil Didáctico Multifunciones 331 Sistema para Controlar un Grado de Libertad de un Robot Articular Utilizando un Sistema Embebido Vía WiFi 339 Manipulador de 7 Grados de Libertad Controlado con Ondas Encefalográficas 349 Simulador de Enfermedades Visuales: Diseño y Evaluación 356 Implementación de un Sistema Difuso, en un Robot Seguidor de Línea, en Comunicación a la PC por Bluetooth 363 Reconocimiento de Voz usando Redes Neuronales para el Control de una Silla de Ruedas 371 Arquitectura Dual Core Empleando Microblaze para el Procesamiento de Imágenes de la Camara DVS12 379 Sistema de Freno ABS Mejorado con Modelo de Control Difuso y Visión 389 Título de Trabajo Página Juego de Aprendizaje de Física Utilizando Lógica Difusa en HTML5 396 Análisis de Señal Electroencefalográfica como Patrones a partir de Memorias Asociativas Evolutivas 403 Desarrollo de Secuencia de Comandos Inteligente para la Automatización de Pruebas de Software Utilizando Programación Descriptiva 412 Caracterización de las WLAN en el Centro de la Ciudad de Zacatecas 419 Conmutacion de Circuitos en FPGAs: Arquitectura de un Conmutador Ligero para Dispositivos Reconfigurables 429 Diseño e implementación de IPv6 en la Universidad Autónoma de Guerrero 438 Serializador de Objetos a XML en el Lenguaje de Programación Python 444 Modelado y Simulación Preliminar del Asentamiento Poblacional en una Entidad del Estado de México 452 Herramienta para Serializar Objetos C++ a XML 464 Aplicación Móvil para Proporcionar Información Sensible a la Ubicación (contexto) 474 Comparación de Desempeño en Distintos Escenarios de una Maqueta OpenFlow 480 Guía Móvil para Eventos de Puertas Abiertas UAM-I 488 Herramienta en Línea para Creación de Tiendas Virtuales 495 Proyecto Multiplataforma para Dispositivos Móviles y Smartphones “PickUP” 504 Programa para el Diseño de Interfaces Gráficos para Procesos Automatizados con PLC´s 513 Control de Cámara PTZ Mediante Protocolo PELCO-D en Hardware Reconfigurable 522 Sistema Embebido para Simular Redes de Petri Interpretadas 532 Estudio y Diseño de Controlador para Memoria SDRAM en FPGA 540 Diseño y Elaboración de una Tarjeta de Navegación Basada en GPS con Almacenamiento de Datos 548 CAN Embebido en Hardware Reconfigurable para Aplicaciones de Microredes Inteligentes de CD: Análisis Estado del Arte 556 Sistema de Visualización de Imágenes a 8 Colores Implementado en FPGA 563 Interface Gráfico para Procesos Automatizados con PLC´s 572 Diseño y Construcción de una Máquina Expendedora de Mensajes SMS 580 Reconocimiento de Voz usando Redes Neuronales para el Control de una Silla de Ruedas *Yolanda Pérez Pimentel, *Ismael Osuna Galán, *Rodolfo E. Ibarra Orozco, **Juan Villegas Cortez *Universidad Politécnica de Chiapas, Eduardo J. Selvas S/N, Tuxtla Gutiérrez, Chiapas,(961)6128404, [email protected], [email protected], [email protected]. **Universidad Autónoma Metropolitana, Azcapotzalco. Departamento de Electrónica. San Pablo Xalpa No. 180, Col. Reynosa Tamaulipas, CP 2200, México D.F., [email protected]. Resumen Recientemente los métodos de reconocimiento de voz han logrado resolver problemas usando técnicas cada vez más complejas. En el aspecto teórico, los diferentes criterios de aprendizaje discriminativo usando redes neuronales han sido introducidos para tener una visión que unifique los criterios en el reconocimiento de patrones asociados a la voz. En el campo práctico se han popularizado nuevas y cada vez más poderosas computadoras al alcance de la población en general, con lo que se puede realizar aplicaciones efectivas aplicadas al control de dispositivos. Sin embargo, el reconocimiento de voz presenta algunos desafíos aún no resueltos en su implementación en controladores en tiempo real con sistemas reconfigurables de entradas y salidas (Reconfigurable Inputs/Outputs o RIO por sus siglas en inglés). En este artículo se describe la aplicación del reconocimiento de voz en el control de una silla de ruedas, a la que se le proveerá de una interfaz electrónica y un controlador de automatización programable que permitan su desplazamiento utilizando comandos de vozbásicos. Palabras Clave: Análisis de voz, Análisis Multirresolución, Redes Neuronales, Wavelets. I. Introducción Con el nuevo milenio se han incorporado Sistemas de Reconocimiento de Voz (SRV) en los sistemas operativos de computadoras personales, teléfonos inteligentes (smartphones) y de dispositivos de entretenimiento, por mencionar algunos. Una de las técnicas para el análisis y reconocimiento de comandos de voz es el Análisis Multirresolución de Wavelets (MRA) [3]. En años recientes se han incorporado técnicas cada vez más complejas como lógica difusa, redes neuronales y Modelos Ocultos de Markov (HMM). La metodología básica para aplicar éstas técnicasconsiste en extraer sus características principales, usando para ello métodos multirresolución para representar una señal dinámica en el tiempo en términos de sus componentes principales con lo que se tiene unanálisis en tiempo real, por último, mediante una red neuronal se realiza la clasificación. Un sistema de tiempo real debe procesar la información y producir una respuesta en un plazo determinado, es decir, el funcionamiento de un sistema no sólo depende del resultado que devuelve la computadora, también depende del tiempo en que se produce ese resultado. Como una consecuencia, el tiempo del sistema debe ser medido usando la misma escala con que se mide el tiempo del ambiente controlado. Actualmente se cuenta con equipamiento para la implementación de prototipos en tiempo real como los PLC o FPGA. La implementación de un sistema de reconocimiento de voz usando MRA y redes neuronales en un FPGA es lo mostrado en el presente artículo. En la sección II se presenta el planteamiento del desarrollo de nuestra solución, en cinco diferentes etapas de la implementación con detalle, para en la sección III mostrar los resultados obtenidos, en la sección IV se brinda una discusión de éstos y, finalmente la sección V muestra las conclusiones. II. Desarrollo La propuesta de este trabajo consta de tres partes fundamentales: Reconocimiento de voz: Consistente en analizar una señal de voz, primero extrayendo características de ella y después aprenderla y reconocerla mediante una Red Neuronal con el algoritmo de aprendizaje Backpropagation. Se utiliza para la implementación la plataformaLabVIEW debido a la posibilidad que ofrece de ser embebido dentro de un PLC o FPGA de la empresa National Instruments o de terceros, en este caso una CompactRIO. Diseño del prototipo: Una silla de ruedas estándar modificada con motores eléctricos y operada con una tarjetaCompactRIONI 9074 en la cual se descargará el software. Integración Mecatrónica: La parte final del proyecto consiste en el diseño y construcción del prototipo. Una silla de ruedas con motores acoplados, baterías y tarjeta CompactRIO con el programa embebido para realizar el control mediante el reconocimiento de Voz. El esquema de manera general del proyecto se divide en cuatro etapas (ver Fig. 1), tal como se describe a continuación:(1) La voz es adquirida por medio de un micrófono a través de una entrada analógica del módulo NI 9234. (2) Esa señal adquirida es procesada por medio del programa embebido desarrollado en LabVIEW. (3) Después del procesamiento, se envía una señal de activación mediante un módulo NI9481 de salidas a relés. (4) Esta activación es la que controla los dos motores que se han incorporado a la silla de ruedas, y hacen que avance, se detenga, o gire hacia la izquierda o la derecha dependiendo del resultado del procesamiento. En las siguientes secciones se detallan estas etapas como módulos implementados: Reconocimiento de voz, Pre-tratamiento de la señal, Extracción de características y posteriormente el Entrenamiento de la red neuronal artificial. II.1 Reconocimiento de voz En la primera parte de la propuesta se diseñó un Programa de Reconocimiento de Voz mediante Análisis Multirresolución y Redes Neuronales. La metodologíautilizada se divide en dos etapas, aprendizaje y prueba (ver Fig. 2). Fig. 2. Metodología para el aprendizaje y la prueba. Adquisición de datos Fig. 1. Esquema general del proyecto. El primer paso es laadquisición de las señales de voz paraconstruir una base de datos que será usada tanto en la parte del entrenamiento como en las pruebas. Las muestras de audio se adquirieron mediante un micrófono incorporado en una diadema. Se tomaron 4000 muestras a una frecuencia de 10 KHz.Como la aplicación que se desea desarrollar requiere que pueda discriminar en ambientes de ruido no controlados, la adquisición de datos se realizó con un mínimo de control de ruido ambiental. La base de datos está conformada por 25 archivos de las palabras “Avanza”,“Para”, “Izquierda” y“Derecha” en idioma español, de un sólo hablante.De esos 25 archivos, 10 se utilizaron en la etapa de entrenamiento y 15 se reservaron para la etapa de prueba. Pre-tratamiento de la señal Después de la adquisición de datos se observa que cada muestra contiene datos que resultan inútiles, por lo cual el siguiente paso es la eliminación de tales segmentos, lo cual se lo logra tomando como referencia los niveles inicial y final de la muestra para obtener un promedio: 𝑣 = # ∑# |𝑥| (1) Fig. 3. Arriba, datoscompletos. Abajo, datos seleccionados. Seleccionados los datos útiles de cada muestra, se procede a la normalización de las muestras, ya que la amplitud de cada una difiere, y para obtener mejores resultados, es deseable que todas las muestras estén en la misma escala, de -1 a 1. Para ello, se utiliza la siguiente fórmula: donde: v es el valor que se desea eliminar 𝑀 #datos es el número de muestras que se están evaluando. 𝑢𝑚𝑏𝑟𝑎𝑙 = + 𝑛 (2) donde: ValI es el Valor de los primeros datos ValFes el Valor de los últimos datos n = 2000 datos inútiles. Aplicando (1) y (2) fue posible realizar la selección de datos para cada palabra, se graficaron las muestras completas y las muestras con datos seleccionados para la palabra “Avanza” (ver Fig. 3), con el fin de corroborar que la selección se realizó de manera correcta. = ( ) (3) donde, 𝑀 , es la muestra normalizada 𝑀, es la muestra que se desea normalizar 𝑂𝑓𝑓𝑠𝑒𝑡, Valor entre el valor deseado y el valor real 𝐸𝑠𝑐𝑎𝑙𝑎, La escala que debe aplicarse para obtenerse el valor deseado. Después de aplicar (3), se hicieron gráficas de las muestras normalizadas (ver Fig. 4) para hacer una comparación con las muestras en el estado anterior (ver Fig. 3) y verificar que se había obtenido la amplitud deseada. uniformes, y en escala de 2n, por lo que se ha tomado el menor valor que cubra ambas palabras, 212 = 4096. De ésta forma, las muestras quedan uniformes en tamaño. Extracción de características Fig. 4. Señal normalizada de la palabra avanza. Se busca realizar el reconocimiento de palabras sin segmentar las muestras. Dado que se trata de un sistema que requiere identificar pocas palabras, se da inicio utilizando toda la extensión de la palabra, que para la palabra “Avanza” es de 6500 muestras, mientras que “Para” tiene únicamente 4500 muestras. Sin embargo, se ha considerado que las muestras deben ser Entre las técnicasmás usadaspara extraer características están la Transformada Rápida de Fourier y la Transformada con Wavelets.En este trabajo se explora el uso de la Transformada con Wavelets debido a su efectividad para realizar el análisis de la señal tanto en el dominio de la frecuencia como del tiempo [7]. La implementaciónde la Transformada Wavelet Discreta (TWD), se realiza mediante la técnica de Análisis Multirresolución (MRA). Se ilustra la implementación de MRA con dos niveles de descomposición (ver Fig. 5). Fig. 5. Análisis Multirresolución. donde 𝑤[𝑛] = 𝑎𝑥 + 𝑏𝑥[𝑛 − 1] + 𝑐𝑥[𝑛 − 2] + 𝑑𝑥[𝑛 − 3] 𝑧[𝑛] = 𝑑𝑥 − 𝑐𝑥[𝑛 − 1] + 𝑏𝑥[𝑛 − 2] − 𝑎𝑥[𝑛 − 3] Para visualizar la energía correspondiente a cada palabra, en cada nivel de descomposición, se procedió a realizar un gráfico (ver Fig. 6). 𝑤 [𝑛] = 𝑤[𝑛], 𝑠𝑖 𝑛 𝑒𝑠 𝑝𝑎𝑟, 0 𝑒𝑛 𝑜𝑡𝑟𝑜 𝑐𝑎𝑠𝑜 𝑧 [𝑛] = 𝑧[𝑛], 𝑠𝑖 𝑛 𝑒𝑠 𝑝𝑎𝑟, 0 𝑒𝑛 𝑜𝑡𝑟𝑜 𝑐𝑎𝑠𝑜 Del Análisis Multirresolución se obtienen los coeficientes de cada nivel de descomposición calculado. Teniendo los coeficientes, se calcula la energía de cada nivel, por medio de la siguiente fórmula: 𝐸 = ∑ |𝑥 | (4) donde: k= cantidad de descomposición, elementos del nivel n = número de niveles de descomposición. de Fig. 6. Niveles de descomposición usando MRA. Como se puede observar los niveles 4, 5 y 6 de energía (ver Fig. 6), proveen una mayor información para la clasificación. Para corroborar lo anterior, se procede a graficar dichos nivelesde par en par. Se graficaron también los niveles 4 y 5 de las palabras “Avanza” y “Para” obtenidos por MRA (ver Fig. 7). Se probaron alternativamente, Estado Máximo de Energía de cada nivel (EME), Amplitud, RMS, Estado Mínimo de Energía (EmE), y se procedió a entrenar la Red Neuronal y a probarlos con el vector de pesos resultantes. El Estado Máximo de Energía fue el que ofreció mejores resultados, mejorando notablemente los resultados de la etapa de prueba. Los resultados de la prueba obtenidos al agregar ésta última característica se observan en la matriz de confusión (ver Tabla 2). Fig. 7. Energía correspondientes a los niveles 4 y 5. De la comparación de los niveles 4 y 5, y 5 y 6, se observa que en las 10 muestras reservadas para el entrenamiento, las clases son linealmente separables. Por lo que se proseguirá con la etapa de entrenamiento, utilizando los niveles 4, 5 y 6. Entrenamiento de la Red Neuronal Se procede al entrenamiento de la Red Neuronal utilizando un vector de entradas con tres características. Derivado del entrenamiento del Perceptrón, se obtiene un vector de pesos ajustados que se utilizan para la etapa de prueba. Se realizaron las pruebas con 15 muestras, los resultados se vaciaron en una matriz de confusión (ver Tabla 1). Avanza Para 8 7 Avanza 4 11 Para Avanza Para 10 5 Avanza 0 15 Para Tabla 2. Matriz de confusión,utilizando EME. De acuerdo a la matriz de confusión presentada, se tiene un 66.66 % de aciertos en la palabra “Avanza” y un 100% en la palabra “Para”, y aunque se ha mejorado notablemente la clasificación de la palabra “Para”, la palabra “Avanza” sigue con un bajo porcentaje de elementos correctamente clasificados. Para entender mejor el problema, se procedió a graficar las muestras utilizadas, (ver Fig. 8), lasgráficas corresponden a las 15 instancias, para las clases “Avanza” y “Para”, en los niveles 4 y 5 usados en la prueba. Tabla 1. Matriz de confusión, primera prueba. La matriz de confusión muestra que el nivel de clasificación es bastante bajo. Se tiene un 53.33% de aciertos al clasificar la palabra Avanza, y un 73.33% al clasificar la palabraPara. Lo anterior, hace pensar que deben agregarse más características al vector de entrada del Perceptrón, con el fin de proveer al Perceptrón de mayor información. Fig. 8. Energía correspondientes a los niveles 4 y 5. Se graficaron también los niveles 5 y 6, con la Energía Máxima del nivel, con los que se observaron resultados similares. Analizando la gráfica, (ver Fig. 8), se puede apreciar que las muestras reservadas para la prueba, no muestran la misma disposición espacial que las del entrenamiento, y algo que salta a la vista es que no pueden ser linealmente separables. Se observó lo mismo en las otras comparaciones. En vista de lo anterior, se deduce que se requiere la utilización de una Red Neuronal Multicapa, que permita realizar una mejor clasificación, no sólo de las dos clases propuestas, sino que se pretende incrementar el número de clases a cuatro por el momento, que serían: “Avanza”, “Para”, “Derecha” e “Izquierda”, [8]. Teniendo ya como meta la implementación de unaRed Neuronal Multicapa que clasifique las cuatro palabras propuestas, lo primero que se hace es graficar las instancias para ver su disposición espacial. Las 10 instancias de las palabras “Avanza”, “Para”, “Derecha”e“Izquierda”, también se graficaron (ver Fig. 9),y serán utilizadas en la parte del entrenamiento de la Red Neuronalcon el algoritmo de aprendizaje Backpropagation. PerceptronTester.vi RNPrincipal.vi El resto de ellos, aunque se encuentran anexos al proyecto son de menor jerarquía. A continuación se presentan los detalles operacionales de cada programa: SeleccionMuestra.vi.- Permite seleccionar las muestras útiles de cada archivo, guardándolos en un nuevo archivo con extensión *.tdms. Matriz Características.- Realiza el MRA, calcula el nivel de energía por nivel de cada muestra, selecciona el Estado Máximo de Energía de cada nivel, y guarda N muestras, que pueden ser de N muestras y N clases, en un solo archivo *.tdms. Adicionalmente, se guardó un archivo en *.lvm, el cual puede ser abierto con un block de notas y editado como archivo *.arff. PerceptronTrainer.vi.- Consiste en un Perceptrón simple que se entrena para clasificar dos clases diferentes. El programa se detiene después de piteraciones, las cuales corresponden al número de muestras a clasificar. PerceptrónTester.vi.- Es el mismo algoritmo del Perceptrón implementado, sólo que realiza una sola iteración para clasificar las N muestras que se le presenten, utilizando el vector de pesos ajustado durante el entrenamiento. RNPrincipal.vi.- Es el programa general que se ejecutará en la CompactRIO, y dónde se realizará todo el procesamiento en Tiempo Real y el control de la silla de ruedas. II.2Diseño del prototipo Fig. 9. Energía correspondientes a los niveles 4 y 5. Es importante hacer notar que LabVIEW no cuenta con un módulo de Redes Neuronales. Por lo que para tener código embebido en la CompactRIO se realizaron un total de 12 programas.Los más importantes son: SeleccionMuestra.vi MatrizCaracteristicas.vi PerceptronTrainer.vi Para reducir costos se decidió usar silla de ruedas estándar no eléctrica. Además se ha considerado que pueda mover al menos 120 kg de peso, en lo cual están incluidos, el mismo peso de la silla, la CompactRIO, motores, baterías y la persona que va a controlar la silla. De acuerdo a un análisis previo, se usarán dos motores de 12VCD que en conjunto proveen una potencia de 80 W, con el sistema de transmisión de movimiento serán capaces de mover el peso calculado a una velocidad razonable. El control es de lazo abierto y es realizada mediante una CompactRIO NI 9074, lo que permite que trabaje de forma autónoma. El sistema CompactRIO contiene dos módulos: i. ii. NI 9234 es un módulo de cuatro canales para adquisición de señal dinámica para realizar medidas de frecuencia de audio de alta precisión, desde sensores piezoeléctricos electrónicos integrados, proporciona rango dinámico de 102 dB e incorpora acondicionamiento de señales seleccionable por software para micrófonos. Los cuatro canales de entrada digitalizan señales simultáneamente a rangos de hasta 51.2 kHz por canal con filtros integrados anti-aliasing que ajustan automáticamente su rango de muestreo. NI 9481 es un módulo de cuatro salidas digitales. Cada canal proporciona acceso a un relé electromecánico para conectar señales hasta 60 VDC o 250 VAC a 2A y ofrece aislamiento entre canales de 250 Vrms y permite conexión directa a dispositivos como lo son motores DC. momento de clasificación, los resultados son bastante alentadores. Otra técnica que se desea explorar son los Modelos Ocultos de Markov, [4]. Además, se desea que el sistema funcione con múltiples hablantes y sea capaz de identificar correctamente los comandos aún en espacios ruidosos. IV. Discusión El trabajo presentado es la base de un sistema más complejo y robusto, que se propone ser un apoyo para las personas con discapacidad motora. Para ello se proponen ciertas mejoras: Aumentar el vocabulario que pueda reconocer el sistema añadiendo las palabras “Lento” y ”Rápido”, instrumentar sensores de proximidad, encoders y de inclinación, con el fin de que la silla responda no sólo ante los comandos de voz sino a otras variables del entorno. Por ejemplo, en una pendiente ascendente será necesario mantener las condiciones de velocidad y torque para responder a las mismas órdenes “Avanza” y “Para”. De esta forma se proporciona al usuario un mejor control sobre el movimiento de la silla de ruedas. II.3 Integración Mecatrónica Una vez que el programa y la silla fueron probados de manera independiente se procedió a integrar todos los componentes del sistema. Hubo inconvenientes menores al acoplar los motores debido a que la silla es estándar no eléctrica; se hizo un análisis estructural para que este acople se realizara con las modificaciones mínimas. Y por otro lado, la selección del micrófono adecuado para trabajar en ambientes sin control de ruido. III. Resultados Se logró un sistema básico implementado en LabVIEW y embebido en una CompactRIO para el reconocimiento de comandos de voz usando redes neuronales mediante el Análisis Multirresolución con Wavelets.A pesar de que no se ha logrado el 100% de certidumbre al V. Conclusiones La combinación del Análisis Multirresolución y las Redes Neuronales prometen excelentes resultados en la implementación de un sistema de reconocimiento de voz para pequeños vocabularios. No obstante, para hacer un sistema más robusto en todos los aspectos, será necesario utilizar algunas técnicas tanto en la extracción de características como en la clasificación. Considerando la factibilidad de la implementación que se ha demostrado hasta el momento, se busca que el sistema sea híbrido, y acepte comandos dictados de forma vocal y subvocal. Para lo último es necesario utilizar un Electro miógrafo para capturar las señales bioeléctricas de los músculos asociados al habla, con ello se reduciría enormemente el ruido ambiental que es introducido al momento de la adquisición de datos, [1, 2]. VI. Referencias VII. Autores [1] B. J.Betts, C. Jorgensen, “Small Vocabulary Recognition Using Surface Electromyography in an Accoustically Harsh Enviroment”. NASA/TM-2005213471. Nov 2005. [2] E. López Larraz, O. Martínez Moroz, “Diseño de un sistema de reconocimiento del habla mediante electromiografía”. Actas del XXVII Congreso Anual de la Sociedad Española de Ingeniería Biomédica. Año 2009. Págs. 601-604. [3] E. Pinto Moreno, M. J. Gómez García,Análisis y Evaluación de los niveles de energía obtenidos mediante WPT para defectología de Ejes. Universidad Carlos III de Madrid. Octubre 2012. M. I. D. S. Yolanda Pérez Pimentel obtuvo su título de Maestría en Ingeniería y Desarrollo de Puebla por el Colegio de Posgrado en Desarrollo de Software de Puebla. Obtuvo la Certificación como Desarrolladora Asociada en LabVIEW por National Instruments. Actualmente se encuentra realizando el Doctorado en Sistemas Computacionales en la Universidad del Sur en Chiapas. Su línea de investigación es en Redes Neuronales Aplicadas al Reconocimiento de Voz. Es Profesora-Investigadora en la Universidad Politécnica de Chiapas adscrita al área de Mecatrónica. [4] J. L. Oropeza Rodríguez, S. Suárez Guerra, “Algoritmos y Métodos para el Reconocimiento de Voz en Español mediante Sílabas”. Computación y Sistemas. Volumen 9. Año 2006. Págs. 270286. [5] J. Travis, J. Kring, LabVIEW for Everyone. 3a. Edición. Año 2007. Editorial Pearson Education, Inc. Crawfordsville, Indiana, pp. 981. [6] LabVIEW Real-Time Application Development Course Manual. National Instruments Corporation. México. Año 2007. [7] M. Weeks, Digital Signal Processing Using Matlab y Wavelets. 1a. Edición.Año 2007.EditorialInfinity Science Press. Hingham Massachusetts, pp. 449. [8] V. Kecman. Learning and Soft Computing. Support Vector machines, Neural Networks and Fuzzy Logic Models. 1a. Edición. Año 2001.EditorialThe MIT Press. Cambridge, London, England, pp. 541. View publication stats Dr. Ismael Osuna Galán es Doctor en Matemáticas por la Universidad Autónoma Metropolitana. Labora en la Universidad Politécnica de Chiapas adscrito al área de Mecatrónica. Tiene la Certificación como Desarrollador Asociado en LabVIEW. Su trabajo de investigación está enfocado en el Control Inteligente con Lógica Difusa y Redes Neuronales, Análisis de Vibraciones Mecánicas y Adquisición y Procesamiento de Señales. Dr. Rodolfo Esteban Ibarra Orozco es doctor en Ciencias Computacionales por el Instituto Tecnológico y de Estudios Superiores de Monterrey, Campus Estado de México. Actualmente trabaja como Profesor-Investigador en la Universidad Politécnica de Chiapas adscrito al área de Desarrollo de Software. Sus áreas de investigación son Memorias Asociativas, Redes Neuronales y Sistemas Inteligentes. Dr. Juan Villegas Cortez obtuvo su doctorado en Ciencias de la Computación en el Instituto Politécnico Nacional en 2009.Actualmente labora como Profesor-Investigador en el Departamento de Electrónica de la Universidad Autónoma Metropolitana, Unidad Azcapotzalco, Ciudad de México, México.Su trabajo de investigación se enfoca en Reconocimiento de Patrones, Análisis de Imágenes, Redes Neuronales Artificiales, Memorias Asociativas y Aplicaciones de Reconocimiento de Fuentes.

Reconocimiento de voz usando Redes Neuronales

Documentos relacionados

Productos

Apoyo

Reconocimiento de voz usando Redes Neuronales

Documentos relacionados

Añadir este documento a la recogida (s)

Añadir a este documento guardado

Sugiéranos cómo mejorar StudyLib