Subido por sss.123

Reconocimiento de voz usando Redes Neuronales

Anuncio
See discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/260266806
Reconocimiento de Voz usando Redes Neuronales
Conference Paper · January 2013
CITATIONS
READS
0
1,305
4 authors, including:
Yolanda Pérez-Pimentel
Ismael Osuna Galán
Universidad Politécnica de Chiapas
Universidad Politécnica de Chiapas
9 PUBLICATIONS 7 CITATIONS
13 PUBLICATIONS 8 CITATIONS
SEE PROFILE
SEE PROFILE
Juan Villegas Cortez
Metropolitan Autonomous University
57 PUBLICATIONS 81 CITATIONS
SEE PROFILE
Some of the authors of this publication are also working on these related projects:
Evolutionary Associative Memories applied to EEG signal features View project
Análisis de ataques de red del tipo DHCP spoofing, TCP SYN flood y paquetes malformados. View project
All content following this page was uploaded by Juan Villegas Cortez on 20 February 2014.
The user has requested enhancement of the downloaded file.
Avances de Ingeniería Electrónica 2013
Compiladores
Miguel Magos Rivera
Pablo Velarde Alvarado
Ramiro Velázquez Guerrero
Universidad Autónoma Metropolitana
Azcapotzalco
Universidad Autónoma de Nayarit
Avances de Ingeniería Electrónica 2013
Miguel Magos Rivera
Universidad Autónoma Metropolitana
Azcapotzalco
Departamento de Electrónica
Pablo Velarde Alvarado
Universidad Autónoma de Nayarit
Área de Ciencias Básicas e Ingenierías
Ramiro Velázquez Guerrero
Universidad Panamericana-Bonaterra
Facultad de Ingeniería
Universidad Autónoma Metropolitana
Unidad Azcapotzalco
Av. San Pablo 180
Col. Reynosa Tamaulipas
Del Azcapotzalco
C.P. 02200
México D.F.
Rector
Dr. Romualdo López Zárate
Secretario
Mtro. Abelardo González Aragón
Director CBI
Dr. Luis Enrique Noreña Franco
Universidad Autónoma de Nayarit
Ciudad de la Cultura "Amado Nervo"
C.P. 63155
Tepic, Nayarit.
Rector
C. P. Juan López Salazar
Secretario
M. en C. Jorge Ignacio Peña González
Coordinador Académico de Área de CBI
Dr. Enrique Montoya Suarez
© Universidad Autónoma Metropolitana
Unidad Azcapotzalco
Universidad Autónoma de Nayarit
Miguel Magos Rivera
Pablo Velarde Alvarado
Ramiro Velázquez Guerrero
Avances de Ingeniería Electrónica 2013
ISBN: 978-607-28-0126-4
México 2013
Comité Técnico
Dra.
Abascal Mena Ma. Del Rocío
UAM-Cuajimalpa
Dr.
Adam Medina Manuel
CENIDET-Cuernavaca
M.C.
Alfaro Ruiz Victor M.
Universidad de Costa Rica
Dr.
Arechiga Martínez René
New Mexico Tech Electrical Engineering Department. USA.
Dr.
Astorga Zaragoza Carlos
CENIDET-Cuernavaca
Dr.
Aviles Cruz Carlos
UAM-Azcapotzalco
Dr.
Cabello Pardos Enrique
Universidad Rey Juan Carlos de España
Dr.
Carlos Hernández Salvador
Cinvestav Saltillo
M.C.
Cardona Román Diana Marcela
Universidad Nacional de Colombia
Dr.
Claudio Sánchez Abraham
CENIDET-Cuernavaca
Dr.
Delgado Mata Carlos
Universidad Panamericana-Aguascalientes
M. Sc.
Esquit Hernández Carlos A.
Universidad del Valle de Guatemala
Dr.
Fallad Chavez Jalil
Centro Universitario de la Costa Sur
M.C.
Fuentes Covarrubias Gerardo
Universidad de Colima
M.C.
Fuentes Covarrubias Ricardo
Universidad de Colima
Dr.
Incera Diéguez José Alberto D.
Instituto Tecnológico Autónomo de México
Dr.
Jiménez Alaniz Juan Ramón
UAM-Iztapalapa
Dr.
López Ornelas Erick
UAM-Cuajimalpa
Dr.
López Pacheco Dino Martin
Université de Nice, Francia
Dr.
Magos Rivera Miguel
UAM-Azcapotzalco
Dr.
Martin de Diego Isaac
Universidad Rey Juan Carlos de España
Dr.
Ramírez Treviño Alberto
Instituto Tecnológico Superior de Cajeme
Dr.
Reyes Reyes Juan
Instituto Tecnológico de Zacatepec
Dr.
Rodríguez Segura Elías José J.
Instituto Tecnológico de Celaya
Dra.
Ruiz Beltrán Elvia
Instituto Tecnológico de Aguascalientes
M. C.
Santiago Espinosa Felipe
Universidad Tecnológica de la Mixteca
Dr.
Varona Salazar Jorge
SnowBush México
Dr.
Vázquez Álvarez Iván
UAM-Azcapotzalco
Dr.
Velázquez Guerrero Ramiro
Universidad Panamericana-Aguascalientes
INTRODUCCION
El desarrollo de la industria electrónica mundial en la última década ha sido
impresionante, actualmente los dispositivos y equipos electrónicos abarcan
prácticamente todas las áreas del quehacer humano. Asimismo, las áreas de
investigación y de aplicación se expanden cada día dando paso a nuevas ramas
afines a la electrónica y sus aplicaciones como son: robótica, biónica,
telemática, nano-electrónica y domótica, por mencionar solo algunas.
Los resultados, tanto de los trabajos de investigación, como de las aplicaciones
tecnológicas, que realizan los grupos de profesores y de estudiantes de las
instituciones educativas como de investigación son numerosos y variados.
En este libro se presenta una muestra de trabajos seleccionados de entre más
de 100 recibidos para su evaluación. El Comité Técnico formado por cerca de
30 investigadores de más de 20 instituciones de educación superior e institutos
de investigación todo el país, se dio a la tarea de elegir aquellos trabajos que,
por su nivel y temática, ofrecen un panorama de la investigación que se realiza
en el país en temas afines a la Ingeniería Electrónica.
Título de Trabajo
Página
Implementación de un Algoritmo de Colonia de Hormigas para la Asignación de Sensores
para Evento-Detectabilidad
1
Substituciones SPR0 en el Rechazo de Perturbaciones
11
Implementación de Esquemas de Control de un Circuito RLC
17
Selección Automática de Paquetes en un Centro de Distribución de una Mensajería
27
Construcción de Observadores de Secuencias para Sistemas de Eventos Discretos
37
Simulación en Simulink-PSIM del Control por Pasividad de un Motor Síncrono de Imanes
Permanentes (PMSM)
44
Human Health and the Electromagnetic Fields Radiated by the RFID System
53
Nueva Técnica de Arbitraje para Redes de Comunicación Basadas en la Línea Eléctrica
como Medio de Comunicación
59
Antena Plana con Sustrato Textil para la Banda ISM de 2.4GHz
68
Mediciones del Espectro de Potencia en la Banda de 2.4 GHz en la Universidad
Autónoma de San Luis Potosí, México
76
Diseño y Medición de una Antena de Banda Ancha para Recepción Satelital en Banda L
86
Protocols and Localization of a X-bee Base Network
95
Análisis de Capacidad de
Comunicaciones Vehiculares
102
Canal e Interferencia en Femtoceldas Aplicada a
Medición Interferométrica-Espectral de la Birrefringencia en Fibras de Cristal Fotónico
107
Implementación de Simulaciones Usando Easy Java Simulations para Laboratorio Virtual
113
El Desarrollo de Competencias Genéricas en los IAS Mediante Nexus
122
Analysis of Networks Described by Equations of Fractional Order
128
CD-CA Converter Based on the Quasi ‘Z’ Source Inverter
136
SOGI-FLL Normalizado en FPGA para la Sincronización con la Red Eléctrica en Energías
Renovables
144
Time Constant and Transitory Response of a RC Circuit described for Fractional
Differential Equations
155
Sistema de Control de Lámparas LED con Fines de Uso Eficiente y Ahorro de la Energía
Eléctrica
162
Análisis de Convertidores CD/CD Bidireccionales para la Compensación de Disturbios en
Microredes de CD Empleando Supercapacitores
173
Medidor Inalámbrico de Potencia y Consumo de Energía con Aplicación en Diagnósticos
Energéticos
181
Estudio de Sistemas de Iluminación Basado en HBLED con Alimentación Fotovoltaica
191
Título de Trabajo
Página
Convertidor CA/CD Bidireccional para Aplicación en Microredes de CD: Estado del Arte
200
Inversor de Pequeña Escala para Aplicación en Cargadores de Celulares
210
Módulo Regulador de Voltaje con Control PID y Distribución de Corriente Digital
218
Diseño, Implementación y Automatización de un Invernadero Solar
227
Construcción y Evaluación de un Bioretroalimentador de Señal EMG de Uso Doméstico
como Auxiliar en Terapia Física
234
Criterios de Optimización Geométrica para una Termocupla Peltier
242
Un Análisis Numérico-Experimental de la Transferencia del Calor Mediante Imágenes
Termográficas
249
Propuesta de un Sistema de Medición de Nivel de Combustible para Vehículo Baja SAE
255
Aplicación de Técnicas Analógicas y Digitales para Minimización de Ruido de 60 Hz en
Señales Electrocardiográficas: un Caso Práctico
264
Desarrollo de una Interfaz Gráfica para un Módulo de Control de Nivel
274
Detección de Polarización Circular Usando Retardadores de Fase para Aplicaciones de
Radioastronomía
282
Fuente de Luz con Leds para Videoqueratómetro
292
Design of Pulse Oximeter Controlled by a Microcontroller
299
Prototipo de Oxímetro Basado en un Sistema de Acondicionamiento de Bajo Costo
Arduino
305
Robot CNC Multiherramienta Controlado con un FPGA
312
Enriquecimiento de Señal de Activación de Frenos ABS para Automóviles
322
UAMIBOT: Un Robot Móvil Didáctico Multifunciones
331
Sistema para Controlar un Grado de Libertad de un Robot Articular Utilizando un Sistema
Embebido Vía WiFi
339
Manipulador de 7 Grados de Libertad Controlado con Ondas Encefalográficas
349
Simulador de Enfermedades Visuales: Diseño y Evaluación
356
Implementación de un Sistema Difuso, en un Robot Seguidor de Línea, en Comunicación
a la PC por Bluetooth
363
Reconocimiento de Voz usando Redes Neuronales para el Control de una Silla de Ruedas
371
Arquitectura Dual Core Empleando Microblaze para el Procesamiento de Imágenes de la
Camara DVS12
379
Sistema de Freno ABS Mejorado con Modelo de Control Difuso y Visión
389
Título de Trabajo
Página
Juego de Aprendizaje de Física Utilizando Lógica Difusa en HTML5
396
Análisis de Señal Electroencefalográfica como Patrones a partir de Memorias Asociativas
Evolutivas
403
Desarrollo de Secuencia de Comandos Inteligente para la Automatización de Pruebas de
Software Utilizando Programación Descriptiva
412
Caracterización de las WLAN en el Centro de la Ciudad de Zacatecas
419
Conmutacion de Circuitos en FPGAs: Arquitectura de un Conmutador Ligero para
Dispositivos Reconfigurables
429
Diseño e implementación de IPv6 en la Universidad Autónoma de Guerrero
438
Serializador de Objetos a XML en el Lenguaje de Programación Python
444
Modelado y Simulación Preliminar del Asentamiento Poblacional en una Entidad del
Estado de México
452
Herramienta para Serializar Objetos C++ a XML
464
Aplicación Móvil para Proporcionar Información Sensible a la Ubicación (contexto)
474
Comparación de Desempeño en Distintos Escenarios de una Maqueta OpenFlow
480
Guía Móvil para Eventos de Puertas Abiertas UAM-I
488
Herramienta en Línea para Creación de Tiendas Virtuales
495
Proyecto Multiplataforma para Dispositivos Móviles y Smartphones “PickUP”
504
Programa para el Diseño de Interfaces Gráficos para Procesos Automatizados con PLC´s
513
Control de Cámara PTZ Mediante Protocolo PELCO-D en Hardware Reconfigurable
522
Sistema Embebido para Simular Redes de Petri Interpretadas
532
Estudio y Diseño de Controlador para Memoria SDRAM en FPGA
540
Diseño y Elaboración de una Tarjeta de Navegación Basada en GPS con
Almacenamiento de Datos
548
CAN Embebido en Hardware Reconfigurable para Aplicaciones de Microredes Inteligentes
de CD: Análisis Estado del Arte
556
Sistema de Visualización de Imágenes a 8 Colores Implementado en FPGA
563
Interface Gráfico para Procesos Automatizados con PLC´s
572
Diseño y Construcción de una Máquina Expendedora de Mensajes SMS
580
Reconocimiento de Voz usando Redes Neuronales para el Control de una Silla de
Ruedas
*Yolanda Pérez Pimentel, *Ismael Osuna Galán, *Rodolfo E. Ibarra Orozco, **Juan Villegas
Cortez
*Universidad Politécnica de Chiapas, Eduardo J. Selvas S/N, Tuxtla Gutiérrez, Chiapas,(961)6128404,
[email protected], [email protected], [email protected].
**Universidad Autónoma Metropolitana, Azcapotzalco. Departamento de Electrónica. San Pablo Xalpa No.
180, Col. Reynosa Tamaulipas, CP 2200, México D.F., [email protected].
Resumen
Recientemente los métodos de reconocimiento de voz han logrado resolver problemas usando técnicas
cada vez más complejas. En el aspecto teórico, los diferentes criterios de aprendizaje discriminativo
usando redes neuronales han sido introducidos para tener una visión que unifique los criterios en el
reconocimiento de patrones asociados a la voz. En el campo práctico se han popularizado nuevas y
cada vez más poderosas computadoras al alcance de la población en general, con lo que se puede
realizar aplicaciones efectivas aplicadas al control de dispositivos. Sin embargo, el reconocimiento de
voz presenta algunos desafíos aún no resueltos en su implementación en controladores en tiempo real
con sistemas reconfigurables de entradas y salidas (Reconfigurable Inputs/Outputs o RIO por sus siglas
en inglés). En este artículo se describe la aplicación del reconocimiento de voz en el control de una silla
de ruedas, a la que se le proveerá de una interfaz electrónica y un controlador de automatización
programable que permitan su desplazamiento utilizando comandos de vozbásicos.
Palabras Clave: Análisis de voz, Análisis Multirresolución, Redes Neuronales, Wavelets.
I.
Introducción
Con el nuevo milenio se han incorporado
Sistemas de Reconocimiento de Voz (SRV) en
los sistemas operativos de computadoras
personales, teléfonos inteligentes (smartphones) y
de dispositivos de entretenimiento, por
mencionar algunos. Una de las técnicas para el
análisis y reconocimiento de comandos de voz es
el Análisis Multirresolución de Wavelets (MRA)
[3]. En años recientes se han incorporado
técnicas cada vez más complejas como lógica
difusa, redes neuronales y Modelos Ocultos de
Markov (HMM). La metodología básica para
aplicar éstas técnicasconsiste en extraer sus
características principales, usando para ello
métodos multirresolución para representar una
señal dinámica en el tiempo en términos de sus
componentes principales con lo que se tiene
unanálisis en tiempo real, por último, mediante
una red neuronal se realiza la clasificación.
Un sistema de tiempo real debe procesar la
información y producir una respuesta en un plazo
determinado, es decir, el funcionamiento de un
sistema no sólo depende del resultado que
devuelve la computadora, también depende del
tiempo en que se produce ese resultado. Como
una consecuencia, el tiempo del sistema debe ser
medido usando la misma escala con que se mide
el tiempo del ambiente controlado. Actualmente
se cuenta con equipamiento para la
implementación de prototipos en tiempo real
como los PLC o FPGA. La implementación de un
sistema de reconocimiento de voz usando MRA y
redes neuronales en un FPGA es lo mostrado en
el presente artículo. En la sección II se presenta
el planteamiento del desarrollo de nuestra
solución, en cinco diferentes etapas de la
implementación con detalle, para en la sección III
mostrar los resultados obtenidos, en la sección IV
se brinda una discusión de éstos y, finalmente la
sección V muestra las conclusiones.
II.
Desarrollo
La propuesta de este trabajo consta de tres partes
fundamentales:
Reconocimiento de voz: Consistente en
analizar una señal de voz, primero
extrayendo características de ella y después
aprenderla y reconocerla mediante una Red
Neuronal con el algoritmo de aprendizaje
Backpropagation. Se utiliza para la
implementación la plataformaLabVIEW
debido a la posibilidad que ofrece de ser
embebido dentro de un PLC o FPGA de la
empresa National Instruments o de terceros,
en este caso una CompactRIO.
Diseño del prototipo: Una silla de ruedas
estándar modificada con motores eléctricos y
operada con una tarjetaCompactRIONI 9074
en la cual se descargará el software.
Integración Mecatrónica: La parte final del
proyecto consiste en el diseño y construcción
del prototipo. Una silla de ruedas con
motores acoplados, baterías y tarjeta
CompactRIO con el programa embebido
para realizar el control mediante el
reconocimiento de Voz.
El esquema de manera general del proyecto se
divide en cuatro etapas (ver Fig. 1), tal como se
describe a continuación:(1) La voz es adquirida
por medio de un micrófono a través de una
entrada analógica del módulo NI 9234. (2) Esa
señal adquirida es procesada por medio del
programa embebido desarrollado en LabVIEW.
(3) Después del procesamiento, se envía una
señal de activación mediante un módulo NI9481
de salidas a relés. (4) Esta activación es la que
controla los dos motores que se han incorporado
a la silla de ruedas, y hacen que avance, se
detenga, o gire hacia la izquierda o la derecha
dependiendo del resultado del procesamiento.
En las siguientes secciones se detallan estas
etapas
como
módulos
implementados:
Reconocimiento de voz, Pre-tratamiento de la
señal,
Extracción
de
características
y
posteriormente el Entrenamiento de la red
neuronal artificial.
II.1 Reconocimiento de voz
En la primera parte de la propuesta se diseñó un
Programa de Reconocimiento de Voz mediante
Análisis Multirresolución y Redes Neuronales.
La metodologíautilizada se divide en dos etapas,
aprendizaje y prueba (ver Fig. 2).
Fig. 2. Metodología para el aprendizaje y la
prueba.
Adquisición de datos
Fig. 1. Esquema general del proyecto.
El primer paso es laadquisición de las señales de
voz paraconstruir una base de datos que será
usada tanto en la parte del entrenamiento como
en las pruebas.
Las muestras de audio se adquirieron mediante
un micrófono incorporado en una diadema. Se
tomaron 4000 muestras a una frecuencia de 10
KHz.Como la aplicación que se desea desarrollar
requiere que pueda discriminar en ambientes de
ruido no controlados, la adquisición de datos se
realizó con un mínimo de control de ruido
ambiental.
La base de datos está conformada por 25 archivos
de las palabras “Avanza”,“Para”, “Izquierda” y“Derecha” en idioma español, de un sólo
hablante.De esos 25 archivos, 10 se utilizaron en
la etapa de entrenamiento y 15 se reservaron para
la etapa de prueba.
Pre-tratamiento de la señal
Después de la adquisición de datos se observa
que cada muestra contiene datos que resultan
inútiles, por lo cual el siguiente paso es la
eliminación de tales segmentos, lo cual se lo
logra tomando como referencia los niveles inicial
y final de la muestra para obtener un promedio:
𝑣 = # ∑#
|𝑥|
(1)
Fig. 3. Arriba, datoscompletos. Abajo, datos
seleccionados.
Seleccionados los datos útiles de cada muestra, se
procede a la normalización de las muestras, ya
que la amplitud de cada una difiere, y para
obtener mejores resultados, es deseable que todas
las muestras estén en la misma escala, de -1 a 1.
Para ello, se utiliza la siguiente fórmula:
donde:
v es el valor que se desea eliminar
𝑀
#datos es el número de muestras que se están
evaluando.
𝑢𝑚𝑏𝑟𝑎𝑙 = + 𝑛
(2)
donde:
ValI es el Valor de los primeros datos
ValFes el Valor de los últimos datos
n = 2000 datos inútiles.
Aplicando (1) y (2) fue posible realizar la
selección de datos para cada palabra, se
graficaron las muestras completas y las muestras
con datos seleccionados para la palabra
“Avanza” (ver Fig. 3), con el fin de corroborar
que la selección se realizó de manera correcta.
= (
)
(3)
donde,
𝑀
, es la muestra normalizada
𝑀, es la muestra que se desea normalizar
𝑂𝑓𝑓𝑠𝑒𝑡, Valor entre el valor deseado y el valor
real
𝐸𝑠𝑐𝑎𝑙𝑎, La escala que debe aplicarse para
obtenerse el valor deseado.
Después de aplicar (3), se hicieron gráficas de las
muestras normalizadas (ver Fig. 4) para hacer
una comparación con las muestras en el estado
anterior (ver Fig. 3) y verificar que se había
obtenido la amplitud deseada.
uniformes, y en escala de 2n, por lo que se ha
tomado el menor valor que cubra ambas palabras,
212 = 4096. De ésta forma, las muestras quedan
uniformes en tamaño.
Extracción de características
Fig. 4. Señal normalizada de la palabra avanza.
Se busca realizar el reconocimiento de palabras
sin segmentar las muestras. Dado que se trata de
un sistema que requiere identificar pocas
palabras, se da inicio utilizando toda la extensión
de la palabra, que para la palabra “Avanza” es de
6500 muestras, mientras que “Para” tiene
únicamente 4500 muestras. Sin embargo, se ha
considerado que las muestras deben ser
Entre las técnicasmás usadaspara extraer
características están la Transformada Rápida de
Fourier y la Transformada con Wavelets.En este
trabajo se explora el uso de la Transformada con
Wavelets debido a su efectividad para realizar el
análisis de la señal tanto en el dominio de la
frecuencia como del tiempo [7]. La
implementaciónde la Transformada Wavelet
Discreta (TWD), se realiza mediante la técnica de
Análisis Multirresolución (MRA). Se ilustra la
implementación de MRA con dos niveles de
descomposición (ver Fig. 5).
Fig. 5. Análisis Multirresolución.
donde
𝑤[𝑛] = 𝑎𝑥 + 𝑏𝑥[𝑛 − 1] + 𝑐𝑥[𝑛 − 2] + 𝑑𝑥[𝑛 − 3]
𝑧[𝑛] = 𝑑𝑥 − 𝑐𝑥[𝑛 − 1] + 𝑏𝑥[𝑛 − 2] − 𝑎𝑥[𝑛 − 3]
Para visualizar la energía correspondiente a cada
palabra, en cada nivel de descomposición, se
procedió a realizar un gráfico (ver Fig. 6).
𝑤 [𝑛] = 𝑤[𝑛], 𝑠𝑖 𝑛 𝑒𝑠 𝑝𝑎𝑟, 0 𝑒𝑛 𝑜𝑡𝑟𝑜 𝑐𝑎𝑠𝑜
𝑧 [𝑛] = 𝑧[𝑛], 𝑠𝑖 𝑛 𝑒𝑠 𝑝𝑎𝑟, 0 𝑒𝑛 𝑜𝑡𝑟𝑜 𝑐𝑎𝑠𝑜
Del Análisis Multirresolución se obtienen los
coeficientes de cada nivel de descomposición
calculado. Teniendo los coeficientes, se calcula la
energía de cada nivel, por medio de la siguiente
fórmula:
𝐸
= ∑ |𝑥 |
(4)
donde:
k= cantidad de
descomposición,
elementos
del
nivel
n = número de niveles de descomposición.
de
Fig. 6. Niveles de descomposición usando MRA.
Como se puede observar los niveles 4, 5 y 6 de
energía (ver Fig. 6), proveen una mayor
información para la clasificación. Para corroborar
lo anterior, se procede a graficar dichos nivelesde
par en par. Se graficaron también los niveles 4 y
5 de las palabras “Avanza” y “Para” obtenidos
por MRA (ver Fig. 7).
Se probaron alternativamente, Estado Máximo de
Energía de cada nivel (EME), Amplitud, RMS,
Estado Mínimo de Energía (EmE), y se procedió
a entrenar la Red Neuronal y a probarlos con el
vector de pesos resultantes.
El Estado Máximo de Energía fue el que ofreció
mejores resultados, mejorando notablemente los
resultados de la etapa de prueba.
Los resultados de la prueba obtenidos al agregar
ésta última característica se observan en la matriz
de confusión (ver Tabla 2).
Fig. 7. Energía correspondientes a los niveles 4 y 5.
De la comparación de los niveles 4 y 5, y 5 y 6,
se observa que en las 10 muestras reservadas para
el entrenamiento, las clases son linealmente
separables. Por lo que se proseguirá con la etapa
de entrenamiento, utilizando los niveles 4, 5 y 6.
Entrenamiento de la Red Neuronal
Se procede al entrenamiento de la Red Neuronal
utilizando un vector de entradas con tres
características. Derivado del entrenamiento del
Perceptrón, se obtiene un vector de pesos
ajustados que se utilizan para la etapa de prueba.
Se realizaron las pruebas con 15 muestras, los
resultados se vaciaron en una matriz de confusión
(ver Tabla 1).
Avanza
Para
8
7
Avanza
4
11
Para
Avanza
Para
10
5
Avanza
0
15
Para
Tabla 2. Matriz de confusión,utilizando EME.
De acuerdo a la matriz de confusión presentada,
se tiene un 66.66 % de aciertos en la palabra
“Avanza” y un 100% en la palabra “Para”, y
aunque se ha mejorado notablemente la
clasificación de la palabra “Para”, la palabra
“Avanza” sigue con un bajo porcentaje de
elementos correctamente clasificados.
Para entender mejor el problema, se procedió a
graficar las muestras utilizadas, (ver Fig. 8),
lasgráficas corresponden a las 15 instancias, para
las clases “Avanza” y “Para”, en los niveles 4 y
5 usados en la prueba.
Tabla 1. Matriz de confusión, primera prueba.
La matriz de confusión muestra que el nivel de
clasificación es bastante bajo. Se tiene un 53.33%
de aciertos al clasificar la palabra Avanza, y un
73.33% al clasificar la palabraPara.
Lo anterior, hace pensar que deben agregarse más
características al vector de entrada del
Perceptrón, con el fin de proveer al Perceptrón de
mayor información.
Fig. 8. Energía correspondientes a los niveles 4 y 5.
Se graficaron también los niveles 5 y 6, con la
Energía Máxima del nivel, con los que se
observaron resultados similares.
Analizando la gráfica, (ver Fig. 8), se puede
apreciar que las muestras reservadas para la
prueba, no muestran la misma disposición
espacial que las del entrenamiento, y algo que
salta a la vista es que no pueden ser linealmente
separables. Se observó lo mismo en las otras
comparaciones.
En vista de lo anterior, se deduce que se requiere
la utilización de una Red Neuronal Multicapa,
que permita realizar una mejor clasificación, no
sólo de las dos clases propuestas, sino que se
pretende incrementar el número de clases a
cuatro por el momento, que serían: “Avanza”,
“Para”, “Derecha” e “Izquierda”, [8].
Teniendo ya como meta la implementación de
unaRed Neuronal Multicapa que clasifique las
cuatro palabras propuestas, lo primero que se
hace es graficar las instancias para ver su
disposición espacial.
Las 10 instancias de las palabras “Avanza”,
“Para”, “Derecha”e“Izquierda”, también se
graficaron (ver Fig. 9),y serán utilizadas en la
parte del entrenamiento de la Red Neuronalcon el
algoritmo de aprendizaje Backpropagation.
PerceptronTester.vi
RNPrincipal.vi
El resto de ellos, aunque se encuentran anexos al
proyecto son de menor jerarquía. A continuación
se presentan los detalles operacionales de cada
programa:
SeleccionMuestra.vi.- Permite seleccionar las
muestras útiles de cada archivo, guardándolos en
un nuevo archivo con extensión *.tdms.
Matriz Características.- Realiza el MRA, calcula
el nivel de energía por nivel de cada muestra,
selecciona el Estado Máximo de Energía de cada
nivel, y guarda N muestras, que pueden ser de N
muestras y N clases, en un solo archivo *.tdms.
Adicionalmente, se guardó un archivo en *.lvm,
el cual puede ser abierto con un block de notas y
editado como archivo *.arff.
PerceptronTrainer.vi.- Consiste en un Perceptrón
simple que se entrena para clasificar dos clases
diferentes. El programa se detiene después de
piteraciones, las cuales corresponden al número
de muestras a clasificar.
PerceptrónTester.vi.- Es el mismo algoritmo del
Perceptrón implementado, sólo que realiza una
sola iteración para clasificar las N muestras que
se le presenten, utilizando el vector de pesos
ajustado durante el entrenamiento.
RNPrincipal.vi.- Es el programa general que se
ejecutará en la CompactRIO, y dónde se realizará
todo el procesamiento en Tiempo Real y el
control de la silla de ruedas.
II.2Diseño del prototipo
Fig. 9. Energía correspondientes a los niveles 4 y 5.
Es importante hacer notar que LabVIEW no
cuenta con un módulo de Redes Neuronales. Por
lo que para tener código embebido en la
CompactRIO se realizaron un total de 12
programas.Los más importantes son:
SeleccionMuestra.vi
MatrizCaracteristicas.vi
PerceptronTrainer.vi
Para reducir costos se decidió usar silla de ruedas
estándar no eléctrica. Además se ha considerado
que pueda mover al menos 120 kg de peso, en lo
cual están incluidos, el mismo peso de la silla, la
CompactRIO, motores, baterías y la persona que
va a controlar la silla. De acuerdo a un análisis
previo, se usarán dos motores de 12VCD que en
conjunto proveen una potencia de 80 W, con el
sistema de transmisión de movimiento serán
capaces de mover el peso calculado a una
velocidad razonable. El control es de lazo abierto
y es realizada mediante una CompactRIO NI
9074, lo que permite que trabaje de forma
autónoma.
El sistema CompactRIO contiene dos módulos:
i.
ii.
NI 9234 es un módulo de cuatro canales
para adquisición de señal dinámica para
realizar medidas de frecuencia de audio
de alta precisión, desde sensores
piezoeléctricos electrónicos integrados,
proporciona rango dinámico de 102 dB e
incorpora acondicionamiento de señales
seleccionable
por
software
para
micrófonos. Los cuatro canales de entrada
digitalizan señales simultáneamente a
rangos de hasta 51.2 kHz por canal con
filtros integrados anti-aliasing que ajustan
automáticamente su rango de muestreo.
NI 9481 es un módulo de cuatro salidas
digitales. Cada canal proporciona acceso
a un relé electromecánico para conectar
señales hasta 60 VDC o 250 VAC a 2A y
ofrece aislamiento entre canales de 250
Vrms y permite conexión directa a
dispositivos como lo son motores DC.
momento de clasificación, los resultados son
bastante alentadores.
Otra técnica que se desea explorar son los
Modelos Ocultos de Markov, [4]. Además, se
desea que el sistema funcione con múltiples
hablantes y sea capaz de identificar
correctamente los comandos aún en espacios
ruidosos.
IV. Discusión
El trabajo presentado es la base de un sistema
más complejo y robusto, que se propone ser un
apoyo para las personas con discapacidad motora.
Para ello se proponen ciertas mejoras: Aumentar
el vocabulario que pueda reconocer el sistema
añadiendo las palabras “Lento” y ”Rápido”,
instrumentar sensores de proximidad, encoders y
de inclinación, con el fin de que la silla responda
no sólo ante los comandos de voz sino a otras
variables del entorno. Por ejemplo, en una
pendiente ascendente será necesario mantener las
condiciones de velocidad y torque para responder
a las mismas órdenes “Avanza” y “Para”. De
esta forma se proporciona al usuario un mejor
control sobre el movimiento de la silla de ruedas.
II.3 Integración Mecatrónica
Una vez que el programa y la silla fueron
probados de manera independiente se procedió a
integrar todos los componentes del sistema. Hubo
inconvenientes menores al acoplar los motores
debido a que la silla es estándar no eléctrica; se
hizo un análisis estructural para que este acople
se realizara con las modificaciones mínimas. Y
por otro lado, la selección del micrófono
adecuado para trabajar en ambientes sin control
de ruido.
III. Resultados
Se logró un sistema básico implementado en
LabVIEW y embebido en una CompactRIO para
el reconocimiento de comandos de voz usando
redes neuronales mediante el Análisis
Multirresolución con Wavelets.A pesar de que no
se ha logrado el 100% de certidumbre al
V.
Conclusiones
La combinación del Análisis Multirresolución y
las Redes Neuronales prometen excelentes
resultados en la implementación de un sistema de
reconocimiento de voz para pequeños
vocabularios. No obstante, para hacer un sistema
más robusto en todos los aspectos, será necesario
utilizar algunas técnicas tanto en la extracción de
características como en la clasificación.
Considerando
la
factibilidad
de
la
implementación que se ha demostrado hasta el
momento, se busca que el sistema sea híbrido, y
acepte comandos dictados de forma vocal y
subvocal. Para lo último es necesario utilizar un
Electro miógrafo para capturar las señales
bioeléctricas de los músculos asociados al habla,
con ello se reduciría enormemente el ruido
ambiental que es introducido al momento de la
adquisición de datos, [1, 2].
VI. Referencias
VII. Autores
[1]
B. J.Betts, C. Jorgensen, “Small Vocabulary
Recognition
Using
Surface
Electromyography in an Accoustically
Harsh Enviroment”. NASA/TM-2005213471. Nov 2005.
[2]
E. López Larraz, O. Martínez Moroz,
“Diseño de un sistema de reconocimiento
del habla mediante electromiografía”. Actas
del XXVII Congreso Anual de la Sociedad
Española de Ingeniería Biomédica. Año
2009. Págs. 601-604.
[3]
E. Pinto Moreno, M. J. Gómez
García,Análisis y Evaluación de los niveles
de energía obtenidos mediante WPT para
defectología de Ejes. Universidad Carlos III
de Madrid. Octubre 2012.
M. I. D. S. Yolanda Pérez Pimentel obtuvo su
título de Maestría en Ingeniería y Desarrollo de
Puebla por el Colegio de Posgrado en Desarrollo
de Software de Puebla. Obtuvo la Certificación
como Desarrolladora Asociada en LabVIEW por
National Instruments. Actualmente se encuentra
realizando
el
Doctorado
en
Sistemas
Computacionales en la Universidad del Sur en
Chiapas. Su línea de investigación es en Redes
Neuronales Aplicadas al Reconocimiento de Voz.
Es Profesora-Investigadora en la Universidad
Politécnica de Chiapas adscrita al área de
Mecatrónica.
[4]
J. L. Oropeza Rodríguez, S. Suárez Guerra,
“Algoritmos
y
Métodos
para
el
Reconocimiento de Voz en Español
mediante
Sílabas”.
Computación
y
Sistemas. Volumen 9. Año 2006. Págs. 270286.
[5]
J. Travis, J. Kring, LabVIEW for Everyone.
3a. Edición. Año 2007. Editorial Pearson
Education, Inc. Crawfordsville, Indiana, pp.
981.
[6]
LabVIEW
Real-Time
Application
Development Course Manual. National
Instruments Corporation. México. Año
2007.
[7]
M. Weeks, Digital Signal Processing Using
Matlab y Wavelets. 1a. Edición.Año
2007.EditorialInfinity
Science
Press.
Hingham Massachusetts, pp. 449.
[8]
V. Kecman. Learning and Soft Computing.
Support Vector machines, Neural Networks
and Fuzzy Logic Models. 1a. Edición. Año
2001.EditorialThe MIT Press. Cambridge,
London, England, pp. 541.
View publication stats
Dr. Ismael Osuna Galán es Doctor en
Matemáticas por la Universidad Autónoma
Metropolitana. Labora en la Universidad
Politécnica de Chiapas adscrito al área de
Mecatrónica. Tiene la Certificación como
Desarrollador Asociado en LabVIEW. Su trabajo
de investigación está enfocado en el Control
Inteligente con Lógica Difusa y Redes
Neuronales, Análisis de Vibraciones Mecánicas y
Adquisición y Procesamiento de Señales.
Dr. Rodolfo Esteban Ibarra Orozco es doctor
en Ciencias Computacionales por el Instituto
Tecnológico y de Estudios Superiores de
Monterrey, Campus Estado de México.
Actualmente trabaja como Profesor-Investigador
en la Universidad Politécnica de Chiapas adscrito
al área de Desarrollo de Software. Sus áreas de
investigación son Memorias Asociativas, Redes
Neuronales y Sistemas Inteligentes.
Dr. Juan Villegas Cortez obtuvo su doctorado
en Ciencias de la Computación en el Instituto
Politécnico Nacional en 2009.Actualmente labora
como Profesor-Investigador en el Departamento
de Electrónica de la Universidad Autónoma
Metropolitana, Unidad Azcapotzalco, Ciudad de
México, México.Su trabajo de investigación se
enfoca en Reconocimiento de Patrones, Análisis
de Imágenes, Redes Neuronales Artificiales,
Memorias Asociativas y Aplicaciones de
Reconocimiento de Fuentes.
Descargar