Chips de Visión Angel Rodríguez Vázquez, Rafael Domínguez Castro y Servando Espejo. Instituto de Microelectrónica de Sevilla - Centro Nacional de Microelectrónica Avda. Reina Mercedes s/n, (Edif. CICA) E-41012, Sevilla, Spain Fronteras de la Ciencia y la Tecnología, No. 12, pp. 30-34, Julio-Septiembre 1996. © 1996 CSIC. Se permite el uso personal de este material. Sin embargo, el permiso para reimprimir/republicar este material con propósitos de promoción o propaganda, o para crear nuevos trabajos colectivos para reventa o redistribución a servidores o listas, o para reutilizar cualquier componente de este trabajo que esté protegido por el copyright en otros trabajos debe ser obtenido de CSIC. Este material se presenta para asegurar la diseminación sin retrasos de un trabajo académico y técnico. Todos los derechos de copyright son detentados por los autores o por los propietarios del copyright. Se espera de todas las personas que copien esta información que se adhieran a los términos y restricciones invocados por el copyright de cada autor. En la mayoría de los casos estos trabajos no pueden ser puestos, por las personas que los copien de esta página, a disposición de terceros sin el permiso explícito del detentador del copyright. Chips de Visión Angel Rodríguez Vázquez, Rafael Domínguez Castro y Servando Espejo. Instituto de Microelectrónica de Sevilla-Universidad de Sevilla Edificio CICA-CNM, C/Tarfia s/n, 41012-Sevilla, SPAIN FAX: 34 5 4231832, Phone: 34 5 4239923 Tras un fugaz abrir y cerrar de ojos, el televidente casual de un partido de tenis recordará, entre otras características de la escena, si la pista era tierra o hierba, si jugaban dobles o individuales, si las gradas estaban llenas o vacías,.... Por otra parte, incluso el jugador más novato coordinará sus desplazamientos y la posición relativa de sus miembros para interceptar la trayectoria de la pelota. Esta facilidad para percibir e interpretar imágenes, y para coordinar la interacción con un entorno cambiante, es innata a los seres vivos, y no tiene parangón en ningún artefacto desarrollado por el hombre. El robot más moderno, aún equipado con el ordenador más potente, resulta torpe en una actividad tan simple como desplazarse por una habitación sin tropezar con obstáculos inmóviles. Un comportamiento que contrasta con el del más sencillo insecto; con un cerebro diminuto como único recurso de cálculo, una mosca vulgar evita ágilmente obstáculos móviles mientras vuela, reconoce su alimento, coordina sus movimientos para alcanzarlo, etc. Bien es cierto que los cada día más potentes ordenadores digitales nos han permitido progresar en la comprensión del funcionamiento del cerebro y del sistema nervioso animal. Sin embargo, la arquitectura y modus operandi de estos ordenadores no es la más adecuada para las ingentes cantidades de datos asociados al tratamiento en tiempo real del flujo visual; del orden de 20MBytes por segundo en una cámara de video profesional. En este escenario, el viejo sueño humano de desarrollar máquinas que imiten a los seres vivos se plantea desde una doble perspectiva. No se trata sólo de reproducir su comportamiento, también parece necesario imitar su arquitectura y adoptar sus mismas estrategias computacionales. No sabemos aún que tecnologías soportarán el desarrollo de estas máquinas a largo plazo. No obstante, universidades e industrias están afrontando el reto de desarrollarlas usando la misma materia prima que los ordenadores digitales: circuitos microelectrónicos. Curiosamente, esto cierra de alguna manera un ciclo histórico iniciado por Luigi Galvani a mediados del siglo XVIII. Entonces, Galvani aprovechó la conductividad del tejido nervioso de un anca de rana para construir el antepasado más antiguo de los circuitos eléctricos. Dos siglos después intentamos usar circuitos inorgánicos para emular la estructura y la función de los tejidos nerviosos vivos (ver Fig. 1). Las máquinas convencionales de visión están formadas típicamente por un sensor bidimensional de CCD’s, con una resolución de 256 x 256 ó 512 x 512 pixels, y un procesador digital. Las nuevas generaciones de procesadores digitales (DSP’s) permiten realizar sistemas muy compactos capaces de captar 25 imágenes por segundo, de estabilizarlas, de auto-enfocar, de controlar la luminancia/crominancia, etc. El problema surge cuando, aparte de la mera adquisición de las imágenes, se pretende extraer información de ellas en tiempo real; por ejemplo, bordes u otras características geométricas, texturas, movimientos, etc. Operaciones necesarias para pasar de los datos del sensor a una descripción abstracta de la escena en términos de conceptos similares a los elaborados por nuestro televidente casual (ver Fig.2). Parte del problema se debe a la separación física y funcional entre captación, realizada por el sensor de CCD´s, y procesamiento, realizada por el ordenador o DSP, lo que fuerza la transmisión serial de los datos sensoriales brutos entre ambos dominios. De por sí, esto aumenta el tiempo de respuesta del sistema en proporción directa a la resolución espacial del sensor (número de pixels de la imagen completa). Pero además, la propia serialización del cálculo en una unidad central de procesos, junto con el elevado flujo de datos, y la necesidad de ejecutar varias instrucciones para cada uno de ellos, crea un cuello de botella insalvable. Así, pese a que sus componentes internos son muy rápidos, su respuesta global es lenta (ver Tabla 1). ¿Por qué el diminuto cerebro de la mosca es más eficiente para la percepción que un ordenador digital? ¿Qué tipo de estrategias computacionales le permite interpretar imágenes muy complejas en décimas de segundo cuando sus circuitos neuronales operan en centésimas o milésimas de segundo? Una posible respuesta es que, entre otros factores, esta eficiencia es consecuencia del paralelismo. Este comienza en la retina, que combina la captación de la imagen en los conos y bastones, con el procesamiento a través de la interacción entre las capas de células horizontales, bipolares y amacrinas (ver Fig.3a). A partir de la retina el procesamiento se produce a través de una sucesión de estructuras dispuestas en capas de procesadores especializados, cada una de las cuales realiza un conjunto de operaciones en paralelo. En cada capa se realiza un procesamiento elemental condensando la información y extrayendo únicamente aquellas características que son necesarias para el procesamiento ulterior (Fig.3b). Así hasta alcanzar el nervio óptico, donde el nivel de compresión de la información es, aproximadamente, de 100 a 1. Esta descripción cualitativa no es, sin embargo, suficiente para fundamentar el desarrollo de sistemas de visión bio-inspirados. Por desgracia, durante mucho tiempo los neuro-fisiólogos se han dedicado a estudiar el comportamiento de neuronas aisladas. Sólo recientemente han abordado la descripción analítica del comportamiento global del sistema como un procesador paralelo de imágenes, sentando así las bases para los chips de visión. El desarrollo de chips de visión está condicionado por la necesidad de combinar buena fotorecepción y procesamiento flexible, con densidades de pixels altas, y consumos de potencia bajos. Este compromiso hace inviables no sólo la arquitectura de los ordenadores digitales convencionales, sino incluso los estilos de diseño usados en el desarrollo de los mismos. Así, los chips de visión, y en general los de percepción, subvierten de alguna manera la tendencia de la microelectrónica hacia una progresiva digitalización, propiciando el retorno masivo de los circuitos analógicos a la arena del diseño microelectrónico (Tabla 1). El principal inconveniente del procesamiento analógico estriba en la precisión relativamente baja (entre 8 y 10 bits equivalentes), en contra de la precisión sin límite que se puede conseguir con los sistemas digitales. Por contra, el consumo de potencia y la ocupación de área es mucho menor para los circuitos analógicos. Sin embargo no debemos olvidar que este tipo de procesamiento lo realizan con gran eficacia las neuronas biológicas, las cuales poseen una precisión baja (se estima alrededor de 6bits, sobre el 2%). La dificultad del diseño permanece como un obstáculo y, a la vez, como un reto para el diseñador conocedor de los entresijos de los dispositivos, experto en las técnicas y herramientas de los circuitos lineales y no-lineales, y amante de los retos que impone la optimización del diseño analógico. Un factor condicionante para el éxito de los chips de visión es su viabilidad tecnológica. La combinación de dispositivos de unión con transistores MOS permite realizar fotoreceptores con propiedades parecidas a las de los seres vivos, en tecnologías CMOS standard. Esto es, tecnologías desarrolladas para la fabricación de sistemas digitales convencionales que por su gran desarrollo y volumen de producción permiten la fabricación de circuitos baratos. La Fig.4 muestra un conjunto de estructuras CMOS fotoreceptoras típicas, capaces de operar linealmente en rangos de hasta 7 décadas de intensidad luminosa. Por otra parte, el propio transistor MOS permite realizar multitud de operaciones básicas para el procesamiento, tal como se ilustra en la Fig.5. En cada caso, el reto es usar estrategias de diseño que permitan “realzar” una funcionalidad nominal, y atenuar sus parásitos; tarea no siempre sencilla, pero siempre apasionante. El éxito de los chips de visión en aplicaciones industriales y comerciales depende grandemente de su compatibilidad con los sistemas convencionales de cómputo (digitales), y de su flexibilidad funcional. Ambas características motivan la línea de desarrollo seguida en nuestro grupo, que se ilustra a través del chip que aparece en la Fig. 1, y que se centra en el diseño de chips basados en el paradigma de las Redes Neuronales Celulares (CNN, de Cellular Neural Network). Este chip, realizado en tecnología CMOS standard de 0.8µm, combina la captación de imágenes y el procesamiento paralelo in situ, propios de los sistemas bio-inspirados, con la programabilidad de las tareas a realizar, el almacenamiento de datos intermedios e instrucciones de procesamiento codificadas (programas), propias de los ordenadores convencionales. Además aunque el circuito opera internamente en base a circuitos analógicos, es totalmente controlable de forma digital y por ello fácilmente integrable en un sistema convencional. A pesar de que cada celda incluye tanto la parte de sensado como un procesador completamente programable, se obtiene una alta densidad de celdas, 31 por mm2, que junto a la constatación experimental de tiempos de procesamiento de 1µs y precisiones de 6-7 bits nos hacen mirar con prudente optimismo hacia un futuro donde estos, u otros, chips de visión sean interesantes para uso industrial. En el Instituto de Microelectrónica de Sevilla, se está realizando un gran esfuerzo en el campo de los chips de visión, trabajando con un amplio grupo de personas, entre las que se encuentran los autores así como E. Roca, B. Linares y R. Carmona, y colaborando estrechamente con la Universidad de California Berkeley y la Academia Húngara de Ciencias. CMOS 0.75µm µP chip CMOS 0.8µm DSP chip CMOS 1.5µm Analog CNN Velocidad 200MHz 200 MFlops 60MHz 2Gops 2MHz 50Gops Precisión 64 bits 16 bits 6bits Area 16.8x13.9mm2 12.38x12.9mm2 1.5x1.5mm2 Potencia 30w @ 3.3v 2.4w @ 5v 10mw @ 3.3v Transistores 1.68M 930K 10K Potencia/ Transistor. 18µw 2.5µw 1µw Tabla 1: Comparación de técnicas analógicas y digitales. 1:1 Mp1 Mp2 :1 Io Mp3 Io Io I’o Mn1 1:1 Mn2 VTH Figura 1: El el Instituto de Microelectrónica de Sevilla (IMSE) intentamos emular la estructura y el funcionamiento de los sistemas de visión de los seres vivos. En la figura puede verse un chip de visión diseñado en el IMSE y fabricado en una tecnología CMOS standard de 0.8 µm, que incluye 20x22 celdas con capacidad de sensar y procesar in situ la imagen. Análisis a alto nivel FLOR Hojas Análisis a nivel intermedio Centro Hojas Rojo Pétalos Hojas Verde Azul Suavizado Humbralizado Bordes Texturas Análisis a bajo nivel Datos del Sensor Figura 2. Niveles básicos analíticos del paradigma señal-a-símbolos para un sistema de visión. Células fotoreceptoras Células bipolares Células horizontales Células ganglionares (a) Representación abstracta de una escena Camino Visual Biológico Células Corticales de Alto Orden Nivel de Percepción Células Corticales Hipercomplejas Compresión de la Información Células Corticales Complejas Células Corticales Simples Células del NGL (b) Células de la Retina Células Fotoreceptoras (b) Transducción Representación detallada de una escena Figura 3. (a) Sección transversal de la retina humana. (b) Arquitectura paralelo-jerárquica del camino visual humano, desde la retina (nivel de transducción) hasta el cortex visual (nivel de percepción). out GND out P+ N+ out GND N+ P+ out pozo n (a) (b) substrato p out Vdd P+ N+ GND Vdd P+ substrato p out GND P+ P+ out pozo n pozo n out (c) (d) substrato p substrato p Figura 4. Dispositivos de unión existentes en tecnologías CMOS estándar (pozo n) usados para detección de luz. La unión activa aparece sombreada para cada dispositivo. (a) Diodo pozo/substrato (n-/p-). (b) Diodo difusión/substrato (n+/p-). (c) Diodo difusión/pozo (p+/n-). (d) Transistor bipolar vertical (p+/n-/p-) vc gmvc vc Región Óhmica: W I D ≈ k -----V DS ( VG – V T0 – nV S ) L Región Óhmica: 1 L R Ω = --------- -----------------------------------------------kW ( VG – V T0 – nV S ) VDS debe ser constante Región de Saturación: 2 kW I D ≈ ------ ----- ( VG – V T0 – nV S ) 2n L Tensión Early es baja α L Región de Inversión Canal Creado Región Acumulación Sin Canal corrientes negativas vc Región Óhmica: L R Ω ∝ --------kW C ∝ C ox LW Offset nulo Cox ~1Ff/µm2 VDS debe ser pequeño Región de Corte: Gran Distorsión RON → ∞ R ~10KΩ Región de Saturación No lineal Memoria durable Inyección de carga con puerta flotante algebraico Realizados en los Wells n-well: pnp p-well: npn Basado en el Principio Translineal: IQ g m ≈ -----Ut Baja Tensión Early iin Caracterización Pobre kW g m ≈ --- ----- ( VG – V T0 – nV S ) nL Sensores Ópticos corrientes positivas Figura 5. Operadores analógicos realizables con transistores MOS convencionales.