Chips de Visión - Instituto de Microelectrónica de Sevilla

advertisement
Chips de Visión
Angel Rodríguez Vázquez, Rafael Domínguez Castro y Servando Espejo.
Instituto de Microelectrónica de Sevilla - Centro Nacional de Microelectrónica
Avda. Reina Mercedes s/n, (Edif. CICA)
E-41012, Sevilla, Spain
Fronteras de la Ciencia y la Tecnología,
No. 12, pp. 30-34, Julio-Septiembre 1996.
© 1996 CSIC. Se permite el uso personal de este material. Sin embargo, el permiso para reimprimir/republicar
este material con propósitos de promoción o propaganda, o para crear nuevos trabajos colectivos para reventa o
redistribución a servidores o listas, o para reutilizar cualquier componente de este trabajo que esté protegido por el
copyright en otros trabajos debe ser obtenido de CSIC.
Este material se presenta para asegurar la diseminación sin retrasos de un trabajo académico y técnico. Todos los
derechos de copyright son detentados por los autores o por los propietarios del copyright. Se espera de todas las
personas que copien esta información que se adhieran a los términos y restricciones invocados por el copyright de
cada autor. En la mayoría de los casos estos trabajos no pueden ser puestos, por las personas que los copien de esta
página, a disposición de terceros sin el permiso explícito del detentador del copyright.
Chips de Visión
Angel Rodríguez Vázquez, Rafael Domínguez Castro y Servando Espejo.
Instituto de Microelectrónica de Sevilla-Universidad de Sevilla
Edificio CICA-CNM, C/Tarfia s/n, 41012-Sevilla, SPAIN
FAX: 34 5 4231832, Phone: 34 5 4239923
Tras un fugaz abrir y cerrar de ojos, el televidente casual de un partido de tenis recordará,
entre otras características de la escena, si la pista era tierra o hierba, si jugaban dobles o individuales, si las gradas estaban llenas o vacías,.... Por otra parte, incluso el jugador más novato
coordinará sus desplazamientos y la posición relativa de sus miembros para interceptar la trayectoria de la pelota. Esta facilidad para percibir e interpretar imágenes, y para coordinar la interacción con un entorno cambiante, es innata a los seres vivos, y no tiene parangón en ningún
artefacto desarrollado por el hombre. El robot más moderno, aún equipado con el ordenador más
potente, resulta torpe en una actividad tan simple como desplazarse por una habitación sin tropezar con obstáculos inmóviles. Un comportamiento que contrasta con el del más sencillo
insecto; con un cerebro diminuto como único recurso de cálculo, una mosca vulgar evita ágilmente obstáculos móviles mientras vuela, reconoce su alimento, coordina sus movimientos para
alcanzarlo, etc. Bien es cierto que los cada día más potentes ordenadores digitales nos han permitido progresar en la comprensión del funcionamiento del cerebro y del sistema nervioso animal. Sin embargo, la arquitectura y modus operandi de estos ordenadores no es la más adecuada
para las ingentes cantidades de datos asociados al tratamiento en tiempo real del flujo visual;
del orden de 20MBytes por segundo en una cámara de video profesional. En este escenario, el
viejo sueño humano de desarrollar máquinas que imiten a los seres vivos se plantea desde una
doble perspectiva. No se trata sólo de reproducir su comportamiento, también parece necesario
imitar su arquitectura y adoptar sus mismas estrategias computacionales. No sabemos aún que
tecnologías soportarán el desarrollo de estas máquinas a largo plazo. No obstante, universidades
e industrias están afrontando el reto de desarrollarlas usando la misma materia prima que los
ordenadores digitales: circuitos microelectrónicos. Curiosamente, esto cierra de alguna manera
un ciclo histórico iniciado por Luigi Galvani a mediados del siglo XVIII. Entonces, Galvani
aprovechó la conductividad del tejido nervioso de un anca de rana para construir el antepasado
más antiguo de los circuitos eléctricos. Dos siglos después intentamos usar circuitos inorgánicos
para emular la estructura y la función de los tejidos nerviosos vivos (ver Fig. 1).
Las máquinas convencionales de visión están formadas típicamente por un sensor
bidimensional de CCD’s, con una resolución de 256 x 256 ó 512 x 512 pixels, y un procesador
digital. Las nuevas generaciones de procesadores digitales (DSP’s) permiten realizar sistemas
muy compactos capaces de captar 25 imágenes por segundo, de estabilizarlas, de auto-enfocar,
de controlar la luminancia/crominancia, etc. El problema surge cuando, aparte de la mera
adquisición de las imágenes, se pretende extraer información de ellas en tiempo real; por
ejemplo, bordes u otras características geométricas, texturas, movimientos, etc. Operaciones
necesarias para pasar de los datos del sensor a una descripción abstracta de la escena en términos
de conceptos similares a los elaborados por nuestro televidente casual (ver Fig.2). Parte del
problema se debe a la separación física y funcional entre captación, realizada por el sensor de
CCD´s, y procesamiento, realizada por el ordenador o DSP, lo que fuerza la transmisión serial
de los datos sensoriales brutos entre ambos dominios. De por sí, esto aumenta el tiempo de
respuesta del sistema en proporción directa a la resolución espacial del sensor (número de pixels
de la imagen completa). Pero además, la propia serialización del cálculo en una unidad central
de procesos, junto con el elevado flujo de datos, y la necesidad de ejecutar varias instrucciones
para cada uno de ellos, crea un cuello de botella insalvable. Así, pese a que sus componentes
internos son muy rápidos, su respuesta global es lenta (ver Tabla 1).
¿Por qué el diminuto cerebro de la mosca es más eficiente para la percepción que un ordenador digital? ¿Qué tipo de estrategias computacionales le permite interpretar imágenes muy
complejas en décimas de segundo cuando sus circuitos neuronales operan en centésimas o milésimas de segundo? Una posible respuesta es que, entre otros factores, esta eficiencia es consecuencia del paralelismo. Este comienza en la retina, que combina la captación de la imagen en
los conos y bastones, con el procesamiento a través de la interacción entre las capas de células
horizontales, bipolares y amacrinas (ver Fig.3a). A partir de la retina el procesamiento se produce a través de una sucesión de estructuras dispuestas en capas de procesadores especializados,
cada una de las cuales realiza un conjunto de operaciones en paralelo. En cada capa se realiza
un procesamiento elemental condensando la información y extrayendo únicamente aquellas
características que son necesarias para el procesamiento ulterior (Fig.3b). Así hasta alcanzar el
nervio óptico, donde el nivel de compresión de la información es, aproximadamente, de 100 a
1. Esta descripción cualitativa no es, sin embargo, suficiente para fundamentar el desarrollo de
sistemas de visión bio-inspirados. Por desgracia, durante mucho tiempo los neuro-fisiólogos se
han dedicado a estudiar el comportamiento de neuronas aisladas. Sólo recientemente han abordado la descripción analítica del comportamiento global del sistema como un procesador paralelo de imágenes, sentando así las bases para los chips de visión.
El desarrollo de chips de visión está condicionado por la necesidad de combinar buena
fotorecepción y procesamiento flexible, con densidades de pixels altas, y consumos de potencia
bajos. Este compromiso hace inviables no sólo la arquitectura de los ordenadores digitales convencionales, sino incluso los estilos de diseño usados en el desarrollo de los mismos. Así, los
chips de visión, y en general los de percepción, subvierten de alguna manera la tendencia de la
microelectrónica hacia una progresiva digitalización, propiciando el retorno masivo de los circuitos analógicos a la arena del diseño microelectrónico (Tabla 1). El principal inconveniente
del procesamiento analógico estriba en la precisión relativamente baja (entre 8 y 10 bits equivalentes), en contra de la precisión sin límite que se puede conseguir con los sistemas digitales.
Por contra, el consumo de potencia y la ocupación de área es mucho menor para los circuitos
analógicos. Sin embargo no debemos olvidar que este tipo de procesamiento lo realizan con
gran eficacia las neuronas biológicas, las cuales poseen una precisión baja (se estima alrededor
de 6bits, sobre el 2%). La dificultad del diseño permanece como un obstáculo y, a la vez, como
un reto para el diseñador conocedor de los entresijos de los dispositivos, experto en las técnicas
y herramientas de los circuitos lineales y no-lineales, y amante de los retos que impone la optimización del diseño analógico.
Un factor condicionante para el éxito de los chips de visión es su viabilidad tecnológica.
La combinación de dispositivos de unión con transistores MOS permite realizar fotoreceptores
con propiedades parecidas a las de los seres vivos, en tecnologías CMOS standard. Esto es, tecnologías desarrolladas para la fabricación de sistemas digitales convencionales que por su gran
desarrollo y volumen de producción permiten la fabricación de circuitos baratos. La Fig.4 muestra un conjunto de estructuras CMOS fotoreceptoras típicas, capaces de operar linealmente en
rangos de hasta 7 décadas de intensidad luminosa. Por otra parte, el propio transistor MOS permite realizar multitud de operaciones básicas para el procesamiento, tal como se ilustra en la
Fig.5. En cada caso, el reto es usar estrategias de diseño que permitan “realzar” una funcionalidad nominal, y atenuar sus parásitos; tarea no siempre sencilla, pero siempre apasionante.
El éxito de los chips de visión en aplicaciones industriales y comerciales depende grandemente de su compatibilidad con los sistemas convencionales de cómputo (digitales), y de su flexibilidad funcional. Ambas características motivan la línea de desarrollo seguida en nuestro
grupo, que se ilustra a través del chip que aparece en la Fig. 1, y que se centra en el diseño de
chips basados en el paradigma de las Redes Neuronales Celulares (CNN, de Cellular Neural
Network). Este chip, realizado en tecnología CMOS standard de 0.8µm, combina la captación
de imágenes y el procesamiento paralelo in situ, propios de los sistemas bio-inspirados, con la
programabilidad de las tareas a realizar, el almacenamiento de datos intermedios e instrucciones
de procesamiento codificadas (programas), propias de los ordenadores convencionales. Además
aunque el circuito opera internamente en base a circuitos analógicos, es totalmente controlable
de forma digital y por ello fácilmente integrable en un sistema convencional. A pesar de que
cada celda incluye tanto la parte de sensado como un procesador completamente programable,
se obtiene una alta densidad de celdas, 31 por mm2, que junto a la constatación experimental de
tiempos de procesamiento de 1µs y precisiones de 6-7 bits nos hacen mirar con prudente optimismo hacia un futuro donde estos, u otros, chips de visión sean interesantes para uso industrial.
En el Instituto de Microelectrónica de Sevilla, se está realizando un gran esfuerzo en el
campo de los chips de visión, trabajando con un amplio grupo de personas, entre las que se
encuentran los autores así como E. Roca, B. Linares y R. Carmona, y colaborando estrechamente con la Universidad de California Berkeley y la Academia Húngara de Ciencias.
CMOS 0.75µm
µP chip
CMOS 0.8µm
DSP chip
CMOS 1.5µm
Analog CNN
Velocidad
200MHz
200 MFlops
60MHz
2Gops
2MHz
50Gops
Precisión
64 bits
16 bits
6bits
Area
16.8x13.9mm2
12.38x12.9mm2
1.5x1.5mm2
Potencia
30w @ 3.3v
2.4w @ 5v
10mw @ 3.3v
Transistores
1.68M
930K
10K
Potencia/
Transistor.
18µw
2.5µw
1µw
Tabla 1:
Comparación de técnicas analógicas y digitales.
1:1
Mp1
Mp2 :1
Io
Mp3
Io
Io
I’o
Mn1
1:1
Mn2
VTH
Figura 1: El el Instituto de Microelectrónica de Sevilla (IMSE) intentamos emular la estructura y el funcionamiento de los sistemas de visión de los seres vivos. En la figura puede
verse un chip de visión diseñado en el IMSE y fabricado en una tecnología CMOS standard
de 0.8 µm, que incluye 20x22 celdas con capacidad de sensar y procesar in situ la imagen.
Análisis a alto nivel
FLOR
Hojas
Análisis a nivel intermedio
Centro
Hojas
Rojo
Pétalos
Hojas
Verde
Azul
Suavizado
Humbralizado
Bordes
Texturas
Análisis a bajo nivel
Datos del Sensor
Figura 2. Niveles básicos analíticos del paradigma señal-a-símbolos para un sistema de
visión.
Células fotoreceptoras
Células bipolares
Células horizontales
Células ganglionares
(a)
Representación abstracta de una escena
Camino Visual Biológico
Células Corticales de Alto Orden
Nivel de Percepción
Células Corticales Hipercomplejas
Compresión de
la Información
Células Corticales Complejas
Células Corticales Simples
Células del NGL
(b)
Células de la Retina
Células Fotoreceptoras
(b)
Transducción
Representación detallada de una escena
Figura 3. (a) Sección transversal de la retina humana. (b) Arquitectura paralelo-jerárquica
del camino visual humano, desde la retina (nivel de transducción) hasta el cortex visual
(nivel de percepción).
out
GND
out
P+
N+
out
GND
N+
P+
out
pozo n
(a)
(b)
substrato p
out
Vdd
P+
N+
GND
Vdd
P+
substrato p
out
GND
P+
P+
out
pozo n
pozo n
out
(c)
(d)
substrato p
substrato p
Figura 4. Dispositivos de unión existentes en tecnologías CMOS estándar (pozo n) usados
para detección de luz. La unión activa aparece sombreada para cada dispositivo. (a) Diodo
pozo/substrato (n-/p-). (b) Diodo difusión/substrato (n+/p-). (c) Diodo difusión/pozo (p+/n-).
(d) Transistor bipolar vertical (p+/n-/p-)
vc
gmvc
vc
Región Óhmica:
W
I D ≈ k -----V DS ( VG – V T0 – nV S )
L
Región Óhmica:
1
L
R Ω = --------- -----------------------------------------------kW ( VG – V T0 – nV S )
VDS debe ser constante
Región de Saturación:
2
kW
I D ≈ ------ ----- ( VG – V T0 – nV S )
2n L
Tensión Early es baja α L
Región de Inversión
Canal Creado
Región Acumulación
Sin Canal
corrientes negativas
vc
Región Óhmica:
L
R Ω ∝ --------kW
C ∝ C ox LW
Offset nulo
Cox ~1Ff/µm2
VDS debe ser pequeño
Región de Corte:
Gran Distorsión
RON → ∞
R
~10KΩ
Región de Saturación
No lineal
Memoria durable
Inyección de carga con puerta flotante
algebraico
Realizados en los Wells
n-well: pnp
p-well: npn
Basado en el Principio Translineal:
IQ
g m ≈ -----Ut
Baja Tensión Early
iin
Caracterización Pobre
kW
g m ≈ --- ----- ( VG – V T0 – nV S )
nL
Sensores Ópticos
corrientes positivas
Figura 5. Operadores analógicos realizables con transistores MOS convencionales.
Descargar