Lección Inaugural 2013 - Real Academia de Ingeniería

Anuncio
Editado por la Real Academia de Ingeniería
© 2013, Real Academia de Ingeniería
© 2013 del texto, Aníbal R. Figueiras Vidal
ISBN: 978-84-95662-17-0
Depósito legal: M-xxxxxxxx-2013
Impreso en España
DE MÁQUINASY HUMANOS
En memoria de los Académicos
que ya no están con nosotros.
El auténtico problema
no es si las máquinas piensan,
sino si lo hacen los hombres.
Burrhus F. Skinner
Excelentísimo señor Presidente de la Real Academia de Ingeniería, excelentísimas e ilustrísimas autoridades, excelentísimos señoras y señores Académicos, señoras y señores:
l sentimiento de gratitud sigue muchas veces al de sorpresa. Tal es
mi caso tras el asombro que me produjo la decisión que adoptó la
Junta de Gobierno de esta Real Academia de encomendarme el discurso a pronunciar en este solemne acto: la Junta me elegía pese a contar con numerosas pruebas de que mis conocimientos y capacidades
expositivas no están a la altura de los que distinguen a los demás miembros de esta corporación, cualquiera de los cuales expondría asuntos
de incuestionable relevancia científica, técnica, empresarial y social aunando profundidad y elegancia. No pasé del asombro al desconcierto
porque enseguida comprendí la razón que movía a la Junta: reconocer
la labor de quienes decidieron acompañarme en la anterior, concediéndome el privilegio de un saber y una entrega que indujeron los éxitos y limitaron el alcance de mis errores. Tengo, pues, la feliz
oportunidad de expresar mi agradecimiento a los integrantes de dos
Juntas de Gobierno: gracias a todos, muchas gracias.
E
Ustedes han decidido asistir a esta Apertura de Curso: mil gracias también. Esta sucesión de decisiones les ha llevado a escucharme ahora;
espero –aunque no confiadamente– que tantas cortesías no les provoquen arrepentimiento. Para evitar esa lamentable consecuencia, solo
me valía dejarme guiar por lo que Jorge Luis Borges declaró en una entrevista: todo el mundo dice cosas memorables, y tal vez la tarea del
escritor sea simplemente repetirlas. La frase es un lúcido ejercicio más
de su proverbial falsa modestia; para mí, la única posibilidad de que mis
palabras resulten interesantes y amenas. De modo que, como ustedes
10
ANÍBAL R. FIGUEIRAS VIDAL
podrán comprobar, en lo esencial, me he apoderado de ideas y frases
de personas eminentes. Les animo a que se deleiten con ellas, y les
ruego indulgencia en aquellos pasajes, fácilmente identificables, de
cuya autoría se puede acusarme.
LA TOMA DE DECISIONES
Cuatro veces han aparecido términos provenientes del verbo latino “caedere”, cortar, expresivo origen remoto de “decidir”: elegir una de las
alternativas que se nos presentan. Aunque la mayoría de quienes nos
afanamos en el cultivo de la ciencia y la técnica sufrimos el inconveniente de que el empleo habitual del lenguaje matemático empobrece
nuestro manejo de la lengua, la reiteración ha sido intencionada: un
apoyo retórico para resaltar ahora que tomamos decisiones con tanta
frecuencia y sobre tan diversas cuestiones que hemos de concluir que
se trata de una muy importante actividad humana, sino la principal.
Me gusta presentar el proceso de toma de decisión mediante el esquema
siguiente:
Toma de decisión.
El humano H percibe una porción p (se suele denominar observación)
de la realidad R, y se pregunta sobre algo a lo que no puede acceder,?.
Procesa p y una parte del contenido de su memoria para construir una
decisión D; con éxito, obviamente, si D es una buena respuesta a ?. La
tipología de estos procesos es muy diversa, desde categorizar un objeto
dado a determinar qué hipótesis explica mejor lo que está ocurriendo.
DE MÁQUINAS Y HUMANOS 11
Permítaseme destacar que en la realidad no observable está el futuro,
de manera que las decisiones pueden ser predictivas “sensu stricto”;
no es futurología, porque, tanto en el mundo físico como en el mental,
la continuidad –evitaré el vocabulario especializado cuando me sea posible– tiene presencia espaciotemporal. También se encuentra en la realidad nuestro interior, cuya percepción precisa de mecanismos no tan
conocidos como los sistemas sensoriales. Aclarados estos extremos,
quiero hacer notar que no solo nuestras predicciones afectan a nuestro
futuro, sino nuestras decisiones en general, ya que modifican nuestro
estado y, en consecuencia, nuestra trayectoria vital.
Renato Descartes, en su obra más citada –me sentiría incómodo si recurriese al adjetivo “conocida”–, nos atribuye a los humanos, de forma
aparentemente harto generosa, un universal e insuperable sentido común. Cada uno de nosotros es incluso más condescendiente consigo
mismo, y se concede la facultad de saber decidir acertadamente, tanto
en la vida diaria como en las situaciones para cuyo análisis ha recibido
la adecuada formación y dispone de la debida experiencia, es decir, actuando como experto. Así pues, nos consideramos a nosotros mismos
como ocasionales competidores de la superinteligencia de Laplace, hipotética entidad que aparece en el Essai Philosophique sur les Probabilités:
“Una inteligencia que, en un instante dado, conociese todas las fuerzas de
que se halla animada la naturaleza, así como la situación de todos los seres
que la componen, si fuese además lo suficientemente amplia como para someter estos datos a análisis, podría englobar en una sola fórmula los movimientos de los cuerpos más grandes del universo y los del más pequeño
de los átomos: nada le resultaría incierto, y tanto el futuro como el pasado
se encontrarían presentes ante sus ojos”.
No se hace precisa la invocación a Heisenberg como exorcismo contra
esta demoníaca superinteligencia: la imposibilidad de manejar cantidades con infinitas cifras y la probada existencia de fenómenos caóticos constituyen argumento suficiente. Toléreseme un inciso:
paradójicamente, Laplace aportó contribuciones mayores a la teoría de
la probabilidad. Los científicos no descubren mientras que los artistas
crean: los científicos imaginan y construyen modelos de la realidad,
cuyo valor radica en su capacidad de representarla y explicarla más
que en su belleza… pero tampoco renuncian a esta.
12
ANÍBAL R. FIGUEIRAS VIDAL
Regresemos al tema discutido: el hecho de que ninguno de nosotros
acredite en muchos otros las dotes de racionalidad que se otorga a sí
mismo supone un conflicto que, de una parte, evidencia que en los escritos de Descartes tenía cabida la ironía, y, de otra, que no solo la prudencia, sino también la lógica nos aconsejan maniatar la vanidad y
aceptar que el caos o el azar implican que nuestra realidad es la que
describe “La lotería en Babilonia” –¡otra vez Borges!–.
LAS MÁQUINAS ENTRENABLES
En llegados aquí, ya no tengo reparo en revelarles que la mayor parte
de mi labor profesional consiste en una agradable combinación de enseñar y de concebir, diseñar, evaluar y aplicar algoritmos cuyo objeto
es hacer inferencias a partir de datos; por ejemplo, decidir a qué hipótesis corresponden o a qué clase pertenecen. En inglés, esos algoritmos
reciben la denominación genérica de “learning machines”, máquinas
que aprenden. Mis excusas: no son máquinas, ingenios mecánicos que
transforman energía en trabajo, lo que resulta etimológicamente irrefutable. Tampoco aprenden: se consigue que aprehendan, pero aun no
asimilan. Sin embargo, transforman datos en información y seleccionan decisiones. Como la metáfora también existe en Ciencia y Técnica
–su éxito se demuestra porque hablamos sin inquietud de corriente
eléctrica, de onda electromagnética y de célula viva–, no debemos escandalizarnos. Aunque, por si hubiera sensibilidades muy opuestas a
la hipérbole –o a la animación–, daré preferencia a la expresión “máquinas entrenables”, que refleja más fielmente la naturaleza de estos
algoritmos.
En apretado resumen, una máquina de decisión entrenable establece
los valores de un conjunto de parámetros de una familia de funciones
de las que las variables registradas constituyen el dominio, la entrada,
y su rango, su salida, consiste en los indicadores de las decisiones posibles. Una ilustración sencilla aliviará las dificultades de los ajenos a
esta terminología.
Se ha representado un clasificador lineal binario: una recta separa las
regiones en que se decide según el indicador d= sgn(w0+w1x+w2y),
que vale 1 en el semiplano superior y -1 en el inferior. Comúnmente, y
DE MÁQUINAS Y HUMANOS 13
Máquina de decisión lineal.
como para cualquier otro tipo de clasificador, los parámetros w0, w1 y w2
se determinan a partir de muestras etiquetadas, provenientes de experimentos previos en los que se obtienen las decisiones correctas dk
para los ejemplos de observaciones xk, yk, que se proponen en número
adecuado. Para ello, se aplica un criterio que reduzca las diferencias
entre las dk y lo que el clasificador indica, persiguiendo no tanto minimizar el número de errores como una adecuada capacidad de generalización: suficientes salidas correctas ante instancias aún no observadas
–lo que se llama también capacidad predictiva, ya que anuncia lo que
conviene hacer ante situaciones nuevas–. Excúsenme ustedes por no
entrar en detalles analíticos, pero no es momento para eso, sino únicamente de proyectar alguna luz sobre la naturaleza de las máquinas entrenables. Quienes sientan curiosidad, pueden saciarla con el contenido
de las citas bibliográficas.
Sé que este ejemplo ha provocado en bastantes de ustedes una reacción
de incredulidad. Incluso admitiendo que la forma de la frontera de separación entre las clases sea más general que una simple recta, ¿cómo
puede una función parametrizada competir con un humano resolviendo problemas de decisión? Más adelante tendremos ocasión de
comprobar si es así, pero debo ahora dejar claro que, en el momento
actual, se diseña una máquina de decisión específica para cada problema que se considera –lo que no difiere grandemente de lo que nosotros acostumbramos a hacer–. Por lo tanto, la comparación justa es
la de máquinas frente a personas en la resolución de problemas concretos.
14
ANÍBAL R. FIGUEIRAS VIDAL
En principio, la primera figura que les he mostrado sirve igualmente
para representar la actuación de una máquina que toma decisiones.
Una representación más completa desvela las diferencias.
Decisiones de un humano y de una máquina.
En primer lugar, lo percibido por el humano y lo registrado por la máquina (a partir de los adecuados sensores o instrumentos de medida)
no es idéntico. En cierto sentido, podría serlo: la persona está capacitada
para leer los registros, y la máquina para recibir las salidas de cámaras, micrófonos, transductores táctiles, olfativos, etc. Pero como, en segundo lugar, humano y máquina procesan esa información de manera
profundamente diferente, no parece recomendable molestarlos con lo
que no pueden o no saben aprovechar.
Los humanos procesamos lo percibido p –en realidad, algo relacionado– junto con ciertos contenidos de nuestras memorias, m, mediante
mecanismos todavía no bien conocidos, pero solo remotamente similares a una función. Las máquinas computan una función M de lo registrado r y de lo memorizado, los parámetros w. No creo preciso dar
argumentos en defensa de la afirmación de que no podemos reproducir el proceso máquina por la enorme limitación que padece nuestro
cerebro en cuanto a potencia de cálculo.
Una vez apreciadas las diferencias, resulta muy arriesgado inclinarse
por una hipotética superioridad humana para tomar decisiones, incluso
en situaciones aparentemente favorables. Pero nuestro ciego antropocentrismo –nuestros sistemas sensoriales captan fielmente la realidad,
nuestras mentes disponen de recursos incomparables– nos condena a
DE MÁQUINAS Y HUMANOS 15
aferrarnos a esa creencia. Es verdad, por ejemplo, que nuestra memoria
de trabajo no se reduce a un almacén de casos del problema bajo análisis, y que alberga también analogías y, lo que importa todavía más, consecuencias de experiencias pasadas, que ayudan a calibrar acertadamente
los costes de éxitos y errores. Entonces, ¿tenemos realmente ventaja?
LA TOMA DE DECISIONES POR HUMANOS
Los primeros estudios sistemáticos de los procesos de toma de decisiones por las personas, los abordó el economista y pensador Herbert
Simon en los cincuenta del pasado siglo. Simon, que también consideró la posibilidad de idear, diseñar y aplicar máquinas de decisión,
fue distinguido por sus trabajos con el Premio Nobel de Economía; o
tal vez deba decirse que su presencia en la lista de los galardonados da
lustre al premio, puesto que puso en entredicho la existencia de los
hasta poco ha incondicionalmente aceptados “agentes completamente
racionales”, y, con ello, causó una conmoción que ha separado la profesión en dos facciones, la clásica y la que podría llamarse “cognitiva”
siguiendo a Dan Ariely, cuyas obras de divulgación, incluidas en la bibliografía, bastan para apreciar la trascendental importancia de la división.
No se sorprenderán cuando me oigan decir que lo propuesto por Simon lleva al nombre de teoría de la Racionalidad Limitada. Escribió el
Nobel en la página 198 de la obra citada en la bibliografía:
“La capacidad de la mente humana para formular y resolver problemas
complejos es muy pequeña comparada con el tamaño de los problemas
cuya solución se requiere para un comportamiento objetivamente racional
en el mundo real –o incluso para una razonable aproximación a tal racionalidad objetiva”.
Los efectos de esta teoría y su desarrollo no solo están sacudiendo los
pilares de las teorías económicas; también han influido en las perspectivas adoptadas por informáticos, ingenieros, neurocientíficos y sicólogos cognitivos. Estos últimos, en los ochenta, se escindieron en dos
escuelas: la descriptiva y la normativa.
16
ANÍBAL R. FIGUEIRAS VIDAL
Defiende la escuela descriptiva que los humanos, en lo que nos es propio, decidimos de manera difícilmente mejorable. Defiende la escuela
descriptiva que ello se debe a la especial dotación de nuestro cerebro
para, con la debida experiencia, resolver con acierto problemas de elección con información parcial, que costituyen la mayoría de los que nos
encontramos. Defiende la escuela descriptiva que los numerosísimos
ejemplos experimentales y de la vida real que lo corroboran no admiten réplica. Defiende la escuela descriptiva que la asimilación de principios y métodos de las teorías analíticas frecuentista y bayesiana
reduciría las más sobresalientes virtudes de nuestra intuición, causando
más perjuicio que provecho.
Un muy destacado representante de la repetida escuela es el prestigioso sicólogo alemán Gerg Gigerenzer, autor de una admirable obra
científica y de una valiosa serie de libros de divulgación. Entre sus propuestas, la que él mismo bautizó como “menos es más” ha despertado
mucha atención y ganado un merecido respeto. Viene a afirmar que,
en numerosas ocasiones, un menor conocimiento produce un mayor
acierto, gracias a nuestra aplicación intuitiva de algunos principios sencillos, pero muy sólidos. No se dejen dominar por la perplejidad; el
análisis de uno de sus experimentos más famosos les convencerá de
que se no trata de una incoherencia.
Se preguntó a un grupo de estudiantes universitarios norteamericanos
y a otro de alemanes: ¿Qué ciudad tiene más habitantes: Milwaukee o
Detroit?
El grupo norteamericano distribuyó sus respuestas: un 60% contestó
Detroit, un 40%, Milwaukee. Prácticamente el 100% de los estudiantes
alemanes acertó: Detroit.
Concluir, irreflexivamente, que los estudiantes alemanes son más cultos que los norteamericanos no es correcto. Subyace aquí un proceso
muy distinto. Precisamente los estudiantes alemanes oyen o leen la
palabra Detroit escasas veces, y menos aun Milwaukee, de cuyas poblaciones apenas conocen el orden de magnitud. En tan incómoda tesitura, la intuición les dictaba que, si Detroit se les aparecía con más
frecuencia que Milwaukee, era probable que fuese mayor; lógica subyacente: el número de apariciones ha de ser “grosso modo” propor-
DE MÁQUINAS Y HUMANOS 17
cional a la importancia, y la importancia, al tamaño. El grupo norteamericano disponía de mucha más información –no directamente demográfica, en general–; tenerla en cuenta, como se ve, produjo
consecuencias negativas. Y repárese en que lo destacable del experimento no es el elevado acierto de los alemanes, sino la sustancial diferencia entre los dos grupos.
Basándose en este y otros conceptos similares, Gigerenzer propone un
modelo de la toma de decisiones por humanos, la “Caja de Herramientas”, cuya representación les muestro.
La caja de herramientas.
Tras identificar la situación, aplicamos un proceso sencillo, la herramienta, que seleccionamos de una colección disponible en nuestra
mente, la caja.
Motivos de tiempo me impiden entrar en la discusión de los componentes de la caja y en la descripción de experimentos que apoyan su
validez y prueban su utilidad; pero la bibliografía incluida en la versión
escrita de esta disertación les permitirá resarcirse de escucharme a mí
y recuperar lo dicho por Gigerenzer.
Pronunciaré pocas frases propias porque no deseo que un empobrecedor cambio de voces les cause un trauma; paso inmediatamente a exponerles una síntesis, también mínima, de las ideas de la escuela
normativa, haciéndome respetuoso eco de las palabras de sus cimas:
18
ANÍBAL R. FIGUEIRAS VIDAL
Daniel Kahneman –como Simon, Premio Nobel de Economía– y Amos
Tversky –ya fallecido, para tristeza de todos.
Los estudios de los investigadores normativos ponen de manifiesto
que los humanos cometemos innumerables errores al tomar decisiones, y de todos los tipos posibles: de percepción –por limitaciones de
nuestros sentidos–, de memoria –por su fragilidad y su falta de fiabilidad–, y de procesamiento, tanto al plantear el problema –fallos en
la selección de la información relevante y en la apreciación y valoración de los resultados posibles– cuanto analíticos –destacando los
errores lógicos y probabilísticos–. Seguramente pensarán ustedes que
la experiencia va curando estos males; curiosa y desgraciadamente,
no es así: también incurrimos en errores de comprobación, de entre los
que sobresalen las construcciones narrativas “a posteriori” con las
que (nos) explicamos por qué y cómo hemos adoptado las decisiones, y que suelen quedarse en subterfugios para preservar nuestra
autoestima.
Sé que todos oponemos una feroz resistencia a admitir estos defectos;
más concretamente, a aceptar que nosotros mismos caemos en ellos.
Voy a dedicar algunos minutos a presentar evidencias en contra de esa
vana ilusión. Lo hago, en primer lugar, porque si ustedes concluyen
que estos riesgos son reales, podrán cambiar de actitud y defenderse
mejor de ellos, lo que bien vale una conferencia. En segundo lugar, porque si se reduce la sobrevaloración de las capacidades humanas, se
comprende mejor la utilidad de las herramientas y, si conviene, se recurre a ellas con menos escepticismo; en lo que nos ocupa, a las máquinas de ayuda a la toma de decisiones.
ERRORES DE PERCEPCIÓN
Raramente ponemos en duda que lo que percibido a través de nuestros sentidos se corresponde con la realidad. Estamos particularmente
satisfechos con nuestra visión, y depositamos en ella una incondicional
confianza: decimos “lo he visto con mis propios ojos” y “si no lo veo,
no lo creo”. Deberíamos decir “lo he visto con mi propia mente” y “si
no lo creo, no lo veo”.
DE MÁQUINAS Y HUMANOS 19
La siguiente imagen
¿Convexidades?
se nos aparece como un conjunto de abultamientos regularmente distribuidos en una superficie plana. Por el contrario, contemplar la representación
¿Concavidades?
nos produce una sensación de hundimientos con la misma distribución. En realidad, como indica la flecha, ambas imágenes son la misma,
colocada “hacia arriba” o “hacia abajo” (puede el lector comprobarlo
dándole la vuelta al libro que tiene entre sus manos).
Nuestro sistema visual –como los demás sistemas sensoriales– incluye
el cerebro, y el cerebro construye lo que vemos a partir de la informa-
20
ANÍBAL R. FIGUEIRAS VIDAL
ción óptica y de una serie de reglas –continuidad, simetría, etc.– cuya
razón última radica en la ventaja que proporcionan para nuestra cómoda y rápida interpretación de la realidad; ventaja, por tanto, evolutiva. Nuestra mente, y no nuestro entorno, es la caverna platónica; y
según para qué, puede ser mejor que nos encontremos en ella.
En el ejemplo, el cerebro interpreta los círculos punteados como convexidades o concavidades conforme a la regla de que, en la naturaleza,
la luz –la solar– viene de arriba. El sol nos ha iluminado durante millones de años, y por ello ha entrado en nuestras mentes. Todavía hoy
la imagen de gentes reunidas de noche en torno a una hoguera tiene un
nosequé de misterioso, de fantasmal, … de irreal. Y todos ustedes han
comprobado que la sutil disposición de la iluminación artificial crea
ambientes muy distintos unos de otros.
Ni con mucho es el anterior un ejemplo excepcional: el cerebro siempre interviene en nuestra percepción visual, más o menos acusadamente. No hay posibilidad de que les entretenga con otras pruebas de
la asombrosa capacidad constructiva de nuestro sistema visual, pero
les reitero que la bibliografía –en este caso, el buen texto de Donald
Hoffman– compensa esta restricción. Solo me queda sugerir que, además de prestar atención a lo que veamos, muy verosímilmente una somera educación en artes plásticas remediaría mucho arrogante
desconocimiento. Y todo, sin mencionar la estrechez de la ventana visible del espectro de frecuencias.
ERRORES DE MEMORIA
Acceder a la memoria mientras transcurre el proceso de adoptar una
decisión es un recurso cognitivo. Las personas, en las etapas finales de
ese proceso, cargamos la memoria de trabajo con conocimiento “ad
hoc”. Y se pueden producir fallos desde la misma obtención de ese contenido.
Uno de los más famosos experimentos que llevaron a cabo y discutieron Kahneman y Tversky examina esta accesibilidad. Encontramos más fácil recordar palabras con la estructura “_ _ _ _ing” que
con la “_ _ _ _ _n_”, y podemos concluir que debe haber mayores por-
DE MÁQUINAS Y HUMANOS 21
centajes de las primeras que de las segundas en cualesquiera textos,
salvo que prestemos atención a cómo se relacionan ambas estructuras.
El riesgo de caer en este error es muy pequeño, puesto que la relación
salta a la vista. De hecho, el experimento contaba el número de palabras
de cada tipo que recordaban sujetos distintos. Pero hay versiones que aparejan más peligro: en español, ¿hay más palabras que acaban en r o que
tienen una r como antepenúltima letra? La abundancia de verbos entre
las primeras, fácilmente recuperables, y la constatación de que cada uno
da lugar a formas terminadas en –rás, –rán, –ría, –ras, –ran, –res y –ren
sirve de aviso de la debilidad de nuestra actuación en estas situaciones.
Errores de disponibilidad es el nombre genérico que reciben los de esta
clase; se originan por la distinta facilidad de recuperar informaciones
almacenadas en nuestro cerebro. En los ejemplos considerados, provienen de que no leemos fijándonos en todas las letras, sino en grupos
de letras o en letras que ocupan ciertas posiciones (inicial y final) en las
palabras, que, como dije en otra conferencia, son los elementos “vivos”
más pequeños del lenguaje. No me canso de admirar cómo Jorge Luis
Borges, en “La biblioteca de Babel”, crea belleza a partir de esta diferencia entre el lenguaje y la combinatoria. La variante compacta “El libro de arena” ha perdido ese mágico encanto.
Las manifestaciones de los errores de disponibilidad son muy variadas. Particularmente terrible es el efecto ancla, o tendencia a recuperar
y sobrevalorar la más reciente información recibida sobre el asunto que
se considera. Eso propicia los técnicamente llamados procesos de contaminación, de los que uno de los incondicionalmente reprobables consiste en sesgar las respuestas a una pregunta formulando esta de forma
no neutral: resaltando las ventajas o los inconvenientes de alguna de las
opciones. No es preciso recordarles que se trata de un hábito perverso
de bastantes políticos y de algunos medios de comunicación; también
practican estas tretas los malos abogados. Pero de la contaminación se
sirven también muchos otros agentes, como ciertos publicistas. Nuestra memoria de trabajo nos da la oportunidad de resistirnos al mensaje
de un anuncio. Pero yo mismo he comprobado que esta defensa se debilita ante anuncios divididos en dos partes separadas escasos segundos (o presentadas cada dos páginas), ya que el recuerdo de la primera
ocupa la memoria de trabajo y conduce al error de anclaje. Les reco-
22
ANÍBAL R. FIGUEIRAS VIDAL
miendo vivamente que se defiendan de estas infames prácticas; pero
eviten el efecto rebote: otro bien conocido experimento da a leer a los
participantes un texto sobre agresiones, y, tras ello, se les solicita su
apreciación sobre la agresividad de un individuo al que no conocen,
pero al que pueden observar. Un cierto número de sujetos sobrerreacciona y acaba infravalorándola.
Muy relacionado con el efecto ancla está el efecto halo: la atribución de
cualidades a un individuo por mor de que se encuentra en una posición
en la que tales cualidades son importantes. Suele producirse de modo
colectivo, principalmente alrededor de personajes de relevancia pública o profesional. Sus consecuencias son múltiples; algunas graves,
como poner en compromiso la validez de muchos sondeos y encuestas, precisamente porque se le conceden al personaje –o a la entidad–
virtudes plausibles … pero no probadas. Un certero análisis de este
efecto –y otros relacionados con él– en el ámbito de los negocios se hace
en el libro de Phil Rosenzweig que puede verse en la bibliografía.
No albergo la intención de incrementar la inquietud que probablemente
les haya producido conocer las imperfecciones de nuestra memoria de
trabajo, pero me considero obligado a no omitir que también se producen en la memoria problemas de grabación, de mantenimiento y de
modificación, sin hablar de los derivados de daños anatómicos y patológicos. Su aparición tiene por causa nuestra necesidad de olvidar.
La prodigiosa narración “Funes, el memorioso” –vean ustedes que Borges ocupa mucho lugar en mis neuronas– expone cuáles serían las consecuencias de no hacerlo: una mente saturada por un maremágnum
de trivialidades que la inutilizarían por completo.
En general, la fidelidad de la memoria es más que cuestionable, porque
evoluciona, muchas veces defensivamente, con nosotros. Luis Rojas
Marcos resalta que la explicación:
“Tengo una imagen muy clara en mi memoria de cómo el poste de teléfonos se me aproximaba… Yo intenté esquivarlo, pero se estrelló contra mi
coche”
no la dio una persona embriagada, sino una sobria, sensata y merecidamente prestigiosa profesora de literatura. El presente deforma
DE MÁQUINAS Y HUMANOS 23
la memoria autobiográfica, lo que interfiere –aunque no se sabe
cómo– con la memoria semántica –la que guarda los significados– y
la de trabajo.
ERRORES DE PROCESAMIENTO
No sería de extrañar que ustedes concluyesen que hemos de conformarnos con lo que la evolución biológica ha hecho de nosotros, pero
mantuviesen con firmeza la convicción de que nuestros razonamientos
no se despeñan por los mismos precipicios. Examinémoslo.
Con seguridad, el más celebrado y debatido experimento de Kahneman y Tversky es el de Linda:
“Linda tiene 31 años, es soltera, abierta y muy brillante. Se graduó en Filosofía. Cuando estudiaba, se preocupaba seriamente de cuestiones de discriminación y justicia social, y también participó en manifestaciones
antinucleares.
Ordene de más a menos probable las siguientes posibilidades:
1. Linda es maestra en una escuela de educación elemental;
2. Linda trabaja en una librería y toma clases de yoga;
3. Linda es activista del movimiento feminista;
4. Linda es trabajadora social en siquiatría;
5. Linda es miembro de la Liga de Mujeres Votantes;
6. Linda es cajera de banco;
7. Linda es vendedora de seguros;
8. Linda es cajera de banco y activista del movimiento feminista”.
Nada importa que la opción 8 sea la conjunción de la 3 y la 6: el 89%
de los sujetos sin conocimientos de teoría de las probabilidades, ¡el 90%
de quienes los tenían y el 85% de los expertos! consideraron que la probabilidad de que Linda fuese cajera y activista era mayor que la de que
fuese cajera.
Yo mismo llegué a sospechar que podría tratarse de una dificultad atencional y no lógico-probabilística. Hace unos años, aproveché mi intervención en un congreso que reunía a especialistas en diagnóstico clínico,
gestores a diversos niveles de sistemas sanitarios y técnicos especializa-
24
ANÍBAL R. FIGUEIRAS VIDAL
dos en herramientas de ayuda al diagnóstico, para proponerles, en sesión
plenaria, una versión del problema de Linda en que las alternativas quedaban reducidas a las relevantes para el experimento, la 3, la 6 y la 8. El
50% de los presentes cometió el mismo error de conjunción.
Reconozco que no me sorprendió: lo esperaba. La sorpresa vino con
las respuestas a un subsiguiente cuestionario en el que se preguntaba
qué características demandarían de un sistema de ayuda al diagnóstico “de ciencia ficción”, de entre coste inapreciable, manejo elemental,
explicación completamente inteligible de sus recomendaciones, y así
hasta llegar a infalibilidad. No comprendí los resultados: una amplia
mayoría relativa –aproximadamente el 40%– eligió la infabilidad. Supuse inicialmente que habían prescindido de “ciencia” y pensado únicamente en “ficción”. Varias conversaciones me convencieron de que
estaba equivocado: la dificultad para descartar la infalibilidad radicaba
en la incomprensión de la presencia del azar en la realidad. Esta incomprensión es no solo muy frecuente, sino –y disculpen el juego de
palabras– comprensible: nace del inevitable miedo a equivocarse
cuando la toma de decisiones apareja una seria responsabilidad.
Gigerenzer puso en entredicho más enérgicamente la validez del experimento de Linda, argumentando que estaba planteado de forma
confusa y que bien podría interpretarse la proposición 6, “Linda es cajera”, como “Linda es solamente cajera y no activista”, por contraposición con la 8. La réplica de Kahneman y Tversky fue demoledora.
Incluyeron en una segunda tanda de experimentos la elección complementaria de uno de los siguientes argumentos como válido:
“Argumento 1: es más probable que Linda sea cajera de banco que activista
y cajera de banco, porque todas las cajeras activistas son cajeras, pero algunas cajeras no son activistas, y Linda podría ser una de las últimas.
Argumento 2: es más probable que Linda sea activista y cajera de banco
que cajera de banco, porque parece más una activista feminista que una cajera de banco”
El 65% de los participantes prefirieron el segundo argumento. Esto evidencia uno de los severos defectos de nuestro juicio: nos dejamos guiar
por estereotipos y por la característica más sobresaliente. En términos
DE MÁQUINAS Y HUMANOS 25
más generales, deja a la vista una de las tendencias que nos evita esfuerzo e incomodidad; la conocida como falacia narrativa, o explicar
mediante una narración construida “ad hoc” las razones de nuestra decisión, incluso si sabemos que es errónea.
Habrá entre ustedes quienes sostengan, como muchos distinguidos
economistas de la escuela de Chicago, que el mero hecho de que los
participantes sepan que se encuentran en una situación experimental
imposibilita la extrapolación de los resultados, aunque sea cualitativamente, a la vida real. Permítanme que oponga a ello que existen numerosos casos no experimentales que avalan lo revelado por los
experimentos sobre nuestras limitaciones en razonamiento lógico–probabilísticos. Les hablaré de uno de esos casos, que fue noticia
destacada en los medios de comunicación, cuyos datos tomo del excelente libro de Leonard Mlodinov The Drunkard Walk.
Son muchos los procesos judiciales en que tiene éxito la falacia del fiscal, o bien su simétrica, la falacia del abogado defensor. Esta lo tuvo en
el juicio seguido contra el jugador de rugby O. J. Simpson, acusado del
asesinato de su esposa Nicole. Su defensor, el profesor de Derecho de
la Universidad de Harvard Alan Dershowitz, recurrió a los siguientes
datos estadísticos: cada año, en los Estados Unidos, en aquella época,
cuatro millones de mujeres recibían maltrato de sus maridos o novios;
pero solo una de cada 2.500 era asesinada por ellos. Esta trampa analítica se impuso a otros indicios y pruebas en las mentes de los miembros
del jurado, y el veredicto, como todos recordamos, fue: no culpable.
Dos crímenes quedaron así impunes. El segundo, enterrar la memoria
de Thomas Bayes, clérigo británico a quien se deben la fundamental
idea de tener en cuenta las probabilidades dados los hechos y la forma
de calcularlas. Como coincido con Gigerenzer en que, hasta para personas versadas en probabilidad, las explicaciones por medio de frecuencias relativas resultan más asequibles –no en vano llevo cuarenta
años enseñando tratamiento estadístico de la información en la universidad–, procederé de ese modo.
De lo que no cabía duda alguna es de que Nicole Simpson había sido asesinada. Según los informes de criminalidad en los Estados Unidos, en
aquel entonces solo una de cada 2.250 mujeres que padecían maltrato do-
26
ANÍBAL R. FIGUEIRAS VIDAL
méstico resultó asesinada. Consideremos una muestra de 22.500 mujeres
maltratadas; de acuerdo con lo anterior, una de cada 2.500 lo fue por su
marido o novio: un total de 9 en dicha muestra. Pero de esas 22.500, únicamente 10 fueron asesinadas; por tanto, solo una de cada 10 lo fue por
alguien que no era su marido o su novio. Incluir los hechos en los cálculos convierte una probabilidad aparente –falsa– del 0,4‰, en la real, del
90%. Les ruego que observen que si un fiscal falaz hubiese tendido su
trampa –solo una de cada 22.500 mujeres maltratadas era asesinada por
un extraño–, la suerte de Simpson habría sido, casi con certeza, muy otra.
No sean ustedes tan exageradamente biempensantes como para creer
que estas falacias se deben siempre a la ignorancia de los titulados en
leyes, los “letrados”, sobre materias matemáticas. El profesor Dershowitz escribió en un libro publicado en 1983:
“[…] el juramento en la corte de justicia –decir la verdad, toda la verdad y
nada más que la verdad– solo es aplicable a los testigos. Los abogados defensores, fiscales y jueces no hacen este juramento […], es justo decir que el
sistema judicial estadounidense está edificado sobre la base de no decir toda
la verdad”.
No haré comentarios: me limitaré a decir que es altamente probable
que la impunidad del primero de los crímenes fuese consecuencia de
un burdo engaño que los miembros del jurado no supieron detectar, y
que, para mí, lo que el matemático y pensador húngaro László Mérö advierte sobre la necesidad de respetar ciertos principios en los juegos estratégicos –otra valiosa familia de modelos de la realidad– merece
prioridad ante cualesquiera otras consideraciones.
Existen muchos más tipos de errores de procesamiento provocados por
nuestra mala apreciación de lo gobernado por el azar, nuestra aversión
al riesgo, nuestra sensibilidad a los marcos, y otras características humanas. Pero confío en que no haga falta recurrir a un tratado exhaustivo para convencerles de que, en la vida real, pueden ustedes sufrir
graves perjuicios por las limitaciones analíticas de nuestras mentes en
la toma de decisiones. Si peco de exceso de confianza, tolérenme que
me repita: desquítense consultando las referencias que cierran la publicación en la que esta Real Academia recoge lo que ahora tan amablemente escuchan.
DE MÁQUINAS Y HUMANOS 27
LA UNIFICACIÓN DE LAS VISIONES DICOTÓMICAS
Puedo imaginar lo confundidos que se sienten por mi apresurado resumen de las posturas de las escuelas descriptiva y normativa. ¿Cuándo
ayuda la intuición a adoptar decisiones correctas?; ¿no es también la
identificación del escenario una fuente de errores?; ¿es preferible tomar decisiones según el modo analítico si da lugar a tantos y tan profundamente arraigados errores?.
No muy recientes –pero hoy considerados completamente válidos– descubrimientos de la Neurociencia parecen amenazarnos con la imposibilidad de tomar las riendas. El neurofisiólogo Benjamin Libet midió
hace casi cuarenta años, en electroencefalogramas y electromiogramas,
diferencias de tiempos entre la activación muscular y la consciencia de
que se deseaba pulsar un botón cuando aparecía un cierto estímulo. La
activación muscular precedía a su consciencia en 300 milisegundos.
Parecía que el cerebro daba órdenes de actuación antes de permitirnos
saber que lo iba a hacer. Podría estimarse que el fenómeno se debe a una
mayor velocidad de transmisión para la ejecución de tareas mecánicas,
e incluso que con eso obtendríamos ventajas. Los posteriores trabajos de
John-Dylan Hynes en el Instituto Max Plank no avalan estas hipótesis:
las imágenes funcionales del cerebro revelan que la aparentemente libre
decisión de pulsar un botón con la mano derecha o con la izquierda se
toma… ¡siete segundos antes de ser conscientes de ello!
Siendo así las cosas, no cabe sorprenderse porque las justificaciones “a
posteriori” persigan preservar nuestra autoestima. Pero, ¿de verdad
somos juguetes en manos de nuestra fisiología?
El excepcional investigador en Neurociencia Antonio Damasio, que ha
dedicado la mitad de su vida a definir y caracterizar nuestra consciencia, recomienda combinar intuición y razón, sentimientos y corteza
frontal, en diferentes proporciones según la naturaleza del problema y
la situación, para actuar lo más inteligentemente que podamos. Que el
corazón ve y aprecia lo que la razón no percibe y no entiende es una paráfrasis de una conocidísima cita, pero, dicho así, sugiere claramente
que la diversidad de informaciones y de procesamientos debe ser aprovechada. Y Damasio sabe que es posible, porque es profundo conocedor de las interacciones entre las distintas regiones del cerebro.
28
ANÍBAL R. FIGUEIRAS VIDAL
Personalmente, prefiero, dados mis limitadísimos conocimientos de
Neurociencia, las explicaciones de esta posibilidad en la terminología
y con las argumentaciones del sicólogo cognitivo Keith Stanovich. Su
reciente publicación Rationality and the Reflective Mind es una de las lecturas que más ha influido en mi actual modo de pensar y, aunque especializada, es accesible para los profanos como yo.
Apoyándose en múltiples evidencias y valiéndose de sólidos razonamientos, la teoría de los Procesos Duales de Stanovich establece que la
convivencia de los procesos mentales autónomos (intuitivos), que él
llama de Tipo 1, y los algorítmicos, los de Tipo 2, está regulada por otra
parte de la mente, la reflexiva. Esta mente reflexiva –distinta de la algorítmica– observa la actuación de la mente autónoma –la primera en
intervenir– y, cuando percibe algún inconveniente, llama a la algorítmica, que desconecta la autónoma –o más exactamente, la controla– y
pasa a enfrentarse con el problema a resolver, según esquematiza el
diagrama que sigue.
Procesos Tipo 1 y Tipo 2
Por tanto, la racionalidad humana depende más de la mente reflexiva
que de la algorítmica. Ambas pueden entrenarse; pero el contenido de
la mente reflexiva es el conocimiento general, las creencias y los propósitos, y no reglas lógicas o computacionales; ambos entrenamientos
han de ser, pues, distintos.
El detalle del modelo de los Procesos Duales permite a Stanovich construir una taxonomía de los errores en la elaboración de juicios mucho
más ajustada que la muy gruesa que yo he empleado en estas líneas;
solo el deseo de sencillez en la exposición me sirve de disculpa por no
DE MÁQUINAS Y HUMANOS 29
haber recurrido a ella. Es obligado señalar que, gracias a la relación de
esa fina taxonomía con los procesos mentales, puede el autor de Rationality and the Reflective Mind dedicar su último capítulo a esbozar una
estructura de paradigmas de medidas y subsiguientes métodos educativos para combatir nuestra propensión a cometer un buen número
de los repetidos errores, citando numerosos trabajos que aportan evidencias empíricas favorables a tales propuestas. Aunque el mismo Stanovich resalta la necesidad de mucha más investigación sobre todo
esto, mi experiencia personal impartiendo una asignatura avanzada
–quinto curso– de ingeniería, Innovación Tecnológica –concretamente,
la muy gratificante parte dedicada a la creatividad–, me permite asegurarles que esta vía promete mucho más beneficio que las confusas recetas para cocinar guisos de conocimientos, capacidades y habilidades
con que los pedagogos “dominantes” han irrumpido en la enseñanza
universitaria, conduciendo a la mayoría del profesorado, desconcertada y casi indefensa, a pretender entelequias como formar tardíamente
la mente reflexiva reclamando atención a conocimientos analíticos.
Me parece que, con la pobre síntesis de tanta ciencia que he podido
ofrecerles, aunque sin deleitarles, posiblemente haya conseguido lo que
pretendía: atenuar los ánimos de autosuficiencia y propiciar un más
abierto recibimiento de las máquinas entrenables. Sin embargo, no las
volveré a presentar ante ustedes sin unas palabras que les sirvan de
orientación: aun pensando únicamente en máquinas dedicadas a tareas muy concretas, transferir a su concepción y diseño ideas extraídas
de lo que actualmente se sabe acerca de la toma de decisiones por los
humanos –desafiante reto– abre las puertas a aumentar sus prestaciones, que ya son excepcionales en muchas situaciones reales. Las máquinas son decididamente superiores en potencia de cálculo, pero por
el momento no hemos conseguido dotarlas de características de comportamiento racional. Una inexcusable aclaración: no me refiero a los
Sistemas Expertos, compuestos por conjuntos de reglas (“si… entonces…”) elucidadas por expertos o inducidas a partir de ejemplos
–frecuentemente en forma de Árboles de Decisión, o reglas aplicadas
secuencialmente–; se ha comprobado que su utilidad es limitada –aunque sirven como excelentes soportes de protocolos de actuación–. En mi
humilde opinión, la razón primera por la que así ocurre se encuentra
en que nuestro pensamiento no se reduce a reglas –afortunadamente–,
aunque nos sea cómodo invocarlas –las interpretamos sin esfuerzo–
30
ANÍBAL R. FIGUEIRAS VIDAL
pese a sus comprobadas limitaciones. En realidad, creo, nuestros cerebros son cajas negras –como las máquinas entrenables– de cuyo interior empezamos a vislumbrar algún destello. Me parece que tanta
oscuridad nos fuerza a encender la vela de las falsas justificaciones narrativas: pero, en definitiva, nos dejamos guiar por una –harto compleja y poderosísima, eso sí– red neuronal.
RETORNO A LAS MÁQUINAS DE DECISIÓN
Hace ya bastantes minutos, para ilustrar conceptos y términos del
aprendizaje máquina, recurrí a un sencillo clasificador lineal. Estarán
en lo cierto si tienen la impresión de que, en la práctica, la mayoría de
los problemas de decisión no se pueden resolver satisfactoriamente
mediante la aplicación de fronteras lineales –y yo me siento reconfortado, les confieso, porque la realidad no justifique hasta el extremo el
Principio de Parsimonia.– Como consecuencia, en primera instancia
quedamos indefensos: no somos capaces de elegir entre una múltiple
infinitud de familias paramétricas de funciones la adecuada para servir de frontera. Para nuestra fortuna, tiempo ha que los estadísticos
descriptivos, en casos sencillos y a partir de consideraciones físicas o de
la observación de los datos, abrieron el camino transitable: transformar
no linealmente de un modo adecuado las variables observadas, y aplicar sobre las transformaciones lo sencillo y sabido, la decisión lineal.
Claro está que, si el problema no es conocido, no se puede saber a priori
qué transformaciones resultan apropiadas. Pero, por suerte, algunas
son suficientemente flexibles y fáciles de manejar como para constituir
una opción válida en general. Esas transformaciones son de dos tipos:
las entrenables –con parámetros cuyos valores se determinan a partir
de los ejemplos,– que dan origen a las conocidas como Redes Neuronales, y las implícitas –que se introducen para representar correlaciones estadísticas y pueden ajustarse,– con las que se implementan las
Máquinas de Núcleos.
Me asalta ahora el casi irrefrenable impulso de explicar los principios
elementales de unas y otras máquinas, pero me contengo por respeto
a quienes de entre ustedes los conocen y consideración con quienes no
manejan el lenguaje especializado; no quisiera perder la benevolente
DE MÁQUINAS Y HUMANOS 31
atención que me están concediendo. No se enojen, por favor, los competentes en Matemáticas pero no versados en estos temas: los textos
elementales que incluyo en la bibliografía establecen esos principios
con claridad y elegancia, los dones que no quiso darme el cielo.
¿A dónde se llega siguiendo este camino? A arquitecturas como la representada bajo estas líneas.
Perceptrón con una capa oculta.
Esta clase particular de red neuronal recibe el nombre de Perceptrón
Multicapa por razones históricas: cada uno de sus elementos, con una
transformación tipo sigmoidal, es un decisor lineal, y quien primero
los empleó, Frank Rosenblatt, dio en llamarlos perceptrones.
La entrada es un vector (extendido con la constante unidad) de variables observadas x, que se multiplica escalarmente por diversos pesos
entrenables wj; los resultados sufren una transformación no lineal, la
tangente hiperbólica, y tras ello, las salidas z (extendidas) se someten
a un paso análogo –o a varios. El signo de la salida, o, indica la decisión.
Se puede entrenar una de estas máquinas –fijar los valores de las wj y
w– minimizando una medida del error a la salida para los ejemplos
disponibles, mediante una sencilla versión de la búsqueda por gradiente que incluye una ordenada aplicación de la regla de la cadena: el
algoritmo de Retropropagación. Además, hay teoremas –no construc-
32
ANÍBAL R. FIGUEIRAS VIDAL
tivos– que prueban que un perceptrón con una sola capa oculta es capaz de aproximar tanto como se desee cualquier relación entre la entrada y la salida. Sorpréndanse ustedes: pese a todo, se sigue
considerando que se trata de una caja negra, cuando usamos tranquilamente otras funciones matemáticas para fines análogos, con la única
diferencia de que esas funciones nos resultan más familiares, aunque,
en la práctica, son igualmente inescrutables. Como nuestros cerebros,
permítanme que les recuerde.
Sería una temeridad cantar victoria, pese a las posibilidades anunciadas; ni se sabe qué medida del error es la más conveniente para un determinado problema, ni qué algoritmo de búsqueda evita las trampas
locales, ni qué modificación es la más oportuna para garantizar buena
generalización, ni cuántas unidades han de elegirse, ni –lo que es peor–
se dispone necesariamente del número suficiente de ejemplos para acercarse a lo que estas arquitecturas podrían proporcionar. Todo ello hace
que construir perceptrones multicapa se asemeje mucho a una tarea de
artesanía, en que la determinación de la estructura –número de capas
y elementos por capa– es una de las mayores dificultades. Optar por la
profundidad en lugar de por la anchura ha sido una opción muy explorada, bien mediante métodos de construcción iterada, bien mediante
la interposición de capas que representen la información de modo más
accesible (el llamado Aprendizaje Profundo, que tiene paralelismos con
áreas de nuestro cerebro, como las perceptivas); y eso porque la retropropagación se hace inmanejable para redes de muchas capas. Y quiero
concluir este párrafo resaltando que la línea de investigación en Aprendizaje Profundo está proporcionando mejoras en prestaciones que se encuentran entre las más espectaculares; una prueba empírica del interés
de responder al reto de introducir en los diseños de máquinas conocimientos sobre cómo somos nosotros mismos –y otros seres vivos, desde
luego.
No muy distintas estructuralmente son las máquinas de núcleos, salvo
porque siempre tienen una sola capa oculta, y las no linealidades –en
las que están los parámetros a seleccionar– quedan restringidas a funciones definidas positivas (estrictamente, que cumplan el teorema de
Mercer), a fin de que sirvan para representar autocorrelaciones. Así son,
por ejemplo, las campanas gaussianas: exponenciales negativas en cuyo
argumento aparece la distancia de la muestra a un determinado cen-
DE MÁQUINAS Y HUMANOS 33
troide. Pero con solo eso no hablaríamos de máquinas de núcleos para
decisión: lo hacemos porque su diseño se basa en maximizar una razonable medida de la separación de los ejemplos de las diferentes clases –maximizar el margen–, lo que se formula aplicando multiplicadores de Lagrange sobre una medida regularizada –estas son las
Máquinas de Vectores Soporte.– El paso a la formulación dual da lugar a un problema de programación cuadrática, que se resuelve mediante algoritmos computacionales harto conocidos. El hecho de regularizar la medida de separación de los ejemplos tiene como
consecuencia una solución dispersa (con un número reducido de transformaciones), en la que interviene solo una parte de los ejemplos disponibles para el entrenamiento, a los que, precisamente, se les llama
vectores soporte. A mi juicio, es ese implícito carácter disperso el que
consigue que las prestaciones de este tipo de máquinas en la toma de
decisiones sean, dentro de los diseños “compactos”, excepcionalmente
buenas. Y conste que no me olvido de la existencia de un teorema que
formaliza, en este contexto, la evidencia de que nada es gratis: el llamado “No Free Lunch”, que, expresado llanamente, asegura que ninguna clase de diseño es el mejor para todo tipo de problemas.
Tras lo que han escuchado, la confusión se habrá apoderado de ustedes. Las máquinas entrenables prometen mucho, pero oponen complicados obstáculos a su aprovechamiento. Atendiendo al teorema “No
Free Lunch”, la resolución práctica de cada problema exigiría el ensayo
de varias alternativas, cuyos diseños distan, además, de ser triviales.
Dado el riesgo de fracasar, y puesto que, en muchos casos, las personas
decidimos con notable acierto, ¿merece la pena el esfuerzo de recurrir
a las máquinas?
COMPARACIONES DE HUMANOS CON MÁQUINAS
En determinadas situaciones, la sobreabundancia de datos, su complejidad, o la necesidad de integrar la toma de decisiones en un mecanismo obligan a recurrir a las máquinas. Pero hay más: las máquinas
han demostrado una asombrosa eficacia incluso cuando no se dan esas
circunstancias, llegando en numerosos ámbitos a competir con los mejores expertos. De manera que el estado de las cosas no puede producir más que consternación: las máquinas son útiles, pero no se utilizan
34
ANÍBAL R. FIGUEIRAS VIDAL
–ya no como oráculos, sino como valiosas ayudas– pese a que la información que manejan es distinta de la que nosotros consideramos, y
la procesan de diferente forma. Es decir, aunque proporcionan una enriquecedora diversidad.
Hay muchos motivos para la casi universal reticencia al uso de las máquinas. Algunos comprensibles, como lo es el que las máquinas no brindan explicaciones de su elección de modo inteligible para los humanos;
pero no olvidemos que las justificaciones de los humanos suelen ser
falsas, y que, “sensu stricto”, también somos cajas negras. Otras razones solo son válidas parcialmente; por ejemplo, que una máquina no
pueda compartir responsabilidades con un experto no debería impedir
que este reflexionase cuando apareciesen discrepancias. Y también hay
causas absolutamente rechazables, como la presuntuosa sobrevaloración de nuestras capacidades, o tal vez la inseguridad ante una imposible competencia.
De poco ha servido que, desde hace algunos decenios, estudios comparativos concluyan que las máquinas de decisión suelen superar a los
expertos. Permítanme que insista: desde hace algunos decenios, cuando
las máquinas vivían su primera infancia. En 1954, Paul Meehl publicó
comparaciones de los juicios emitidos por experimentados sicólogos y
siquiatras con las predicciones de máquinas muy sencillas en 20 tipos
de casos clínicos. Resultado: ni una victoria para los expertos. La aplastante relevancia de este resultado no disminuye por el limitado conocimiento clínico de la época, porque los modelos eran lineales, y eso
suponía una capacidad expresiva insuficiente. Por si alguien sospechase que la dificultad de los problemas relativos a nuestra parte psíquica pudo sesgar la comparación, citaré el más amplio estudio de Jack
Sawyer en 1966, que incluyó otras especialidades clínicas, hasta un total de 45 problemas. De nuevo, los especialistas fueron derrotados en
todos los casos. Y consultando la bibliografía de este discurso podrán
llegar al hartazgo con una miríada de otros ejemplos que corroboran la
ventaja encontrada por Meehl y Sawyer.
He seleccionado premeditadamente investigaciones en el campo de la
Medicina para que surja de modo natural una pregunta clave: como
hoy en día, casi sin excepción, las decisiones médicas se adoptan tras
consultar entre especialistas y hasta colegiadamente, ¿no serían dife-
DE MÁQUINAS Y HUMANOS 35
rentes los resultados de las comparaciones? Diferentes sí, pero raramente cambia su signo. Mas, en lugar de solicitarme una lista de evidencias, acepten ustedes que siga la senda de la argumentación
deductiva.
Por un lado, si se admite que es beneficioso el aprovechamiento de la
diversidad implícito en la consulta entre especialistas, ¿no habrá que
concluir que también puede serlo tener en cuenta la predicción de una
máquina? Añadiré una obviedad: se pueden construir, asimismo, conjuntos de máquinas. Por otro lado, como es natural, el aprovechamiento
de la diversidad de juicios humanos no queda a salvo de riesgos y sí está
sometido a limitaciones.
Concédanme unos instantes antes de entrar en la discusión de la última frase. Sé que muchos de ustedes conocen de primera mano casos
reales de aplicación de las herramientas de ayuda a la toma de decisiones, e incluso participan en ellos. Los hay, desde luego; y no solo en
diagnóstico clínico, sino en espacios tan diversos como la Inteligencia
de Negocio y lo que podríamos parafrasear del inglés “Policy Analytics” como herramientas de análisis de datos para la toma de decisiones políticas (respecto a los ciudadanos, obviamente). Empero, ni el
grado de implantación de estos recursos es significativo, ni a veces la
cobertura de esas aplicaciones la más acertada. No les ofrezco ejemplos concretos porque respeto escrupulosamente la confidencialidad
de ciertas investigaciones cooperativas bajo contrato.
LA INTELIGENCIA COLECTIVA
Por fortuna, los humanos no siempre nos manifestamos reacios a conceder valor a los juicios de otros humanos. Nuestra condición de especie social ha grabado hasta en el sistema de procesos de Tipo 1 la
conveniencia de tener en cuenta esos juicios para obtener ventaja sin incrementar el esfuerzo. Entendemos que diversas observaciones y procesamientos proporcionan más y mejor información conjuntamente que
por separado. Conjuntarlas reduce el ruido –aquella componente de lo
observado que no se relaciona con lo que se desea elucidar– en mayor
grado que no hacerlo, de modo análogo a como lo hace la integración
en problemas elementales de filtrado. No es de extrañar, por tanto, que
36
ANÍBAL R. FIGUEIRAS VIDAL
la primera formalización de los efectos de esta agregación ya apareciese
en una época en la que la probabilidad salía de sus primeros balbuceos;
fue el teorema del Jurado, de Marie-Jean Antoine Nicolas de Caritat,
marqués de Condorcet (1743-1794). Lo enunciaré como sigue:
Si cada juez de un tribunal emite independientemente un veredicto con
una probabilidad de acierto mayor que 0’5, para que una sentencia
adoptada por mayoría simple sea acertada con una seguridad tan alta
como se desee, basta con incluir en el tribunal a un número suficiente
de miembros.
La demostración del teorema resulta trivial. No lo es la condición de
independencia, ni que el aumento de la probabilidad de acierto es monótono, aunque la certeza casi absoluta pudiese demandar inverosímiles cantidades de jueces. Ni son menores las consecuencias que se
han derivado del teorema: se ha considerado como uno de los pilares
justificativos de la superioridad de los sistemas democráticos, ya que
resiste la presencia de minorías con probabilidades de acierto peores
que la de elegir al azar.
Sin embargo, en estos terrenos la cautela es oportuna virtud para no
confundir los principios con las formas. No solo la condición de independencia merece mucha atención –y yo se la prestaré más adelante,–
sino que es difícil reducir la justicia a términos de cierto o falso. Pero,
en el contexto en que se sitúan mis palabras, otro aspecto reclama análisis: en general, la mayoría simple no es el único método de agregar decisiones, ni siquiera restringiéndose a aquellos que mantengan
ponderaciones incondicionalmente equitativas. A pesar de que hay muchas alternativas, toda esperanza de que alguna agregación de votos
en número suficiente conduzca a la absoluta perfección se vio frustrada
en 1951 por el teorema de Imposibilidad del economista Kenneth
Arrow. Este teorema tiene una naturaleza similar al no menos famoso
de Incompletitud que demostró Kurt Gödel, y, tal como el segundo no
ha detenido la investigación y el avance de la Lógica, tampoco el de
Arrow debe perturbar nuestra ilusión y empeño en mejorar la vida social y política, sino iluminarnos en la búsqueda.
Ustedes no querrán perder su tiempo en escuchar cómo repito la prueba
del Teorema, pero quienes no lo conozcan sentirán curiosidad por sus
DE MÁQUINAS Y HUMANOS 37
términos: la satisfaré. Arrow reunió cinco propiedades que a cualquier
persona le parecen imprescindibles –¿o solo deseables? – en cualquier
algoritmo de agregación de votos, de elección por una colectividad. Citaré dos. Una, la soberanía individual: todos han de poder ordenar sus
preferencias. Otra, la exigencia de independencia de las opciones irrelevantes: si desaparece una alternativa, la ordenación de las demás no
ha de cambiar. Pues bien: no hay un sistema de agregación de preferencias que cumpla simultáneamente esos cinco requisitos.
Una vez más, les encarezco que no caigan en el desánimo: diferentes
agregaciones ofrecen distintos grados de cumplimiento de las condiciones reunidas por Arrow, y según el caso, se puede recurrir a alguna
de esas agregaciones que sea más que aceptable.
Lo que ahora voy a exponerles no servirá de remedio a la inquietud
que les habrá causado el teorema de Imposibilidad, y es plausible que
la acreciente, porque revela análogas limitaciones en otros niveles de actuación; lo expongo para reforzar mi recomendación de servirse de estos conocimientos para orientarnos en nuestras búsquedas.
La tesis doctoral que leyó Lloyd S. Shapley en la Universidad de Princeton dos años más tarde –1953–, introducía una nueva medida, que
después se ha llamado valor de Shapley, que determinaba el poder de
un individuo dentro de un grupo como el número de alianzas con otros
individuos que resultan ganadoras y en las que dicho individuo es imprescindible. Para que aprecien lo sencillo y atinado de este índice, voy
a recurrir a adaptar ejemplos tomados de John A. Paulos, autor de muy
asequibles libros de divulgación de las matemáticas, quien habla del
Índice de Banzhaf –un abogado norteamericano que popularizó la idea
de Shapley ya entrados los años 60–, probablemente porque este último fue más allá de la teoría de juegos en su visión de las aplicaciones,
incluyendo en estas el nivel de los representantes políticos.
Si tres partidos disponen de 49, 48 y 3 escaños en un parlamento, para
las decisiones que se tomen por mayoría absoluta –o que deriven en
los mismos cálculos–, los tres tienen el mismo poder, ya que sus valores de Shapley son todos 2: cada uno conforma mayoría aliándose con
cualquier otro. Por el contrario, si se trata de cuatro partidos con 27, 26,
25 y 22 escaños, los tres primeros tienen un valor de Shapley 2; el cuarto,
38
ANÍBAL R. FIGUEIRAS VIDAL
0: no tiene poder alguno porque es superfluo en cualquier coalición ganadora.
La sutileza de la sentencia de Winston Churchill que calificaba la democracia como el peor sistema político si se exceptuaban todos los demás se aprecia mejor si se comprenden las implicaciones de los legados
de Arrow y Shapley: distingue elegantemente entre los principios y los
límites de su aplicación.
Es tiempo de abandonar el marco político y anunciar que la agregación de preferencias individuales conduce a elecciones ventajosas en muchas otras situaciones de la vida social. Variados son los ejemplos recogidos en el éxito de ventas de James Surowiecki The Wisdom of Crowds
(el título de su traducción al español, según mi criterio desafortunado,
es Cien mejor que uno). Ejemplos que se extienden desde los triviales –la
mayor exactitud que se consigue si se promedian predicciones del peso
de objetos– hasta los que abren inexploradas posibilidades –como el proyecto “Iowa Electronic Markets” para predecir resultados electorales.
Para que la inteligencia colectiva exceda a las individuales, Surowiecki
establece y discute tres condiciones: diversidad de participantes, independencia entre ellos, y “un cierto tipo de descentralización”. En realidad, se trata de condiciones que equivalen a la diversidad de
procesamientos –diferentes individuos independientes– y diversidad
de observaciones –descentralización, entendida como distribución.–
Acepto esas condiciones como necesarias; no como suficientes.
COMPETICIÓNY COOPERACIÓN
Es inevitable que los individuos que contribuyen a la agregación tengan intereses particulares. Siendo así, entra en escena el conflicto
entre competición y cooperación, y nunca se puede estar seguro de
la forma en que los individuos adoptarán sus resoluciones, ni de las
consecuencias que pueden derivarse de cómo lo hagan. Esto ocurre
hasta en interacciones aparentemente sencillas entre tan solo dos personas, como diáfanamente se ve en los experimentos llevados a cabo
por la corporación RAND con el juego conocido como el Dilema del
Prisionero.
DE MÁQUINAS Y HUMANOS 39
Dicho juego se propuso como modelo del interrogatorio por separado
de un ladrón y del perista que adquiere lo robado. Si ambos callan –cooperan entre ellos–, los dos salen beneficiados. Si uno delata al otro a
cambio de un trato, se beneficia aún más, y el segundo padece un serio perjuicio. Algo menos dañino resulta para ladrón y perista una doble confesión. Dos jugadores técnicamente bien cualificados
participaron en una sesión en la que se iteraban jugadas de una versión con pérdidas y ganancias oportunamente cuantificadas. Sucedió
lo inesperado: aunque el punto de equilibrio del juego se encuentra en
la doble delación, predominó el silencio de ambos durante los más largos intervalos, esporádicamente interrumpidos por relativamente breves confrontaciones. Una fuerte evidencia de que los humanos
tendemos a la cooperación, si bien mantenemos residuos evolutivos
que nos empujan a la competición. Y no se lamenten ustedes porque
esto signifique que los delincuentes no se delaten unos a otros en la
mayoría de las ocasiones, realidad que precede a la comprobación experimental de la RAND. Al contrario, alégrense: este dilema sirvió también como modelo de la amenaza nuclear durante la Guerra Fría; el
punto de equilibrio era que ambas potencias enfrentadas recurriesen a
sus arsenales de armas atómicas.
Algunos de estos juegos de suma no nula suponen encarar ciertos riesgos difíciles de prever, por lo que hay que considerar muy cuidadosamente la conveniencia de participar en ellos. Es cierto que los
exhaustivos experimentos de Robert Axelrod han demostrado la inesperada potencia de la estrategia “tit for tat”, es decir, “donde las dan,
las toman”: empezar cooperando y en cada jugada posterior repetir la
anterior del oponente; pero no lo es menos que hay oponentes de comportamientos poco previsibles, y no conocemos suficientemente bien
cómo responde nuestro cerebro ante complicadas elecciones entre cooperación y competición. Axelrod descubrió asimismo la existencia de
estrategias puramente parasitarias, de modo que, para evitar pérdidas
innecesarias, debe eludirse, en lo posible, esta problemática clase de
juegos.
La deseable brevedad impondría dejar aquí el tema de los juegos estratégicos no convencionales y volver al hilo del discurso, una vez revisada la importancia del balance competición-cooperación. Pesa más
en mi voluntad el convencimiento de que conectar con la realidad tiene
40
ANÍBAL R. FIGUEIRAS VIDAL
importancia para convencer de cuánto daño pueden causar determinados juegos intrínsecamente perversos. Uno de ellos es el muy peligroso de la subasta del dólar, en una de cuyas apariciones en la vida real
intervine indirectamente. Con ningún éxito, lo reconozco.
Consiste el juego en que un subastador ofrece un dólar a la puja más
elevada en una sucesión creciente, pero recibe no solo el pago de esa
puja, sino también el de la segunda más alta. Por extraño que parezca,
el juego, tras una fase en que los jugadores pretenden el propio beneficio, entra en otra en que los que permanecen –dos, normalmente– tratan de minimizar pérdidas: el segundo está pagando a cambio de nada,
y le conviene recibir un dólar por una puja algo mayor. Y se desemboca en una etapa final en que es frecuente derivar al objetivo de causar el mayor daño posible al oponente. En promedio, el subastador
consigue un beneficio superior a los tres dólares.
Justamente este es el modelo básico subyacente en los procesos de subasta de frecuencias para telefonía móvil que se llevaron a efecto de
manera alocada en varios países europeos hace aproximadamente una
década. Yo quise salir al paso de los argumentos del economista Paul
Klemperer, que había tenido acogida en EL PAÍS, y que, en esencia, aseguraba que proceder a la subasta –entre operadoras ya implicadas en
el negocio, no pierden de vista esta circunstancia– no solo era equitativo, sino socialmente sano, porque lo recaudado por los gobiernos beneficiaría a los ciudadanos sin que estos tuviesen que desembolsar ni
un euro. EL PAÍS estimó que no era oportuno publicar mi réplica, que
apareció finalmente en ABC; no entro en detalle porque ustedes imaginan sus términos. Las subastas tuvieron lugar. Las operadoras europeas perdieron músculo financiero, y subsiguientemente capacidad
para expandirse en otros mercados. Se arrastran tarifas lastradas por lo
gastado en frecuencias. Los fabricantes europeos se desangraron lentamente, y hoy resisten con dificultad la agresiva acometida de los asiáticos. E invito a quien se atreva a que explique cómo el gasto de lo
recaudado compensa estos desastres.
Ya ven ustedes cuán ciegamente se causa severo daño a un sector, a los
consumidores, a la industria, a las posibilidades de I+D, y en definitiva, a todos sin excepción, porque hay gentes que juegan a lo que no
saben; para colmo, con recursos ajenos. Aquí viene de nuevo a cuento
DE MÁQUINAS Y HUMANOS 41
la regla que resume la antes citada obra de László Mérö: no se debe
pretender el beneficio propio engañando a los demás.
Quiero mantener una perspectiva optimista: propondré como conclusión que, evitando abusos y administrando limitaciones, la agregación
acrecienta apreciablemente la calidad de las decisiones humanas. ¿Tanto
como para hacer superfluo el recurso a esas extrañas máquinas que podrían ayudarnos?
LAS AGRUPACIONES DE MÁQUINAS
La realidad es obstinada, y lo que nosotros hacemos puede incorporarse a los diseños de máquinas. Las agrupaciones de máquinas surgieron de la apreciación del mismo fundamento que avala la potencial
ventaja de la inteligencia colectiva: la diversidad. Su forma general tiene
el aspecto que muestra la gráfica.
Agrupación de máquinas.
Unos aprendices o unidades {Um} leen la instancia x, y sus salidas {om}
se combinan mediante una agregación o fusión A({om}, x) para dar lugar a una salida o que se toma como solución del problema que se está
considerando ante dicha instancia. Aunque los aprendices sean débiles –de pobres prestaciones–, si presentan la oportuna diversidad, la
calidad del resultado de la agregación supera largamente la de cualquiera de ellos.
Reconozco que hay inconcreciones en la descripción anterior, en esencia debidas a lo mucho que aún queda por entender sobre estos dise-
42
ANÍBAL R. FIGUEIRAS VIDAL
ños, pese a que sus precedentes han cumplido ya los 60 años. La diversidad ha de ser la adecuada, y esa adecuación depende, sobre todo,
del problema analizado, ya que se trata de una suerte de complementariedad –lo análogo al compromiso entre competición y cooperación.
Simultáneamente, que la diversidad sea adecuada depende del esquema de agregación; o bien este de la diversidad. Son poco conocidas las vías para alcanzar esa sintonía, aunque hay algunas que
generalmente conducen a agrupaciones de excelente calidad.
Los métodos más simples para diseñar agrupaciones de máquinas constan de dos pasos: primero diseñan aprendices diversos, empleando diferentes arquitecturas, distintas porciones de información (distintas
muestras o distintas variables), o variados algoritmos de parametrización. Seguidamente, se elige un oportuno mecanismo de agregación.
Así se obtienen los llamados, por razones inmediatas de comprender,
comités; cuyos diseños son, evidentemente, subóptimos. Con todo, algunos de estos comités exhiben magníficas prestaciones, como los obtenidos por medio de “Bagging” (término intraducible que funde
“bootstrap”, el tipo de remuestreo de los ejemplos que proporciona la
diversidad, y “aggregating”, típicamente por mayoría), y las Selvas
Aleatorias, sugerente denominación que indica la presencia de árboles
configurados con cierto grado de aleatoridad –en su versión inicial, introducida en la creación de las ramas.
Degradaría significativamente la inteligibilidad de este discurso si siguiese por este camino; para evitarlo, una vez más les remito a la bibliografía, en que encontrarán los textos monográficos sobre
agrupaciones de máquinas que he seleccionado por su combinación
de claridad y rigor. Pero voy a extenderme, siguiendo lo enunciado por
Lior Rokach en uno de estos textos, en la discusión de los principios
sobre los que se asientan los comités.
Los comités pueden contemplarse como una aceptación del principio
de Indiferencia de Epicuro; o más exactamente, como una versión ampliada de modo completamente natural: de los modelos con satisfactorias capacidades predictivas, reténganse todos y combínense. Siempre
se ha contrapuesto este principio al de Parsimonia –y hasta se ha infravalorado a Epicuro por su aparente despreocupación–, que puede
enunciarse como: de todos los modelos con la mayor (e igual) capaci-
DE MÁQUINAS Y HUMANOS 43
dad predictiva, reténgase el más sencillo. El éxito de Occam se cifra en
haber facilitado durante siglos el desarrollo de la Ciencia, gracias a que
los modelos sencillos suelen generalizar bien –recordatorio: proporcionar buenas soluciones ante nuevas instancias del problema–, y propician la fácil inteligibilidad de los fenómenos bajo estudio; estrictamente,
de sus modelos. Modelo y realidad han de ser distintos: un modelo
idéntico a lo que representa sería inútil porque retrotraería la situación
a su inicio, tal y como recoge con agudeza Borges en “Del rigor en la
ciencia” unas líneas de Museo (El hacedor) en que el mapa del Imperio
que coincide puntualmente con este es abandonado y se arruina por
inútil. Pero no lo son mapas de distintas escalas que, en consecuencia,
albergan más o menos detalles. Otras lecturas no vienen aquí al caso.
Reiteraré una humilde opinión que he sostenido innumerables veces:
la segunda razón, la inteligibilidad, es la principal. Tanto es así, que
sospecho que aferrarse incondicionalmente al principio de Parsimonia
puede ser una rémora para la actual marcha de ramas de la Ciencia
que precisan de modelos no tan simples como los tradicionales. Por
otra parte, lo que resulta meridianamente claro es que si nuestro propósito es puramente predictivo –planteamiento radicalmente técnico–
y no explicativo –científico–, Epicuro es, de largo, la mejor opción –piénsese en la inteligencia colectiva–; que un modelo sea más fácilmente interpretable no constituye garantía alguna de que pueda depositarse en
él mayor confianza.
En contra de los comités –y de las agrupaciones de máquinas, en su totalidad– podría esgrimirse el ya visitado teorema “No Free Lunch”. De
su lectura “sensu contrario” se deduce que pueden existir diseños “ad
hoc” mejores que una agregación para algunos problemas concretos. Es
posible, desde luego; pero hay dos argumentos que debilitan la importancia de ese riesgo. Uno, inmediato: como hemos de entrenar nuestra máquina con información limitada, las agrupaciones, más versátiles,
prometen un más amplio espectro de aplicaciones exitosas. El segundo
argumento tiene un carácter más filosófico, y ha sido señalado por varios investigadores: el teorema “No Free Lunch” no distingue entre
problemas reales y problemas inexistentes; de manera que lo que importa es lo que acontece en cada problema o en razonables colecciones
de problemas, y no lo que pasaría en hipotéticos universos distintos
del que habitamos.
44
ANÍBAL R. FIGUEIRAS VIDAL
Ya que hablamos de teoremas, y antes de pasar a examinar los métodos existentes para el diseño conjunto de unidades y agregación –por
tanto, con mayor potencial intrínseco que los comités–, traeré aquí uno
reciente, nacido como el anterior, en la investigación científico-técnica,
pero cuya cuidadosa extrapolación a otras áreas del saber sería, a mi parecer, grandemente productiva. Hablo del teorema “Puede Ser Mejor
Muchos que Todos”, publicado en el año 2002, que demuestra que, en
escenarios generales, descartar –o podar, como se dice técnicamente–
aprendices es potencialmente ventajoso. Por ello, los procesos de poda
se vienen incluyendo con elevada tasa de éxito desde mucho antes de
que apareciese el teorema. Evitaré malentendidos: no pretendo sugerir que se prive a algunas personas de derechos fundamentales, que
están muy por encima de hipotéticos incrementos de indefinibles probabilidades de acierto; pero hay muchas otras manifestaciones de la
inteligencia colectiva en que la selección no implica destruir valores
más elevados. Piensen ustedes en que ya se limitan los referenda, ya se
exigen conocimientos, ya se contratan asalariados, …; y piensen en que
mejorar las decisiones de grupos de expertos o incrementar la fiabilidad de las encuestas no son propósitos indeseables.
AGRUPACIONES COOPERATIVAS
Como he dicho poco ha, los diseños a simultáneo de aprendices y fusión rebajan la indeterminación que apareja su tratamiento por separado; en consecuencia, conducen normalmente a agrupaciones de
máquinas más eficaces que los comités.
Califico a estas agrupaciones de cooperativas porque el aprendizaje de
cada unidad incluye componentes de cooperación con las otras para
alcanzar un fin común. Las Mezclas de Expertos y los conjuntos construidos “a empujones” (“Boosting”) son las más representativas.
Las Mezclas de Expertos consideran que la variable a aproximar (continua o discreta, según se trate de regresión o decisión) se distribuye según
una mezcla de densidades de probabilidad predeterminadas, de las que
las unidades {Em} –expertos– calculan las medias, y una puerta o árbitro, G, los correspondientes coeficientes de mezcla. Repárese en la similitud de estos esquemas con la Caja de Herramientas de Gigerenzer.
DE MÁQUINAS Y HUMANOS 45
Mezcla de expertos.
Tal y como se representa, la suma de esos productos –la media a posteriori– sirve de aproximación de mínimo error cuadrático a la solución del problema para cada instancia x. Los parámetros libres se
determinan siguiendo el principio de Máxima Verosimilitud (recientemente, se han propuesto algoritmos de tipo bayesiano, tomando a su
vez dichos parámetros como variables aleatorias).
Si las puertas y los expertos se eligen para que la agrupación proporcione suficiente capacidad expresiva, el entrenamiento se complica y
ha de disponerse de gran potencia computacional. Como alternativa,
pueden emplearse formas jerárquicas (agrupaciones de agrupaciones)
de versiones sencillas; pero estas formas no brindan buenas prestaciones en la resolución de problemas de decisión.
Deseo destacar dos aspectos de los conjuntos cooperativos de máquinas
desde este mismo instante –con ello, relajarán ustedes su esfuerzo por
entender una explicación fundamentalmente analítica que huye de las
fórmulas.– El primero, que el aprendizaje conjunto propio de las agrupaciones cooperativas representa una opción mucho menos “cruel” que
la poda de unidades en los comités, cosa particularmente crítica para posibles extrapolaciones a los campos de la sociología y de la política. El
otro aspecto que resaltaré es la importancia del aprendizaje en equipo,
que produce, si se lleva a cabo debidamente, la deseable diversidad complementaria. Reparen ustedes, por favor, en que me refiero al aprendizaje en equipo, y no al aprendizaje de cómo trabajar en equipo, un mero
requisito previo: es el equipo concreto el que se desenvuelve mejor si sus
componentes específicos aprenden en cooperación.
46
ANÍBAL R. FIGUEIRAS VIDAL
Los algoritmos de “Boosting” constituyen una familia que acredita las
mejores prestaciones en muchos problemas prácticos de decisión. Su
concepción provino de la compleja teoría de lo Probablemente Casi Correcto (“PAC”, por sus iniciales en inglés), pero se puede comprender
su buen funcionamiento simplemente sabiendo que estos diseños van
añadiendo aprendices {Am} de uno en uno, obligando a que presten
mayor atención –sobreponderándolos– a los ejemplos que han supuesto
mayor dificultad hasta ese momento. Para la agregación suele recurrirse a una combinación lineal paso a paso.
Agrupamiento por “Boosting”
(las conexiones a trazos representan la información atencional).
Existe una gran variedad de estos algoritmos. Una de sus virtudes radica en que presentan resistencia al sobreajuste, o memorización excesiva de los ejemplos con que se entrenan, defecto que va directamente
en contra de la buena generalización. El sobreajuste solo aparece en
problemas especialmente ruidosos, y basta con modular convenientemente el mecanismo atencional para combatirlo.
UNA BREVE VISITA A LOS SISTEMAS ADAPTATIVOS
Los sistemas adaptativos son aquellos que pueden responder a las variaciones del entorno en donde actúan modificando los valores de sus
parámetros de forma que no dejan de ejecutar su función. Esa capacidad de seguimiento requiere cálculos sencillos para la actualización de
dichos parámetros, por lo que buena parte de estos sistemas son lineales –filtros– y transversales –sin realimentación.– Existen muchos algoritmos de adaptación, desde el sencillísimo y sorprendentemente
DE MÁQUINAS Y HUMANOS 47
efectivo filtro de Widrow-Hoff –una elaboración para convertir en adaptativo el filtro óptimo de Norbert Wiener y Andréi Kolmogorov–, el
primero que apareció, allá en 1960, hasta complicadas variantes del filtro de Kalman. El libro de Ali Sayed –que prefiero a otros varios, ninguno criticable– compendia lo que se sabe de modo ordenado, claro, y
prácticamente exhaustivo.
Todos los algoritmos adaptativos incluyen parámetros seleccionables;
la elección de unos u otros valores para esos parámetros implica resolver un compromiso entre características del algoritmo, como son, por
ejemplo, la velocidad de convergencia y la calidad en régimen estacionario. Dos filtros con distintos parámetros –o dos filtros de distintos tipos– se comportan de maneras diferentes. En entornos variantes no
completamente conocidos, hay incertidumbre sobre qué opción tomar.
Hace unos pocos años, el grupo de investigación en que me integro reparó en que se trataba de una situación similar a la que un diseñador
introduce para construir un comité: distintos filtros proporcionan diversidad, y esta puede aprovecharse mediante agregación. En estos casos, la agregación debe ser también adaptativa, ya que ha de preservarse
la característica principal. Si se hace mediante ponderación (adaptativa) de las salidas de los filtros con pesos cuyos valores sumen la unidad, se añade un importante mecanismo de competición-cooperación:
los filtros compiten por dominar la salida global, pero, al tiempo, cooperan para componer ésta. Vean ustedes una representación de un conjunto de dos filtros agrupados de esta manera.
Combinación convexa adaptativa de filtros adaptativos.
48
ANÍBAL R. FIGUEIRAS VIDAL
Percíbase que cada filtro resuelve su problema, pero, al mismo tiempo,
la diversidad y el mecanismo de competición-cooperación generan una
solución mejor para ambos.
Presentamos estos diseños en tres artículos iniciales –que aparecieron
en desorden, debido a los procesos de revisión.– En pocos años, se han
sucedido un centenar de publicaciones dedicadas al tema –de las que
somos autores solo de una pequeña parte.– Lo destacable está en que
aun no se han abordado la mayor parte de los análisis y la mayoría de
las aplicaciones prácticas; aunque estas, aparte de las propias de nuestros campos de trabajo –comunicaciones y acústica, principalmente–, se
han extendido a espacios aparentemente lejanos, como el diagnóstico
clínico y la meteorología. Seguimos activos y muy ilusionados por el
aprecio que se otorga a nuestro trabajo.
LÍNEAS ABIERTAS EN AGRUPACIONES DE MÁQUINAS
No hace falta demostrar que la relación entre diversidad y agregación
demanda más análisis y más experimentación, tanto para disponer de
fiel orientación en la construcción de comités cuanto para concebir otros
diseños de algoritmos cooperativos, que son contados los disponibles.
Les haré partícipes de mi posición.
Qué tipos de agregación son idóneos para la diversidad que se construya –o de la que se disponga– es una cuestión candente. El castigo por
evitar todo esfuerzo y consolarse jugando con las variantes del teorema
del Jurado –incluir muchas unidades permite agregaciones sencillas,
como la mayoría simple– se encuentra en una carga computacional
en operación –clasificación de una nueva muestra– dolorosa de soportar,
si no imposible, y raramente justificable.
También se necesita proponer y analizar nuevas fuentes de diversidad,
más allá de las conocidas. Una de ellas puede ser la diversidad de agregaciones; otra, la diversidad relacionada con las formulaciones multitarea –una misma máquina o conjunto ha de resolver varios problemas
relacionados entre sí.– Además de posibilitar avances prácticos, así podría comprenderse más profundamente la diversidad, la agregación,
y las relaciones entre ellas.
DE MÁQUINAS Y HUMANOS 49
Una tercera ruta la abre la revisión de las ecuaciones de los distintos tipos de agrupamientos, que puede conducir a expresiones –y subsiguientes configuraciones– alternativas potencialmente ventajosas.
Disculpen ustedes que caiga en la inmodestia de tomar un ejemplo de
mi propia cosecha. Si los expertos de una mezcla son meras combinaciones lineales, la salida es una combinación lineal de las variables observadas, cuyos coeficientes son la suma de los productos de los pesos
de los combinadores y las ponderaciones convexas que la puerta aplica
a cada experto. En definitiva: coeficientes funcionales, sin restricciones
de convexidad. Imaginen ahora que obtenemos esos coeficientes funcionales de una puerta cuyo cuerpo (todo menos los coeficientes de las
salidas) está prefijado separadamente; por ejemplo, una estructura de
funciones radiales de base, que sabemos poderosa. Surge así el “monstruo entrenable” (así llamamos a estos diseños en nuestro grupo de investigación) que aparece ante ustedes, que lleva el nombre propio de
combinador con pesos funcionales generados por puerta (“Gate Generated – Functional Weight Combiner”).
Combinador con pesos funcionales generados por puerta.
Esta (voluminosa) arquitectura ya no es una agrupación, sino monolítica; pero mantiene todo el potencial teórico de las Mezclas de Expertos. Y hay más: si consideramos como nuevas variables cada uno de
los productos de una variable de entrada por una función radial, la salida es una combinación lineal con pesos constantes de estas nuevas
variables. Consecuencia: puede entrenase mediante el algoritmo de
Máximo Margen (versión lineal, sin transformaciones, de la formulación para Máquinas de Vectores Soporte); y ya se sabe que esta clase
de algoritmos proporcionan diseños de altas prestaciones.
50
ANÍBAL R. FIGUEIRAS VIDAL
Así procedimos nosotros, tras preseleccionar de distintas formas los
centroides de las funciones radiales. Tuvimos que emplear un enorme
esfuerzo computacional en los diseños, pero recibimos premio: las máquinas de decisión resultantes superan en los tests habituales no solo
a las Máquinas de Vectores Soporte –lo que no es asequible para las
Mezclas de Expertos–, sino a los merecidamente acreditados algoritmos de “Boosting”; todo ello, con una carga computacional en operación relativamente moderada. De las agrupaciones pueden extraerse
prodigiosos superindividuos.
Seguimos entreteniéndonos en este nicho, extendiendo los diseños a
máquinas para regresión y empleando “monstruitos” (pequeños combinadores GG-FW) como arquitecturas en “Boosting”. Y estamos llegando a buen puerto: los diseños para regresión también ofrecen altas
prestaciones, y los “empujones” de los “monstruitos” dan lugar a agregaciones aún mejores que los grandes “monstruos”. Si algún conocedor se siente estimulado por lo anterior y bucea en este asunto, le
advertiré de que no parece irrelevante que estas arquitecturas combinen directamente aproximación global y aproximación local. Posiblemente esta característica pueda explotarse en otros diseños y en la
discusión de las relaciones entre diversidad y agregación.
No voy a cometer la temeridad de precipitarme a extender la conjetura
a la inteligencia colectiva. Sí me atreveré a sugerir una sencilla combinación en la que tengo puestas muchas esperanzas.
LA INTEGRACIÓN MÁQUINAS-HUMANOS
Sosiéguense ustedes si el título de la línea superior ha llenado de personas biónicas su imaginación. Voy a referirme a las posibilidades existentes para beneficiarse de la diversidad en observación y en
procesamiento de máquinas y humanos para la toma de decisiones.
Todavía más: es verosímil que también seamos complementarios, ya
que hemos desarrollado sensores y computadoras para que se hagan
cargo de tareas para nosotros imposibles o penosas. Por esas razones
se desarrollaron los Sistemas Expertos, de cuyas limitaciones ya he
dado cuenta –por suerte, añado: si se hubiese tenido éxito, simplemente
seríamos capaces de generar réplicas exactas de los expertos.– Opino
DE MÁQUINAS Y HUMANOS 51
que limitaciones análogas se descubrirán en los actualmente activos
estudios sobre la introducción de conocimiento experto en el diseño de
las relativamente poderosas máquinas llamadas Redes Bayesianas, que
primero descomponen las complicadas probabilidades condicionales
implícitas en los procesos de inferencia, y después modelan y parametrizan los pequeños elementos resultantes. En los diseños integradores, los expertos especifican la descomposición, y el resto se ataca
como problema máquina.
Pues bien: la impronta de los expertos puede resultar desfavorable, dadas las dificultades de elicitar su conocimiento. Insisto en que los humanos –expertos incluidos– somos también cajas negras, e intentar
abrirlas e iluminar su interior es actualmente inaccesible. Yo sostengo
que, en el presente, la única forma sensata de integrar humanos y máquinas para la toma de decisiones es partir de sus decisiones –cuantificadas o cualificadas.– Emplear esas decisiones como entradas
adicionales para alimentar una máquina de arquitectura convencional
podría interpretarse como menosprecio, pero, sobre todo, los entrenamientos se tornarían ineficaces –las máquinas también tienden a las soluciones cómodas, y lo serían las proporcionadas por cualquier buen
experto– y los expertos no recibirían ninguna información útil del valor de sus decisiones. Para colmo, serían complicadas las soluciones
para coevolución por la mejora de los expertos o en situaciones no estacionarias.
Recuerden las Mezclas de Expertos: ¿no les parecen esquemas más
apropiados para insertar las decisiones?. Y ahora, un paso más: podría
emplearse nuestro combinador con pesos funcionales generados por
puerta, cuyas prestaciones son superiores manteniendo la interesante
propiedad de apreciar localmente la importancia de las entradas, entre
las que figurarían las decisiones de los expertos (si se hiciese necesario
no herir susceptibilidades, podría alegarse que toda la máquina es un
agregador, o un asistente si se personaliza para un solo experto). Potencialmente, los resultados son de mayor calidad, los expertos ven
cómo se ponderan sus decisiones y la coevolución se consigue con el
diseño de una puerta adaptativa. Les debo una explicación: la presencia del adverbio “potencialmente” se debe a que nuestra investigación
se encuentra en sus primeras etapas. Ni que decir tiene que las propuestas de colaboración recibirían una entusiasta bienvenida.
52
ANÍBAL R. FIGUEIRAS VIDAL
LOS SISTEMAS DISTRIBUIDOS
Por favor, imaginen ahora que ha de resolverse un problema en que
los datos provienen de diversos puntos de una determinada región espacial. Puede ocurrir que transmitir los datos –o incluso los resultados
locales– a un procesador central resulte imposible o implique gastos
prohibitivos. Puede ocurrir que la escena sea espacialmente no estacionaria y que convenga obtener soluciones puntuales. Surge, pues, la
necesidad de recurrir a sistemas de máquinas distribuidas en esa región. Cada una de estas máquinas podría actuar de modo completamente independiente de todas las demás; de hecho, eso sería lo mejor
si hubiese independencia estadística entre los procesos que se desarrollan en los diversos puntos del espacio. Pero, ¡ay!, así no son las cosas en la realidad: suele haber notable dependencia estadística entre
los procesos próximos. En consecuencia, ese funcionamiento aislado
no representa la mejor solución en ningún punto, ni tampoco lo sería
si cupiese una agregación de soluciones. De nuevo se obtiene ventaja
de la interacción, esta vez por entornos: si las máquinas próximas se
comunican entre sí, como representan las líneas a trazos en el esquema
que muestra un sistema distribuido, pueden mejorar todas.
Representación esquemática de un sistema distribuido.
Los primeros algoritmos que se aplicaron a estos conjuntos se basaban en la teoría del Consenso, que previamente se había aplicado a la
resolución de problemas de búsqueda, tras su aparición en estudios
sociopolíticos. Cualitativamente, puede resumirse en que cada máquina va modificando su estado –sus parámetros– no solo para cumplir su labor, sino teniendo en cuenta los estados de las máquinas de
DE MÁQUINAS Y HUMANOS 53
su entorno. Si por un momento ustedes contemplan estas máquinas
como si fueran individuos de una sociedad, estoy seguro de que el
mecanismo de consenso les parecerá natural y satisfactorio; dicho de
otra forma, una buena técnica para combinar libertad y cooperación.
Si les recuerdo las actuales sociedades en red, apreciarán de inmediato que hablar de proximidad y distancia implica dimensiones no
necesariamente físicas. Pero continuar por aquí me obligaría a iniciar
otro discurso, y suficiente es la delicada paciencia con que ustedes
soportan este.
Los estudios sobre combinaciones adaptativas de sistemas adaptativos
de los que les he hablado contribuyeron a inspirar al grupo de investigación de la UCLA con el que cooperamos, encabezado por el profesor
Ali Sayed, la idea de los algoritmos de difusión, en los que, además de
adaptarse el estado de cada máquina según el de sus vecinas, como en
los métodos de Consenso, se combinan de forma convexa las tendencias en el aprendizaje –los cambios a realizar en los estados. Se aprovecha así la diversidad de informaciones –la espacial– como se
aprovechaba la diversidad de procesamiento en nuestras combinaciones adaptativas. El éxito ha sido abrumador: no solo estos algoritmos
exceden a los de Consenso en prestaciones, sino que garantizan deseables propiedades: los algoritmos de difusión mediante combinaciones convexas aseguran la estabilidad –no divergencia– de todas las
máquinas si estas son individualmente estables; puesto en otras palabras, ningún individuo fracasa en el sistema si tiene las características
que le evitarían fracasar actuando separadamente. Les revelaré que esta
casi imprescindible propiedad no se encuentra entre las que proveen los
algoritmos de Consenso.
En nuestro grupo de investigación estamos retrotrayendo los conceptos de las técnicas de difusión a los estudios de las relaciones entre diversidad y agregación. No se desalienten, que me detengo aquí; quien
esté interesado podrá seguir nuestras futuras publicaciones. Sin embargo, sí creo apropiado ampliar este viaje en sentido contrario al seguido por los algoritmos de Consenso, aportando algunas sugerencias
para que se analicen en dominios del saber a los que soy ajeno: ¿es asimismo el intercambio de tendencias ventajoso en el ámbito social? La
probada utilidad de la transferencia de estados –consenso– a los sistemas distribuidos sugiere cierto paralelismo que justifica la conjetura.
54
ANÍBAL R. FIGUEIRAS VIDAL
Claro está que, en el contexto social, las tendencias dependen de propósitos e intenciones, y hasta de ansias y miedos. El tejido es delicado;
no obstante, desde mi osado desconocimiento opino que, por largos y
dificultosos que sean los trabajos necesarios, merecerán la pena para
conocernos mejor.
Estas investigaciones, y sobre todo las interdisciplinares sobre las interacciones entre humanos y máquinas, propiciarían un aterrizaje más
suave en el inmediato futuro en que las comunicaciones H2M, entre
humanos y máquinas, serán cosa de todos los días. No vaya a ser que
deploremos que las M2M tomen ventaja.
Naturalmente, las H2M tienen máxima relevancia, y yo no dejo de
lamentarme de que todavía nos encontremos en la superficie de su
comprensión y en la prehistoria de su buena implantación; urge el
imperativo de buscar más allá de topologías de conexión y tráficos
sobre ellas. Me desanima particularmente el bajo vuelo de las visiones de las llamadas “smart cities” y las realizaciones que se acometen
en los lugares en que se ha iniciado su implantación –vaya, no obstante, mi aplauso por el intento.– Me explico: se conciben las “smart
cities”, simple y trivialmente, como ciudades conectadas; pero no hay
serios intentos de extraer provecho de la inteligencia colectiva y de
las máquinas entrenables, de la diversidad y la agregación, ni tampoco de insertar el fomento de la innovación en estas infraestructuras, que podrían ser a simultáneo superestructuras sociales. Tan solo
me ha sido dado leer un informe que se aproxima a la concepción que
estoy exponiendo, el del equipo “Fireball” de la Comisión Europea;
pero se queda rascando la pintura con una simple alusión a los “laboratorios vivientes”, ya que pretende extraer resultados de respuestas individuales sin inducir una respuesta emanada de la
inteligencia colectiva. Me preocupa el nefasto empeño de explotar
mirando al suelo tecnologías obsoletas que está empobreciendo Europa. Nunca se alcanzará ventaja en desarrollo si tan obstinadamente
se cortan las alas a todos los proyectos por incomprensibles reparos
a dar cabida en ellos a las irrenunciables tareas de investigación de
altos vuelos, que tienen una indiscutible relevancia para el sólido y
continuado progreso de la sociedad.
DE MÁQUINAS Y HUMANOS 55
UNA DISQUISICIÓN
Probablemente, la totalidad de las actividades humanas constan de tres
fases: no es inverosímil la secuencia percepción-pensamiento-resultado.
Ocurre con la toma de decisiones –observación, procesamiento, y elección–. Y hay otras dos que encuentro marcadamente paralelas.
Las teorías de la creatividad llamadas biológicas dividen la creación en
tres etapas –excluyendo, claro está, las preparatorias–: exploración, evaluación y explotación. Las dos primeras equivalen manifiestamente a
las que ocupan iguales lugares en la lista inmediatamente anterior. La
tercera aparenta ser diferente solo porque resalta que se pasa a la acción; pero decidir también es un acto.
Es bien sabido que Jean Piaget definió el aprendizaje como aprehensión más asimilación. No considerarán ustedes una falta de respeto a
su memoria que yo añada una causa: la percepción de algo, que desencadena el proceso. Con lo que tenemos que el aprendizaje sigue pasos sincronizados con los de la decisión y la creación: ganar información,
procesarla, y colocarla en el debido lugar de nuestra mente.
Este alto grado de paralelismo, esta inmediata semejanza entre decidir,
crear y aprender, suscita una pregunta que yo calificaría de retórica: ¿pueden los más desarrollados conocimientos y herramientas para la toma
de decisiones adaptarse para potenciar la creatividad y el aprendizaje?
He dicho que la pregunta es retórica porque, aunque no gozo de una
amplísima experiencia en actuaciones que sirvan para comprobar ese
extremo, créanme ustedes: nunca, ni por asomo, he hallado una evidencia negativa.
Sabiendo que nadie piensa que pueda prescindirse del aprendizaje y de
la creatividad para avanzar hacia una sociedad mejor, no debería renunciarse a indagar sobre la validez de la posibilidad que apunto, que
puede contener un tesoro de nuevas ideas y métodos, tal vez de beneficios incalculables. Yo, que dedico una parte de mi vida –no solo de
mi trabajo profesional– a examinar los resquicios que voy encontrando,
les recomiendo que, al menos, se entretengan en lo mismo: se sentirán
gratificados con largueza.
56
ANÍBAL R. FIGUEIRAS VIDAL
CONCLUSIONES
He puesto mi mayor empeño en desplegar entre ustedes una versión breve
y ordenada de lo que confusamente está escrito en las neuronas de mi
cerebro sobre nuestro destino de luchar contra lo desconocido. Me consta
que no he conseguido mi propósito de construir un modelo para armar
que permitiese a cada lector organizar su navegación por estas líneas conforme a su propio gusto; en reparación, la bibliografía que sigue está cuidadosamente comentada, para convertirla en accesible brújula.
También he combatido mi propensión a deslizar citas literarias en el
texto, porque ya quedo comprometido al recurrir a mentes privilegiadas de la Ciencia y la Técnica para decir lo importante, y no era cosa de
aprovechar las Letras para quedarme mudo, aunque mi ánimo lo hubiese preferido. Como deplorable consecuencia, he sucumbido en el
intento de escribir correctamente y sin renunciar a una discreta elegancia. Muy decepcionado, he cedido al impulso de presentarles una
y otra vez al culpable de mi desdicha: Jorge Luis Borges.
La prosa de Borges deslumbra a quien la lee; a quien pretende escribir,
lo ciega por completo. Una igualación aparente, desde luego. Si al tomar la pluma se recuerda su lectura, la ironía queda desvelada: la igualdad es una ficción, y el extravío en los laberintos de la memoria se
agrava con la insoportable presión de ese eco que se suma a los susurros de los símbolos y las ecuaciones matemáticas. Sean indulgentes
con mis palabras: yo padezco ese mal, y no encuentro medicina.
Reparen ustedes en cómo las exquisitas frases de Borges se pueden convertir en un ruidoso eco que aturde a quien se afana y se desvela por
darle forma a sus ideas. Porque el ruido, como paradójica y lúcidamente estableció Claude Shannon en su fundamentación cuantitativa
de la teoría de la Comunicación, lo forma todo lo ajeno al mensaje que
se considera. Sé muy poco de muy pocas cosas –el filósofo sabía mucho más que yo–, y lo que sé se puede resumir en unas cuantas sentencias sin el aparatoso andamiaje que mi aturdimiento ha levantado.
Haré por remediarlo.
Soy de la firme opinión –que no creo gratuita– de que las máquinas entrenables se nos ofrecen como útiles instrumentos –como las mecánicas
DE MÁQUINAS Y HUMANOS 57
lo han venido siendo desde hace siglos–, pero posiblemente envueltas
hoy por el halo de lo nuevo y sorprendente, lo que supone a la vez una
oportunidad y un obstáculo. Debo reconocer que el alegato en su favor
expuesto en páginas anteriores raya con la hipérbole negativa, ya que
su uso empieza a extenderse, y ha llegado a campos tan complicados
como la inteligencia de negocio y la evaluación de políticas –en sentido genérico–; pero solo de modo incipiente. Me opongo a la mutación del pensamiento luddita que quiere excluirlas de muchos ámbitos
por razón de preservar la falsa idea de la superioridad intrínseca de las
personas para cualquier tarea en la que podamos percibir y evaluar.
Sostengo que tener en cuenta visiones diversas sobre la realidad ayuda
al verdadero progreso, y que no hay compartimentos estancos en el
pensamiento, salvo por nuestra propia necesidad de clasificar para
comprender. Estoy convencido de que todo saber es uno, y que negarlo
reescribe “La casa de Asterión”.
Señalo que el ruido –la incertidumbre, la información incompleta– es
nuestro enemigo, y no la información, se vista como se vista y llegue
de donde llegue; y no olviden que acabo de dejar entrever que la información depende de cada persona y de cada tarea: lo que es perturbación en un radar de aeropuerto se convierte en señal para uno
meteorológico. La realidad es laberíntica porque es ruidosa; el ordenado desorden de las arenas del desierto nos desorienta y conduce el
extravío, recuerda Borges en “Los dos reyes y los dos laberintos”.
Quiero insistir en que no solo nos enfrentamos al ruido cuando queremos resolver problemas científicos y técnicos. Que nos amenaza con
extraños ropajes en cada esquina. Ya Shakespeare cifró lo negativo del
mundo en el ruido y la furia; la furia, el ruido en la mente de las personas. Soy totalmente incapaz de crear con ello una obra maestra, lo
que hizo William Faulkner; pero, para mi consuelo, sí puedo construir
alguna interpretación; lo que haré, recurriendo al pasado, después de
una corta puesta en escena.
La máxima exigencia para evitar el ruido, lo superfluo, en fondo y
forma, se da en la poesía. En ella, el ruido tiene el efecto destructivo de
un terremoto. Un término innecesario degrada todo un verso, una impropia semejanza no produce una metáfora valiosa, una enumeración
descontrolada aniquila cualquier estrofa, una disquisición banal pudre
58
ANÍBAL R. FIGUEIRAS VIDAL
un poema entero. Durante mucho tiempo tuve la creencia de que la
rima y la métrica eran los filtros naturales del ruido en los versos, porque obligan a escribirlos con ilimitado celo. Hoy no estoy seguro, porque atentas relecturas bajo la magistral guía de los comentarios de
Francisco Rico me han revelado la presencia de otros filtros igualmente
naturales: la colocación y cadencia de los sonidos, la armonía de conceptos, la sintonía entre palabras, emociones e ideas, pueden mantener el carácter poético en los versos libres.
La reflexión sobre estas posibilidades me condujo una vez al feliz hallazgo de una interpretación que mereció el elogio de reconocidos poetas: José Hierro, Ángel González –ambos fallecidos, para pesar de
todos–, y el que primero la vio y la compartió con ellos, Ángel García
López. No he de ocultarles que las sendas de la amistad tuvieron mucho que ver con la calidez de los elogios.
En una lección de apertura de curso que pronuncié donde presto mis
servicios, la Universidad Carlos III de Madrid, me atreví a escrutar el
entramado de los primeros versos de Castilla, conocido poema de Manuel Machado:
“El ciego sol se estrella
en las duras aristas de las armas,
llaga la luz los petos y espaldares
y flamea en las puntas de las lanzas.
El ciego sol, la sed y la fatiga …
Por la terrible estepa castellana,
al destierro, con doce de los suyos
–polvo, sudor y hierro– el Cid cabalga”.
Dediqué mi análisis al papel de los fonemas en estos versos. Disculpen
la repetición, pero en las mentes hay bucles y yo no domino los que enredan la mía: los fonemas –y las letras– no son las mínimas unidades
vivas del lenguaje, como no lo son en el caso de la biología el núcleo y
la membrana de una célula. Incluso algunos de esos fonemas tienen
condición ruidosa: piensen en los plosivos, en los silbantes … –si me
apuran, atribuiría carácter ruidoso a todos ellos: sin contexto, no informan–. Pero sigamos.
DE MÁQUINAS Y HUMANOS 59
“Polvo, sudor y hierro”: enumeración poética que describe a los doce
–y al Cid– con admirable economía. Al leerla, surge la difusa sensación
de que se había anticipado en versos anteriores: la estepa, el sol, las armas, … ¿solo eso?
Polvo. En la garganta, exhalaciones para expulsarlo. La respiración se
hace silbante. Silbantes son
“El ciego Sol Se eStrella
En lasS duraS ariStaS de laS armaS,
llaga de luz los petoS y eSpaldareS
y flamea en laS puntaS de laS lanzaS”.
El sudor brota explosivamente ante la acometida del sol.
“llaga de luz los Petos y esPaldares
y flamea en las Puntas de las lanzas”.
son las plosivas que anuncian su mención.
Cuando se cabalga, el hierro se vuelve una mezcla de vibraciones y sonoridad. Las erres:
“El ciego sol se estRella
en las duRas aRistas de las aRmas,
llaga de luz los petos y espaldaRes”
y las nasales
“y flamea eN las puNtas de las laNzas”
son las precursoras de su aparición.
He ahí la consistencia interna del poema: de los sonidos –en cierto modo,
ruidos– con el asunto. Musicalidad. Abrazo de fondo y forma. Poesía.
Fray Luis de León, a quien envidia –furia– y mentira –ruido– encerraron durante años, escribió, inspirándose en sus lecturas y traducciones
de Horacio:
60
ANÍBAL R. FIGUEIRAS VIDAL
“¡Qué descansada vida
la del que huye del mundanal ruido
y sigue la escondida
senda por donde han ido
los pocos sabios que en el mundo han sido!”
Difícil sería acompañar a esos pocos sabios, porque aún nos queda mucho que aprender. Pero, al menos, no llenemos la vida de furia, y parémonos a separar las voces –suenen como suenen y doquiera las
oigamos– del ruido.
DE MÁQUINAS Y HUMANOS 61
BIBLIOGRAFÍA
Me habría gustado poner en manos de los lectores un texto que les permitiese
seleccionar y reordenar sus partes conforme a las preferencias e intereses personales. Finalmente, el cuerpo del discurso no da facilidades suficientes para
ello, por lo que comentar las referencias a las que he acudido se ha hecho necesario para no bloquear todos los caminos.
Doy prioridad a libros respecto a artículos especializados porque resultan más
accesibles –física e intelectualmente– y, a la vez, sus bibliografías franquean el
paso a indagaciones más profundas.
La toma de decisiones
La inspiración de las gráficas con las que represento los procesos de toma de
decisiones me vino de las que aparecen en un excelente clásico de Teoría de
la Señal y las Comunicaciones:
– Harry L. Van Trees: Detection, Estimation, and Modulation Theory (vol. I); New
York, NY: Wiley; 1968.
La edición original del ensayo de Laplace es:
– Pierre Simon de Laplace: Essai Philosophique sur les Probabilités; París: Courcier; 1814.
La narración “La lotería en Babilonia” forma parte de:
– Jorge Luis Borges: Ficciones; Madrid: Alianza; 1971.
Las máquinas entrenables
De entre los muchos textos introductorios a estos temas, prefiero los del Académico Correspondiente Christopher Bishop:
– Christopher M. Bishop: Neural Networks for Pattern Recognition; Oxford, UK:
Oxford Univ. Press; 1995;
– Chistopher M. Bishop: Pattern Recognition and Machine Learning; New York,
NY: Springer; 2006.
62
ANÍBAL R. FIGUEIRAS VIDAL
Ambos requieren conocimientos matemáticos, pero no superiores a los de primeros cursos de carrera. Aunque lo mismo ocurre con:
– Richard O. Duda, Peter E. Hart, David G. Stork: Pattern Classification (2nd.
ed.); New York, NY: Wiley; 2001,
las reseñas históricas con que estos autores cierran cada capítulo pueden interesar a un mayor número de lectores.
La toma de decisiones por humanos
En realidad, las primeras reflexiones sobre la no racionalidad en el proceder
de los humanos de que tengo noticia se deben a Charles Peirce; en particular,
su artículo
– Charles S. Peirce, “Guessing”; The Hound and Horn, vol. 3, pp. 267-282, 1929,
publicado póstumamente, examina y discute las conjeturas.
Parece que Peirce influyó en el pensamiento de su genial amigo William James;
en concreto, en la aceptación por este de un “pensamiento empírico” (o “asociativo”), en su magna obra
– William James: The Principles of Psychology; New York; NY: Dover; 1890,
que bien puede considerarse un precedente de los “Procesos Duales” de Keith
E. Stanovich (citado más adelante).
Esos precursores no disminuyen en nada la originalidad de los planteamientos y el valor de los análisis de Herbert Simon, que se sintetizan en:
– Herbert A. Simon: Models of Man; New York, NY: Wiley; 1957.
Las obras divulgativas de Dan Ariely son:
– Dan Ariely: Predictably Irrational; New York, NY: HarperCollins; 2008;
– Dan Ariely: The Upside of Irrationality; New York; NY: HarperCollins; 2010.
Hay una relación complementaria entre los trabajos de Ariely y los de un analista que no menciono en el texto:
DE MÁQUINAS Y HUMANOS 63
– Nassim N. Taleb: The Black Swan; New York, NY: Random House; 2007,
quien discute las limitaciones que impone a la predicción la posibilidad de
aparición de sucesos de gran importancia, pero infrecuentes o incluso únicos.
No se debe renunciar a la consulta de las obras científicas de Gerd Gizerenzer,
como es:
– Gerd Gigerenzer, Peter M. Todd, and the ABC Research Group: Simple Heuristics That Make Us Smart; New York, NY: Oxford Univ. Press; 1999,
o sus contribuciones en:
– Gerd Gigerenzer, Reinhard Selten (eds.): Bounded Rationality. The Adaptative
Toolbox; Cambridge, MA: MIT Press; 2001;
aunque resultan más entretenidas las divulgativas:
– Gerd Gigerenzer: Calculated Risks; New York, NY: Simon & Schuster; 2002;
– Gerd Gigerenzer: Gut Feelings. The Intelligence of the Unconscious. New York,
NY: Viking; 2007.
Siento mucho respeto por el trabajo de Gigerenzer, pero considero más equilibrado el tratamiento que da al pensamiento intuitivo:
– David G. Myers: Intuition. Its Powers and Perils; New Haven, CT: Yale Univ.
Press; 2002.
De lectura más que recomendable para los particularmente interesados por
estos temas son los tres libros de contribuciones científicas (co)editados por
Daniel Kahneman:
– Daniel Kahneman, Paul Slovic, Amos Tversky (eds.): Judgment under Uncertainty: Heuristics and Biases; New York, NY: Cambridge Univ. Press; 1982;
– Daniel Kahneman, Amos Tversky (eds.): Choices, Values, and Frames; New
York, NY: Cambridge Univ. Press; 2000;
– Thomas Gilovich, Dale Griffin, Daniel Kahneman (eds.):Heuristics and Biases;
New York, NY: Cambridge Univ. Press; 2002;
64
ANÍBAL R. FIGUEIRAS VIDAL
tanto porque en ellos aparecen muchos de sus artículos fundamentales, buena
parte preparados en cooperación con Amos Tversky, como porque contienen
otros también de máxima relevancia. Numerosos experimentos de entre los
más citados en sicología cognitiva –incluyendo aquellos que aparecen más
adelante en mi discurso– se tratan detalladamente en estas obras colectivas. Y
abandone todo recelo el lector no especializado: cabe una provechosa lectura
con ojos de profano.
La reciente obra divulgativa:
– Daniel Kahneman: Thinking. Fast and Slow; New York, NY: Farrar, Straus and
Giroux; 2011;
es magistral; pero debe degustarse sorbo a sorbo, dedicándole tiempo y atención.
Si el lector desea contextualizar los estudios anteriores, hará bien en recurrir
al magnífico texto universitario:
– Reid Hastie, Robyn M. Dawes: Rational Choice in an Uncertain World; Thousand Oaks, CA: Sage; 2001.
Errores de percepción
En
– Donald D. Hoffman: Visual Intelligence; New York, NY: Norton; 1998;
se pueden encontrar numerosas imágenes que nos desconciertan o nos llevan
al error, y sencillas explicaciones de lo que nos ocurre.
Errores de memoria
La conferencia en la que me atreví a proponer que las letras sin inertes mientras que las palabras están vivas ha sido publicada por el Instituto de España:
– Aníbal R. Figueiras Vidal, “Información y conocimiento, material y producto:
de la Ingeniería como oportuna herramienta”; en: Aníbal R. Figueiras (ed.):
La sociedad de la información y el conocimiento; Madrid: Instituto de España;
2010.
DE MÁQUINAS Y HUMANOS 65
La ya citada Ficciones contiene también “La biblioteca de Babel”. Borges alega
que la estructura de la biblioteca es superflua, y que basta con el cuerpo euclídeo (infinitos planos: infinitas páginas) en sus notas explicativas de:
– Jorge Luis Borges: El libro de arena; Madrid: Alianza; 1977;
en que se incluye la narración del mismo título. Sinceramente, creo que la reducción de tamaño afectó a la calidad literaria.
La presencia del “efecto halo” en el mundo de los negocios se discute lúcidamente en:
– Phil Rosenzweig: The Halo Effect; New York, NY: Free Press; 2007;
así como otros errores muy relacionados con él.
“Funes, el memorioso” es otra de las perfectas perlas narrativas que integran
Ficciones.
– Luis Rojas Marcos: Eres tu memoria ; Madrid: Espasa; 2011;
se asoma a la memoria humana de forma cuidadamente inteligible, delicadamente didáctica para el gran público. Quienes deseen mayor extensión y detalle, pueden recurrir a:
– John J. Ratey: A User’s Guide to the Brain; New York, NY: Pantheon; 2001;
– Nolasc Ascarín: El cerebro del rey; Barcelona: RBA; 2001.
En ambos se visita ordenadamente todo nuestro cerebro.
Errores de procesamiento
Como declaro en el texto del discurso, lo relativo al caso de O.J. Simpson está
tomado de un libro impactante:
– Leonard Mlodinov: The Drunkard’s Walk. How Randomness Rules Our Lives;
New York, NY: Pantheon; 2008;
que convence mediante múltiples e inesperadas evidencias de nuestra incapacidad para apreciar y habérnoslas con lo aleatorio. A quienes deseen ad-
66
ANÍBAL R. FIGUEIRAS VIDAL
quirir unas mínimas destrezas útiles en situaciones reales sencillas, les recomiendo:
– John Haig: Matemáticas y juegos de azar; Barcelona: Tusquets; 2003.
La frase de Alan Dershowitz está tomada de:
– Alan Dershowitz: The Best Defense; New York, NY: Vintage; 1983.
Rabiosamente original es:
– László Mérö: Moral Calculations. Game Theory, Logic, and Human Frailty; New
York, NY: Springer; 1998;
enérgico alegato en defensa de mantener principios como la Regla de Oro
–considera el bien de los demás como tu objetivo– para que la lógica no engendre consecuencias ilógicas. Si bien se centra en los juegos estratégicos, no
puede ignorarse que muchos de estos sirven como modelos de dilemas reales.
La unificación de las visiones dicotómicas
Los experimentos de Benjamín Libet y de John-Dylan Hynes se resumen en:
– Stephen L. Macknik, Susana Martínez-Conde: Sleights of Mind. What the Neuroscience of Magic Reveals about Our Everyday Deceptions; New York; NY: Holt;
2010.
Estas páginas merecen ser leídas porque ponen de manifiesto la completa indefensión de nuestros sistemas sensoriales –especialmente el visual– frente a
engaños, y explican las relaciones de algunos trucos de magia con hallazgos
de la Neurociencia. De nada vale estar prevenido; asistí a la conferencia invitada de ambos en un congreso (especializado en tratamiento cognitivo de la
información) celebrado en Baiona en mayo del 2012, que me honré en presidir; dedicar la atención al engaño esperado incrementaba la facilidad para caer
en otros.
Damasio hace la recomendación que menciono en:
– Antonio Damasio: Y el cerebro creó al hombre; Barcelona: Destino; 2010.
Me siento tentado de afirmar que:
DE MÁQUINAS Y HUMANOS 67
– Keith E. Stanovich: Rationality & the Reflective Mind; New York; NY: Oxford
Univ. Press; 2011,
debería ser una lectura obligatoria para todos. Solo lo evita que eso entrañaría dificultades para un no especialista que no acertase a aislar las conclusiones de sus soportes técnicos.
El texto en que se desarrollan las raíces del diseño de árboles es:
– Leo Breiman, Jerome H. Friedman, Richard A. Olshen, Charles J. Stone: Classification and Regression Trees; New York, NY, Chapman & Hall; 1993.
Retorno a las máquinas de decisión
El mérito de la concepción, diseño y empleo de la primera máquina para clasificación corresponde a:
– Frank Rosenblatt, “The Perceptron: A probabilistic model for information
storage and organization in the brain”, Psychological Review, vol. 65, pp.
386-408, 1958;
quien se inspiró en trabajos con puertas lógicas de otros autores (entre ellos,
nada menos que Alan Turing).
Como era de esperar de una primera tentativa, la máquina de Rosenblatt adolecía de serias limitaciones: era un decisor lineal, y su algoritmo de entrenamiento, claramente subóptimo. Ello llevó a Marvin Minsky, insigne
investigador pero persona de muy conflictivo carácter –son bien conocidas
las trabas que puso durante su participación en el desarrollo de Arpanet– a
aventurar la conjetura, en
– Marvin L. Minsky, Seymour A. Papert: Perceptrons: An Introduction to Computational Geometry; Cambridge, MA: MIT Press; 1969,
de que cualquier línea que partiese de las ideas de Rosenblatt se encontraría
asimismo con inconvenientes de carácter fundamental. Como otras veces,
Minsky se equivocó:
– Paul J. Werbos: Beyond Regression: New Tools for Prediction and Analysis in the
Behavioral Sciences; Ph D. Thesis; Cambridge, MA: Harvard Univ.; 1974,
68
ANÍBAL R. FIGUEIRAS VIDAL
fue el primero que propuso una solución válida para las dificultades iniciales. Me ahorraré detallar la lenta y subterránea evolución de los Perceptrones
Multicapa, que solo emergió al publicarse:
– David E. Rumelhart, James L. McClelland, and the PDP Research Group (eds.):
Parallel Distributed Processing (2 vols.); Cambridge, MA: MIT Press; 1986.
Ha de resaltarse que la Biología, la Sicología y la Sociología estuvieron presentes en esta aventura.
Los teoremas no constructivos probados en:
– Kurt Hornik, Maxwell Stinchcombe, Halbert R. White, Jr., “Multilayer feedforward networks are universal approximators”, Neural Networks, vol.
2, pp. 359-366; 1989;
– George Cybenko, “Approximation by suposition of a sigmoidal function”,
Mathematical Control Signal Sys., vol. 2, pp. 303-314; 1989;
hicieron evidente la (teóricamente) ilimitada capacidad representativa de estas máquinas provistas de no linealidades de tipo sigmoidal; quedaron abiertos los problemas de dimensionado y entrenamiento. La visión complementaria –dimensionado dado, no linealidades a determinar– había sido estudiada
por el celebrado Kolmogorov en:
– Andréi N. Kolmogorov, “On the representation of continuous functions of
many variables by superpositions of continuous functions of one variable
and addition”, Doklady Akad. Nauk USSR, vol. 114, pp. 953-956, 1957.
La primera máquina entrenada con el objetivo de maximizar los márgenes de
separación entre clases (Máquina de Vectores Soporte) apareció en:
– Bernhard E. Boser, Isabelle Guyon, Vladimir Vapnik, “A training algorithm for
optimal margin classifiers”, in David Haussler (ed.), Proc. 4th Workshop on
Computational Learning Theory, pp. 144-152; San Mateo, CA: ACM Press; 1992;
partiendo de ideas del matemático ruso que firma en tercer lugar. Para quienes deseen conocer los fundamentos de estas máquinas, es recomendable:
– Bernhard Schölkopf, Christopher J.C. Burges, Alexander J. Smola (eds.): Advances in Kernel Methods: Support Vector Learning; Cambridge. MA: MIT Press;
1999.
DE MÁQUINAS Y HUMANOS 69
El teorema “No Free Lunch” se propone y prueba en:
– David H. Wolpert, “The relationship between PAC, the statistical physics
framework, the Bayesian framework, and the VC framework” in David H.
Wolpert (ed.), The Mathematics of Generalization, pp. 117-214; Reading, MA:
Addison-Wesley; 1995.
Comparaciones de humanos con máquinas
Meehl presentó los estudios que arrojaban tan perturbadores resultados en
una pequeña monografía:
– Paul E. Meehl, Clinical versus Statistical Prediction: A Theoretical Analysis and
a Review of Evidence; Minneapolis, MN: Univ. of Minnesota Press; 1954;
y Sawyer los suyos en el artículo:
– Jack Sawyer, “Measurement and prediction, clinical and statistical”, Psychological Bull., vol. 66, pp. 178-200, 1966.
La inteligencia colectiva
El teorema de Imposibilidad se discute en:
– Kenneth Arrow: Social Choice and Individual Values; New York; NY: Wiley;
1951.
La tesis de Shapley fue:
– Lloyd S. Shapley, Additive and Non-Additive Set Functions; Ph. D. thesis, Dept.
of Mathematics, Princeton Univ., 1953;
y la extensión de ese trabajo a la Teoría de Juegos, el artículo de libro:
– Lloyd S. Shapley, “A value for n-person games”, in H.W. Kuhn, A.W. Tucker
(eds.), Contributions to the Theory of Games, vol. II, pp. 307-317; Princeton, NJ:
Princeton Univ. Press; 1953.
Deduzco de la lectura del elemental pero serio libro de divulgación:
70
ANÍBAL R. FIGUEIRAS VIDAL
– John A. Paulos: A Mathematician Reads the Newspaper; New York, NY: Basic
(Harper Collins); 1995,
que el abogado John F. Banzhaf popularizó el empleo del valor de Shapley en
situaciones de la vida real.
A Shapley le fue concedido el Premio Nobel de Economía 2012 después de
haber redactado yo la versión escrita de este discurso, por trabajos un decenio
posteriores a su tesis doctoral. He familiarizado a mis estudiantes de Ingeniería de Telecomunicación en la UC3M con las implicaciones del valor de
Shapley desde finales de los 90, cuando se implantó la asignatura de Innovación Tecnológica, cuyos temas dedicados a creatividad imparto.
Me ha sido de gran provecho reflexionar sobre el hilo del discurso y los casos
reales expuestos en
– James Surowiecki: The Wisdom of Crowds; New York, NY: HarperCollins: 2004,
así como consultar algunas de sus referencias bibliográficas. Una obra que discute la importancia del intercambio –en sentido general y de bienes– es
– Matt Ridley: The Rational Optimist: How Prosperity Evolves. New York, NY:
HarperCollins; 2010.
Competición y cooperación
Un trabajo divulgativo muy completo sobre el Dilema del Prisionero es:
– William Poundstone: Prisoner’s Dilemma; New York, NY: Doubleday; 1992;
mientras que
– Robert Axelrod: The Complexity of Cooperation; Princeton, NJ: Princeton Univ.
Press; 1997,
resume una amplia y esclarecedora experimentación de tan importante juego.
Las agrupaciones de máquinas
Disfruto cuando señalo que el primer análisis matemático de las agrupaciones
tuvo como autor a un muy querido amigo (L-K.H.):
DE MÁQUINAS Y HUMANOS 71
– Lars-Kai Hansen, Peter Salamon, “Neural network ensembles”, IEEE Trans.
Pattern Analysis and Machine Intelligence, vol. 12, pp. 993-1001, 1990.
Dos textos introductorios que se han ganado mi aprecio –su frecuente consulta es tanto causa como síntoma– son:
– Ludmila I. Kuncheva; Combining Pattern Classifiers. Methods and Algorithms.
Hoboken, NJ: Wiley; 2004;
– Lior Rokach: Pattern Classification Using Ensemble Methods. Singapore: Wold
Scientific; 2010.
Con el autor del segundo tuve el placer de escribir la ponencia invitada de carácter tutorial sobre las principales líneas actualmente abiertas en estas investigaciones:
– Aníbal R. Figueiras-Vidal, Lior Rokach, “An exploration of research directions
in machine ensemble theory and applications”, in: Michel Verleysen (ed.),
Proc. 20th European Symp. on Artificial Neural Networks, Computational
Intelligence, and Machine Learning, pp. 227-232; Louvain–la– Neuve, Belgium: CIACO; 2012.
El extraordinario y prolífico investigador Leo Breiman, recientemente fallecido, ideó el “Bagging”:
– Leo Breiman, “Bagging predictors”, Machine Learning, vol. 34, pp. 123-140,
1996.
El mismo autor utilizó mecanismos análogos para combinar árboles diversos
en las que simpáticamente denominó “Selvas Aleatorias”:
Leo Breiman, “Random forests”, Machine Learning, vol. 45, pp. 5-32, 2001.
“Del rigor en la ciencia” forma parte, como dije en el texto del discurso, de:
– Jorge Luis Borges: El Hacedor; Madrid: Alianza; 1972.
El teorema que se conoce con el inquietante nombre de “Puede Ser Mejor Muchos que Todos” se encuentra en:
– Zhin–Hua Zhou, Jianxin Wu, Wei Tang, “Ensembling neural networks: Many
could be better than all”, Artificial Intelligence, vol. 137, pp. 239-263, 2002.
72
ANÍBAL R. FIGUEIRAS VIDAL
Agrupaciones cooperativas
La primera versión consistente de las Mezclas de Expertos fue:
– Robert A. Jacobs, Michael I. Jordan, Stephan J. Nowland, Greoffrey E. Hinton, “Adaptative mixtures of local experts”, Neural Computation, vol. 3, pp.
79-87, 1991.
Han visto la luz muchas decenas de trabajos dedicados a estas atrayentes estructuras. Por mor de brevedad, remito a los interesados al muy reciente artículo tutorial:
– Seniba E. Yuksel, Joseph N. Wilson, Paul D. Gader, “Twenty years of Mixture
of Experts”, IEEE Trans. Neural Networks and Machine Learning, vol. 33, pp.
1177-1193, 2012.
“AdaBoost” y “Real AdaBoost” son las dos versiones básicas de los algoritmos constructivos por “Boosting”:
– Yoav Freund, Robert E. Shapire, “A decision–theoretic generalization of
on–line learning and its applications”, J. Computer and System Sciences, vol.
55, pp. 119-139, 1997;
– Robert E. Shapire, Yoram Singer, “Improved boosting algorithms using confidence–rated predictions”, Machine Learning, vol. 37, pp. 297-336, 1999.
En esta línea han aparecido todavía más contribuciones científicas que en la
anterior, así que quien desee saciar su ansia de saber más, que recurra a la monografía:
– Robert E. Shapire, Yoav Freund: Boosting. Foundations and Algorithms; Cambridge, MA: MIT Press; 2012.
Las bases de las teorías PAC se pueden rastrear en:
– Lee Valiant, “Theory of the learnable”, Communications of the ACM, vol.
27, pp. 1134-1142, 1982.
En realidad, los algoritmos de “Boosting” pueden considerarse como un elegante caso particular de una familia más amplia, los de “Arcing” (“adaptative resampling and combining”), que aplican remuestreos de diversos tipos:
DE MÁQUINAS Y HUMANOS 73
– Leo Breiman, “Arcing classifiers”, Annals of Statistics, vol. 26, pp. 801-849, 1998.
Una breve visita a los sistemas adaptativos
La teoría del filtrado óptimo fue una revolucionaria aportación de:
– Andréi N. Kolmogorov, “Sur l’interpolation et extrapolation des suites stationaries”, Comptes Rendues Acad. Sci., vol. 208, pp. 2043-2045, 1939;
– Norbert Wiener: Extrapolation, Interpolation, and Smoothing of Stationary Time
Series, with Engineering Applications. Cambridge, MA: MIT Press; 1949.
La separación entre las fechas en que fueron publicadas ambas obras se debe
a que la segunda permaneció clasificada por el Departamento de Defensa estadounidense hasta más allá del final de la Segunda Guerra Mundial.
El famosísimo y seminal artículo donde se presentó el LMS o filtro de WidrowHoff es:
– Bernard Widrow, Marcian E. Hoff, Jr., “Adaptive switching circuits”, IRE
WESCON Conv. Record, Pt. 4, pp. 96-104; Los Angeles, CA, 1960.
La imposibilidad de trazar, siquiera a grandes brochazos, una historia de los
filtros adaptativos me conduce a citar el texto:
– Ali H. Sayed: Adaptive Filters. Hoboken, NJ: Wiley; 2008;
que elijo entre media docena de excelentes alternativas.
Los tres artículos que presentaron los primeros análisis y experimentos sobre
las combinaciones adaptativas de sistemas adaptativos, y que aparecieron en
orden completamente aleatorio por los diferentes plazos de revisión y publicación –obsérvese el título del primero–, fueron:
– Jerónimo Arenas-García, Vanessa Gómez-Verdejo, Aníbal R. Figueiras-Vidal,
“New algorithms for improved adaptive convex combination of LMS filters”,
IEEE Trans. Instrumentation and Measurement, vol. 54, pp. 2239-2249, 2005;
– Jerónimo Arenas-García, Manuel Martínez-Ramón, Ángel Navia- Vázquez,
Aníbal R. Figueiras-Vidal, “Plant identification via adaptive combination of
adaptive filters”, Signal Processing, vol. 86, pp. 2430-2438, 2006;
74
ANÍBAL R. FIGUEIRAS VIDAL
– Jerónimo Arenas-García, Aníbal R. Figueiras-Vidal, Ali H. Sayed, “Meansquare performance of a convex combination of adaptive filters”, IEEE Trans.
Signal Processing, vol. 54, pp. 1078-1090, 2006.
En esta línea, han seguido más de un centenar de contribuciones científicas
de autores especializados, que van de estudios teóricos a aplicaciones en muchos campos prácticos –acústica, comunicaciones, medicina, meteorología,…;
aunque aún faltan en arrays, y en control–. El lapso de tiempo ha sido tan
breve que todavía no ha aparecido ningún resumen tutorial, pero les prometo
que no tardará.
Líneas abiertas en agrupaciones de máquinas
La primera contribución sobre la estructura alternativa a las Mezclas de Expertos es:
– Adil Omari, Aníbal R. Figueiras-Vidal, “Feature combiners with gate generated weights for classification”, aceptado para publicación, IEEE Trans. Neural Networks and Learning Systems, 2012;
y también hemos utilizado versiones débiles para la construcción de agrupaciones, con prestaciones superiores a las de sus predecesores:
– Efraín Maylua-López, Vanessa Gómez-Verdejo, Aníbal R. Figueiras-Vidal,
“Real AdaBoost with gate controlled fusion”, aceptado para publicación,
IEEE Trans. Neural Networks and Learning Systems, 2012.
Dedicamos en la actualidad buena parte de nuestro esfuerzo investigador,
además de a las direcciones habituales en esta clase de trabajos (procedimientos
constructivos, variantes adaptativas, extensiones para regresión, etc.), a la integración de máquinas convencionales con las aquí presentadas.
Los sistemas distribuidos
Los estudios sobre los procedimientos de consenso en sistemas distribuidos
han evolucionado a partir de:
– John N. Tsilikis, Michael Athans, “Convergence and asymptotic agreement
in distributed decision problems”, IEEE Trans. Automatic Control, vol. 9,
pp. 42-50, 1984.
DE MÁQUINAS Y HUMANOS 75
En el artículo:
– Cassio G. Lopes, Ali H. Sayed, “Diffusion least–mean square over adaptive
networks: Formulation and performance analysis”, IEEE Trans. Signal Processing, vol. 55, pp. 4064-4077, 2007,
aparecieron los algoritmos de difusión.
Para apreciar el estado presente de la investigación de estos algoritmos, puede
acudirse a:
– Jae-Woo Lee, Seong–Eun Kim, Woo-Jin Song, Ali H. Sayed, “Spatio– temporal diffusion strategies for estimation and detection over networks”, IEEE
Trans. Signel Processing, vol. 60, pp. 4017-4034; 2012;
– Jianshi Chen, Ali H. Sayed, “Diffusion adaptation strategies for distributed
optimizacion and learning over networks”, IEEE Trans. Signal Processing,
vol. 60, pp. 4289-4305, 2012.
La frase en que menciono topologías, conexiones y tráficos no debe interpretarse como un menosprecio al profundo valor de
– Albert-Lázslo Barabási: Linked; Cambridge, MA: Perseus; 2012;
sino como un empujón para ir más lejos, nacido de mi ferviente deseo de ampliar las perspectivas de esos estudios y ganar más comprensión de la actual
evolución social. Se han iniciado estudios para tener en cuenta la semántica de
los mensajes, como se resume en
– Hay Zhuge: The Knowledge Grid (2nd. ed.). Singapore: World Scientific; 2012.
– Hans Schaffers, Nicos Komminos, Marc Pallot: Smart Cities as Innovative
Ecosystems Sustained by the Future Internet; CFC Fireball White Paper, 2012,
es el informe al que me refiero en el texto, cuyo principal mérito –no despreciable– se encuentra en el cambio de perspectiva, buscando obtener beneficios de la inteligencia colectiva. La mecánica que propone, sin embargo, me
parece harto elemental y poco adecuada.
Una disquisición
El aprendizaje como aprehensión más asimilación lo propone Piaget en
76
ANÍBAL R. FIGUEIRAS VIDAL
– Jean Piaget, Six Études de Psychologie. París: Folio; 1964;
y la “científica” de la creatividad aparece en varias contribuciones de las que
componen:
– Margaret A. Boden (ed.): Dimensions of Creativity. Cambridge, MA: MIT Press;
1994.
Si me dejase llevar por mis inclinaciones, dedicaría bastantes páginas a bibliografía sobre creatividad; pero como en este discurso no le he dado un papel protagonista, solo mencionaré algunas obras cuya lectura me fue
especialmente grata:
– Arthur I. Miller: Insights of Genius; New York, NY: Copernicus; 1996.
– Craigh Loehle: Thinking Strategically; Cambridge, UK: Cambridge Univ. Press;
1996.
– Robert Root-Berstein, Michèle Root-Berstein: Sparks of Genius; New York,
NY: Houghton-Mifflin; 1999.
De otro nivel, pero muy completo, es el manual:
– Michael Michalko: ThinkerToys; Berkeley, CA: Ten Speed; 1991.
Conclusión
Nadie debe olvidar que
– Claude E. Shannon, “A mathematical theory of communication”, Bell System Technical J., vol. 27, pp. 379-423 (Pt. I), pp. 623-626 (Pt. II), 1948,
sienta, desde conceptos genialmente innovadores, las sólidas bases donde se
ha apoyado el desarrollo de las Telecomunicaciones actuales. Constituye, por
tanto, uno de los orígenes de la emergente Sociedad de la Información y el
Conocimiento. He de decir que también incluye un análisis pionero de la estructura del lenguaje con herramientas probabilísticas.
“La casa de Asterión” y la brevísima “Los dos reyes y los dos laberintos” son
narraciones de:
DE MÁQUINAS Y HUMANOS 77
– Jorge Luis Borges: El Aleph; Madrid: Alianza; 1971.
Fue hace pocos años cuando, al releer “Abecé de la poesía”, con que abre Francisco Rico su esmerada compilación
– Francisco Rico: La poesía española. Antología comentada (3 vols.); Barcelona:
Círculo de Lectores; 1991,
me empezaron a asaltar las dudas sobre mi hasta entonces absoluta convicción
de las ventajas de la métrica y la rima.
No conozco edición de la poesía de Fray Luis de León tan completa como la
del volumen 38 de la Biblioteca Clásica de la Real Academia Española:
– Fray Luis de León: Poesía (edición, estudio y notas de Antonio Ramajo Caño);
Barcelona: Galaxia Gutenberg/Círculo de Lectores; 2012;
pero confieso que mi obstinación en dedicarme a más de lo que puedo abarcar me ha impedido leer más que unas decenas de sus cientos de páginas, de
modo que es mayor el peso de
– Fray Luis de León: Poesía (edición de Manuel Durán y Michael Atlee); Madrid:
Cátedra; 1983,
en mi manera de apreciar estos versos; la concisión del aparato crítico de esta
edición no disminuye su calidad.
Descargar