ESTADISTICA ESPAÑOLA Vol. 34, Núm. 131, 1992, págs. 407 a 430 Inteligencia artificial y estadística por R. ALONSO ETSI Agrónornos, Madrid Unidad de Estadística M. TALBOT SASS, University of Edinburgh RESUMEN Este trabajo revisa las potenciales aplicaciones de la Inteligencia Artificial en Estadística y, recíprocamente, de la Estadística en Inteligencia Artificial. Palabras clave: Inteligencia Artificial, Estadística. Clasificación AMS: 62A99, 68G99. 1. INTRODUCCION EI análisis estadístico, en particular su componente de cálculo, se hizo progresivamente más fácil y cómodo a medida que los programas informáticos evolucionaban desde los elaborados en las primeras etapas, de objetivo específico, hasta los paquetes de programas de arnplio espectro, con posibilidades de interacción con el usuario y crecientes capacidades gráficas. Con la Ilegada de los microordenadores, el potencial inforrnático de cálculo estadístico ha dejado de estar definitivamente limitado a una élite especializada y, muy por el contrario, es de fácil acceso para un muy amplio grupo de usuarios. Incluso de ^:sr^[)IST[(^A ^^tiPAti(al_A ^(^K aquellos que disponen de una limitada formación en Estadística. Pero los profesionafes expertos en Estadística, que pueden ayudar a este tipo de usuarios, no son muy numerosos, en particular en ciertas áreas de especialización. Por lo tanto, ^por qué no incorparar el conocimiento de los expertos en Estadístíca a los ordenadores, de forma que el usuario de los paquetes de análisis estadístico pueda beneficiarse del conocimiento de tales expertos? Este articulo tiene como objetivo priorítarío analizar la investigación desarroliada a fin de extraer, organízar e incarporar a los ordenadores electrónicos el conocimiento de las profesionales expertos en Estadística, utilizando las técnicas de Inteligencia Artificial (IA). ^a segunda sección describe las características definitorias de la IA y su relación con !os programas de análisis estadistico. En la tercera se analiza la naturaieza específica del conocimiento exper#o en Estadística, y en la cuarta, los sistemas expertos en Estadística (el área de la IA que ha conocido un mayor desarrOllo y repercusión). En la sección quinta se plantea el futuro previsibie de la IA en Estadística, y la sexta estudia ia incidencia de la Estadística en IA. 2. INTE^.iGENCiA ARTIFICIAL EN ESTAQISTICA: UNA VISION GENERAL EI término Inteligencia Artificial aparece en su forma actual a mediados de las años cincuenta. La Inteligencia Artificia! es una disciplina científica que estudia la inteligencia humana utilizando el ordenador como principal herramienta de trabajo. La IA na dispone de una definición expresa que delimite su contenido, pero una de las más aceptadas es: IA es la ciencia que persigue lograr que las máquinas hagan cosas que, si fueran hechas por 1os seres humanos, diríarnos que requieren inteligencia. Como se advierte, es una definición un tant0 sutil. EI arquetipo de sisterna en IA comprende, de manera muy general, dos componentes fundamentafes y, consiguientemente, definitorios. Estos son: a) la Base de C©nocimientas, análoga a la base de datos en la programación convencional, y b) el Mator de lnferencia, equivalen#e a los programas de naturaleza algoritmica. De esta forma, ias caracteristicas centrales de la IA pueden resumirse en: i) la búsqueda de la representación explicita del conocimiento humano mediante hechos, reglas y otras estructuras símbólícas, frente al tratamiento convencional basado en su cuantificación numérica, y ii) la aplicación de sistemas de inferencia que perrnitan elaborar conclusiones a partir de un conocimiento inicial que no tiene por qué implicar de forma automática y directa las conclusiones obtenidas. INT^E^-L1(^ENC^I,A :ZkT^1F[('IAl_^ Y E^^TA[)Iti^T'I(^A ^O^) En términos generales, la situación puede resumirse afirmando que frente a un paradigma anterior, condensado en la expresión: Programa=Datos+Algoritmo, ha aparecido uno nuevo: Sistema=Conocimiento+lnferencia. EI conocirniento incorporado a los sistemas informáticos construidos en IA, así como la forma en la que se incorpora, son aspectos tan determinantes en la elaboración de dichos sistemas que se suelen denorninar, genéricamente, Sistemas Basados en el Conocimiento (SBC). Parafraseando otra afirmación más conocida: el conocimiento {no ya la información) es poder. Por esta razón, las técnicas de adquisición y representación del conocimiento son brevemente revisadas en el apartado siguiente (2.1). Algunas características de las herramientas de programación en IA se describen en el apartado 2.2. 2.1. Adquisición y representacián de! conocimiento La adquisición de conocimiento, frecuentemente adjetivada como el cuello de botella de la ingeniería del conocimiento, es uno de los principales problemas en el desarrollo de todo SBC. En la literatura especializada se encuentran algunos ejemplos (Gale, 1986c) de SBC en el campo de la Estadística, construidos en colaboración con ingenieros del conocimiento, profesionales formados en la obtención del conocimiento de los expertos en la materia objeto de estudio. Sin embargo, los ingenieros del conocirniento, una figura característica de la IA, no han jugado un papel relevante en la construcción de SBC en Estadística. La tendencia general ha sido la de prescindir de «intermediarios», como comentan Lubinsky y Pregibon (1988). Thisted (1986) explica esta tendencia a la marginación de los ingenieros del conocimiento en la construcción de SBC en Estadística, a partir de las características propias de los profesionales de la Estadística. Estos acostumbran a analizar e incorporar el conocimiento de quienes les consultan para aplicar las técnicas estadísticas en un muy amplio espectro de materias. Materias sobre las que el profesional de la Estadística tiene con cierta frecuencia un conocimiento escaso, en ocasiones nulo. De esta farma, el profesional de la Estadística sería un ingeniero del conocimiento avant /a /ettre, capacitada para analizar su propio área de especialización sin ayuda suplementaria. Así sucede con STUDENT (Gale, 1986b, 1987a), un ambicioso proyecto diseñado como herramienta para la construcción de SBC en el campo del análisis de datos, que no ha precisado de ingenieros del conocimiento en su propio desarrollo, ni se presuponen en su uso. EI profesional de la Estadística k`_í :^l)Iti T Ic A E^P ^^^+^ ^ t .^ -^ I 1) que utilice STUDENT no precisa tampoco conocer las técnicas desarrolladas en IA para la construcción de SBC, sino el sistema estadístico en el que se apoya (QPE, un sucesor de S), un conocimiento que presumiblemente un estadístico poseeré más fácilmente. Es de destacar que STUDENT, un sisterna concebido como auxiliar, no como un producto acabado, es el único SBC adaptativo desarrollado en Estadística; a diferencia del resto, su base de conocimientos no es fija, sino que se construye mediante la selección de elaborados ejemplos y la respuesta a preguntas. A los expertos, en ocasiones, les resulta difícil justificar razonadamente sus propias conclusiones. Por esta causa, se han desarrollado programas de adquisición automática de conocimiento (Gale, 1987c}. Algunos, apoyándose en bases probabilísticas, infieren reglas desde datos (Ivanek y Stejskal, 1988; Jirousek y Kriz, 1988} y otros desde series de ejemplos convenientemente elaborados. La calidad y utilidad de todo SBC depende en buena medida de su técnica de representación del conocimiento. La tarea de representación del conocimiento en Estadística es, por su amplitud, particularmente ardua y sobre ella se ha investigado poco. Para abordar los problemas planteados los SBC en Estad ística se han utilizado las técnicas ya desarrolladas en otras áreas. De esta forma, para la representación del conocimiento en Estadística se han utilizado los sistemas de producción, marcos y árboles de decisión. Un núrnero limitado de SBC en Estadística ha utilizado los sistemas de producción para la representacián del conocimiento. Como ejemplo citaremos el sistema descrito por Hietala (1988). EI programa REX (Gale, 1986c) hizo uso de los sistemas de producción y de los marcos en la representación del conocimiento. Como resultado de la experiencia acumulada en el desarrollo de REX, en su sistema sucesor, STUDENT, se utilizaron exclusivamente los marcos, técnica que se ha impuesto en el contexto de los SBC desarrollados en Estadística. La técnica de representación del conocimiento basada en los árboles de decisión ha sido, par el contrario, poco utilizada. Sus limitaciones e inconvenientes se describen en Hand (1985). EI uso de técnicas de representación del conocimiento de tipo Hypertext puede analizarse en los sistemas de potenciación del conocimiento: LMG (Hitchock y Edwards, 1989), KENS (Hand, 1987) y en su sucesor, NOMPAREIL (Hand, 1990b). La metadología hypertext propone una representación más estructurada, modelizada mediante grafos, que la convencional, en especial que la conseguida mediante sistemas de producción (Hand, 1990a). Oldford (198$) analiza las particularidades de la representación del conocimiento en el contexto de la metodología de programación orientada a objetos (OOP). ^ti^l^ ^c^1 Vc l^1 ^klltlt ^^l ti I ^^^^I^^^^^^ ^ Técnicas específicas de representación del conocimiento se utilizan en los trabajos de Hakong y Hickman ( 1985) y Gale y Lubinsky ( 1986). 2.2. Herramientas informáticas en Inteligencia Artificial Las herramientas de desarrollo en IA pueden clasificarse, según un nivel de complejidad creciente, en: i) lenguajes de programación lógica (LPL), como PROLOG; ii) entornos de programación del conocimiento (EPC), como KEE, y iii) periferias (shells), SBC de los que se eliminó su base de conocimienta específica, manteniendo únicamente su motor de inferencia y ciertos elernentos complementarios. Westerhoff y Naeve (1988) estudian las periferias en el contexto estadístico. Los LPL fueron originalmente diseñados para actuar en macroordenadores, las periferias en microordenadores y los EPC en microordenadores o estaciones de trabajo (analizadas éstas en el ámbito estadístico por Rasch y Sawitzki, 1990). Algunas aplicaciones de la IA en Estadística han hecho uso de las herramientas de programación de alto nivel, como las periferias. Ejemplos son: i) el programa desarrollado por Havranek y Sovdsky (1988) {al objeto de diseñar un sistema que aconseje al usuario del paquete BMDP en la construcción del archivo de parámetros para la ejecución del programa de clasificación automática), utilizando la periferia EQUANT, de tipo MYCIN, y ii) el pragrama de ayuda para la utilización de MLP (Berzuini, 1988) construido con la periferia EXPERT. Oldford (1988) analiza las características, en su opinión muy positivas, del paradigma OOP y de su lenguaje más elaborado: SMALLTALK. Pero, en el estado de investigación actual, las herramientas de programación de bajo nivel, como LISP -utilizado para elaborar DINDE (Oldford y o PROLOG utilizado en GLIMPSE (Nelder, 1987) , son de Peters, 1988) utilización preferente. 3. EL CONOCIMIENTO DE LOS EXPERTOS EN ESTADISTICA Las técnicas de IA se han utilizado en la investigación desarrollada para incorporar el conocimiento de los expertos en Estadística {3.1) a los ordenadores. La clave de esta investigación se encuentra no ya en los aspectos de cálculo, sino en la elaboración de la adecuada estrategia estadística (3.2). t ^r.^r^is-ric^;^ t^^r^,^ ^^c ^ i ,^ 3.1. La naturaleza del conocimiento de los expertos en Estadistica Aigunos autores, como Thisted {1986) o Bell y Watts (1988}, han estudiado las características específicas del conocimiento experto en Estadística. Se ha prestado muy particular atención a la comparación de dicho conocimiento con el análogo en medicina, debido a que un buen número de técnicas de IA se han aplicado en el contexto médico (Spiegelhalter, 1987a, b), ya desde los años setenta, De hecho, la primera investigación de la IA en el dominio de la Estadistica estaba fuertemente influida por el modo de pensar en el análisis de datos como en un problema de diagnóstico: se deberían enumerar las posibles hipótesis del modelo (proceso análogo a la especificación de las posibles enfermedades), estudiar en el conjunto de datos la no verificacián de las hipótesis (síntomas) que, caso de producirse, obliga a su transformación (tratamiento). EI conocimiento experto en Estadistica mantiene analogías con el propio en medicina {analogías esencialmente basadas en la naturaleza poco estructurada de los problemas que plantean), pero también importantes diferencias, que Chambers (1981 } y Hand (1986a) han analizado. 3.2. Estrategia en Estadística La estrategia estadística ha sido definida como la descripción formalizada de las elecciones, acciones y decisiones a adoptar en la utilización de los métodos estadísticos en el curso de un estudio de cualquier naturaleza. Hand (1986b) estructura la estrategia del análisis estadístico en cuatro etapas: I. Formulación de los objetivos generales; II. Formalización en términos estadísticos de los objetivos prefijados; III. Tratamiento nurnérico, y IV. Interpretación de resultados. La etapa I constituye la actividad propia de las sesiones de consulta, en las que se precisan las cuestiones que el investigador quiere estudiar. Esta acción depende en gran medida del dominio abjeto de estudio, por lo que resulta difícil plantear la elaboración de un programa que abarque el conjunto de aspectos no estadísticos que se presentan en las sesiones de consulta. Es por esta razón que e! problema ha recibido poca atencián (Hand, 1984b), pero no cabe duda de su importancia. Permitiría evitar el que se ha denominado «error de tercera especie»: dar ia respuesta correcta al problema incorrecto (incorrectamente planteado). Ante esta posibilidad sería preferible obtener una respuesta siquiera aproximada, pero relativa al problema real. EI programa RX (Blum, 1982) es, de entre los no muy numerosos sistemas que han abordado la etapa II, el más significativo. RX acepta un problema ItiTt^l,lt^t^^l( 1^1 ^^^tt11t Ic l^^l ti' t^T ^^[^ItiTlt .> expresado en términos médicos y elabara una descripción del estudio estadístico a efectuar. Pero en RX el análisis estadístico considerado sólo se refiere a las técnicas de regresión multivariante. Esta limitación a un único método estadistico es una característica del trabajo desarrollado, hasta el momento presente en la aplicación de las técnicas de IA en Estadística. Una correcta concepción de la Estadística debería contemplar todas y cada una de las técnicas que la componen. Pero no se ha efectuado ningún intento de elaboración de un programa capaz de incorporar el conocimiento experto en Estadística con carácter general. Sería, al menos por el momento, impracticable. Adernás, en paralelo con la evolución general de la IA, superada una etapa inicial de grandes expectativas, se abordan en la actualidad problemas específicos, de complejidad limitada. Es aún relativamente reciente la falta de curnplimiento de las expectativas generadas en el ámbito propio de ia lA, por programas como el sistema GPS (General Problem Solver); nadie se aventura a construir, ni siquiera a plantear la construcción de un SGPS (Statistics GPS). Es por ello que la investigación se ha centrado en la etapa III, pero entendida en sentido amplio, supliendo en alguna medida la falta de tratamiento de la etapa II. En la etapa III se ha abordado el problema de la selección de la técnica estadística pertinente, siempre en el marco de un subdominio de la Estadística. Así, a modo de ejemplo, el análisis multivariante en MUSE (Dambroise, 1987) o las series temporales en ESTES (Hietala, 1988). La etapa III se ocupa también de la aplicación de las técnicas estadísticas consideradas pertinentes. Aplicación que no sólo implica cálculo, sino que requiere también el análisis de las particularidades que los datos puedan presentar y que no se correspondan con las hipótesis exigidas para el correcto uso de la técnica seleccionada. Las microestrategias, modelos formalizados de un pequeño número de decisiones estadísticas, tal y como fueron definidas por Gale (1988), pueden contribuir a abordar los problemas a este nivel. La interpretación (etapa IV) de los resultados del análisis estadístico es, quizá, el objetivo de mayor alcance de entre los abordados hasta el momento. También es uno de los más difíciles de resolver. En opinión de Gale (1986d), la interpretación de resultados es una tarea que está exigiendo más esfuerzos de investigación. Algunos trabajos en esta línea son los de Gyarfars y Klosgen (1986) y Ho et al. (1986). Como indica Hand (1986a), es importante señalar que la linealidad de la secuencia de tareas 1-2-3-4 constituye una simplificación. En primer lugar, la Estadística, en tanto que disciplina científica, está dotada de una estructura propia, no es un conjunto de recetas. Además, la práctica del análisis estadístico puede desarrollarse en forma cíclica: las cuestiones a estudiar son frecuen- f^ r^^ ai^, r i^ ^ t,i^-^ti^ ^ i :^ temente redefinidas a la luz de la técnica a adoptar; los primeros resultados pueden aconsejar la consideración de métodos alternativos, y la presentación de los resultados ante 1os investigadores no estadísticos puede hacer reconsiderar al estadístico la idoneidad de la(s) técnica(s) adoptadas primariamente. EI estudio de las estrategias estadísticas es importante en sí mismo y en relación con su presencia en los programas informáticos que incorporan el del trabajo en Estadística. saber hacer 4. SISTEMAS EXPERTOS EN ESTADISTICA {SEE) Los Sistemas Expertos (SE) constituyen un importante tipo de sistemas basados en el conocimiento. Feingenbaum los ha definido como: «programas de ordenador inteligentes que utilizan conocimiento y métodos de inferencia para resolver problemas, cuya complejidad es tal, que requerirían una aportación significativa de expertos para su resolucíón». En los SE se integran hechos y heurística. Los hechos constituyen la parte de la información que es compartida, disponible en publicaciones y en la que están de acuerdo la generalidad de los especialistas en la materia. La componente heurística, por el contrario, tiene un carácter más personalizado y ha sido menos discutida, la conforman el conjunto de juicios que caracterizan el nivel de decisión de ios especialistas de valía rnás reconocida, expertos en la materia. Nelder (1977), en un artículo que es pionero en la reflexión acerca del papel de la IA en Estadística, fue uno de los primeros autores en considerar la posibilidad de elaborar programas de ordenador más inteligentes que ofrecer al usuario de los paquetes informáticos. Hasta el artícufo de Chambers (1981 } y su subsiguiente prototipo inicial, descrito en Chambers et al. (1981 }, no se inició la discusión acerca de la operatividad de la incorporación de inteligencia a los programas informáticos de aplicación en Estadística. Hand {1984a, 1994a) estudió los atributos de los SE en Estadística (SEE), resumidos en: i) los SEE han de ser de fácii modificación; ii} capaces de explicar tanto su proceso de razonamiento como los términos técnicos; iii) un SEE ha de tratar todas las cuestiones planteadas y, lo que es más importante y difícil de automatizar, ha de ser capaz de determinar cuándo se han abordado todos los aspectos del problema estudiado, y, por últirno, iv) debe permitir el fácil retorno a etapas previas, previendo tanto la deficiente comprensión de los términos técnicos por parte del usuario como las contradicciones en la información proporcionada por éste. Iti1t l It^f tit I1 .^^kII} It I^^l ti I^t^11 ^ I^1It ^ L Quién usará el sistema ? Los SEE pueden ser utilizados por usuarios no especialístas en Estadística o, por el contrario, por profesionales de la Estadística, en cuyo caso el SE puede aportar una «opinión» alternativa. En la práctica, la distinción entre estos tipos de usuarios no se produce de una forma abrupta, se presentan formaciones intermedias, por lo que los sistemas flexibles serán de utilidad. La mayor parte del trabajo acerca de los SEE ha sido orientado hacia los usuarios no especialistas en Estadística. De éstos, quízá el más conocido sea REX (Gale, 1986c). REX, en palabras de sus diseñadores, «aconseja al usuario en el análisis de regresión, conduce el estudio analizando e! cumplimiento de fas hipótesis del modelo, sugiriendo transformaciones cuando dichas hipótesis no se verifican y justificando sus sugerencias cuando se le requiere. Interpreta los resultados intermedios y finales e instruye al usuario en los conceptos estad í sticos» . Como REX, la mayor parte de los SEE intentan emular a los expertos humanos. La propuesta alternativa, también característica de la IA, podría ser la de la «caja negra»: no importa cómo la máquina hace las cosas, sino qué es lo que hace. Manteniendo el rnismo resultado final que el que produciría un analista humano, los medios utilizados son diferentes. Más que emular a los expertos humanos en su capacidad de síntesis global, la idea sería aprovechar aquellos aspectos en los que los ordenadores son realmente más eficientes, en particular en su capacidad de búsqueda basada en su potencia de cálculo (Lubinsky y Pregibon, 1988). Las técnícas de búsqueda heurística, una de las metodologías emblemáticas de la IA, han sido aplicadas en TESS (Lubinsky, 1987) y TETRAD (Glymour et al., 1987). EI capítulo 9 del texto de Glyrnour et al. revisa la historia de la búsqueda heurística en Estadística aplicada. A diferencia de los programas dirigidos a no especialistas, otro tipo de programas, de los que serían ejemplos KENS (Hand, 1987) y DINDE (Oldford y Peters, 1988), se diseñaron para su uso por profesionales de la Estadística. Estos sistemas aspiran a ayudar a los expertos humanos, no a reemplazarlos. Entre estos tipos extremos se encuentra GLIMPSE (Nelder, 1987), un proyecto a gran escala que se plantea la posibilidad de su utilización tanto por no especialistas, que irían aprendiendo con su uso, como por estadístícos profesionaies. igualmente flexib/e es el programa de entrada desarrollado por Ross (1988); en él, el usuario puede desconocer MLP o, por el contrario, ser un usuario experimentado en MLP pero que desea optimizar su uso. EI usuario de STATXPS (Prat et al., 1985) puede, análogamente, ser un experto, iniciado 0 principiante, tipos de usuarios a los que se les ofrece las posibilidades de interacción mediante comandos, menús o ayudas más elaboradas. -l I f^ E tiTAE)ItiTlt'•1 E tiE';^yt ^ l :1 Los SEE y e! cálculo Un limitado de SEE no efectúa cáICUIOS. No se plantea esta actividad en su concepción, sino que buscan orientar al usuario acerca de la correcta metodología estadística a aplicar. Ejemplos de este tipo de sisternas son KENS y STATISTICAL NAVIGATOR {Brent, 1988). Pero, en general, los SEE abordan también la ejecución de los cálculos. Dentro de este tipo mayoritario, un grupo limitado de sistemas se han desarroilado sin hacer uso de programación previa (como DINDE}. Sin embargo, la mayor parte de los SEE se construyen como programas de enlace (interface) que actúan sobre un paquete de programas preexistente, obviando así los problemas derivados del tratamiento numérico, que el paquete efectúa. Los problemas de conexión entre las componentes conversacional y numérica disminuyen utilizando UNIX (como ya REX demostró). Un primer tipo de programas de enlace son los pragramas de preprocesado que, interrogando al usuario, se limiten a la construcción del archivo de instrucciones exigido por el paquete estadístico {Havranek y Sovdsky, 1988). Pero la mayor parte de los programas de enlace desarrollados mantienen una relación más estrecha con el paquete para el que se diseñan; actúan como un frente exterior (front-end) del paquete. Como ejemplo, GLII't/IPSE, basado en GLIM. La mayor parte de ios programas de eniace hacen uso de las técnicas propias de IA. La aproxirnación seguida en TAXSY ( Darius, 1990) y en la versión actual de STUDENT ( Gale, 1987a) es diferente, ya que el programa de enlace se desarrolla en el mismo lenguaje del paquete estadístico sobre el que actúa (SAS y QPE, respectivamente, en TAXSY y STUDENT). ^ Quién decide? Los problemas relativos al diálogo hombre-máquina deben ser considerados en la elaboración de SEE. En contra de lo que ocurre con los programas de enlace convencionales, en los que domina el uso de órdenes (command), el programa de enlace inteligente deberia permitir la interacción mediante conversación. EI tratamiento del lenguaje natural resulta de evidente interés para cumplir este objetivo. EI prototipo de programa descrito por Hakong y Hickman (1985) presenta ciertas características próximas al lenguaje natural. Pero, sin duda, las aplicaciones más importantes en el tema que estudiamos se han orientado hacia la elaboración de programas de enlace que permitan la búsque- INIf f Ic^t Nc'IA,^Kf1!-I< I^^t ti t^Tnl>I^;llc -ti da en bases de datos mediante lenguaje natural (Lella et al., 1986; Barcaroli y Fortunato, 1989a) (1). Pero aun en el supuesto de lograr la comunicación con el sistema en lenguaje natural, la capacidad de decisión ha de recaer en el usuario y no en el sistema informático. Los SE deben ser «libertarios», dice Nelder (1988): «deben dar consejos, nunca órdenes». La razón es clara: el análisis estadistico está fuertemente condicionado por la rnateria objeto de estudio, ésta puede requerir información específica y/o complementaria (metadatos: datos acerca de los datos), que el usuario posee y que el sistema informático ignora. Como contrapartida, el peligro es que estos sístemas libertarios no pueden evitar su mal uso por parte del usuario. Citando nuevamente a Nelder (1988), el acceso a GLM mediante GLIMPSE, por ejemplo, no necesariamente supone que el usuario ha hecho buen uso del conocimiento experto incorporado al programa de enlace, «lo que los editores y revisores de revistas deben tener presente», precisa Nelder. No realizamos en este trabajo un análisis particularizado de todos los SEE desarrollados hasta el momento presente. Pero interesa destacar que la utilidad de las técnicas de IA en Estadística ha sido considerada no sólo en relación con las tareas de modelización, análisis e interpretación, sino también con otras tareas estadísticas, como son la obtención y preparación de datos (2). En esta línea destaca, en particufar en relación con las técnicas de muestreo, el proyecto ESCA (1991), desarrollado en el Centro Común de Investigacián de la CE (JRC, Ispra). 5. EL FUTURO DE LA INTELIGENCIA ARTIFICIAL EN ESTADISTrCA La IA conoció un período de relanzamiento en los años ochenta. La investigación en su aplicacián en Estadística en particular fue rnayor en la segunda mitad de la década. Se generó entonces un gran entusiasmo inicial, pero los resultados no se correspondieron, al menos en opinión de los observadores más críticos, con las grandes expectativas iniciales. Por esta razón, se pasó de unos planteamientos en cierta medida arrogantes, que Ilevados al extremo planteaban la posibilidad de sustitución de los expertos humanos por los sistemas informáticos inteligentes, a plantear la construcción de sisternas que ofre(1) La bibliografía incorpora referencias de algunos artículos que estudian la interrelación IA-Estadística-Bases de Datos: Elliman y Wittowski (1987); Haux y Jockel (1989); Lubinsky (1990); Drewett (1989); Fessey (1989); Lawton (1989); Lubbe (1990); Neumann (1990). (2) La recopilación DOSES (1989) presenta dos capítulos en esta línea; de ellos hemos incluido en la bibliografía los trabajos de Appel y Scop; Barcaroli y Fortunato; Bethelem et a1.; González y Hatabian; Greenberg; Lamb; Saris; Jeffers; y Talbot. -;^ ñ F^,f ^1l)Itillt ,^ f tiP-1ti^a1 1 cieran ayuda, siernpre en áreas muy delimitadas, no que sustituyeran a los especialistas humanos. Es por ello que 1a aplicación de las técnicas de IA en Estadística, lejos de representar una amenaza de para la actividad de los estadísticas profesionales, les ofrece la posibilidad de relevarlos de ciertas componentes rutinarias de su trabajo, permitiéndoles centrarse en las más creativas. En particular, el desarrolla y uso de SEE supondrá más (y mejor) trabajo (Gale, 1987b), no menos, de forma más significativa para los estadísticos relacionados con la investigación. Así lo demuestra el proyecto DOSES (Development Of Statistical Expert Systems), elaborado por la Comunidad Eurapea en 1987. Pero resta por comprabar empiricamente que los nuevos sistemas propuestos resulten verdaderarnente efectivos. Se pueden encontrar en la literatura especializada opiniones pesimistas (Jida y Lemaire, 1986} o escépticas (Molenaar, 1988) al respecto. La más agresiva es quizá la de Streitberg (1989), quien, apoyándase en argumentos técnicos, concluye que ios SEE no existen y, más aún, no existirán jamás. Streitberg propone en su artículo un test práctico para determinar si un sistema infarmático puede ser calificado de SEE con propiedad. EI test descansa en tres pruebas: i) su compieta operatividad; ii) su disponibilidad comercial, y iii) la superación de un test de Turing. En opinión de Streitberg, ningún sistema, de entre los elaborados hasta el momento, cumpliría estas condicíones. Tanto el test como la idea genérica de Streitberg fueron refutados en la discusión de su artículo (Chambers et al., 1989; Molenaar et al., 1989). Pero en una cuestión todos los autores se muestran de acuerdo: el término Sistema no es muy preciso, siendo preferible hablar de Experto Sistema de Consulta , como ya hizo Gale (1987a}, o de Sistema de Potenciacián del Conocimiento , como propone Hand (1990b). Se trataría con ello de ayudar a centrar las expectativas acerca de la posible aportación de la IA en Estadística; ésta no cristalizó en los años ochenta, pero tampoco habría necesariamente que esperar ochenta años, como algún autor ironiza en Malenaar et al. (1989). La exigencia de la formalización del conocimiento que la aplicación de las técnicas de IA exige condujo a una comprensión más profunda de áreas ajenas a la Estadistica; presumiblemente también este resultado se dará con ella. Así, para mejorar los SEE será necesario reestudiar la metodología del análisis estadístico en su conjunto; sus componentes menos estructuradas pueden destacar sobre el resto y su mejora puede hacer aparecer nuevos campos de estudio. Esto ha sucedido anteriormente; por ejemplo, el análisis exploratorio de datos planteó una forma diferente de tratar los datos y condujo al desarrollo de nuevas técnicas y métodos estadísticos. No obstante, el papel de la IA en Estadística no se plantea como revolucionario, como pudieron serlo los méto- I^+I k^l I(^i^N( I,^ ,^kf l#^I^ I^^l. ti^ 1^1 ^^f^Iti^l l^ ^^ dos bayesianos, aunque no se descarta que la revolución pueda producirse como efecto secundario. Mientras, la IA puede ser un importante apoyo en la formación en Estadística, una expectativa que la informática en general, no sólo la IA, no acaba de cumplir. Es de destacar la extraordinaria dispersión de la literatura relativa a la interrelación Estadística-IA, de la que puede ser un ejemplo la bibliografía de este artículo. Una fuente básica la constituyen las actas de congresos, entre los que destacan COMPSTAT e INTERFACE. Los textos existentes hasta el momento son recopilaciones de congresos (3), en ocasiones de difícil localización. EI espectro de revistas en las que interesarse es muy arnplio, ya que incluye tanto las revistas de Estadística como un buen número de las de IA. De entre las del primer tipo destacaremos que: i) la revista Statistics and Computing, cuyo primer número apareció en 1991, trata, según se lee en su editarial, el tema objeto de este artículo como preferente, y ii) desde 1991 (vol. 11, 1), la revista Statisties and Data Analysis incorpora Statistieal Software Newsletter, que hasta 1991 era una publicación interna para rniembros de la sección de cálculo estadístico (IASC) del iSl, uno de los entes organizadores de COMPSTAT. Señalaremos, por último, que si bien los sistemas expertos son el área de la IA que ha conocido un mayor desarrollo y divulgación, no constituyen en moda alguno su única línea de investigación. De entre el resto destaca la relativa a las redes neuronales, estructuras que buscan reproducir la actividad del cerebra humano. Esta aproximación exige ordenadores de gran potencia de cálculo, ordenadores como los vectoriales, que posibilitan el cálculo en paralelo, capacidad característica del cerebro humano y que estaba ausente de los ordenadores convencionales que actúan secuencialmente. Citaremos el proyecto NNCR (1991), desarrollado también en el JRC, como uno de los de mayor alcance en esta línea de investigación y desarrollo. 6. ESTADISTICA EN INTELIGENCIA ARTIFICIAL Si bien la IA ha contribuido al desarrollo de un buen número de disciplinas científicas y técnicas, la Estadística es una de las no muy numerosas áreas de la ciencia que han realizado aportaciones significativas al desarrollo de la IA. Las más importantes se agrupan en torno: i) al tratamiento de la incertidumbre, y ii) al estudio de los procesos de aprendizaje y desarrollo conceptual. (3) DOSES (1989); Gale (1986a); Haux (198fi); Phelps (1987). C `^T ^^f)Iti1 I^ ,1 F^ti1'-^^1^)C ,•^ 6.1. Tratamiento de la incertidumbre Hasta hace relativamente no muchos años, la comunidad de investigadores en !A no se mostraba atraída por el razonamiento probabilístico. Las razones de esta desafección inicial parecían claras: las probabilidades son númeras y la contribución de la IA se ha de producir, de acuerdo con su fundamento más exigente, aportando herramientas y técnicas para el razonamiento no numérico. Destacaremos entre éstas la lágica no monotónica y la teoría de los endosos (endorsernents) de Cohen. Los factores que originaron este prejuicio inicial evolucionaron sustancialmente y, de forma paralela, las exígencias prácticas condujeron al interés en el uso de los números como elementos de codificación del grado de confianza. Los primeros trabajos en esta línea se centraron en la incorporación de una medída de! nivel de conviccíón en el cumplirniento de ias reglas utilizadas en los sistemas de produccián. La estructura genérica de dichas reglas pasaría a ser: SI A ENTONCES B CON CERTEZA P. Los primeros y ya clásicos SBC (como MYCIN} adoptaron ciertos sistemas de medida del grado de certeza y reglas de operación que, en alguna medida, se pueden calificar de cuasiprobabilisticos, pero que esencialmente constituían mecanismos ad hoc, elaborados para tratar problernas particulares. Estos métodos se han perpetuado en las periferias (shells) de los SE, hecho que ha redundado en una cierta limitación en el desarrollo práctico, en la incorporación a los sistemas expertos más conocidos de metodologias alternativas de tratamiento de la incertidumbre. Dos teorías de tratamiento de la incertidumbre, al margen de la probabilística y de !a no numérica, se han desarrollado de forma significativa en el campo de la Inteligencia Artificial: i) el rnodelo «lingi^ístico» que hace uso del razonamiento difuso en un intento de cuantificar, en la medida de lo posible, las ideas imprecisas presentes en la cornunicación humana verbal y ajustarlas a proposiciones formalmente definidas (Zadeh, 1986), y ii) la metodología de las funciofrecuenternente denominada de Dempster-Shafer , que nes de creencia generaliza la aproximación bayesiana al problema de tratamiento de la incertidumbre (Shafer, 1986). EI proyecto piloto ESMA (199Q) utilizó la teoría de Dempster-Shafer en el tratamiento de la incertidumbre. En su «defensa de la probabilidad», Cheeseman (1985, 1986) afirma que los modelos numéricos no probabilísticos, como los mencionados, son «innecesarios, confusos y pueden conducir a conclusiones erróneas, habiendo sido concebidos para superar dificultades de !a teoria probabilística que sólo existen en la mente de sus inventores». A su vez, Lindley (1982, 1987) afirma que «la única descripción satisfactoria de la incertidumbre se tiene mediante la probabilidad, el resto son innecesarias; la probabilidad es inevitable». De hecho, un 1N T I LIc;F:NC IA .^Ft TIF IC I,^l_ l" t^, t^1F>I^T Ic "^ gran número de investigadores en IA o que hacen uso de ella defienden hoy, en clara oposición a su rechazo inicial, el modelo probabilístico como la mejor herrarnienta numérica para el tratarniento de la incertidurnbre. No obstante lo cual, se mantienen opiniones claramente contrarias no sólo a la probabilidad (Zadeh, 1986}, sino, en forma más genérica, a todo tratamiento nurnérico de la incertidurnbre en IA (Fox, 1986a, b). Entre los autores que aceptan el tratamiento numérico, cabe destacar la corriente ecléctica que aspira a integrar las aportaciones de las aproxirnaciones probabilística y difusa (Kaufmann, 1986; Kacprzyck y Fedrizzi, 1988). De interés para el estudio del problema del tratamiento de la incertidumbre en IA en refación con la Estadística resultan las siguientes recopilaciones: i) los textos de título genérico Incertidumbre en Inteligencia Artificial (4); ii) el conjunto de artículos del tercer núrnero, monográfico, de la revista Statistical Science, al que pertenecen los trabajos de Shafer (1987), Lindley (1987) y Spiegelhalter (1987a), y iii) el número monagráfico de la revista citada bajo las siglas JSPI en la bibliografía. 6.2. Aprendizaje La principal aportación de la Estadística al tratamiento del problema del aprendizaje en IA, estudiado por Yakowitz (1989), la han realizado las técnicas de clasificación. De hecho, en sus prirneros días al menos, la Inteligencia Artificial se identificaba (5) en gran medida con el reconocirniento automático de patrones, que, a su vez, centraba sus objetivos en la visián artificial. Las técnicas de reconocimiento de patrones tratan hoy el problerna de forma general, no circunscrita a imágenes. De manera muy especial, trata el problema del reconocimiento de la voz (Russell et al., 1986; Morin, 1988), actividad básica en el procesamiento del lenguaje oral, una de las más importantes áreas de investigación y desarrollo en IA. Hay problemas en el área del reconocimiento de patrones que son, en gran medida, propios de esta técnica y han conducido al desarrollo de rnétodos específicos de clasificación y selección de características. Sin ernbargo, los temas objeto de estudio del denominado reconocimiento estadístico de patrones (Devijner y Kittler, 1982; Ripley, 1987) y amplias áreas del análisis multivariante son muy similares. A modo de ejemplo, el aprendizaje no dirigido (4) Kanal y Lemmer (1986); Lemmer y Kanal (1988); Kanal et al. (1989); Shachter, Levitt et al. (1990); Henrion et al. (1990). (5) Identificación inicial que de alguna forma ha permanecido, como reflejaría la pertenencia de los textos de la nota de pie de página anterior a la colección -Machine Intelligence and Pattern Recognition-. f^^^1 ^1.f^ItiT^I( °11^ti!'^1^I^ ^ I ^1 tendría su analogía, en el marco de la Estadística, con las técnicas de clasificación automática (cluster analysis). Son numerosos los problemas planteados en IA que no pueden ser fácilmente tratados como problemas de clasificación. Otros, como el mencionado en el párrafo anterior, sí. Pero, en todo caso, los métodos de taxonomía numérica, cuando son utilizados en IA, han de ser adaptados para tratar no sólo con números, sino también con símbolOS. Este es el origen del agrupamiento conceptual (conceptual clustering) (Michalskí, 1980; Gowda y Diday, 1990), una técnica utiiizada en el análisis del proceso de elaboración de conceptos, componente básico del aprendizaje (Fisher y Langley, 1986). EI análísis exploratorio de datos (AED) ha demostrado constituir un área de interés como objeto de aplicación de las técnicas de IA (Phelps y Musgrove, 1986; Jirku, 198$). Reciprocamente, el análisis de regularidad que caracteriza al AED, es una tarea central en ios procesos de aprendizaje y formación de conceptos. Es por ello que las técnicas de AED pueden resultar de utilidad en el estudio del aprendizaje automático en IA (Hajeck e Ivaneck, 1982; Gebhardt, 1989) . La utilidad de otras técnicas estadísticas, en especial regresión, en la generación de reglas ha sido explorada por Berzuini (1988) y Rowly ( 1988). Los métodos estadísticos también han sido aplicados en el estudio de la validez de los grados de certeza asignados a las reglas que conforman los SE (O'Learly y Kandelin, 1988). De análoga importancia a!a aportación de las técnicas de clasificación en IA es la contribución de ia teoría de la decisión (Horvitz et al., 1988). Como es sabido, la teoría de la decisión se estudia frecuentemente como una técnica que forma parte de la Investigación Operativa y no de la Estadística. No es objeto de este articulo discutir la delimitacián entre ambas disciplinas, pero, de acuerdo con su título, no hemos analizado aquí la interrelación genérica Investigación Operativa-^nteligencia Artificial, ni la de ninguno de sus campos más característicos, como serían !a teoría de la decisión y las técnicas de simulación, con la IA (6). 7. CONCLUSIONES Giertos prototipos de sistemas han demostrado la aplicabilidad potencial de las técnicas de Inteligencia Artificial en Estadística. Sin embargo, quedan por (6) En el estudio de esta interrelación son de interés los textos de Brawn y White (1990); Futo y Gergely (1990); Klein (1990), y Widman et al. (1989), y los articulos de Grant (1986); Grundwald et al. (1989); O'Keefe (1985}, y Phelps (1986). ItiTI LI(^# !v( I^^ ZKTIf l( !^I ti 1-^f ^11 ^ 1^IIt 1 responder un buen número de preguntas acerca de la operatividad de dicha aplicación, interrogantes que han estimulado la investigación en los últimos años. Es difícil predecir en qué medida la aplicación de las técnicas de Inteligencia Artificial en Estadística supondrá avances significativos en su desarrollo, pero, en el momento presente, no se espera que su efecto sea el desarrollo de perspectivas genuinamente nuevas, que supongan un cambio cualitativo en el desarrollo de la Estadística. La Estadística aporta a la Inteligencia Artificial no sólo herramientas para la resolución de problernas específicos, sino también el tratamiento probabilís#ico de los problemas de incertidumbre. A diferencia de lo que ocurrió desde el nacimiento de la Inteligencia Artificial, hasta hace reiativamente pocos años, el modelo probabilístico es hoy considerado por un número creciente de investigadores en Inteligencia Artificial, presurniblemente ya rnayoritario, como el mejor modelo numérico para el tratamiento de la incertidumbre. * Agradecimiento: Este trabajo ha sido parcialmente subvencionado por el Programa Sectorial de Promoción General del Conocimiento de la DGICYT. BIBLIOGRAFIA APPEL, M. V.; ScoPP, T. (1989): «Autornated Industry and Occupation Coding». In DOSES (1989), 143-59. BARCAROLI, G.; FORTUNATO, E. (1989a): «Intelligent Interfaces between Users and Statistical Databases». In DOSES ( 1989), 221-5. BARCAROLf, G.; FORTUNATO, E. (1989b): «Expert Systems for Defining Statistical Samples». In DOSES ( 1989), 72-83. BELL, E.; WATTS, P. (1988): «Building a Statistical Knowledge Base: A Discussion of the Approach used in THESEUS, an Statistical Expert System». In COMPSTAT (1988), 143-148. BERZUINI, C. (1988): «Generating Rules by Means of Regression Analysis» . I n COMPSTAT ( 1988), 273-278. BETHLEHEM, .I.; DENTENEER, D., et al. (1989): «BLAISE, A New System for Computer Assisted Survey Processing». In DOSES (1989), 101-16. BLUM, R. L. (1982): «Discovery and Representation of Causal Relationships from a Large Time-Oriented Clinical Database: The RX project». Springer-Verlag, NY. I ti T AUItiTI('A l•tit'AN^ ^L ^^ gRENT, E. E. (1988): «STATISTICAL NAVIGATOR: An ES to ASSIST in Selecting Appropriate Statistical Analysis». Columbia, MO: The Idea Works, Inc. BROwN, D. E.; WNITE, C. C. (eds.) (1990): «Operations Research and AI: The Integration of Problem-Solving Strategies». Dordrecht, Netherlands. CHAMBERS, J. M. {1981 }: «Some thoughts in Expert Systems». Proc. Comp. Science and Statistics. 13th Symp©sium on the Interface, 36-4^. CHAMBERS, J. M.; GALE, ^/. A.; PRECIBON, D. (1989): «On the Existence of Expert Systems. Comrnent on Streitberg (88)». Stat. Soft. Newsl., 14, 2, 63-6. CHAMBERS, J. M.; PREGIBON, D.; ZAYAS, E. Z. (1981): «Expert Software for data analysis. An Initial Experíment». Bull. Int. Stat. Inst., 49, 294-308. CHEESEMAN, P. (1985): «In defense of probability». Proc. on the 9th Int. Joint Conference on AI. A. Joshi (ed.}. IJCAI-85, 1002-9. CHEESEMAN, P. (1986): «Probabilistic versus Fuzzy Reasoning». In Kanal and Lemmer (1986}, 85-102. COMPSTAT 86/88/90: «Proceedings in Compu#ational Statistics». Physica-Verlag. F. de Antoni / D. Edwards / K. Momirovic (eds.). DAMBRO^sE, E. (1987): «MUSE: Multivariate Expertise». Thesis INRIA, Montpellier, Cedex, France. DARIUS, P. (1990): <cA Toolbox for adding Knowledge-based modules to existing statistical software» . Annals of Mathematics and Al, 2, 101-8. DEVIJVER, P. A.; KITTLER, J. (1982): «Pattern Recognition: a statistical approach». Prentice-Hall. DOSES (1989); «Deveiopment Of Statistical Expert Systems». EUROSTAT News, Special edition. DREWETT, R. (1989): «Creating a Standarised and Integrated Knowledge-Based ES for the Documentation of Statist. Series». In DOSES (1989), 178-88. ELLIMAN, A. D.; WITTKOWSKI, K. M. (1987): «The impact of Expert Systems on Statistícal Database». Statistica/ Software Newsletter, 13, 1, 14-18. ESCA ( 1991): «An Expert System approach for rapid estimates of Crop Acreages using integrated image and GIS data». JRC, Ispra. ESMA (1990): «Expert System for Land Cover Discrimination and Mapping». JRC, Ispra. FESSEY, M. C. (1989): «Feedstocks for statistical ES». In DOSES (1989), 169-77. IN Tf^:l.l( ^F•.N(•T,A AFt7 lF l< I^^L ti' T•.ST At)I^ T It :^ FISHER, D.; LANGLEY, P. (1986): «Conceptual Clustering and Its Relation to Numerical Taxonomy». In Gale (1986a}, 77-116. Fox, J. (1986a): «Knowledge, Decision Making, Uncertainty». In Gale ( 1986a), 57-76. Fox, J. ( 198fib): «Three arguments for extending the framework of Uncertainty». In Kanal and Lemmer ( 1986), 1-26. FUTO, I.; GERGELY, T. (1990): «AI in Simulation». Ellis Hoorwood. GALE, W. A. (198fia): «A1 and Statistics». Addison-Wesley. GALE, W. A. (1986b}: «Student phase 1- a report on work in progress». In Gale (1986a), 239-265. GALE, W. A. (1986c): «REX review». In Gale (1986a), 173-227. GALE, W. A. (1986d): «AI and Statistics: ©verview» . In Gale (1986a), 1-16. GALE, W. A. (1987a): «Student: a tool for constructing consultation systems in data analysis». Bull. lnt. Stat. /nst., 52, 3, 305-321. GALE, W. A. (1987b): «Statistical Applications of AI and Knowledge Engineering». Know/edge Engineering Review, 3, 4, 227-247. GALE, W. A. (1987c): «Knowledge-based knowledge acquisition for a statist. consulting system». Int. J. of Man-Machine Studies, 26, 55-64. GALE, W. A. (1988): «Applications of Artificial Intelligence in Statistics. Technical Memorandum. Tutorial Notes». In COMPSTAT-88. GALE, W. A.; LUBINSKY, D. (1986): «A cornparison of representations for statistical strateg ies» . Proc. ASA., Stat. Comp. Section, 88-96. GEBHARDT, F. (1989): «Some considerations on Expert Systems in Exploratory Data Analysis». In DOSES (1989), 303-15, GLYMOUR, C.; SCHEINES, R.; SPIRTES, P.; KELLY, K. (1987): «Discovering Causal Structure. AI, Philosophy of Science and Statistical Modelling». Academic Press. GONZÁLEZ, P.; HATABIAN, G. (1989): «ADELLE or an aid in the analysis of surveys by expert software on a microcomputer». In DOSES (1989), 278-92. GowDA, K. C.; DIDAY, E. (1990): «Glustering Syrnbolic Ob^ects and Generalization». In COMPSTAT-80, Short Comm., 27-28. GRANT, T. J. (1986): «Lessons for O.R. frorn A.I. A Scheduling Case Study». J. Opl. Res. Soc., 37, 1, 41-57. I ti 1 11^1ti l I( 1 I^I' 1^^ ^ l ;^ GREENBERG, B. V. (1989): «Developing an Expert Systems for Edit and Imputation». In DOSES (1989), 132-42. I^RUNWALD, H. J.; FORTUIN, L, (1989): c<DSS and ES in the " information organization" - Back to the roots of OR». Eur. J. of OR, 41, 2, 142-50. GYARFARS, G.; KLUSGEN, W. (1986): «A Statistical ES for the Generation of an Analysis-Report». In COMPSTAT-86, Short Comm., 105-6. HAJEK, P.; IVANEK, J. (1982): «Artificial Intelligence and Data Analysis». In COMPSTAT-82, Physica-Verlag, 54-60. HAKONG, L.; HICKMAN, F. R. (1985): «Expert Systems Techniques: An Application in Statistics». M. A. Bramer (ed.). Cambridge Univ. Press. HAND, D. J. (1984a): «Statistical Expert Systems: necessary attributes». Journal of Applied Statistics, 12, 1, 19-27. HAND, D. J. (1984b}: «Statistical ES: Design». The Statistician, 33, 351-69. HAND, D. J. (1985): «Choice of statistical technique». Bull. lnt. Stat. Inst., 51, 3, 21.1-16. H^AND, D. J. (1986a): «Expert systems in statistics». Knowledge Engineering Review, 1, 2-10. HAND, D. J. (1986b): «Patterns in statistical strategy». In Gale {1986a), 355-87. HAND, D. J. (1987): «A Statistical Knowledge Enhancement System». J. R. Statist. Soc., A, 150, 334-345. HAND, D. J. (1990a): «Emergent themes in statistical expert systems». /n Knowledge, data and computer assisted decissions. Shader, M., Gaul, W. (eds.}. HAND, D. J. (1990b): «Practical experience in developing knowledge enhancement systems». Annals of Mathematics and Al, 2. Haux, R. (ed.) {1986): «Expert systems in statistics». Gustav Fischer, Stut. HAUx, R.; JOCKEL, K.-H. (19$9): «Database Management and Statistical Data Analysis: The Need for Integration and for Becoming More Intelligent». In COMPSTAT-86 & DOSES ( 1989), 245-54. HAVRANEK, I.; SovosKY, O. (1988): «Using an Expert System Shell for settling Statistical Package Parameters». Comp. Stat. Quarterly, 4, 3, 159-69. HENRION, H., et al. {eds.) ( 1990): «Uncertainty in AI, 5». North-Holland. ItiIF l I(^F N( I,•ti •^K1lFl^ l^^l_ti_•# ^I ^(^Iti_Ilt ^^ HIETALA, P. (1988): «Inside a Expert System: Statistical Methods Employed in the ESTES System». In COMPSTAT-88, 163-168. HITCHOCK, S. E.; EDWARDS, J. W. (1989): «LMG: Data Analysis Knowledge Enhancement in an MS-DOS statistical computing environment». Bull. Int. Stat. Inst., 53, 5, 55. HO, T. B.; QUINQUETON, J.; RALAMBONDRAINY, H. (19$6): «Using Expert System Techniques for interpretation of data analysis results». In COMPSTAT-86, Short Comm., 308-309. FiORVITZ, E. J.; BREESE, J. S.; HENRION, M. {198$}: «Decision Theory in Expert Systems and AI». Int. Journ.al of Approximate Reasoning, 2, 3, 247-302. INTERFACE-87/88: «Computer Science and Statistics». Proc. of the 19/20th Symposium on the Interface. R. M. Heiberger / E. J. Wegman (eds.). ASA. IVANEK, J.; STEJSKAL, B. (1988): «Automatic Acquisiti0n of Knowledge Base without Expert: ESOD (Expert System from Observational Data)». In COMPSTAT88, 175-180. JEFFERS, J. N. R. (1989}: «Expert Systems for advice on the design of experiments and surveys». In DOSES (1989), 84-91. JIDA, J.; LEMAIRE, J. (1986): «Expert Systems and Data Analysis Package Management». In COMPSTAT-86, 251-258. JIRKU, P. (1988): «An Implementation of an Exploratory Data Analysis Expert System in Prolog Environment». In COMPSTAT-88, 169-174. JIROUSEK, R.; KRIZ, O. (1988): «An Expert System Accepting Knowledge in a form of Statistical Data». In COMPSTAT-88, 123-128. JSPI (1988): «Special Issue on Assessing Uncertainty». Journal of Statistical Planning and Inference, 20, 3. KACPRZYCK, J.; FEDRIZZI, M. (1988): «Combining Fuzzy imprecision with Probabilistic Uncertainty in Decision Making». Springer-Verlag, Lecture Notes in Economics and Mathe. Systems, 30. KANAL, L. N.; LEMMER, J. F. (eds.) (1986): «Uncertainty in AI, 1». North-Holland. KANAL, L. N., et al. (eds.) (1989): «Uncertainty in AI, 3». North-HOlland. KAUFMANN, A. (1986): «On the relevance of fuzzy sets for Operations Research». European Journal of O. R., 25, 330-335. KLEIN, M.; METHLIE, L. B. (1990): «Expert Systems: A Decision Support Approach». Addison-Wesley, UK. t^ti^TAUt^TI( A f^^tiPA!^(^1 A -^?X LAn^e, J. (1989): «Putting Sernantics in Data Capture». In DOSES (1989), 11730. LAWTON, K. (1989): «Combining Expert Systems and Database Management technoiogies with the SAS System». Proc. 1989 SASUG Int. Conf., 735-8. LELLA, A.; AVAM, S.; Bucci, P. (1986): «Easy-Link: An Expert System Natural Language Interface to a Statistical Data Bank». in COMPSTAT-86, 443-7. LEMMER, J. F.; KANAL, L. N. (eds.) (19$$): «Uncertainty in AI, 2». North-Holland. LINDLEY, D. V. (1982): «Scoring Rules and the Inevitability of Probability». Int. Stat. Review, 50, 1-26. LINDLEY, D. V. {1987}: «The probability approach to the treatment of Uncertainty in AI and ES». Statistical Science, 3, 17-24. LuBBE, H. (1990): «Statistical metadata and terminological databases». In COMPSTAT-90, Short Cornm., 107-8. LUBINSKY, D. (1987): «TESS: A tree-based environment for statistical strategies». In INTERFACE-87. LUBINSKY, D, (1990): «Integrating statistical theory with statistical databases». Annals of M'athematics and Artificial Intelligence, 2. LUBINSKY, D.; PREGIBON, D. (1988): «Data Analysis as search». Journa/ of Econometrics, 38, 247-268. MICHALSKI, R. (1980): «Knowledge acquisition through conceptual clustering: theoretic framework & Algorithm for partitioning data in conjunctive concepts». Int. Jour. Polícy Ana/ysis and Infor. Systems, 4, 3, 219-43. MOLENAAR, I. W. (1988): «Statistical Consultants and Statistical Expert Systerns». In COMPSTAT-88, 187-192. MOLENAAR, I. W./ADERD, H. J.; KuiK, D. J. (1989): «To exist or not to exist. A comment on Statistical Expert Systems / E.S. can only be Constructed if Expertise can be Formalized». Stat. Soft. Newsl., 14, 3, 127-130. MoR^N, A. M. (1988): «Decision Tree Classifier for Speech Recognition». In COMPSTAT-88, 245-251. NELDER, J. A. (1977): «Intelligent programs, the next stage in statistical computing». In Recent Developrnents in Statistics, 79-86. North-Holland. NELDER, J. A. (1987): «AI and generalized linear modelling: an Expert System for GLIM». In Phelps (1987), 36-44. i^vrr^r_ic;r^rvc^rA .^krir r^ i,^^ ti^ r^^r,^r^i^rrc .^ -^'^> NELDER, J. A. (1988): «How should the Statistical System and its user see Each Other?». In COMPSTAT-88, 107-116. NEUMANN, K. (1990): «Co-Operative Processing - A Challenge for Statistics and Database Management». In COMPSTAT-9o, 225-36. NNCR (1991): «Neural Network development for crop recognition integrated image and GIS da#a». IRSA, Joint Research Centre, Ispra. O'KEEFE, R. M. (1985): «Expert Systems and O. R. - Mutual Benefits» . J. Opl. Res. Soc., 36, 2, 125-129. O'LEARLY, E.; KANDELIN, N. A. (1988): «Validating the Weights in Ruled-Based ES: A Statistical Approach». lnt. J. of Expert Systems, 1, 3, 253-9. OLDFORD, R. W. (1988): «Object oriented software representations for statistical data». J. Econometrics, 38, 227-246. OLDFORD, R. W.; PETERS, S. C. (1988): «DINDE: Towards More Sophisticate Soft. Environments for Stat». SIAM. J. Sci. Stat. Comp., 9, 1, 191-211. PHELPS, R. I. (1986): «AI - an overview of similarities with Operational Research». J. Opl. Res. Soc., 37, 1, 13-30. PHELPS, R. I. (ed.) (1987): «Interactions in Artificial Intelligence and Statistical Methods». Unicom Seminars Ltd. Technical Press. PHELPS, R. I.; MusGROVE, P. B. (1986): «Artificial Intelligence Approaches in Statistics». In Gale (1986a), 159-171. PRAT, A.; MARTÍ, M.; CATOT, J. M. (1985): «Incorporating Expertise in Time Series Modelling: The STATXPS system». Stat. Soft. News., 11, 2, 55-62. RASCH, D.; SAWITZKI, G. (1990): «Joint Preface: What is a Biometrical Workstation?». Proc. XVth Int. Biom. Conf., 130-56. RIPLEY, B. D. (1987): «An Introduction to Statistical Pattern Recognition». In Phelps (1987), 176-87. Ross, G. J. S. (1988): «Expert Systems for Non-Linear Modelling: Progress and Prospects». In COMPSTAT-88, 155-161. RowLY, D. (1988): «Statistical Approaches for the Generation of Rules for ES». Learned Information Ltd., Oxford. Second Int. ES Conference. RussELL, M. J.; MooRE, R. K.; TOMLINSON, M. J. (1986): «Dynamic Programming and Statistical Modelling in Automatic Speech Recognition». J. O. R. Soc., 37, 1, 21-30. I^til •11)I^f I^ ^ ^ F^I'^1tit^1 ;^ -^ ^1) SARIS, W. E. (1989): «Intelligent computer programs for assisted data collection». In DOSES (1989), 92-100. SHACHTER, R. D.; LEVITT, T. S.; KANAL, L.; LEMMER, J . (eds.) (1990): «Uncertainty in AI, 4». North-Holland. SHAFER, G. (1986): «Probability Judgment in Artificial Intelligence». In Kanal and Lemrner (198+6), 127-136. SHAFER, G. (1987): «Probability judgrnents in artificial intelligence and expert systems» . Statistical Science, 3, 3-16. SPIEGELHALTER, D. J. { 1987a): «Probabilistic ES in Medicine: Practical Issues in Handling Uncertainty». Statistical Science, 3, 1, 3-44. SPIEGELHALTER, D. J. (1987b): «Synthesis of AI and Bayesian Methods in Medical Expert Systems». In Phelps (1987), 169-175. STREiTBERG, B. (1989): «On the nonexistence of ES. Critical remarks on AI in statistics». Stat. Software Newsletter, 14, 2, 55-74. TALBOT, M. (1989): «Developrnent of Expert System Tools for Routine Data Monitoring». In DOSES {1989}, 160-7. THISTED, R. A. (1986): «Representing Statistical Knowledge for Expert Data Analysis Systems». In Gale (1986a), 267-284. WESTERHOFF, T.; NAEVE, P. (1988): «On Inference Process». In COMPSTAT-88, 193-8. WIDMAN, L. E.; LOPARO, R.; NIELSEN, N. (1989): «Artificial Intelligence, Simulation and Modelling». Wiley. YaKOwiTZ, S. (1989): «Statistical Foundation for Machine Learning». Computer and Mathematics with Appl., 17, 7, 1095-1102. ZADEH, L. A. (1986): «Is Probability Theory Sufficient for Dealing with Uncertainty in Ai: A Negative View». In Kanal and Lemmer (1986}, 103-16. ARTIFICIAL INTELLIGENCE AND STATISTICS SUMMARY This paper reviews the possible applications of Artificial Intelligence in Statistics, and, conversely, Statistics in Artificial Intelligence. Keywords: Artificial Intelligence, Statistics. AMS Classification: 62A99, 68G99.