Los lenguajes conversacionales y su utilización por los Servicios Oficiales de Estadística ^'^ por ADaRACION DE MIGUEL CASTA^14 Instituto Nacional de Estadfstica E1 fin de la presente exposición no es mostrar una realización de un sistema c^unversacional, sino hacer unas breves consideraciones sobre la f orma en que el Instituto Nacional de Esta.dística ha abordado el tema de los lenguajes interactivos. Para poder apreciar cuál e^s el entorno del problema expondré, en una corta introducción, las funciones del Instituto Nacional de Estadística y el enfoque aue, en mi opinión, ha de tener el tratamiento de la información en el INE, señalando cuáles son las razones que nos han llevado a considerar que la aplicación cie un lenguaje interactivo -el APL ( 2)- podía resolver una parte de Ios problemas que se nos plantean en el proceso electrónico de los datos es^tadísticos. 1. LA ESTADISTICA QFICIAL Los Servicios Oficiales de Estadística no solamente tienen a su cargo la recogida de los datos y la elaboración de las tablas y cuadros estadístico^ que necesita el país para la investigación y la toma de decisiones, sino también han de cumplir otras funciones tan importantes como las de análisis y previsión. Y san pre^i:samente estas funciones de análisis y previsión las que, por sus especiales características, más necesitan de la aplicación de métodos interactivos. ( i) Comunicación presentada, al Coloquio APL, celebrado en el Centro de Cálculo de la Univprsidad Complutense de Madrid el 2 de abril de 1978. (2) E1 APL (A Programming Lan,guaje) nació en el año 1956. Su autor, Kw Iv^x :orr, matemático y profesor de Harvard, lo concibió con la idea de pod^9r describir algoritmos de forma satisfactoria, es decir, concisa y sín ambígíiedades, fin que no podía Iograr ni con el lenguaje natural ni con el de las matemáticas. E1 libro en que se recogían sus ideas y la notación del l^snguaje se publicó en 1962, y hasta 1965 el APL no fue implementado en un ordenador; actualmente, el API.^ ha alcanzado una gran ext,ensión, espocialmente en universidades y centros de investi^a,ción. 24 ESTADISTICA ESPAÑOLA 2. EL TRATAMIENTO DE LA INFORMACION EN EL INE El tratamiento electrónico de los datos estadísticos, en correspondencia con el esquema de funciones del I1`TE que acabamos de exponer, y de forma análoga a lo que ocurre en los Servicios Oficiales de Estadística de los demás países, presenta dos vertientes fundamentales distintas: Al Explotación de los censos y encuestas que suministran la informa^ción estadística de base, lo cual lleva consigo las operaciones de transcripción de los datos a un soporte de máquina, depuración y corrección automática, almacenamiento eficiente de la información, abtención de tablas estadísticas, errores de muestreo, etc. B) Análisis de los datos y previsión, donde se incluye la recuperación de la información y el tratamiento necesarios para preparar la toma de decisiones y para la planificación del desarrollo económico y social. Así como para la evaluacián de los trabajos realizados y para la preparación y diseño de nuevos censos y encuestas. Respecto a la explota^ción de los censos y encuestas, por el gran volumen de información -tanto en entradas como salidas- que ha de manejarse, su proceso tiene que hacerse fundamentalmente en tiempo diferido, debiendo aumentar la eficacia del tratarniento y evitar las demoras y los costes que actualmente se producen en análisis y programación rnediante la aplicación de programas y de módulos generales muy flexibles, que permitan construir, a partir de ellos, sistemas cornpletos, de forma rá,pida y con poco esfuerzo de programación. Este enfoque, que tiene numerosas ventajas, obliga a una gran normalización y disciplina en el planteamiento de los trabajos estadísticos; aspectos éstos que, aunque positivos no sola^nente desde el punto de vista informático, sino también en eI c^ontexto más general de una mejora y racionalizaeión de las procedimientos, exigen un cambio en los hábitos y en la forma de trabajo de los estadísticos, a ti•eces difícil de conseguir. En cuanto al análisris de los datos, punto en el cual vamos a centrarnos por ser el que se presia, o casi podriamos decir impone, el tratamiento interactivo, presenta un enfoque muy distinto, ya que se trata de obtener rápida respuesta a cuestiones imprevisias y no planificadas, en las que el ordenador ha de completar la labor humana en aquellos aspectos de rapidez, perfección, objetividad, e tcétera, para los cuales se encuentra mejor dota,do que el hombre. LOS LENGUAJES 3. C4NVERSACIONAL,ES Y SU UTILIZACION... 2S EL ENFOQUE INTERACTIVO EN EL ANALISIS E5TADISTICO Y LA PREVISION Actualmente, la realización de una investigación estadística -análisis de los resultados de una encuesta,, diseño de una muestra, resolución de un modelo econométrico, etc.- es inconcebible sin la aplicación de métodos electrónicos de tratamiento de la información. Y estos métodos, en s1u forma tradicional -tratamiento en diferido--, responden inadecuadamente a las exigencias de la investigación o de la previsión. La demora de horas, o incluso días en obtener los resultados del ordenador, causa graves perjuicios al estadístico que ve interrumpido su trabajo, sin poder contrastar las nuevas ideas que le van surgiendo, lo cual es incluso más grave que el mismo retraso producido. Por el contrario, si en el momento que quiere unos datos o ha de realizar unas operaciones, el estadístico tuviera a su disposición las instrumentos precisos para atender a sus requerimientos, él mismo, sin demora, podría conseguir lo que necesita, oon la ventaja, además, de que si los resultados no son los previstos puede, sobre la marcha, realizar cambios y buscar nuevas soluciones. En Fste sentido, s^e dice muchas veces que el ordenador empleado de modo interactivo es, para aquel que se ha habituado a su uso, no solamente un instrumento i ápido y seguro en la recuperación de los datos y un medio eficaz de cá.lculo, sino más aún, un estímulo y un complemento en la generación de ideas. Sin embargo, hasta hace muy poco tiempo, los avances tecnológicos eran insuficientes para permitir es^te tipo de tratamiento; ya que, por un lado, el estadístico en general estaba físicamente alejado del ordenador, y, por otro lado, existía una dificultad para comunicarse con la máquina debido a que al exigir los lenguajes de ordenador bastante tiempo de aprendizaje y de práctica, su utilización quedaba habitualmente limitada a los especialistas en Informática. La generalización del uso de terminales y la aparición de lenguajes interactivos, al hacer desaparecer las restricciones que svponen el alejamiento físico del ordenador y el empleo de lenguajes difíciles -restricciones que constituyen una barrera entre el usuario y la rná,quina----, eliminan la demora en la respuesta y permiten actualmente contemplar la p+asibilidad de utilización del ordenador para resolver este tipo de problemas a los que nos estamos refiriendo, que requieren soluciones rápidas y sin ningún intermediario entre el estadístico y el ordenador. Unas bases de datos --tanto de micro corno de macrodatos---- bien estructurac^as, depuradas y que abarquen el conjunto de Ia información necesaria para la investigación y la toma de decisiones, unas bibliotecas de progra,mas de análisis estadístico potentes y completas, junto con un lenguaje conversacional que permita la comunicación con la máquina y la utilización de los instrumentos anteriores --las bases de datos y Ias bíblíotecas de programas-- son los tres elemen- ESTADISTICA ESPAÑOLA 2$ tos que nos permitirán atender la vertiente del análisis de los datos y previsión tientro del enfoque global del tratamiento electrónico de la información en el Insti tuto Nacional de Estadística. 4. LOS LENGUAJES CONVERSACIONALES EN LOS SERVICIOS CENTRALES DE ESTADISTICA DE VARI©S PAISES La necesidad de capacitar a los estadisticos para tener un acceso rápido y cómodo al ordenador, se ha dejado sentir en diversos países y en varios organisrnos internacionales. Un grupo de expertos estadísticas e informáticos que, patrocinado por la Conferencia de Esta.dísticos Europeos y por el Cornputing Resea,rch Centre de la ONU, se ha reunido con objeto de analizar los efectos que se prevé tendrá la informá,tica sobre los Servicios Nacionales de Estadistica después de 1980, insiste repetidas veces en su informe sobre la tendencia a acrecentar el ernpleo de lenguajes interactivos, diciendo que la utilizaczán de otros lenguajes, como el Forti^an, Gc^bol o PL/I, requieren un entrenamiento y capacitación especiales, y el estadístico que usa estos lenguajes no está libre para concentrarse en los aspectos de su trabajo esencialmente orientados hacia el problema. En atra momento, el informe señala que se debe facilitar al esta.dístico eI acceso a los datos y los instrumentas analíticos, para lo cual se recomienda desarrollar lo más pronto posible sisternas interactivos para acceso, recuperación, agregacicin, análisis y otras manipulaciones de d.atos por el estadística sLn la, intervenci,ón del pro^rramaaáor. Los Servicios de Es*íadística de varios países aplican métodos conversacionales. Así, la Oficina Central de E.stadística de Suecia hace tiempo que usa el APL en las dos versiones APLI^SV y APL/CMS, estando en estudio el acceso y tratamiento de las bases de datoa de series cronológicas mediante s*istemas interactivos. Statistics Cariada ha diseñado varios programas generales valiéndose del lenguaje APL y sus dos sistemas de tratamiento de series; el CANSIM para todo tipo de series y el PIOUS para serie,s de la industria, usan el APL/York para la consulta y análisis interactivos de los datros contenidos en las bas^es. Otros Institutos de Estadística como el de Bélgica, Estadísticas del Trabajo de Estados Unidos, y organismos internacionaies, como la Qficina de Estadística de las Comunidades Europeas t^SCE) tienen en estudio, está,n desarollaxida o aplicando diversos sistemas interactivos. LOS LENGUAJES ^. OONVERSACIONALES Y SU UTiLIZACION... 2? LA ELECCION DEL APL COMO LENGUAJE CONVERSACIONAL EN EL INE El convencimiento de que el INE necesitaba comenzar a aplicar algún lenguaje interactivo para dotar a los estadísticos de un instrumento imprescindible en su quehacer diario, ha lleva.do a la elección, a título de prueba, del APL como posibie medio para conseguir una eficaz y rentable ínteracción entre el hombre y la máquina. Las razones que han llevado a adoptar esta solución son las siguientes: a) El APL es un lenguaje conversacional, potente y bien adaptado para establecer la interfase que pretendemos entre el estadistico y el ordenador. b) La notación del APL, que nació con independencia de la máquina para describir ciertos algoritmos como el «simplex^ en programación lineal, se c) A1 tratarse de un sistema abierto, en el sentido de que permite fácilmente la definición de nuevaS funciones que pueden utilizarse con la misma sintaxis de las funciones primitivas, da la posibilidad de adaptar el APL a nuestras necesidades, creando aquellas f unciones de má,s corriente uso en las aplicaciones estadísticas. d) Existen ya bibliotecas de programas de análisis estadístico escritas en APL. e) E1 tratamiento de tablas y de matrices en APL --sin necesidad de especificar previamente las dimensiones- lleva a una fá,cil manipulación de los cuadroS estadísticos y a una simplificación en el planteamiento y solución de los modelos econométrioos. f) La facilidad del APL en su forrna actual para permitir, gracias al concepto de variables compartidas --concepto ausente en las prirneras versiones del lenguaje--, el uso de ficheros externos al sistema, da lugar a una extensión de la potencia del APL a una gama mucho más amplia de problemas, posibilitando al estadístico la consulta de ficheros que en dispositivos, bien secuenciales, bien directos, le dan acceso a la información almacenada en las bases de datos. g) La sencillez del aprendizaj e del APL es otra de sus ventaj as, sencillez que permite llegar a conocer en muy poco tiempo las reglas fundamentales suficientes para conseguir una utilización eficaz, si bien el dominio del lenguaje exige un estudio profundo que sólo se consigue con la prá,ctica de muchas horas frente a una terminal. li) Mediante el empleo del APL se espera en el INE llegar a establecer una relación entre el estadístico y la má,quina, contribuyendo a conseguir una formación en Informática pa^ra el estadístico, formación imprescindible en los tiempos actuales en los que el hornbre y el ordenador han de compartir su trabajo. acopla muy bien a la resolución de los problemas estadísticos. ESTADIST2CA ESPAÑOLA 2$ La exposición de todas estas indudables ventajas que para nosotros tiene el APL (3l, no excluye el reconocimiento de sus inconvenientes, que desde luego existen: a^ Al ser el APL un lenguaje interpretativo, es más lento en tiempo de ejecución que los compiladores convencionales. b^ Por otro lado, la utillZacíón de recursos de máquina no es despreciable, por lo que el sistema resulta costoso y podría llegar a ser antieconómíco. c^ E1 estar este lenguaje muy ligado a una empresa constructora de ordenadores condiciana en gran medida su uso, que no es universal con respecto a la m^i,quina. También en relación con las terminales, el APL tiene particulares exigencias, por lo que muchos miniordenadores no pueden conectarse como terminales inteligentes usanda el APL como lenguaje conversacional. d1 ei La imposibilidad de llamar des^de el APL programas o subrutinas escritas en otros lenguajes pudiera ser un grave inconveniente en Estadística, donde existen bzbliotecas de programas, completas y p^otentes, escritas en otros lenguajes, especíalmente Fortran, pero veremos a continuación de qué forma pensamos puede ser resuelto este problema. Como resumen y aonclusión de este punto, podemos decir que, a pesar de los inconvenientes que se han analizado antes de tomar la decisión, el APL es un lenguaje que en el INE puede resultar apropiado para ciertas aplicaciones, por lo que se ha decidido hacer un ensayo. De su resultado dependerá que el APL sea má.s ampliamente utilizado en el Instituto de Estadistica, teniendo siempre en cuenta que, desde luego, en una primera fase sólo se ha pensado como medio áe camur^icación del estadístico can et ordeno^dor y r^o para el desarrollo de propramc^s, aun cuando algún Servicio Central de Estadística lo aplíque también con este segundo enfoque. t^. EL APL Y SU INTERFASE CON OTROS LENGUAJES DE PROGRAMACION Cuando surgieron las primeras versiones del APL, existía --como ya hemos señalado-- una imposibilidad de utilizar ficheros y variables externos al sistema, r^o pudiend^o tampoco haber intercomunicación entre los distintos usuarios, si no f:ra por medio de las biblíotecas públicas. Por tanto, el usuario de APL tenía que introducir él mismo tados l.os datos del problema tecleando desde la terminal, y no tenía a su disposición ninguno de los periféricos, con Ios perjuicios que de esto sz derivaba. En la figura 1.se ha representado un s^istema informá,tico trabajanda en tiempn diferido y en una versión de APL anterior al APL/SV. En tiempo diferido utif3l Puede haber otros muchos aspectos positivos del APL, pero los que hemos expuesto son '.os quE; han pesado en el INE al tornar uria decisidn. LOS LENGUAJES CONVERSACIONALES Y 5U UTILIZACION... ^9 liza distintos lenguajes de programación CFortran, Cobol, PL/1, ensamblador, etc.), estando conectados diversos periféricos locales (impresora, lectora fichas perforadas, cintas, etcJ, e incluso un terminal pesado (lectora-impresora}. La parte del sitema que trabaja en APL no tiene acceso a ningún periférico, ni a ningún dispositivo de almacenamiento, a excepción de las áreas de trabaj o y de las propias librerías del APL, habiendo, por tanto, una absoluta incomunicación entre el APL y el resto del sistema. FtG. 1 Sistema informático trabajando en diferido y en APL. Los diversos usuarios de APL no pueden utilizar ninguno d.e los periféricos, ni tíenen intercomunica^ción entre sí El desarrollo posterior del lenguaje dio nuevas facilidades en un área de tanta tr ascendencia, para un mej or aprovechamiento del sistema, como es la de utilización de ficheras externos. E1 APL/SV ^Shared Variables^ nace con este proposito; a partir de este momento, los periféricos a los cuales no se tenía acceso desde las terminales de APL, están a disposición del APL a través del procesador de variables compartidas, que establece una interfas^e entre el APL y el resto del sistema informático, permitiendo asimismo la intercomunicación entre los distintos usuarios del APL, tal como se ha representado en la figura 2. Sin embargo, en este sistema sigue subsistiendo el problema de la utilización de bibliotecas de programas escritos en otros lenguajes, ya que el APL no permite la llamada a otros lenguajes de^ programación. Por ello, el usuario que tuviese, antes de comenzar a trabajar en APL, bibliotecas de programas y quiCiera seguir utilizándolas, no tendría más remedio que pasar estos programas en E3TADISTICA ESPAÑOLA 3U tiempo di€erido, almacenar sus salidas en un soporte de má,quina -cinta, discv, ficha., etc.-- y acceder a este soporte, posteriormente, desde la terminal de APL, para a^nalizar los resultados yIo para preparar nuevos datos para volver a pasar, ctra vez en diferido, los programas de las bibliotecas. Todo elio produce retrasos y tiene los inconvenientes que, según hemos expuesto anteriormente, existen en el tratamiento en díferido. i C FIG. 2 Sisterru^ inform,ático trabajanda en c^iferid.^ y en APL/SV. Los uswarios d^e APL pueden intercambiarse información en.tre st, teníenda también acceso a tos periféricas del sisterna, a través del procesador de variables c^ampurtidas Sin embargo, en el INE, se ha pensado como solución a este problema utilizar un sístema como e1 de la figura 3, en el que aparece, además del tratamiento en modo diferido anó,logo a las fíguras 1 y 2, el subsistema interactivo CMS CConversat%onal Monitor System^, bajo el cual se trabaja no sólo en APL (4), sino también en Fortran, PL/I, etc. E1 CMS tiene a su disposición los distintos recursos del sistema (cintas, discvs, impresora, etc.). EI usuario que está trabajando en CMS puede pasar muy f^,cilmente de APL a. cualquíera de Ios otros Ienguajes, así como a estado CMS para manipular ficheros o para llamar a programas de una biblioteca. De esta forma, y sin dejar eI modo de tratamiento interactivo, puede, por e1 emplo, leer unos datos desde un (4) EsLa versión del sei'i^ 370. APL (APLICMS) sólo se puede impi^3mentar en ordenadores iBM de la LOS LENGUAJES OONVERSACIONALES Y SU UTILIZACION... 31 dispositivo -v. gr., cinta-, elaborarlos en APL, pasar a CMS para ejecutar un programa de una biblioteca de programas esta^cíísticos y volver a APL para hacer un análisis de los resultados obtenidos. F^c. 3 Sistema informático trabajando en dife^rido y en CMS. Bajo CMS funaionan diversas lenguajes de programación, entre ellos el APL. En aras de una mejor comprensión se han introducido algunas simplificaciones E1 paso de APL a estado CMS o a cualquier lenguaje -v. gr., PL/I Checkoutsólo exige unos segundos para la escritura de uno o dos comandos muy simples. Mediante el pr©cedimiento que se acaba de exponer de forma muy sucinta, se evita el problema del APL de no permitir la llamada a programas o subrutinas escritas en otros lenguajes. 7. ENSAYO DE UTILIZACION DEL APL EN EL INE Una vez concluido que el INE debía evaluar los beneficios que le reportaría el uso de sistemas interactivos, y que el APL aplicado con el enfoque que hemos expuesto parecía ser un lenguaje apropiado, se ha decidido hacer un ensayo a fin de observar los resultados prácticos de la utilizacián del APL en el INE. Como es casi imposible llegar a apreciar tfldo el interés del lenguaj e por una simple des^cripción del mismo, se ha generado el APL en su versión APL/CMS. La elección de esta versión nos ha venido irnpuesta, como acabamos de ver, por ^^ ESTADISTICA ESPAÑOLA :a necesidad de utilizar bibiiotecas de programas escritas en otros lenguajes, y también porque, al estar traba^ ando para otras aplicaciones --v. gr., desarrollo interactivo de programas-- ba^ o CMS, era mucho más conveniente, para un meiar aprovechamiento de los recursos de máquina, que el APL estuviese también bajo control del CMS. La decisián no es, sin embarga, definitiva, y se volverá a rec^onsiderar cuando ten,gamos cierta experiencia, y se pueda hacer una comparacián entre las dos versianes APL/SV y APL/CMS, e inclusa con otras como el APL/York. Se han instalado los cursos CAI tComputer Assisted Instruction^ (5) de APL, de forma que algún analista pueda comenzar a introducirse en el Ienguaje, ya que considerarr^os necesario, aunque el APL no va a ser utilizado en el desarrollo de programas, que haya en el centro de proceso de datos alguna persona que canozca el lenguaje para poder dar soporte a los usuarios no programadores. La ense>^anza de lenguajes conversacionales a profesionales no especialistas en informátíca tiene graves problemas. Una descripción exhaustiva de un lenguaje, sea o no conversacional, lleva. indudablemente aI cansancio del alumno antes de que éste pueda apreciar la posibilidad y ventajas de aplicación en su propia esfera profesional. Por ello se ha pensado en realizar un curso práctico, en el cual, después de una breve introducción en la que se expongan las ideas básicas del lenguaje, se pasará a la resolución de problemas tipicos del análisis estadístico, por medio de las cuales se irá avanzando en el conocimiento del APL. Na se nos escapa la dificultad de tal planteamient^o, y por esto queremos que eI curso se dé previamente a un grupo muy reducido de analistas (tres o cuatro personas) que puedan hacer las ob ^ eciones que estimen pertinentes antes de pasar a presentárselo al usuario. Si se consiguiera que un pequeño número de estadísticos llegara a interesarse vivamente por el lenguaje, se tendria el germen a partir deI cual se extendería ta utilización del APL, Una vez comprobada la aceptación del lenguaje por Ios estadísticos, para decidir qué aplicaciones se tratarían en modo conversacional, sería preciso juzgar la rentabilidad, teniendo en cuenta los costes y beneficios que se derivarían de la utilización interactiva. Hasta el momento se trata únicamente de un proyecto, habiendo expuesto las consideraciones^ teóricas que nos han servido de base para decidir Ilevar a cabo Ia experiencia. En el plazo de un año, aproximadamente, podremos determinar si las condiciones actuales de trabajo del INE hacen aconsejable el ernpleo del ordenador en modo conversacional, y, en caso afirmativo, si eI APL es un Ienguaje apropiad©. (5) E1 CAI -enseñanza asistida por ord•snador- es una técnica de enseñanza desarrollada en los últimos años, en la que el ordenador juega el papel de profesor explicando ciertos temas y haciendo preguntas al alumno, el cual, sentado ante la terminal, recib•s en su pantalla o en su m€^quina de escribir las explicaciones, contestando por medío del teclado. Las materias que se prestan a una aplicación del CAI son diversas, •sxistiendo cursos de gramática, matemáticas, etc. LOS LENGUAJF,S CQNVERSACIONALES Y SU UTILIZACION... 33 Lo que sí creo poder afirmar, aun cuando la experiencia que va`mos a llevar R cabo pusiese de manifiesto que actualmente es un poco prematura la decisión de utilizar en el INE sistemas conversacíonales, es que eI futuro se orienta por este camino, dando la razón a las personas que desde hace tiempo propugnamos una simplificación en el empleo práctico de los ordenadores y un acercarniento entre el usuario y la rnáquina. La. Estadística oficial no puede quedar al margen de esta corriente, y en el INE, como en otros Institutos de Estadística, antes o después, lenguajes ínteractivos sencillos y orientados adecuadamente será,n un instrumento potente que hará posible una verdadera interacción con la máquina, permitiendo al estadístico ooncentrarse en el problema que le ocupa y prestar al lenguaje únicamente el interés secundario que éste debe necesitar. ESTADISTICA ESPANOLA.-3