5. Modelo de funcionamiento de la KVM. En esta capítulo se presenta una visión global acerca de la estructura de la maquina virtual. En particular se presentan cada uno de los módulos que la integran así como su interacción entre ellos y con el exterior. La maquina virtual que emplea la plataforma J2ME es parecida a la maquina virtual genérica que se usan el resto de tecnologías Java. Sin embargo la KVM, como ya se ha comentado en la introducción, es más sencilla puesto que su funcionalidad y recursos están limitados por los dispositivos a los cuales va dirigido. En la siguiente figura se muestran los distintos módulos que la componen: Figura 5.1: Arquitectura básica de la KVM. Sun utiliza el término "Máquina Virtual Java", para referirse a la especificación abstracta de una máquina de software para ejecutar programas Java. La especificación de esta máquina virtual, define elementos como el formato de los archivos de clases de Java (.class), así como la semántica de cada una de las instrucciones que componen el conjunto de instrucciones de la máquina virtual. A las implantaciones de esta especificación se les conocen como "Sistemas en Tiempo de Ejecución Java". Un sistema de tiempo de ejecución incluye como se puede observar: • • Motor de ejecución. El procesador virtual que se encarga de ejecutar el código (bytecode), generado por algún compilador de Java o por algún ensamblador del procesador virtual Java. Manejador de memoria. Encargado de obtener memoria para las nuevas instancias de objetos, arreglos, etcétera, y realizar tareas de recolección de basura. • • • • • Manejador de errores y excepciones. Encargado de generar, lanzar y atrapar excepciones. Soporte de métodos nativos. Encargado de llamar métodos de C++ o funciones de C, desde métodos Java y viceversa. Interfaz multihilos. Encargada de proporcionar el soporte para hilos y monitores. Cargador de clases. Su función es cargar dinámicamente las clases Java a partir de los archivos de clase (.class). Administrador de seguridad. Se encarga de asegurar que las clases cargadas sean seguras, así como controlar el acceso a los recursos del sistema. Adicionalmente, existe un conjunto de clases Java estándar, fuertemente ligadas a la implantación de cada MVJ en particular. Ejemplos de esto los tenemos en las clases encargadas de funciones, como los accesos a los recursos de la red, manejar el sistema de ventanas, los hilos y el sistema de archivos local. Todos estos elementos en conjunto actúan como una interfaz de alto nivel, para acceder a los recursos del sistema operativo. Es esta interfaz la clave de la portabilidad de los programas Java, debido a que independientemente del hardware o sistema operativo sobre el que se esté trabajando, la máquina virtual Java oculta todas estas diferencias. 5.1. Motor de ejecución. Es la entidad de hardware o software, que ejecuta las instrucciones contenidas en los códigos de operación (bytecodes) que implementan los métodos Java. En las versiones iniciales de Sun, el motor de ejecución consistía de un intérprete de códigos de operación. En las versiones más avanzadas de nuestros días, se utiliza la tecnología de "generación de código justo en el momento" (Just-in-Time code generation), en dónde las instrucciones que implementan a los métodos, se convierten en código nativo que se ejecuta directamente en la máquina sobre la que se subyace. El código nativo se genera únicamente la primera vez que se ejecuta el código de operación Java, por lo que se logra un aumento considerable en el rendimiento de los programas. 5.2. Conjunto de instrucciones del procesador virtual. Muchas de las instrucciones del procesador virtual Java, son muy similares a las que se pueden encontrar para los procesadores comunes y corrientes, como los Intel, es decir, incluyen los grupos de instrucciones típicos como los aritméticos, los de control de flujo, de acceso a memoria, a la pila, etcétera. Una de las características más significativas del conjunto de instrucciones del procesador virtual Java, es que están basadas en la pila y utilizan "posiciones de memoria" numeradas, en lugar de registros. Esto es hasta cierto punto lógico, debido a que la máquina virtual está pensada para correr sobre sistemas con procesadores sustancialmente diferentes. Es difícil hacer suposiciones sobre el número o tipo de registros que estos pudiesen tener. Esta característica de estar basada en operaciones sobre la pila, impone una desventaja a los programas escritos en Java, contra los lenguajes completamente compilados, como C o C++, debido a que los compiladores de estos pueden generar código optimizado para la plataforma particular sobre la que se esté trabajando, haciendo uso de los registros, etcétera. Varias de las instrucciones que componen el conjunto de instrucciones del procesador virtual de Java, son bastante más complejas que las que se pueden encontrar en procesadores comunes. Ejemplo de ello, tenemos las casi 20 instrucciones para realizar operaciones, tales como invocar métodos de objetos, obtener y establecer sus propiedades o generar y referenciar nuevos objetos. Es evidente que operaciones de este estilo son de una complejidad considerable y la proyección a sus respectivas instrucciones, sobre el conjunto de instrucciones del procesador de la máquina, implicará a varias decenas de esas instrucciones. 5.3. Verificador de Java. Como hemos mencionado anteriormente, una de las principales razones para utilizar una máquina virtual, es agregar elementos de seguridad a nuestro sistema, por lo que si un intérprete falla o se comporta de manera aleatoria, debido a código mal formado, es un problema muy serio. La solución trivial a este problema sería incluir código encargado de capturar errores y verificar que el código sea correcto. Es evidente que la principal desventaja de esta solución, es que volveremos a caer en un sistema sumamente seguro, pero altamente ineficiente. Los diseñadores de Java tomaron otro camino. Cuando estaban diseñando el conjunto de instrucciones para la máquina virtual de Java, tenían dos metas en mente. La primera era que el conjunto de instrucciones fuera similar a las instrucciones que se pueden encontrar en los procesadores reales. La segunda era construir un conjunto de instrucciones que fuera fácilmente verificable. En Java, justo después de que se obtiene una clase del sistema de archivos o de Internet, la máquina virtual puede ejecutar un verificador que se encargue precisamente de constatar que la estructura del archivo de clase es correcta. El verificador se asegura que el archivo tenga el número mágico (0xCAFEBABE) y que todos los registros que contiene el archivo tengan la longitud correcta, pero aún más importante, comprueba que todos los códigos de operación sean seguros de ejecutar. Es importante notar que Java no necesita que el verificador se ejecute sobre el archivo de clase, sino que es activado por el sistema en tiempo de ejecución y sólo sobre clases que el mismo sistema decida. Por lo común, las clases verificadas son las provenientes de Internet. Aún en nuestros días, los cargadores de clases comerciales tienen varios defectos, por lo que la construcción de mejores verificadores sigue siendo un problema abierto. Por ejemplo, Karsten Sohr, en septiembre de 1999 encontró que el cargador de Microsoft tiene problemas con los tipos de datos, entre los bloques de excepciones, lo que puede provocar forzamientos de conversiones de tipos arbitrarios, comprometiendo la seguridad del sistema, debido a que de esta manera es posible acceder a recursos que debieran estar restringidos. 5.4. Administrador de memoria. Java utiliza un modelo de memoria conocido como "administración automática del almacenamiento" (automatic storage management), en el que el sistema en tiempo de ejecución de Java mantiene un seguimiento de los objetos. En el momento que no están siendo referenciados por alguien, automáticamente se libera la memoria asociada con ellos. Existen muchas maneras de implementar recolectores de basura, entre ellas tenemos: • • Contabilizar referencias. La máquina virtual Java asocia un contador a cada instancia de un objeto, donde se refleja el número de referencias hacia él. Cuando este contador es 0, la memoria asociada al objeto es susceptible de ser liberada. Aún cuando este algoritmo es muy sencillo y de bajo costo (en términos computacionales), presenta problemas con estructuras de datos circulares. Marcar e intercambiar (Mark-Sweep). Este es el esquema más común para implementar el manejo de almacenamiento automático. Consiste en almacenar los objetos en un montículo (heap) de un tamaño considerable y marcar periódicamente (generalmente mediante un bit en un campo que se utiliza para este fin) los objetos que no tengan ninguna referencia hacia ellos. Adicionalmente existe un montón alterno, donde los objetos que no han sido marcados, son movidos periódicamente. Una vez en el montículo alterno, el recolector de basura se encarga de actualizar las referencias de los objetos a sus nuevas localidades. De esta manera se genera un nuevo montículo, que contiene únicamente objetos que están siendo utilizados. Existen muchos otros algoritmos para implementar sistemas que cuenten con recolección de basura. 5.5. Administrador de errores y excepciones. Las excepciones son la manera como Java indica que ha ocurrido algo "extraño"[durante la ejecución de un programa Java. Comúnmente las excepciones son generadas y lanzadas por el sistema, cuando uno de estos eventos ocurre. De la misma manera, los métodos tienen la capacidad de lanzar excepciones, utilizando la instrucción de la MVJ, athrow. Todas las excepciones en Java son instancias de la clase java.lang.Throwable o de alguna otra que la especialice. Las clases java.lang.Exception y java.lang.Error, heredan directamente de java.lang.Throwable. La primera se utiliza para mostrar eventos, de los cuales es posible recuperarse, como la lectura del fin de archivo o la falla de la red, mientras que la segunda se utiliza para indicar situaciones de las cuales no es posible recuperarse, como un acceso indebido a la memoria. Cuando se genera una excepción, el sistema de tiempo de ejecución de Java, y en particular el manejador (handler) de errores y excepciones, busca un manejador para esa excepción, comenzando por el método que la originó y después hacia abajo en la pila de llamadas. Cuando se encuentra un manejador, éste atrapa la excepción y se ejecuta el código asociado con dicho manejador. Lo que ocurre después depende del código del manejador, pero en general, puede suceder que: • • • Se utilice un goto para continuar con la ejecución del método original Su utilice un return para salir del método Se utilice athrow para lanzar otra excepción En el caso que no se encuentre un manejador para alguna excepción previamente lanzada, se ejecuta el manejador del sistema, cuya acción típica es imprimir un mensaje de error y terminar la ejecución del programa. Como ya mencionamos, para generar una excepción se utiliza la instrucción athrow, que toma un elemento de la pila. Dicho elemento debe ser la referencia a un objeto que herede de la clase java.lang.Throwable. 5.6. Soporte para métodos nativos. Las clases en Java pueden contener métodos que no estén implementados por códigos de operación (bytecode) Java, sino por algún otro lenguaje compilado en código nativo y almacenado en bibliotecas de enlace dinámico, como las DLL de Windows o las bibliotecas compartidas SO de Solaris. El sistema de tiempo de ejecución incluye el código necesario para cargar dinámicamente y ejecutar el código nativo que implementa estos métodos. Una vez que se enlaza el módulo que contiene el código que implementa dicho método, el procesador virtual atrapa al s llamadas a éste y se encarga de invocarlo. Este proceso incluye la modificación de los argumentos de la llamada, para adecuarlos al formato que requiere el código nativo, así como transferirle el control de la ejecución. Cuando el código nativo termina, el módulo de soporte para métodos nativos se encarga de recuperar lo resultados y de adecuarlos al formato de la máquina virtual Java. De manera análoga, el módulo de soporte para código nativo se encarga de canalizar una llamada a un método escrito en Java, hecha desde un procedimiento o método nativo. 5.7. Interfaz de hilos. Java es un lenguaje que permite la ejecución concurrente de varios hilos de ejecución, es decir, el sistema de tiempo de ejecución de Java tiene la posibilidad de crear más de un procesador virtual Java, donde ejecutar diferentes flujos de instrucciones, cada uno con su propia pila y su propio estado local. Los procesadores virtuales pueden ser simulados por software o implementados mediante llamadas al sistema operativo, sobre el cual subyace. En el conjunto de instrucciones de la máquina virtual Java, sólo existen dos directamente relacionadas con los hilos, monitorenter y monitorexit, que sirven para definir secciones de código, que deben ejecutarse en exclusión mutua. El resto del soporte de los hilos se realiza atrapando llamadas a los métodos pertenecientes a la clase java.lang.Thread. 5.8. Cargador de clases. Los programas Java están completamente estructurados en clases. Por lo tanto, una función muy importante del sistema en tie mpo de ejecución, es cargar, enlazar e inicializar clases dinámicamente, de forma que sea posible instalar componentes de software en tiempo de ejecución. El proceso de cargado de las clases se realiza sobre demanda, hasta el último momento posible. La Máquina Virtual Java utiliza dos mecanismos para cargar las clases. El primero consiste en un cargador de clases del sistema, cuya función es cargar todas las clases estándar de Java, así como la clase cuyo nombre es estrada vía la línea de comandos. De manera adicional, existe un segundo mecanismo para cargar clases dentro del sistema, utilizando una instancia de la clase java.lang.ClassLoader o alguna otra definida por el usuario, que especialice a la anterior. Es importante hacer notar que el cargador de clases es uno de los recursos que debe proteger el administrador de seguridad. No debe permitir, por ejemplo, que los applets no confiables creen sus propios cargadores debido a que puede ser un punto por el que pueden romperse las restricciones de seguridad. Los cargadores especializados por los programadores, pueden definir la localización remota de donde se cargarán las clases o asignar atributos de seguridad apropiados para sus aplicaciones particulares. Finalmente, se puede usar a los cargadores para proporcionar espacios de nombres separados a diferentes componentes de una aplicación. 5.9. Arquitectura de seguridad Java. Java utiliza una serie de mecanismos de seguridad, con el fin de dificultar la escritura de programas maliciosos que pudiesen afectar la integridad de las aplicaciones y los datos de los usuarios. Cada sistema en tiempo de ejecución Java tiene la capacidad de definir sus propias políticas de seguridad, mediante la implantación de un "administrador de seguridad" (security manager), cuya función es proteger al sistema de tiempo de ejecución, definiendo el ámbito de cada programa Java en cuanto a las capacidades de acceder a ciertos recursos, etcétera. El modelo de seguridad original proporcionado por la plataforma Java, es conocido como la "caja de arena" (sandbox), que consiste en proporcionar un ambiente de ejecución muy restrictivo para código no confiable que haya sido obtenido de la red. Como se muestra en la figura siguiente, la esencia del modelo de la caja de arena, es que el código obtenido del sistema de archivo local es por naturaleza confiable: Figura 5.2: Modelo sandbox de seguridad. Se le permite el acceso a los recursos del sistema, como el mismo sistema de archivos o los puertos de comunicación. Mientras, el código obtenido de la red se considera no confiable. Por lo tanto, tiene acceso únicamente a los recursos que se encuentran accesibles desde la caja de arena. Como hemos mencionado, la máquina implementa otros mecanismos de seguridad, desde el nivel de lenguaje de programación, como la verificación estricta de tipos de datos, manejo automático de la memoria, recolección automática de basura, verificación de los límites de las cadenas y arreglos, etcétera. Todo con el fin de obtener, de una manera relativamente fácil, código "seguro". En segunda instancia, los compiladores y los verificadores de código intentan asegurar que sólo se ejecuten códigos de ejecución (bytecodes) Java, con la estructura correcta y no maliciosos. Asimismo, analizamos cómo con el cargador de clases se pueden definir espacios de nombres locales, lo que ayuda a garantizar que un applet no confiable pueda interferir con el funcionamiento de otros programas. Finalmente, el acceso a los recursos importantes del sistema, es administrado entre el sistema de tiempo de ejecución y el administrador de seguridad (Security Manager), que es implementado por la clase java.lang.SecurityManager, que permite a las implantaciones incorporar políticas de seguridad. De esta manera, es posible para las aplicaciones determinar si una operación es insegura o contraviene las políticas de seguridad, antes de ejecutarla. Figura 5.3: Modelo de seguridad del JDK 1.1. El JDK 1.1 introduce el concepto de "applet firmado" (signed applet), en el que los applets que poseen una firma digital correcta, son considerados como confiables. Por lo tanto, reciben los mismos privilegios que el código obtenido del sistema de archivos. Los applets firmados, junto con la firma, se envían en un archivo de formato JAR (Java Archive). En este modelo de applets sin firma, continúan corriendo en la caja de arena. En la figura se puede observar el modelo de seguridad del JDK 1.1. Finalmente, como se muestra en la figura siguiente, en la arquitectura de la plataforma de seguridad de Java 2 se introdujeron diferentes niveles de restricción, se eliminó la idea de que el código proveniente del sistema de archivo local siempre es confiable, etcétera: Figura 5.4: Modelo de seguridad de Java 2. 5.10. Áreas de memoria de la maquina virtual. La KVM en su flujo de ejecución normal necesita disponer de cierta memoria para almacenar estructuras necesarias para su ejecución. Esta memoria es dinámica puesto que su contenido se va modificando en tiempo real y se relaciona con el resto de módulos de la KVM: Figura 5.5: Estructuras dinámicas de datos. El cargador de clases es quien inicializa esta memoria para almacenar las clases que se van a ejecutar y el motor de ejecución se encarga de actualizar dicha memoria. Paralelamente el recolector de basura se encarga de asegurarse de que no hay segmentos en esa memoria que no se están usando y estén ocupados para así liberarlos. 5.11. Estructura completa de ejecución de la KVM. La estructura completa de la KVM incluye una serie de funcionalidades adiciona les a las que hemos visto a lo largo de este capítulo. Estas funcionalidades están relacionadas con otros aspectos quedando encuadrado en nuevos módulos: • • • Depuración. Generación de estadísticas (Profiler). Generador de log de sistema (Logger). Figura 5.6: Arquitectura completa de la KVM. 5.12. Conclusiones. Se ha podido comprobar a lo largo del capítulo como la maquina virtual mantiene una estructura modular bien definida y acotada. Es decir, cada uno de los módulos gestiona un conjunto o área de tareas que la KVM debe implementar. De esta forma cada uno de los módulos define: • Estructuras de datos que se emplean para representar los elementos java ya sean principales como objetos o estructuras auxiliares que la maquina virtual necesita en su gestión interna. • Operaciones, implementadas en forma de métodos, que permiten actuar con las estructuras antes definidas. Dichas operaciones son invocadas desde un módulo a otro cuando se necesita realizar una tarea de dicho módulo. Los distintos módulos que integran la maquina virtual son los siguientes: • Intérprete de bytecodes: es el núcleo de ejecución de la KVM y se encarga de ejecutar los bytecodes que integran los archivos Java ya compilados. • Gestor de memoria: como su propio nombre indica se encarga de gestionar la memoria de la que hace uso la maquina virtual. Es posiblemente uno de los módulos más críticos. • Gestor de errores y excepciones: implementa los mecanismos de gestión de errores incluyendo tanto la captura y detección de los mismos como su tratamiento. • Soporte de métodos nativos : este módulo mantiene una interfaz de comunicación con el sistema operativo para que se puedan ejecutar métodos nativos del mismo desde las clases Java. • Gestión multihilo: como en cualquier maquina virtual Java, la KVM dispone de un conjunto de funciones que permiten la ejecución de programas multihilo. • Cargador de clases: la función de este módulo es transformar el código compilado de los archivos .class en las estructuras de datos que la KVM necesita internamente. • Verificador: realiza tareas relacionadas con la seguridad ya que se encarga de comprobar el correcto estado de los bytecodes que se van a ejecutar así como de la correcta formación de las clases de las cuales derivan estos bytecodes. • Gestión de estructuras internas : controla las distintas estructuras de datos que la maquina virtual emplea en su ejecución. • Gestión de logs: crea y modifica los logs asociados a la KVM en su funcionamiento. • Profiler: genera estadísticas de determinados aspectos de la KVM como por ejemplo el número de veces que se ha ejecutado el recolector de basura. • Depurador: mantiene en sí un modo de funcionamiento de la KVM paralelo al normal. Y es que el depurador implica que la maquina virtual funcione mas lentamente pero permite tener un mayor control de la misma. En este capítulo sólo se ha mostrado a grandes rasgos el funcionamiento de la maquina virtual dejando para los capítulos subsiguientes un análisis detallado y pormenorizado de cada uno de los módulos que la integran.