Diseño de un Periódico Electrónico con XML C. Fernández Panadero, V. Luque Centeno, C. Delgado Kloos, A. Marín López, C. García Rubio Dep. Tecnologías de las Comunicaciones, Universidad Carlos III de Madrid C/ Butarque, 15, E-28911 Leganés (Madrid), España http://www.it.uc3m.es/~per, [email protected] Resumen El Periotrónico es un proyecto de prensa electrónica creado para integrar en una misma aplicación todas las posibilidades que ofrece actualmente la comunicación en Internet (multimedia, audio, vídeo, navegación hipertextual, etc.). La aplicación se está desarrollando intentando obtener el máximo beneficio de las tecnologías Web (XML, Java, JavaScript, CSS, push-pull, etc.). Este documento pretende dar una visión general de cómo estas tecnologías afectan al concepto de prensa así como una breve descripción de su integración en la arquitectura que se está desarrollando. Introducción El World Wide Web no sólo ha dado a conocer Internet al mundo entero, sino que ha producido un crecimiento espectacular de su utilización en un breve periodo de tiempo. La utilización de este novedoso medio de comunicación ha hecho posible un aumento de varios órdenes de magnitud tanto en la velocidad con que se añade información a la red como en la cantidad de información disponible. Lo que el usuario de Internet demanda es la posibilidad de conseguir “cualquier información (texto, audio, vídeo), en cualquier momento y de forma precisa”. En los últimos años han proliferado los servidores de información especializados en áreas concretas de conocimiento, pero se espera que sean los periódicos electrónicos los que faciliten la información de actualidad, aquella información de última hora que nos mantenga bien informados y que nos permita profundizar aún más si así lo requerimos. En este sentido la aplicación de la tecnología Web al periodismo tiene un interés muy especial ya que la prensa electrónica tiene características propias que la distinguen de las ediciones en papel: Se produce un enriquecimiento de los contenidos ya que se permite la inclusión de elementos multimedia. Esto nos permitirá por ejemplo leer una noticia de fútbol (texto) al mismo tiempo que vemos las mejores jugadas (vídeo), comentadas por nuestro comentarista favorito (audio) mientras contemplamos un gráfico de la estrategia de juego. Por otra parte, podemos acceder a la información en cualquier momento ya que los periódicos electrónicos son actualizables continuamente. Nuestro proyecto propone una generación automática del periódico en el momento de lectura. Podemos además conseguir una información tan precisa como queramos ya que son programables (y por tanto personalizables), es decir podemos diseñarnos un periódico “a la carta” con la información de las secciones que más nos interesen, escritas por nuestros periodistas favoritos, y presentada en el orden que nosotros mismos elijamos. Además los mecanismos hipertexto nos permiten nuevas formas de “navegar” por la información en contraposición a la lectura secuencial que suele seguirse en un diario impreso y sin las limitaciones físicas de una edición en papel. Por si fuera poco, incluso tienen menores costes de producción y de difusión. Estas características han sido tenidas muy en cuenta por numerosos grupos editoriales, tal y como lo demuestran los más de 4000 periódicos y revistas existentes actualmente en la red. En este artículo presentamos el trabajo que estamos desarrollando en el Área de Ingeniería Telemática de la Universidad Carlos III de Madrid en colaboración con los Departamentos de Biblioteconomía y Documentación y de Humanidades y Comunicación dentro del proyecto El Periotrónico: Concepción y Desarrollo de un Periódico Personalizable. En las secciones 2 y 3 se revisan algunas de las tecnologías que más han influido en las decisiones de diseño. En el apartado 4 se da una visión de la arquitectura de la aplicación. Lenguaje de marcado XML El trabajo involucrado en el Web es inmenso en todas las direcciones, con la aparición de nuevos estándares que permiten nuevas posibilidades. Por lo tanto, para el diseño de un periódico electrónico, la tecnología empleada debe ser escogida con cuidado: lo que es usado hoy, se volverá obsoleto antes de lo que uno se imagina. Una de las decisiones básicas de nuestro proyecto ha sido la selección de XML como lenguaje de etiquetado para la descripción de contenidos, en lugar de basarnos en la tecnología actual de HTML. XML es el nuevo lenguaje de marcado ``extensible'' diseñado por el organismo regulador de tecnología del Web (W3 Consortium) que permite el uso por Internet de SGML (un estándar de marcado que lleva funcionando desde hace años en muchos dominios dedicados a la publicación de información escrita). XML permite ``inventar'' conjuntos de etiquetas de marcado de textos para dominios particulares de usuarios. Facilita la creación de lenguajes propios de marcado con los cuales conseguir los efectos especiales deseados. De esta forma no hay que intentar forzar un uso inadecuado de un lenguaje tan limitado y poco flexible como HTML. El contenido de la información es de este modo más fácil de manejar ya que XML provee mecanismos para catalogar, almacenar y buscar información estructurada en los documentos. Por otra parte, los mecanismos de hipertexto de XML son más ricos y flexibles que los de HTML. Basándonos en estos principios hemos definido nuestro propio lenguaje JML (Journalism Mark-up Language) y hemos formalizado su gramática de acuerdo con las normas de XML mediante la expresión de su DTD (Document Type Definition). jml.gif Figura 1 : Ejemplo de un fichero JML Tecnología PUSH / PULL Las últimas tendencias en periodismo electrónico se están enfocando en el uso de la tecnología PUSH, que permite que se puedan recibir las noticias del servidor del periódico sin que sea necesaria la intervención del usuario lector. De esta forma ya no tiene necesariamente que solicitar una actualización de sus páginas cada vez que quiera ver las novedades. Es el propio servidor de noticias el que se encarga de mantener actualizadas las páginas que están visualizando sus clientes mediante el uso de Canales. Los canales son conexiones entre el cliente y el servidor web en las que la información se actualiza de forma continua. Pero la tecnología PUSH requiere mantener recursos en el servidor en función del número de usuarios y del servicio que se quiera dar. Además esta tecnología aún no es estándar y no todos los canales funcionan en todos los navegadores. Por el contrario en la tecnología PULL es el propio cliente el encargado de conectarse con el servidor, pero una vez hecha la conexión la información se actualiza automáticamente. Esto lleva a una descentralización del control, liberando de carga al servidor y permitiendo acceso así a un mayor número de usuarios simultáneamente. En el periotrónico hemos optado por una combinación PUSH / PULL-Inteligente para aprovechar las ventajas de ambas tecnologías. Personalización El trabajo de un periódico no termina con la producción de su material. Es necesario llevar a cabo un proceso de selección de noticias que sea conforme a los intereses de cada lector. De esta forma se consigue, no sólo un mejor acercamiento del lector a la información que le interesa, sino además un aprovechamiento más útil de la capacidad de transmisión (ancho de banda) de la red. Una de las labores del periódico consiste en saber caracterizar a los distintos lectores. Esta caracterización puede ser individual (si se tienen en cuenta las preferencias de cada lector de forma personal) o por grupos afines (se incluye al lector en el grupo de lectores interesados por unos mismos contenidos: Comunidades Virtuales). Las preferencias del lector deben ser también tenidas en cuenta en el momento de presentar la información, tanto en la estructura (posición de los distintos elementos en pantalla, color, tamaño de fuente, etc) como en la estrategia de navegación elegida (lineal, índice-subíndice, búsqueda, profundización, etc.) En el Periotrónico el proceso de personalización tiene lugar en dos fases : la personalización de contenidos en el servidor (antes de enviar la noticia) y la presentación y estrategia de navegación en el visor del lector. pers.gif Figura 2 - Personalización del Periódico Electrónico Arquitectura Entre los distintos componentes que forman nuestro sistema figuran una base de datos, un servidor de noticias, un cliente para los periodistas y un cliente para los lectores. A continuación se describen cada uno de estos elementos. La Base de Datos de noticias almacena todos los elementos de información publicados en el periódico (noticias, reportajes, fotografías, ...). En principio, cualquier base de datos relacional con interfaz SQL puede desempeñar esta función. La principal novedad es que cada uno de esos elementos almacenados en la base de datos contiene información sobre sí mismo (metadatos) que sirven para confeccionar los documentos en JML que se le presentan al lector. Ejemplos de estos metadatos son algunas etiquetas relacionadas con el contenido : como el tipo de elemento (reportaje, entrevista, noticia, opinión, ...), la sección o secciones a la que pertenece (nacional, internacional, economía, deportes, ...), los distintos tipos de encabezamiento (título, antetítulo, subtítulo, entradilla, ...) y el cuerpo de la noticia. También podemos disponer de etiquetas básicas para la gestión como son los datos sobre el autor, la fecha y el lugar del suceso, enlaces a otras noticias con las que tenga relación, indicaciones sobre la conveniencia o no de que ciertos anuncios (publicidad) aparezcan cerca de ella etc. Una de las etiquetas más importantes en nuestro lenguaje es el grado de importancia de una noticia, resultado de la importancia “objetiva” que le da el periódico unido a la importancia “subjetiva” que le atribuye el lector. Esta etiqueta nos permite decidir si una noticia debe presentarse o no a un determinado usuario en función de su relevancia y del interés que tenga para el lector en concreto. También podemos medir de este modo la obsolescencia de una noticia, decrementando el valor de la etiqueta con el tiempo. El Cliente para los Periodistas, escrito en Java, actúa como interfaz entre los periodistas y la base de datos de noticias. Con esta aplicación los periodistas podrán insertar información nueva en la base de datos y mantener el periódico electrónico de una forma fácil y cómoda sin que se requieran conocimientos técnicos especiales. El Servidor de Noticias consta de un servidor de Web y unos programas que atienden las peticiones de los lectores. Constituye una capa intermedia entre el Visor del Lector y la Base de Datos El Servidor de Noticias es capaz de construir un periódico individualizado para cada lector basándose en las peticiones que éste formula y en un fichero con su perfil que contiene información sobre sus preferencias (parte declaradas por el mismo en el proceso de suscripción al periódico y parte aprendidas por el sistema a partir de las peticiones pasadas). El servidor de noticias tiene también en cuenta la antigüedad de la noticia, así como el grado de importancia asignado por el periódico a la noticia en sí misma con el fin de decidir su grado de resalte en la pantalla. El periódico es enviado al cliente en formato JML. El Visor del Cliente consiste simplemente en un navegador Web capaz de visualizar XML (como se espera que sean los futuros Netscape Navigator 5.0 o Microsoft Internet Explorer 5.0). Mientras dichos navegadores no estén disponibles, se podrán utilizar visores de HTML tradicionales con un plug-in que incorpore un filtro que transforme JML en HTML. arq.gif Figura 3 - Arquitectura del Periotrónico Conclusiones El espectacular crecimiento de Internet y la evolución cada vez más acelerada hacia las llamadas Sociedades de la Información han hecho evolucionar el concepto de prensa hacia un nuevo paradigma: El periodismo electrónico. Nuestra propuesta va más allá de la simple publicación en HTML del material tradicional y la inclusión de algunos contenido multimedia. Estamos desarrollando un nuevo lenguaje de marcado JML basado en el estándar del W3 Consortium XML. En esta nueva semántica se definen etiquetas que hacen referencia tanto a la estructura de la noticia como a su contenido, y otros aspectos que facilitan su almacenaje, recuperación y gestión. Estas etiquetas permiten la personalización del periódico, haciendo posible la selección de contenidos y facilitando distintas formas de presentación y navegación. Referencias [1] Richard Light: Presenting XML, Indianapolis: Sams Net 1997 [2] Dan Connolly: XML: Principles, Tools and Techniques, en: World Wide Web Journal, 2-4, O'Reilly 1997 Agradecimientos El trabajo en el que se basa este documento ha sido parcialmente financiado por el proyecto TEL97-0788 de la CICYT. Queremos agradecer las fructíferas aportaciones de nuestros compañeros Peter T. Breuer, Pilar Diezhandino, Tony Hernández, Natividad Martínez, Tomás Nogales, A. Rodríguez de las Heras y Luis Sánchez de la Universidad Carlos III de Madrid. Agradecemos también la ayuda prestada por El PAIS Digital y Fundesco.