CAPITULO II MARCO TEORICO SOBRE INTERNET, BUSCADOR WEB, SITIOS WEB BIBLIOGRAFICOS, ALMACENAMIENTO DE INFORMACION, RECUPERACIÓN DE INFORMACIÓN A. Internet 1. Concepto de Internet Internet es un gran conjunto de redes y de ordenadores interconectadas, convirtiéndose de esta manera en uno de los medios más influyentes en la llamada Autopista de la Información; donde el usuario desde su computadora tiene acceso a la mayor fuente de información que existe. 2. Origen de Internet Nace en 1969 por necesidades militares, pero evoluciono rápidamente hacia una red académica, inicialmente dentro de los Estados Unidos, denominada ARPANET (Advanced Research Projects Agency Network, Red de la Agencia de Proyectos de Investigación Avanzada). En 1989 se produce el nacimiento "oficial" de Internet. A finales de 1993, el número de computadoras conectadas estaban entorno a los 2,200,000, con un total de 20 millones de usuarios conectados. Las redes conectadas continúan creciendo a un ritmo acelerado.4 3. Principales Servicios de Internet a) Correo Electrónico Uno de los usos más comunes de Internet es la transmisión de mensajes a otro usuario ya sea a un sistema remoto o dentro de la misma red local, mediante el uso del correo electrónico. 4 Dirección electrónica: www.bvs.sld.cu/revistas/ Lic. Ruben Andalia 6 PDF Creator - PDF4Free v2.0 http://www.pdf4free.com El correo electrónico está diseñado para mandar mensajes de texto; sin embargo, es un servicio general que puede transportar cualquier tipo de información: documentos, publicaciones, programas de computadoras y muchos más; también es posible enviar datos no-textuales, como imágenes, grabaciones de sonido, entre otros. Es muy habitual que muchos individuos que no se ven en persona y se encuentren a miles de kilómetros de distancian puedan realizar y colaborar juntas en un proyecto común a través del correo electrónico. b) Gopher Gopher fue desarrollado por la Universidad de Minnesota, es de manejo muy sencillo, se basa en un sistema de menús que presenta la información estructurada en forma jerarquizada. Gopher permite tener acceso a información al hacer selecciones en una serie de menús. Cada vez que se hace una selección en un menú, Gopher lo traerá o hará lo necesario para llevar a cabo nuestra petición. Lo que hace tan potente al sistema Gopher es que los recursos enumerados en un menú pueden estar en cualquier parte de la Internet. c) IRC (Internet Relay Chat) Internet Relay Chat (Charla Interactiva Internet), utilizado para conversaciones simultáneas, que permite comunicarse por escrito entre sí a través de la computadora y con varias personas en tiempo real. Estas conversaciones se organizan sobre distintos temas o ideas. d) Word Wide Web La World Wide Web (Telaraña Mundial), la Web o WWW, es un sistema de hipertexto que funciona sobre Internet. Para ver la información se utiliza una aplicación llamada navegador web para extraer elementos de información (llamados "documentos" o "páginas web") de los servidores web (o "sitios") y mostrarlos en la pantalla del usuario. El usuario puede entonces seguir hiperenlaces que hay en la página a otros 7 PDF Creator - PDF4Free v2.0 http://www.pdf4free.com documentos o incluso enviar información al servidor para interactuar con él. A la acción de seguir hiperenlaces se le suele llamar "navegar" por la web. No se debe confundir la web con Internet, que es la red física mundial sobre la que circula la información. HTML (HyperText Markup Language, Lenguaje de marcado de hipertexto) es un lenguaje muy sencillo que permite describir hipertexto, es decir, texto presentado de forma estructurada y agradable, con enlaces (hyperlinks) que conducen a otros documentos o fuentes de información relacionadas, y con inserciones multimedia (gráficos, sonido...). Este lenguaje es el que se utiliza para presentar información en el World Wide Web. Entre otros servicios. 4. Protocolos de Internet Para garantizar que los diferentes tipos de computadoras en Internet puedan trabajar juntas, se han creado protocolos estándar. Un protocolo es una serie de reglas que describen técnicamente, cómo deben hacerse determinadas tareas. Los Protocolos de comunicación de redes más utilizados son TCP/IP, que proviene de los dos protocolos más importantes: TCP (Protocolo de Control de Transmisión) e IP (Protocolo Internet). TCP/IP es una gran familia de protocolos que se utilizan para organizar las computadoras y dispositivos de comunicaciones en una red. La Internet depende de miles de redes y millones de computadoras y TCP/IP es el pegamento que mantiene todo unido. a) TCP (Protocolo de Control de Transmisión) TCP (Transmision Control Protocol): Divide el mensaje en paquetes numerados y lo recompone en el destino. Transfiere de forma confiable la información entre dos computadoras remotas, con independencia de la forma en que se realiza la conexión de estas computadoras. El trabajo de TCP es manejar el flujo de datos y asegurarse de que éstos sean correctos. 8 PDF Creator - PDF4Free v2.0 http://www.pdf4free.com b) IP (Protocolo Internet) IP (Internet Protocol): El trabajo de IP es transportar los datos en bruto, o sea, los paquetes de un lugar a otro. Es el que se preocupa de las características de cada tipo de red de comunicaciones. Sirve de soporte a TCP. 5. Algunos Navegadores Más Utilizados en Internet a) Microsoft Internet Explorer Internet Explorer es el navegador de Microsoft. Internet es una colección de redes que conectan a millones de equipos de todo el mundo. Microsoft Internet Explorer le permite conectar a Internet para tener acceso a vastos almacenes de información en dichos equipos. Con una conexión a Internet y Microsoft Internet Explorer puede buscar y ver información acerca de todo en el web, desde la exploración y búsqueda básica hasta ver canales, subscripciones y otros. b) Navegador Netscape Netscape fue desarrollado por Netscape Communications Corp. En 1995 por un equipo liderado por Marc Andreessen, el creador de Moisac. Netscape es un navegador de Internet, es uno de los clientes WWW más potentes que permite acceder a las páginas web de Internet y obtener información y documentos. Netscape no es de dominio público, y si se quiere legalizar la copia del programa se deberá ponerse en contacto con Netscape y adquirir una licencia oficial. 6. Internet en El Salvador: SVNet SVNet, es la organización encargada de asignar las direcciones IP para aquellas empresas que deseen colocar sus paginas web bajo el dominio de SV. 5 5 Ing. Rafael Ibarra, Presidente de SVNet, [email protected] 9 PDF Creator - PDF4Free v2.0 http://www.pdf4free.com a) Miembros Actuales en SVNet • Universidad Centroamericana José Simeón Cañas (UCA) • Consejo Nacional de Ciencia y Tecnología (CONACYT) • Universidad Don Bosco (UDB) b) Descripción de SVNet SVNet refleja un esfuerzo nacional de carácter democrático, con el objetivo de posibilitar la comunicación electrónica con el mundo, a través de Internet. Paulatinamente, más instituciones, organizaciones y empresas irán integrándose a SVNet, a medida vayan constituyéndose en usuarios de Internet en El Salvador. c) Proveedores de Internet Existentes en El Salvador: Un Proveedor de Servicio de Internet (ISP, Internet Service Provider), es una empresa que ofrece a sus usuarios conexión a la red mundial Internet y sus otros servicios relacionados, como correo electrónico y navegación grafica, entre otros. En el cuadro 2.1 se presenta algunos proveedores de servicio de Internet en el País. Cuadro 2.1 Proveedores de Internet en El Salvador Proveedor Sitio web Telecom.. www.navegante.com.sv AmNet www.amnet.com.sv Americatel www.americatel.com.sv Telefónica www.telefonica.com.sv Telemóvil www.telemovil.com.sv B. Buscador Web 1. Concepto de Buscador Web Un buscador es la herramienta que permite buscar en toda la red a partir de unas palabras que se tienen que introducir para describir lo que se busca. Detrás de un buscador hay una base de datos que contiene la información y unos sistemas de indexación, compresión y organización de los datos que permiten efectuar búsquedas por palabras rápidamente. 10 PDF Creator - PDF4Free v2.0 http://www.pdf4free.com 2. Tipos de Buscadores en Internet Existe gran cantidad de buscadores dentro de la web, en el cuadro 2.2 se presentan algunos de ellos que son los más utilizados. Cuadro 2.2 Tipos de Buscadores en Internet Buscadores http://www.espanol.yahoo.com http://www.excite.com http://www.lycos.com http://www.google.com http://www.altavista.com C. Sitios Web Bibliográficos En el web, se cuentan con muchos sitios bibliográficos para las Universidades y los Centros de Estudios de manera que proporcionen información a los usuarios. Los sitios web bibliográficos son implementados porque mecaniza el proceso de proporcionar información, sin necesidad de buscar información directamente sobre los documentos manuales disminuyendo, así el tiempo de búsqueda, se obtiene rápidamente las solicitudes de información mediante formularios personalizados, su facilidad de uso promueve la motivación de los usuarios, reduce drásticamente la pérdida de tiempo en cuanto a la obtención de información. Los sitios web deben diseñarse para usuarios concretos y sus objetivos más probables. Es necesario considerar siempre al diseñar un sitio web que se logren estos tres objetivos: atraer visitantes, retener su atención y obtener la información deseada. Los servicios bibliográficos son dirigidos hacia el estudiante o profesional, es esencial que la información se use como principal herramienta de persuasión y educación y que en consecuencia sea fácil de encontrar y de absorber. Se debe crear una navegación amigable e intuitiva dentro del sitio, así los usuarios podrán encontrar rápidamente la información. Los sitios web bibliográficos se dividen a continuación: 11 PDF Creator - PDF4Free v2.0 http://www.pdf4free.com 1. Sitios Web Dinámicos Es dinámico porque el documento HTML es generado al mismo tiempo en que es servido por medio de un programa llamado script que se encuentra almacenado en el lado del servidor o cliente y puede estar escrito en cualquier lenguaje de programación. Actualmente se está pasando de sitios web estáticos a sitios web dinámicos. Los sitios impulsados por bases de datos permiten: • Crear menos páginas • Mantener el contenido más actualizado • Preparar el sitio para el futuro • Aprovechar las disposiciones y capacidades que ya posee el sitio web 2. Sitios Web Estáticos Estáticos implica que el documento se ha escrito una vez y esta guardado tal como fue escrito para ser servido sin cambio a los usuarios que se conectan al servidor web. El usuario accede a la información de un documento colocándose en los link que posee para pasar de pagina en pagina, hasta obtener los datos que desea, o sea, simplemente se lee el documento HTML estático del disco y es enviado por línea. D. Almacenamiento de Información Una de las tecnologías que hacen más interesante a las computadoras es sin duda su capacidad de guardar la información que manejamos. Mencionaremos primero lo que es la información para una computadora. Lo más simple es decir que todo lo que hay dentro de una computadora es información, agregaremos además, que toda esa información es digital. Algunos tipos de información, que usualmente se guardan en una computadora: 12 PDF Creator - PDF4Free v2.0 http://www.pdf4free.com Programas: Es aquella información organizada de manera tal, que la propia computadora puede entender lo que dicen esos programas y cada programa son instrucciones que le dicen a la computadora lo que debe hacer; cuando aparece un icono en la pantalla, le damos doble clic y entonces se llama un programa que instruye a la computadora a realizar ciertas funciones. Las computadoras, por si solas, no pueden hacer, casi nada sin la ayuda de los programas, como ejemplo de programas muy conocidos tenemos: un procesador de textos; una hoja de cálculo; el mismo Windows que casi todos usamos, no son otra cosa, que conjuntos de programas. Datos Numéricos y Alfanuméricos: Son la información que realmente interesa a cada uno de nosotros, para nuestro negocio, nuestra escuela, nuestra diversión, etc. Como ejemplo tenemos: una carta que escribimos en un procesador de textos o los cálculos y el contenido de una hoja de cálculo. Imágenes: Son datos que están ordenados de tal manera, que le indican a un programa los blancos, los negros, los contornos, los colores y por supuesto las imágenes en sí. Las imágenes consumen mucho espacio de almacenamiento, sobre todo si son muy nítidas y más aún, si tienen muchos colores. Sonido: El sonido es un conjunto de datos, producto de un análisis de las ondas sonoras, análisis que se almacena de cierta forma y, para que lo escuchemos, un programa entrega ese análisis a un dispositivo dentro de la computadora llamado sintetizador. Este sintetizador tiene la capacidad de convertir esos datos digitales, en sonidos. El sonido también demanda mucho espacio de almacenamiento y más si es de mayor calidad; aunque se puede guardar en formatos comprimidos, el cual ahorran espacio de almacenamiento. Base de Datos: Es un conjunto de datos relacionados entre sí, donde hay que especificar los tipos de datos, las estructuras y las restricciones de los datos que se almacenarán en ella. Por datos se entiende hechos conocidos que pueden registrarse y que tienen un significado implícito. Por ejemplo: los nombres, números telefónicos y direcciones de personas; por lo tanto constituyen una base de datos. 13 PDF Creator - PDF4Free v2.0 http://www.pdf4free.com Base de Datos en Línea: Toda base de datos se diseña y se construye con datos para un propósito específico y para un público que está activamente interesado en el contenido de la base de datos realizando consultas para obtener datos específicos de interés minimizando así el tiempo de búsqueda. E. Recuperación de Información La recuperación de la información consiste en que debe estar previamente almacenada, y se obtiene por medio de la realización de una serie de consultas a los documentos contenidos en la base de datos. Cuando un usuario se plantea la necesidad de obtener nueva información sobre un asunto o materia de su interés, está manifestando una carencia de información. Un Sistema de Recuperación de Información debe soportar una serie de operaciones básicas sobre los documentos almacenados en el mismo, como son: introducción de nuevos documentos, modificación de los documentos almacenados y eliminación de los mismos; y lo más importante es que se debe contar con una técnica de localización y consulta de los documentos para presentárselos posteriormente al usuario. 1. Algunos Tipos de Recuperación de Información a) Modelos Conceptuales La mayoría de los sistemas de información siguen dos modelos: booleano y de búsqueda de información por patrones de texto. Los sistemas de patrones de textos son más utilizados comúnmente en pequeñas colecciones de datos y cuando hay que gestionar grandes volúmenes de documentos destacan mayoritariamente los sistemas booleanos. Las búsquedas booleanas consisten en expresiones de palabras claves conectadas con algún/nos operador/es lógico/s (AND, OR y NOT). 14 PDF Creator - PDF4Free v2.0 http://www.pdf4free.com b) Estructuras de Ficheros Un fichero inverso es un fichero índice en cuya estructura de ítems encontraremos: palabra clave, Id-Doc, Id-Campo. Algunos sistemas incluyen información sobre la localización en el documento del párrafo y frase de los términos buscados. c) Operaciones Sobre los Términos El truncamiento es una “mezcla” manual de términos usando caracteres especiales en la palabra, así que el término truncado formará múltiples palabras; en este caso nos referimos a las operaciones de localización de términos con una raíz común. Entre otros. 2. Evaluación de los Sistemas de Recuperación de Información La eficacia en la ejecución es medida por el tiempo que se toma un sistema o una parte de un sistema para realizar una operación. Este parámetro ha sido siempre la preocupación principal en un Sistema de Recuperación de Información, especialmente desde que muchos de ellos son interactivos, y un largo tiempo de recuperación interfiere con la utilidad del sistema. 15 PDF Creator - PDF4Free v2.0 http://www.pdf4free.com