Servicio de estadísticas de “Alojamiento” Fecha de revisión: 19/09/2005 1. Acerca de este documento Este documento describe el servicio de estadísticas del que actualmente disfrutan algunas de las páginas web que se encuentran alojadas en el servidor alojamiento.ulpgc.es. En el apéndice A, al final de este documento, puede encontrar una relación de los dominios en los que se ha implantado este servicio. Este texto está enfocado principalmente a los gestores (webmasters), para que puedan sacarle el máximo partido al servicio. 2. En resumen. Para acceder a las estadísticas: http://web/estadisticas (usuario “estadisticas”) Para acceder a los ficheros de log: Utilice el programa que usa para publicar páginas. Diríjase al directorio web/logs 3. Acerca del servicio El servicio de estadísticas de alojamiento se compone de dos partes: – Registro de accesos a la web, comúnmente conocido como “fichero de log”. En él se almacena la información de cada petición que se realiza al sitio web en cuestión, quedando estos ficheros a disposición del webmaster. – Estadísticas de visitas. Dichas estadísticas se generan diariamente y de forma automática a partir de los registros de acceso antes mencionados. Durante el resto de documento se va a profundizar en las dos partes del sistema para lograr una comprensión de su utilidad. 4. Registros En los ficheros de registro (“logs”) se almacena toda la información referente a los accesos que se realizan a la web. Esta información se actualiza en tiempo real, con lo que el webmaster puede conocer en todo momento qué peticiones/visitas se están realizando. Los ficheros de registro se encuentran en un directorio logs que hay en cada Servicio de estadísticas de "Alojamiento" 1 una de las webs de alojamiento. Como puede verse a continuación, hay diferentes ficheros. El que tiene como nombre access_log, sin más, contiene la información actual. Los demás almacenan datos históricos: se encuentran comprimidos y se conservan sólo las cuatro últimas semanas. -rw-r--r-- 1 root root 1.7M jun 8 09:30 access_log -rw-r--r-- 1 root root 163K jun 5 04:05 access_log.1.gz -rw-r--r-- 1 root root 146K may 29 04:07 access_log.2.gz -rw-r--r-- 1 root root 131K may 22 04:08 access_log.3.gz -rw-r--r-- 1 root root 162K may 15 04:01 access_log.4.gz Como se puede suponer, toda esta información es “sensible” y no debe ser consultada por cualquiera. Por eso, el directorio “logs” se encuentra protegido para que no se pueda acceder a él mediante un navegador web, sino exclusivamente utilizando el programa que usa para publicar las páginas. 5. Estadísticas de visitas En la mayoría de los casos, la información registrada en los “logs” es, cuando menos, poco manejable. Sin ningún género de duda, lo mejor es contar con algún procedimiento que convierta esa ingente cantidad de información en algo fácilmente interpretable. Números y gráficos parece una buena opción y, precisamente, esa es la segunda parte del sistema. Para generar un informe comprensible, donde se detallen las estadísticas de uso, se cuenta con AWStats (ver referencias). Este software parte de la información almacenada en los ficheros de registro para componer un resumen conteniendo los datos más destacados. Este informe se actualiza cada noche y se encuentra accesible mediante la dirección http://web/estadisticas. Por ejemplo: http://www.softwarelibre.ulpgc.es/estadisticas/ Por supuesto, también está protegido por contraseña, aunque en este caso es posible que el webmaster retire o modifique este control de acceso, como veremos a continuación. Un apunte más antes de continuar: los informes se almacenan en el servidor durante un año. Pasado ese tiempo, se borran. Acceso y protección de las estadísticas En muchos casos, no nos interesa que las estadísticas de nuestra web sean de dominio público. Por eso, se ofrecen mecanismos para permitir el acceso sólo a determinadas personas, mediante el clásico método basado en contraseña. Por defecto, para cada dirección se ha creado un usuario llamado “estadisticas” y una contraseña que podrá obtener llamando al servicio de atención al Servicio de estadísticas de "Alojamiento" 2 usuario en el teléfono 1234. En el directorio de estadísticas aparecen dos ficheros que son los que contienen las directrices del control de acceso (fíjese que el nombre de los ficheros empieza con un punto): .htaccess: Indica al sistema que ese directorio está protegido por contraseña. Hay varias copias, una por directorio, de modo que se pueden poner/quitar el control de acceso a cada uno por separado. En concreto, quitando este fichero, desaparece el control de accesos para ese directorio. .htpasswd: Contiene la información de autenticación, es decir, los usuarios y sus contraseñas. Obviamente, las claves se encuentran "cifradas" para que no sea legibles. Este podría ser el contenido de un fichero .htpasswd. pepe:RnFk4nO5eEy5X Estos ficheros se manejan con la utilidad "htpasswd" (ver referencias; existe incluso una versión para Microsoft Windows). Por ejemplo, para añadir al usuario juan (o cambiar su contraseña), basta con teclear lo siguiente: htpasswd .htpasswd juan El sistema nos pediría la contraseña un par de veces y ya tendríamos al nuevo usuario en el fichero. pepe:FFg0LypcqK5Zc juan:3Fh39mTtdnh0U Este fichero se puede generar en cualquier ordenador y luego colocarlo convenientemente en el servidor de la misma forma que coloca las páginas. En la sección de Referencias aparecen un par de enlaces al respecto. El informe El informe que genera AWStats es tan completo como útil. Está compuesto por diversas secciones en las que se detallan distintos aspectos que pueden ayudar a sacar conclusiones acerca del perfil de nuestros visitantes o el impacto de determinados contenidos. En esta sección vamos a ver una breve explicación de cada sección, deteniéndonos en las que podrían considerarse como más importantes. En ningún caso puede tomarse este texto como una guía de referencia. Para información más amplia, lo mejor es consultar la documentación del propio AWStats (ver referencias). Servicio de estadísticas de "Alojamiento" 3 Resumen Quizás esta sea la parte más interesante del informe. El resumen nos muestra, de forma concisa y clara, los números que, a priori, pueden resultar de mayor interés. Estos son: Visitantes distintos. Número de visitas. Páginas: se corresponde con la cantidad de páginas que se han servido. Solicitudes: este es un número extremadamente alto en comparación con los anteriores. Una petición no se refiere sólo a una página, sino a otros elementos que pueda haber en ella (como, por ejemplo, una imagen). Así, se genera una petición individual para cada uno de esos elementos de la página. Tráfico: cantidad de información que se ha transmitido a los visitantes. Como habrá apreciado, hay dos filas: una para el tráfico visto y otra para el no visto. La diferencia entre uno y otro es que, el primero, probablemente ha sido solicitado por una persona; mientras que el segundo se corresponde con peticiones de algún robot, como los que usan los "buscadores" para recolectar información. Histórico mensual En el histórico, se muestra los principales números de los resúmenes de los meses del año. Nótese que se ignora el tráfico no visto. Servicio de estadísticas de "Alojamiento" 4 Días del mes Si el anterior muestra las cifras más importantes de cada mes, este otro hace lo mismo con los días del mes actual. Días de la semana Presenta la distribución de la visitas en los diferentes días de la semana. Visitas por horas Saber a qué hora nos visitan es una forma de conocer un poco más el perfil de nuestros usuarios. Es útil no como simple curiosidad, sino incluso para planificar en qué momentos podemos hacer ciertos cambios en la web o qué posibilidades hay de que los usuarios hayan leído ya la última información que hemos publicado. Países Ni que decir tiene que Internet es muy amplia y las repercusiones de lo que publicamos en cualquier web puede tener eco más allá de nuestras fronteras. Por eso, conocer la procedencia de nuestros visitantes, puede resultar de sumo interés. Para ser justos, hay que decir que, aunque muy orientativas, estas estadísticas no son fiables en un 100%. Servidores En este cuadro se captura una lista de los visitantes y el tráfico que han generado. Podemos encontrarnos con: Nombres de dominio Direcciones IP. En este caso, se debe a que no se pudo realizar la resolución inversa (es decir, partiendo de la dirección IP, no se pudo obtener el nombre de la máquina). Robots/Spiders Los buscadores, entre otros, utilizan lo que se conoce como "robots" (o "spiders") para buscar y clasificar contenidos. Los robots se mueven por la red y van siguiendo los enlaces, recopilando información acerca de los contenidos que encuentran. Servicio de estadísticas de "Alojamiento" 5 En este cuadro se recogen los distintos robots que parecen haber visitado la web, así como el tráfico que han generado. Duración de las visitas ¿Cuánto tiempo pasan los visitantes en nuestra web? Esta es otra interesante medida que puede ayudarnos a definir un poco mejor el perfil de nuestros visitantes. Cada línea de este cuadro pertenece a un intervalo de tiempo, donde se indican el número de visitas y el porcentaje que suponen. Tipos de ficheros Esta estadística tiene que ver mucho con nuestra propia web. Se corresponde con los diferentes tipos de archivos que se "piden". Páginas-URLs El recuadro de Páginas-URLs nos ayuda a diferenciar qué zona de nuestra web despierta más interés entre nuestros visitantes. Hay que hacer notar que las direcciones que ahí aparecen no incluyen la "base", es decir, en lugar de http://www.midominio.com/index.html aparecerá sólo /index.html. Sistemas operativos y navegadores Estos dos cuadros muestran los navegadores y los sistemas operativos de los visitantes. Esta información, aunque no en un 100%, es bastante fiable. Conectados al sitio desde ¿Desde dónde llegan nuestras visitas? ¿Buscadores, otras páginas? Esta es la información que se recoge en este cuadro, dividido en cinco grupos: Entrada directa o desde 'Favoritos' Enlaces desde grupos de noticias Enlaces desde algún buscador de Internet Enlaces desde páginas externas Origen desconocido Búsqueda por frases/palabras clave ¿Qué vienen buscando los usuarios? Estos son los términos que han introducido en un buscador y que les han acabado llevando hasta nuestra página. Varios (misceláneos) Estadísticas varias. En este momento sólo se encuentra disponible qué Servicio de estadísticas de "Alojamiento" 6 porcentaje de las visitas han añadido la página a sus "Favoritos" (o "Marcadores"). Códigos de error HTTP Esta información, algo más técnica, se corresponde con los diferentes códigos de error HTTP que, en uno u otro momento, ha devuelto el servidor al intentar acceder a alguna parte de nuestra web. Los indicativos de que algo ha ido mal son aquellos que empiezan por 4 o 5 (404, por ejemplo, se corresponde con página no encontrada). 6. Referencias ✔ AWStats, http://awstats.sourceforge.net/ ✔ http://httpd.apache.org/docs-2.0/mod/mod_log_config.html.en#formats. ✔ htpasswd, http://www.apache.org. Versión para Microsoft windows disponible en ftp://ftp.bnsi.net/pub/apache. Servicio de estadísticas de "Alojamiento" 7 Apéndice A: Listado de webs con servicio de estadísticas (19/9/2005) ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ biblioteca.ulpgc.es editorial.cda.ulpgc.es editorial.dca.ulpgc.es myriam.ulpgc.es www.aceg.ulpgc.es www.agua.ulpgc.es www.ambientalcampus.ulpgc.es www.auladecine.ulpgc.es www.aulas.ulpgc.es www.campussostenible.ulpgc.es www.cbm.ulpgc.es www.csocial.ulpgc.es www.cucid.ulpgc.es www.dact.ulpgc.es www.dbbf.ulpgc.es www.dcegi.ulpgc.es www.dch.ulpgc.es www.dedu.ulpgc.es www.dps.ulpgc.es www.eldigital.ulpgc.es www.esccri.ulpgc.es www.esep.ulpgc.es www.etsa.ulpgc.es www.etsit.ulpgc.es www.euitt.ulpgc.es www.eup.ulpgc.es www.fcafd.ulpgc.es www.fcee.ulpgc.es www.fcm.ulpgc.es www.ffp.ulpgc.es www.fgh.ulpgc.es www.fti.ulpgc.es www.fv.ulpgc.es www.gi.ulpgc.es www.lfi.ulpgc.es www.posgrados.ulpgc.es www.semiv.ulpgc.es www.serviciostic.ulpgc.es www.softwarelibre.ulpgc.es www.umiv.ulpgc.es Servicio de estadísticas de "Alojamiento" 8