abrir

Anuncio
Moya Anegón, Félix, López Gijón, Javier, García Caro, Concepción. Técnicas
cuantitativas aplicadas a la biblioteconomía y documentación -- Madrid : Síntesis, 1996.
174 p.
INTRODUCCIÓN
La actual reforma de los planes de estudio de las universidades españolas, como consecuencia de
la Ley de Reforma Universitaria (1953), ha Ilevado al colectivo universitario a realizar un amplio
debate sobre lo que hoy en día se exige en las titulaciones que expide la Universidad y la
formación que actualmente deben tener los profesionales egresados.
Lógicamente los estudios de Biblioteconomía y Documentación han aprovechado esta
reforma de los planes de estudio para plantearse su futuro a partir del análisis de la situación
actual. En este caso las reflexiones sobre el estatus profesional, y la formación que deben tener
los profesionales de la información, eran más necesarias que en otros campos, pues tan sólo
existimos desde hace poco más de diez años como estudios universitarios, y de los planes de
estudio iniciales podemos decir que nacieron ya muy limitados y con pocas perspectivas de
futuro.
Hemos de reconocer que estos planes Ilevaban a los futuros bibliotecarios a considerar
que su formación estaba integrada fundamentalmente por el conocimiento de los procesos
técnicos que se realizan en las unidades de información (catalogación, clasificación...). Mientras
tanto, aspectos básicos como la tecnología de la información, apenas tenían presencia, y otros
conocimientos que hoy consideramos como núcleo de nuestra actividad profesional no existía
en los planes de estudio que acabamos de abandonar.
Si tenemos presente que, a la reforma de los pIanes de estudio de la Diplomatura, hay
que sumar la puesta en marcha de los estudios de segundo ciclo -Licenciatura, deberemos
reconocer que, en un breve plazo de tiempo, se han consolidado todos los niveles académicos
que la Universidad puede otorgar (diplomatura, licenciatura y estudios de doctorado). El
panorama que se nos presenta es, por consiguiente, alentador, pero también es amplia la
responsabilidad que adquirimos ante la sociedad, pues se trata no sólo de mejorar la
Diplomatura, sino que además hay que desarrollar la Licenciatura para después consolidarla. El
gran objetivo es la formación de unos profesionales que sean capaces de partir de su
aprendizaje universitario para lograr una gestión de Ias unidades de formación que las convierta
en un auténtico servicio a la sociedad, en una época en la que la información adquiere cada vez
más importancia.
Es evidente que, si analizamos nuestra profesión desde la perspertiva de la situación
española. las tareas que nos quedan por desarrollar son ingentes, pues hemos de reconocer
que se carece de imagen ante la sociedad, los servicios que prestamos son invisibles para la
mayoría de los ciudadanos, la Administración no sabe qué hacer con las bibliotecas y parece
seguir la política de la rutina antes que diseñar y ejecutar auténticas políticas de información. Y,
por si esto fuera poco, las bibliotecas tampoco suelen rendir cuentas de los servicios que
prestan o de los resultados que obtienen, ni ante Ia institución de las que dependen, ni ante la
sociedad que las financia.
Algunos de los problemas detectados están relacionados con problemas formativos, y
esto es lo que pretenden subsanar los nuevos planes de estudio. En éstos
hay un gran aumento de los créditos dedicados a la tecnología de la información y aparecen
nuevas disciplinas, como las relacionadas con las técnicas cuantitativas de evaluación y
análisis. Se va a dar una nueva visión de la profesión en la que se pretende pasar del
profesional que aplica unas herramientas de forma rutinaria a la
nueva concepción d- profesional como experto en recuperación de información gracias a sus
conocimientos en tecnología- v que además conoce y sabe aplicar técnicas cuantitativas que le
permitirán analizar demandas y evaluar resultados.
Se trata de superar la concepción del profesional como mero ejecutor de tareas de
proceso técnico bibliotecario y ampliar sus funciones Ilegando a ser un experto en recuperación
de información y en realidades como Internet. Todo esto se debe a la nueva situación que se
crea en las bibliotecas con la aparición de usuarios que realizan demandas informativas que no
pueden ser satisfechas por las unidades de información tradicionales.
Pensamos que actualmente nuestra profesión no puede definirse solamente como
intermediaria entre los usuarios y la información, máxime cuando gran número de aplicaciones
están pensadas para el usuario final. Tener esta visión tan estrecha, aunque en nuestro país
esté por desarrollar, nos Ilevará más temprano que tarde a un callejón sin saIida. Tenemos que
plantearnos una concepción más amplia, y también una formación más variada, en la que
además de asumir la recuperación de información, estemos obligados a conocer y desarrollar
nuevas herramientas. Entre éstas las técnicas cuantitativas ocupan un lugar importante.
Hay que dar un nuevo paso y admitir que las técnicas cuantitativas son esenciales en
nuestro campo por múltiples razones: una buena gestión de los centros va a necesitar
plantearse el cumplimiento de metas y objetivos, conocer el grado de cumplimiento de los
mismos, elaborar nuevos objetivos, justificar el servicio que se presta, saber qué resultados se
producen con los recursos empleados, cómo se pueden dar más y mejores servicios con los
mismos recursos, etc.
Estos puntos sólo los podremos Ilevar a la práctica si los bibliotecarios saben evaluar
sus centros y, para realizar esta evaluación, será necesario, entre otros aspectos, una
formación específica en disciplinas como la estadística aplicada y la bibliometría. También e:
personal con responsabilidades ejecutivas tendrá que basar su toma de decisiones en algo más
que su olfato bibliotecario, y, para ello, los procesos de evaluación serán una herramienta
inapreciable. Igualmente, en la justificación del servicio que se presta, el más eficaz de acuerdo
con los recursos empleados, necesitará el bibliotecario ser capaz de procesar los datos que
genera la biblioteca e interpretar los resultados, y así demostrar que la gestión del centro es de
calidad.
La visión que estamos proponiendo del nuevo profesional es el perfil de alguien que
resuelve problemas y, para solucionarlos, necesitara dominar dos conjuntos de conocimientos:
reclcperación de información y tecnicas cuantitarivas. Estos problemas los podemos englobar
en dos grandes apartados: por un lado, los problemas de acceso a la información por parte de
los usuarios, en este caso su capacidad de manejar y conocer ]as herramientas de
recuperación de información y ]as fuentes mismas serán decisi~as; por otro lado, tendrá que
abordar los posibles problemas de gestión demostrando su capacidad para cuantificarlos y
proponer soluciones.
Por extensión, este planteamiento nos Ileva a decir que la enseñanza / aprendizaje de
nuestra profesión en los niveles universitarios, debe tener como base la solución de problemas.
Si el profesional de la información es alguien que soluciona problemas es Iógico pensar que su
formación se puede plantear en base a su identificación, descripción, análisis,
conceptualización y resolución.
Si estamos hablando de resoIver problemas de forma objetiva es evidente que el
lenguaje de formulación no puede ser otro que el matemático y la cuantificación tiene que ser,
igualmente, la base para la solución. Lo que estamos diciendo es que el avance de nuestra
disciplina será sólido en tanto que seamos capaces de matematizar, de plantear los problemas
y sus soluciones con base cuantitativa. Este es el reto que actualmente tenemos que afrontar.
Si vamos abandonando el nivel intuitivo en el que hoy principalmente se mueve nuestra
profesión, y pasamos a describir matemáticamente los procesos informativos, estaremos en
condiciones de Ilegar a situaciones que hoy están muy lejos de alcanzarse. Nos estamos
refiriendo a la capacidad de generar modelos.
A partir del análisis de los datos obtenidos de la realidad podremos generar modelos que
nos expliquen esos datos, es decir, estaremos en condiciones de conocer comprender de forma
objetiva los procesos que se desarrollan en las bibliotecas.
Estos modelos, una vez demostrada su validez empírica, nos permitirán predecir
situaciones, con lo que podremos adelantarnos a los problemas. Si podemos definir modelos
dispondremos de una potente herramienta en los procesos de toma de decisiones, pues
podremos simular (que pasaría si...) los procesos y ver sus resultados antes de Ilevarlos a la
práctica.
Igualmente tener modelos nos permitirá realizar predicciones, y estas. una vez que se
demuestren universales, nos Ilevarán a formular leyes, lo que nos acerca a poder elaborar
teoría. Es evidente, que en un campo como el nuestro, el hecho de que podamos contar con
herramientas que nos permitan plantear procesos teóricos, experimentarlos, contrastarlos y
demostrarlos nos abre un camino Ileno de posibilidades. Estaríamos dando un salto hacia
nuevos contenidos científicos en nuestro ámbito.
A las actividades que ya desarrollamos en las unidades de información. proceso técnico
y recuperación de información, debemos sumar los puntos que acabamos de tratar, como
justificación de la gestión, mejora de la calidad, aplicar y, si es posible, desarrollar modelos que
nos expliquen Ia realidad bibliotecaria.
En la medida en que avancemos en esta Iínea estaremos en condiciones no sólo de que
la sociedad nos conozca, sino que nos reconozca, es decir que los ciudadanos vean y aprecien
la función de las unidades de información y la labor de sus profesionales. Y de esta forma
nuestra profesión mejorará su estatus.
Las reflexiones que anteceden son las conclusiones que podemos extraer del proceso
de elaboración de los planes de estudio, en la Universidad de Granada. Una vez Ilegados a
este punto comprobamos que en España apenas existe material tanto para los estudiantes
como para los profesionales, que nos permita trabajar en esta Iínea. La constatación de este
hecho fue lo que nos animó a escribir este libro. Pretendemos que el lector comprenda, y pueda
aplicar, una serie de herramientas que en el libro se proponen. Estas herramientas están en la
línea de lo anteriormente comentado, y deseamos que el lector, -bibliotecario, documentalista o
estudiante-, pueda extraer de ellas la potencialidad que nosotros creemos que poseen.
Como puede observarse, el libro se divide en ocho apartados en los que se pueden
diferenciar claramente dos partes: la primera gran parte está formada por los cinco primeros
capítulos y forman una unidad pues son claramente apartados dedicados a la estadística. En
estos capítulos el aprendizaje esta relacionado con el orden secuencial de los mismos.
El primer capítulo está dedicado a la Estadística descriptiva, es decir a describir los
datos, en el estudiamos las medidas de centralización y de dispersión. El segundo capítulo está
dedicado a los Modelos de distribución de la probabilidad, en el que primero hacemos una
introducción a la probabilidad, para después estudiar los distintos modelos de distribución de la
misma.
Una vez conocidos los modelos de distribución de probabilidad podemos empezar el
tratamiento de datos, para lo cual estudiamos los distintos muestreos probabiIísticos como
herramientas válidas para el análisis de datos que nos permitan hacer inferencias sobre la
población. También en este tercer capítulo vemos Ias estimaciones que podemos realizar: por
tanto, al Ilegar a este punto estamos en condiciones de poder aplicar la inferencia estadística,
que nos permitirá, a partir de los datos recogidos de muestras probabilísticas, realizar
inducciones sobre la población a la que pertenecen los datos muestrales.
El capítulo cuarto está dedicado a las pruebas estadísticas. en el que principalmente
estudiamos cómo podemos aceptar o rechazar hipótesis.
El último apartado de esta primera gran parte lo dedicamos a Ia correlación y regresión,
en el que veremos cómo relacionar dos variables, pues en el apartado dos los modelos de
distribución de la probabilidad nos permiten estudiar una sola variable.
Una vez vistos estos cinco apartados, que ya hemos dicho son eminentemente
estadísticos, el lector estará en condiciones de aplicar a nuestro campo las grandes
prestaciones que estas herramientas estadísticas nos proporcionan.
El sexto apartado está dedicado a los indicadores bibliotecarios. y aunque mantiene
relaciones con lo ya visto, puede leerse y aplicarse por separado respecto de los capítulos
anteriores. En este epígrafe hemos desarrollado una serie de indicadores que pensamos son
útiles en las tareas de evaluación y toma de decisiones en bibliotecas.
En el capítulo siete desarrollamos los dos tipos de aplicaciones informáticas, hojas de
cálculo y paquetes estadísticos que se utilizan con más frecuencia para el tratamiento de datos.
Finalmente en el capítulo ocho, a partir de una serie de datos bibliotecarios y utilizando
técnicas cuantitativas. realizamos, un tratamiento de estos datos. Este apartado pretende ser un
ejemplo de cómo el tratamiento cuantitativo de estos datos permite un amplio conocimiento de
los fenómenos y procesos que se dan en las bibliotecas.
Como podrá observar el lector todos los conceptos que desarrollamos en el libro están
acompañados de ejemplos, pues pensamos que de esta forma es mas fácil su comprensión. En
algunos cálculos también se puede observar que, al realizarse con el programa estadístico
Statistica, son más precisos de lo que se explica en el texto.
Por último el lector comprobará Que algunos de los capítulos del libro van acompañados
de problemas, y pensamos qué, para una mejor comprensión de lo que se está exponiendo es
importante la solución de estos ejercicios.
Esperamos y deseamos que el material que hemos desarrollado para el presente libro
permita a los profesionales de la información contar con nuevas herramientas a la hora de
desarrollar su trabajo.
Moya Anegón, Félix, López Gijón, Javier, García Caro, Concepción. Técnicas
cuantitativas aplicadas a la biblioteconomía y documentación -- Madrid : Síntesis,
1996. 174 p.
CAPITULO 1
DESCRIPCIÓN DE DATOS
ESTADíSTICA DESCRIPTIVA
Con la estadística descriptiva lo que pretendemos hacer es un resumen de los datos,
es decir extraer de ellos la información que consideramos más relevante.
Este resumen de las observaciones será el primer paso para después poder realizar
inferencias, que es el objeto de la estadística inductiva o inferencial. La estadística
descriptiva, por tanto, solo se ocupa de resumir (describir) la muestra estudiada las
observaciones realizadas, y no establece relación alguna con la población a la que
pertenece la muestra.
Como veremos más ampliamente en el apartado de muestreo (3.1) las
observaciones se pueden hacer sobre el total de los posibles valores de la variable, en este
caso estaríamos trabajando con la población, o, por el contrario, si lo que tenemos es un
conjunto representativa de elementos de una población, estaríamos trabajando con una
muestra.
1.1. Medidas características de una distribución
1.1.1. Medidas de tendencia central
Si disponemos de un conjunto de datos homogeneos de una variable cuantitativa les
podemos aplicar ciertas medidas de resumen, pues, como acabamos de ver, la estadística
descriptiva nos permite representar o resumir las características fundamentales de un
conjunto de datos no analizados.
A estas medidas se les Ilama de centralización porque nos sirven para representar el
valor medio de los datos, es decir, el valor que refleja el tamaño del dato más esperado. Ello
nos indica la posición en la que se encuentra el centro de los datos y por eso se denominan
medidas de tendencia central. Las medidas de centralización más utilizadas son la media, la
mediana y la moda.
EJEMPLO
Una biblioteca quiere conocer el tiempo medio que tardan los proveedores en
suministrar las peticiones que la biblioteca les hace, con la idea de conocer tanto el tiempo
medio en que se sirven los pedidos, como los proveedores que superan ampliamente esta
media. Para ello cuenta con el tiempo en días que los proveedores han tardado en
suministrar distintos pedidos, que son los que aparecen en el gráfico adjunto. Los días que
cada proveedor (P1..P15) ha tardado en suministrar un pedido son los valores que adquiere
la variable x. Y el número de proveedores analizado (15) es n.
Por tanto, diez días es el tiempo medio que tardan en suministrar los pedidos. Si
representamos gráficamente estos resultados (véase gráfico adjunto) vemos que en los diez
días, que es la media, hemos trazado una Iínea y se ve clararamente qué proveedores
tardan más o menos tiempo en función de la media. Con lo que la biblioteca estaría en
condiciones de tomar las decisiones que considere oportunas con respecto a los
suministradores más lentos.
1.1.1.2. Mediana
La mediana es un número tal que, si ordenamos los datos de forma creciente o
decreciente, cumple la condición de ser mayor que una mitad y menor que la otra.
Es decir, es el valor que divide la distribución en dos partes iguales. Si el número de
los casos es impar la mediana es el valor central, si el número de casos es par la mediana
será la media de los dos valores centrales. Por tanto si n es impar la mediana será el dato
(n+1)/2. Si el número de datos es par la mediana se encontrará en el centro entre el dato n/2
y (n+2)/2 y como ya hemos dicho entonces la mediana se obtiene al calcular la media de
estos dos valores centrales.
EJEMPLO
Una biblioteca que hace adquisiciones de libros antiguos quiere saber el tiempo que
tardan los proveedores (P1..P15) en suministrarles los pedidos, para hacerlo constar en su
informe anual sobre la biblioteca Y para ello quiere calcular la mediana. Los días que tardan
los proveedores son:
Como el número de proveedores es impar (15) la mediana se encontrará en el lugar
(15+1)/2=8, Y vemos que el valor del lugar octavo es 30, que es el valor de la mediana
(véase gráfico y tabla adjuntos). Treinta días es el valor mediano que tardan los proveedores
en suministrar los pedidos.
1.1.3. Moda
La moda de una distribución es el valor más frecuente. Si los datos de la distribución
están agrupados, la moda es el punto medio del intervalo que contiene el mayor número de
frecuencias.
Una distribución de observaciones puede no tener moda, es decir ningún valor de la
distribución aparece con más frecuencia.
EJEMPLO
Una biblioteca especializada tiene recogido el tiempo en días que tardan los usuarios
(U1..U15) en devolver los préstamos. Y para ajustar la política de préstamos al tiempo real
que tardan los usuarios quiere calcular la moda de los tiempos de demora. Los tiempos en
días que han tardado los distintos usuarios en devolver los préstamos son:
Como hemos visto la moda es el valor más frecuente. Y podemos observar que este
valor es 2, dos días, por tanto, podría ser el plazo idóneo de préstamo para esta biblioteca
(véase gráfico adjunto).
También puede darse el caso de que dos valores tengan la misma frecuencia,
entonces podemos encontrarnos con una moda que no es única, es decir una distribución
con dos modas, a la que llamamos bimodal. Cuando nos encontramos con una distribución
bimodal podemos interpretar que no existe suficiente homogeneidad en la población, y de
cara a su estudio podría ser conveniente subdividirla.
Una biblioteca pública tiene recogido el número de personas que han asistido a los
24 actos de extensión cultural que ha organizado durante el último año, con vistas a realizar
un estudio sobre las actividades de animación que realiza el centro.
Los datos de asistencia a los actos son:
Si se observa esta distribución se ve que es bimodal (en 58 y 32 con una frecuencia
de 2), luego pueden existir dos grupos distintos de asistentes. Revisados los datos, se
constata que están agrupados todos los actos que organiza la biblioteca, pero sin embargo
hay actividades para adultos y para jóvenes y, si se desagregan, la moda de los actos para
jóvenes es de 58 y para adultos es de 32, por lo que se debe considerar que es preferible
estudiar por separado los actos para adultos de los organizados para jóvenes, pues parece
observarse comportamientos distintos en ambos, grupos.
1.1.1.4 Cálculo de la media de datos agrupados
A veces necesitamos calcular la media de una distribución de frecuencias en la que
los datos están agrupados en intervalos. En este caso la fórmula que debe aplicarse es :
EJEMPLO
Una biblioteca tiene un registro del número de documentos que cataloga y del tiempo
que tarda: en el intervalo de 5 a 9 minutos se han catalogado 10 documentos, 25
documentos han tardado en ser catalogados de 10 a 14 minutos, 15-19 minutos es el tiempo
que se ha tardado para 31 documentos, 12 documentos se han catalogado entre 20 y 24
minutos, de 25 a 29 minutos se ha necesitado para catalogar 8 documentos, y por último
para catalogar 10 documentos se ha necesitado de 30 a 34 minutos. A partir de estos datos,
la biblioteca quiere conocer el tiempo medio que tarda en catalogar. Para ello podemos
construir una tabla, como la siguiente, que nos facilite el cálculo:
EJEMPLO
Una biblioteca tiene recogido los precios del material que adquiere: 3 documentos
han costado entre 1 y 500 pesetas, el precio de 13 ha oscilado entre 501 y 1.000, entre
1.001 y 1.500 pesetas se han adquirido 25 documentos, 20 han tenido un precio entre 1.501
y 2.000, el precio de 18 documentos se encuentra comprendido entre 2.001 y 2.500 pesetas,
entre 2.501 y 3.000 se han adquirido 20 documentos y por último 11 han tenido un precio
que oscilaba entre 3.001 y 3.500. A partir de estos datos la biblioteca quiere conocer el
precio mediano de los materiales que adquiere.
Para realizar este cálculo podemos construir una tabla como la siguiente:
Para conocer el límite inferior del intervalo que contiene la mediana (I), dividiremos el
número total de observaciones por dos, 110/2=55, la mediana se encontrará en el intervalo
que tenga la frecuencia acumulada más cerca de 55, que es el intervalo 1.501-2.000 (tiene
una frecuencia de 61), el límite inferior es por tanto 1501. n es la frecuencia total, que como
vemos en la tabla es 110. F es la frecuencia acumulativa que corresponde al Iímite inferior
que contiene la mediana, que es 41. El número de casos del intervalo que contiene la
mediana Ct) es 20 y ia amplitud del intervalo que contiene la mediana (i) es 500.
Por tanto si sustituimos estos valores en la fórmula
Luego el precio mediano del material que adquiere esta biblioteca es de 1.851
pesetas.
1.1.1.6. Comparación de la media y la mediana
Tanto la media como la mediana son, como hemos visto, medidas de centralización,
pero sin embargo, y según los casos, una puede ser más útil que otra a la hora de dar
información sobre los conjuntos de datos. Para saber cuando puede ser más útil aplicar una
u otra, vamos a ver algunas diferencias entre estas medidas.
Para calcular la media utilizamos todos los datos, sin embargo para la mediana esto
no sucede. Al utilizar todos los datos para el cálculo de la media ocurre que si hay valores
extremos la media se verá bastante afectada, por el contrario la existencia de valores
extremos afecta muy poco a la mediana.
En el ejemplo que hemos visto para la media el resultado era 10, si calculamos la
mediana de ese ejemplo también nos da 10. Sin embargo en el ejemplo de la mediana
vemos que su valor es 30, pero si calculamos la media nos da 37.53.
Con estos ejemplos se puede ver que cuando hay más casos extremos en una
dirección que en otra (distribución con gran asimetría) la mediana será más apropiada que la
media. Y por eso, en el caso de la biblioteca que quiere conocer el tiempo que tardan en
suministrarle los libros antiguos para incluirlo en su informe anual debido a que se dan
valores extremos, es más apropiado el cálculo de la mediana que de la media.
También hay que tener presente, aunque no es objeto de estudio en este libro, que
para utilizar la media necesitamos una escala de intervalo. Sin embargo, la mediana se
puede utilizar tanto en las escalas de intervalo como en las ordinales.
1.1.2. Medidas de dispersión
El conjunto de técnicas que se describen a continuación se utilizan para medir el
grado de dispersión que existe en la distribución de los valores de cualquier variable objeto
de estudio.
Para tener un conocimiento precise sobre un conjunto de datos, no basta con
conocer las medidas de tendencia central -media, moda y mediana- estudiadas en el
apartado anterior, pues, como ya se ha visto, sólo se ocupan de medir un aspecto de ese
conjunto de datos. Se necesita también conocer lo contrario: la dispersión que presentan los
datos en su distribución, con objeto de tener una visión de los mismos más acorde con la
realidad a la hora de describirlos e interpretarlos.
Existen muchas formas de medir la dispersión en la distribución del conjunto de
valores de una variable. Las más usadas son: el recorrido o amplitud, la desviación media, la
varianza y la desviación típica.
1.1.2.1 EL recorrido o amplitud
Esta es la medida de dispersión más simple, pues para determinarla no se necesita
cálculos sofisticados, sólo hay que hallar la diferencia existente entre el valor mayor y el
menor de los que toma la variable objeto de estudio.
Esta forma de medir la dispersión presenta un problema, y es que suele ser común
que en algunas distribuciones aparezcan valores extremos, que no siendo los más
frecuentes con respecto al conjunto sean únicamente éstos los que determinen el valor de la
amplitud sin importar nada los valores intermedios, que serán la mayoría. Es decir, se tienen
sólo en cuenta los valores menos comunes de la variable, y el resultado puede no ser
representativa del conjunto, si éstos son atípicos con respecto a los valores intermedios.
EJEMPLO
Supongamos que una biblioteca hace varios meses que ha puesto en funcionamiento
un Sistema Integrado de Gestión Bibliotecaria. Al mismo tiempo, ha conseguido hacer la
conversión retrospectiva en un breve plazo de tiempo y quiere conocer cuanto tardan los
usuarios en encontrar la información que desean usando el catálogo automatizado en lugar
del tradicional catálogo manual, al que estaban acostumbrados. Para ello, los responsables
de la biblioteca se han dedicado a medir, durante una serie de días, lo que tardan los
usuarios en hacer las búsquedas. Los resultados obtenidos están en la siguiente tabla, en la
que podemos ver el tiempo consumido por los usuarios y a su lado el número de éstos
contabilizado en cada rango temporal. Estos mismos datos están representados en la figura
adjunta, que nos permite un mejor análisis de la distribución de los resultados del estudio.
En el gráfico podemos observar cómo hay pocos usuarios que tardan pocos minutos
y también pocos usuarios que tardan muchos minutos, estando situados la mayor parte de
ellos en los tiempos intermedios. Pues bien, el recorrido o amplitud de los valores que toma
la variable minutos va desde 30. que es el máximo tiempo que se ha observado que tarda
un usuario, a 1 minute, que es el tiempo mínimo, por lo tanto la amplitud es de 30-1.
También lo podríamos expresar mediante el resultado de esta sustracción, es decir, el
recorrido es de 29 minutos, pero citándolo fuera de contexto puede inducir a error pues la
misma cifra podría referirse a un recorrido distinto. Por ejemplo, entre 44 y 15 minutos
también hay una amplitud de 29.
En resumen, la amplitud es una forma muy simple de medir la dispersión de los
valores de una variable y es fácil de calcular porque sólo tiene en cuenta los valores
extremos de la misma, por lo que siempre se debe usar citando cuáles son esos valores.
Por otro lado, al ser una medida tan simple sólo indica la dispersión de forma bruta y su uso
se recomienda únicamente cuando se necesita una forma rápida de medir la dispersión
pues se puede calcular a simple vista.
1.1.2.2. El recorrido intercuartílico
Es una variante del recorrido que se usa cuando los datos presentan valores
máximos y/o mínimos muy extremos con respecto a los intermedios y se tienen en cuenta
sus frecuencias. En estos casos no es conveniente usar la amplitud para medir la dispersión
sino el recorrido intercuartílicolico.
Para calcularlo, primero se dividen las frecuencias en cuatro partes iguales, siendo
los valores que separan cada una de las partes los Ilamados cuartiles (Q1, Q2 y Q3) y, a
continuación, se halla la diferencia entre el valor del cuartil tercero (Q3) y primero (Q1l),
entre los que estarán el 50% de las frecuencias de la variable, obviando así el problema que
presentaba la amplitud, al tener también en cuenta los valores extremos.
EJEMPLO
El tiempo de duración de las consultas al bibliotecarios de referencia que realizan los
usuarios de una biblioteca universitaria, cuando tienen dificultades para localizar un
documento, se reflejan en la tabla adjunta, y se representan en el gráfico siguiente.
Se han dividido las frecuencias de la variable minutos en cuatro partes, cuyos límites son los
tres cuartiles, teniendo cada uno un tamaño del 25% de las frecuencias. El recorrido
intercuartllico mide la distancia entre el tercer cuartil y el primero, en este caso el se sitúa en
5, y Q3 en 8 minutos. Ambos puntos están señalados en el margen derecho del gráfico
El recorrido intercuartllico en este caso va de 8 a 5 minutos, una diferencia de 3
minutos. Igual que en el caso anterior, es mejor citarlo en su contexto:
e3 - el = s - 5 = 3
Como se puede observar, la mayoría de los usuarios están situados entre ambos
valores, es decir, el bibliotecarios de referencia dedica entre 5 y 8 minutos a resolver
problemas de búsqueda de información que los usuarios no han podido resolver por sí
mismos. Si nos fijamos en el gráfico, el rectángulo central representa el área del 50% de las
frecuencias que mide el recorrido intercuartllico, mientras que la línea vertical representa la
amplitud que en este caso sería igual a 12-1; en el eje vertical izquierdo están representados
los minutos. Queda claro pues, que no se han tomado en consideración valores extremos de
la variable, lo que permite una visión de la dispersión más ajustada a la realidad de los
datos.
Del mismo modo, si aplicamos el método del recorrido intercuartllico al ejemplo
anterior -tiempo que tardan los usuarios en consultar el catálogo-, y dividimos las
frecuencias en cuartiles, el estaría situado en 8 minutos y Q3 en 16 minutos:
Q3 - Q1 = 16 - 8 = 8
Es decir, el 50% de los usuarios estarían entre 8 y 16 minutos consultando el
catálogo.
Aunque el recorrirdo intercuartllico no está sujeto a la influencia de posibles valores
atípicos, no hay que olvidar, a la hora de la interpretación del resultado, que no está
teniendo en cuenta las frecuencias de los valores extremos de la variable. Esto quiere decir
que no tendría sentido usar esta medida de dispersión si la mayoría de los sucesos
observados se encontraran uniformemente repartidos entre todos los valores de la variable o
en los valores extremos de la misma.
En resumen, para conocer de forma rápida cuál es el grado de dispersión del
conjunto de valores de una variable, se usará la amplitud cuando en los valores extremos de
la misma haya frecuencias considerables o éstas estén repartidas de forma homogénea
entre todos los valores, y si, por el contrario, éstos presentan valores máximos y/o mínimos
muy extremos y en ellos sólo se encuentran frecuencias muy bajas, se debe utilizar el
recorrido intercuartnico.
1.1.2.3. La desviación media
La desviación media es una medida más compleja que las anteriores para conocer el
grado de dispersión de los valores de una variable, y además resuelve los problemas que
hemos observado en las medidas anteriores, pues para su cálculo se tienen en cuenta todos
los valores de la misma.
Indica la diferencia media que existe entre todos los valores de una variable y la
media de la misma. Se calcula hallando la diferencia de cada valor de la variable con
respecto a la media aritmética, a continuación se suma el resultado de estas diferencias
considerado como valor absoluto se divide por el número de observaciones.
El valor absoluto de un número es el valor que representa sin tener en cuenta el
signo positivo o negativo, que le acompaña. Si se hicieran los cálculos respetando el signo,
es decir, unas veces sumando y otras restando el valor de cada variable con respecto a la
media, el resultado sería siempre 0, ya que las diferencias positivas se compensarían con
las negativas. Hay dos soluciones para que esto no ocurra. La primera es ignorar el sjgno
esto es, el valor absoluto, -se representa con barras verticales que es lo que hace la
desviación media. La otra solución es elevar al cuadrado el resultado de las diferencias, que
es lo que hacen, como veremos más adelante, la desviación típica y la varianza.
EJEMPLO
Supongamos que dos universidades -A y B-, consideradas representativas de las
universidades de un determinado territorio, de los presupuestos destinados a las bibliotecas
de los distintos centros de enseñanza que las componen, dedican una media de 2.000 ptas
por alumno (x = 2.000) para la adquisición de fondos bibliotecarios, aunque cada una de
ellas los distribuye de distinta manera.
En la primera columna de ambas tablas están los nombres de los distintos centros y
en la segunda los valores que toma la variable x -pesetas por alumno- en cada centro de la
universidad A y de la B. En la tercera columna está el valor absoluto de la diferencia de cada
valor que toma la variable con respecto a la media. Si sumamos los valores de la tercera
columna de cada universidad y los dividimos por el número de observaciones, n, tendremos
la desviación media de la universidad A y de la B. Estos mismos datos están representados
en un diagrama de barras en la figura adjunta, en donde se pueden ver gráficamente estas
diferencias en la asignación del presupuesto entre las bibliotecas de las distintas facultades,
aunque como ya se ha dicho en el enunciado del ejemplo, ambas universidades dedican de
media 2.000 ptas por alumno.
La DM(A) 600 y la DM(B) 1.800 nos indican que los valores de la variable en la
universidad A están más uniformemente repartidos que en la universidad B. Al mirar el
gráfico se puede observar que la universidad B le está dando más dinero, por lo tanto más
importancia, a las bibliotecas de las facultades de Económicas y Políticas que a las demás.
Mientras que la universidad A reparte el presupuesto de forma más igualitaria. Es decir la
dispersión de los valores de la variable en la universidad B es tres veces mayor que la de la
A. Luego, en la universidad B los valores están tres veces más disperses con respecto a la
media que en la A.
Si se hubiera analizado el caso sólo con el dato de la media, habríamos concluido
que ambas universidades dedican la misma cantidad a la compra de fondos bibliográficos en
relación con el número de alumnos. Esto es verdad, pero utilizando la desviación media para
conocer la dispersión, se comprueba que el resultado para las bibliotecas de cada una de
las facultades no es el mismo.
Por lo tanto, la interpretación de la desviación media es la siguiente: mientras mayor
sea su valor, mayor será la dispersión existente en la distribución de los valores de la
variable y viceversa.
Aunque como se ha visto, la desviación media es una medida de dispersión más
eficaz que el recorrido y con fines puramente descriptivos puede ser útil, no es, sin embargo,
la medida más utilizada para conocer el grado de dispersión de los valores de una variable.
Esta suele ser la desviación típica porque se puede interpretar más fácilmente en términos
de la distribución normal.
1.1.2.4 La varianza
La desviación típica o desviación estándar y la varianza son las medidas de
dispersión más utilizadas debido a que tienen aplicación en otras funciones estadísticas más
complejas.
La varianza se define como el valor medio, elevado al cuadrado, de las diferencias
de cada valor de la variable con respecto a la media aritmética y su fórmula es la siguiente
en el caso de la varianza de la población:
z
La varianza se utiliza más en la estadística inferencial que en la puramente descriptiva
para calcular el grado de variación entre distintas medias extraídas de las muestras.
Además, hay un conjunto de pruebas estadísticas, conocido por Ias siglas ANOVA (ANalysis
Of VAnance)- basadas en la varianza; para diseñar experimentos complejos y para análisis
de datos a un nivel más alto que el propósito de este libro.
1.1.2.5. La desviación típica
A cada medida de centralización podemos asociar una medida de la variabilidad de
los datos respecto a ella, a la media le asociamos la desviación típica que se puede definir
como la raíz cuadrada de la varianza, o en otras palabras, la raíz cuadrada de la media
aritmética de las diferencias de cada valor respecto a la media elevada al cuadrado.
Tanto la desviación típica como la varianza son similares a la desviación media, en el
sentido de que miden la diferencia de cada valor de la variable con respecto a la media
aritmética, pero lo hacen de modo distinto, ya que no usan el valor absoluto de cada
diferencia, sino que elevan al cuadrado el resultado de la misma, como ya dijimos
anteriormente.
La desviación típica es un tipo de promedio de las desviaciones de los puntos
respecto a su media. Aunque la forma de calcularla es la misma si trabajamos con datos de
la población o con datos de una muestra, el símbolo de la desviación típica es distinto, s si
los datos con los que estamos trabajando proceden de una muestra de la población y V si
los datos proceden de la población.
EJEMPLO
Supongamos que las bibliotecas de los distintos centros de las universidades A y B
del ejemplo anterior han realizado una encuesta a los usuarios para conocer el grado de
satisfacción de los mismos con respecto al servicio que prestan. La valoración global que
han merecido cada una de las bibliotecas de los centros de ambas universidades está
expresada por un valor comprendido entre 1 y 10, donde 1 significa la máxima valoración
negativa y 10 la satisfacción máxima con respecto al servicio de la biblioteca. Los resultados
son los siguientes:
En la columna primera de ambas tablas, como en el ejemplo anterior, están los
nombres de los centros de las universidades A y B. En la segunda columna los valores que
toma la variable x para cada centro, en este caso la valoración global de cada facultad hacia
su biblioteca. En la tercera columna están las diferencias ente el valor que toma la variable
en cada una de las facultades con respecto a la media.
Como se puede observar, aquí no se ha obviado el signo resultante, es decir, no se
ha tomado el valor absoluto de la diferencia década variable con respecto a la media como
en el cálculo de la desviación media. En la cuarta columna están las diferencias del valor de
cada variable con respecto a la media elevadas al cuadrado. A continuación se suman los
resultados de la cuarta columna y se dividen entre 5 que es el número de observaciones
(n), al resultado de esta división se le calcuIa la raíz cuadrada y obtenemos la desviación
típica. Para una mejor comprensión de los datos, éstos están representados en forma de
diagrama de barras en la figura adjunta, junto con el valor de la media de ambas
universidades que nuevamente vuelve a ser la misma para las dos, en este caso 6.
Si se relacionan los resultados de la desviación media del ejemplo anterior, y de la
desviación típica para interpretar los datos, se podría decir que, dado que la universidad A
reparte de forma más uniforme el presupuesto entre sus bibliotecas, también son más
uniformes las opiniones de los usuarios de las mismas en cuanto al nivel de satisfacción. En
cambio, en la universidad B el presupuesto asignado a cada centro varía mucho y, por lo
tanto, el grado de satisfacción también, puesto que en el centro que más dinero se recibe
para la compra de fondos bibliográficos, es razonable suponer que sus usuarios estarán
más satisfechos porque tendrán más posibilidades de encontrar los documentos que les
interesan. Esto no quiere decir que en el grado de satisfacción de los usuarios de la
bibliotecas influya únicamente el presupuesto asignado a la compra de fondos; sólo
podemos deducir que es un factor que influye, junto con otros factores que no han sido
estudiados en estos ejemplos.
1.1.2.6. Desviación típica de frecuencias
Debido a que la mayoría de las veces necesitaremos conocer la desviación típica
de una distribución de frecuncias más que la de un conjunto de valores de una variable,
pasamos a continuación a analizar la forma de obtener la desviación típica en una
distribución de frecuencias.
La fórmula para calcularla es la siguiente:
EJEMPLO
Una biblioteca desea estudiar la circulación de documentos por usuario y años; para
lo ha tomado una muestra de préstamos, y con ella ha construido la distribución que se
representa en la siguiente tabla. En la primera columna están los datos de la variable x
(número de préstamos), en la segunda columna las frecuencias (f) número de usuarios que
reciben en préstamo x documentos, en la tercera columna el valor de la variable x elevado al
cuadrado y en la cuarta columna la frecuencia multiplicada por el valor de la variable al
cuadrado fx':
La desviación típica de esta distribución de frecuencias es 3.98. De donde se
concluye que siendo el número medio de documentos prestados por usuario de 10.31, la
mayoría de los usuarios actives de la biblioteca se Ilevan entre 10.31+3.98 préstamos y
10.31-3.98 préstamos.
La interpretación de la desviación típica y de la varianza es la misma que la de la
desviación media: cuanto mayor sea su valor, mayor será la dispersión de la distribución de
los valores de la variable con respecto a la media.
En los siguientes capítulos se verá la importancia de la desviación típica en otras
técnicas estadísticas, por ejemplo en cualquier estudio sobre una distribución normal. Es,
además, un concepto esencial en la teoría del muestreo y en la utilización de varias pruebas
estadísticas.
1.2. Problems
1) Una biblioteca tiene recogido el tiempo que tardan los usuarios en consultar el catálogo
en Iínea, que es el siguiente: entre O y 2 minutos ha sido el tiempo de consulta que han
realizado 15 usuarios, 10 usuarios han tardado de 3 a 5 minutos, de 6 a 8 minutos ha sido l
tiempo que han empleado 6 usuarios y 7 usuarios han empleado entre 9 y 11 minutos.
Calcular el tiempo medio de consulta de los usuarios de esta biblioteca.
2) Una biblioteca tiene registrado el número de personas que han asistido a los 12 actos
culturales que ha organizado, el número de asistentes a estos actos es: 34, 42, 53, 47, 51,
62, 35, 70. 62, 40, 65. Calcular la media, la mediana y la moda.
3) Una biblioteca está haciendo un estudio sobre circulación de materiales en su centro y
tiene recogidos los datos de los años de publicación de los documentos que han circulado.
Estos años son: 1978, 1992, 1988, 1985, 1973, 1980,1990,1994,1864,1995,1954. ¿Qué
medida de centralización cree que debería aplicarse? Justifique la razón de la elección.
4) De una muestra de 20 usuarios se han observado las siguientes frecuencias en el uso de
publicaciones periódicas durante una semana:
PP
0
1
2
3
4
5
6
7
8
Usuarios
3
5
4
2
3
1
0
1
1
Calcular la desviación media de esta distribución.
5) De una base de datos se ha cogido una muestra de 20 registros que tienen los siguientes
puntos de acceso: 3, 3, 5, 6, 8, 2, 4, 3, 4, 5, 2, 4, 3, 4. 2, 5, 6, 3, 4. ¿Qué medida de
dispersión sería más conveniente usar: la amplitud o el recorrido intercuartílico?
6) Tiempo medido en semanas que tardan en llegar al usuario los documentos pedidos en
préstamo interbibliotecario:
Semanas
1
2
3
4
5
6
7
8
Documentos
1
5
9
12
8
6
3
1
Calcular la desviación típica.
Moya Anegón, Félix, López Gijón, Javier, García Caro, Concepción. Técnicas cuantitativas aplicadas a la
biblioteconomía y documentación--Madrid:Síntesis,1996.174p.
2-LA PROBABILIDAD Y SUS MODELOS DE DISTRIBUCIÓN
2.1. La probabilidad
La probabilidad trata de la forma en que usamos el concepto azar en el trabajo estadístico y por
qué debemos utilizarlo. Se aplica a sucesos que impliquen un cierto grado de incertidumbre y
consiste en conseguir una estimación numérica de la posibilidad de que suceda o no suceda un
determinado hecho.
Aunque no existe una definición teórica universalmente aceptada de la probabilidad, la más
sencilla y, por tanto, la más utilizada es: la probabilidad teórica de que ocurra un determinado
suceso es igual al resultado de dividir el número de casos observados con una característica por el
número total de casos:
P = Número de casos con una característica / Número total de casos
En otras palabras, la probabilidad se usa para calcular las posibilidades de que ocurra o no ocurra
un determinado suceso objeto de estudio.
Como en Estadística se trabaja normalmente con datos que provienen de muestras de población
y no con todos los datos de la población, debemos tener en cuenta que al hacerlo así existe el riesgo
de que podamos incurrir en un error, es decir, que la muestra escogida no sea representativa de la
población de la que se ha extraído. Según la teoría de la probabilidad es posible determinar la
probabilidad que existe de error, es decir, qué margen de riesgo se asume al realizar estudios
basados en muestras.
Todas las pruebas estadísticas basadas en hipótesis, a las que se pueden someter los datos de una
muestra, son de naturaleza probabilística y no debemos olvidar que cuando las usamos para aceptar
o rechazar hipótesis estamos sujetos a error.
Aunque muchas veces recurriremos a tablas de probabilidad para verificar o rechazar hipótesis y
no tendremos necesidad de calcularlas, es necesario ser conscientes de lo que significan dichas
tablas, para lo cual es preciso estudiar los principios básicos del cálculo de probabilidades.
2.
1. 1. Propiedades matemáticas de la probabilidad
a) La probabilidad de que un suceso determinado ocurra estará siempre situada entre los
límites 0, que significa la seguridad absoluta de que ese suceso es imposible que ocurra (P(x) = 0),
y 1, que representa la certeza absoluta de que ese suceso ocurrirá (P(x) = l). Luego la probabilidad
de que un suceso x ocurra nunca será mayor que 1 ni menor que 0:
0 < P(x) < 1
b) Según la ley de la suma de la probabilidad, si dos sucesos determinados es imposible que
sucedan a la vez, es decir, son mutuamente excluyentes, la probabilidad de que uno de los dos
ocurra será igual a la probabilidad de uno más la probabilidad del otro:
P(A o B) = P(A) + P(B)
por la misma razón, si dos sucesos son mutuamente excluyentes (P (A o B)) y además son los
únicos posibles, entonces:
P(A) = 1 - P(B) y P(B) = 1 - P(A)
Esta regla también se puede utilizar cuando se trate con más de dos sucesos y sean todos los
posibles:
P(A o B o C o ... F) = P(A) + P(B) + P(C) + ...P(F) = 1
y la probabilidad de que no ocurra el suceso A dentro de todos los posibles (que sería 1) es:
1 - P(A) = P(B) + P(C) + P(D) + ...P(F)
Por otro lado, en el caso de que los sucesos estudiados no fueran excluyentes, es decir, que exista
la posibilidad de que sucedan simultáneamente, la probabilidad de que suceda uno u otro será igual
a la probabilidad del primero más la probabilidad del segundo menos la probabilidad de que
sucedan ambos al mismo tiempo:
P(A o B) = P(A) + P(B) - P(AB)
donde P(AB) es la probabilidad de que sucedan simultáneamente A y B.
EJEMPLO
En una biblioteca universitaria, se dan las siguientes proporciones de distintos tipos de usuarios
activos:
-
profesores (pr) 0.1 - 10%
alumnos de primer ciclo (pc) 0.5 - 50%
alumnos de segundo ciclo (sc) 0.3 - 30%
alumnos de tercer ciclo (tc) 0.1 - 10%
¿Cuál es la probabilidad de que la próxima persona que entre en la biblioteca no sea un
profesor?
Si tenemos en cuenta que son mutuamente excluyentes:
P(pr) + P(pc) + P(sc) + P(tc) = 1 Por tanto:
1 - P(pr) = P(pc) + P(sc) + P(tc) y sustituyendo los valores:
0.1 + 0.5 + 0.3 + 0.1 = 1
1 - 0.1 = 0.5 + 0.3 + 0.1 = 0.9
hay una probabilidad de] 90% de que el próximo usuario no sea un profesor.
EJEMPLO
La proporción de usuarios que son mujeres (P(m» de una biblioteca pública es 0.6 y la de
usuarios que se llevan libros en préstamo (P(p» a sus domicilios es 0.5. ¿Qué probabilidad hay de
que un usuario se lleve un libro prestado o sea mujer?
Si tenemos en cuenta que ambos sucesos no son mutuamente excluyentes:
P(M 0 p) = P(M) + P(P) - P(MP)
P(m o p) = 0.6 + 0.5 - (0.6 x 0.5) = 1.1 - 0.3 = 0.8
hay un 80% de probabilidades de que un usuario se lleve un libro prestado o sea mujer.
c) Según la ley de la multiplicación la probabilidad de que ocurran conjuntamente dos o más
sucesos será igual a la probabilidad de que ocurra uno multiplicado por la probabilidad
condicional de que ocurra el otro, una vez ocurrido el ant erior. En el caso de dos sucesos se
formularía:
P(AB) = P(A) P(BIA) = P(B) P(AIB)
donde P(BIA) y P(AIB) representan las probabilidades condicionales.
La probabilidad condicional se refiere a que la posibilidad de que suceda uno esté
condicionada por la posibilidad de que suceda el otro.
Si la ocurrencia de un suceso no depende de que suceda otro, se dice que ambos sucesos son
independientes y entonces:
P(AIB) = P(A) y P(BIA) = P(B)
Diremos, por tanto, que dos sucesos son independientes si el conocimiento de que uno de los
acontecimientos ha ocurrido no ayuda a predecir el otro. Si A y B son independientes:
P(AB) = P(A) P(B)
Si lo que se estudia son las probabilidades de que ocurran simultáneamente más de dos sucesos,
entonces:
P(ABC)
P(AB) P(CIAB) = P(A) P(BIA) P(CIAB)
Diríamos, por tanto, que los sucesos A..... N son independientes si la probabilidad conjunta de
todos los subconjuntos que pueden formarse es el producto de las probabilidades individuales.
EJEMPLO
Los datos de la siguiente tabla se refieren a una muestra tomada de los usuarios de una biblioteca
pública en la que se consignan el número de hombres (h) y mujeres (m) que se han llevado
prestados libros (1) y vídeos (v).
H
M
1
10
500
v
400
20
Total
410
520
Total
510
420
930
A la vista de estos datos, parece que las mujeres prefieren claramente llevarse en préstamo libros
y los hombres vídeos, luego, existe dependencia de la variable hombre sobre los vídeos y de la
variable mujer sobre los libros. ¿Cuál es la probabilidad de que un hombre (h) se lleve un vídeo (v)?
P(hv) = P(h) P(vlh)
P(h) = 410/930 = 0.44 (probabilidad de ser hombre)
P(vih) 4001410 = 0.97 (probabilidad de que un hombre se lleve un vídeo)
luego:
P(hv) 0.44 - 0.97 = 0.42
Lo que traducido a porcentaje nos da una probabilidad del 42% de que el usuario sea un hombre
y se lleve prestado un vídeo.
Se puede juzgar un suceso por su nivel de significación, y este nivel lo especifica el
investigador. El concepto nivel de significación o grado de confianza se utiliza en todas las pruebas
estadísticas basadas en hipótesis. Se trata de poner una frontera, en un determinado lugar, para
poder demostrar que no ha intervenido el azar. El nivel de significación vendrá expresado en
términos de probabilidad (P) para decirnos en qué medida podemos estar seguros, es decir, podemos
tener confianza en la intervención de otros factores y no del azar. Este nivel de confianza, como
mínimo, debe ser del 5%, que es el considerado más bajo en ciencias sociales, expresado como
nivel de significación o de probabilidad P = 0.05, que sería lo mismo que decir que 5 de cada 100
veces puede intervenir el azar. Mucho mejor sería que P fuera igual a 0.01, es decir que sólo 1 vez
de cada 100 el resultado se debe a la casualidad. Un nivel de probabilidad superior a 0.05 no se
debe utilizar, pues no debemos olvidar que la elección del nivel de significación implica el grado de
confianza que podemos tener en los resultados del análisis [véase capítulo 41.
Por último, es preciso recordar que el cálculo de las probabilidades asociadas a un suceso dado
es diferente para cada prueba estadística.
2.2. Modelos de distribución
2.2.1. La distribución normal
La distribución de frecuencias conocida como distribución normal es, por la cantidad de
fenómenos que explica, la más importante de las distribuciones estadísticas.
A la distribución normal también se la denomina con el nombre de campana de Gauss, pues si
representamos las frecuencias de los valores de una variable en un diagrama, la curva resultante
tendrá forma de campana. Gauss es el nombre del matemático que la describió por primera vez, al
darse cuenta de que muchas de las distribuciones de frecuencias de variables estudiadas en distintos
campos adoptaban esta forma.
Para que una variable tenga una distribución normal, su variabilidad debe obedecer a la
influencia de gran número de causas independientes entre sí, que el efecto de cada una de ellas sea
pequeño en comparación con la suma de todos los efectos juntos y que las causas actuén de forma
aditiva. Esto es así porque una variable en la que una única causa sea la que determine la
variablidad tendrá una distribución menos normal que otra en la que influyan múltiples causas.
En teoría, la distribución normal de las frecuencias de una variable, tiene las siguientes
características:
a)
b)
c)
d)
Forma de campana. Al representar gráficamente las frecuencias de una variable dada y
comprobar que adopta forma de campana, es bastante probable que tengamos ante nosotros
una distribución de frecuencias normal, aunque no sólo se caracteriza por su forma de
campana. La forma de la curva nos indica además que los valores o muy altos o muy bajos
de la variable son poco frecuentes, y que la mayor parte de los mismos están distribuidos
alrededor del valor de la media.
Simetría. Al trazar una recta que divida la campana por el centro, las dos partes resultantes
serán exactamente iguales. Esto quiere decir que el 50% de los valores de la variable
estudiada estará en cada una de las dos partes (ver gráfico adjunto).
La media, la mediana y la moda de una distribución normal tienen el mismo valor. Los
parámetros más característicos de una distribución normal son la media y la desviación
típica. Una distribución normal la representaremos como x -4 N (y, a). La dispersión de
esta distribución está en función de su desviación típica.
Teóricamente, las colas de la campana, es decir, los extremos, no llegan a tocar nunca el eje
horizontal de la representación gráfica, sino que a lo largo de una distancia infinita se
supone que ambos lados se van acercando a él progresivamente. Esta es una característica
matemática de la curva normal que no se corresponde con la realidad, puesto que las
frecuencias de una variable estudiada nunca pueden ser infinitas.
Aunque una distribución normal perfecta es muy difícil que se dé en la realidad, es mucho más
frecuente que nos encontremos con distribuciones de frecuencias parecidas a la normal. Esto quiere
decir que, en términos generales, se considera una distribución de frecuencias normal cuando las
mismas están mayoritariamente distribuidas en valores cercanos a la media, y va disminuyendo la
frecuencia conforme nos acercamos a los valores extremos de la variable. Con vistas a su
tratamiento estadístico, toda distribución de frecuencias casi normal es tratada como normal.
2.2.1.1. Áreas bajo la curva normal
La distribución normal tiene una gran importancia estadística porque la proporción relativa de
los valores situados en una posición determinada de la curva son siempre los mismos. Por lo tanto,
se puede saber con exactitud donde estará la proporción de casos que están en el interior de un
intervalo determinado de la curva, y la podemos situar en la misma tomando como referencia la
media y la desviación típica de esa distribución.
En una distribución normal, el 68.27% de los valores de la variable se encuentran entre una
desviación típica por encima y por debajo de la media, el 95.45% entre 1.96 desviaciones típicas
por encima y por debajo de la media y el 99.73% entre 2.58 desviaciones típicas por encima y por
debajo de la media (ver gráfico anterior). No llega al 100% porque ya hemos dicho que
teóricamente las colas de la curva se alargan hasta el infinito.
EJEMPLO
Si representamos gráficamente los datos del ejemplo del cálculo de la desviación típica con
frecuencias (véase apartado 1.1.2.6), observamos que se distribuyen siguiendo el modelo de la
distribución normal.
La media de esta distribución de frecuencias es 10.31 y la desviación típica es 3.98. Por tanto, -ls
es 6.33 y +ls es 14.29, entre ambos valores está el 68.27% de los sucesos observados, o sea, más de
la mitad de los usuarios están comprendidos en ese intervalo, es decir se llevan entre 6 y 14 libros al
año. Y entre -1.96s (2.51) y +1.96s (18.11) están el 95.45% de los lectores que piden libros
prestados a la biblioteca (gráfico anterior).
2.2.1.2. Distribución normal estándar
Cualquier distribución normal se puede convertir en una distribución normal estándar
traduciendo cada uno de los valores de la variable a valores z.
Los valores z son los valores normalizados de la variable x que indican el valor de la misma en
términos de unidades de desviación típica respecto a la media.
La fórmula para determinar el valor de z es la siguiente:
x-x
s=
s
donde:
x
valor de la variable.
x
S
media de la muestra.
desviación típica de la muestra.
Un valor z se refiere siempre a la posición de un valor cualquiera de la variable con respecto a
la media. Mientras que la desviación típica de una distribución es un valor invariable y constante,
un valor z se refiere a la posición relativa en la curva de un valor determinado de la variable a la que
representa en relación a la media.
Los valores de x expresados en términos z son constantes y están situados entre -3.99 y +3.99,
convirtiendo en 0 el valor de la moda, la media y la mediana y en 1 la desviación típica. Existen
tablas (ver apéndice) en las que ya está calculado el porcentaje de observaciones que está
comprendido entre la media y un determinado valor de z. Por lo que la distribución será normal con
los parámetros 11 = 0 y <y = 1, o lo que es igual z -> N(O, 1) EJEMPLO
Siguiendo con el ejemplo anterior, la siguiente tabla contiene los valores de la variable y a
continuación su equivalente en valores z calculados de la siguiente forma:
1- 10.31
Z=.
-2.34
3.98
X
1
2
3
4
5
6
7
8
9
10
z
x
z
-2.34
-2.09
-1.83
-1.58
-1.33
-1.08
-0.83
-0.58
.33
-0.08
11
12
13
14
15
16
17
18
19
20
+0.17
+0.42
+0.67
+0.93
+1.18
+1.43
+1.68
+1.93
+2.18
+2.43
Estos mismos valores están representados en el gráfico adjunto. Ahora podemos preguntar qué
posición ocupa, con respecto al total, un lector al que se le han prestado 6 libros en un año. El
valor z de 6 es -1.08, al ser negativo ya nos está indicando que está por debajo de la media. Para
conocer exactamente qué porcentaje de lectores se han llevado más o menos libros prestados al
año que al que se le han prestado 6, hay que consultar la tabla del apéndice, donde ya está
calculado el porcentaje de área de la curva normal estándar comprendido entre la media y un determinado valor de z.
Antes de seguir adelante con el ejemplo, hay que explicar la forma de consulta de la tabla. En
la primera columna (valor z con un decimal) y en la primera fila (el segundo decimal de z) están
los valores absolutos de z, esto es, sin tener en cuenta si son de signo positivo o negativo, pues al
ser la curva simétrica las dos mitades son iguales, y, en consecuencia, el área bajo la curva normal
entre un valor z positivo o negativo y la media es la misma. Por esta razón, y a efectos de
simplificar la tabla, al porcentaje que represente cualquier valor z positivo o negativo, hay que
sumarle un 50%.
Volviendo al ejemplo, el valor z -1.08, que representaba al usuario que había hecho uso del
préstamo 6 veces en un año, para encontrar su posición en la tabla miramos en la primera columna
hasta el valor 1.00 y en la primera fila el valor 0.08 (para el segundo decimal), el lugar de la tabla
donde se cruzan ambos da un valor de 35.99%, al que hay que sumarle 50.00%, dando un
resultado de 85.99%, que es el porcentaje de lectores que durante un afío han hecho más uso del
préstamo bibliotecario que él y por consiguiente sólo el 14.01% de los usuarios de la biblioteca
han realizado menos préstamos que él en el periodo de un año.
También podemos fijamos en un lector que ha realizado 17 préstamos en un año. El valor z de
17 es 1.68, que al ser un valor positivo ya sabemos que está por encima de la media. Consultando
la tabla, el porcentaje que le corresponde es 45.35% al que sumándole el 50.00%, arroja un
resultado de 95.35%, lo que significa que este lector ha hecho más uso del préstamo que el 95.35%
de los usuarios de la biblioteca y sólo un 4.65% han solicitado más libros que él en un año.
Los valores de z, al ser una constante, se pueden utilizar para comparar distintas distribuciones,
siempre y cuando todas ellas tengan la consideración de normales.
En el mundo bibliotecario, como en el resto de las ciencias sociales, muchos fenómenos pueden
representarse mediante distribuciones normales, pero este hecho debe ser probado con estudios
rigurosos. Es lógico esperar que en cuanto en nuestro campo aumente la investigación,
determinados fenómenos se puedan explicar a
partir del modelo de distribución normal.
Cuando la distribución de frecuencias de una variable, resultante de una selección por muestreo,
no es normal o casi normal, no se podrán atribuir las propiedades de la distribución normal.
2.2.2. La distribución binomial
La distribución binomial es un tipo de distribución de frecuencias de una variable extraída de
una muestra aleatoria que se puede usar cuando el tipo de estudio a realizar consiste en clasificar las
observaciones en dos categorías de miembros, como por ejemplo hombre-mujer, jóvenes-adultos,
etc., o en dos categorías de casos, como por ejemplo éxito-fracaso, positivo-negativo, etc.
A una de las categorías la llamaremos p y a la otra q, de modo que si conocemos cuál es la
proporción que está encuadrada en una de las categorías, puesto que sólo hay dos posibles y ambas
son mutuamente excluyentes, sabremos también la proporción de la otra categoría, ya que la suma
de ambas será el total de las observaciones. De modo que, aplicando la ley de la suma de las
probabilidades, cuando éstas son dos y mutuamente excluyentes, recuérdese que:
P(A o B) = P(A) + P(B) = 1 luego:
1 - P(A) = P(B)
entonces, en términos de distribución binomial esto se expresaría:
p+q=1
q =1 - p
En la distribución binomial, la proporción de elementos encuadrados en cada una de las dos
categorías en la población es constante y no varía al modificar el tamaño de la muestra y, en
consecuencia, la probabilidad de encontrar elementos encuadrados en una de las dos categorías es
siempre la misma y no se modificará cualquiera que sea la combinación de las dos categorías
observadas en la muestra.
En lo referente a la forma de la distribución binomial, ésta depende tanto del valor de n como de
p. Si p = q, es decir, cada uno de ellos tiene un valor de 0.5, la distribución es simétrica. Por otro
lado, cuando n tiende al infinito, la distribución binomial tiende a parecerse a la normal, es decir,
cuando n es suficientemente grande (n > 30), la forma de la binomial se parece a la normal. En este
último caso se le pueden aplicar las propiedades de la distribución normal en el sentido de que el
68.27%, el 95.45% y el 99.73% del área total de la distribución están encuadrados entre 1, 1.96 y
2.58 desviaciones típicas por encima y por debajo de la media respectivamente.
Al ser la distribución binomial una distribución de la población debemos saber de antemano cual
es el valor de p y, por lo tanto de q, y en consecuencia, tanto la media, como medida de tendencia
central, como el error típico de la binomial, como medida de dispersión, son parámetros y no
estadísticos.
La media de la distribución binomial se calcula mediante la siguiente fórmula:
Pb = np
donde:
n tamaño de la muestra.
p proporción de la categoría considerada éxito.
Para medir la dispersión de los valores de la variable con respecto a la media se usa el llamado
error típico o desviación típica de la distribución binomial que mide la variación de las frecuencias
de resultados encuadrados en una de las dos categorías con respecto a la media. La fórmula es:
Vb =
npq
donde:
n y p significan lo mismo que en la media y q es 1 - p.
La distribución binomial se puede utilizar también para calcular la probabilidad de observación
de una variable cualquiera estudiada desde el punto de vista binomial. Es decir, si de una muestra
aleatoria sabemos cuál es la proporción de casos encuadrados en una de las categorías, y en
consecuencia sabemos también cual es la proporción de la otra categoría, podremos conocer cual es
la probabilidad de observar un determinado valor de la variable x. También se puede usar para
calcular cual es la probabilidad de obtener los valores más extremos. La fórmula es la siguiente:
n!
pxqn-x
P (x)
x!(n-x)! P
donde:
P
x
n!
probabilidad.
valor de la variable.
factorial de la muestra.
p proporción de casos encuadrados en la categoría considerada éxito.
q proporción de casos encuadrados en la categoría considerada fracaso.
EJEMPLO
En una biblioteca de cada 100 usuarios activos 12 consultan el catálogo en línea y suelen tardar
10 minutos por consulta. Teniendo en cuenta que cada hora entran 24 usuarios queremos averiguar
cual es la media de usuarios por hora en el catálogo, si éste podrá atender todas las consultas en una
hora con un 95% de confianza y qué probabilidad hay de que el catálogo esté desocupado o de que
haya usuarios esperando para hacer una consulta.
Consideraremos éxito el uso del catálogo, por tanto:
n = 24
p = 12 / 100 = 0.12
q = 1 - 0.12 = 0.88
Pb= np = 24 - 0.12 = 2.88
Por lo que 2.88 usuarios a la hora es la media de ocupación del catálogo:
Vb =
npq =
24 * 0.12 * 0.88 = 1.59
En conclusión, 1.59 es el error típico de la binomial. Para conocer el máximo número de
usuarios que podrá atender el catálogo en una hora, aplicamos la propiedad de la distribución
normal, que dice que el 95% de los casos están encuadrados entre -1.96 y +1.96 desviaciones típicas
de la media. Lo que en la binomial se debe interpretar como:
Pb±1.96Vb
y sustituyendo:
2.88 + (1.96 ! 1.59) = 6
2.88 - (1.96 ! 1.59) = -0.24
Con el 95% de confianza sabemos que en una hora habrá un mínimo de 0 y un máximo de 6
usuarios. Como cada usuario emplea 10 minutos en hacer una consulta, cuando tengamos el
máximo de usuarios en una hora el catálogo podrá atenderlos a todos.
Para calcular la probabilidad de que no haya nadie en el catálogo aplicamos la fórmula de la
probabilidad de la binomial:
24!
0.120 -0.88424-0 = 0.05
P(0) =
0! (24-0)!
Por tanto, la probabilidad de que el catálogo no esté siendo utilizado es 0.05 (5%). El
bibliotecario sabrá entonces que media hora de cada diez el catálogo estará desocupado.
Para determinar la probabilidad de que haya alguien esperando para usar el catálogo es preciso
calcular la probabilidad de que haya más de 6 usuarios (7) en una hora, puesto que las consultas
duran 10 minutos:
24!
P(7) =
0.12 7 -0.88 24-7 = 0.02
7! (24 - 7)!
Es, por consiguiente, mayor la probabilidad de que no haya nadie que la de que haya alguien
esperando. Tan sólo a lo largo de 10 horas de apertura de la biblioteca en 12 minutos habría alguien
esperando para usar el catálogo.
2.2.3. Distribución Poisson
El proceso Poisson es un modelo usual para llegadas aleatorias, para la aparición de sucesos
puntuales sobre un soporte continuo; como, por ejemplo, pueden ser las llegadas de usuarios a la
sección de referencia o préstamo.
Si el número de observaciones es muy grande y la probabilidad de que ocurra la característica
estudiada es muy pequefía, nos encontramos en unas circunstancias en que la distribución binon-úal
tiende hacia la distribución Poisson.
Si los intervalos de observación los dividimos en n segmentos muy pequeños, con lo que n será
muy grande, y vemos si en cada uno de estos intervalos ocurre, o no, el suceso estudiado y si la
probabilidad (p) de ocurrencia de este suceso en cada segmento es muy pequeña, podemos
considerar que se trata de observar en n segmentos si aparece, o no, el suceso estudiado. Por tanto
nos encontraríamos en una distribución binomial y podemos considerar que la distribución Poisson
corresponde a un caso límite de la binomial, cuando n tiende a infinito y p tiende a cero, aunque el
número medio de sucesos esperados (np) permanece constante.
Supondremos que un proceso Poisson se da bajo las siguientes condiciones:
a)
Los sucesos aparecen aleatoriamente y pueden ocurrir en un intervalo o en otro, y son
independientes, es decir, que la ocurrencia de un suceso no tiene efecto en la ocurrencia
de otro. Por tanto, conocer el número de sucesos en un intervalo no es garantia para
predecir el número de sucesos en otro intervalo.
Es estable, lo que significa que a largo plazo se produce un número constante de sucesos
(.Z) por unidad de observación.
La probabilidad de que dos sucesos ocurran simultáneamente en un intervalo muy
pequeño es cero.
b)
c)
La variable Poisson se define a partir de este proceso como:
k = número de sucesos en un intervalo de longitud fija.
En la distribución Poisson la probabilidad de observar la variable de valor k viene dada por la
fórmula:
eOOk
P(k) =
k!
donde:
P(k)
O
e
k!
es la probabilidad de que k ocurrencias sucedan en una unidad de tiempo
(número de éxitos en n intentos)es el ritmo promedio de llegada por unidad de tiempo.
es la base de los logaritmos naturales (aproximadamente 2.71).
es el factorial de k
EJEMPLO
Las consultas a la sección de referencia de una biblioteca son de un promedio de 4 por hora.
¿Cuál es la probabilidad de que en una hora no se haga ninguna consulta, y de que se realicen 2?
Para conocer la probabilidad de que no haya ninguna consulta tenemos que calcular la
probabilidad para k = 0:
e-440
P(O)
=
e -4
0.0183
0!
La probabilidad de que no se realice ninguna consulta en una hora es de 0.0183 [1.83%]. Para los valores
de e-' véase la tabla del Apéndice.
La probabilidad de que se realicen dos consultas seria:
e-442
P (2)
=
e-4*16
=
= 8e-4 =8(0.0183) = 0.14641[14.6%]
2!
2
2.3. Problemas
1)
2)
3)
4)
5)
6)
N' ref.
Frec.
Las consultas al catálogo en línea de una biblioteca son de un promedio de 2 por hora. Si asumimos
una distribución Poisson ¿Cuál es la probabilidad de que en una hora no se realice ninguna consulta?
¿Y tres consultas?
De 20 registros cogidos al azar del catálogo de una biblioteca universitaria 11 eran de obras en
español, 6 en inglés, 2 en francés y una en italiano. ¿Cuál es la probabilidad de coger un registro en
cada uno de los idiomas? ¿Cuál es la probabilidad de coger uno en espaiíol o francés?
Si entre los registros del problema anterior el 80% fueran de monogafías y el 20% restante de
publicaciones periódicas... ¿Cuál sería la probabilidad de coger un registro de monografías en inglés?
Si de la población de usuarios activos de una biblioteca se sabe que el 70% hace uso del préstamo
¿Cuál sería la media para una muestra de 30 y cuál el número máximo de usuarios que se podría
esperar con un 95% de confianza?
La proporción de hombres y mujeres entre los usuarios de una biblioteca es del 45% y 55%
respectivamente. Si tomamos una muestra aleatoria de 5 ¿Cuál es la probabildad de que dos ellos
sean mujeres?
Se ha tomado una muestra al azar de 80 artículos de revista y se ha anotado el número de referencias
bibliográficas de cada uno. La siguiente tabla representa las frecuencias observadas:
5
2
6
5
7
8
8
10
9
11
10
13
11
12
12
9
13
6
14
3
15
1
¿Entre qué valores de la variable estará el 68.27% de la muestra? ¿Y el 95.45%? ¿Qué posición
ocupará con respecto a los demás un artículo que tenga 12 referencias? ¿Y uno que tenga sólo 6?
Moya Anegón, Félix, López Gijón, Javier, García Caro, Concepción. Técnicas cuantitativas
aplicadas a la biblioteconomía y documentación--Madrid:Síntesis,1996.174p.
3 - ESTADÍSTICA INFERENCIAL
Como hemos visto, la estadística comprende dos grandes apartados: uno se ocupa de la
descripción o resumen de datos, para poder extraer de ellos la información que resulte más relevante
(estadística descriptiva); el otro se ocupa de la inducción, que nos permite hacer generalizaciones de
una población a partir de una muestra extraída de tal población (estadística inductiva o inferencial).
En la inferencia estadística partimos de las frecuencias observadas de una variable y
pretendemos inferir el modelo probabilístico que ha generado los datos. Con la estadística
inferencial además de inferir las características de una población por una muestra de ella, se intenta
igualmente hacer predicciones y probar hipótesis.
Para hacer inferencias correctas tenemos que conocer el modelo de distribución al que mejor se
ajustan los datos, anteriormente (apartado 2.2) hemos estudiado los modelos de distribución de
probabilidad. Tendremos también que seleccionar una muestra probabilística (se verá en el
siguiente apartado), que nos asegure que podemos hacer inferencias sobre la población. Y después
habrá que someter estas muestras a pruebas estadísticas (lo veremos en el Capítulo 4) que nos
permitan aceptar o rechazar hipótesis, y en consecuencia poder tomar decisiones.
3.1. Muestreo
Las observaciones se pueden hacer sobre el total de posibles ocurrencias de la variable, con lo que
estaríamos trabajando con toda la población, entendiéndola como un conjunto homogéneo de
elementos en los que se estudia una característica dada. Pero la realidad nos enseña que muchas
veces no es posible estudiar toda la población, sea por excesos de costos, tiempo, etc. Cuando nos
encontramos con es te problema se suele resolver seleccionando un conjunto representativo de
elementos de esa población, que se denomina muestra.
Si esta muestra es representativa podemos conseguir una información parecida a la que se
obtendría del estudio de toda la población, pero evitamos las dificultades que acabamos de plantear.
El objetivo consiste en determinar una o más características de la muestra -estadísticos- que nos dé
información de las correspondientes características de la población -parámetros-. En resumen, lo
que pretendemos es obtener información sobre la población a partir de la muestra de dicha
población.
El principal problema que nos podemos encontrar es que la muestra sea parcial o sesgada, es
decir, que no sea representativa de la población, con lo que no estaríamos en condiciones de hacer
inferencias sobre la población a partir de esta muestra no representativa. Este problema se puede
resolver utilizando un tipo de muestreo adecuado.
3.1.1. Muestreo probabilístico
Existen cuatro tipos de muestreos de probabilidad: aleatorio, sistemático, estratificado y por
conglomerados. En todo caso, a partir de muestras obtenidas por cualquiera de estos tipos de
muestreo es posible realizar inferencias estadísticas.
Los muestreos de probabilidad se basan en que todo miembro de la población debe tener una
probabilidad conocida de ser incluido en la muestra.
3.1.1.1. Muestreo aleatorio simple
Tenemos un muestreo aleatorio simple cuando se cumplen las condiciones de que cada elemento
de la población tiene la misma probabilidad de ser elegido y que las observaciones se realizan con
reemplazamiento, es decir que la población es idéntica en todas las observaciones; lo que nos
obligará a que la población esté claramente definida antes de que la muestra sea elegida. Si el
tamaño de la población (N) es grande respecto al tamaño de la muestra (n) es casi indiferente
realizar el muestreo con o sin reemplazamiento. Para seleccionar una muestra por este método,
dada una población conocida, se suelen utilizar las tablas de números aleatorios.
EJEMPLO
Una asociación de bibliotecarios desea conocer la situación de las bibliotecas municipales de su
región, para lo cual cuenta con una lista de todas las bibliotecas municipales que existen en dicha
región. A partir de una tabla de números aleatorios puede coger tantos números como fueran
necesarios para la muestra y después ver estos números a qué bibliotecas corresponden, con lo que
contaría con una muestra representativa de la población de bibliotecas municipales, que le
permitiría poder hacer ingerencias sobre la población (el tamaño de la muestra que debe elegirse se
estudiará en un apartado posterior).
Otro ejemplo de muestreo aleatorio, aunque también se podría utilizar cualquier tipo de los que
estamos viendo, es el caso de una biblioteca que se va a automatizar y quiere conocer el tamaño que
tendrán los índices automatizados. Por tanto necesita saber la media de autoridades que tienen las
fichas del catálogo manual. Si se decide que el tamaño de la muestra será de 10 por cada 100
registros del catálogo, una vez conocido el número de registros del catálogo manual sabremos
cuantos necesitamos para la muestra y, después, podemos recurrir a una tabla de números aleatorios
para extraer los que corresponderán a los registros que tenemos que cotejar para realizar el estudio.
3.1.1.2. Muestreo sistemático
Cuando los miembros de la población a estudiar están ordenados en listas se puede utilizar el
muestreo sistemático. Para elegir esta muestra se recorre la lista y tomamos cada k-ésimo
individuo, empezando por un caso escogido aleatoriamente entre los primeros k individuos. Para
conocer el valor de k podemos dividir la población (N) por el tamaño de la muestra que se desea
(n).
EJEMPLO
Una biblioteca quiere realizar una encuesta entre los habitantes que pertenecen a su jurisdicción
y que no son usuarios de la biblioteca, para conocer los motivos por los que no utilizan la biblioteca
y poder tomar medidas que aminoren este fenómeno.
La biblioteca tiene un censo en el que constan todos los habitantes que componen la jurisdicción
a la que sirve y se han tachado los que son usuarios de la biblioteca, ya que se ha cotejado con el
fichero de usuarios. Una vez que esta biblioteca cuenta con la lista de personas de su jurisdicción
que no son usuarios puede utilizar este método de muestreo. Supongamos que esta lista consta de
1.800 personas y que se desea elegir una muestra de 90 personas, al calcular Nln nos da 20, luego el
valor de k es 20. Después, habría que elegir entre los 20 primeros (k) un número al azar, por
ejemplo a partir de una tabla de números aleatorios. Supongamos que el número es 8. Ahora tan
sólo habrá que ir eligiendo de la lista el miembro 8, 28,
48...
(es decir 8, 8+k, 8+2k ... )
3.1.1.3. Muestreo estratificado
El muestreo aleatorio simple se suele utilizar cuando se asume que los elementos de la población
son homogéneos respecto a las características a estudian Por el contrario, cuando se dispone de
información sobre la población se debe tener presente a la hora de seleccionar la muestra. Esto es
lo que ocurre en el caso del muestreo estratificado.
Denominamos muestreo estratificado a aquel en que los elementos de la población se dividen en
clases o estratos. Para elegir la muestra se asigna una cuota de miembros a cada clase, y después se
escogen los elementos por muestreo aleatorio simple dentro de cada clase.
Con el muestreo estratificado lo que pretendemos es que la muestra sea altamente representativa
de la población, pues cuando en ésta existen clases o categorías podemos pensar que los miembros
de una clase están más relacionados entre sí que con la población vista como un todo. Lo que se
está intentado es aumentar la eficacia en el diseño del muestreo.
EJEMPLO
Una biblioteca universitaria tiene 600 usuarios de primer ciclo, 300 de segundo y 100
investigadores y se pretende hacer un estudio de usuarios. Quizá lo mejor -esperando distintos
comportamientos entre estos tipos de usuarios- es hacer una muestra estratificada, en la que se va a
elegir una fracción de muestreo de 1/10 para los tres estratos, es decir, 60 usuarios de primer ciclo,
30 de segundo y 10 investigadores, nos debe proporcionar resultados más fiables que una muestra
aleatorio simple. Una vez conocido el número de miembros de cada estrato (60, 30, 10) éstos se
pueden elegir por muestreo aleatorio simple.
3.1.1.4. Muestreo por conglomerados
Puede ocurrir que el tamaño de la población no se conozca, con lo que no podríamos aplicar los
muestreos anteriores. En estos casos podemos recurrir a un muestreo por conglomerados. Para
realizar este tipo de muestreo partimos de considerar que los elementos de la población se
encuentran agrupados en conglomerados, de los que sí conocemos su número. Lo que hacemos es
dividir la población en conglomerados y seleccionar entre éstos.
EJEMPLO
Supongamos que queremos conocer la opinión que se tiene en Espafía sobre las bibliotecas, el
uso que hacen los habitantes y el servicio que prestan. Como la población está distribuida en
provincias podemos suponer que un conjunto de estas provincias -conglomerado- es una muestra
representativa de la población total. Luego podríamos elegir al azar algunos de estos
conglomerados, después seguiríamos eligiendo al azar los siguientes elementos (municipios,
barrios, calles, etc.) hasta llegar a las personas a consultar.
Por tanto en este tipo de muestreo no seleccionamos nuestros elementos directamente, sino que
seleccionamos grupos o conjuntos de elementos. En el muestreo por conglomerados lo que
pretendemos es seleccionar grupos que sean muy heterogéneos.
Como se puede ver, la estratificación y el conglomerado son ideas opuestas. En la
estratificación queremos que las diferencias entre los estratos sean grandes y que internamente sean
homogéneos. En los conglomerados queremos que existan pocas diferencias entre ellos y que sean
muy heterogeneos internamente, es decir que recojan la variabilidad de la población dentro de cada
uno.
Podemos concluir el muestreo probabilístico diciendo que si tenemos información previa ésta
debe utilizarse para subdividir la población y poder contar con una muestra de la mayor
representatividad posible. Cuando ya contamos con las subpoblaciones homogéneas la selección la
podemos llevar a cabo por medio del muestreo aleatorio simple.
3.1.2. Muestreo sin probabilidad
La característica de este tipo de muestreos es que no se conoce la probabilidad que tienen los
miembros de la población de ser elegidos. Suelen ser los criterios del investigador los que deciden
los individuos que hay que incluir. El problema que plantea este tipo de muestreos es que no
podemos conocer los margenes de error y por tanto no podemos utilizar la inferencia estadística.
La poca fiabilidad de estos muestreos nos debe llevar a preocupamos por contar con muestreos
probabilísticos en los estudios que realicemos en nuestro campo, si queremos que tengan una base
sólida y que los resultados nos ofrezcan garantías.
3.2. Estimación de punto
Si se ha tomado una muestra no sesgada de la población, deberíamos esperar que la media de la
muestra pueda ser una estimación razonable de la media de la población. Estas estimaciones se
conocen como estimaciones de punto, pero no es probable que la media de la muestra sea idéntica a
la media de la población. Es decir, en este tipo de estimaciones lo que pretendemos es determinar
los parámetros -de la población- a partir de los datos muéstrales.
La variable que queremos estudiar nos servirá para elegir un modelo posible, que
seleccionaremos en base a la información previa disponible y al análisis de los datos de la muestra.
Como dijimos anteriormente, una de las pretensiones del muestreo y del cálculo de los
estadísticos de las muestras es obtener información sobre la población de la que el muestreo ha sido
tomado. Es decir, deseamos deducir los probables parámetros de la población mediante el cálculo
de los estadísticos de la muestra.
3.2.1. Distribución muestras de la media
A veces lo que nos interesa es hacer un estudio de medias, y no de estadísticos de frecuencias o
proporciones como en la prueba binomial o la prueba de "ji" cuadrado.
Las medias de todas las muestras tomadas de una población forman una distribución de
frecuencias conocida como distribución de las medias de la muestra.
La distribución normal es importante en la teoría del muestreo porque describe situaciones en la
que se han escogido muestras aleatorias de poblaciones sin tener presente la identidad de la
distribución de frecuencias que describe la población original. Si bien una población puede ser
asimétrica, la distribución de las medias de muestras aleatorias que provienen de la población se
inclinará a ser noitnal conforme
aumente el número (n) de muestras.
La media de las medias de la muestra sería ( X
(¦ X ) dividido por n
n)
igual al sumatorio de las medias de la muestra
¦X
x n=
n
Pues bien, x n está muy cerca de la media de la población ( X n=P)
Lo que estamos exponiendo se formula a partir del teorema que dice: si de una población normal
de magnitud N, con una media P y una varianza de V2 se extraen numerosas muestras al azar, la
distribución de las medias de las muestras sera normal, con la media P y la varianza V2 n
Esto quiere decir que si conocemos la distribución de las medias de la muestra ( X n) ,estamos en
condiciones de saber el valor de la media de la población (P).
El teorema que acabamos de enunciar lo podemos encuadrar en uno más general conocido por el
nombre de teorema del límite central, que dice: Si se extraen diversas muestras de magnitud n al
azar de una población cualquiera, con una media de P y una varianza de V', tenemos que a medida
que n crece, la distribución de las medias de la muestra se aproxima a la normalidad, con la media P
y la varianza V2 n.
Lo que estamos diciendo es que para cualquier distribución, no necesariamente normal, con una
media de P y una varianza de V2 , la distribución de las medias de muestras aleatorias seleccionadas
de la población es aproximadamente normal.
El teorema del límite central nos dice que cuando los resultados de un experimento son la
consecuencia de un gran conjunto de causas independientes, que actúan sumando sus efectos,
siendo los efectos individuales poco cosiderables si se comparan con el conjunto, podemos esperar
que los resultados se adapten a una distribución normal. En realidad, esto se puede considerar una
generalización de las propiedades de las medias muéstrales.
Si por este teorema podemos decir que la distribución de las medias de las muestras es normal,
nos podríamos preguntar cuáles son su media y su desviación típica. Este teorema nos dice que la
media de la distribución de las medias de las muestras es P, es decir la media de la población; y la
desviación típica de la distribución es V
n.
Como puede observarse, conforme n aumenta, la desviación típica de la distribución de las medias de las muestras disminuye.
La desviación típica de la distribución de las medias de las muestras( V
como el error típico de la media es decir
V
V =
n .) se conoce también
n
x
Como podemos ver el error típico ha sido definido en términos de la desviación típica de la
población (a), ésta no se encuentra disponible siempre, pero la desviación típica de la muestra (s) es
una aproximación razonable de la desviación típica de la población. Por tanto si no conocemos a, la
magnitud del error típico de la media puede ser tomado como
s
n
que podemos representar como s x ( s x
s
n
)
-
Es decir, s es una estimación sesgada dea y se aplica sólo para muestras amplias (mayores de
treinta).
En resumen, las medias y las desviaciones típicas de las tres clases de distribuciones son:
Población
Muestra
Distribución demuestreo
Media
p
x
p
Desviación típica
a
S
rV n
Hemos visto cómo la distribución de muestreo de las medias X- será Nor (,U, @;ln Para servimos de la
tabla normal hay que convertir los datos en normales estándar, es decir, obtener una distribución z que sea N(O,l) (véase
apartado 2.2.1):
z
3.3.
xP
V
n
Estimaciones por intervalos
3.3.1. Intervalo de confianza
Además de hacer la estimación de un parámetro también nos interesará calcular un intervalo de la distribución que nos
permita conocer el grado de incertidumbre que existe en la estimación. Por eso a este intervalo se le denomina de
confianza.
La probable diferencia entre el valor medio de las medias y la media de la población vendrá indicado por la desviación
típica de la distribución de la muestra
§V
¨
©
n ·¸
¹
Por tanto, si representamos el valor de las medias de la muestra por xi, la media de la población es
probable que se encuentre entre
xn s
n
y xn s
n
Como ya hemos visto el 95% de todas las observaciones en una distribución normal se encuentran entre
1.96 desviaciones típicas por debajo de la media y 1.96 desviaciones típicas sobre la media. Es decir una
observación puede ser esperada, con un 95% de certeza, entre estos límites (véase el gráfico de los
intervalos para el 95% y el 99% de las observaciones en el apartado de la distribución normal).
El intervalo entre x - 1. 96 V x y x + 1. 96V lo denominamos intervalo de confianza del 95% en p.
Mientras que entre
x -2.58 V x y x + 2.58 V x
se encuentra el intervalo de confianza del 99% sobre p.
Lo que estamos diciendo es que:
P
x r z §¨ V
©
n ·¸
¹
y ya conocemos que los valores de z para un intervalo de confianza del 95% o del 99% son 1.96 y 2.58
respectivamente. Por tanto cuando se conoce la desviación típica (V) y se supone una distribución normal
podremos calcular un intervalo de confianza en P a partir de:
P
x r z §¨ V
©
n ·¸
¹
En caso de que no se conozca la desviación típica se utiliza la distribución t.x S í-)
P
x r t §¨ s
©
n ·¸
¹
Frecuentemente se quiere estimar la media de una población a partir de las características de una
muestra. Un intervalo de confianza sobre y es un rango de números dentro del cual se puede esperar
encontrar la media p verdadera de la población con una probabilidad establecida. Es decir, un intervalo de
confianza de por ejemplo el 99% es el rango de números dentro del cual se puede esperar encontrar la media
verdadera en el 99% de los casos.
Por tanto si queremos construir un intervalo de confianza del 95% sabemos que este se encuentra entre 1.96 y +1.96 desviaciones típicas de la media de la población. Es decir que podemos tener un 95% de
confianza de que la media se encuentra en el intervalo x - 1. 96 V x < P < x + 1. 96 V x para una muestra
aleatoria con una media X-.
EJEMPLO
Una biblioteca quiere calcular un intervalo de confianza en el que se encuentre el 95% de las
adquisiciones que realiza dicha biblioteca. Este centro sabe que el precio medio de los materiales que
adquiere es de 2.500 ptas, con una desviación típica
de 300 ptas.
Para construir un intervalo de confianza del 95% sabemos que se tiene que encontrar entre -1.96 y +1.96
desviaciones típicas de la media de la población. Como la media de la población es 2.500, y la desviación
típica es de 300, el intervalo de confianza se encuentra situado entre -1.96V y +1.96V, es decir, -1.96(300)=588 y +1.96(300)= +588. Por tanto el intervalo de confianza para el 95% está comprendido entre 1912 y
3088 (el resultado de restarle y sumarle a la media 588). 0 lo que es lo mismo, el 95% de los precios de los
libros que adquiere esa biblioteca se deberían encontrar entre 1.912 y 3.088 pesetas (1.912 < P < 3.088).
Si la biblioteca adquiere documentos cuyos precios son de 2.900 y 2.000 ptas entran dentro de la
zona de no significación y se consideran adquisiciones normales, ya que están dentro del intervalo
del 95%. De igual forma se considerarán adquisiciones normales, y por tanto no significativas,
todas las que oscilen entre 1.912 y 3.088 ptas.
Pero si el precio del libro a comprar es de 3.500 ptas, es decir está fuera del intervalo, entonces
es significativo, pues excede de 3.088 ptas (P+ 1. 96V). Ahora sabemos que este documento
pertenece al 2.5% que tienen un precio dos (1.96) desviaciones típicas por encima de la media. De
esta forma, el bibliotecario responsable, puede detectar automáticamente cualquier documento cuyo
precio sea extremo (fuera del intervalo de confianza) y tomar decisiones al respecto.
Igualmente un documento de precio 1.490 ptas cae también dentro de la zona de significación,
está fuera del intervalo y por tanto el responsable de adquisiciones debería ver si es del 2.5% de los
documentos que cae por debajo, o el documento tiene unas características que lo hacen
especialmente barato.
En este ejemplo podemos observar como a partir de la construcción de este intervalo de
confianza podemos tener un mecanismo de control en adquisiciones. Este control nos sirve para
localizar las compras que se salen del 95% de no significación y que el responsable de
adquisiciones pueda decidir si los documentos significativos (3.500 y 1.490 ptas en el ejemplo), en
función del precio, deben, o no, formar parte de la colección.
Lo importante es tener claro que si contamos con un modelo como el expuesto el 95% de las
adquisiciones se pueden considerar normales y estos documentos serán adquiridos sin problemas.
El otro 5% que es significativo, ya que se sale del intervalo de confianza, sería el que debería ser
supervisado por el responsable de adquisiciones para tomar la decisión que considere oportuna
respecto a su adquisición.
Resumiendo, lo que hemos hecho ha sido calcular un intervalo de confianza y después aplicar
este intervalo al control y toma de decisiones en adquisiciones.
3.3.2. Tamaño de la muestra
En este epígrafe veremos cómo se puede determinar el tamafío de la muestra antes de comenzar
la recogida de datos.
Lo que se pretende es calcular el tamaiío mínimo de la muestra a partir de un nivel de precisión
previamente decidido, la amplitud deseada del intervalo de confianza y la desviación típica de la
población.
Por ejemplo queremos conocer la media con una aproximación de ±10 y con un intervalo de
confianza del 95%. Las fórmulas vistas en los intervalos de confianza nos permiten deducir el
tamaño que debe tener la muestra para obtener la precisión que deseamos. Como el intervalo de
confianza que deseamos es del 95% sabemos que el valor es 1.96, y también queremos que la
aproximación sea ±10, por tanto:
1.96 V x = 10
Vx=
Como V x
V
n
sustituimos por sus valores:
10
= 5.1
1.96
5.1
V
n
Por tanto para poder calcular el valor del tamaño de la muestra (n) tan sólo necesitamos conocer
la desviación típica. Si suponemos que el valor de la desviación típica es 29 tendremos que:
5.1
29
n
donde:
n
29
5.1
5.69
y elevando al cuadrado para eliminar la raíz n=32.37.
Lo que nos indica que con una muestra de tamaño 33 se puede conseguir la precisión que
deseamos.
3.4. Problemas
1)
2)
Una biblioteca conoce el precio medio de los documentos que adquiere y es de 3.000 ptas, y
también sabe que la desviación típica es de 450. Calcular un intervalo de confianza del
95% para la media. Realizar el mismo cálculo para un intevalo de confianza del 99%.
Una biblioteca quiere conocer el tamaiío que debe tener una muestra para calcular la
velocidad de suministro del año que acaba de terminar (véase apartado 6.2.3.5). Por
estudios de años anteriores sabe que su velocidad de suministro tiene una desviación típica
de 3 días. Con un intervalo de confianza del 95% y para ±15 días dentro de la media de la
muestra, la biblioteca quiere conocer qué tamafío debe tener la muestra que tiene que
seleccionar del fichero donde se recogen los datos de fechas de pedido y recepción de
documentos para que se cumplan estas condiciones.
Moya Anegón, Félix, López Gijón, Javier, García Caro, Concepción. Técnicas cuantitativas
aplicadas a la biblioteconomía y documentación--Madrid:Síntesis,1996.174p.
5- CORRELACIÓN Y REGRESIÓN
5.1. La correlación
La correlación es una función estadística que sirve para describir con precisión el grado de
relación que existe entre los valores de dos variables cuantitativas. El resultado de la aplicación de
esta función se llama coeficiente de correlación.
Hay dos formas de realizar la correlación lineal dependiendo del tipo de datos de que se trate.
Una es el coeficiente de Pearson, representado por la letra r, y se usa cuando los datos de las dos
variables son de intervalo y otra cuando los datos son ordinales, es decir, se presentan en forma de
categorías o posiciones ordenadas, entonces se utiliza el coeficiente de Spearman, representado por
la letra griega P o "ro". Aunque los dos son coeficientes de correlación lineales y la interpretación
de los datos se hace de la misma manera, la forma de calcularlos es distinta.
El coeficiente de correlación será una cifra situada entre -1 y +1. Ambos extremos son la
expresión de una correlación perfecta entre dos variables de signo positivo o negativo. El
coeficiente 0 significa que no existe relación entre las dos variables estudiadas. Como es lógico, es
bastante probable que pocas veces la correlación existente entre dos variables sea totalmente
perfecta, sino que lo más frecuente será que nos encontremos con que el coeficiente de correlación
tenga valores intermedios entre -1 y +l, de donde podemos deducir que cuanto más cerca de la
unidad esté el coeficiente, mayor será la relación existente entre las dos variables, y, al contrario,
mientras más cercano a cero, menor será la relación existente entre ellas.
Antes de seguir adelante hay que hacer una salvedad muy importante relacionada con la
interpretación del resultado de la correlación. Tanto el coeficiente r de Pearson como el P
Spearman sirven para medir relaciones de asociación de tipo lineal, y no se pueden usar para
relaciones de otro tipo. Esto quiere decir que h que tener cuidado a la hora de interpretar un
coeficiente de correlación igual a cero. Efectivamente, si r o P son igual a cero quiere decir que no
hay relación alguna entre las variables o que el tipo de asociación que existe entre ellas no es lineal,
sino que puede ser, por ejemplo, una relación de tipo curvilíneo.
Para evitar este tipo de error, antes de calcular el coeficiente de correlación se deben representar
los valores de cada par de variables en un diagrama de dispersión. A una variable la llamaremos x y
a la otra y. La variable x normalmente se representa en el eje horizontal del diagrama y la variable y
en el eje vertical, la escala de ambos ejes debe ser la misma. A continuación, iremos señalando el
punto donde cada valor de x se cruza con el correspondiente de y. Una simple ojeada a la forma en
que quedan distribuidos los puntos en el diagrama nos dará idea de su agrupamiento o dispersión en
torno a una línea recta imaginaria, a una curva o los puntos están en forma de nube y no se puede
imaginar una línea recta entre ellos.
Es, pues, muy importante representar los datos gráficamente, porque dependiendo de la forma
que adopten podremos tomar una serie de decisiones. A saber, si la representación de los datos nos
da una forma de nube, es decir, los puntos están muy dispersos en el diagrama y no podemos
imaginar una línea recta o curva que los una (ver gráfico adjunto "C"), significará que no existe
relación entre los valores de las dos variables estudiadas y, por consiguiente, no debemos
molestarnos en hallar el coeficiente de correlación pues el resultado será cero o casi cero.
Moya Anegón, Félix, López Gijón, Javier, García Caro, Concepción. Técnicas cuantitativas
aplicadas a la biblioteconomía y documentación--Madrid:Síntesis,1996.174p.
5- CORRELACIÓN Y REGRESIÓN
5.1. La correlación
La correlación es una función estadística que sirve para describir con precisión el grado de
relación que existe entre los valores de dos variables cuantitativas. El resultado de la aplicación de
esta función se llama coeficiente de correlación.
Hay dos formas de realizar la correlación lineal dependiendo del tipo de datos de que se trate.
Una es el coeficiente de Pearson, representado por la letra r, y se usa cuando los datos de las dos
variables son de intervalo y otra cuando los datos son ordinales, es decir, se presentan en forma de
categorías o posiciones ordenadas, entonces se utiliza el coeficiente de Spearman, representado por
la letra griega P o "ro". Aunque los dos son coeficientes de correlación lineales y la interpretación
de los datos se hace de la misma manera, la forma de calcularlos es distinta.
El coeficiente de correlación será una cifra situada entre -1 y +1. Ambos extremos son la
expresión de una correlación perfecta entre dos variables de signo positivo o negativo. El
coeficiente 0 significa que no existe relación entre las dos variables estudiadas. Como es lógico, es
bastante probable que pocas veces la correlación existente entre dos variables sea totalmente
perfecta, sino que lo más frecuente será que nos encontremos con que el coeficiente de correlación
tenga valores intermedios entre -1 y +l, de donde podemos deducir que cuanto más cerca de la
unidad esté el coeficiente, mayor será la relación existente entre las dos variables, y, al contrario,
mientras más cercano a cero, menor será la relación existente entre ellas.
Antes de seguir adelante hay que hacer una salvedad muy importante relacionada con la
interpretación del resultado de la correlación. Tanto el coeficiente r de Pearson como el P
Spearman sirven para medir relaciones de asociación de tipo lineal, y no se pueden usar para
relaciones de otro tipo. Esto quiere decir que h que tener cuidado a la hora de interpretar un
coeficiente de correlación igual a cero. Efectivamente, si r o P son igual a cero quiere decir que no
hay relación alguna entre las variables o que el tipo de asociación que existe entre ellas no es lineal,
sino que puede ser, por ejemplo, una relación de tipo curvilíneo.
Para evitar este tipo de error, antes de calcular el coeficiente de correlación se deben representar
los valores de cada par de variables en un diagrama de dispersión. A una variable la llamaremos x y
a la otra y. La variable x normalmente se representa en el eje horizontal del diagrama y la variable y
en el eje vertical, la escala de ambos ejes debe ser la misma. A continuación, iremos señalando el
punto donde cada valor de x se cruza con el correspondiente de y. Una simple ojeada a la forma en
que quedan distribuidos los puntos en el diagrama nos dará idea de su agrupamiento o dispersión en
torno a una línea recta imaginaria, a una curva o los puntos están en forma de nube y no se puede
imaginar una línea recta entre ellos.
Es, pues, muy importante representar los datos gráficamente, porque dependiendo de la forma
que adopten podremos tomar una serie de decisiones. A saber, si la representación de los datos nos
da una forma de nube, es decir, los puntos están muy dispersos en el diagrama y no podemos
imaginar una línea recta o curva que los una (ver gráfico adjunto "C"), significará que no existe
relación entre los valores de las dos variables estudiadas y, por consiguiente, no debemos
molestarnos en hallar el coeficiente de correlación pues el resultado será cero o casi cero.
Por otro lado, si los datos representados en el diagrama vemos que se agrupan en torno a una
curva imaginaria (ver gráfico adjunto "D"), querrá ello decir que existe relación entre las dos
variables, pero si la queremos cuantificar no podremos utilizar los coeficientes de correlación r ni p,
pues ya hemos dicho antes que sólo miden relaciones lineales, y tendríamos que utilizar funciones
estadísticas distintas las correlaciones curvilíneas que no entran en el propósito de este libro.
Sólo si al ver representados los datos en el diagrama vemos que éstos se encuentran agrupados,
con mayor o menor densidad, en torno a una línea recta imaginaria (ver gráfico adjunto "A" o "B")
entonces podremos decir que los valores de ambas variables tienen algún tipo de relación y para
cuantificarla usaremos el coeficiente de correlación r o p según de qué tipo sean los datos.
A continuación, estudiaremos cómo se calculan los dos coeficientes, empezando por el
coeficiente de correlación r de Pearson, que es el más utilizado aunque sea más difícil de calcular
que el de Spearman.
5.1.1. Coeficiente de correlación r de Pearson
El coeficiente de correlación de Pearson, también conocido con el nombre de momento-producto
de Pearson o simplemente r de Pearson, es el más difundido para calcular el grado de asociación
lineal entre los valores de dos variables de intervalo distribuidas normalmente.
Fórmula:
A la hora de interpretar el resultado hay que tener en cuenta que aunque éste sea muy alto, es
decir, cercano a la unidad, esto no significa que una de las variables sea causa o efecto de la otra,
sino que existe una fuerte relación entre ellas.
Algunos autores consideran que, independientemente del tamaño de la muestra, r debe ser como
mínimo igual a ± 0.4 para poder decir que existe una correlación significativa, aunque si el tamaño
de la muestra es muy pequefío, entonces r debe estar entre ± 0.7 y 0.8 como mínimo para decir que
existe un buen coeficiente de correlación entre las dos variables objeto de estudio.
Hay que tener en cuenta, como siempre que se trabaja con datos provenientes de muestras y no
con datos de la población, que el coeficiente de correlación resultante entre dos variables puede
deberse al azar, sobre todo cuando se trabaja con muestras pequeñas, ya que cuando se trabaja con
muestras grandes es menos probable que el coeficiente de correlación se deba a factores aleatorios.
De todas formas, se puede determinar el grado de azar que ha podido influir en el coeficiente de
correlación aplicando la prueba estadística t, que se calcula de la siguiente manera:
Fórmula:
EJEMPLO
En un trabajo de investigación se desea saber cual es el mejor horario para una biblioteca
pública. Se parte de la hipótesis de que tanto el número de horas como cuáles sean esas horas, van a
influir en el número de usuarios de la biblioteca, es decir, que existe correlación entre el número de
horas y el número de usuarios. Para cuantificar el grado de relación entre ambas variables, se ha
diseñado un experimento con una biblioteca sometida a distintos horarios consignando el número de
usuarios en cada horario:
2 horas de 5 a 7 de la tarde.
4 horas de 4 a 8 de la tarde.
6 horas de 2 a 8 de la tarde.
8 horas de 12 de la mañana a 8 de la tarde.
10 horas de 10 de la mañana a 8 de la tarde.
12 horas de 8 de la mañana a 8 de la tarde.
X
2
4
6
8
10
12
42
y
20
50
60
100
150
160
540
x,
4
16
36
64
100
144
364
y,
400
2500
3600
10000
22500
25600
64600
XY
40
200
360
800
1500
1920
4820
La tabla adjunta contiene el número de horas que permanece abierta la biblioteca (variable x) y
el número de usuarios que han entrado durante el tiempo que permanecía abierta (variable y). En
la tercera y cuarta columnas están los valores de x y de y elevados al cuadrado. Por último, en la
quinta columna está el resultado de multiplicar cada valor de x por el correspondiente de y:
El coerficiente de correlación resultante es muy alto, 098 de signo positivo, luego es una
correlación lineal directa, lo que quiere decir que cuando crece el valor de una variable crece
también el de la otra.
Para esta seguros de que la correlación no se debe al azar, sometemos el resultado a la
prueba t:
El resultado de t en el ejemplo es 9.8. En la tabla t [ver apéndice] para 4 grados de libertad (6-2)
y nivel de significación de 0.05, el valor de t es 2.776, inferior al resultado del ejemplo, y para el
nivel de significación 0.01 el valor de la tabla es 4.604, también inferior a 9.8. Luego, sin ningún
género de dudas, se puede afinnar que existe una fuerte correlación entre el número de horas que
está abierta la biblioteca y el número de usuarios.
5.1.2.
Coeficiente de correlación U de Spearman
El coeficiente U de Spearman se utiliza, como se dijo al principio, cuando los datos están
en forma de categorías o de posiciones ordenadas. También se puede usar cuando el número de
observaciones de las variables es muy alto y se hace muy dificultoso el cálculo del coeficiente de
correlación mediante el método de Pearson, convirtiéndolos en datos ordenados por rangos.
La p de Spearman se define como la correlación momento-producto aplicada a rangos de x e y, y
no a los valores brutos de los mismos. El rango, tanto de los valores de x como de y, es el número
de orden que le corresponde a cada valor de la variable, ordenádolos de menor a mayor, es decir,
asignándole el rango 1 al valor más bajo de todos.
Si varias observaciones tienen el mismo valor, les corresponderá el mismo rano y éste se calcula
sumando el número de orden que les correspondería sin tener n cuenta que tienen el mismo valor y
dividiendo por el número de repeticiones. or ejemplo, si los valores de una variable cualquiera son
los de la primera fila de la iguiente tabla, al primer 4 le correspondería el rango 2 y al segundo el
3, se suman os y se divide el resultado entre 2, que es el número de veces que está repetido 1 valor
4, dando un rango de 2.5 para cada uno de ellos:
valores
rango
0
1
4
2.5
4
2.5
5
4
7
5
8
La fórmula para calcular el coeficiente de correlación p de Spearman es la siguiente:
EJEMPLO
La sección infantil de una biblioteca pública municipal ha venido observando que, por un lado,
se está produciendo un aumento considerable de los préstamos a domicilio y, por otro, una
disminución de los libros infantiles en buen estado de conservación. Para poder averiguar si ambos
fenómenos tienen relación, y así cuantificar su grado, se ha tomado una muestra de los libros
infantiles prestados durante
x
32
40
43
51
51
51
60
60
62
74
82
85
y
200
175
175
163
161
156
142
139
139
128
121
118
Rango de x
1
2
3
5
5
5
7.5
7.5
9
10
11
12
Rango de y
12
10.5
10.5
9
8
7
6
4.5
4.5
3
2
1
D
-11
-8.5
-7.5
-4
-3
-2
1.5
3
4.5
7
9
11
D2
121
72.25
56.25
16
9
4
2.25
9
20.25
49
81
121
los doce meses de un aiío (variable x) y, por otro se ha tomado otra muestra del número de libros
infantiles en buen estado durante cada uno de los meses del mismo año (variable y). Los datos de
ambas variables están en las dos primeras columnas de la tabla adjunta. En la tercera y cuarta
columna están los rangos de x y de y. En la quinta columna (D) está la diferencia entre el rango de x
y de y. Por último, en la sexta columna (D2) están las diferencias elevadas al cuadrado:
La U resultante es -0.96. El hecho de que sea negativa significa que la correlación es inversa, es
decir, cuando aumenta el número de libros infantiles prestados disminuye el número de libros
infantiles en buen estado y, además, al ser una correlación tan alta -0.96, podríamos decir que está
cercana a la correlación inversa perfecta, que sería -1. Luego podríamos decir que existe una fuerte
asociación entre la circulación de los libros infantiles y el deterioro de los mismos.
Como los datos proceden de muestras, hay que comprobar si este resultado no es fruto del azar.
Para ello usamos la prueba t:
Antes de continuar, es necesario aclarar que para consultar la tabla t, no hay que tener en cuenta
el signo, positivo o negativo, del coeficiente, aunque no hay que olvidarlo a la hora de la
interpretación.
El valor de t en nuestro ejemplo es -10.73. Para 10 grados de libertad y nivel de significación
0.05, el valor de la tabla t es 2.228, que al ser menor que el valor t del ejemplo, significa que supera
la prueba, es decir, que la correlación no es fruto del azar. Si, para estar más seguros, miramos el
valor t de la tabla para un nivel de significación 0.01, vemos que es 3.169, también inferior al valor
t del ejemplo, luego se puede afimar que existe una fuerte relación de tipo inverso entre las dos
variables y a medida que aumenta el número de préstamos de documentos infantiles, disminuye el
número de documentos en buen estado de conservación.
5.2. La regresión
Tanto en el caso de la regresión, como en el de la correlación, ponemos en relación dos variables
(xy) con el objeto de analizar si son dependientes entre sí o simplemente mantienen un cierto tipo
de relación. Asimismo, bajo ciertas circunstancias, estas funciones son una magnífica herramienta
para la predicción.
La llamada curva de regresión de dos variables es el resultado de la aplicación de un modelo
matemático sobre sus valores, de tal suerte que la curva expresa grá ficamente el tipo de relación
que existe entre ambas variables, y en algunas ocasiones nos permite predecir la evolución futura de
los valores de una de ellas a partir de los de la otra. Aunque existen diferentes tipos de regresiones lineal, curvilínea y múltiple- aquí nos ocuparemos casi exclusivamente de la más simple de todas, la
denominada regresión lineal. Este tipo es el que corresponde a aquellos pares de variables cuyos
valores guardan entre si una relación lineal, es decir, el incremento o decremento de una de las
variables se corresponde con incrementos o decrementos proporcionales en la otra y, por tanto, la
representación gráfica de su regresión es siempre una recta.
Existiendo distintos tipos de regresiones es preciso objetivar mediante procedimientos
matemáticos la determinación del tipo de regresión que mejor se ajusta al conjunto de valores de las
variables objeto de análisis. El mayor o menor grado de ajuste entre la curva de regresión y la
expresión gráfica de los valores de las variables a los que representa dicha curva, viene dado por el
grado de proximidad de los puntos de las variables a la curva. Cuanto más próximos, más ajustada,
y cuanto más distantes, menos ajustada. Por tanto, aquella curva de regresión que esté más ajustada
será la que mejor represente la nube de puntos que forman los valores de las variables.
Este ajuste se expresa matemáticamente mediante el coeficiente de correlación entre las variables.
Los valores de dicho coeficiente oscilan entre +l y -1 siendo estos valores extremos los que
representan el mayor grado de ajuste en regresiones con pendientes positivas o negativas. En
consecuencia, los pares de variables cuyo coeficiente de correlación sea más próximo a +l ó -1
estarán más ajustadas a su recta de regresión. Así, por ejemplo, en la gráfica adjunta el coeficiente
de correlación de 0.97990 refleja matemáticamente lo que gráficamente vemos al comprobar que
todos los puntos de la gráfica están muy próximos a la recta de regresión:
Cualquier recta sigue la expresión algebraica y = a + bx, lo que sucede tambien en el caso de la
regresión lineal. Las variables x e y representan los puntos de la recta, mientras que a y b son
constantes que representan respectivamente:
a = valor de y cuando x = 0.
b = valor de la pendiente de la recta.
Trasladando esto al problema de la regresión lineal vemos que mientras la determinación del
valor de a es trivial, el valor de b resulta algo menos evidente en su cálculo. La pendiente de una
recta se calcula dividiendo el incremento o decremento de y por el de x para dos puntos dados de la
recta. Lo que se expresa:
donde:
' es el diferencial de la variable a la que acompaña.
Dicho cálculo tendrá siempre el mismo resultado en dos puntos cualesquiera por tratarse de una
recta. Si pretendemos calcular la recta de regresión podemos utilizar el método de los mínimos
cuadrados. Este método se basa en el principio de que la regresión lineal de y sobre x es una recta
que posee la propiedad de que la suma de las distancias verticales positivas y negativas sea cero y la
desviación estándar de los puntos respecto de aquella sea lo más pequeña posible.
Siguiendo con este argumento, si la ecuación de una recta es y = a + bx, la determinación de las
coordenadas de cualquiera de los puntos que la integran -Valores de x e y- nos obligará a calcular
con anterioridad los valores de las constantes a y b, que, para el caso de una regresión lineal por el
método de los mínimos cuadrados, serán:
Por último, si la relación entre dos variables es lineal y su coeficiente de correlación fuera uno o
próximo a uno, podríamos calcular los valores futuros de una de las variables a partir de los valores
de la otra. Este tipo de predicción se realiza con frecuencia cuando una de las variables es temporal,
de tal forma que conocemos sus valores futuros a prior¡ y lo que buscamos es determinar los valores
que irá tomando la otra variable a medida que pasa el tiempo. Este caso da lugar a infinidad de
posibilidades en las Ciencias sociales y particularmente en la Documentación.
En el ejemplo siguiente veremos cómo la recta de ' regresión nos ha permitido proyectar hacia el
futuro los valores de crecimiento del catálogo, y por tanto de la colección, así como los del
incremento de materias utilizadas para representar los contenidos de dicha colección. Como se
puede apreciar en la gráfica siguiente, con la simple prolongación de la recta de regresión podemos
predecir el ritmo de crecimiento de una colección asumiendo que las variables que afectan a dicha
evolución se comportarán de igual forma en el futuro. En el mismo sentido la evolución futura de
las materias también puede ser evaluada. Este ejemplo nos permite apreciar, por otra parte, la
necesidad de utilizar distintos tipos de regresiones según la evolución de los valores de las variables
que tratamos de representar. Mientras que en el caso de la evolución del catálogo la regresión lineal
resulta muy ajustada y tiene, por tanto, un coeficiente de correlación muy próximo a 1, la regresión
que resulta más ajustada por lo que afecta a la evolución de las materias es una logarítmica.
EJEMPLO
Como parte del análisis que realiza de su colección, una biblioteca quiere'calcular el número de
títulos que tendrá su catálogo, así como el número de entradas que tendrá su fichero de materias un
año después. Para realizar dicho cálculo toma como referencia los datos de registros y materias
acumuladas en el catálogo durante más de dos años. La tabla adjunta contiene en las columnas de
y(r) el número de registros acumulados mes a mes, mientras que en las columnas de y(m) aparecen
las materias acumuladas durante el mismo periodo:
Y(M)
Y(M)
Y(M)
39.116
207
7.513
10.689
22.686
39.543
1.510
7.830
10.747
4.668
23.853
41.023
3.003
8.049
10.986
8.156
26.397
42.809
4.295
8.613
11.312
11.035
28.775-
45.197
5.315
8.973
11.729
13.781
31.375
46.290
5.977
9.459
11.867
14.943
32.874
48.384
6.267
9.702
12.155
16.191
35.369
50.876
6.467
10.086
12.501
17.693
37.156
53.214
6.907
10.401
12.889
Y(r)
Y(r)
y (r)
Y(M)
Y(M)
Y(M)
1.4
20.877
39.116
207
7.513
10.689
1.631
22.686
39.543
1.510
7.830
10.747
4.668
23.853
41.023
3.003
8.049
10.986
8.156
26.397
42.809
4.295
8.613
11.312
11.035
28.775-
45.197
5.315
8.973
11.729
13.781
31.375
46.290
5.977
9.459
11.867
14.943
32.874
48.384
6.267
9.702
12.155
16.191
35.369
50.876
6.467
10.086
12.501
17.693
37.156
53.214
6.907
10.401
12.889
Y(r)
Y(r)
y (r)
1.4
20.877
1.631
Si asumimos que la recta de regresión siguiente representa la forma en que evoluciona la
relación entre la variable meses (x) y la variable registros acumulados (y), podremos contestar a la
pregunta: ¿cuántos registros tendrá el catálogo en abril de 1996?
Considerando que abril del 96 representa el valor 40 de x, la pregunta del ejemplo se formula:
¿cuál será el valor de y cuando x sea igual a 40?
Para resolver esta cuestión debemos calcular previamente los valores de a y b a licando las
fórmulas res ectivas:
El valor de y representa el número de registros que tendrá el catálogo en el mes de abril de 1996.
Para el caso de las materias la regresión más ajustada no es lineal, sino logarítmica como se
puede ver en el gráfico siguiente. De cualquier forma el cálculo sigue los mismos pasos salvo por
que se utiliza la ecuación de una curva en lugar de la de una recta.
5.3. Problemas
1)
Una biblioteca pretende comprobar si existe alguna relación entre el tiempo que los documentos
llevan en la colección y el uso que los usuarios hacen de ellos. Para lo cual ha tomado una muestra
de 10 documentos con su antiguedad en la colección y la frecuencia de uso asociada:
Antigüedad
Frecuencia
5
11
3
22
2
1 30
1 1
40 1 35
4
17
6
9
20
7
6
_8
3
Hallar el coeficiente de correlación entre estas dos variables y calcular cuantos años de antiguedad en
la colección debe tener un documento para que no se preste una sola vez.
La relación existente entre el préstamo de libros de ficción y la edad de los usuarios en una biblioteca es la
siguiente:
Edad
Doc. Ficc.
<10
60
10-19
51
20-29
48
30-39
48
40-49
29
>50
25
Hallar el coeficiente de correlación.
El número de usuarios y el número de préstamos, de una biblioteca durante los últimos 5 años son los
siguientes:
Usuarios
Préstamos
296
155
459
275
602
322
798
582
915
761
¿Qué número de préstamos se deben esperar cuando el número de usuarios llegue a 1.500?
Por otro lado, si los datos representados en el diagrama vemos que se agrupan en torno a una
curva imaginaria (ver gráfico adjunto "D"), querrá ello decir que existe relación entre las dos
variables, pero si la queremos cuantificar no podremos utilizar los coeficientes de correlación r ni p,
pues ya hemos dicho antes que sólo miden relaciones lineales, y tendríamos que utilizar funciones
estadísticas distintas las correlaciones curvilíneas que no entran en el propósito de este libro.
Sólo si al ver representados los datos en el diagrama vemos que éstos se encuentran agrupados,
con mayor o menor densidad, en torno a una línea recta imaginaria (ver gráfico adjunto "A" o "B")
entonces podremos decir que los valores de ambas variables tienen algún tipo de relación y para
cuantificarla usaremos el coeficiente de correlación r o p según de qué tipo sean los datos.
A continuación, estudiaremos cómo se calculan los dos coeficientes, empezando por el
coeficiente de correlación r de Pearson, que es el más utilizado aunque sea más difícil de calcular
que el de Spearman.
5.1.1. Coeficiente de correlación r de Pearson
El coeficiente de correlación de Pearson, también conocido con el nombre de momento-producto
de Pearson o simplemente r de Pearson, es el más difundido para calcular el grado de asociación
lineal entre los valores de dos variables de intervalo distribuidas normalmente.
Fórmula:
A la hora de interpretar el resultado hay que tener en cuenta que aunque éste sea muy alto, es
decir, cercano a la unidad, esto no significa que una de las variables sea causa o efecto de la otra,
sino que existe una fuerte relación entre ellas.
Algunos autores consideran que, independientemente del tamaño de la muestra, r debe ser como
mínimo igual a ± 0.4 para poder decir que existe una correlación significativa, aunque si el tamaño
de la muestra es muy pequefío, entonces r debe estar entre ± 0.7 y 0.8 como mínimo para decir que
existe un buen coeficiente de correlación entre las dos variables objeto de estudio.
Hay que tener en cuenta, como siempre que se trabaja con datos provenientes de muestras y no
con datos de la población, que el coeficiente de correlación resultante entre dos variables puede
deberse al azar, sobre todo cuando se trabaja con muestras pequeñas, ya que cuando se trabaja con
muestras grandes es menos probable que el coeficiente de correlación se deba a factores aleatorios.
De todas formas, se puede determinar el grado de azar que ha podido influir en el coeficiente de
correlación aplicando la prueba estadística t, que se calcula de la siguiente manera:
Fórmula:
EJEMPLO
En un trabajo de investigación se desea saber cual es el mejor horario para una biblioteca
pública. Se parte de la hipótesis de que tanto el número de horas como cuáles sean esas horas, van a
influir en el número de usuarios de la biblioteca, es decir, que existe correlación entre el número de
horas y el número de usuarios. Para cuantificar el grado de relación entre ambas variables, se ha
diseñado un experimento con una biblioteca sometida a distintos horarios consignando el número de
usuarios en cada horario:
2 horas de 5 a 7 de la tarde.
4 horas de 4 a 8 de la tarde.
6 horas de 2 a 8 de la tarde.
8 horas de 12 de la mañana a 8 de la tarde.
10 horas de 10 de la mañana a 8 de la tarde.
12 horas de 8 de la mañana a 8 de la tarde.
X
2
4
6
8
10
12
42
y
20
50
60
100
150
160
540
x,
4
16
36
64
100
144
364
y,
400
2500
3600
10000
22500
25600
64600
XY
40
200
360
800
1500
1920
4820
La tabla adjunta contiene el número de horas que permanece abierta la biblioteca (variable x) y
el número de usuarios que han entrado durante el tiempo que permanecía abierta (variable y). En
la tercera y cuarta columnas están los valores de x y de y elevados al cuadrado. Por último, en la
quinta columna está el resultado de multiplicar cada valor de x por el correspondiente de y:
El coerficiente de correlación resultante es muy alto, 098 de signo positivo, luego es una
correlación lineal directa, lo que quiere decir que cuando crece el valor de una variable crece
también el de la otra.
Para esta seguros de que la correlación no se debe al azar, sometemos el resultado a la
prueba t:
El resultado de t en el ejemplo es 9.8. En la tabla t [ver apéndice] para 4 grados de libertad (6-2)
y nivel de significación de 0.05, el valor de t es 2.776, inferior al resultado del ejemplo, y para el
nivel de significación 0.01 el valor de la tabla es 4.604, también inferior a 9.8. Luego, sin ningún
género de dudas, se puede afinnar que existe una fuerte correlación entre el número de horas que
está abierta la biblioteca y el número de usuarios.
5.1.2.
Coeficiente de correlación U de Spearman
El coeficiente U de Spearman se utiliza, como se dijo al principio, cuando los datos están
en forma de categorías o de posiciones ordenadas. También se puede usar cuando el número de
observaciones de las variables es muy alto y se hace muy dificultoso el cálculo del coeficiente de
correlación mediante el método de Pearson, convirtiéndolos en datos ordenados por rangos.
La p de Spearman se define como la correlación momento-producto aplicada a rangos de x e y, y
no a los valores brutos de los mismos. El rango, tanto de los valores de x como de y, es el número
de orden que le corresponde a cada valor de la variable, ordenádolos de menor a mayor, es decir,
asignándole el rango 1 al valor más bajo de todos.
Si varias observaciones tienen el mismo valor, les corresponderá el mismo rano y éste se calcula
sumando el número de orden que les correspondería sin tener n cuenta que tienen el mismo valor y
dividiendo por el número de repeticiones. or ejemplo, si los valores de una variable cualquiera son
los de la primera fila de la iguiente tabla, al primer 4 le correspondería el rango 2 y al segundo el
3, se suman os y se divide el resultado entre 2, que es el número de veces que está repetido 1 valor
4, dando un rango de 2.5 para cada uno de ellos:
valores
rango
0
1
4
2.5
4
2.5
5
4
7
5
8
La fórmula para calcular el coeficiente de correlación p de Spearman es la siguiente:
EJEMPLO
La sección infantil de una biblioteca pública municipal ha venido observando que, por un lado,
se está produciendo un aumento considerable de los préstamos a domicilio y, por otro, una
disminución de los libros infantiles en buen estado de conservación. Para poder averiguar si ambos
fenómenos tienen relación, y así cuantificar su grado, se ha tomado una muestra de los libros
infantiles prestados durante
x
32
40
43
51
51
51
60
60
62
74
82
85
y
200
175
175
163
161
156
142
139
139
128
121
118
Rango de x
1
2
3
5
5
5
7.5
7.5
9
10
11
12
Rango de y
12
10.5
10.5
9
8
7
6
4.5
4.5
3
2
1
D
-11
-8.5
-7.5
-4
-3
-2
1.5
3
4.5
7
9
11
D2
121
72.25
56.25
16
9
4
2.25
9
20.25
49
81
121
los doce meses de un aiío (variable x) y, por otro se ha tomado otra muestra del número de libros
infantiles en buen estado durante cada uno de los meses del mismo año (variable y). Los datos de
ambas variables están en las dos primeras columnas de la tabla adjunta. En la tercera y cuarta
columna están los rangos de x y de y. En la quinta columna (D) está la diferencia entre el rango de x
y de y. Por último, en la sexta columna (D2) están las diferencias elevadas al cuadrado:
La U resultante es -0.96. El hecho de que sea negativa significa que la correlación es inversa, es
decir, cuando aumenta el número de libros infantiles prestados disminuye el número de libros
infantiles en buen estado y, además, al ser una correlación tan alta -0.96, podríamos decir que está
cercana a la correlación inversa perfecta, que sería -1. Luego podríamos decir que existe una fuerte
asociación entre la circulación de los libros infantiles y el deterioro de los mismos.
Como los datos proceden de muestras, hay que comprobar si este resultado no es fruto del azar.
Para ello usamos la prueba t:
Antes de continuar, es necesario aclarar que para consultar la tabla t, no hay que tener en cuenta
el signo, positivo o negativo, del coeficiente, aunque no hay que olvidarlo a la hora de la
interpretación.
El valor de t en nuestro ejemplo es -10.73. Para 10 grados de libertad y nivel de significación
0.05, el valor de la tabla t es 2.228, que al ser menor que el valor t del ejemplo, significa que supera
la prueba, es decir, que la correlación no es fruto del azar. Si, para estar más seguros, miramos el
valor t de la tabla para un nivel de significación 0.01, vemos que es 3.169, también inferior al valor
t del ejemplo, luego se puede afimar que existe una fuerte relación de tipo inverso entre las dos
variables y a medida que aumenta el número de préstamos de documentos infantiles, disminuye el
número de documentos en buen estado de conservación.
5.2. La regresión
Tanto en el caso de la regresión, como en el de la correlación, ponemos en relación dos variables
(xy) con el objeto de analizar si son dependientes entre sí o simplemente mantienen un cierto tipo
de relación. Asimismo, bajo ciertas circunstancias, estas funciones son una magnífica herramienta
para la predicción.
La llamada curva de regresión de dos variables es el resultado de la aplicación de un modelo
matemático sobre sus valores, de tal suerte que la curva expresa grá ficamente el tipo de relación
que existe entre ambas variables, y en algunas ocasiones nos permite predecir la evolución futura de
los valores de una de ellas a partir de los de la otra. Aunque existen diferentes tipos de regresiones lineal, curvilínea y múltiple- aquí nos ocuparemos casi exclusivamente de la más simple de todas, la
denominada regresión lineal. Este tipo es el que corresponde a aquellos pares de variables cuyos
valores guardan entre si una relación lineal, es decir, el incremento o decremento de una de las
variables se corresponde con incrementos o decrementos proporcionales en la otra y, por tanto, la
representación gráfica de su regresión es siempre una recta.
Existiendo distintos tipos de regresiones es preciso objetivar mediante procedimientos
matemáticos la determinación del tipo de regresión que mejor se ajusta al conjunto de valores de las
variables objeto de análisis. El mayor o menor grado de ajuste entre la curva de regresión y la
expresión gráfica de los valores de las variables a los que representa dicha curva, viene dado por el
grado de proximidad de los puntos de las variables a la curva. Cuanto más próximos, más ajustada,
y cuanto más distantes, menos ajustada. Por tanto, aquella curva de regresión que esté más ajustada
será la que mejor represente la nube de puntos que forman los valores de las variables.
Este ajuste se expresa matemáticamente mediante el coeficiente de correlación entre las variables.
Los valores de dicho coeficiente oscilan entre +l y -1 siendo estos valores extremos los que
representan el mayor grado de ajuste en regresiones con pendientes positivas o negativas. En
consecuencia, los pares de variables cuyo coeficiente de correlación sea más próximo a +l ó -1
estarán más ajustadas a su recta de regresión. Así, por ejemplo, en la gráfica adjunta el coeficiente
de correlación de 0.97990 refleja matemáticamente lo que gráficamente vemos al comprobar que
todos los puntos de la gráfica están muy próximos a la recta de regresión:
Cualquier recta sigue la expresión algebraica y = a + bx, lo que sucede tambien en el caso de la
regresión lineal. Las variables x e y representan los puntos de la recta, mientras que a y b son
constantes que representan respectivamente:
a = valor de y cuando x = 0.
b = valor de la pendiente de la recta.
Trasladando esto al problema de la regresión lineal vemos que mientras la determinación del
valor de a es trivial, el valor de b resulta algo menos evidente en su cálculo. La pendiente de una
recta se calcula dividiendo el incremento o decremento de y por el de x para dos puntos dados de la
recta. Lo que se expresa:
donde:
' es el diferencial de la variable a la que acompaña.
Dicho cálculo tendrá siempre el mismo resultado en dos puntos cualesquiera por tratarse de una
recta. Si pretendemos calcular la recta de regresión podemos utilizar el método de los mínimos
cuadrados. Este método se basa en el principio de que la regresión lineal de y sobre x es una recta
que posee la propiedad de que la suma de las distancias verticales positivas y negativas sea cero y la
desviación estándar de los puntos respecto de aquella sea lo más pequeña posible.
Siguiendo con este argumento, si la ecuación de una recta es y = a + bx, la determinación de las
coordenadas de cualquiera de los puntos que la integran -Valores de x e y- nos obligará a calcular
con anterioridad los valores de las constantes a y b, que, para el caso de una regresión lineal por el
método de los mínimos cuadrados, serán:
Por último, si la relación entre dos variables es lineal y su coeficiente de correlación fuera uno o
próximo a uno, podríamos calcular los valores futuros de una de las variables a partir de los valores
de la otra. Este tipo de predicción se realiza con frecuencia cuando una de las variables es temporal,
de tal forma que conocemos sus valores futuros a prior¡ y lo que buscamos es determinar los valores
que irá tomando la otra variable a medida que pasa el tiempo. Este caso da lugar a infinidad de
posibilidades en las Ciencias sociales y particularmente en la Documentación.
En el ejemplo siguiente veremos cómo la recta de ' regresión nos ha permitido proyectar hacia el
futuro los valores de crecimiento del catálogo, y por tanto de la colección, así como los del
incremento de materias utilizadas para representar los contenidos de dicha colección. Como se
puede apreciar en la gráfica siguiente, con la simple prolongación de la recta de regresión podemos
predecir el ritmo de crecimiento de una colección asumiendo que las variables que afectan a dicha
evolución se comportarán de igual forma en el futuro. En el mismo sentido la evolución futura de
las materias también puede ser evaluada. Este ejemplo nos permite apreciar, por otra parte, la
necesidad de utilizar distintos tipos de regresiones según la evolución de los valores de las variables
que tratamos de representar. Mientras que en el caso de la evolución del catálogo la regresión lineal
resulta muy ajustada y tiene, por tanto, un coeficiente de correlación muy próximo a 1, la regresión
que resulta más ajustada por lo que afecta a la evolución de las materias es una logarítmica.
EJEMPLO
Como parte del análisis que realiza de su colección, una biblioteca quiere'calcular el número de
títulos que tendrá su catálogo, así como el número de entradas que tendrá su fichero de materias un
año después. Para realizar dicho cálculo toma como referencia los datos de registros y materias
acumuladas en el catálogo durante más de dos años. La tabla adjunta contiene en las columnas de
y(r) el número de registros acumulados mes a mes, mientras que en las columnas de y(m) aparecen
las materias acumuladas durante el mismo periodo:
Y(M)
Y(M)
Y(M)
39.116
207
7.513
10.689
22.686
39.543
1.510
7.830
10.747
4.668
23.853
41.023
3.003
8.049
10.986
8.156
26.397
42.809
4.295
8.613
11.312
11.035
28.775-
45.197
5.315
8.973
11.729
13.781
31.375
46.290
5.977
9.459
11.867
14.943
32.874
48.384
6.267
9.702
12.155
16.191
35.369
50.876
6.467
10.086
12.501
17.693
37.156
53.214
6.907
10.401
12.889
Y(r)
Y(r)
y (r)
Y(M)
Y(M)
Y(M)
1.4
20.877
39.116
207
7.513
10.689
1.631
22.686
39.543
1.510
7.830
10.747
4.668
23.853
41.023
3.003
8.049
10.986
8.156
26.397
42.809
4.295
8.613
11.312
11.035
28.775-
45.197
5.315
8.973
11.729
13.781
31.375
46.290
5.977
9.459
11.867
14.943
32.874
48.384
6.267
9.702
12.155
16.191
35.369
50.876
6.467
10.086
12.501
17.693
37.156
53.214
6.907
10.401
12.889
Y(r)
Y(r)
y (r)
1.4
20.877
1.631
Si asumimos que la recta de regresión siguiente representa la forma en que evoluciona la
relación entre la variable meses (x) y la variable registros acumulados (y), podremos contestar a la
pregunta: ¿cuántos registros tendrá el catálogo en abril de 1996?
Considerando que abril del 96 representa el valor 40 de x, la pregunta del ejemplo se formula:
¿cuál será el valor de y cuando x sea igual a 40?
Para resolver esta cuestión debemos calcular previamente los valores de a y b a licando las
fórmulas res ectivas:
El valor de y representa el número de registros que tendrá el catálogo en el mes de abril de 1996.
Para el caso de las materias la regresión más ajustada no es lineal, sino logarítmica como se
puede ver en el gráfico siguiente. De cualquier forma el cálculo sigue los mismos pasos salvo por
que se utiliza la ecuación de una curva en lugar de la de una recta.
5.3. Problemas
1)
Una biblioteca pretende comprobar si existe alguna relación entre el tiempo que los documentos
llevan en la colección y el uso que los usuarios hacen de ellos. Para lo cual ha tomado una muestra
de 10 documentos con su antiguedad en la colección y la frecuencia de uso asociada:
Antigüedad
Frecuencia
5
11
3
22
2
1 30
1 1
40 1 35
4
17
6
9
20
7
6
_8
3
Hallar el coeficiente de correlación entre estas dos variables y calcular cuantos años de antiguedad en
la colección debe tener un documento para que no se preste una sola vez.
La relación existente entre el préstamo de libros de ficción y la edad de los usuarios en una biblioteca es la
siguiente:
Edad
Doc. Ficc.
<10
60
10-19
51
20-29
48
30-39
48
40-49
29
>50
25
Hallar el coeficiente de correlación.
El número de usuarios y el número de préstamos, de una biblioteca durante los últimos 5 años son los
siguientes:
Usuarios
Préstamos
296
155
459
275
602
322
798
582
915
761
¿Qué número de préstamos se deben esperar cuando el número de usuarios llegue a 1.500?
Moya Anegón, Félix, López Gijón, Javier, García Caro, Concepción. Técnicas cuantitativas
aplicadas a la biblioteconomía y documentación--Madrid:Síntesis,1996.174p.
6- INDICADORES PARA LA EVALUACIÓN Y TOMA DE DECISIONES EN BIBLIOTECAS
6.1. Introducción
Cuando en el curso 1993-94 la entonces Escuela Universitaria de Biblioteconomía y
Documentación de la Universidad de Granada organizó el master universitario en Tecnología de la
información y gestión documental, Félix de Moya, director del master, encargó a Josefina Vilchez
Pardo y Javier López Gijón la preparación de un módulo sobre Herramientas informáticas para la
evaluación de bibliotecas, que se desarrollaría como proyecto con los alurrmos de dicho curso.
Con tal encargo se pretendia cubrir una laguna de los planes de estudios entonces existentes,
pues en dichos planes no se incluía nada que estuviera relacionado con la evaluación, toma de
decisiones y métodos cuantitativos de análisis, y mucho menos con el uso del ordenador como una
potente herran-úenta de trabajo en este campo.
De la experiencia adquirida en la puesta en práctica de este proyecto surgió una comunicación
presentada a las IVJomadas Españolas de documentación automatizada (López Gijón y Vílchez
Pardo, 1994). Con posterioridad estos materiales fueron ampliados y reelaborados para presentar
una ponencia en las VII Jomadas de bibliotecas públicas organizadas por la Asociación de
Bibliotecarios y Documentalistas de Guipúzcoa (López Gijón, 1996).
Pero nada de lo anterior tendría mucho sentido si no fuera porque, una vez embarcados en la
tarea de preparación de este libro sobre Técnicas cuantitativas aplicadas a la Biblioteconomía y
Documentación, tuvimos conocimiento de que la Organización Internacional de Normalización
(ISO) tiene muy avanzados los trabajos de preparación de una norma internacional de rendimiento
(performance) de servicios bibliotecarios (ISO CD 11620). Una presentación preliminar de dicha
nonna la realizó en IFLA 95 Pierre Carbone (1995) y es a través de esta comunicación como hemos
conocido detalles suficientes de la misma.
El hecho de que ISO esté preparando esta norma, y que en el congreso de IFLA 95 se tratara en
la sección de estadística de los indicadores bibliotecarios, su función, los problemas que
presentan, etc., nos hizo ver la necesidad de que en estos momentos, en lo que pretendemos sea un
manual de Técnicas cuantitativas, era necesario dedicar una parte del mismo al tema de los
indicadores.
Un buen manual que nos puede servir para introducirnos en este campo es el de N. Van House;
M. J. Lynch; C. McCIure, et al. (1987), recientemente acaba de traducirse "Keys to succes:
Performance indicators for public libraries" (Claves, 1995). También en castellano puede
consultarse "Medición de la eficacia de las bibliotecas públicas" (Moore, 1988).
6.2. Indicadores
Es conocido que nuestro país, en estudios estadísticos, tiene una de las peores calidades de la
Unión Europea. Pero en nuestro campo no podemos decir que los análisis estadísticos no estén a
la altura de la media europea, sencillamente no existen.
En Espaiía apenas se realizan evaluaciones objetivas de bibliotecas, la toma de decisiones no
se basa en ningún criterio que podamos considerar consistente y la mayoría de las bibliotecas
carecen de objetivos en su gestión. Es lógico, por tanto, que el uso de estadísticas y de
indicadores de rendimiento sea escasa. Estos temas forman parte de un debate que está todavía
pendiente de iniciarse.
Por esta razón sería quizá más conveniente empezar planteando una serie de puntos sobre qué
es evaluar, cómo se preparan las condiciones para evaluar, los diversos aspectos y problemas que
plantea, para qué evaluar, qué evaluar, cómo se realiza la evaluación y los problemas de la
medición, para terminar planteándonos la interpretación de resultados.
Una vez discutidos estos puntos, es decir, enmarcados los indicadores en su contexto,
estaríamos en mejores condiciones de ver distintos indicadores y saber para qué nos pueden servir
y cómo utilizarlos.
Sin embargo, dado que los puntos anteriores están ya de alguna manera desarrollados (López
Gijón, 1996), nos ha parecido preferible dedicar este apartado a desarrollar los indicadores que
aparecerán en la futura norma.
El esquema que vamos a seguir en la mayoría de los casos será: primero aclarar el concepto del
indicador, después daremos la fórmula para calcularlo, seguida de un ejemplo, para terminar
viendo el análisis y uso de datos y las posibilidades que tiene el indicador de ser utilizado en la
realización de nuevos cálculos.
Como verá el lector hay indicadores muy fáciles de obtener, pues consisten sencillamente en una
división. Otros tendrán más complejidad de cálculo y es posible que la futura norma ISO proponga
la realización de dicho cálculo de forma diferente, pero si el concepto es el mismo es evidente que
la forma de calcularlo es anecdótico y cada uno podrá hacerlo como le resulte más cómodo. Lo
cierto es que aquellos indicadores que son más complejos son también los más potentes, pues nos
permiten obtener información más pertinente. La utilización del ordenador para producir estos
indicadores nos permitirá salvar el problema de su com plejidad y tener más información y de base
más sólida para la evaluación y toma de decisiones.
Puede ser que alguno de los indicadores que vamos a exponer a continuación no se recogan en la
norma, o que en la norma aparezca alguno que nosotros no tratamos. Pero pensamos que este
apartado del libro puede ser util para aquellas bibliotecas y bibliotecarios que quieran iniciarse o
profundizar, según el caso, en las cuestiones de evaluación, cuantificación y toma de decisiones.
Aunque cada indicador es independiente de los otros y se pueden calcular por separado los
vamos a agrupar en grandes bloques, en función de lo que suelen medir, si bien cada biblioteca
podrá hacer uso tan sólo de los que crea oportunos en función de sus objetivos y de lo que desee
conocer:
A)
Uso y disponibilidad de la biblioteca: 1) Porcentaje de inscripciones en la biblioteca. 2)
Asistencia a los actos de la biblioteca per cápita. 3) Visitas a la biblioteca per cápita. 4)
Porcentaje de usuarios activos. 5) Puestos de lectura per cápita.
B)
Proceso técnico: 1) Tiempo de catalogación.
C)
Uso y disponibilidad de materiales: 1) Circulación per cápita. 2) Porcentaje de títulos
localizados. 3) Porcentaje de materias localizadas. 4) Porcentaje de localización por hojeo.
5) Velocidad de suministro. 6) Media ponderada por horas de apertura semanal.
D)
Acceso a los materiales: 1) Capacidad básica de la biblioteca para suministrar materiales.
E)
Análisis de la colección: 1) Encuesta a los usarios. 2) Documentos que circulan y no
circulan. 3) Porcentaje de fracasos en la búsqueda sobre catálogo. 4) Tasa de crecimiento
anual.
F)
Sección de referencia: 1) Transacciones de referencia per cápita. 2) Porcentaje de
transacciones de referencia finalizadas.
G)
Costos: 1) De catalogación. 2) Por título catalogado. 3) Por préstamo.
6.2.1.
Uso y disponibilidad de la biblioteca
6.2.1.1.
Porcentaje de inscripciones en la biblioteca
-
Concepto: Este indicador nos informa de la proporción de la población (comunidad a la
que intenta servir la biblioteca) que está inscrita en la biblioteca.
Fórmula: Número de socios de la biblioteca (S) dividido por la población (P) de la
jurisdicción (SIP). El resultado se multiplica por cien para obtener el porcentaje.
-
EJEMPLO
Una biblioteca debe atender una zona con una población de 5.430 usuarios, de os que 3.200 son
socios de la biblioteca. Si dividimos la población (5.430) entre los Inscriptos (3.200) obtenemos
0.59, que multiplicado por 100 para obtener el porcenaje nos da que la proporción de inscripciones
en la biblioteca es del 59%.
-
-
6.2.1.2.
Análisis y uso de datos: Este indicador nos servirá para conocer el grado de penetración
que tiene la biblioteca en la comunidad a la que sirve. Tendrá más sentido comparar
este indicador en el transcurso del tiempo en la misma biblioteca que con otras.
Otras posibilidades de aplicación del indicador: Conocer donde se localizan (a nivel
de zona geográfica, estudios, hábitos ... ) los sectores de población que no están inscritos
en la biblioteca.
Asistencia a los actos de la biblioteca per casita
-
Concepto: Este indicador relaciona la asistencia a las actividades promovidas por la
biblioteca, con la población de la jurisdicción.
La asistencia a las actividades de la biblioteca per cápita se obtiene al finalizar el año y se tiene en
cuenta el total de asistentes, aunque también podría hacerse una proyección a partir de una muestra.
Fórmula: La asistencia a los actos (A) de la biblioteca se divide por la población (P) de la
jurisdicción (AIP).
EJEMPLO
Una biblioteca sirve a una jurisdicción con una población de 25.837. La asistencia anual a las
actividades del centro es de 12.807. Esta cantidad dividida por la población es igual a 0.5, que es la
asistencia a los actos de la biblioteca per cápita.
- Análisis y uso de datos: Los resultados de la puntuación de una biblioteca en esta
medición deben ser analizados dentro de los grandes objetivos de la biblioteca.
- Otras posibilidades de aplicación del indicador: Determinar la asistencia media para
distintos actos.
Analizar asistencia por tipo de actividad (hora del cuento, películas, conferencias, etc.).
Determinar asistencia en actos juveniles por per cápita juvenil y asistencia a actividades de adultos
por per cápita de adultos.
6.2.1.3. Visitas a la biblioteca per casita
-
Concepto: Este indicador mide el número de entradas que se producen en la biblioteca en
un período de tiempo determinado.
EJEMPLO
Una biblioteca debe atender una zona con una población de 5.430 usuarios, de os que 3.200 son
socios de la biblioteca. Si dividimos la población (5.430) entre los Inscriptos (3.200) obtenemos
0.59, que multiplicado por 100 para obtener el porcenaje nos da que la proporción de inscripciones
en la biblioteca es del 59%.
-
-
6.2.1.2.
Análisis y uso de datos: Este indicador nos servirá para conocer el grado de penetración
que tiene la biblioteca en la comunidad a la que sirve. Tendrá más sentido comparar
este indicador en el transcurso del tiempo en la misma biblioteca que con otras.
Otras posibilidades de aplicación del indicador: Conocer donde se localizan (a nivel
de zona geográfica, estudios, hábitos ... ) los sectores de población que no están inscritos
en la biblioteca.
Asistencia a los actos de la biblioteca per casita
-
Concepto: Este indicador relaciona la asistencia a las actividades promovidas por la
biblioteca, con la población de la jurisdicción.
La asistencia a las actividades de la biblioteca per cápita se obtiene al finalizar el año y se tiene en
cuenta el total de asistentes, aunque también podría hacerse una proyección a partir de una muestra.
Fórmula: La asistencia a los actos (A) de la biblioteca se divide por la población (P) de la
jurisdicción (AIP).
EJEMPLO
Una biblioteca sirve a una jurisdicción con una población de 25.837. La asistencia anual a las
actividades del centro es de 12.807. Esta cantidad dividida por la población es igual a 0.5, que es la
asistencia a los actos de la biblioteca per cápita.
- Análisis y uso de datos: Los resultados de la puntuación de una biblioteca en esta
medición deben ser analizados dentro de los grandes objetivos de la biblioteca.
- Otras posibilidades de aplicación del indicador: Determinar la asistencia media para
distintos actos.
Analizar asistencia por tipo de actividad (hora del cuento, películas, conferencias, etc.).
Determinar asistencia en actos juveniles por per cápita juvenil y asistencia a actividades de adultos
por per cápita de adultos.
6.2.1.3. Visitas a la biblioteca per casita
-
Concepto: Este indicador mide el número de entradas que se producen en la biblioteca en
un período de tiempo determinado.
- Fórmula: Número de puestos de lectura dividido por la población.
EJEMPLO
Una biblioteca cuenta con 75 puestos de lectura y tiene una población de 700 personas. La
biblioteca tiene 0.11 puestos de lectura por individuo de la población.
-
Análisis y uso de datos: Este indicador podrá compararse con la normas nacionales o
internacionales al respecto, lo que nos permitirá saber si la disponibilidad del centro es
equiparable con lo que se considera idóneo.
Otras posibilidades de aplicación del indicador: Conocer la tasa de ocupación de puestos
que tiene la biblioteca.
Adaptar el número de puestos de lectura, y por tanto el espacio, de la biblioteca (infantil,
hemeroteca, etc.) a la utilización real que hacen los usuarios.
6.2.2.
Proceso técnico
6.2.2.1. Tiempo de catalogación
En el primer capítulo del libro, dentro del apartado de Medidas de centralización (1.1.1) se
encuentra un punto sobre Cálculo de la media de datos agrupados (1.1.1.4). Como puede
observarse en el ejemplo, se calcula el tiempo medio de cátalogación en una biblioteca. Por tanto,
este ejemplo nos puede servir para calcular este indicador, tan sólo necesitamos sustituir los datos
del ejemplo por los de la biblioteca que pretendemos evaluar.
6.2.3.
Uso y disponibilidad de materiales
6.2.3.
1. Circulación per cápita
-
Concepto: La circulación per cápita mide el número de documentos que circulan en la
biblioteca en relación a la población de la comunidad a la que sirve. La circulación anual
es la circulación total de todos los materiales de la biblioteca. Estos materiales deben ser
contados sólo cuando los deja la biblioteca en manos de los usuarios. Las transacciones
que se produzcan por préstamo interbibliotecario se incluyen en este punto. Las prórrogas
de préstamo se cuentan como nuevos préstamos.
La población de la jurisdicción es el número de usuarios potenciales del área que la biblioteca
se propone atender.
Fórmula: Para calcular la circulación per cápita se divide la circulación anual (C) por la
población (P) de la jurisdicción (CIP).
EJEMPLO
Una biblioteca con una circulación anual de 197.426 documentos el último año sirve a una
población de 100.047 personas. Su circulación per cápita fue de 1.97 documentos para ese aiío.
-
Análisis y uso de datos: La circulación per cápita es una medida de la penetración de la
biblioteca en la comunidad y del alcance de sus servicios, así como del uso que se hace de
los materiales.
El estudio de la circulación es uno de los aspectos fundamentales de la evaluación
bibliotecaria, de ahí la importancia de su análisis. Los centros que cuenten con Sistemas
Integrados de Gestión Bibliotecaria dispondrán de gran cantidad de datos para realizar estos
análisis.
Otras posibilidades de aplicación del indicador: En este indicador nos vamos a detener
más para ver 'otras posibilidades', ya que si los indicadores que estamos analizando los
calculamos con ordenador se pueden desarrollar muchas de las posibilidades que
mencionamos en estos apartados y otras que podrán interesar a la biblioteca en cuestión.
Este indicador se puede calcular también para distintos tipos de usuarios o de materiales, en
cuyo caso dará mucha más información, por ejemplo, se puede detectar que la circulación per
cápita varía muy significativamente de los usuarios tipo A a los usuarios tipo B. Esto mismo lo
podemos hacer para los distintos tipos de materiales, y conocer la circulación que tienen
monograflas, materiales no librarios, publicaciones periódicas, etc.
Si generamos este indicador para una colección cuyo catálogo utiliza, por ejemplo, la
clasificación CDU, podemos calcular la circulación per cápita para los fondos agrupados por
clases.
El cálculo de este indicador y su ampliación para los distintos tipos de usuarios, materiales o
clases que acabamos de comentar, puede hacerse con una hoja de cálculo (López Gijón y
Vilchez Pardo; 1994: 274). Tan sólo habrá que introducir los datos y la hoja nos calculará
automáticamente la circulación per cápita, en general, por tipos de usuarios, por tipo de
material, y si sustituimos los tipos de material por una clasificación nos da también la
circulación per cápita en función de la clasificación seguida.
Como puede observarse, con esta hoja se puede calcular también el porcentaje de circulación
para los distintos materiales, así como el porcentaje de fondos. También con esta hoja de
cálculo, puesto que se ha introducido el presupuesto para los distintos materiales, se puede
calcular el porcentaje de presupuesto asignado a los distintos tipos de materiales (este cálculo
también se podría hacer en función de una clasificación o por materias).
Por la descripción que acabamos de hacer se ve que la introducción de los datos en una hoja de
cálculo para producir los indicadores es muy rentable, pues permite un gran número de
cálculos con tan solo diseñar la hoja.
Podemos consultar Philip M. Clark (1985) para conocer un gran número de hojas de cálculo
específicamente diseñadas para bibliotecas, que pueden ser muy útiles.
6.2.3.2. Porcentaje de títulos localizados
- Concepto: Esta medición nos informa de la proporción de títulos específicos deseados por
los usarios de una biblioteca que estaban en la colección en el momento de ser demandados.
Los datos requeridos para obtener este indicador son el número de títulos buscados y el número
de títulos encontrados. Estos datos se obtienen de una encuesta hecha a los usuarios en un
período determinado. - Fórmula: Número de títulos localizados (TL) dividido por el número
de títulos buscados (TLITB). El resultado se multiplica por cien para obtener el porcentaje.
EJEMPLO
Durante un período concreto, 420 usuarios entraron en la biblioteca, de los cuales 250 buscaron
uno o varios títulos específicos. El total de títulos buscados fue de 280, de estos 198 fueron
localizados. 198 dividido entre 280 da 0.707, que multiplicado por 100 para establecer el
porcentaje da un 70.7% de títulos localizados.
Análisis y uso de datos: Este indicador da información del grado en que la colección de
la biblioteca satisface las demandas específicas de los usarlos, en lo que a títulos se
refiere. Esta medición también refleja el grado en que los usuarios de la biblioteca son
capaces de encontrar los materiales que buscan.
Algunos usuarios no localizarán el material que desean, no porque no esté disponible en la
biblioteca, sino porque ellos no saben encontrarlo. Por tanto deberán incrementarse el número y
efectividad de ayudas para la localización de materiales, tales como señalización, formación de
usuarios, etc.
Otras posibilidades de aplicación del indicador. Calcular separadamente el
porcentaje de títulos localizados por tipo de usuario Góvenes y adultos, profesores y
alumnos ... ).
Analizar el porcentaje de títulos localizados por secciones de la colección. Realizar un seguimiento
de los títulos no encontrados, determinando su causa (tftulos no adquiridos, adquiridos pero no
disponibles, disponibles pero no localizados por el usuario, títulos mal colocados...
6.2.3.3.
Porcentaje de materias localizadas
-
Concepto: Este indicador es parecido al de porcentaje de títulos localizados. Mide las
materias demandadas que están disponibles en la biblioteca.
Los datos para realizar esta medición son el número de materias localizadas y el número de materias
buscadas. Estos datos se obtienen de una encuesta hecha a los usuarios en un período determinado.
El indicador se expresa como el porcentaje de materias a través de las cuales se encontraron
documentos. Se incluyen en este indicador búsquedas del tipo "un libro de poesía barroca", "obras
sobre metodología de la investigación en ciencias sociales", etc. Para contar las materias
solicitadas, la unidad es la materia, no el número de documentos encontrados.
Si un usuario busca información sobre elaboración de resúmenes y sobre técnicas de estudio,
localizando solamente un libro y un artículo sobre el primer tema, pero ningún material sobre el
segundo, se contará como dos materias buscadas y una localizada. Las peticiones recibidas por
teléfono no se cuentan para calcular este indicador. - Fórmula: Número de materias localizadas
(ML) dividido por el número de materias buscadas (MLIMB). Este resultado se multipica por
cien para obtener el porcentaje.
EJEMPLO
Una biblioteca realiza una encuesta a 200 usuarios durante un periodo determinado: 80 de las
respuestas indican que se solicitaron un total de 125 materias, de las cuales se localizaron 75. Se
divide 75 (número de materias localizadas) por 125 (número de materias buscadas), el resultado es
0.6 que multiplicado por 100 para obtener el porcentaje da un 60% de materias localizadas.
-
Análisis y uso de datos: Este indicador da información del grado en que la colección de
la biblioteca satisface las demandas específicas de los usuarios, en lo que a materias se
refiere.
Algunos usuarios no localizarán el material que desean no porque no esté disponible en la
biblioteca, sino porque ellos no saben encontrarlo. Por tanto deberán incrementarse el número y
efectividad de ayudas para la localización de materiales, tales como señalización, formación de
usuarios, etc.
Esta medición tiene relación con la anterior -porcentaje de tftulos localizados- por lo que deben ser
analizadas paralelamente.
Otras posibilidades de aplicación del indicador: Determinar el porcentaje de materias
localizadas de forma separada para los distintos tipos de usuarios.
Identificar secciones de la colección donde existen materias que no se encuentran.
6.2.3.4.
Porcentaje de localización por hojeo
-
Concepto: Muchos usuarios dedican su tiempo a hojear en la colección de la biblioteca.
Entendemos por hojear el ir mirando entre la colección de la biblioteca buscando algo de
interés para el usuario. Lo que tenemos presente en esta medición es el número de
usuarios que encuentran algo mientras que hojean comparado con el número total de
usuarios que hojean.
Los datos necesarios para producir este indicador son el número de usuarios que encuentran algo y
el número total de los que hojearon. Estos datos se deben obtener a partir de una encuesta hecha a
los usuarios en un período determinado.
Fórmula: Número de usuarios que hojean y encuentran algo dividido por el número
total de personas que hojearon. El resultado se multiplica por cien para producir el
porcentaje.
EJEMPLO
De las 200 personas que completaron la encuesta, 164 indican que hojearon los materiales
durante su visita a la biblioteca, 120 de los cuales localizaron algo. El número 120 -usuarios que
encuentran algo- se divide por 164 -número de personas que hojearon-, lo que da 0.73. Se
multiplica por cien para obtener el porcentaje, de
donde resulta que el tanto por ciento de localización por hojeo es del 73%.
-
Análisis y uso de datos: Este indicador da información del grado en que la colección de la
biblioteca satisface las demandas específicas de los usuarios. Algunos usuarios no
localizarán el material que desean no porque no esté disponible en la biblioteca, sino porque
no han sabido encontrarlo. Por tanto deberán incrementarse el número y efectividad de
ayudas para la localización de materiales, tales como señalización, formación de usuarios,
etc.
Otras posibilidades de aplicación del indicador: Saber qué otras cosas hacen los usuarios
en la biblioteca (estudiar, fotocopian..).
-
6.2.3.5.
Velocidad de suministro
Concepto:
Entenderemos por velocidad de suministro el tiempo que tarda la biblioteca
en conseguir un documento, pedido por un usuario, que no forma parte en ese momento de
la colección. Solamente tendremos presente aquellos documentos que, finalmente, se
suministraron al usuario. Los no suministrados no se cuentan para producir este indicador
aunque pueden ser objeto de otro indicador.
- Fórmula: Para calcular la velocidad de suministro la biblioteca puede contar
con un fichero en el que constan los datos de todos los documentos pedidos con la fecha en
que se pidieron y cuando el documento se recibe se hace constar la fecha de recepción.
Después, se calcula el número de dias que ha tardado en recibirse cada pedido (restando la
fecha de recepción de la de petición). Con estos datos, al terminar el año la biblioteca
tendrá un fichero en el que constará el número de dias que han tardado en recibirse cada
uno de los pedidos.
A partir de este fichero (que al estar todos los pedidos es la población) se puede elegir una
muestra aleatoria de n pedidos y después calcular la mediana de esta muestra. El resultado
del cálculo de la mediana será el tiempo mediano que tarda la biblioteca en suministrar los
documentos.
Otra forma de averiguar la velocidad de suministro sería recurrir al cálculo de la mediana de
valores agrupados (apartado 1.1.1.5), para lo cual tendríamos que construir una tabla donde
se recogen el número de pedidos que se corresponden con cada intervalo de tiempo y
siguiendo este apartado y su ejemplo se puede realizar el cálculo del tiempo mediano de
suministro de documentos.
- Análisis y uso de datos: Nótese que hemos medido la velocidad de suministro hasta que
la biblioteca recibe el documento, no hasta que lo tiene el usuario en mano. Para calcular
esto tendríamos que sumar, a la velocidad de suministro, el tiempo que todavía tarda en
estar el documento a disposición del usuario.
- Otras posibilidades de aplicación del indicador. Las posibilidades que los indicadores ofrecen son muy amplias y están en relación con los conocimientos estadísticos
que se posean. Por ejemplo, en este caso podemos suponer que las bibliotecas
universitarias de la Universidad A tienen una velocidad de suministro en días de (22, 31,
34, 35, 32, 43, 23, 24) y las de la Universidad B (1 5, 23, 24, 15, 19, 20, 19, 20). Estas
muestras podrían someterse a una prueba de hipótesis para ver si hay diferencias
significativas entre los tiempos de suministro de las bibliotecas universitarias de estas dos
Universidades. En caso de que existieran diferencias significativas las bibliotecas de la
Universidad que tienen más velocidad deberian de ser estudiadas por las de la Universidad
que tardan más tiempo en suministrar los documentos, para ver cual es la razón de que las
bibliotecas de la otra Universidad sean más eficaces en este aspecto.
6.2.3.6.
Media ponderada por horas de apertura semanales
-
Concepto: Este indicador no sirve simplemente para reflejar la media de horas que un
centro está abierto por semana. Sino que en lugar de dar este resultado como un
indicador, lo podemos someter a un factor de ponderación que lo relacione, por ejemplo,
con el tamaño de la colección.
Fórmula: Las medias de horas abiertas por semana, en el periodo determinado, se
multiplican por el factor de ponderación, lo que nos da la media de horas abiertas en
función del factor de ponderación (media ponderada). Luego se suman los resultados de
estas medias ponderadas y este total se divide por el sumatorio de los factores de
ponderación.
-
EJEMPLO
Una biblioteca universitaria esta compuesta de una biblioteca general (BG), una biblioteca de
campus (BC), una biblioteca de facultad (BF) y una biblioteca de un instituto universitario (BI). El
número de volumenes de cada una de estas bibliotecas es: 41.000, 22.000, 10.000 y 7.000 en 1994.
Para calcular el factor de ponderación se ha dividido por mil el número de fondos de cada una, lo
que nos da un factor de ponderación de 41, 22, 10 y 7 (véase tabla columna dos). Y tienen en total
una media de horas abiertas por semana en 1994 de 164 (véase tabla columna tres).
Para calcular la media ponderada primero multiplicaremos el factor de ponderación por la media
de horas abiertas (resultado en columna cuatro), después realizaremos el sumatorio de estos
resultados (3.863) y por último dividiremos el sumatorio de las horas de apertura en función del
factor de ponderación (3.863) entre el sumatorio del factor de ponderación (80). Lo que nos da una
media ponderada de horas abiertas por semana de 48.3.
BG
BC
BF
BI
Totales
Factor de
ponderación
41
22
10
7
80
Horas abierta
(1994)
57
44
39
24
164
2.337
968
390
168
3863
Esta misma biblioteca universitaria para el año 1995 tiene una colección en cada biblioteca de
40.000, 23.000, 12.000 y 7.000 volúmenes. Para calcular el factor de ponderación dividimos por
mil el número de volúmenes de cada centro, lo que nos da un factor de ponderación de 40, 23, 12, y
7 (véase tabla). Y tienen en total una media de horas abiertas por semana para 1995 de 173 (véase
tabla).
BG
BC
BF
Bl
Totales
Factor de
ponderación
40
23
12
7
82
Horas abierta
(1994)
50
40
44
35
173
2.000
920
528
245
3.693
Para calcular la media ponderada para el año 1995 dividiremos el sumatorio de las horas de
apertura en función del factor de ponderación (3.693) entre el sumatorio del factor de ponderación
(82), lo que nos da una media ponderada de horas abiertas por semana para el año 1995 de 45.
-
Análisis y uso de datos: Como podemos observar viendo las tablas para los años 1994 y
1995, se ha producido un incremento de la media de horas abiertas por semana, se ha
pasado de 164 a 173 horas, y si tomáramos estos datos (la media de horas de apertura)
como indicador, este habria mejorado. Pero al poner las horas de apertura en relación con
el factor de ponderación para calcular el indicador vemos que la media ponderada para el
año 1994 ha sido 48.3 y para el año 1995 nos da 45. Por tanto, si el indicador que
utilizamos es esta media ponderada en la biblioteca universitaria que estamos considerando
se ha producido, como muestra el indicador, un empeoramiento.
Obsérvese que el hecho de que este indicador sea peor para 1995 se debe a que las bibliotecas
con mayores fondos (BG y BC) tienen una media de horas de apertura menor que en 1994, lo
que hace que el indicador empeore. El hecho de que las bibliotecas con menor colección (BF y
BI) abran más horas en 1995 que en el año anterior no sirve para la mejora del indicador, debido
a sus pequeñas colecciones.
Como se observa en el ejemplo, al quitarles horas abiertas a las colecciones mayores, la
media ponderada por horas de apertura es muy sensible. Si se tuviera en cuenta sólo la
media de horas de apertura, que es un indicador menos sensible, la visión que obtendríamos
de la biblioteca sería distinta.
Esta media ponderada se puede poner en relación con el tamaño de la colección, como
acabamos de ver, o con otros aspectos relacionados con el uso de los puntos de servicio
(factores de ponderación que se pueden utilizar son por ejemplo el espacio, el personal,
puestos de lectura, etc.).
Indicadores de ponderación, en los que el factor de ponderación pretende hacer a estos
indicadores más sensible, se pueden utilizar para estudiar otros aspectos bibliotecarios. Un
desarrollo más amplio de lo que puede ser esta próxima generación de indicadores puede
verse en Sumsion y Ward (1995).
6.2.4.
Acceso a los materiales
6.2.4.1. Capacidad básica de la biblioteca para suministrar materiales
Para analizar este indicador nos vamos a basar en el seminario impartido por el profesor
Lancaster (1995) en la Universidad de Granada a un grupo de profesores. Se trata de hacer un
estudio sobre la capacidad básica de una biblioteca, es decir evaluar las posibilidades que tiene la
biblioteca de satisfacer las necesidades de los usuarios con su propia colección. Se excluye, por
tanto, el análisis de la capacidad que tiene una biblioteca de satisfacer demandas apoyándose en los
fondos de otros centros -fuentes externas-.
El estudio pretende abarcar varios objetivos: por un lado, la cobertura de la colección, es decir
conocer los materiales poseídos y no poseídos por la biblioteca y determinar cuántos documentos de
los que el usuario necesita están en la biblioteca y, por otro, la disponibilidad de dichos materiales,
o sea determinar de los materiales que posee la biblioteca cuáles están disponibles en el momento
de ser demandados.
Para llevar a cabo la evaluación se decide que el mejor método a utilizar es una simulación. El
trabajo se basa en el primer estudio de este tipo realizado por R. H. Orr et al. (1968) referido a
bibliotecas biomédicas, posteriormente llamado 'Document Delivery Test'. Un trabajo de este tipo
es una excelente herramienta para conocer la colección de una biblioteca, aunque quizá tenga más
sentido aplicarlo en una biblioteca especializada que en una pública. Téngase en cuenta que aunque
este indicador aparece bajo el epígrafe "Acceso a los materiales", podría agruparse igualmente en el
siguiente "Análisis de la colección", pues se trata de un estudio de citas y estos aportan bastante
información sobre la colección.
6.2.5.
Análisis de la colección
6.2.5.1. Encuesta a los usuarios
Para analizar la colección podemos recurrir a una muestra de usuarios y realizar una encuesta, en
función de las preguntas de la encuesta se pueden obtener muchos datos que nos permiten conocer
la colección.
Por ejemplo, podemos preguntar por los documentos que han buscado y la biblioteca no
poseia (fracaso) y por el número total de documentos buscados. Después se podrán hacer una serie
de cálculos, como el índice de fracaso que tiene la colección, que calcularemos dividiendo el
número de fracasos por el total de búsquedas. El resultado se puede muliplicar por cien para
producir un porcentaje. Este cálculo está relacionado con indicadores ya vistos.
En la encuesta se pueden recoger más datos (como materias que fracasan) y poder obtener más
información sobre la colección.
Es importante, especialmente para las bibliotecas que estén capacitadas, realizar estudios que
sean amplios y engloben una serie de indicadores, pues los trabajos más amplios dan mejor visión y
sugieren más relaciones entre variables que los
indicadores por separado.
Estos estudios amplios desarrollado por personal capacitado permiten además adaptarse a las
características de la biblioteca y realizar la evaluación en función de sus necesidades.
6.2.5.2. Documentos que circulan y no circulan
Si la biblioteca está en condiciones de obtener un listado tanto de los libros que circulan como de
los que no circulan -para lo cual los centros que estén automatizados no deben tener especiales
problemas- podrá, con el simple cotejo de estas dos listas, tener bastantes pistas sobre el
comportamiento de la colección. El tratamiento de estas listas por procesos automáticos puede dar
mucha información.
6.2.5.3. Porcentaje de fracasos en la búsqueda sobre catálogo
Para producir este indicador podemos recurrir a una muestra de usuarios y preguntarles por los
documentos que han buscado y no han encontrado (fracaso) y por el número total de documentos
buscados. Después habrá que calcular el índice de fracaso de la búsqueda, que obtendremos
dividiendo el número de fracasos por el total de búsquedas. El resultado se debe muliplicar por cien
para producir el porcentaje. Lógicamente en la encuesta se pueden recoger más datos (como
materias que fracasan) y podemos obtener más información sobre la colección.
Nótese que estamos suponiendo que son fracasos del catálogo o de la colección, y no del
usuario. También se puede construir un indicador para calcular el fracaso -errores- de los usuarios
cuando buscan en el catálogo.
6.2.5.4.
Tasa de crecimiento anual
-
Concepto: Este indicador nos permite conocer la tasa de crecimiento (o decrecimiento)
que tiene un determinado recurso en la biblioteca durante un periodo de un año, como
puede ser por ejemplo la colección, el presupuesto, el personal, etc.
-
Fórmula: Para calcular la tasa de crecimiento habrá que restar el valor de la variable
tamaño de la colección al final del año, del valor de la misma variable al principio de dicho
periodo, con lo que conseguimos saber el diferencial efectivo de la variable en el periodo
considerado. El resultado de esta resta habrá que dividirlo por el valor de la variable al
principio del periodo.
VF-VP
TC =
VP
donde:
TC es la tasa de crecimiento.
VF es el valor de la variable al final del periodo determinado.
VP es el valor de la variable al principio del periodo determinado.
El resultado puede multiplicarse por cien para expresarle, si se desea, de forma porcentual.
EJEMPLO
Una biblioteca cuenta con una colección de 258.373 volúmenes. Un año antes contaba con un
fondo de 220.075 volúmenes y desea conocer la tasa de crecimiento que ha tenido durante este
periodo. Para ello tendrá que restar el número de volúmenes con que contaba al final del periodo
considerado (258.373), del número de volumenes con que contaba al principio (220.075), el
resultado es 38.298. Después tendrá que dividir este resultado por el número de volúmenes que
tenía la colección al principio (220.075) lo que nos da 0.17, que es su tasa de crecimiento para este
periodo. Si lo pasamos a tanto por ciento tendremos que durante el año considerado la biblioteca ha
tenido una tasa de crecimiento del 17%.
Análisis y uso de datos: Aunque este indicador está en el apartado de Análisis de la
Colección, nótese que se puede aplicar a todos los casos en que se quiera conocer la tasa
de crecimiento de cualquier actividad.
Hay que tener en cuenta que cuando una biblioteca desea conocer las tasas de actividad
(crecimiento o decrecimiento) en la colección o en los ingresos económicos, debe aplicar el
indicador de tasa de crecimiento. En ocasiones este indicador se ha calculado averiguando la
proporción que supone el tamaño final de la colección respecto del tamaño inicial, en lugar de la
proporción del diferencial respecto del valor inicial.
Este indicador podrá ser comparado con estándares internacionales o nacionales que puedan existir
de tasa de crecimiento.
Otras posibilidades de aplicación del indicador: Esta fórmula la hemos utilizado para
calcular la tasa de crecimiento, pero también nos puede servir para conocer el número de
volúmenes que tenemos que adquirir si queremos mantener una tasa de crecimiento
determinada. Para realizar este cálculo tan sólo tenemos que aplicar la fórmula:
VF= (VP - TC) + VP
VF = VP (TC + 1)
en este caso la incógnita sería el valor final (VF) en lugar de la tasa de crecimiento, que es
conocida.
6.2.6.
Sección de referencia
6.2.6.1. Transacciones de referencia per cápita
-
-
Concepto: Esta medición relaciona la cantidad de transacciones del servicio de referencia
con la población a la que principalmente sirve la biblioteca. Para que una transacción de
referencia sea contabilizada en esta medición se necesita que el personal referencista
intervenga. Por tanto, las demandas de información que los usuarios resuelven por sí
mismos no se contabilizan aquí.
Fórmula: Número anual de transacciones de referencia (TR) dividido por la población
(P) de la jurisdicción (TRIP).
EJEMPLO
Una biblioteca con un número anual de transacciones de referencia de 10.325 el último año sirve
a una población de 8.246 habitantes. Sus transacciones en referencia per cápita son de 1.25 para ese
afío.
-
-
Análisis y uso de datos: Hay que tener presente que este indicador representa sólo el
uso del servicio de referencia (carácter cuantitativo), no la precisión de dicho servicio.
Esta medición refleja el grado en que una biblioteca es usada por su comunidad como un
servicio de información.
Otras posibilidades de aplicación del indicador: Determinar por separado las
referencias en periodos vocacionales.
Calcular el promedio de tiempo invertido en cada transacción de referencia. El tiempo empleado
puesto en relación con los costos de referencia nos puede producir un indicador sobre el costo de las
preguntas de referencia.
6.2.6.2.
Porcentaje de transacciones de referencia finalizadas
-
Concepto: Esta medición representa la proporción de transacciones de referencia
finalizadas con relación al total de transacciones formuladas en un determinado período.
Se expresa como un porcentaje y se basa en una muestra de transacciones de referencia.
Los datos para producir este indicador son el número de transacciones de referencia y el número de
transacciones de referencia resueltas. Decidir si una transacción de referencia está resuelta
corresponde al bibliotecario.
-
Las transacciones de referencia pueden ser: resueltas, redireccionadas (enviadas a otro
centro), no resueltas y direccionales (de orientación o guía). Estas últimas no se tienen en
cuenta para la producción de este indicador.
Fórmula: Número de transacciones de referencia finalizadas (TF) dividido por el número
total de transacciones de referencia (TFITR). Multiplicar el resultado por 100 para obtener
el porcentaje de referencia resuelto.
EJEMPLO
El número total de transacciones de referencia realizadas fue de 1.973, de estas 1.492
constituyen el número de transacciones de referencia resueltas. La división de las resueltas entre las
totales da 0.76, multiplicamos por 100 para producir el porcentaje y obtenemos el 76% de
transacciones de referencia resueltas.
-
Análisis y uso de datos: Esta medición permite observar el grado en que el servicio de
referencia resuelve satisfactoriamente las necesidades de los usuarios. Este indicador debe
ser interpretado dentro del contexto de los objetivos de la biblioteca que lo obtuvo. El
porcentaje de refencia resuelto presupone la exactitud de las transacciones consideradas
como resueltas. La verificación de esta exactitud determinada por medidas objetivas y/o la
percepción de los usuarios requiere el uso del apartado siguiente.
Otras posibilidades de aplicación del indicador: Determinar desde el punto de vista del
usuario, mediante encuestas, si las transacciones de referencia fueron resueltas o no.
Determinar el porcentaje de transacciones resueltas que son correctas.
Determinar el porcentaje de transacciones redireccionadas a otros centros y las no resueltas.
6.2.7.
Costos
6.2.7.1.
De catalogación
-
Concepto: El costo de catalogación es el dinero total que le cuesta a la biblioteca el
proceso de catalogación.
Fórmula: Para calcular el costo total de catalogación tenemos que saber el tiempo
total que emplea la biblioteca en catalogar en un periodo determinado (un año) y el
costo en pesetas de una unidad (una hora). Después habrá que multiplicar el tiempo
total por el coste en pesetas de la unidad elegida.
-
EJEMPLO
Una biblioteca dedica 220 horas al proceso de catalogación en un periodo determinado (un
año) y el coste de una hora de catalogación para ese centro es de 1.973 ptas. Por tanto el costo de
catalogación es 434.060 ptas en el periodo considerado.
6.2.7.2.
Por título catalogado
-
Concepto: Este indicador nos informa de lo que le cuesta en pesetas a una biblioteca
cada título que cataloga.
Fórmula: Para calcular el costo por título catalogado hay que dividir los costos de
catalogación (el indicador visto antes) por el número total de títulos catalogados, ambos
para un periodo determinado.
-
EJEMPLO
Una biblioteca tiene unos costos de catalogación de 2.854.430 en un año y cataloga en ese
periodo 1.994 documentos. Luego el costo de catalogación por título es de 1.432 ptas.
6.2.7.3.
Porpréstamo
-
Concepto: Este indicador mide lo que le cuesta a la biblioteca cada préstamo que
realiza. Para calcular este indicador se necesita conocer el total de gastos (netos) y el
total de préstamos (en este total se pueden incluir todo tipo de préstamos, sean en sala, a
domicilio ... ).
-
Fórmula: Para calcular este indicador tenemos que dividir el total de gastos (netos)
entre el total de préstamos.
EJEMPLO
Una biblioteca tiene unos gastos netos de 6.454.330 y un total de préstamos de
12.365. Luego el costo por préstamo es de 522 ptas.
-
Análisis y uso de datos: Como podemos ver, algunos indicadores no son muy
representativos de la actividad de la biblioteca. Por ejemplo, en este caso podemos pensar
que una biblioteca hace más cosas además de prestar, como referencia.... por eso cada
biblioteca tendrá que adaptar la evaluación a las necesidades y objetivos que ese centro se
marque.
-
Otras posibilidades de aplicación para todos los indicadores de costos: Los análisis de
costos y de costos-beneficios son fundamentales para saber cuantos recursos (dinero,
tiempo de personal ... ) utiliza la biblioteca para dar el servicio. Y una vez conocidos
estos costos ver si se pueden aminorar, o si con los mismos recursos se pueden ofrecer
más servicios.
Hay que tener presente que la biblioteca produce un beneficio social que es dificil de cuantificar,
pero esto no quita, y más en nuestro país donde estos temas parecen tabú, para que las bibliotecas
necesiten conocer mejor los costos que tienen y los resultados que producen.
Aquí sólo hemos incluido algunos indicadores de costos, pero es evidente que se pueden aplicar a
todos los servicios de la biblioteca (costos de referencia, de adquisiciones, etc.).
Descargar