Informática Documental Tema 1.- Introducción

Anuncio
Informática Documental
Tema 1.- Introducción
Informática Documental = Informática + Documentación.
Documento:
 DEF: fuente y soporte de información.
 TIPOS:
o naturaleza: visual, auditivo, audiovisual.
o soporte físico: impreso, fotográfico, informático.
o difusión: publicado, inédito, reservado.
o contenido: primario (fuentes originales), secundario (análisis documental:
sumarios, anuarios, bibliografías, etc.).
Bases de datos:
 BD != SGBD
 DEF: cualquier conjunto de información almacenada en cualquier tipo de soporte, de
forma que sea accesible y manipulable por un sistema informático.
 TIPOS:
o diseño: red, jerárquicas, relacionales, documentales, orientadas a objetos.
o Documentales, atendiendo al contenido de la información:
 Referenciales:
 Bibliográficas: registros bibliográficos (muy estructurado).
 Directorios: referencia a personas o instituciones.
 Fuentes:
 Textuales: texto íntegro del documento original.
 Numéricas o bancos de datos: encuestas, etc.
 Mixtas: textuales + numéricas.
 Mixtas: textuales + bibliográficas.
El ordenador:
 Funciones en Informática documental: BD + SGBD.
 Modos de acceso: on-line (teledocumentación), off-line (BD en el propio PC).
Tema 2.- Tareas del Servicio de Documentación y
Tema 3.- Nociones sobre el Hardware y Software para la
documentación.
Dos tareas principales:
1. Almacenamiento y análisis: obtener una descripción del documento formalizada
dentro del sistema (registro-índice).
1
2. Interrogación y búsqueda: comprender las peticiones del usuario y encontrar los
documentos apropiados.
Partes de un Sistema Documental:




Entrada del Documento:
o Teclado: procesador de textos (lento).
o Scanner: OCR (rápido, digitalizacion>>>transformación, errores).
Tratamiento del Documento:
o Almacenamiento Documento: cinta, disco magnético (flexible o duro), disco
óptico (CD-ROM, CD-R, CD-RW, DVD, DVD-R).
o Análisis: Documento >>> Índice.
o Almacenamiento Índice: cinta, disco magnético (flexible o duro), disco óptico
(CD-ROM, CD-R, CD-RW, DVD, DVD-R).
o Comparación / Selección: ¿Query = Índice?
Entrada de la Query:
o Interfaz de entrada + Lenguaje de Interrogación.
Salidad del Documento:
o Pantalla: orden de visualización.
o Impresora: orden de impresión.
Tema 4.- Nociones sobre ficheros.
Fichero:
 DEF: conjunto de información similar con una estructura determinada. Cada unidad
de acceso a un fichero se llama registro, y cada registro está compuesto por diferentes
campos.
 Ejemplo: Fichero de clientes de una empresa: cada cliente es un registro, cada registro
contiene los campos "nombre", "número", "dirección", "teléfono"...
 Organización y tipos de acceso:
o Secuencial: el primer registro es el primero que ha llegado.
o Indexada: se define un campo clave y se crea un árbol de índices (metadatos).
Tema 5.- Primera parte de la Gestión Documental.
1.- Análisis de contenido:
 Objetivo: Documento >>> Índice (proceso de indexación).
 El registro-índice tiene un diseño estandarizado en cada Sistema de Gestión
Documental. Ejemplo: nombre, identificativo, fecha de entrada, 10 campos
descriptores + pesos.
 Subtareas:
o Catalogación o descripción física del documento: título, autor, etc.
o Indexación del documento: texto >>> términos-índice o descriptores (palabras
clave).
o Valoración de los índices del documento: cálculo de pesos en base a
frecuencias.
 Tipos de Indexación:
2



o Indexación Automática / Manual:
 crear diccionarios que el sistema necesita (glosario, palabras-vacías,
tesauro).
 indicar las zonas del documento objeto de análisis.
o Indexación de términos controlados / incontrolados:
 Incontrolado: toda la variedad del lenguaje natural.
 Controlado: propio de sistemas sobre un tema en concreto.
o Indexación Postcoordinada / Precoordinada:
 Postcoordinada: términos-índice individuales, posteriormente pueden
coordinarse.
 Precoordinada: términos-índice ya coordinados, como frases.
Diccionarios necesarios para el análisis:
o Glosario-Lexicón-Vocabulario: descriptores del área de conocimiento tratada
(= todas las palabras de búsqueda e identificación de los documentos).
o Stoplist-Diccionario de palabras vacías: palabras no útiles para la búsqueda,
con valor únicamente gramatical (artículos, preposiciones, etc.).
o Thesaurus (tesauro): diccionario estructurado de conceptos, con relaciones
jerárquicas y asociativas entre ellos. Su objetivo: garantizar la coincidencia
entre el descriptor usado para analizar el documento y para la formulación de
la búsqueda o pregunta.
 Componentes:
 Unidades léxicas: descriptores, no-descriptores (reenvían) e
identificadores (nombres propios, de lugares, etc.).
 Relaciones conceptuales:
o Equivalencia: descriptor y sus sinónimos.
 USE: para remitir del sinónimo al descriptor.
 UP: para remitir del descriptor al sinónimo.
 ORDENADOR UP COMPUTER
 COMPUTER USE ORDENADOR
o Jerárquicas: cosa-tipo, género-especie, todo-parte.
 TG: Términos genéricos.
 TE: Términos específicos.
 TG PERRO TE CANICHE
o Asociativas: horizontales, de proximidad conceptual.
 TR: Término relacionado.
 TA: Término asociado.
 CRISTAL TR TRANSPARENCIA
 LAPIZ TA PORTAMINAS
o Definitorias: no son una definición, sino que facilitan la
correcta utilización del descriptor, delimitando su uso
("nota de alcance").
 NA: Nota de alcance (en inglés SN, scope note)
 ALUMNO NA Referido al que cursa la
ESO.
Subtarea 1: Catalogación: trivial, rellenar una ficha con los datos físicos.
Subtarea 2: Indexación, Elección de los descriptores:
o Fase 1: Identificar palabras individuales, separadas por espacios.
o Fase 2: Cálculo de la frecuencia de cada palabra (FREQik).
o Fase 3: Calculo de la frecuencia total de cada palabra (TOTFREQk).
3

o Fase 4: Ordenación de las palabras en orden decreciente por su frecuencia
total.
o Fase 5: Eliminación de las palabras que pertenecen al STOPLIST.
o Fase 6: Elminación de las palabras de menor frecuencia.
o Fase 7: Elección de las palabras con mayor frecuencia individual en el
documento (FREQik) y menor frecuencia total (TOTFREQk).
o Fase 8: Traducción de estas palabras a forma canónica (quitando prefijos,
sufijos, plurales, etc.).
o Fase 9: Indentificación de las categorías semánticas en el Tesauro y elección
del PT (Preferred Term).
Subtarea 3: Valoración o Cálculo de los pesos de los índices.
o Efectividad:
 Exhaustividad de indexación: si la indexación es exhaustiva, se asignan
muchas palabras clave (normal: de 5 a 12). Poca exhausitividad =
silencio.
 Especificidad o precisión del término: si los términos-índice asignados
son muy generales, se recuperará mucha información útil, pero junto
con otra que no lo es (ruido).
 A: doc. Relevantes recuperados, B: doc. Relevantes no recuperados, C:
doc. No Relevantes recuperados, D: doc. No Relevantes no
recuperados.
 Tasas:
 Ruido: c / a + c.
 Precisión: a / a + c.
 Silencio: b / a + b.
 Exhaustividad: a / a + b.
o Pesos:
 Wik: FTik x FIk.
 FIk = 1 / TOTFREQk
 FTk = FREQik
o Elementos funcionales:
 Elementos de exhaustividad: objetivo = disminuir el silencio.
 Estructuración jerárquica del tesauro.
 Normalización de la indexación.
 Elementos de precisión: objetivo = disminuir el ruido.
 Especificidad del lenguaje de indexación.
 Nivel de coordinación:
o Poca precoordinación => fácil tesauro => mucha
postcoordinación => más ruido.
 Indicadores de unión y de función: poco usados.
Tema 6.- Segunda parte de la gestión documental
Recuperación de la información:
 DEF: técnicas relativas al acceso y posterior selección de información almacenada en
un sistema informático.
 Dos componentes:
4
o Interfaz de usuario: traducir la demanda del usuario a una ecuación en
lenguaje formal (lenguaje de interrogación).
o Función de recuperación: comparación de esta ecuación con la información
almacenada para proporcionar la respuesta adecuada.
Interfaz de usuario:
 Diferentes posibilidades:
o Mediante menús o ventanas.
o Mediante instrucciones o comandos.
o Mediante Lenguaje Natural (Estado-ASK -> NLQ -> QNF).
Función de recuperación:
 Modelos de operadores:
o Operadores boléanos: AND, OR, etc.
 CNF: Forma Normal Conjuntiva (AND).
 DNF: Forma Normal Disyuntiva (OR).
 Modelos booleanos con pesos.
o Operadores de intervalo: =, >, <, etc.
o Operadores de proximidad: INFORMATICA D3 DOCUMENTACION.
o Operadores de cualificación: (INFORMATICA D3 DOCUMENTACION) EN
TITULO.
o Operadores de encadenamiento: encadenando búsquedas precedentes.
5
Descargar