versión pdf - Observatorio para la CiberSociedad

Anuncio
CULTURA & POLÍTICA @ CIBERESPACIO
1er Congreso ONLINE del Observatorio para la
CiberSociedad
Comunicaciones – Grupo 20
Periodismo y Comunicación Digital
Coordinación: Alex Fernández Muerza & Alex Dantart Usón
([email protected])
http://cibersociedad.rediris.es/congreso
La Red profunda. Lo que los buscadores
convencionales no encuentran
Idoia Salazar García
[email protected]
C u an do se qu iere en con t rar u n dat o en t r e los más de 8, 5 millon es de
sitios web disponibles en Internet, lo normal es acudir a buscadores
del est ilo de Alt av ist a o Google, p e r o e s t a s p o p u l a r e s h e r r a m i e n t a s
p a s a n p o r a l t o u n a i m p o r t a n t e p a r te d e l a R e d q u e c o n t i e n e e n t r e 4 0 0
y 550 veces más información. En 1994, la doctora Jill Ellsworth,
especializada en el estudio de la R e d , a c u ñ ó e l t é r m in o ' I n t e r n e t
i n v i s i b l e ' p a r a r e f e r i r s e a l a i n f or m a c i ó n q u e n o p o d í a n e n c o n t r a r l o s
b u s c a d o r e s m á s c o m u n e s p o r r a z o n es t é c n i c a s o s i m p l e m e n t e p o r
conveniencia. En 2000, un estudio de la consultora estadounidense
B r i g h t P l a n e t , e l a b o r a d o p o r M i c h a el Bergman , con f irmaba y ex plicaba
la e x is t e n c ia d e u n a R e d p r o f u n d a , q u e t e n d r ía a p r o x im a d a m e n t e
7.500 terabytes (equivalente a 7.500 billones de bytes) de
in f ormación f r en t e a los 19 de la su perf icial o part e de la Red
a c c e s i b l e m e d i a n t e l o s b us c a d o r e s c o n v e n c i o n a l e s .
E s t a s c i f r a s s u p o n í a n s u p e r a r e nt r e 4 0 0 y 5 5 0 v e c e s e l v o l u m e n d e
in f ormación en el qu e u n u s u a rio qu e solamen t e u t iliz ase, por pon er
u n e j e m p l o , G o o g l e o A l t a v i s t a e r a c a p a z d e b u s c a r . C at á l o g o s d e
b i b l i o t e c a s , b a s e s d e d a t o s , r e v is t a s e l e c t r ó n i c a s y a r c h i v o s d e
documentos que no pueden ser indexados por su formato componen
este mar de información desconocido por la mayoría de los usuarios
qu e se limit an a u s ar las h erramie n t a s d e b ú s q u e d a m á s c o m u n e s .
E s t a su pu est a in v isibilidad de ciert os sit ios de In t ern et es f r u t o de la
t ecn ología act u al qu e u t iliz an los mot ores de bú squ eda. E s t o n o
sign if ica qu e sea imposible acceder a est os docu men t os si se u t iliz a
una tecnología más avanzada.
C o n o c e r e l f u n c ion a m ie n t o d e los m o t o r e s d e b ú s q u e d a e s v i t a l p a r a
c o m p r e n d e r e l p o r q u é d e l a e x i s t en c i a d e l a R e d p r o f u n d a . G o o g l e ,
A l t a v i s t a o c u a l q u i e r o t r o m o t o r s on e s e n c i a l m e n t e e n o r m e s b a s e s d e
d a t o s q u e c o n t ien e n e l t e x t o c o m p l e t o d e p á g i n a s w e b . C u a n d o u n
u s u ario u t iliz a u n bu scador, n o est á bu scan d o en t oda la World Wide
W e b , s i n o e n l a b a s e d e d a t o s e s p ec í f i c a d e l m o t o r . E s t o p e r m i t e q u e
s e o b t e n g a n r á p i d o s r e s u l t a d o s , h ec h o q u e n o s e r í a p o s i b l e s i c a d a
v e z q u e s e r e a liz a u n a c o n s u lt a s e t u v i e r a n q u e r a s t r e a r e n t i e m p o
real los millon es y millon es de docu men t os qu e se en cu en t ran
dispon ibles en la w eb.
A la hora de crear estas bases de datos, los motores de búsqueda,
con u n a periodicidad n ormalmen t e men s u a l, u t iliz an las llamadas
arañ as o robot s in t eligen t es qu e salt a n d e u n a w e b a o t r a a t r a v é s d e
los en laces de h ipert ex t o regist ran d o la in f ormación allí dispon ible.
Si una web no tiene enlaces, la única forma que tiene de ser
r e g i s t r a d a e n u n b u s c a d o r e s q u e su au t or la in clu y a man u a lmen t e
r e llen a n d o u n f o r m u la r io. E n c a s o c o n t r a r i o , e s t a w e b r e s u l t a r a
i n v i s i b l e p a r a t o d o s a q u e l l o s u s u a r i o s d e I n t er n et q u e n o c on oz c a n la
U R L o d i r e c c i ó n w e b c o n c r e t a . S in e m b a r g o , e l q u e u n a p á g i n a
carezca de enlaces no es la única causa que puede llevar a una web a
p e r m a n e c e r e n l a s p r o f u n d i d a d e s. L o s b u s c a d o r e s s u e l e n i n d e x a r
páginas estáticas que incluyen textos simples y que están
programadas en HTML, el lenguaje de programación más común con el
qu e est án escrit os los sit ios w eb. É s t a es la in f ormación qu e, sin
n in g u n a du da, u n u s u ario en con t raría en la Red su perf icial u t iliz an do
l o s b u s c a d o r e s m á s c o m u n e s , e l r e s to p a s a a f o r m a r p a r t e d e l a R e d
profunda.
Act u almen t e, la posibilidad de bu scar e in dex ar ciert o t ipo de arch iv os
n o t e x t u a les , c o m o imá g e n e s , a u d io , v í d e o , a r c h i v o s P D F o P o s t s c r i p t ,
p r o g r a m a s e j e c u t a b l e s o a r c h i v o s c o m pr i m i d o s , s e h a c o n v e r t i d o e n
un reto para los motores de búsqueda más generales. Técnicamente la
mayoría de estos formatos pueden ser indexados, pero los motores
e lig e n n o h a c e r lo p o r r a z o n e s d e n eg o c i o . E n p r i m e r l u g a r , h a y m u c h a
m e n o s d e m a n d a d e e s t e t i p o d e f or m a t o s q u e d e t e x t o s H T M L y ,
a d e m á s , e s t o s f o r m a t o s s o n m á s d i f í ci l e s d e a r c h i v a r y o r g a n i z a r , p o r
lo que requieren mayores recursos del servidor. Estos archivos no
suponen una parte muy grande de la Red profunda, sin embargo, se
v a e x t e n d ien d o r á p id a m e n t e s u u so a m e d i d a q u e p a s a e l t i e m p o ,
principalmente para documentos de alta calidad, concernientes a los
Gobiernos o alguna otra autoridad. A pesar de estos inconvenientes,
la demanda se está imponiendo y algunos motores de búsqueda como
G o o g l e o A l t a v i s t a y a e s t á n i n c or p o r a n d o e n t r e s u s o p c i o n e s l a
posibilidad de bu scar imágen es o arch iv os P D F .
En realidad, el mayor reto al que se enfrentan los motores de
búsqueda recae en el acceso a la información que se encuentra en las
bases de datos, que conforman la mayor parte de la Red profunda.
El problema radica en que cada una de las bases de datos es única en
d is e ñ o , e s t r u c t u r a , h e r r a m ie n t a s y m é t o d o d e b ú s q u e d a . S ó l o
p r e s e n t a n d in a m is m o e n r e s p u e s t a a u n a p r e g u n t a d ir e c t a , c o s a q u e
h a s t a e l m o m e n t o s ó lo e s c a p a z d e h a c e r e l p r o p io u s u a r io y e n
ningún caso los programas araña que usan los buscadores en sus
t a r e a s d e c a t a log a c ió n . S i e l u s u ar i o p r e t e n d e r e a l i z a r u n a b ú s q u e d a
en ellas, debe usar las propias herramientas que la base de datos
o f r e c e y q u e , a l e s t a r c r e a d a s e s p ec í f i c a m e n t e p a r a e s t e p r o p ó s i t o ,
proporcionarán los mejores resultados.
E l i n c o n v e n i e n t e e s t á e n q u e e s n ec e s a r i o e n c o n t r a r l a b a s e d e d a t o s
en primer lugar, tarea en la que a veces los motores de búsqueda
a y u d a n y o t r a s n o . H a y d if e r e n t e s t i p o s d e b a s e s d e d a t o s a l o s q u e
s e p u e d e a c c e d e r a t r a v é s d e l a R ed . S i n e m b a r g o , s e d e b e t e n e r e n
c u e n t a q u e e l h e c h o d e q u e l o s d o c u m e n t o s w e b e s t é n a lm a c e n a d o s
en una base de datos no los hace automáticamente parte de la Red
p r o f u n d a . A v e c e s s e u s a n s im p lem e n t e p o r q u e p e r m it e n u n
man t en imien t o más f á cil del sit io.
L a R e d p r o f u n d a a b r e u n s i n n ú m e ro d e n u e v a s p o s i b i l i d a d e s . S u
su pu est a in v isibilidad depen d e del con ocimien t o de su ex ist en c ia y de
no conformarnos con los recursos convencionales que nos brinda
Internet. El hecho de que Yahoo o Terra no encuentren el dato que
b u s c a m o s n o s i g n i f i c a q u e n o e s t é en la R ed . T an s ólo h ay q u e
sumergirse algo más para comprobar si ese dato está en la telaraña
mu n d ia l o es q u e s i m p l em e nt e e s i nvi s i b l e a l o s o jo s d e c i e rt o s
buscadores.
Recursos para llegar a los datos 'invisibles'
L a R e d i n v i s i b l e n o e s t a l , t a n s ól o h a y q u e s a b e r d ó n d e b u s c a r . L o s
s i t i o s w e b q u e a p a r e c e n a c o n t i n u ac i ó n p e r m i t e n u n a c c e s o f á c i l y
directo a la Red profunda.
The invisible web:
Tiene catalogadas más de 10.000 bases de datos, además de
b u s c a d o r e s y a r c h i v o s d e t o d o t i p o. O f r e c e d e s c r i p c i o n e s c o m p l e t a s
d e c a d a u n a d e l a s b a s es d e d a t o s c a t a l o g a d a s .
C o m p l e t e P l a n e t : w w w . c o m p let e p la n e t . c o m
Este sitio permite buscar en 30.000 bases de datos
prof u n d a. Of rece la posibilidad de realiz ar v arias
simultáneas.
de la Red
bú squ edas
I n v i s i b l e w e b d i r e c t o r y : w w w . in v is ib le - w e b . n e t
S i t i o w e b e l a b o r a d o p o r C h r i s S h e r m an y Gary P r ice, au t ores del libro
T h e i n v i s i b l e w e b , e n e l q u e o f r ec e n u n d i r e c t o r i o t e m á t i c o d e l a s
p r i n c i p a l e s b a s e s d e d a t o s d i s pon ibles en la Red prof u n d a.
I n t e r n e t i n v i s i b l e : w w w . in t e r n e t in v is ib le . c o m
Esta web en castellano ofrece acceso temático a 2.350 bases de
d a t o s . I n c l u y e u n a g u í a d e r e c u r s o s prof esion ales, clasif icados por
t it u lacion es u n iv ersit arias.
B i g H u b : w w w . t h e b ig h u b . c o m
P e r m i t e a l u s u a r i o e l a c c e s o a 1 .5 0 0 b a s e s d e d a t o s e s p e c i a l i z a d a s .
Además of rece la posibilidad de bu scar en mú lt iples mot ores de
búsqueda y directorios de forma simultánea.
I n f o m i n e : h t t p : / / in f o m in e . u c r . e d u
C o n t ien e u n a b a s e d e d a t o s c o n m últ iples opcion es qu e permit e al
u s u a r io la b ú s q u e d a p o r t e m a s . E st á e s p e c í f i c a m e n t e d i s e ñ a d a p a r a
e s t u d ia n t e s u n iv e r s it a r ios .
L e x i b o t d e B r i g h t P l a n e t : w w w . lex ib o t . c o m / in d e x . a s p
Este es un servicios de pago que permite la búsqueda en más de
4 . 3 0 0 b a s e s d e d a t o s . F i l t r a , c l a si f i c a y o r g a n i z a l o s r e s u l t a d o s
obtenidos.
Bibliografía:
Bright Planet (2000): The Deep Web: Surfacing Hidden Value (accesible en:
http://128.121.227.57/download/deepwebwhitepaper.pdf).
University at Albany Libraries - The Deep Web:
http://library.albany.edu/internet/deepweb.html
The Search Engine Report - Invisible Web Gets Deeper
by Danny Sullivan
http://searchenginewatch.com/sereport/00/08-deepweb.html
Searching the Invisible Web:
por Chris Sherman
http://www.virtualchase.com/tvcalert/feb02/5feb02.html#quigo
Descargar