CULTURA & POLÍTICA @ CIBERESPACIO 1er Congreso ONLINE del Observatorio para la CiberSociedad Comunicaciones – Grupo 20 Periodismo y Comunicación Digital Coordinación: Alex Fernández Muerza & Alex Dantart Usón ([email protected]) http://cibersociedad.rediris.es/congreso La Red profunda. Lo que los buscadores convencionales no encuentran Idoia Salazar García [email protected] C u an do se qu iere en con t rar u n dat o en t r e los más de 8, 5 millon es de sitios web disponibles en Internet, lo normal es acudir a buscadores del est ilo de Alt av ist a o Google, p e r o e s t a s p o p u l a r e s h e r r a m i e n t a s p a s a n p o r a l t o u n a i m p o r t a n t e p a r te d e l a R e d q u e c o n t i e n e e n t r e 4 0 0 y 550 veces más información. En 1994, la doctora Jill Ellsworth, especializada en el estudio de la R e d , a c u ñ ó e l t é r m in o ' I n t e r n e t i n v i s i b l e ' p a r a r e f e r i r s e a l a i n f or m a c i ó n q u e n o p o d í a n e n c o n t r a r l o s b u s c a d o r e s m á s c o m u n e s p o r r a z o n es t é c n i c a s o s i m p l e m e n t e p o r conveniencia. En 2000, un estudio de la consultora estadounidense B r i g h t P l a n e t , e l a b o r a d o p o r M i c h a el Bergman , con f irmaba y ex plicaba la e x is t e n c ia d e u n a R e d p r o f u n d a , q u e t e n d r ía a p r o x im a d a m e n t e 7.500 terabytes (equivalente a 7.500 billones de bytes) de in f ormación f r en t e a los 19 de la su perf icial o part e de la Red a c c e s i b l e m e d i a n t e l o s b us c a d o r e s c o n v e n c i o n a l e s . E s t a s c i f r a s s u p o n í a n s u p e r a r e nt r e 4 0 0 y 5 5 0 v e c e s e l v o l u m e n d e in f ormación en el qu e u n u s u a rio qu e solamen t e u t iliz ase, por pon er u n e j e m p l o , G o o g l e o A l t a v i s t a e r a c a p a z d e b u s c a r . C at á l o g o s d e b i b l i o t e c a s , b a s e s d e d a t o s , r e v is t a s e l e c t r ó n i c a s y a r c h i v o s d e documentos que no pueden ser indexados por su formato componen este mar de información desconocido por la mayoría de los usuarios qu e se limit an a u s ar las h erramie n t a s d e b ú s q u e d a m á s c o m u n e s . E s t a su pu est a in v isibilidad de ciert os sit ios de In t ern et es f r u t o de la t ecn ología act u al qu e u t iliz an los mot ores de bú squ eda. E s t o n o sign if ica qu e sea imposible acceder a est os docu men t os si se u t iliz a una tecnología más avanzada. C o n o c e r e l f u n c ion a m ie n t o d e los m o t o r e s d e b ú s q u e d a e s v i t a l p a r a c o m p r e n d e r e l p o r q u é d e l a e x i s t en c i a d e l a R e d p r o f u n d a . G o o g l e , A l t a v i s t a o c u a l q u i e r o t r o m o t o r s on e s e n c i a l m e n t e e n o r m e s b a s e s d e d a t o s q u e c o n t ien e n e l t e x t o c o m p l e t o d e p á g i n a s w e b . C u a n d o u n u s u ario u t iliz a u n bu scador, n o est á bu scan d o en t oda la World Wide W e b , s i n o e n l a b a s e d e d a t o s e s p ec í f i c a d e l m o t o r . E s t o p e r m i t e q u e s e o b t e n g a n r á p i d o s r e s u l t a d o s , h ec h o q u e n o s e r í a p o s i b l e s i c a d a v e z q u e s e r e a liz a u n a c o n s u lt a s e t u v i e r a n q u e r a s t r e a r e n t i e m p o real los millon es y millon es de docu men t os qu e se en cu en t ran dispon ibles en la w eb. A la hora de crear estas bases de datos, los motores de búsqueda, con u n a periodicidad n ormalmen t e men s u a l, u t iliz an las llamadas arañ as o robot s in t eligen t es qu e salt a n d e u n a w e b a o t r a a t r a v é s d e los en laces de h ipert ex t o regist ran d o la in f ormación allí dispon ible. Si una web no tiene enlaces, la única forma que tiene de ser r e g i s t r a d a e n u n b u s c a d o r e s q u e su au t or la in clu y a man u a lmen t e r e llen a n d o u n f o r m u la r io. E n c a s o c o n t r a r i o , e s t a w e b r e s u l t a r a i n v i s i b l e p a r a t o d o s a q u e l l o s u s u a r i o s d e I n t er n et q u e n o c on oz c a n la U R L o d i r e c c i ó n w e b c o n c r e t a . S in e m b a r g o , e l q u e u n a p á g i n a carezca de enlaces no es la única causa que puede llevar a una web a p e r m a n e c e r e n l a s p r o f u n d i d a d e s. L o s b u s c a d o r e s s u e l e n i n d e x a r páginas estáticas que incluyen textos simples y que están programadas en HTML, el lenguaje de programación más común con el qu e est án escrit os los sit ios w eb. É s t a es la in f ormación qu e, sin n in g u n a du da, u n u s u ario en con t raría en la Red su perf icial u t iliz an do l o s b u s c a d o r e s m á s c o m u n e s , e l r e s to p a s a a f o r m a r p a r t e d e l a R e d profunda. Act u almen t e, la posibilidad de bu scar e in dex ar ciert o t ipo de arch iv os n o t e x t u a les , c o m o imá g e n e s , a u d io , v í d e o , a r c h i v o s P D F o P o s t s c r i p t , p r o g r a m a s e j e c u t a b l e s o a r c h i v o s c o m pr i m i d o s , s e h a c o n v e r t i d o e n un reto para los motores de búsqueda más generales. Técnicamente la mayoría de estos formatos pueden ser indexados, pero los motores e lig e n n o h a c e r lo p o r r a z o n e s d e n eg o c i o . E n p r i m e r l u g a r , h a y m u c h a m e n o s d e m a n d a d e e s t e t i p o d e f or m a t o s q u e d e t e x t o s H T M L y , a d e m á s , e s t o s f o r m a t o s s o n m á s d i f í ci l e s d e a r c h i v a r y o r g a n i z a r , p o r lo que requieren mayores recursos del servidor. Estos archivos no suponen una parte muy grande de la Red profunda, sin embargo, se v a e x t e n d ien d o r á p id a m e n t e s u u so a m e d i d a q u e p a s a e l t i e m p o , principalmente para documentos de alta calidad, concernientes a los Gobiernos o alguna otra autoridad. A pesar de estos inconvenientes, la demanda se está imponiendo y algunos motores de búsqueda como G o o g l e o A l t a v i s t a y a e s t á n i n c or p o r a n d o e n t r e s u s o p c i o n e s l a posibilidad de bu scar imágen es o arch iv os P D F . En realidad, el mayor reto al que se enfrentan los motores de búsqueda recae en el acceso a la información que se encuentra en las bases de datos, que conforman la mayor parte de la Red profunda. El problema radica en que cada una de las bases de datos es única en d is e ñ o , e s t r u c t u r a , h e r r a m ie n t a s y m é t o d o d e b ú s q u e d a . S ó l o p r e s e n t a n d in a m is m o e n r e s p u e s t a a u n a p r e g u n t a d ir e c t a , c o s a q u e h a s t a e l m o m e n t o s ó lo e s c a p a z d e h a c e r e l p r o p io u s u a r io y e n ningún caso los programas araña que usan los buscadores en sus t a r e a s d e c a t a log a c ió n . S i e l u s u ar i o p r e t e n d e r e a l i z a r u n a b ú s q u e d a en ellas, debe usar las propias herramientas que la base de datos o f r e c e y q u e , a l e s t a r c r e a d a s e s p ec í f i c a m e n t e p a r a e s t e p r o p ó s i t o , proporcionarán los mejores resultados. E l i n c o n v e n i e n t e e s t á e n q u e e s n ec e s a r i o e n c o n t r a r l a b a s e d e d a t o s en primer lugar, tarea en la que a veces los motores de búsqueda a y u d a n y o t r a s n o . H a y d if e r e n t e s t i p o s d e b a s e s d e d a t o s a l o s q u e s e p u e d e a c c e d e r a t r a v é s d e l a R ed . S i n e m b a r g o , s e d e b e t e n e r e n c u e n t a q u e e l h e c h o d e q u e l o s d o c u m e n t o s w e b e s t é n a lm a c e n a d o s en una base de datos no los hace automáticamente parte de la Red p r o f u n d a . A v e c e s s e u s a n s im p lem e n t e p o r q u e p e r m it e n u n man t en imien t o más f á cil del sit io. L a R e d p r o f u n d a a b r e u n s i n n ú m e ro d e n u e v a s p o s i b i l i d a d e s . S u su pu est a in v isibilidad depen d e del con ocimien t o de su ex ist en c ia y de no conformarnos con los recursos convencionales que nos brinda Internet. El hecho de que Yahoo o Terra no encuentren el dato que b u s c a m o s n o s i g n i f i c a q u e n o e s t é en la R ed . T an s ólo h ay q u e sumergirse algo más para comprobar si ese dato está en la telaraña mu n d ia l o es q u e s i m p l em e nt e e s i nvi s i b l e a l o s o jo s d e c i e rt o s buscadores. Recursos para llegar a los datos 'invisibles' L a R e d i n v i s i b l e n o e s t a l , t a n s ól o h a y q u e s a b e r d ó n d e b u s c a r . L o s s i t i o s w e b q u e a p a r e c e n a c o n t i n u ac i ó n p e r m i t e n u n a c c e s o f á c i l y directo a la Red profunda. The invisible web: Tiene catalogadas más de 10.000 bases de datos, además de b u s c a d o r e s y a r c h i v o s d e t o d o t i p o. O f r e c e d e s c r i p c i o n e s c o m p l e t a s d e c a d a u n a d e l a s b a s es d e d a t o s c a t a l o g a d a s . C o m p l e t e P l a n e t : w w w . c o m p let e p la n e t . c o m Este sitio permite buscar en 30.000 bases de datos prof u n d a. Of rece la posibilidad de realiz ar v arias simultáneas. de la Red bú squ edas I n v i s i b l e w e b d i r e c t o r y : w w w . in v is ib le - w e b . n e t S i t i o w e b e l a b o r a d o p o r C h r i s S h e r m an y Gary P r ice, au t ores del libro T h e i n v i s i b l e w e b , e n e l q u e o f r ec e n u n d i r e c t o r i o t e m á t i c o d e l a s p r i n c i p a l e s b a s e s d e d a t o s d i s pon ibles en la Red prof u n d a. I n t e r n e t i n v i s i b l e : w w w . in t e r n e t in v is ib le . c o m Esta web en castellano ofrece acceso temático a 2.350 bases de d a t o s . I n c l u y e u n a g u í a d e r e c u r s o s prof esion ales, clasif icados por t it u lacion es u n iv ersit arias. B i g H u b : w w w . t h e b ig h u b . c o m P e r m i t e a l u s u a r i o e l a c c e s o a 1 .5 0 0 b a s e s d e d a t o s e s p e c i a l i z a d a s . Además of rece la posibilidad de bu scar en mú lt iples mot ores de búsqueda y directorios de forma simultánea. I n f o m i n e : h t t p : / / in f o m in e . u c r . e d u C o n t ien e u n a b a s e d e d a t o s c o n m últ iples opcion es qu e permit e al u s u a r io la b ú s q u e d a p o r t e m a s . E st á e s p e c í f i c a m e n t e d i s e ñ a d a p a r a e s t u d ia n t e s u n iv e r s it a r ios . L e x i b o t d e B r i g h t P l a n e t : w w w . lex ib o t . c o m / in d e x . a s p Este es un servicios de pago que permite la búsqueda en más de 4 . 3 0 0 b a s e s d e d a t o s . F i l t r a , c l a si f i c a y o r g a n i z a l o s r e s u l t a d o s obtenidos. Bibliografía: Bright Planet (2000): The Deep Web: Surfacing Hidden Value (accesible en: http://128.121.227.57/download/deepwebwhitepaper.pdf). University at Albany Libraries - The Deep Web: http://library.albany.edu/internet/deepweb.html The Search Engine Report - Invisible Web Gets Deeper by Danny Sullivan http://searchenginewatch.com/sereport/00/08-deepweb.html Searching the Invisible Web: por Chris Sherman http://www.virtualchase.com/tvcalert/feb02/5feb02.html#quigo