Estudi de cercadors web com a eines d’aprenentatge automàtic AUTORA: Laura Martínez Sanahuja DIRECTOR: Dr. David Sànchez Ruenes Adreça electrònica: [email protected] Titulació: Grau en Enginyeria Informàtica Data Presentació: 08 de Juny de 2016 Resum: Molts investigadors utilitzen el nombre de pàgines web indexades per un cercador com a estimador de la distribució en tasques de recerca que es basen en el la lingüística. En aquestes tasques, la idoneïtat de recompte de hits (el nombre de pàgines web indexades) del cercador com a estimador de freqüència és crucial, ja que l’exactitud dels resultats depèn de la "qualitat" del nombre de pàgines indexades. Tot i que molts estudis han estudiat l’eficàcia dels motors de cerca per als usuaris web, pocs han avaluat aquests cercadors com a eines per a la investigació. L’elecció d’un cercador en particular ha estat, en general, una tasca relegada pels investigadors, i en aquest estudi es pretén demostrar que hi ha diferències molt significatives entre els cercadors, i que els cercadors més coneguts i utilitzats no sempre són els que estan millor adaptats per a la investigació lingüística. En aquest projecte de final de grau, s’han analitzat diversos cercadors que estan disponibles actualment, fent un filtratge segons unes característiques mínimes que han de complir per tal de poder-los fer servir per a analitzar recursos lingüístics; i s’han avaluat dos factors: en primer lloc, s’ha analitzat la possible idoneïtat del recompte de hits dels cercadors com estimadors d’ús general de la probabilitat de concurrència de termes lingüístics; i en segon lloc, s’ha avaluat el seu rendiment real en una de les tasques principals de la lingüística computacional: l’estimació de la similitud semàntica entre els termes. A partir dels resultats d’aquest estudi, s’identifiquen els motors de cerca més adequats per a ser utilitzats en la investigació lingüística. Resumen: Muchos investigadores utilizan el número de páginas web indexadas por un buscador como estimador de la distribución en tareas de investigación que se basan en el la lingüística. En estas tareas, la idoneidad de recuento de hits (el número de páginas web indexadas) del buscador como estimador de frecuencia es crucial, ya que la exactitud de los resultados depende de la "calidad" del número de páginas indexadas. Aunque muchos estudios han estudiado la eficacia de los motores de búsqueda para los usuarios web, pocos han evaluado estos buscadores como herramientas para la investigación. La elección de un buscador en particular ha sido, en general, una tarea relegada por los investigadores, y en este estudio se pretende demostrar que hay diferencias muy significativas entre los buscadores, y que los buscadores más conocidos y utilizados no siempre son los que están mejor adaptados para la investigación lingüística. En este proyecto de fin de grado, se han analizado varios buscadores que están disponibles actualmente, haciendo un filtrado según unas características mínimas que deben cumplir para poder utilizar para analizar recursos lingüísticos; y se han evaluado dos factores: en primer lugar, se ha analizado la posible idoneidad del recuento de hits de los buscadores como estimadores de uso general de la probabilidad de concurrencia de términos lingüísticos; y en segundo lugar, se ha evaluado su rendimiento real en una de las tareas principales de la lingüística computacional: la estimación de la similitud semántica entre los términos. A partir de los resultados de este estudio, se identifican los motores de búsqueda más adecuados para ser utilizados en la investigación lingüística. Abstract: Many researchers use the number of web pages indexed by a search engine as an estimator of the distribution for linguistic research. In these tasks, the suitability of hits count (the number of web pages indexed) as frequency estimators is crucial, since the accuracy of the results depends on the "quality" of the number of indexed pages. Although many studies have examined the effectiveness of search engines for web users, few have evaluated these search engines as tools for research. Choosing a particular search engine has been generally relegated by researchers, and this study aims to demonstrate that there are significant differences between search engines, and that the most well-known and widely-used search engines are not always the best suited for linguistic research. In this final degree project, various search engines that are currently available have been analysed and filtered according to the minimum characteristics that must be met in order to use them to analyse linguistic resources. Two factors have been assessed: firstly, the analysis of the suitability of hits counts of search engines as estimators of the probability of occurrence of linguistic terms; and secondly, their actual performance has been evaluated in one of the core tasks of computational linguistics: the estimation of the semantic similarity between the terms. From the results of this study, the most appropriate search engines to be used in linguistic research are identified.