Escucha activa en la web (y como facilitar la tarea con Yahoo! Pipes) Miramon Enpresa Digitala (4-5/06/2012) Introducción Presentación Fuentes Fuentes RSS de Twitter Fuentes RSS de Facebook Fuentes RSS de Flickr Fuentes RSS de Youtube Socialmention Google Blog Search Google Alerts Google News Meneame Herramientas Yahoo! Pipes OpenOffice R-project Google Refine Yahoo! Pipes Blog oficial Documentación oficial de Yahoo! Pipes Expresiones regulares en Pipes Explicación y ejemplos de XPath Pipes de ejemplo Etiqueta pipes en el Diigo de Neregauzak Vídeos sobre Pipes www.pipestutorial.com 5 Useful Yahoo! Pipes to Monitor Your Brand Truquitos ● ● ● ● Regex: .* (todo el contenido de un campo) Regex: ^ (inicio del contenido) Para incluir el valor de un campo/variable en el contenido de otro (con el módulo regex): ${NOMBRE_DEL_CAMPO} y:published.utime (tiempo Unix, tiene precisión/granularidad de segundo) ● y:repeatcount (contador para los elementos que se filtran usando el módulo unique) Pipes de prueba http://pipes.yahoo.com/iradokikoop/plataformas Opciones para correr un Pipe fuera de Yahoo! Pipes ● ● Servidor propio (con Python) En Google Apps Google Refine Documentación oficial Vídeos demostrativos Explicación de los distintos algoritmos para crear clusters de cadenas Blog sobre Google Refine Usos avanzados (y combinación con otras herramientas) en OUseful.info Etiqueta google-refine en Diigo de Neregauzak Vídeos sobre Google Refine Importar datos desde Pipes a Google Refine ● ● Crear nuevo proyecto con la opción Web Addresses (URLs) Indicar la dirección del Pipe, en formato JSON ● Indicar que los datos están en formato JSON y marcar el primer item como nodo de registro. ● Si la previsualización es correcta, crear el proyecto Algunas transformaciones con Google Refine ● ● Eliminar / reordenar columnas: En la columna All, Edit columns > Re-order / Remove columns Para cambiar los contenidos de las celdas, a nivel de columna: hacer click en el triángulo que aparece a la izquierda del nombre de la columna, y seleccionar alguna de las opciones. En las fórmulas, el valor de la celda se indica con value ● Google Refine guarda un histórico con las últimas transformaciones realizadas, que podemos reutilizar a nuestra conveniencia. Incluso podemos marcarlas con una estrella, para acceder de forma aún más cómoda desde la pestaña Starred. ○ Buscar-reemplazar en una celda (entre comillas): value.replace(“[LO-QUE- ○ ○ ○ SE-BUSCA]”,”EL-REEMPLAZO”) Buscar-reemplazar con expresiones regulares (entre barras; si dentro de la expresión hay alguna barra o caracter reservado, hay que escaparlo con la contrabarra: \ ): value.replace(/[LO-QUE-SE-BUSCA]/,”EL-REEMPLAZO”) ■ La parte de reemplazo siempre va entre comillas, aunque utilicemos valores almacenados en la búsqueda: $1, etc Tranformaciones disponibles en Refine: ■ Eliminar espacios en blanco al principio/final (Edit cells > Common transforms > Trim leading and trailing whitespace), o varios espacios en blanco consecutivos (Edit cells > Common transforms > Collapse consecutive whitespaces) ■ Cambio mayúsculas/minúsculas: (Edit cells > Common transforms > To titlecase | To uppercase | To lowercase) ■ Cambiar el tipo de dato: (Edit cells > Commons transforms > To number | To date | To text) Ampliar datos a través de APIs: (Edit column > Add column by fetching URLs). En este caso se obtiene una nueva columna con la información obtenida de la URL que se pasa. Normalmente, tendremos que utilizar el valor (value) de la celda como parámetro de la URL, que obtenemos concatenando texto como sea necesario (la parte de URL se pasa como cadena de texto, entre comillas; el signo + es el signo de concatenación). Esta transformación puede llevar bastante tiempo, dependiendo del número de elementos a transformas, limitaciones de la API que se esté usando, etc. Por ejemplo, para expandir URL’s abreviadas: ■ “http://api.longurl.org/v2/expand?url=” + value