Escucha activa en la web (y como facilitar la tarea con Yahoo! Pipes)

Anuncio
Escucha activa en la web (y como facilitar la tarea con
Yahoo! Pipes)
Miramon Enpresa Digitala (4-5/06/2012)
Introducción
Presentación
Fuentes
Fuentes RSS de Twitter
Fuentes RSS de Facebook
Fuentes RSS de Flickr
Fuentes RSS de Youtube
Socialmention
Google Blog Search
Google Alerts
Google News
Meneame
Herramientas
Yahoo! Pipes
OpenOffice
R-project
Google Refine
Yahoo! Pipes
Blog oficial
Documentación oficial de Yahoo! Pipes
Expresiones regulares en Pipes
Explicación y ejemplos de XPath
Pipes de ejemplo
Etiqueta pipes en el Diigo de Neregauzak
Vídeos sobre Pipes
www.pipestutorial.com
5 Useful Yahoo! Pipes to Monitor Your Brand
Truquitos
●
●
●
●
Regex: .* (todo el contenido de un campo)
Regex: ^ (inicio del contenido)
Para incluir el valor de un campo/variable en el contenido de otro (con el módulo regex):
${NOMBRE_DEL_CAMPO}
y:published.utime (tiempo Unix, tiene precisión/granularidad de segundo)
●
y:repeatcount (contador para los elementos que se filtran usando el módulo unique)
Pipes de prueba
http://pipes.yahoo.com/iradokikoop/plataformas
Opciones para correr un Pipe fuera de Yahoo! Pipes
●
●
Servidor propio (con Python)
En Google Apps
Google Refine
Documentación oficial
Vídeos demostrativos
Explicación de los distintos algoritmos para crear clusters de cadenas
Blog sobre Google Refine
Usos avanzados (y combinación con otras herramientas) en OUseful.info
Etiqueta google-refine en Diigo de Neregauzak
Vídeos sobre Google Refine
Importar datos desde Pipes a Google Refine
●
●
Crear nuevo proyecto con la opción Web Addresses (URLs)
Indicar la dirección del Pipe, en formato JSON
●
Indicar que los datos están en formato JSON y marcar el primer item como nodo de
registro.
●
Si la previsualización es correcta, crear el proyecto
Algunas transformaciones con Google Refine
●
●
Eliminar / reordenar columnas: En la columna All, Edit columns > Re-order /
Remove columns
Para cambiar los contenidos de las celdas, a nivel de columna: hacer click en el
triángulo que aparece a la izquierda del nombre de la columna, y seleccionar alguna de
las opciones. En las fórmulas, el valor de la celda se indica con value
●
Google Refine guarda un histórico con las últimas transformaciones realizadas, que
podemos reutilizar a nuestra conveniencia. Incluso podemos marcarlas con una estrella,
para acceder de forma aún más cómoda desde la pestaña Starred.
○
Buscar-reemplazar en una celda (entre comillas): value.replace(“[LO-QUE-
○
○
○
SE-BUSCA]”,”EL-REEMPLAZO”)
Buscar-reemplazar con expresiones regulares (entre barras; si dentro de la
expresión hay alguna barra o caracter reservado, hay que escaparlo con la
contrabarra: \ ): value.replace(/[LO-QUE-SE-BUSCA]/,”EL-REEMPLAZO”)
■ La parte de reemplazo siempre va entre comillas, aunque utilicemos
valores almacenados en la búsqueda: $1, etc
Tranformaciones disponibles en Refine:
■ Eliminar espacios en blanco al principio/final (Edit cells > Common
transforms > Trim leading and trailing whitespace), o varios
espacios en blanco consecutivos (Edit cells > Common transforms
> Collapse consecutive whitespaces)
■ Cambio mayúsculas/minúsculas: (Edit cells > Common transforms
> To titlecase | To uppercase | To lowercase)
■ Cambiar el tipo de dato: (Edit cells > Commons transforms > To
number | To date | To text)
Ampliar datos a través de APIs: (Edit column > Add column by fetching
URLs). En este caso se obtiene una nueva columna con la información obtenida
de la URL que se pasa. Normalmente, tendremos que utilizar el valor (value)
de la celda como parámetro de la URL, que obtenemos concatenando texto
como sea necesario (la parte de URL se pasa como cadena de texto, entre
comillas; el signo + es el signo de concatenación). Esta transformación puede
llevar bastante tiempo, dependiendo del número de elementos a transformas,
limitaciones de la API que se esté usando, etc. Por ejemplo, para expandir
URL’s abreviadas:
■ “http://api.longurl.org/v2/expand?url=” + value
Descargar