Subido por juanpaspm

p54-baeza-yates.en.es

Anuncio
artículos contribuyeron
DOI: 10.1145 / 3209581
el aumento de los datos digitales, se puede ahora
Sesgo en los datos Web y el uso contamina los algoritmos detrás de las
aplicaciones basadas en la Web, entregando resultados igualmente
sesgados.
extenderse más rápido que nunca y llegar a muchas más
personas. Este prejuicio ha causado en grandes volúmenes
de datos se convierta en una tendencia y tema controvertido
en los últimos años. Las minorías, sobre todo, han sentido
los efectos nocivos de sesgo de los datos en la consecución
Por Ricardo Baeza-Yates
de los objetivos de vida, con los resultados que se rigen
principalmente por medio de algoritmos, de los préstamos
hipotecarios a la personalización de la publicidad. 24 Si bien los
El sesgo en
la Web
obstáculos que siguen siendo un obstáculo importante,
sesgo nos afecta a todos, aunque gran parte de las veces no
nos damos cuenta que existe o cómo podría (negativamente)
influir en nuestro juicio y de comportamiento.
La Web es más prominente canal de comunicación de
hoy en día, así como un lugar donde convergen nuestros
prejuicios. A medida que las redes sociales son cada vez
más central en la vida diaria, que nos exponen a factores
de influencia que puede que no hemos encontrado
previamente. Esto hace que la comprensión y el
reconocimiento de sesgo en la Web más importante que
nunca. Mi objetivo principal aquí es, pues, para elevar el
nivel de conciencia para todos los sesgos Web. conciencia
sesgo ayudaría a diseñar sistemas basados ​en Web
mejores, así como sistemas de software en general.
NUESTRO inherente al ser humano tendencia
a favorecer una cosa u opinión sobre otro se
refleja en cada aspecto de nuestras vidas, creando sesgos tanto latentes y
El sesgo de medición de
El primer desafío en el tratamiento de sesgo es cómo definir
manifiestas hacia todo lo que vemos, oímos, y hacemos. Cualquier remedio para el
y medir la misma. Desde un punto de vista estadístico, el
sesgo debe comenzar con la conciencia de que existe sesgo; por ejemplo, las
sesgo es una desviación sistémica causada por un proceso
sociedades más maduras sensibilización de sesgo social a través de programas de
acción afirmativa, y, mientras que la conciencia sola no alivia completamente el
problema, nos ayuda a guiar hacia una solución. El sesgo en la Web refleja tanto
de estimación o de muestreo incorrecto. Como resultado, la
distribución de una variable podría estar sesgado con
respecto a la original, posiblemente desconocida,
distribución. Además, los prejuicios culturales se pueden
encontrar en nuestras inclinaciones a nuestras creencias
los prejuicios sociales e internas dentro de nosotros mismos, emergiendo de una
personales compartidos, mientras que los sesgos cognitivos
manera más sutiles. Este artículo tiene como objetivo aumentar el conocimiento de
afectan a nuestro comportamiento y las formas en las que
los efectos potenciales impuestas a todos nosotros a través de sesgo presente en
tomar decisiones.
uso de la Web y el contenido. por lo tanto hay que considerar y tener en cuenta en
el diseño de sistemas Web que realmente respondan a las necesidades de las
La figura 1 muestra cómo las influencias de polarización
ideas clave
personas.
˽ Cualquier remedio para el sesgo comienza con
nosotros mismos, que se manifiesta en formas más sutiles.
Sesgo ha sido intrínsecamente incrustado en la cultura y la historia desde el
principio del tiempo. Sin embargo, debido a las
54 Comunicaciones del ACM | DE JUNIO DE 2018
| VOL. 61 | NO. 6
˽ Hay que considerar y tener en cuenta el sesgo
en el diseño de sistemas basados ​en la Web que realmente respondan a
las necesidades de los usuarios.
Imagen de Sviatlana sheina
la conciencia de su existencia.
˽ El sesgo en la Web refleja prejuicios dentro de
TIENES RAZÓN
Y todos los
demás están
equivocados.
DE JUNIO DE 2018 | VOL. 61 | NO. 6 | Comunicaciones del ACM
55
artículos contribuyeron
por lo tanto me he preguntado: ¿Qué porcentaje de
Figura 1. El ciclo vicioso de sesgo en la Web.
usuarios de la Web activos generan la mitad del contenido
de un sitio web de medios sociales? Yo no, sin embargo,
sesgo de la actividad
considero que la mayoría silenciosa de los usuarios de Web
sólo reloj
la Web sin contribuir a ella, que en sí mismo es una
forma de sesgo de autoselección. 14 Saez-Trumper y yo 8 cuatro
Web
conjuntos de datos analizados, y como detalle, los
resultados nos sorprendieron.
sesgo de los datos
Exploración de un conjunto de datos de Facebook desde
2009 con casi 40.000 usuarios activos, encontramos 7% de
sesgo de segundo orden
ellos produce el 50% de los puestos. En un conjunto de datos
más grande de la Amazonía valoraciones de 2013,
Pantalla
encontramos sólo el 4% de los usuarios activos. En un gran
Sesgo de muestreo
conjunto de datos a partir de 2011 con 12 millones de
usuarios activos de Twitter, el resultado fue sólo el 2%. Por
último, hemos aprendido que la primera versión de la mitad de
Algoritmo
las entradas de Wikipedia Inglés fue investigado y publicado
sesgo algorítmica
por el 0,04% de sus editores registrados, o aproximadamente
sesgo de autoselección
sesgo de la interacción
2.000 personas, lo que indica sólo un pequeño
Figura 2. Efecto vergüenza (línea con pequeña dirección de la tendencia) vs. mínimo esfuerzo (notable dirección de la tendencia) en el
porcentaje de todos los usuarios contribuyen a la
número de enlaces en las páginas web del Reino Unido, con intersección entre 12 y 13 enlaces. Los datos en el extremo derecho se debe
Web y la noción de que representa la sabiduría de
probablemente a las páginas de haber sido escritos por software, no por los usuarios o desarrolladores Web. 5
la multitud global es una ilusión.
A la luz de estos hallazgos, 8 que no tiene sentido
10 -1
que sólo el 4% de las personas que voluntariamente
escribir la mitad de todos los comentarios en el
10 -2
conjunto de datos de Amazon. Sentí algo más está en
Número de páginas
juego. Un mes después de la publicación de los
10 -3
resultados, se confirmó mi corazonada. En octubre
10 -4
2015, Amazon comenzó una campaña institucional
contra pagados comentarios falsos que continuaron en
2016 demandando casi
10 -5
1.000 personas acusadas de escribirlos. nuestro
análisis 8 También se encontró que si tenemos en
10 -6
10 0
10 2
10 1
10 3
Número de Enlaces
cuenta sólo los comentarios que algunas personas
encuentran útil, el porcentaje se reduce al 2,5%,
utilizando la correlación positiva entre la utilidad
promedio de cada revisión según los usuarios y un
tanto el crecimiento de la Web y su uso. Aquí explico
la importancia de las categorías de sesgo
proxy de la calidad del texto. Aunque el ejemplo de
cada uno de los sesgos (en rojo) y clasificarlos por
identificado, no en los aspectos metodológicos de
Wikipedia Inglés es el más sesgada, representa
tipo, empezando por el sesgo de la actividad
la investigación. Para más detalles, ver las
una positivo parcialidad. Las 2.000 personas al inicio
resultante de cómo la gente usa la Web y el sesgo
referencias y las investigaciones que figuran en el
del Inglés Wikipedia probablemente provocaron un
oculto de personas sin acceso a Internet. entonces
apéndice en línea “Lectura adicional” (ATS
efecto de bola de nieve que ayudó Wikipedia
me dirijo sesgo en los datos Web y cómo
dl.acm.org/citation.cfm?doid=3209581&picked=form) convertirse en el vasto recurso enciclopédico que
potencialmente contamina los algoritmos que lo
de este artículo.
es hoy.
utilizan, seguidos por los prejuicios creados a través
de nuestra interacción con sitios web y cómo el
contenido y el uso recicla de nuevo a la Web o para
Sesgo actividad, o la sabiduría de unos pocos
sistemas basados ​en internet, creando varios tipos de
En 2011, un estudio realizado por Wu et al. 28 sobre cómo las
Zipf, sostiene que muchas personas lo hacen sólo un poco,
sesgo de segundo orden .
personas siguieron otras personas en Twitter encontraron
mientras que pocas personas lo hacen mucho, posiblemente
que el 0,05% de las personas más populares atrajo a casi el
ayudando a explicar una gran parte de la actividad sesgo. Sin
50% de todos los participantes; 28 es decir, la mitad de los
embargo, los incentivos económicos y sociales también juegan un
usuarios de Twitter en el conjunto de datos estaban siguiendo
papel en el rendimiento de este resultado. Por ejemplo, la ley de
sólo unos pocos selectos celebridades. yo
Zipf se puede ver en la mayoría de las medidas de Web
Considere el siguiente estudio de investigación sobre el
sesgo en la Web, algunos en los que estaba involucrado con
personal, centrándose en
56 Comunicaciones del ACM | DE JUNIO DE 2018
| VOL. 61 | NO. 6
principio de menor esfuerzo de Zipf, 29 también llamada ley de
artículos contribuyeron
(Como el número de páginas por sitio web o número de
no importa qué definición de qué calidad se utiliza. Sin
contenido asociado con las grandes ciudades y
enlaces por página web). La figura 2 representa el
embargo, una gran cantidad de contenido falso en la web
atracciones turísticas. Otro ejemplo del efecto de la
número de enlaces en las páginas web del Reino Unido
parece extenderse más rápido que el contenido fiable. 17
red de sesgo Web es la estructura de enlaces de la
propia Web. Figura 3 parcelas el número de enlaces
sobre la X- eje y el número de páginas web en la y- eje. la
ley de Zipf es claramente visible en el lado derecho, en la
de la Web dentro de España a otros países, junto con
El primer conjunto de sesgos observados en
línea con la pendiente más negativa. Sin embargo, hay
personas que interactúan con la Web se debe a sus
las exportaciones de España a los mismos otros
una fuerte fuerza social en el comienzo de la X- eje que
características demográficas. El acceso y el uso de
países. 3 Los países hacia la parte inferior derecha son
llamo el “efecto de la vergüenza” que hace que la
Internet se correlaciona con sesgo educativo, económico
los valores atípicos, ya que todos ellos habían vendido
pendiente menos negativo. También ilustra que muchas
y tecnológico, así como otras características, causando
el derecho a utilizar sus dominios para otros fines
personas prefieren ejercer el menor esfuerzo, aunque la
un efecto dominó de sesgo en el contenido de la web y
(como la
mayoría de las personas también necesitan sentir que
enlaces. Por ejemplo, se estima que más del 50% de los
hacen todo lo posible para evitar sentir vergüenza de su
sitios web más populares son en Inglés, mientras que el
. código de país fm, dominio de nivel superior para los
esfuerzo. 5 Estos dos efectos son características comunes
porcentaje de hablantes nativos de inglés en el mundo es
Estados Federados de Micronesia). Haciendo caso
de la actividad de las personas en la web.
de aproximadamente sólo el 5%; esto aumenta al 13% si
omiso de ellas, la correlación entre las exportaciones
se incluyen todas las personas de habla inglesa, según
y número de enlaces es más de 0,8 para España. De
las estimaciones de la Wikipedia. sesgo geográfico
hecho, cuanto más desarrollado es un país, mayor es
también se observa en Web
la correlación, que van desde
Por último, el premio Nobel Herbert Simon dijo: “Una
gran cantidad de información crea una pobreza de
0,6 a 0,9 para Brasil para el Reino Unido 4
atención.” El sesgo actividad genera un “desierto digital”
a través de la Web o contenido Web nadie lo ve. Un
límite inferior proviene de datos donde Saez-Trumper y
yo Twitter 8 encontró que el 1,1% de los tweets fueron
Figura 3. sesgo económico de enlaces para la Web en España. 3
100000000
escritos y publicados por los personas sin seguidores.
10000000
Revisando las estadísticas de uso de Wikipedia nos
dieron una cota superior, mediante el cual el 31% de los
1000000
no fueron visitados en junio. El tamaño real del desierto
digital en la Web probablemente se encuentra en la
primera mitad de la gama de 1% a 31%.
Por otro lado, el sesgo no siempre es negativo.
Exportaciones (miles de US $)
artículos añadidos o modificados en el de mayo de 2014
100.000
10000
1000
Debido al sesgo de la actividad, todos los niveles de
100
almacenamiento en caché Web son altamente efectivos
1 10
para mantener el contenido más utilizado fácilmente
disponible, y la carga en los sitios web y la red de Internet
10
1
en general es entonces mucho menor de lo que sería
100
1000
10000
100.000
Número de dominios Vinculados
potencialmente posible.
Figura 4. Acumulado fracción de biografías de mujeres en Wikipedia. dieciséis
sesgo de datos
0.25
Al igual que con habilidades de la gente, la calidad de los
datos es heterogénea y, por tanto, en cierta medida, que se
espera a estar sesgados. Las personas que trabajan en el
0.20
ocupan de la información debe publicar los datos de mayor
calidad y menor sesgo, mientras que los medios de
comunicación social en su conjunto es mucho más grande,
sesgada y, sin duda, de una calidad media baja. Por otro
lado, el número de personas que contribuyen a los medios
de comunicación social es probablemente por lo menos un
orden de magnitud mayor que el número de personas que
trabajan en las instituciones basadas en la información.
Fracción de Biografías por año
gobierno, las universidades y otras instituciones que se
0.15
0.10
0.05
Existe, pues, más datos de alguna calidad procedentes de
todas las personas, incluyendo datos de alta calidad,
0.00
0.0
0.2
0.4
0.6
0.8
Fracción acumulativa
DE JUNIO DE 2018 | VOL. 61 | NO. 6 | Comunicaciones del ACM
57
1.0
artículos contribuyeron
el sesgo de género en toda la historia humana. 25 Sin muestran que menos del 12% de los editores de
Un segundo conjunto de sesgos es debido a la
interacción entre los diferentes tipos de sesgo.
embargo, un factor subyacente esconde un sesgo
Wikipedia son mujeres. En otras categorías, el sesgo
Considere la figura 4, que representa gráficamente la
más profundo que se revela cuando se mira más
de género es aún peor, de alcanzar el 4% en la
fracción de biografías de mujeres en Wikipedia, dieciséis unade cerca el proceso de creación. En la categoría de
biografías, estadísticas de Wikipedia
curva que podría explicarse a través sistémico
geografía. Por otra parte, como el porcentaje de todas
informó públicamente Wikipedia redactoras es sólo
del 11%, biografías muestran en realidad un pequeño
sesgo positivo. Tenga en cuenta estos valores
Figura 5. Los mapas de calor de análisis de seguimiento ocular en la web de búsqueda de páginas de resultados, a partir de 2005 (izquierda) a 2014 (derecha). 18
también son parciales, ya que no todos los editores de
os aprendido
Wikipedia identificar su género, y las hembras pueden
por lo tanto ser representados.
Nuestra tercera fuente de sesgo de los datos es spam
vestigadores se
web, un conocido sesgo malintencionado generado por el
iángulo de oro
hombre que es difícil de caracterizar. Lo mismo se aplica al
contenido (cerca de) la duplicación (tales como sitios web de
espejo) que, en 2003, representó aproximadamente el 20%
1
de contenido Web estático. 13
Dado que la medición de casi cualquier sesgo es difícil,
su efecto sobre los algoritmos de predicción utilizando la
ores ya no son siempre en la
máquina de aprendizaje son asimismo difíciles de entender.
que los usuarios ven en
Como los datos Web representa una muestra sesgada de
.
la población, para empezar, los estudios basados ​en las
2
redes sociales pueden tener una cantidad significativa de
error podemos estar seguros de que no se distribuye de
manera uniforme. Por la misma razón, los resultados de
Al igual que con todos los mapas de calor relativo presentados en este estudio, las áreas rojas
La forma de triángulo distinto no es visible porque buscadores son un
esas investigaciones no pueden extrapolarse al resto de la
son aquellas en las que los participantes pasaron la mayor cantidad de tiempo buscando como
barrido vertical más de lo que están leyendo horizontalmente.
n acondicionado habitualmente
Figura 6. gráfica de dependencia de los sesgos que afectan a la interacción del usuario.
población; considerar, por ejemplo, los errores de votación
un porcentaje del tiempo total se veían en la página, seguido por el amarillo, luego verde.
verticalmente más de
en la elección presidencial de 2016 Estados Unidos, 18 Aunque
dores están buscando el
posición sesgo
nido deseado.
las encuestas en línea predicho el resultado mejor que las
Clasificación
encuestas en vivo. Otras fuentes de error incluyen
9
Presentación
muestras sesgadas de datos (como debido al sesgo de
sesgo de la interacción
parcialidad
12
sesgo sesgo
selección) o muestras demasiado pequeña para la técnica
analítica a la mano. 7
El movimiento
del ratón
Haga clic sesgo
prejuicio social
sesgo de desplazamiento
Sesgo algorítmica y la Justicia
sesgo de autoselección
Los datos y el sesgo algorítmica
sesgo algorítmico se añade por el mismo algoritmo y no
está presente en los datos de entrada. Si los datos de
entrada es, en efecto sesgado, la salida del algoritmo
Posible clasificación de los sesgos mediante el cual las columnas culturales y cognitivos son dependientes del
también podría reflejar el mismo sesgo. Sin embargo,
usuario.
incluso si se detectan todos los posibles sesgos, la
definición de cómo un algoritmo debe proceder es
Tipo de sesgo
algorítmico
Presentación
Posición
Muestreo
Datos
Segundo orden
Estadístico
•
•
•
•
•
•
Actividad
Usuario Interacción
Clasificación
Social
Autoselección
58 Comunicaciones del ACM | DE JUNIO DE 2018
| VOL. 61 | NO. 6
Cultural
Cognitivo
generalmente difícil, de la misma manera las personas
?
?
están de acuerdo sobre lo que es una solución justa a
cualquier tema controvertido. Se puede incluso requerir que
invita a un experto humano para ayudar a detectar si una
salida de hecho incluye cualquier sesgo en absoluto. En un
•
•
•
•
•
•
•
•
•
•
•
•
•
esfuerzo de investigación 2016, que utiliza un corpus de
noticias de Estados Unidos para aprender que ella-él
analogías través de incrustaciones de palabras, la mayor
parte de los resultados se informó como parcial, como en la
enfermera-cirujano y divasuperstar en lugar de reina-rey. 9 Una
búsqueda rápida en la web mostró que aproximada-
artículos contribuyeron
madamente el 70% de los periodistas influyentes en los
Sesgo la interacción del usuario
EE.UU. eran hombres, a pesar de que en las escuelas de
Una fuente importante de sesgo es la interacción del
periodismo de Estados Unidos, las proporciones de género
usuario, no sólo en la Web, pero a partir de dos fuentes
se invierten. Algoritmos de aprendizaje de los artículos de
notables: la interfaz de usuario y la propia
noticias están aprendiendo así de textos con sesgo
demostrable y sistémica de género. Sin embargo, otras
investigaciones han identificado la presencia de otros sesgos
culturales y cognitivos. 10,22
Por otro lado, algunos desarrolladores web han sido
capaces de limitar el sesgo. “De-sesgar” el tema-sesgo
de género puede abordarse mediante la factorización en
el subespacio de género de forma automática. 9 En cuanto
a sesgo geográfico en las recomendaciones de noticias,
las grandes ciudades y centros de poder político
seguramente generará más noticias. Si se utilizan
Además del sesgo
auto-seleccionados, la interacción sesgada del usuario.
introducido por los
todo lo que ve el usuario puede obtener clics mientras
diseñadores de
El primero es el “sesgo de presentación,” por la cual
todo lo demás se pone ningún clic. Esto es
particularmente relevante en los sistemas de
interacción, los
recomendación. Considere un servicio de
usuarios tienen su
recomendaciones que pueden navegar, aunque el
propio sesgo de
autoselección.
videostreaming en el que los usuarios tienen cientos de
número es abismalmente pequeña en comparación con
los millones que podrían ser ofrecidos. Este sesgo
afecta directamente a los nuevos artículos o artículos
que nunca han sido vistos por los usuarios, ya que no
algoritmos de recomendación estándar, el público en
hay datos de uso de ellos. La solución más común se
general probablemente lee noticias de una ciudad capital,
llama “explorar y explotar”, como en Agarwal et al., 2 quien
no desde el lugar donde viven. Teniendo en cuenta la
estudió un ejemplo clásico aplicado a la banda. Expone
diversidad y la ubicación del usuario, los diseñadores
parte del tráfico de usuarios a los nuevos artículos
Web pueden crear sitios web que dan una visión menos
entremezcladas al azar con los mejores
centralizado que también muestra las noticias locales. 15
recomendaciones para explorar y, de ser elegido,
explotar los datos de uso para revelar su verdadero
valor relativo. La paradoja de esta solución es que la
exploración podría implicar una pérdida o un costo de
“Las recomendaciones de la etiqueta,” o la
oportunidad para la explotación de la información ya
recomendación de etiquetas o rótulos para los
conocida. En algunos casos, hay incluso una pérdida de
artículos, es un ejemplo extremo de sesgo
ingresos (por ejemplo, de los anuncios digitales). Sin
algorítmica. Imagínese una interfaz de usuario que
embargo, la única manera de aprender y descubrir
un usuario sube una foto y añade varias etiquetas,
(nuevos) buenos artículos es la exploración.
y un algoritmo de recomendación etiqueta sugiere
entonces las etiquetas que la gente ha utilizado en
otras fotos basado en filtrado colaborativo. El
usuario elige los que parecen correctos, ampliando
el conjunto de etiquetas. Esto suena simple, pero
un sitio web de fotos de alojamiento no debe incluir
“Sesgo Posición” es el segundo sesgo. Consideramos
dicha funcionalidad. La razón es que el algoritmo
que en las culturas occidentales se lee de arriba a abajo y
necesita los datos de las personas para mejorar,
de izquierda a derecha. El sesgo es, pues, a mirar primero
pero a medida que la gente utiliza etiquetas
hacia la esquina superior izquierda de la pantalla, lo que
recomendadas, que añaden un menor número de
provocó que la región para atraer más ojos y clics. “Sesgo
etiquetas de los suyos, recogiendo entre las
Clasificación” es un ejemplo importante de tal sesgo.
etiquetas conocidas sin añadir otras nuevas. En
Considere un motor de búsqueda en Internet, donde las
esencia, el algoritmo está haciendo prolonga
páginas de resultados se enumeran en orden relevante de
harakiri sobre sí mismo. Si tenemos un
arriba a abajo. El resultado será mejor clasificado de este
“folcsonomía”, o etiquetas que vienen sólo de las
modo atraer más clics que los demás, ya que es a la vez el
personas, los sitios web no deben recomendar a sí
más relevante y también se clasificó en la primera posición.
mismos las etiquetas. Por otra parte,
Para evitar el sesgo de clasificación, los desarrolladores
Web necesidad de reducir el sesgo de la distribución clic
para que puedan utilizar los datos de clics para mejorar y
evaluar los algoritmos de clasificación. 11,12 De lo contrario,
las páginas populares se vuelven aún más popular.
Otra clase importante de sesgo algorítmica en los
sistemas de recomendación se relaciona con lo que los
elementos del sistema elige para mostrar o no mostrar en
una página web en particular. Tal sesgo afecta a la
interacción del usuario, como explorado siguiente. Hay un
Otros sesgos en la interacción del usuario incluyen las
amplio literatura de investigación en todo tipo de sesgo
relacionadas con el diseño interacción del usuario; por
algorítmica; véase el apéndice en línea para obtener más.
ejemplo, cualquier página web donde un usuario necesita
para desplazarse para ver el contenido adicional se reflejará
como sesgo
DE JUNIO DE 2018 | VOL. 61 | NO. 6 | Comunicaciones del ACM
59
artículos contribuyeron
sesgo de presentación. Por otra parte, el contenido de cerca de
obteniéndose soluciones sub-óptimas y / o
imágenes tiene una mayor probabilidad de que se ha pulsado,
profecías autocumplidas. Estos sistemas a veces
ya que las imágenes atraen la atención del usuario. La figura 5
incluso compiten entre sí, de tal manera que una
muestra ejemplos de los estudios de seguimiento ocular
mejora en los resultados de una degradación de la
mediante el cual, después de la búsqueda universal (múltiples
tipos de respuestas) se introduce, el contenido no textual
contrarresta el sesgo de la posición en la página de resultados; 18
sino que también muestra la columna de la publicidad en la
derecha atraería la atención adicional.
Como cualquier intento de ser
personas afecta a nuestro juicio. Consideremos un ejemplo
que implica clasificaciones de colaboración: Supongamos que
queremos clasificar un elemento con una puntuación baja y
vemos que la mayoría de las personas que ya han dado una
diferente (correlación inversa). Un ejemplo clásico
imparcial ya podrían estar
es la tensión entre la mejora de la experiencia del
sesgados a través de nuestros
como la forma número de anuncios en general,
propios prejuicios culturales y
sesgo social define cómo el contenido procedente de otras
otra que utiliza una función de optimización
cognitivos, el primer paso es,
pues, ser consciente de las
desviaciones.
usuario y el aumento de la monetización (tales
disminuye el aumento de la experiencia del
usuario).
Círculo vicioso de Bias
Bias engendra sesgo. Imaginemos que somos un blogger
planeando nuestra próxima entrada en el blog. En primer
puntuación alta. Podemos aumentar nuestra puntuación de
lugar, la búsqueda de páginas sobre el tema que queremos
sólo pensar que tal vez estamos siendo demasiado dura. Este
cubrir. Luego seleccionamos unas pocas fuentes que nos
sesgo se ha explorado en el contexto de los datos reseñas de
parecen relevantes. Seleccionamos varias cotizaciones de
Amazon 26
estas fuentes. Escribimos nuevos contenidos, poniendo las
cotizaciones en los lugares correctos, citando las fuentes. Y,
y se refiere a menudo como “conformidad social”, o
“el efecto de la reunión.” 20
por último, publicamos la nueva entrada en la Web.
Por último, la forma en que un usuario interactúa con
cualquier tipo de dispositivo es idiosincrático. Algunos usuarios
Este proceso de creación de contenidos no se aplica
están ansiosos por clic, mientras que otros se mueven con el
únicamente a los bloggers, sino también al contenido
ratón, donde se ven. El movimiento del ratón es un proxy
utilizado en las revisiones, comentarios, mensajes de
parcial para la atención mirada y por lo tanto un sustituto de
redes sociales y mucho más. El problema de la deriva
bajo costo computacional para el seguimiento de los ojos.
mensaje aparece cuando se selecciona un subconjunto de
Algunos de nosotros puede que no note la barra de
contenido en función de lo que el motor de búsqueda que
desplazamiento, otros prefieren leer en detalle, y sin embargo,
se utiliza cree que es relevante. El algoritmo de
otros prefieren simplemente descremada. Además del sesgo
clasificación del motor de búsqueda de este modo sesga
introducido por los diseñadores de interacción, los usuarios
una parte del crecimiento orgánico de un tema
tienen su propio sesgo de autoselección. Blanco 27 explorado un
determinado en la Web. Un estudio de mis colegas y yo
buen ejemplo de cómo los prejuicios culturales y cognitivos
llevaron a cabo en 2008 6 encontró que aproximadamente el
afectan a los motores de búsqueda Web, mostrando que los
35% del contenido en la Web en Chile se ha duplicado, y
usuarios tienden a elegir respuestas alineadas con sus
que se podía trazar la genealogía de la duplicación parcial
creencias existentes.
(semántica) de esas páginas. Hoy en día, el efecto
semántico-duplicación podría ser aún más generalizada y
engañosa.
Para hacer sesgo aún más compleja, la interacción
desvía en cascada a través del sistema, y ​los
desarrolladores web tienen grandes dificultades para tratar
El proceso crea un círculo vicioso de sesgo de segundo
de aislarlos. La figura 6 describe un ejemplo de cómo estos
orden, ya que algunos proveedores de contenido obtienen
sesgos en cascada y dependen el uno del otro, lo que
una mejor clasificación, lo que lleva a un mayor número de
implica que los desarrolladores web siempre están viendo
clics; es decir, los ricos se hacen más ricos. Por otra parte, la
sus efectos combinados. Del mismo modo, los usuarios que
duplicación de contenidos sólo agrava el problema de
prefieren desplazarse afectan a cómo se mueven el ratón,
distinguir páginas buenas de las malas páginas. A su vez, los
así como cuáles son los elementos de la pantalla que son
spammers web hacen uso de los contenidos de buenas
capaces de hacer clic.
páginas a aparecer a sí mismos como la calidad del
contenido, sólo se suma al problema. Así, paradójicamente,
sesgos de interacción son cruciales para el análisis
de la experiencia del usuario, así como para el
los motores de búsqueda a menos que dañan a sí mismos no
haga dar cuenta de todos los prejuicios.
rendimiento general de un sitio web, ya que muchos
sistemas Web están optimizados a través de comentarios
de los usuarios implícita. Como tales sistemas
Otro ejemplo de sesgo de segundo orden viene
optimizados se basan cada vez más en el aprendizaje de
de algoritmos de personalización (tales como el
máquina, aprenden a reforzar sus propios sesgos o los
efecto del filtro de burbujas), 21 que no afectan el
prejuicios de otros sistemas conectados,
contenido web, sino más bien el contenido
expuesto al
60 Comunicaciones del ACM | DE JUNIO DE 2018
| VOL. 61 | NO. 6
artículos contribuyeron
usuario. Si un algoritmo de personalización sólo utiliza
otras iniciativas similares. Todos ellos deben
nuestros datos de interacción, sólo vemos lo que queremos
ayudar a definir la ética de algoritmos, en particular
ver, sesgando así el contenido de nuestros propios sesgos
con respecto a la máquina de aprendizaje.
de selección, que nos mantiene en un mundo cerrado,
cerrado a nuevos elementos que realmente pueden gustar.
13. Fetterly, D., Manasse, M., y Najork, M. En la evolución de los
cúmulos de páginas web cerca-duplicados.
Revista de Ingeniería Web 2, 4 (Oct. 2003), 228-246.
14. Gong, W., Lim, E.-P., y Zhu, F. Caracterización de los usuarios silenciosas en las
comunidades de medios sociales. En Actas de la Novena Conferencia
Internacional sobre AAAI web y medios de comunicación social ( Oxford, Reino
Como cualquier intento de ser imparcial ya podrían
Este problema debe ser contrarrestada mediante el filtrado
estar sesgados a través de nuestros propios prejuicios
de colaboración o contextualización de tareas, así como a
culturales y cognitivos, el primer paso es, pues, ser
través de la diversidad, la novedad, serendipia, e incluso, si
consciente de las desviaciones. Sólo si los diseñadores y
así lo solicita, que nos da el otro lado. Esto tiene un efecto
desarrolladores web conocen su existencia pueden tratar, y
positivo sobre la privacidad en línea, ya que, mediante la
si es posible, corregirlos. De lo contrario, nuestro futuro
incorporación de estas técnicas, se requiere menos
podría ser un mundo ficticio basado en percepciones
información personal.
sesgadas de la que ni siquiera la diversidad, la novedad, o
la casualidad serían capaces de rescatarnos.
Unido, mayo 26-29). AAAI, Fremont, CA, 2015, 140-149.
15. Graells-Garrido, E. y Lalmas, M. diversidad de equilibrio a
contramedida centralización geográfica en plataformas de
microblogging. En Actas de la 25 º
Conferencia ACM sobre hipertexto y medios de comunicación social
(Santiago, Chile, Sept. 1-4). ACM Press, Nueva York,
2014, 231-236.
16. Graells-Garrido, E., Lalmas, M., y Menczer, F. primeras mujeres, segundo
sexo: sesgo de género en Wikipedia. En
Actas de la 26 º Conferencia ACM sobre hipertexto y Social Media ( Guzelyurt,
RTNC, Chipre, 1-4 de septiembre). ACM Press, Nueva York, 2015,
165-174.
17. Lazer, DMJ et al. La ciencia de la noticia falsa. Ciencia
359, 6380 (Mar. 2018), 1094-1096.
18. mediadora. La evolución de los resultados de búsqueda de Google
Páginas y efectos sobre el comportamiento del usuario. Libro Blanco, 2014;
Conclusión
http://www.mediative.com/SERP
19. Mercer, A., Deane, C., y McGeeney, K. ¿Por qué 2016
El problema del sesgo es mucho más compleja de
Expresiones de gratitud
lo que he descrito aquí, donde he cubierto sólo una
Doy gracias a Jeanna Matthews, Leila Zia, y los
parte del problema. De hecho, la fundación
revisores anónimos por sus útiles comentarios, así
Las encuestas electorales erraron el blanco. Pew Research Center, de
involucra a todos nuestros prejuicios personales.
como para Amanda Hirsch por su anterior revisión
Por el contrario, muchos de los prejuicios que se
Inglés.
y la Internet de las cosas). La mesa aquí tiene
como objetivo clasificar todos los principales
sesgos en contra de los tres tipos de sesgo que he
mencionado antes. Podemos agruparlos en tres
grupos: El de arriba implica simplemente
algoritmos; la parte inferior de una sola actividad, la
interacción del usuario, y la auto-selección-implica
https://ssrn.com/abstract=2886526
Personalizado de la Web está cambiando lo que se lee y cómo pensamos. Penguin,
referencias
Londres, Reino Unido, 2011.
1. Consejo de Política Pública de Estados Unidos ACM. declaración sobre
Transparencia y rendición de cuentas algorítmica. ACM, Washington,
DC, enero de 2017 https://www.acm.org/ binarios / content / activos / de
políticas públicas / 2017_usacm_ statement_algorithms.pdf
2. Agarwal, D., Chen, BC., Y Elango, P. Explorar / exploit esquemas de
optimización de contenidos web. En Actas de la Novena Conferencia
Internacional IEEE sobre minería de datos ( Miami, FL, 6-9 de diciembre).
IEEE Computer Society Press, 2009.
de datos medio y de segundo orden incluyen los
4. Baeza-Yates, R. y Castillo, C. Relación entre los enlaces web y el
probablemente codifica los prejuicios culturales y
cognitivos de sus creadores. 3
España. Cibermetría 9, 1 (2005), 1-41.
comercio (póster). En Actas de la 15 º Conferencia Internacional de la
World Wide Web
(Edimburgo, Reino Unido, mayo 23-26). ACM Press, Nueva York,
2006, 927-928.
5. Baeza-Yates, R., Castillo, C., y Efthimiadis, ES Caracterización de los
dominios Web nacionales. ACM Transactions on Internet Technology 7, 2
(mayo de 2007), el artículo 9.
6. Baeza-Yates, R., Pereira, y Ziviani, árboles genealógicos N. en la Web:.
Una perspectiva de los usuarios del motor de búsqueda. En Actas de la
17 º Conferencia Internacional de la World Wide Web ( Beijing, China, abril
21-25). ACM Press, Nueva York, 2008, 367-376.
de la 38 º Conferencia ACM SIGIR
(Santiago, Chile, agosto de 9-13). ACM Press, Nueva York,
2015, 1093-1096.
propiedades algoritmos deben cumplir para lograr la
transparencia y la rendición de cuentas: 1 conciencia, el
acceso y la reparación, la rendición de cuentas, la
de comunicación: Gatekeeping, cobertura y declaración de sesgo. En Actas
de la Conferencia Internacional ACM sobre Gestión de la Información y el
Conocimiento ( San Francisco, CA, octubre 27- de noviembre 1). ACM
Press, Nueva York, 2013, 1679-1684.
23. Silberzahn, R. y Uhlmann, EL investigación Crowdsourced: Muchas manos
hacen el trabajo apretado. Naturaleza 526,
24. Smith, M., Patil, DJ, y Muñoz, C. Big Data: Un Informe
algorítmicos en Sistemas, la oportunidad y los derechos civiles.
Oficina Ejecutiva del Presidente, Washington, DC, 2016;
https://obamawhitehouse.archives.gov/sites/ default / files /
micrositios / OSTP / 2016_0504_data_ discrimination.pdf
25. Wagner, C., Garcia, D., Jadidi, M., y Strohmaier, M. Es Wikipedia de un hombre?
Evaluación de las desigualdades de género en una enciclopedia en línea. En Actas
de la Novena Conferencia Internacional sobre AAAI web y medios de
comunicación social ( Oxford, Reino Unido, mayo 26-29). AAAI, Fremont, CA,
2015, 454-463.
26. Wang, T. y Wang, D. ¿Por qué las calificaciones de Amazon podrían inducir a que: La
historia de los efectos de pastoreo. Big Data 2, 4 (diciembre de 2014), 196-204.
27. Blanca, R. Las creencias y los sesgos en la búsqueda en Internet. En
7. Baeza-Yates, R. muestreo incremental de registros de consultas. En Actas
A principios de 2017, US-ACM publica los siete
22. Saez-Trumper, D., Castillo, C., y Lalmas, M. Sociales comunidades medios
7572 (Oct. 2015), 189-191; https://psyarxiv.com/qkwst/
3. Baeza-Yates, R., Castillo, C. y López, V. Características de la Web de
en la primera línea indican que cada programa
Datos: Los sesgos metodológicos, trampas, y los límites éticos. SSRN,
21. Pariser, E. El filtro burbuja: cómo el nuevo
los que vienen sólo de personas; y la de una sola
que implican ambos. Los signos de interrogación
pewresearch.org/fact-tank/2016/11/09/why-2016election-polls-missed-their-mark/
20. Olteanu, A., Castillo, C., Diaz, F., y Kiciman, E. Social
Rochester, NY 20 de diciembre, de 2016;
describen aquí se manifiestan más allá del
ecosistema web (como en los dispositivos móviles
Washington, DC, noviembre de 2016; http: // www.
8. Baeza-Yates, R. y Saez-Trumper, D. La sabiduría de la multitud o la sabiduría de
unos pocos? Un análisis de la generación de contenido de los usuarios. En Actas
de la 26 º Conferencia ACM sobre hipertexto y Social Media ( Guzelyurt, RTNC,
Chipre, 1-4 de septiembre). ACM Press, Nueva York, 2015, 69-74.
9. Bolukbasi, R., Chang, KW, Zou, J., Saligrama, V., y Kalai, A. El hombre es
Actas de la 36 º Conferencia ACM SIGIR
(Dublín, Irlanda 28 de Julio-Ago. 1). ACM Press, Nueva York, 2013,
3-12.
28. Wu, S., Hofman, JM, Mason, WA, y Watts, DJ ¿Quién dice qué a quién
en Twitter. En Actas de la 20 º Conferencia Internacional de la World
Wide Web ( Hyderabad, India, marzo 28-abril. 1). ACM Press, Nueva
York, 2011, 705-714.
29. Zipf, GK Comportamiento Humano y el principio del menor
Esfuerzo. Addison-Wesley Press, Cambridge, MA, 1949.
explicación, la procedencia de datos, capacidad de
programador informático como mujer es ama de casa? De incrustaciones
de polarización de palabras. En Actas de la 30 º Conferencia sobre
auditoría y validación y pruebas. Este artículo está más
Ricardo Baeza-Yates ( [email protected]) es director de tecnología de NTENT, una
neuronales Sistemas de Procesamiento ( Barcelona, ​España, 5-10 de
compañía de tecnología de búsqueda basada en Carlsbad, CA, EE.UU., y Director
diciembre). Curran Associates, Inc., Red Hook, Nueva York,
de Programas de Ciencias de la Computación de la Universidad de Northeastern, el
estrechamente alineada con la conciencia. Además, el
IEEE Computer Society También en 2017 se inició un
proyecto para definir las normas en esta área, y al
menos dos nuevas conferencias sobre el tema se
llevaron a cabo en febrero de 2018. Mis colegas y yo
campus de Silicon Valley, San José, CA, EE.UU..
2016, 4.349 a 4.357.
10. Caliskan, A., Bryson, JJ, y Narayanan, A. Semántica deriva automáticamente a
partir de corpus de lenguaje contienen sesgos similares a las humanas. Ciencia
356, 6334 (Abril 2017), 183-186.
Derechos de autor pertenecen por el propietario / autor. Los derechos de
11. Chapelle, O. y Zhang, Y. Una red bayesiana modelo pulsa dinámico para la
también están trabajando en un sitio web con recursos
clasificación de búsqueda Web. En Actas de la 18 º Conferencia
en la “imparcialidad medidas”relacionadas con
Press, Nueva York,
algoritmos (http://fairnessmeasures.org/), y
seguramente hay
publicación licencia para ACM. De $ 15.00.
Internacional de la World Wide Web ( Madrid, España, abril 20-24). ACM
2009, 1-10.
12. Dupret, GE y Piwowarski, B. Un modelo de navegación del usuario para
Mira el autor discute su trabajo en
predecir datos de clics del motor de búsqueda a partir de observaciones
este exclusivo
pasadas. En Actas de la 31 S t Conferencia ACM SIGIR ( Singapur, Julio 20-24).
comunicaciones vídeo.
https://cacm.acm.org/videos/
sesgo-and-the-web
ACM Press, Nueva York, 2008, 331-338.
DE JUNIO DE 2018 | VOL. 61 | NO. 6 | Comunicaciones del ACM
61
Descargar