artículos contribuyeron DOI: 10.1145 / 3209581 el aumento de los datos digitales, se puede ahora Sesgo en los datos Web y el uso contamina los algoritmos detrás de las aplicaciones basadas en la Web, entregando resultados igualmente sesgados. extenderse más rápido que nunca y llegar a muchas más personas. Este prejuicio ha causado en grandes volúmenes de datos se convierta en una tendencia y tema controvertido en los últimos años. Las minorías, sobre todo, han sentido los efectos nocivos de sesgo de los datos en la consecución Por Ricardo Baeza-Yates de los objetivos de vida, con los resultados que se rigen principalmente por medio de algoritmos, de los préstamos hipotecarios a la personalización de la publicidad. 24 Si bien los El sesgo en la Web obstáculos que siguen siendo un obstáculo importante, sesgo nos afecta a todos, aunque gran parte de las veces no nos damos cuenta que existe o cómo podría (negativamente) influir en nuestro juicio y de comportamiento. La Web es más prominente canal de comunicación de hoy en día, así como un lugar donde convergen nuestros prejuicios. A medida que las redes sociales son cada vez más central en la vida diaria, que nos exponen a factores de influencia que puede que no hemos encontrado previamente. Esto hace que la comprensión y el reconocimiento de sesgo en la Web más importante que nunca. Mi objetivo principal aquí es, pues, para elevar el nivel de conciencia para todos los sesgos Web. conciencia sesgo ayudaría a diseñar sistemas basados en Web mejores, así como sistemas de software en general. NUESTRO inherente al ser humano tendencia a favorecer una cosa u opinión sobre otro se refleja en cada aspecto de nuestras vidas, creando sesgos tanto latentes y El sesgo de medición de El primer desafío en el tratamiento de sesgo es cómo definir manifiestas hacia todo lo que vemos, oímos, y hacemos. Cualquier remedio para el y medir la misma. Desde un punto de vista estadístico, el sesgo debe comenzar con la conciencia de que existe sesgo; por ejemplo, las sesgo es una desviación sistémica causada por un proceso sociedades más maduras sensibilización de sesgo social a través de programas de acción afirmativa, y, mientras que la conciencia sola no alivia completamente el problema, nos ayuda a guiar hacia una solución. El sesgo en la Web refleja tanto de estimación o de muestreo incorrecto. Como resultado, la distribución de una variable podría estar sesgado con respecto a la original, posiblemente desconocida, distribución. Además, los prejuicios culturales se pueden encontrar en nuestras inclinaciones a nuestras creencias los prejuicios sociales e internas dentro de nosotros mismos, emergiendo de una personales compartidos, mientras que los sesgos cognitivos manera más sutiles. Este artículo tiene como objetivo aumentar el conocimiento de afectan a nuestro comportamiento y las formas en las que los efectos potenciales impuestas a todos nosotros a través de sesgo presente en tomar decisiones. uso de la Web y el contenido. por lo tanto hay que considerar y tener en cuenta en el diseño de sistemas Web que realmente respondan a las necesidades de las La figura 1 muestra cómo las influencias de polarización ideas clave personas. ˽ Cualquier remedio para el sesgo comienza con nosotros mismos, que se manifiesta en formas más sutiles. Sesgo ha sido intrínsecamente incrustado en la cultura y la historia desde el principio del tiempo. Sin embargo, debido a las 54 Comunicaciones del ACM | DE JUNIO DE 2018 | VOL. 61 | NO. 6 ˽ Hay que considerar y tener en cuenta el sesgo en el diseño de sistemas basados en la Web que realmente respondan a las necesidades de los usuarios. Imagen de Sviatlana sheina la conciencia de su existencia. ˽ El sesgo en la Web refleja prejuicios dentro de TIENES RAZÓN Y todos los demás están equivocados. DE JUNIO DE 2018 | VOL. 61 | NO. 6 | Comunicaciones del ACM 55 artículos contribuyeron por lo tanto me he preguntado: ¿Qué porcentaje de Figura 1. El ciclo vicioso de sesgo en la Web. usuarios de la Web activos generan la mitad del contenido de un sitio web de medios sociales? Yo no, sin embargo, sesgo de la actividad considero que la mayoría silenciosa de los usuarios de Web sólo reloj la Web sin contribuir a ella, que en sí mismo es una forma de sesgo de autoselección. 14 Saez-Trumper y yo 8 cuatro Web conjuntos de datos analizados, y como detalle, los resultados nos sorprendieron. sesgo de los datos Exploración de un conjunto de datos de Facebook desde 2009 con casi 40.000 usuarios activos, encontramos 7% de sesgo de segundo orden ellos produce el 50% de los puestos. En un conjunto de datos más grande de la Amazonía valoraciones de 2013, Pantalla encontramos sólo el 4% de los usuarios activos. En un gran Sesgo de muestreo conjunto de datos a partir de 2011 con 12 millones de usuarios activos de Twitter, el resultado fue sólo el 2%. Por último, hemos aprendido que la primera versión de la mitad de Algoritmo las entradas de Wikipedia Inglés fue investigado y publicado sesgo algorítmica por el 0,04% de sus editores registrados, o aproximadamente sesgo de autoselección sesgo de la interacción 2.000 personas, lo que indica sólo un pequeño Figura 2. Efecto vergüenza (línea con pequeña dirección de la tendencia) vs. mínimo esfuerzo (notable dirección de la tendencia) en el porcentaje de todos los usuarios contribuyen a la número de enlaces en las páginas web del Reino Unido, con intersección entre 12 y 13 enlaces. Los datos en el extremo derecho se debe Web y la noción de que representa la sabiduría de probablemente a las páginas de haber sido escritos por software, no por los usuarios o desarrolladores Web. 5 la multitud global es una ilusión. A la luz de estos hallazgos, 8 que no tiene sentido 10 -1 que sólo el 4% de las personas que voluntariamente escribir la mitad de todos los comentarios en el 10 -2 conjunto de datos de Amazon. Sentí algo más está en Número de páginas juego. Un mes después de la publicación de los 10 -3 resultados, se confirmó mi corazonada. En octubre 10 -4 2015, Amazon comenzó una campaña institucional contra pagados comentarios falsos que continuaron en 2016 demandando casi 10 -5 1.000 personas acusadas de escribirlos. nuestro análisis 8 También se encontró que si tenemos en 10 -6 10 0 10 2 10 1 10 3 Número de Enlaces cuenta sólo los comentarios que algunas personas encuentran útil, el porcentaje se reduce al 2,5%, utilizando la correlación positiva entre la utilidad promedio de cada revisión según los usuarios y un tanto el crecimiento de la Web y su uso. Aquí explico la importancia de las categorías de sesgo proxy de la calidad del texto. Aunque el ejemplo de cada uno de los sesgos (en rojo) y clasificarlos por identificado, no en los aspectos metodológicos de Wikipedia Inglés es el más sesgada, representa tipo, empezando por el sesgo de la actividad la investigación. Para más detalles, ver las una positivo parcialidad. Las 2.000 personas al inicio resultante de cómo la gente usa la Web y el sesgo referencias y las investigaciones que figuran en el del Inglés Wikipedia probablemente provocaron un oculto de personas sin acceso a Internet. entonces apéndice en línea “Lectura adicional” (ATS efecto de bola de nieve que ayudó Wikipedia me dirijo sesgo en los datos Web y cómo dl.acm.org/citation.cfm?doid=3209581&picked=form) convertirse en el vasto recurso enciclopédico que potencialmente contamina los algoritmos que lo de este artículo. es hoy. utilizan, seguidos por los prejuicios creados a través de nuestra interacción con sitios web y cómo el contenido y el uso recicla de nuevo a la Web o para Sesgo actividad, o la sabiduría de unos pocos sistemas basados en internet, creando varios tipos de En 2011, un estudio realizado por Wu et al. 28 sobre cómo las Zipf, sostiene que muchas personas lo hacen sólo un poco, sesgo de segundo orden . personas siguieron otras personas en Twitter encontraron mientras que pocas personas lo hacen mucho, posiblemente que el 0,05% de las personas más populares atrajo a casi el ayudando a explicar una gran parte de la actividad sesgo. Sin 50% de todos los participantes; 28 es decir, la mitad de los embargo, los incentivos económicos y sociales también juegan un usuarios de Twitter en el conjunto de datos estaban siguiendo papel en el rendimiento de este resultado. Por ejemplo, la ley de sólo unos pocos selectos celebridades. yo Zipf se puede ver en la mayoría de las medidas de Web Considere el siguiente estudio de investigación sobre el sesgo en la Web, algunos en los que estaba involucrado con personal, centrándose en 56 Comunicaciones del ACM | DE JUNIO DE 2018 | VOL. 61 | NO. 6 principio de menor esfuerzo de Zipf, 29 también llamada ley de artículos contribuyeron (Como el número de páginas por sitio web o número de no importa qué definición de qué calidad se utiliza. Sin contenido asociado con las grandes ciudades y enlaces por página web). La figura 2 representa el embargo, una gran cantidad de contenido falso en la web atracciones turísticas. Otro ejemplo del efecto de la número de enlaces en las páginas web del Reino Unido parece extenderse más rápido que el contenido fiable. 17 red de sesgo Web es la estructura de enlaces de la propia Web. Figura 3 parcelas el número de enlaces sobre la X- eje y el número de páginas web en la y- eje. la ley de Zipf es claramente visible en el lado derecho, en la de la Web dentro de España a otros países, junto con El primer conjunto de sesgos observados en línea con la pendiente más negativa. Sin embargo, hay personas que interactúan con la Web se debe a sus las exportaciones de España a los mismos otros una fuerte fuerza social en el comienzo de la X- eje que características demográficas. El acceso y el uso de países. 3 Los países hacia la parte inferior derecha son llamo el “efecto de la vergüenza” que hace que la Internet se correlaciona con sesgo educativo, económico los valores atípicos, ya que todos ellos habían vendido pendiente menos negativo. También ilustra que muchas y tecnológico, así como otras características, causando el derecho a utilizar sus dominios para otros fines personas prefieren ejercer el menor esfuerzo, aunque la un efecto dominó de sesgo en el contenido de la web y (como la mayoría de las personas también necesitan sentir que enlaces. Por ejemplo, se estima que más del 50% de los hacen todo lo posible para evitar sentir vergüenza de su sitios web más populares son en Inglés, mientras que el . código de país fm, dominio de nivel superior para los esfuerzo. 5 Estos dos efectos son características comunes porcentaje de hablantes nativos de inglés en el mundo es Estados Federados de Micronesia). Haciendo caso de la actividad de las personas en la web. de aproximadamente sólo el 5%; esto aumenta al 13% si omiso de ellas, la correlación entre las exportaciones se incluyen todas las personas de habla inglesa, según y número de enlaces es más de 0,8 para España. De las estimaciones de la Wikipedia. sesgo geográfico hecho, cuanto más desarrollado es un país, mayor es también se observa en Web la correlación, que van desde Por último, el premio Nobel Herbert Simon dijo: “Una gran cantidad de información crea una pobreza de 0,6 a 0,9 para Brasil para el Reino Unido 4 atención.” El sesgo actividad genera un “desierto digital” a través de la Web o contenido Web nadie lo ve. Un límite inferior proviene de datos donde Saez-Trumper y yo Twitter 8 encontró que el 1,1% de los tweets fueron Figura 3. sesgo económico de enlaces para la Web en España. 3 100000000 escritos y publicados por los personas sin seguidores. 10000000 Revisando las estadísticas de uso de Wikipedia nos dieron una cota superior, mediante el cual el 31% de los 1000000 no fueron visitados en junio. El tamaño real del desierto digital en la Web probablemente se encuentra en la primera mitad de la gama de 1% a 31%. Por otro lado, el sesgo no siempre es negativo. Exportaciones (miles de US $) artículos añadidos o modificados en el de mayo de 2014 100.000 10000 1000 Debido al sesgo de la actividad, todos los niveles de 100 almacenamiento en caché Web son altamente efectivos 1 10 para mantener el contenido más utilizado fácilmente disponible, y la carga en los sitios web y la red de Internet 10 1 en general es entonces mucho menor de lo que sería 100 1000 10000 100.000 Número de dominios Vinculados potencialmente posible. Figura 4. Acumulado fracción de biografías de mujeres en Wikipedia. dieciséis sesgo de datos 0.25 Al igual que con habilidades de la gente, la calidad de los datos es heterogénea y, por tanto, en cierta medida, que se espera a estar sesgados. Las personas que trabajan en el 0.20 ocupan de la información debe publicar los datos de mayor calidad y menor sesgo, mientras que los medios de comunicación social en su conjunto es mucho más grande, sesgada y, sin duda, de una calidad media baja. Por otro lado, el número de personas que contribuyen a los medios de comunicación social es probablemente por lo menos un orden de magnitud mayor que el número de personas que trabajan en las instituciones basadas en la información. Fracción de Biografías por año gobierno, las universidades y otras instituciones que se 0.15 0.10 0.05 Existe, pues, más datos de alguna calidad procedentes de todas las personas, incluyendo datos de alta calidad, 0.00 0.0 0.2 0.4 0.6 0.8 Fracción acumulativa DE JUNIO DE 2018 | VOL. 61 | NO. 6 | Comunicaciones del ACM 57 1.0 artículos contribuyeron el sesgo de género en toda la historia humana. 25 Sin muestran que menos del 12% de los editores de Un segundo conjunto de sesgos es debido a la interacción entre los diferentes tipos de sesgo. embargo, un factor subyacente esconde un sesgo Wikipedia son mujeres. En otras categorías, el sesgo Considere la figura 4, que representa gráficamente la más profundo que se revela cuando se mira más de género es aún peor, de alcanzar el 4% en la fracción de biografías de mujeres en Wikipedia, dieciséis unade cerca el proceso de creación. En la categoría de biografías, estadísticas de Wikipedia curva que podría explicarse a través sistémico geografía. Por otra parte, como el porcentaje de todas informó públicamente Wikipedia redactoras es sólo del 11%, biografías muestran en realidad un pequeño sesgo positivo. Tenga en cuenta estos valores Figura 5. Los mapas de calor de análisis de seguimiento ocular en la web de búsqueda de páginas de resultados, a partir de 2005 (izquierda) a 2014 (derecha). 18 también son parciales, ya que no todos los editores de os aprendido Wikipedia identificar su género, y las hembras pueden por lo tanto ser representados. Nuestra tercera fuente de sesgo de los datos es spam vestigadores se web, un conocido sesgo malintencionado generado por el iángulo de oro hombre que es difícil de caracterizar. Lo mismo se aplica al contenido (cerca de) la duplicación (tales como sitios web de espejo) que, en 2003, representó aproximadamente el 20% 1 de contenido Web estático. 13 Dado que la medición de casi cualquier sesgo es difícil, su efecto sobre los algoritmos de predicción utilizando la ores ya no son siempre en la máquina de aprendizaje son asimismo difíciles de entender. que los usuarios ven en Como los datos Web representa una muestra sesgada de . la población, para empezar, los estudios basados en las 2 redes sociales pueden tener una cantidad significativa de error podemos estar seguros de que no se distribuye de manera uniforme. Por la misma razón, los resultados de Al igual que con todos los mapas de calor relativo presentados en este estudio, las áreas rojas La forma de triángulo distinto no es visible porque buscadores son un esas investigaciones no pueden extrapolarse al resto de la son aquellas en las que los participantes pasaron la mayor cantidad de tiempo buscando como barrido vertical más de lo que están leyendo horizontalmente. n acondicionado habitualmente Figura 6. gráfica de dependencia de los sesgos que afectan a la interacción del usuario. población; considerar, por ejemplo, los errores de votación un porcentaje del tiempo total se veían en la página, seguido por el amarillo, luego verde. verticalmente más de en la elección presidencial de 2016 Estados Unidos, 18 Aunque dores están buscando el posición sesgo nido deseado. las encuestas en línea predicho el resultado mejor que las Clasificación encuestas en vivo. Otras fuentes de error incluyen 9 Presentación muestras sesgadas de datos (como debido al sesgo de sesgo de la interacción parcialidad 12 sesgo sesgo selección) o muestras demasiado pequeña para la técnica analítica a la mano. 7 El movimiento del ratón Haga clic sesgo prejuicio social sesgo de desplazamiento Sesgo algorítmica y la Justicia sesgo de autoselección Los datos y el sesgo algorítmica sesgo algorítmico se añade por el mismo algoritmo y no está presente en los datos de entrada. Si los datos de entrada es, en efecto sesgado, la salida del algoritmo Posible clasificación de los sesgos mediante el cual las columnas culturales y cognitivos son dependientes del también podría reflejar el mismo sesgo. Sin embargo, usuario. incluso si se detectan todos los posibles sesgos, la definición de cómo un algoritmo debe proceder es Tipo de sesgo algorítmico Presentación Posición Muestreo Datos Segundo orden Estadístico • • • • • • Actividad Usuario Interacción Clasificación Social Autoselección 58 Comunicaciones del ACM | DE JUNIO DE 2018 | VOL. 61 | NO. 6 Cultural Cognitivo generalmente difícil, de la misma manera las personas ? ? están de acuerdo sobre lo que es una solución justa a cualquier tema controvertido. Se puede incluso requerir que invita a un experto humano para ayudar a detectar si una salida de hecho incluye cualquier sesgo en absoluto. En un • • • • • • • • • • • • • esfuerzo de investigación 2016, que utiliza un corpus de noticias de Estados Unidos para aprender que ella-él analogías través de incrustaciones de palabras, la mayor parte de los resultados se informó como parcial, como en la enfermera-cirujano y divasuperstar en lugar de reina-rey. 9 Una búsqueda rápida en la web mostró que aproximada- artículos contribuyeron madamente el 70% de los periodistas influyentes en los Sesgo la interacción del usuario EE.UU. eran hombres, a pesar de que en las escuelas de Una fuente importante de sesgo es la interacción del periodismo de Estados Unidos, las proporciones de género usuario, no sólo en la Web, pero a partir de dos fuentes se invierten. Algoritmos de aprendizaje de los artículos de notables: la interfaz de usuario y la propia noticias están aprendiendo así de textos con sesgo demostrable y sistémica de género. Sin embargo, otras investigaciones han identificado la presencia de otros sesgos culturales y cognitivos. 10,22 Por otro lado, algunos desarrolladores web han sido capaces de limitar el sesgo. “De-sesgar” el tema-sesgo de género puede abordarse mediante la factorización en el subespacio de género de forma automática. 9 En cuanto a sesgo geográfico en las recomendaciones de noticias, las grandes ciudades y centros de poder político seguramente generará más noticias. Si se utilizan Además del sesgo auto-seleccionados, la interacción sesgada del usuario. introducido por los todo lo que ve el usuario puede obtener clics mientras diseñadores de El primero es el “sesgo de presentación,” por la cual todo lo demás se pone ningún clic. Esto es particularmente relevante en los sistemas de interacción, los recomendación. Considere un servicio de usuarios tienen su recomendaciones que pueden navegar, aunque el propio sesgo de autoselección. videostreaming en el que los usuarios tienen cientos de número es abismalmente pequeña en comparación con los millones que podrían ser ofrecidos. Este sesgo afecta directamente a los nuevos artículos o artículos que nunca han sido vistos por los usuarios, ya que no algoritmos de recomendación estándar, el público en hay datos de uso de ellos. La solución más común se general probablemente lee noticias de una ciudad capital, llama “explorar y explotar”, como en Agarwal et al., 2 quien no desde el lugar donde viven. Teniendo en cuenta la estudió un ejemplo clásico aplicado a la banda. Expone diversidad y la ubicación del usuario, los diseñadores parte del tráfico de usuarios a los nuevos artículos Web pueden crear sitios web que dan una visión menos entremezcladas al azar con los mejores centralizado que también muestra las noticias locales. 15 recomendaciones para explorar y, de ser elegido, explotar los datos de uso para revelar su verdadero valor relativo. La paradoja de esta solución es que la exploración podría implicar una pérdida o un costo de “Las recomendaciones de la etiqueta,” o la oportunidad para la explotación de la información ya recomendación de etiquetas o rótulos para los conocida. En algunos casos, hay incluso una pérdida de artículos, es un ejemplo extremo de sesgo ingresos (por ejemplo, de los anuncios digitales). Sin algorítmica. Imagínese una interfaz de usuario que embargo, la única manera de aprender y descubrir un usuario sube una foto y añade varias etiquetas, (nuevos) buenos artículos es la exploración. y un algoritmo de recomendación etiqueta sugiere entonces las etiquetas que la gente ha utilizado en otras fotos basado en filtrado colaborativo. El usuario elige los que parecen correctos, ampliando el conjunto de etiquetas. Esto suena simple, pero un sitio web de fotos de alojamiento no debe incluir “Sesgo Posición” es el segundo sesgo. Consideramos dicha funcionalidad. La razón es que el algoritmo que en las culturas occidentales se lee de arriba a abajo y necesita los datos de las personas para mejorar, de izquierda a derecha. El sesgo es, pues, a mirar primero pero a medida que la gente utiliza etiquetas hacia la esquina superior izquierda de la pantalla, lo que recomendadas, que añaden un menor número de provocó que la región para atraer más ojos y clics. “Sesgo etiquetas de los suyos, recogiendo entre las Clasificación” es un ejemplo importante de tal sesgo. etiquetas conocidas sin añadir otras nuevas. En Considere un motor de búsqueda en Internet, donde las esencia, el algoritmo está haciendo prolonga páginas de resultados se enumeran en orden relevante de harakiri sobre sí mismo. Si tenemos un arriba a abajo. El resultado será mejor clasificado de este “folcsonomía”, o etiquetas que vienen sólo de las modo atraer más clics que los demás, ya que es a la vez el personas, los sitios web no deben recomendar a sí más relevante y también se clasificó en la primera posición. mismos las etiquetas. Por otra parte, Para evitar el sesgo de clasificación, los desarrolladores Web necesidad de reducir el sesgo de la distribución clic para que puedan utilizar los datos de clics para mejorar y evaluar los algoritmos de clasificación. 11,12 De lo contrario, las páginas populares se vuelven aún más popular. Otra clase importante de sesgo algorítmica en los sistemas de recomendación se relaciona con lo que los elementos del sistema elige para mostrar o no mostrar en una página web en particular. Tal sesgo afecta a la interacción del usuario, como explorado siguiente. Hay un Otros sesgos en la interacción del usuario incluyen las amplio literatura de investigación en todo tipo de sesgo relacionadas con el diseño interacción del usuario; por algorítmica; véase el apéndice en línea para obtener más. ejemplo, cualquier página web donde un usuario necesita para desplazarse para ver el contenido adicional se reflejará como sesgo DE JUNIO DE 2018 | VOL. 61 | NO. 6 | Comunicaciones del ACM 59 artículos contribuyeron sesgo de presentación. Por otra parte, el contenido de cerca de obteniéndose soluciones sub-óptimas y / o imágenes tiene una mayor probabilidad de que se ha pulsado, profecías autocumplidas. Estos sistemas a veces ya que las imágenes atraen la atención del usuario. La figura 5 incluso compiten entre sí, de tal manera que una muestra ejemplos de los estudios de seguimiento ocular mejora en los resultados de una degradación de la mediante el cual, después de la búsqueda universal (múltiples tipos de respuestas) se introduce, el contenido no textual contrarresta el sesgo de la posición en la página de resultados; 18 sino que también muestra la columna de la publicidad en la derecha atraería la atención adicional. Como cualquier intento de ser personas afecta a nuestro juicio. Consideremos un ejemplo que implica clasificaciones de colaboración: Supongamos que queremos clasificar un elemento con una puntuación baja y vemos que la mayoría de las personas que ya han dado una diferente (correlación inversa). Un ejemplo clásico imparcial ya podrían estar es la tensión entre la mejora de la experiencia del sesgados a través de nuestros como la forma número de anuncios en general, propios prejuicios culturales y sesgo social define cómo el contenido procedente de otras otra que utiliza una función de optimización cognitivos, el primer paso es, pues, ser consciente de las desviaciones. usuario y el aumento de la monetización (tales disminuye el aumento de la experiencia del usuario). Círculo vicioso de Bias Bias engendra sesgo. Imaginemos que somos un blogger planeando nuestra próxima entrada en el blog. En primer puntuación alta. Podemos aumentar nuestra puntuación de lugar, la búsqueda de páginas sobre el tema que queremos sólo pensar que tal vez estamos siendo demasiado dura. Este cubrir. Luego seleccionamos unas pocas fuentes que nos sesgo se ha explorado en el contexto de los datos reseñas de parecen relevantes. Seleccionamos varias cotizaciones de Amazon 26 estas fuentes. Escribimos nuevos contenidos, poniendo las cotizaciones en los lugares correctos, citando las fuentes. Y, y se refiere a menudo como “conformidad social”, o “el efecto de la reunión.” 20 por último, publicamos la nueva entrada en la Web. Por último, la forma en que un usuario interactúa con cualquier tipo de dispositivo es idiosincrático. Algunos usuarios Este proceso de creación de contenidos no se aplica están ansiosos por clic, mientras que otros se mueven con el únicamente a los bloggers, sino también al contenido ratón, donde se ven. El movimiento del ratón es un proxy utilizado en las revisiones, comentarios, mensajes de parcial para la atención mirada y por lo tanto un sustituto de redes sociales y mucho más. El problema de la deriva bajo costo computacional para el seguimiento de los ojos. mensaje aparece cuando se selecciona un subconjunto de Algunos de nosotros puede que no note la barra de contenido en función de lo que el motor de búsqueda que desplazamiento, otros prefieren leer en detalle, y sin embargo, se utiliza cree que es relevante. El algoritmo de otros prefieren simplemente descremada. Además del sesgo clasificación del motor de búsqueda de este modo sesga introducido por los diseñadores de interacción, los usuarios una parte del crecimiento orgánico de un tema tienen su propio sesgo de autoselección. Blanco 27 explorado un determinado en la Web. Un estudio de mis colegas y yo buen ejemplo de cómo los prejuicios culturales y cognitivos llevaron a cabo en 2008 6 encontró que aproximadamente el afectan a los motores de búsqueda Web, mostrando que los 35% del contenido en la Web en Chile se ha duplicado, y usuarios tienden a elegir respuestas alineadas con sus que se podía trazar la genealogía de la duplicación parcial creencias existentes. (semántica) de esas páginas. Hoy en día, el efecto semántico-duplicación podría ser aún más generalizada y engañosa. Para hacer sesgo aún más compleja, la interacción desvía en cascada a través del sistema, y los desarrolladores web tienen grandes dificultades para tratar El proceso crea un círculo vicioso de sesgo de segundo de aislarlos. La figura 6 describe un ejemplo de cómo estos orden, ya que algunos proveedores de contenido obtienen sesgos en cascada y dependen el uno del otro, lo que una mejor clasificación, lo que lleva a un mayor número de implica que los desarrolladores web siempre están viendo clics; es decir, los ricos se hacen más ricos. Por otra parte, la sus efectos combinados. Del mismo modo, los usuarios que duplicación de contenidos sólo agrava el problema de prefieren desplazarse afectan a cómo se mueven el ratón, distinguir páginas buenas de las malas páginas. A su vez, los así como cuáles son los elementos de la pantalla que son spammers web hacen uso de los contenidos de buenas capaces de hacer clic. páginas a aparecer a sí mismos como la calidad del contenido, sólo se suma al problema. Así, paradójicamente, sesgos de interacción son cruciales para el análisis de la experiencia del usuario, así como para el los motores de búsqueda a menos que dañan a sí mismos no haga dar cuenta de todos los prejuicios. rendimiento general de un sitio web, ya que muchos sistemas Web están optimizados a través de comentarios de los usuarios implícita. Como tales sistemas Otro ejemplo de sesgo de segundo orden viene optimizados se basan cada vez más en el aprendizaje de de algoritmos de personalización (tales como el máquina, aprenden a reforzar sus propios sesgos o los efecto del filtro de burbujas), 21 que no afectan el prejuicios de otros sistemas conectados, contenido web, sino más bien el contenido expuesto al 60 Comunicaciones del ACM | DE JUNIO DE 2018 | VOL. 61 | NO. 6 artículos contribuyeron usuario. Si un algoritmo de personalización sólo utiliza otras iniciativas similares. Todos ellos deben nuestros datos de interacción, sólo vemos lo que queremos ayudar a definir la ética de algoritmos, en particular ver, sesgando así el contenido de nuestros propios sesgos con respecto a la máquina de aprendizaje. de selección, que nos mantiene en un mundo cerrado, cerrado a nuevos elementos que realmente pueden gustar. 13. Fetterly, D., Manasse, M., y Najork, M. En la evolución de los cúmulos de páginas web cerca-duplicados. Revista de Ingeniería Web 2, 4 (Oct. 2003), 228-246. 14. Gong, W., Lim, E.-P., y Zhu, F. Caracterización de los usuarios silenciosas en las comunidades de medios sociales. En Actas de la Novena Conferencia Internacional sobre AAAI web y medios de comunicación social ( Oxford, Reino Como cualquier intento de ser imparcial ya podrían Este problema debe ser contrarrestada mediante el filtrado estar sesgados a través de nuestros propios prejuicios de colaboración o contextualización de tareas, así como a culturales y cognitivos, el primer paso es, pues, ser través de la diversidad, la novedad, serendipia, e incluso, si consciente de las desviaciones. Sólo si los diseñadores y así lo solicita, que nos da el otro lado. Esto tiene un efecto desarrolladores web conocen su existencia pueden tratar, y positivo sobre la privacidad en línea, ya que, mediante la si es posible, corregirlos. De lo contrario, nuestro futuro incorporación de estas técnicas, se requiere menos podría ser un mundo ficticio basado en percepciones información personal. sesgadas de la que ni siquiera la diversidad, la novedad, o la casualidad serían capaces de rescatarnos. Unido, mayo 26-29). AAAI, Fremont, CA, 2015, 140-149. 15. Graells-Garrido, E. y Lalmas, M. diversidad de equilibrio a contramedida centralización geográfica en plataformas de microblogging. En Actas de la 25 º Conferencia ACM sobre hipertexto y medios de comunicación social (Santiago, Chile, Sept. 1-4). ACM Press, Nueva York, 2014, 231-236. 16. Graells-Garrido, E., Lalmas, M., y Menczer, F. primeras mujeres, segundo sexo: sesgo de género en Wikipedia. En Actas de la 26 º Conferencia ACM sobre hipertexto y Social Media ( Guzelyurt, RTNC, Chipre, 1-4 de septiembre). ACM Press, Nueva York, 2015, 165-174. 17. Lazer, DMJ et al. La ciencia de la noticia falsa. Ciencia 359, 6380 (Mar. 2018), 1094-1096. 18. mediadora. La evolución de los resultados de búsqueda de Google Páginas y efectos sobre el comportamiento del usuario. Libro Blanco, 2014; Conclusión http://www.mediative.com/SERP 19. Mercer, A., Deane, C., y McGeeney, K. ¿Por qué 2016 El problema del sesgo es mucho más compleja de Expresiones de gratitud lo que he descrito aquí, donde he cubierto sólo una Doy gracias a Jeanna Matthews, Leila Zia, y los parte del problema. De hecho, la fundación revisores anónimos por sus útiles comentarios, así Las encuestas electorales erraron el blanco. Pew Research Center, de involucra a todos nuestros prejuicios personales. como para Amanda Hirsch por su anterior revisión Por el contrario, muchos de los prejuicios que se Inglés. y la Internet de las cosas). La mesa aquí tiene como objetivo clasificar todos los principales sesgos en contra de los tres tipos de sesgo que he mencionado antes. Podemos agruparlos en tres grupos: El de arriba implica simplemente algoritmos; la parte inferior de una sola actividad, la interacción del usuario, y la auto-selección-implica https://ssrn.com/abstract=2886526 Personalizado de la Web está cambiando lo que se lee y cómo pensamos. Penguin, referencias Londres, Reino Unido, 2011. 1. Consejo de Política Pública de Estados Unidos ACM. declaración sobre Transparencia y rendición de cuentas algorítmica. ACM, Washington, DC, enero de 2017 https://www.acm.org/ binarios / content / activos / de políticas públicas / 2017_usacm_ statement_algorithms.pdf 2. Agarwal, D., Chen, BC., Y Elango, P. Explorar / exploit esquemas de optimización de contenidos web. En Actas de la Novena Conferencia Internacional IEEE sobre minería de datos ( Miami, FL, 6-9 de diciembre). IEEE Computer Society Press, 2009. de datos medio y de segundo orden incluyen los 4. Baeza-Yates, R. y Castillo, C. Relación entre los enlaces web y el probablemente codifica los prejuicios culturales y cognitivos de sus creadores. 3 España. Cibermetría 9, 1 (2005), 1-41. comercio (póster). En Actas de la 15 º Conferencia Internacional de la World Wide Web (Edimburgo, Reino Unido, mayo 23-26). ACM Press, Nueva York, 2006, 927-928. 5. Baeza-Yates, R., Castillo, C., y Efthimiadis, ES Caracterización de los dominios Web nacionales. ACM Transactions on Internet Technology 7, 2 (mayo de 2007), el artículo 9. 6. Baeza-Yates, R., Pereira, y Ziviani, árboles genealógicos N. en la Web:. Una perspectiva de los usuarios del motor de búsqueda. En Actas de la 17 º Conferencia Internacional de la World Wide Web ( Beijing, China, abril 21-25). ACM Press, Nueva York, 2008, 367-376. de la 38 º Conferencia ACM SIGIR (Santiago, Chile, agosto de 9-13). ACM Press, Nueva York, 2015, 1093-1096. propiedades algoritmos deben cumplir para lograr la transparencia y la rendición de cuentas: 1 conciencia, el acceso y la reparación, la rendición de cuentas, la de comunicación: Gatekeeping, cobertura y declaración de sesgo. En Actas de la Conferencia Internacional ACM sobre Gestión de la Información y el Conocimiento ( San Francisco, CA, octubre 27- de noviembre 1). ACM Press, Nueva York, 2013, 1679-1684. 23. Silberzahn, R. y Uhlmann, EL investigación Crowdsourced: Muchas manos hacen el trabajo apretado. Naturaleza 526, 24. Smith, M., Patil, DJ, y Muñoz, C. Big Data: Un Informe algorítmicos en Sistemas, la oportunidad y los derechos civiles. Oficina Ejecutiva del Presidente, Washington, DC, 2016; https://obamawhitehouse.archives.gov/sites/ default / files / micrositios / OSTP / 2016_0504_data_ discrimination.pdf 25. Wagner, C., Garcia, D., Jadidi, M., y Strohmaier, M. Es Wikipedia de un hombre? Evaluación de las desigualdades de género en una enciclopedia en línea. En Actas de la Novena Conferencia Internacional sobre AAAI web y medios de comunicación social ( Oxford, Reino Unido, mayo 26-29). AAAI, Fremont, CA, 2015, 454-463. 26. Wang, T. y Wang, D. ¿Por qué las calificaciones de Amazon podrían inducir a que: La historia de los efectos de pastoreo. Big Data 2, 4 (diciembre de 2014), 196-204. 27. Blanca, R. Las creencias y los sesgos en la búsqueda en Internet. En 7. Baeza-Yates, R. muestreo incremental de registros de consultas. En Actas A principios de 2017, US-ACM publica los siete 22. Saez-Trumper, D., Castillo, C., y Lalmas, M. Sociales comunidades medios 7572 (Oct. 2015), 189-191; https://psyarxiv.com/qkwst/ 3. Baeza-Yates, R., Castillo, C. y López, V. Características de la Web de en la primera línea indican que cada programa Datos: Los sesgos metodológicos, trampas, y los límites éticos. SSRN, 21. Pariser, E. El filtro burbuja: cómo el nuevo los que vienen sólo de personas; y la de una sola que implican ambos. Los signos de interrogación pewresearch.org/fact-tank/2016/11/09/why-2016election-polls-missed-their-mark/ 20. Olteanu, A., Castillo, C., Diaz, F., y Kiciman, E. Social Rochester, NY 20 de diciembre, de 2016; describen aquí se manifiestan más allá del ecosistema web (como en los dispositivos móviles Washington, DC, noviembre de 2016; http: // www. 8. Baeza-Yates, R. y Saez-Trumper, D. La sabiduría de la multitud o la sabiduría de unos pocos? Un análisis de la generación de contenido de los usuarios. En Actas de la 26 º Conferencia ACM sobre hipertexto y Social Media ( Guzelyurt, RTNC, Chipre, 1-4 de septiembre). ACM Press, Nueva York, 2015, 69-74. 9. Bolukbasi, R., Chang, KW, Zou, J., Saligrama, V., y Kalai, A. El hombre es Actas de la 36 º Conferencia ACM SIGIR (Dublín, Irlanda 28 de Julio-Ago. 1). ACM Press, Nueva York, 2013, 3-12. 28. Wu, S., Hofman, JM, Mason, WA, y Watts, DJ ¿Quién dice qué a quién en Twitter. En Actas de la 20 º Conferencia Internacional de la World Wide Web ( Hyderabad, India, marzo 28-abril. 1). ACM Press, Nueva York, 2011, 705-714. 29. Zipf, GK Comportamiento Humano y el principio del menor Esfuerzo. Addison-Wesley Press, Cambridge, MA, 1949. explicación, la procedencia de datos, capacidad de programador informático como mujer es ama de casa? De incrustaciones de polarización de palabras. En Actas de la 30 º Conferencia sobre auditoría y validación y pruebas. Este artículo está más Ricardo Baeza-Yates ( [email protected]) es director de tecnología de NTENT, una neuronales Sistemas de Procesamiento ( Barcelona, España, 5-10 de compañía de tecnología de búsqueda basada en Carlsbad, CA, EE.UU., y Director diciembre). Curran Associates, Inc., Red Hook, Nueva York, de Programas de Ciencias de la Computación de la Universidad de Northeastern, el estrechamente alineada con la conciencia. Además, el IEEE Computer Society También en 2017 se inició un proyecto para definir las normas en esta área, y al menos dos nuevas conferencias sobre el tema se llevaron a cabo en febrero de 2018. Mis colegas y yo campus de Silicon Valley, San José, CA, EE.UU.. 2016, 4.349 a 4.357. 10. Caliskan, A., Bryson, JJ, y Narayanan, A. Semántica deriva automáticamente a partir de corpus de lenguaje contienen sesgos similares a las humanas. Ciencia 356, 6334 (Abril 2017), 183-186. Derechos de autor pertenecen por el propietario / autor. Los derechos de 11. Chapelle, O. y Zhang, Y. Una red bayesiana modelo pulsa dinámico para la también están trabajando en un sitio web con recursos clasificación de búsqueda Web. En Actas de la 18 º Conferencia en la “imparcialidad medidas”relacionadas con Press, Nueva York, algoritmos (http://fairnessmeasures.org/), y seguramente hay publicación licencia para ACM. De $ 15.00. Internacional de la World Wide Web ( Madrid, España, abril 20-24). ACM 2009, 1-10. 12. Dupret, GE y Piwowarski, B. Un modelo de navegación del usuario para Mira el autor discute su trabajo en predecir datos de clics del motor de búsqueda a partir de observaciones este exclusivo pasadas. En Actas de la 31 S t Conferencia ACM SIGIR ( Singapur, Julio 20-24). comunicaciones vídeo. https://cacm.acm.org/videos/ sesgo-and-the-web ACM Press, Nueva York, 2008, 331-338. DE JUNIO DE 2018 | VOL. 61 | NO. 6 | Comunicaciones del ACM 61