La denunciante de Facebook afirma que sus algoritmos son peligrosos. Esta es la razón.
Por Karen Hao / Oct 5, 2021
Traducido por L. Domenech
El testimonio de Frances Haugen en la audiencia del Senado de hoy planteó serias dudas sobre cómo funcionan los algoritmos de Facebook y se hace eco de muchos hallazgos de nuestra investigación anterior.
La denunciante de Facebook Frances Haugen testifica durante un comité del Senado.DREW ANGERER / GETTY IMAGES |
El domingo por la noche, la fuente principal de los archivos de Facebook del Wall Street Journal, una serie de investigación basada en documentos internos de Facebook, reveló su identidad en un episodio de 60 Minutes.
Frances Haugen, exgerente de producto de la compañía, dice que se presentó después de ver que el liderazgo de Facebook priorizaba repetidamente las ganancias sobre la seguridad.
Antes de renunciar en mayo de este año, buscó en Facebook Workplace, la red social interna de empleados de la compañía, y reunió una amplia gama de informes e investigaciones internas en un intento de demostrar de manera concluyente que Facebook había elegido deliberadamente no solucionar los problemas en su red social. plataforma.
Hoy testificó ante el Senado sobre el impacto de Facebook en la sociedad. Reiteró muchos de los hallazgos de la investigación interna e imploró al Congreso que actuara.
"Estoy aquí hoy porque creo que los productos de Facebook dañan a los niños, avivan la división y debilitan nuestra democracia", dijo en su declaración de apertura a los legisladores. “Estos problemas tienen solución. Es posible crear redes sociales más seguras, respetuosas con la libertad de expresión y más agradables. Pero hay una cosa que espero que todos sepan de estas divulgaciones, es que Facebook puede cambiar, pero claramente no lo hará por sí solo ".
Durante su testimonio, Haugen culpó particularmente a las decisiones de diseño de la plataforma y el algoritmo de Facebook por muchos de sus problemas. Este es un cambio notable del enfoque existente de los legisladores en la política de contenido y la censura de Facebook, lo que pertenece y no pertenece a Facebook. Muchos expertos creen que esta visión estrecha conduce a una estrategia de golpear un topo que pierde el panorama general.
"Soy una firme defensora de las soluciones no basadas en contenido, porque esas soluciones protegerán a las personas más vulnerables del mundo", dijo Haugen, señalando la capacidad desigual de Facebook para hacer cumplir su política de contenido en otros idiomas además del inglés.
El testimonio de Haugen se hace eco de muchos de los hallazgos de una investigación de MIT Technology Review publicada a principios de este año, que se basó en docenas de entrevistas con ejecutivos de Facebook, empleados actuales y anteriores, pares de la industria y expertos externos. Reunimos las partes más relevantes de nuestra investigación y otros informes para dar más contexto al testimonio de Haugen.
¿Cómo funciona el algoritmo de Facebook?
Coloquialmente, usamos el término "algoritmo de Facebook" como si solo hubiera uno. De hecho, Facebook decide cómo orientar los anuncios y clasificar el contenido basándose en cientos, quizás miles, de algoritmos. Algunos de esos algoritmos eliminan las preferencias de un usuario y aumentan ese tipo de contenido en las noticias del usuario. Otros son para detectar tipos específicos de contenido inadecuado, como desnudos, spam o titulares de cebos de clics, y eliminarlos o rechazarlos en el feed.
Todos estos algoritmos se conocen como algoritmos de aprendizaje automático. Como escribí a principios de este año: A diferencia de los algoritmos tradicionales, que están codificados por ingenieros, los algoritmos de aprendizaje automático se “entrenan” en los datos de entrada para aprender las correlaciones dentro de ellos. El algoritmo entrenado, conocido como modelo de aprendizaje automático, puede automatizar decisiones futuras. Un algoritmo entrenado en datos de clics en anuncios, por ejemplo, podría aprender que las mujeres hacen clic en anuncios de mallas de yoga con más frecuencia que los hombres. El modelo resultante luego servirá más de esos anuncios a las mujeres.
Y debido a la enorme cantidad de datos de usuario de Facebook, puede desarrollar modelos que aprendieron a inferir la existencia no solo de categorías amplias como "mujeres" y "hombres", sino de categorías muy detalladas como "mujeres de entre 25 y 34 años a las que les gustaron las páginas de Facebook relacionadas con el yoga" y los anuncios [de destino] a ellos. Cuanto más fina sea la orientación, mayores serán las posibilidades de un clic, lo que daría a los anunciantes un mayor rendimiento por su inversión.
Se aplican los mismos principios para clasificar el contenido en las noticias: Así como los algoritmos [pueden] entrenarse para predecir quién haría clic en qué anuncio, también [pueden] entrenarse para predecir a quién le gustaría o no compartir qué publicación, y luego dar más prominencia a esas publicaciones. Si el modelo determinaba que a una persona realmente le gustaban los perros, por ejemplo, las publicaciones de amigos sobre perros aparecerían más arriba en las noticias de ese usuario.
Antes de que Facebook comenzara a usar algoritmos de aprendizaje automático, los equipos usaban tácticas que diseñaban para aumentar el compromiso. Experimentaban con cosas como el color de un botón o la frecuencia de las notificaciones para que los usuarios volvieran a la plataforma. Pero los algoritmos de aprendizaje automático crean un ciclo de retroalimentación mucho más poderoso. No solo pueden personalizar lo que ve cada usuario, sino que también seguirán evolucionando con las preferencias cambiantes de un usuario, mostrando constantemente a cada persona lo que los mantendrá más comprometidos.
¿Quién dirige el algoritmo de Facebook?
Dentro de Facebook, no hay ningún equipo a cargo de este sistema de clasificación de contenido en su totalidad. Los ingenieros desarrollan y agregan sus propios modelos de aprendizaje automático a la combinación, según los objetivos de su equipo. Por ejemplo, los equipos que se centran en eliminar o degradar el contenido incorrecto, conocidos como equipos de integridad, solo entrenarán modelos para detectar diferentes tipos de contenido incorrecto.
Esta fue una decisión que Facebook tomó desde el principio como parte de su cultura de “moverse rápido y romper cosas”. Desarrolló una herramienta interna conocida como FBLearner Flow que facilitó a los ingenieros sin experiencia en aprendizaje automático desarrollar cualquier modelo que necesitaran a su disposición. Según un punto de los datos, ya estaba en uso por más de una cuarta parte del equipo de ingeniería de Facebook en 2016.
Muchos de los empleados actuales y anteriores de Facebook con los que he hablado dicen que esto es parte de la razón por la que Facebook parece no entender lo que les ofrece a los usuarios en las noticias. Los diferentes equipos pueden tener objetivos en competencia, y el sistema se ha vuelto tan complejo y difícil de manejar que ya nadie puede realizar un seguimiento de todos sus diferentes componentes.
Como resultado, el principal proceso de control de calidad de la empresa es a través de la experimentación y la medición. Como escribí:
Los equipos entrenan un nuevo modelo de aprendizaje automático en FBLearner, ya sea para cambiar el orden de clasificación de las publicaciones o para captar mejor el contenido que viola los estándares de la comunidad de Facebook (sus reglas sobre lo que está y no está permitido en la plataforma). Luego, prueban el nuevo modelo en un pequeño subconjunto de usuarios de Facebook para medir cómo cambia las métricas de participación, como la cantidad de me gusta, comentarios y acciones, dice Krishna Gade, quien se desempeñó como gerente de ingeniería para el suministro de noticias de 2016 a 2018. .
Si un modelo reduce demasiado la participación, se descarta. De lo contrario, se implementa y se monitorea continuamente. En Twitter, Gade explicó que sus ingenieros recibirían notificaciones cada pocos días cuando métricas como me gusta o comentarios estuvieran bajas. Luego descifrarían qué había causado el problema y si algún modelo necesitaba reentrenamiento.
¿Cómo ha llevado la clasificación de contenido de Facebook a la difusión de información errónea y discursos de incitación al odio?
Durante su testimonio, Haugen volvió repetidamente a la idea de que el algoritmo de Facebook incita a la desinformación, el discurso de odio e incluso la violencia étnica.
"Facebook ... sabe, lo han admitido en público, que la clasificación basada en el compromiso es peligrosa sin sistemas de integridad y seguridad, pero luego no implementó esos sistemas de integridad y seguridad en la mayoría de los idiomas del mundo", dijo hoy al Senado. “Está separando a las familias. Y en lugares como Etiopía, literalmente está avivando la violencia étnica ”.
Esto es lo que escribí sobre esto anteriormente: Los modelos de aprendizaje automático que maximizan el compromiso también favorecen la controversia, la desinformación y el extremismo: en pocas palabras, a las personas les gustan las cosas escandalosas.
A veces, esto enciende las tensiones políticas existentes. El ejemplo más devastador hasta la fecha es el caso de Myanmar, donde las noticias falsas virales y el discurso de odio sobre la minoría musulmana rohingya llevaron el conflicto religioso del país a un genocidio en toda regla. Facebook admitió en 2018, después de años de restar importancia a su papel, que no había hecho lo suficiente "para ayudar a evitar que nuestra plataforma se utilice para fomentar la división e incitar a la violencia fuera de línea".
Como mencionó Haugen, Facebook también lo ha sabido por un tiempo. En informes anteriores se descubrió que ha estado estudiando el fenómeno desde al menos 2016.
En una presentación interna de ese año, revisada por el Wall Street Journal, una investigadora de la empresa, Monica Lee, descubrió que Facebook no solo albergaba una gran cantidad de grupos extremistas, sino que también los promovía a sus usuarios: “64% de todos los grupos extremistas las uniones se deben a nuestras herramientas de recomendación ”, decía la presentación, principalmente gracias a los modelos detrás de las funciones“ Grupos a los que debes unirte ”y“ Descubrir ”.
En 2017, Chris Cox, director de productos de Facebook desde hace mucho tiempo, formó un nuevo grupo de trabajo para comprender si maximizar la participación de los usuarios en Facebook estaba contribuyendo a la polarización política. Encontró que, de hecho, había una correlación y que reducir la polarización significaría tener un impacto en el compromiso. En un documento de mediados de 2018 revisado por la Revista, el grupo de trabajo propuso varias posibles soluciones, como ajustar el algoritmo de recomendación para sugerir una gama más diversa de grupos a los que la gente puede unirse. Pero reconoció que algunas de las ideas eran de "anti-crecimiento". La mayoría de las propuestas no avanzaron y el grupo de trabajo se disolvió.
En mis propias conversaciones, los empleados de Facebook también corroboraron estos hallazgos.
Un ex investigador de inteligencia artificial de Facebook que se unió en 2018 dice que él y su equipo realizaron "estudio tras estudio" confirmando la misma idea básica: los modelos que maximizan el compromiso aumentan la polarización. Podían rastrear fácilmente la medida en que los usuarios estaban de acuerdo o en desacuerdo en diferentes temas, con qué contenido les gustaba interactuar y cómo cambiaron sus posturas como resultado. Independientemente del tema, los modelos aprendieron a alimentar a los usuarios con puntos de vista cada vez más extremos. “Con el tiempo, se vuelven más polarizados de manera apreciable”, dice.
En su testimonio, Haugen también enfatizó repetidamente cómo estos fenómenos son mucho peores en las regiones que no hablan inglés debido a la cobertura desigual de Facebook de diferentes idiomas.
“En el caso de Etiopía hay 100 millones de personas y seis idiomas. Facebook solo admite dos de esos idiomas para los sistemas de integridad ”, dijo. "Esta estrategia de centrarse en sistemas de contenido y lenguaje específicos para que la IA nos salve está condenada al fracaso".
Ella continuó: "Por lo tanto, invertir en formas no basadas en contenido para ralentizar la plataforma no solo protege nuestra libertad de expresión, sino que protege la vida de las personas".
Exploro esto más en un artículo diferente de principios de este año sobre las limitaciones de los modelos de lenguaje grandes, o LLM: A pesar de que los LLM tienen estas deficiencias lingüísticas, Facebook depende en gran medida de ellos para automatizar la moderación de su contenido a nivel mundial. Cuando la guerra en Tigray [Etiopía] estalló por primera vez en noviembre, [el investigador de ética de IA Timnit] Gebru vio que la plataforma se tambaleaba para controlar la avalancha de información errónea. Esto es típico de un patrón persistente que los investigadores han observado en la moderación del contenido. Las comunidades que hablan idiomas no priorizados por Silicon Valley sufren los entornos digitales más hostiles.
Gebru señaló que aquí tampoco termina el daño. Cuando se difunden las noticias falsas, el discurso de odio e incluso las amenazas de muerte no se moderan, se eliminan como datos de capacitación para construir la próxima generación de LLM. Y esos modelos, repitiendo como loros aquello para lo que están entrenados, terminan regurgitando estos patrones lingüísticos tóxicos en Internet.
¿Cómo se relaciona la clasificación de contenido de Facebook con la salud mental de los adolescentes?
Una de las revelaciones más impactantes de los archivos de Facebook del Journal fue la investigación interna de Instagram, que encontró que su plataforma está empeorando la salud mental entre las adolescentes. "El treinta y dos por ciento de las adolescentes dijeron que cuando se sentían mal con sus cuerpos, Instagram las hacía sentir peor", escribieron los investigadores en una presentación de diapositivas de marzo de 2020.
Haugen también conecta este fenómeno con los sistemas de clasificación basados en el compromiso, que le dijo al Senado hoy que "está provocando que los adolescentes estén expuestos a más contenido de anorexia".
“Si Instagram es una fuerza tan positiva, ¿hemos visto una época dorada de la salud mental de los adolescentes en los últimos 10 años? No, hemos visto tasas crecientes de suicidio y depresión entre los adolescentes ”, continuó. "Existe una amplia gama de investigaciones que respaldan la idea de que el uso de las redes sociales amplifica el riesgo de estos daños a la salud mental".
En mi propio informe, escuché a un ex investigador de inteligencia artificial que también vio que este efecto se extendía a Facebook.
El equipo del investigador ... descubrió que los usuarios con tendencia a publicar contenido melancólico o participar con él, un posible signo de depresión, podían fácilmente consumir material cada vez más negativo que corría el riesgo de empeorar aún más su salud mental.
Pero al igual que con Haugen, el investigador descubrió que el liderazgo no estaba interesado en realizar cambios algorítmicos fundamentales.
El equipo propuso ajustar los modelos de clasificación de contenido para que estos usuarios dejen de maximizar el compromiso solo, de modo que se les muestre menos cosas deprimentes. "La pregunta para el liderazgo era: ¿Deberíamos optimizar la participación si descubre que alguien se encuentra en un estado mental vulnerable?" recuerda ella.
Pero cualquier cosa que redujera el compromiso, incluso por razones tales como no exacerbar la depresión de alguien, provocó muchas críticas entre los líderes. Con sus revisiones de desempeño y salarios vinculados a la finalización exitosa de proyectos, los empleados aprendieron rápidamente a eliminar aquellos que recibieron rechazo y continuar trabajando en los dictados de arriba hacia abajo….
Mientras tanto, ese exempleado ya no deja que su hija use Facebook.
¿Cómo arreglamos esto?
Haugen está en contra de romper Facebook o derogar la Sección 230 de la Ley de Decencia en las Comunicaciones de EE UU, que protege a las plataformas tecnológicas de asumir la responsabilidad por el contenido que distribuye.
En cambio, recomienda armar una exención más específica en la Sección 230 para la clasificación algorítmica, que, según ella, "eliminaría la clasificación basada en el compromiso". También aboga por un retorno al servicio cronológico de noticias de Facebook.
Ellery Roberts Biddle, director de proyectos de Ranking Digital Rights, una organización sin fines de lucro que estudia los sistemas de clasificación de las redes sociales y su impacto en los derechos humanos, dice que una excepción de la Sección 230 debería ser examinada cuidadosamente: “Creo que tendría una implicación limitada . No creo que logre lo que podríamos esperar ".
Para que tal separación sea procesable, dice, los legisladores y el público deberían tener un nivel mucho mayor de transparencia sobre cómo funcionan los sistemas de clasificación de contenido y orientación de anuncios de Facebook. "Entiendo la intención de Haugen, tiene sentido", dice. “Pero es difícil. En realidad, todavía no hemos respondido a la cuestión de la transparencia en torno a los algoritmos. Hay mucho más por hacer ".
No obstante, las revelaciones y el testimonio de Haugen han atraído una renovada atención a lo que muchos expertos y empleados de Facebook han estado diciendo durante años: que a menos que Facebook cambie el diseño fundamental de sus algoritmos, no hará una mella significativa en los problemas de la plataforma.
Su intervención también plantea la posibilidad de que si Facebook no puede poner su propia casa en orden, los legisladores pueden forzar el problema.
“El Congreso puede cambiar las reglas con las que Facebook juega y detener los muchos daños que ahora está causando”, dijo Haugen al Senado. "Me presenté con un gran riesgo personal porque creo que todavía tenemos tiempo para actuar, pero debemos actuar ahora".
El artículo original se puede leer en inglés en MIT Technology Review
Comentarios