Entradas desiguales, resultados desiguales: los riesgos para los derechos humanos de la IA generativa

Credit: Loic Leray / Unsplash

Se está produciendo un cambio silencioso pero de gran alcance en Internet, que pone en mayor riesgo a las voces ya marginadas. La inteligencia artificial generativa (IA) ya no es solo una herramienta de innovación, sino que se está convirtiendo rápidamente en un mecanismo que amplifica las desigualdades existentes. Para las comunidades que se comunican en idiomas poco representados, el impacto va más allá de los resultados sesgados. Amenaza con excluirlas aún más de los espacios digitales, distorsionar sus realidades y exponerlas a nuevas formas de daño, con poca supervisión y aún menos responsabilidad.

La línea que antes era difusa entre los desarrolladores de IA y las plataformas sociales ha desaparecido. Empresas como Meta y xAI ahora reutilizan enormes conjuntos de datos de usuarios, incluyendo publicaciones, imágenes y patrones de comportamiento, para entrenar modelos de IA, a menudo sin consentimiento ni salvaguardias significativas. Estas acciones suelen llevarse a cabo bajo vagas alegaciones de «interés legítimo», lo que provoca reacciones legales y éticas. Meta, por ejemplo, utiliza casi todo el contenido público de Facebook e Instagram de usuarios adultos para entrenar sus modelos de forma predeterminada, a menos que estén marcados explícitamente como privados. Los usuarios de regiones como la Unión Europea pueden optar por no participar, mientras que otros no pueden.

La creciente integración de las redes sociales y los sistemas de IA generativa está remodelando silenciosamente nuestra comprensión de la privacidad, la libertad de expresión e incluso la verdad misma. Sin embargo, la interconexión entre la IA generativa y las redes sociales impone riesgos desproporcionados a las comunidades vulnerables. Estos modelos no solo pasan por alto sus idiomas y experiencias, sino que pueden distorsionarlos algorítmicamente, reforzando la tergiversación, la exclusión y el sesgo en el propio contenido que generan.

Entrenamiento directo de IA a partir de datos de usuarios

La práctica de recopilar contenido en línea para entrenar la IA no es nueva, pero lo que sí es inédito es la escala y la franqueza de la extracción de datos. Empresas como Meta, X y TikTok ahora entrenan modelos con grandes volúmenes de datos públicos de los usuarios, incluyendo publicaciones, imágenes y patrones de comportamiento, lo que plantea serias preguntas sobre el consentimiento y la vigilancia.

En enero de 2025, LinkedIn fue objeto de una demanda en Estados Unidos por supuestamente utilizar los mensajes privados de los usuarios para entrenar modelos de IA. Por esas mismas fechas, Meta reconoció abiertamente que había estado entrenando sus sistemas de IA con contenido público de Facebook e Instagram que se remontaba a 2007. La integración de X y xAI por parte de Elon Musk ilustra aún más cómo la propiedad de las plataformas y el desarrollo de la IA se han fusionado. No se trata solo de un cambio en la estrategia empresarial, sino que marca el comienzo de una nueva era en la que las plataformas ya no se limitan a alojar el contenido de los usuarios, sino que lo reutilizan discretamente para alimentar los sistemas de IA.

Aprender el odio, producir sesgos

Uno de los riesgos más graves es la amplificación de la discriminación y el odio implícitos en los datos de entrenamiento. La IA no distingue entre contenido dañino e inofensivo, simplemente aprende de todo lo que encuentra. Por lo tanto, si los modelos se alimentan de contenido racista, misógino o violento, sus resultados reflejarán inevitablemente esos sesgos, pero ahora disfrazados en el lenguaje aparentemente neutral y pulido de la IA.

Tras la adquisición de Twitter por parte de Elon Musk y su cambio de nombre a X en octubre de 2022, las políticas de moderación de contenidos se relajaron significativamente. A principios de 2025, Grok 3 generó imágenes racistas de futbolistas negros e insultos misóginos en hindi, lo que demuestra cómo los datos de entrenamiento sin filtrar pueden traducirse directamente en resultados perjudiciales.

Además, la conciencia de que la actividad en línea de una persona puede entrenar a la IA lleva a muchos usuarios, especialmente de comunidades marginadas, a autocensurarse. La IA generativa también refuerza la desinformación al imitar y amplificar narrativas falsas, lo que erosiona la confianza en los contenidos digitales.

Violaciones de la privacidad a gran escala

Cuando las plataformas utilizan datos de comportamiento para entrenar a la IA, incluidos datos que los usuarios consideran privados o incluso eliminados, la línea entre lo público y lo personal se vuelve peligrosamente difusa.

Según el Reglamento General de Protección de Datos (RGPD) de la UE, el tratamiento de datos personales debe basarse en uno de los seis fundamentos jurídicos siguientes: consentimiento, ejecución de un contrato, obligación legal, intereses vitales, interés público o interés legítimo. Para categorías especiales de datos, como la orientación sexual, la información sanitaria o las creencias políticas y religiosas, se requiere generalmente el consentimiento explícito. Aunque algunas empresas alegan el «interés legítimo» como base para entrenar modelos de IA con contenidos online de acceso público, esta justificación no se sostiene cuando las personas no tienen una expectativa razonable de que sus datos se reutilicen para el entrenamiento de la IA.

Hace más de una década, un estudio de 2013 demostró que los «me gusta» de Facebook podían predecir la raza, la religión e incluso el coeficiente intelectual de una persona con una precisión sorprendente. Hoy en día, con una tecnología más avanzada, las plataformas pueden inferir aún más, y los usuarios han perdido todo control sobre cómo se utilizan esos datos.

Por qué los usuarios de idiomas no mayoritarios corren un riesgo especial

Los usuarios que hablan y escriben en idiomas poco representados, como el persa y muchos otros fuera de las lenguas dominantes a nivel mundial, se enfrentan a riesgos únicos y a menudo ignorados en la era de la IA generativa. La mayoría de los sistemas de IA se entrenan principalmente con contenidos en inglés y en un puñado de idiomas principales. Como resultado, los contenidos en idiomas menos hablados suelen ser malinterpretados, tergiversados o ignorados por completo. Las plataformas tienden a invertir menos recursos en la moderación de contenidos en estos idiomas, lo que permite que la desinformación, el discurso de odio y las narrativas dañinas se propaguen sin control.

En los países sometidos a sanciones o aislamiento político, los usuarios carecen de recursos legales significativos cuando se violan sus derechos en Internet. Al mismo tiempo, la censura y la mala conectividad limitan el acceso a la educación e inhiben la alfabetización digital. Estos usuarios también quedan excluidos de los esfuerzos de transparencia de las plataformas, ya que rara vez reciben actualizaciones de seguridad o información sobre la IA en su propio idioma, lo que hace que la rendición de cuentas sea casi imposible.

En estos contextos, los sistemas de IA no actúan como herramientas neutrales, sino que pueden convertirse en motores de la desigualdad digital, reforzando la vigilancia, la exclusión y el daño.

Cómo mitigar el daño

A pesar de los riesgos crecientes, es posible avanzar por una vía basada en los derechos. A nivel técnico, es esencial limpiar y diversificar los conjuntos de datos de entrenamiento de la IA para reducir la reproducción de sesgos perjudiciales. Pero las soluciones técnicas por sí solas no son suficientes. Se debe incorporar una supervisión independiente en el desarrollo y la implementación de los sistemas de IA, incluidas auditorías públicas de los procesos de entrenamiento y los resultados de los modelos.

Los actores de la sociedad civil tienen un papel fundamental que desempeñar en este sentido, no solo exigiendo responsabilidades a las poderosas empresas tecnológicas mediante informes y análisis de políticas, sino también promoviendo iniciativas de alfabetización digital que ayuden a las personas a reconocer los sesgos algorítmicos y a interactuar de forma crítica con los contenidos generados por la IA.

También se necesitan urgentemente protecciones legales más sólidas, en particular para los usuarios de regiones en las que las sanciones internacionales limitan el acceso a la justicia. Los usuarios iraníes, por ejemplo, a menudo no disponen de vías significativas para impugnar la forma en que se recopilan o utilizan sus datos. Sin salvaguardias aplicables y sin escrutinio público, la IA corre el riesgo de convertirse en otra herramienta más de exclusión y desigualdad, en lugar de una herramienta de empoderamiento.