LOS MODELOS DEL LENGUAJE PODRÍAN SER CAPACES DE LIBRARSE DE LA PARCIALIDAD DE CRITERIO DE SUS CREADORES SI SE LES DICE

 


En un mundo donde la diversidad, y la discriminación son problemas del día a día en la vida de muchos, y obtener una respuesta 100% imparcial es tan difícil, encontramos que estas tecnologías de inteligencia artificial se ven altamente influenciadas por las experiencias o conocimiento que les halla sido brindado por las personas que las entrenan, por ello, los modelos de lenguaje grandes son famosos por arrojar sesgos tóxicos.

Sin embargo, también se encontró que, si los modelos son lo suficientemente grandes, y el grupo de humanos que han ayudado a entrenarlos también es grande y variado, entonces, las ia desarrollar la capacidad de auto corregir algunos de estos sesgos, o parcialidades de criterio. Sorprendentemente, todo lo que hicieron los investigadores para lograr esto fue preguntar a las mismas inteligencias artificiales que lo hicieran.

Ese es el hallazgo de un experimento del laboratorio de IA Anthropic, descrito en un artículo no revisado por pares, que analizó varios modelos de IA grandes que habían sido entrenados utilizando el aprendizaje con una técnica que hace que los humanos dirijan el modelo de IA hacia respuestas más deseables.

Los investigadores principales, Amanda Askell y Deep Ganguli querían saber si simplemente pedir a estos modelos que produjeran resultados imparciales, sin siquiera tener que definir lo que querían decir con sesgo, sería suficiente para alterar lo que producían.

Así que tomaron un montón de modelos de lenguaje de diferentes tamaños, que habían pasado por diferentes cantidades de entrenamiento RLHF, y los probaron con tres conjuntos de datos que han sido diseñados para medir el sesgo o los estereotipos.

Con lo anterior el equipo descubrió que solo incitar a un modelo para asegurarse de que sus respuestas no dependieran de estereotipos tenía un efecto dramáticamente positivo en su producción, particularmente en aquellos que habían completado suficientes rondas de RLHF y tenían más de 22 mil millones de parámetros, las variables en un sistema de IA que se ajustan durante el entrenamiento. (Cuantos más parámetros, más grande es el modelo. GPT-3 tiene alrededor de 175 mil millones de parámetros). En algunos casos, el modelo incluso comenzó a participar en la discriminación positiva en su producción.

Fundamentalmente, al igual que con gran parte del trabajo de aprendizaje profundo, los investigadores realmente no saben exactamente por qué los modelos pueden hacer esto. "A medida que los modelos se hacen más grandes, también tienen conjuntos de datos de entrenamiento más grandes, y en esos conjuntos de datos hay muchos ejemplos de comportamiento sesgado o estereotipado", dice Ganguli. "Ese sesgo aumenta con el tamaño del modelo".

Pero al mismo tiempo, en algún lugar de los datos de entrenamiento también debe haber algunos ejemplos de personas que rechazan este comportamiento sesgado, tal vez en respuesta a publicaciones desagradables en sitios como Reddit o Twitter, por ejemplo. Dondequiera que se origine esa señal más débil, la retroalimentación humana ayuda al modelo a impulsarla cuando se le solicita una respuesta imparcial, dice Askell.

El trabajo plantea la pregunta obvia de si esta "autocorrección" podría y debería integrarse en los modelos de lenguaje desde el principio.

A la pregunta de "¿Cómo sacas este comportamiento de la caja sin preguntarlo? ¿Cómo lo entrenas en el modelo?", hecha por Ganguli, La respuesta podría ser un concepto que Anthropic, una firma de IA fundada por ex miembros de OpenAI, llama "IA constitucional". Aquí, un modelo de lenguaje de IA puede probar automáticamente su salida contra una serie de principios éticos escritos por humanos cada vez. "Podrías incluir estas instrucciones como parte de tu constitución", dice Askell. "Y entrena al modelo para que haga lo que quieras".

Los hallazgos son "realmente interesantes", dice Irene Solaiman, directora de políticas de la firma francesa de inteligencia artificial Hugging Face. "No podemos dejar que un modelo tóxico se desata, así que es por eso que realmente quiero alentar este tipo de trabajo".

Pero ella tiene una preocupación más amplia sobre el encuadre de los problemas y le gustaría ver más consideración de los problemas sociológicos en torno al sesgo. "El sesgo nunca se puede resolver completamente como un problema de ingeniería", dice. "El sesgo es un problema sistémico" . Para leer mas sobre este tema busca en este enlace.







Comentarios

Entradas populares de este blog

Crea modelos de Deep Learning con Teachable Machine

Inteligencia Artificial: ¿ Cómo hacer un programa de clasificación de imágenes ?

¡¡¡ Estudiante Autónoma, realiza propuesta de Arte Generativo Usando Redes Neuronales Convolucionales y Redes Generativas Adversas !!!