LOS MODELOS DEL LENGUAJE PODRÍAN SER CAPACES DE LIBRARSE DE LA PARCIALIDAD DE CRITERIO DE SUS CREADORES SI SE LES DICE
En un mundo donde la diversidad, y la discriminación son problemas del día a día en la vida de muchos, y obtener una respuesta 100% imparcial es tan difícil, encontramos que estas tecnologías de inteligencia artificial se ven altamente influenciadas por las experiencias o conocimiento que les halla sido brindado por las personas que las entrenan, por ello, los modelos de lenguaje grandes son famosos por arrojar sesgos tóxicos.
Sin embargo, también se encontró que, si los modelos son lo
suficientemente grandes, y el grupo de humanos que han ayudado a entrenarlos también
es grande y variado, entonces, las ia desarrollar la capacidad de auto corregir
algunos de estos sesgos, o parcialidades de criterio. Sorprendentemente, todo
lo que hicieron los investigadores para lograr esto fue preguntar a las mismas
inteligencias artificiales que lo hicieran.
Ese es el hallazgo de un experimento del laboratorio de IA Anthropic, descrito en un
artículo no revisado por pares, que analizó varios modelos de IA grandes que habían sido entrenados
utilizando el aprendizaje con una técnica que hace que los humanos dirijan el
modelo de IA hacia respuestas más deseables.
Los investigadores principales, Amanda Askell y Deep Ganguli querían
saber si simplemente pedir a estos modelos que produjeran resultados
imparciales, sin siquiera tener que definir lo que querían decir con sesgo,
sería suficiente para alterar lo que producían.
Así que tomaron un montón
de modelos de lenguaje de diferentes tamaños, que habían pasado por diferentes
cantidades de entrenamiento RLHF, y los probaron con tres conjuntos de datos
que han sido diseñados para medir el sesgo o los estereotipos.
Con lo anterior el equipo descubrió que
solo incitar a un modelo para asegurarse de que sus respuestas no dependieran
de estereotipos tenía un efecto dramáticamente positivo en su producción,
particularmente en aquellos que habían completado suficientes rondas de RLHF y
tenían más de 22 mil millones de parámetros, las variables en un sistema de IA
que se ajustan durante el entrenamiento. (Cuantos más parámetros, más grande es
el modelo. GPT-3 tiene alrededor de 175 mil millones de parámetros). En algunos
casos, el modelo incluso comenzó a participar en la discriminación positiva en
su producción.
Fundamentalmente, al igual que con gran
parte del trabajo de aprendizaje profundo, los investigadores realmente no
saben exactamente por qué los modelos pueden hacer esto. "A medida que los
modelos se hacen más grandes, también tienen conjuntos de datos de
entrenamiento más grandes, y en esos conjuntos de datos hay muchos ejemplos de
comportamiento sesgado o estereotipado", dice Ganguli. "Ese sesgo
aumenta con el tamaño del modelo".
Pero al mismo tiempo, en algún lugar de
los datos de entrenamiento también debe haber algunos ejemplos de personas que
rechazan este comportamiento sesgado, tal vez en respuesta a publicaciones
desagradables en sitios como Reddit o Twitter, por ejemplo. Dondequiera que se
origine esa señal más débil, la retroalimentación humana ayuda al modelo a
impulsarla cuando se le solicita una respuesta imparcial, dice Askell.
El trabajo plantea la pregunta obvia de si
esta "autocorrección" podría y debería integrarse en los modelos de
lenguaje desde el principio.
A la pregunta de "¿Cómo sacas este
comportamiento de la caja sin preguntarlo? ¿Cómo lo entrenas en el
modelo?", hecha por Ganguli, La respuesta podría ser un concepto que
Anthropic, una firma de IA fundada por ex miembros de OpenAI, llama "IA
constitucional". Aquí, un modelo de lenguaje de IA puede probar
automáticamente su salida contra una serie de principios éticos escritos por
humanos cada vez. "Podrías incluir estas instrucciones como parte de tu
constitución", dice Askell. "Y entrena al modelo para que haga lo que
quieras".
Los hallazgos son "realmente
interesantes", dice Irene Solaiman,
directora de políticas de la firma francesa de inteligencia artificial Hugging
Face. "No podemos dejar que un modelo tóxico se desata, así que es por eso
que realmente quiero alentar este tipo de trabajo".
Comentarios
Publicar un comentario