Lecciones aprendidas sobre la seguridad y el mal uso del modelo de lenguaje
3 de marzo de 2022
El despliegue de potentes sistemas de IA ha enriquecido nuestra comprensión de la seguridad y el uso indebido mucho más de lo que hubiera sido posible solo con la investigación. Notablemente:
- El mal uso del modelo de lenguaje basado en API a menudo se presenta en formas diferentes a las que más temíamos.
- Hemos identificado limitaciones en las evaluaciones del modelo de lenguaje existente que estamos abordando con nuevos puntos de referencia y clasificadores.
- La investigación de seguridad básica ofrece beneficios significativos para la utilidad comercial de los sistemas de IA.
Aquí, describimos nuestras últimas ideas con la esperanza de ayudar a otros desarrolladores de IA a abordar la seguridad y el mal uso de los modelos implementados.
Descripción general de nuestro enfoque de implementación de modelos
Los modelos de lenguaje grande ahora son capaces de realizar una amplia gama de tareas , a menudo de manera inmediata. Sus perfiles de riesgo, aplicaciones potenciales y efectos más amplios en la sociedad siguen sin comprenderse bien . Como resultado, nuestro enfoque de implementación enfatiza la iteración continua y utiliza las siguientes estrategias destinadas a maximizar los beneficios de la implementación y reducir los riesgos asociados
- Análisis de riesgos previo a la implementación, aprovechando un conjunto cada vez mayor de evaluaciones de seguridad y herramientas de equipo rojo (p. ej., revisamos nuestro InstructGPT para detectar degradaciones de seguridad utilizando las evaluaciones que se analizan a continuación )
- Comenzar con una pequeña base de usuarios (p. ej., tanto GPT-3 como nuestra serie InstructGPT comenzaron como versiones beta privadas)
- Estudiar los resultados de pilotos de casos de uso novedosos (p. ej., explorar las condiciones bajo las cuales podríamos habilitar de manera segura la generación de contenido de formato largo, trabajando con una pequeña cantidad de clientes)
- Implementar procesos que ayuden a controlar el uso (p. ej., revisión de casos de uso, cuotas de tokens y límites de tasa)
- Realización de revisiones retrospectivas detalladas (p. ej., de incidentes de seguridad y despliegues importantes)
Comentarios
Publicar un comentario