
Una de las técnicas de IA más populares utilizadas por las compañías para mejorar la calidad de sus grandes modelos de lenguaje podría hacer que aprendan mejor a engañar a los humanos, según un nuevo estudio previo de Anthropic e investigadores de universidades chinas y estadounidenses.
Los autores indican que es la primera vez que un estudio documenta de forma empírica un fenómeno que llaman sofistería no intencionada, en que un modelo entrenado con retroalimentación humana aprende a producir respuestas que engañan a sus evaluadores humanos para que crean que las respuestas son precisas, en lugar de aprender a producir respuestas verdaderamente exactas.
El aprendizaje de refuerzo a partir de retroalimentación humana, o RLHF es una parte crítica del proceso de entrenamiento que empresas como Anthropic y OpenAI utilizan para enseñarles a sus modelos generativos de lenguaje a responder de formas que prefieren los humanos, como responder correctamente y no incluir contenido tóxico en las respuestas. En el RLHF un modelo responde ante indicaciones y los evaluadores humanos brindan retroalimentación, señalando las respuestas buenas y malas. Esa retroalimentación se usa para construir un sistema de incentivos para el modelo de lenguaje original que lo recompensa – como sea que les guste ser recompensados a los algoritmos – por generar el tipo de respuestas que prefieren los humanos.
El engaño artificial
Los investigadores mostraron que el entrenamiento por sistema de recompensas puede llevar a algo que llaman hackeo de recompensas donde los modelos replican patrones de su material de entrenamiento que se correlaciona con el resultado deseado pero en realidad no es lo que quieren los desarrolladores. Por ejemplo, un estudio de 2023 que analizaba un modelo entrenado con datos de la compañía StackExchange de foro de preguntas y respuestas halló que un modelo de lenguaje reconoció que los posteos más largos por lo general recibían más votos positivos, así que en lugar de producir respuestas de mejor calidad al responder a una pregunta, hackeaba la recompensa de su sistema de incentivos al brindar respuestas más largas y de menor calidad.
El nuevo estudio bajo revisión documenta a un modelo de lenguaje que hackea la recompensa de los humanos en el proceso RLHF. “Hallamos que después del RLHF el modelo de lenguaje no mejora en su tarea, sino que confunde a nuestros sujetos para que aprueben con más frecuencia sus respuestas incorrectas”, escribieron los autores. “Al responder preguntas los modelos de lenguaje aprenden a defender las respuestas incorrectas eligiendo o inventando evidencia de respaldo, con argumentos consistentes pero falsos, y brindando argumentos que contienen sutiles falacias causales. En la tarea de programación los modelos de lenguaje aprenden a generar programas parcialmente incorrectos que aún así pasan todas las pruebas de unidad designadas por el evaluador, producen programas menos legibles y cometen menos errores comunes de los que suelen revisar los humanos”.
Este artículo ha sido traducido de Gizmodo US por Lucas H. Aquí podrás encontrar la versión original.