[general_dat] 11/12: Defensa de Tesis de Emanuel Ruzak
Sergio Abriola
sabriola at dc.uba.ar
Tue Dec 10 15:02:44 -03 2024
Tengo el agrado de anunciar la defensa de Tesis de Licenciatura en Ciencia
de Datos de Emanuel Ruzak, titulada: "Explorando las dinámicas de *AI
Safety via Debate*"
*Fecha y hora*: Miércoles 11 de diciembre, 10hs.
*Aula*: Aula 1102, Pabellón Cero + Infinito
*Director*: Sergio Abriola
*Jurados*: Esteban Lanzarotti, Victor Braberman
Resumen:
El desarrollo de sistemas de inteligencia artificial (IA) capaces de
comprender y ejecutar tareas complejas requiere que estos sistemas aprendan
objetivos y preferencias humanas sofisticadas que no sabemos especificar
formalmente. Además, fenómenos como *reward hacking* o *malgeneralización*
son el resultado esperable de los métodos de entrenamiento actuales,
incluso ante la presencia de buenas especificaciones.
El debate, como se propone en el artículo *AI safety via debate*, es una
técnica prometedora de alineamiento que intenta entrenar sistemas de IA
honestos, haciendo que produzcan argumentos a través de un juego de suma
cero donde dos agentes argumentan sobre una pregunta o acción propuesta, y
un juez humano evalúa la veracidad y utilidad de la información
proporcionada.
Este trabajo se centra en explorar empíricamente las dinámicas
argumentativas entre agentes de IA y un juez (también implementado como
otro sistema de IA). Para esto se llevaron a cabo experimentos donde se
analiza la factibilidad de que agentes débiles den señales de supervisión
para el entrenamiento de agentes más fuertes utilizando el método del
debate.
En uno de los experimentos se utilizó un clasificador de imágenes, en el
que dos agentes, modelados utilizando MCTS (Monte-Carlo Tree Search),
seleccionaron píxeles en cada turno con el objetivo de obtener una
clasificación como número impar o par respectivamente. En otro experimento
se utilizaron modelos de lenguaje grandes (LLMs) donde el debate consistió
en que dos agentes proporcionen argumentos en turnos utilizando pasajes de
texto. Un agente intenta convencer al juez, que consiste en otro LLM, de
una respuesta correcta y el otro de una respuesta incorrecta a una pregunta
de opción múltiple, utilizando una versión modificada del dataset QuALITY.
Están todos cordialmente invitados,
Sergio Abriola
Más información sobre la lista de distribución general_dat