[general_dat] Invitación a la defensa de tesis de licenciatura de Tomás Ravel (lunes 16hs)

Pablo Brusco pbrusco at dc.uba.ar
Sat Jul 26 17:23:51 -03 2025


¡Hola!

Tengo el agrado de invitarlos a la presentación de Tesis de Licenciatura en
Ciencias de Datos de *Tomás Ravel*.

*Título*:             *Clasificación de transiciones de turno en
conversaciones humano-humano utilizando LLMs*
*Cuándo*:          Lunes *28 de Julio,* *16:00 hs. *
*Dónde*:            *Aula 1301*, Edificio 0+infinito, Ciudad Universitaria,
UBA.
*Directores*:     Pablo Brusco
*Jurados*:         Pablo Riera, Victoria Paternostro

*Resumen *

El análisis automático de eventos en conversaciones habladas entre humanos,
o entre humanos y sistemas, es una tarea fundamental para el desarrollo de
sistemas de diálogo más naturales y eficientes. En particular, la
clasificación de transiciones de turno en conversaciones permite a los
asistentes virtuales entender cuándo es un buen momento para interrumpir en
una conversación, cuándo no, entender la intención del usuario, entre otros
aspectos. Asimismo, la comunidad lingüística puede beneficiarse de sistemas
que en pocos segundos crean reportes sobre estas interacciones que, tiempo
atrás, habrían requerido horas de escucha y anotación manual.

En las últimas dos décadas, este problema se ha abordado mediante modelos
de aprendizaje supervisado que utilizan una combinación de atributos
acústico-prosódicos y léxicos. Esta tesis explora un paradigma alternativo:
el uso de Modelos de Lenguaje de Gran Escala (LLMs) para la clasificación
offline de transiciones de turno, sin necesidad de entrenamiento específico
para esta tarea. El objetivo principal es evaluar la viabilidad de este
enfoque con muy poca supervisión – cada vez más popular como paradigma de
resolución de problemas – y comparar su rendimiento contra los métodos
tradicionales, que sí requieren de una cantidad significativa de datos de
entrenamiento.

Para ello, realizamos una serie de experimentos sobre el UBA Games Corpus,
una colección de diálogos en español orientados a tareas. Se evaluaron los
modelos LLaMA 3.3-70B y Gemini 2.5 Pro – que utilizan únicamente las
transcripciones del diálogo como entrada, es decir, no utilizan información
de la señal acústica – mediante técnicas de prompting, explorando
sistemáticamente distintas estrategias de representación del problema, como
la inclusión de ejemplos (few-shot), el formato de los datos y las
distintas representaciones del conjunto de etiquetas. El rendimiento se
midió utilizando la métrica Macro F1 y se comparó con un modelo de
referencia basado en Redes Neuronales Recurrentes (RNNs) entrenado con
atributos acústicos.

Los resultados demuestran que, si bien el enfoque basado en LLMs no logra
superar el rendimiento global del baseline acústico (Macro F1 de 0.55
frente a 0.67), sí muestra una capacidad notable para comprender la tarea a
pesar de no haber sido entrenado específicamente para ello. Es destacable
que el mejor modelo (Gemini 2.5 Pro) superó al baseline en la clasificación
de categorías semánticamente complejas, como las interrupciones. Se
concluye que, aunque la información prosódica sigue siendo crucial, los
LLMs son capaces de capturar eficazmente pistas léxicas y estructurales del
texto. Este trabajo sienta las bases para futuras investigaciones, no solo
en sistemas híbridos que combinen la potencia semántica de los LLMs con la
sensibilidad de los sistemas clásicos, sino también en la exploración de
arquitecturas multimodales capaces de procesar directamente la señal de
audio.

*Palabras clave: *manejo de turnos, clasificación de transiciones, modelos
de lenguaje grandes (LLMs), procesamiento del lenguaje natural, análisis de
conversaciones, prompting.

¡Los esperamos!

-- 
Pablo B.


Más información sobre la lista de distribución general_dat