[general_dat] Recordatorio: HOY a las 15:00, tesis de licenciatura de Pedro Memoli.
Luciano Del Corro
luciano at delcorro.info
Tue Dec 16 13:26:41 -03 2025
¡Hola!
Los invitamos a la presentación de Tesis de Licenciatura en Ciencias de
Datos de Pedro Memoli.
Título: La Entropía Alcanza: Estimación No Supervisada de Accuracy en
Dominios STEM
Cuándo: Martes 16 de Diciembre, 15:00 hs.
Dónde: Aula 1303, Edificio 0+infinito, Ciudad Universitaria, UBA.
Director: Luciano Del Corro
Jurados: Ana Bianco, Andres farrall
Meet: https://meet.google.com/rng-tfej-aru
Resumen
Las leyes de escalado (scaling laws) demostraron que el desempeño de los
modelos de lenguaje basados en transformers mejora de forma predecible con
la cantidad de parámetros y datos de entrenamiento, consolidando un
paradigma en la industria: más parámetros y más datos producen mejores
modelos.
Sin embargo, estas leyes no abordan la composición de los datos. Si bien
indican que incrementar el volumen mejora el rendimiento, no especifican
qué dominios o contenidos se requieren para subsanar debilidades
particulares. Actualmente, estas carencias se identifican mediante
benchmarks desarrollados manualmente, un proceso costoso que no escala. Una
métrica capaz de estimar el desempeño en dominios arbitrarios sin
supervisión humana permitiría automatizar la detección de áreas que
requieren más datos o entrenamiento.
Para abordar este problema, desarrollamos una métrica que estima el
accuracy de modelos de lenguaje en dominios arbitrarios. Esta se basa en un
clasificador simple entrenado sobre señales internas del transformer
(perfiles de entropía). El método permite, con un costo computacional
despreciable y sin acceso a etiquetas de referencia, estimar la
probabilidad de error de cada respuesta y proyectar el desempeño esperado
del modelo en un dominio completo.
Los resultados experimentales validan el enfoque propuesto. Estimamos el
accuracy en cuatro benchmarks sobre el modelo PHI 3.5, tres de los cuales
evalúan el performance de ciencia y matemática en su reporte técnico
oficial: GSM8K y MATH (matemática), junto con GPQA y SCIBENCH (ciencia). El
hallazgo central es que, incluso al entrenar el clasificador únicamente con
datos de matemática, el método fue capaz de reproducir el desempeño en
todos los benchmarks con alta precisión (r > 0.97, Brier Score = 0.12),
incluyendo los de ciencia. Estos resultados sugieren que los perfiles de
entropía codifican información intrínseca sobre el desempeño del modelo,
trascendiendo dominios específicos y habilitando la detección de
debilidades con un costo computacional despreciable.
Saludos,
Luciano
Más información sobre la lista de distribución general_dat