[general_dat] Invitación a la defensa de tesis de licenciatura de Sofia Roitman (Viernes 15hs)
Pablo Brusco
pbrusco at dc.uba.ar
Mon Dec 15 15:04:18 -03 2025
¡Hola!
Tenemos el agrado de invitarlos a la presentación de Tesis de Licenciatura
en Ciencias de Datos de *Sofia* *Roitman*.
*Título*: *Reconocimiento Óptico de Música con Visual
LLMs: Análisis Zero-Shot en Partituras Monofónicas*
*Cuándo*: Viernes *19 de diciembre,* *15:00 hs. *
*Dónde*: *Aula 1115*, Edificio 0+infinito, Ciudad Universitaria,
UBA.
*Directores*: Pablo Brusco, Pablo Riera
*Jurados*: Martín Meza, Andrés Farall
*Resumen *
La conversión de una imagen de partitura a un formato digital estructurado
representa el desafío central del Reconocimiento Óptico de Música (OMR). A
diferencia del reconocimiento de texto, este proceso requiere comprender
simultáneamente la morfología de los símbolos y su posición espacial
precisa en el pentagrama. Este trabajo explora la viabilidad de utilizar
Modelos de Lenguaje Visuales (vLLMs) para abordar la transcripción de
partituras monofónicas bajo un enfoque zero-shot, es decir, sin un
entrenamiento específico previo para esta tarea.
El estudio evalúa y compara el desempeño de dos modelos: Gemini 2.5 Flash,
como representante de modelos comerciales de alto rendimiento, y LLaVA 13B,
como alternativa de código abierto. La metodología emplea un conjunto de
datos de partituras sintéticas con complejidad incremental y una selección
de obras reales para realizar una evaluación final, aplicando las métricas
basadas en la distancia de edición –Symbol Error Rate (SER), Height Error
Rate (HER) y Glyph Error Rate (GER)– para cuantificar la precisión en la
recuperación de la altura y la duración de las notas.
Los resultados experimentales demuestran que, en su estado actual, los
modelos evaluados no logran una transcripción fiable de la notación
estándar. LLaVA 13B exhibe un comportamiento errático con una desconexión
entre la detección visual y la respuesta generada. Por su parte, Gemini 2.5
Flash demuestra una comprensión sólida de la lógica musical pero falla
críticamente en la ubicación espacial de las notas sobre el pentagrama. En
la evaluación con partituras reales, Gemini 2.5 Flash obtuvo un SER
superior a 0.83 en todos los casos, lo que indica una discrepancia casi
total con la referencia. Sin embargo, el modelo logra un mejor desempeño en
la identificación de duraciones (GER promedio 0.28) que en el de las
alturas (HER promedio 0.80). Además, al cambiar la representación visual de
partitura tradicional a MIDI *Piano Roll*, Gemini 2.5 Flash reduce el SER
promedio a valores cercanos a 0.10 en secuencias largas, lo que confirma
que su limitación principal radica en la decodificación visual del
pentagrama y no en el razonamiento musical. Asimismo, el análisis de las
estrategias de *prompt engineering* revela que las instrucciones
detalladas, si bien ayudan en tareas aisladas, saturan el contexto en
secuencias extensas y empeoran el rendimiento.
Con este trabajo, llegamos a la conclusión de que, si bien los vLLMs poseen
capacidades de razonamiento lógico prometedoras, requieren arquitecturas
híbridas o ajustes finos para superar las barreras de percepción espacial
inherentes a la notación musical occidental.
*Palabras clave: *Reconocimiento Óptico de Música (OMR), Visual LLMs,
Zero-Shot, Gemini 2.5 Flash, LLaVA 13B, Prompt Engineering.
¡Los esperamos!
--
Sofi, Pablo y Pablo.
Más información sobre la lista de distribución general_dat