[general_dat] Recordatorio: Invitación a la defensa de tesis de licenciatura de Teo Gutter (Martes 14hs)

Luciano Del Corro luciano at delcorro.info
Tue Jul 29 09:19:56 -03 2025


> ¡Hola!
>
> Los invitamos a la presentación de Tesis de Licenciatura en Ciencias de
> Datos de Teo Gutter.
>
> *Título: *Generación automática de preguntas basada en grafos de
> conocimiento para optimización de sistemas de recuperación aumentada
> *Cuándo:* Martes 29 de Julio, 14:00 hs.
> *Dónde:* Aula 1301, Edificio 0+infinito, Ciudad Universitaria, UBA.
> *Director:* Luciano Del Corro
> *Jurados:* Bruno Bianchi, Victoria Paternostro
>
> *Resumen*
>
> Los sistemas de Generación por Recuperación Aumentada (RAG) permiten a los
> grandes modelos de lenguaje (LLMs) acceder a información externa en tiempo
> real, superando así las limitaciones impuestas por su propio entrenamiento,
> como la dificultad para controlar con exactitud qué información conoce el
> modelo. Este enfoque no solo mejora significativamente la calidad de las
> respuestas generadas por asistentes basados en LLMs, sino que también
> permite incorporar conocimiento específico, confidencial o ausente en su
> entrenamiento. Como consecuencia, los sistemas RAG se están adoptando de
> manera cada vez más extendida y horizontal en la industria.
>
> Los sistemas basados en RAG, sin embargo, enfrentan desafíos
> significativos relacionados con la latencia y el costo computacional.
> Además, estos sistemas suelen recuperar documentos que presentan alta
> similitud superficial pero baja diversidad semántica, lo que reduce la
> cobertura del contexto relevante y limita la capacidad del modelo para
> generar respuestas completas y bien fundamentadas.
>
> Para mitigar estas limitaciones, esta tesis presenta KRAQ (Knowledge-graph
> Representative Automatic Questions), un sistema que permite precomputar
> conjuntos de preguntas representativas para un corpus determinado a partir
> de un grafo de conocimiento. Para ello, se realiza la detección de
> entidades y relaciones presentes en los textos con las cuales se construye
> el grafo. Luego, se identifican comunidades ``semánticas'' dentro del grafo
> que permiten la generación de resúmenes textuales. Finalmente, con un LLM
> fine-tuneado se genera un conjunto de preguntas representativas a partir de
> dichos resúmenes. La principal ventaja de este enfoque es su capacidad para
> generar preguntas que capturan relaciones profundas presentes en el corpus,
> incluso cuando dichas relaciones se extienden a través de múltiples
> documentos o no están formuladas explícitamente en el texto. De este modo,
> se obtiene un conjunto de preguntas verdaderamente representativas del
> contenido, que refleja de manera más fiel la estructura semántica
> subyacente.
>
> Este listado de preguntas permite optimizar sistemas RAG: por un lado, (i)
> incrementando la precisión mediante estrategias de recuperación combinada,
> donde se enriquece el conjunto de documentos recuperados; y por otro, (ii)
> mejorando la latencia de sistemas de RAG como Speculative RAG, utilizando
> las preguntas generadas para pre-computar los embeddings necesarios para
> separar en subconjuntos los documentos.
>
> La validación experimental, realizada en múltiples datasets estándar como
> TriviaQA, BioASQ, PubHealth y HotPotQA, demostró la efectividad de KRAQ.
> Los resultados evidencian que las preguntas representativas superan a los
> baselines por hasta 49 puntos porcentuales, mientras que su aplicación en
> sistemas RAG impulsó mejoras de hasta un 3\% en la precisión y reducciones
> de hasta un 11.8\% en la latencia. La incorporación de estas preguntas no
> solo mejora la eficiencia y precisión de RAG, sino que abre un camino
> prometedor para escalar esta tecnología.
>
> Saludos,
>
> Luciano
>


Más información sobre la lista de distribución general_dat