[general_dat] Invitación Jueves a las 15:00, tesis de licenciatura de Joaquin Polonuer.
Luciano Del Corro
luciano at delcorro.info
Fri Dec 12 10:22:48 -03 2025
¡Hola!
Los invitamos a la presentación de Tesis de Licenciatura en Ciencias de
Datos de Joaquin Polonuer.
Título: Exploración Autónoma de Grafos de Conocimiento para Recuperación
Adaptativa.
Cuándo: Jueves 18 de Diciembre, 15:00 hs.
Dónde: Aula 1303, Edificio 0+infinito, Ciudad Universitaria, UBA.
Directores: Luciano Del Corro, Marinka Zitnik
Jurados: Bruno Bianchi, Andres farrall
Resumen:
El paradigma de Generación Aumentada por Recuperación (RAG) se ha
posicionado como un método efectivo para mitigar problemas comunes de los
modelos de lenguaje, como las alucinaciones y la falta de información
actualizada. Las soluciones estándar de RAG se basan típicamente en
recuperar pasajes relevantes desde un corpus textual mediante búsqueda
semántica o basada en términos, para luego condicionar la generación del
modelo sobre esa evidencia.
Diversos trabajos han demostrado que incorporar mecanismos de exploración
sobre grafos de conocimiento dentro de sistemas RAG mejora
significativamente el rendimiento, especialmente en consultas que requieren
razonamiento más allá de la similitud textual directa. Sin embargo, todavía
faltan enfoques que integren de manera natural la recuperación tradicional
basada en similitud global con búsquedas más complejas que requieren
considerar relaciones entre múltiples conceptos, un escenario que
usualmente se conoce como razonamiento multi-hop.
En este trabajo presentamos GraphAgent, un agente capaz de integrar
información textual y relacional para la recuperación de información en
grafos de conocimiento, sin necesidad de entrenamiento específico sobre el
grafo objetivo. Nuestro agente combina herramientas de búsqueda global con
operaciones locales de exploración de vecindades y, mediante tool calling,
decide de manera dinámica si una consulta requiere recuperar pasajes
textuales o ejecutar pasos relacionales, evitando así depender de
heurísticas basadas en reconocimiento de entidades o de un conjunto fijo de
nodos iniciales.
A su vez, mostramos que estas capacidades de búsqueda pueden transferirse a
modelos pequeños mediante post-training. En particular, entrenamos una
variante compacta de nuestro agente basada en Qwen3-8B, con el objetivo de
obtener un sistema capaz de razonar sobre grafos en entornos con recursos
computacionales limitados, manteniendo al mismo tiempo un desempeño
competitivo frente a modelos de mayor tamaño.
Para enriquecer la evaluación en dominios específicos de question answering
y acercarnos a escenarios reales donde la eficiencia es crucial,
construimos AfriMedKG y WikidataMedKG, dos grafos de conocimiento médicos
derivados de fuentes especializadas, que empleamos como base de
conocimiento para mejorar el desempeño de modelos ligeros en tareas de QA
médicas.
Nuestros resultados muestran que GraphAgent supera al estado del arte en
tareas de information retrieval sobre grafos, alcanzando mejoras de
aproximadamente un 10% en métricas de precisión, y que su variante compacta
basada en Qwen3 incrementa el rendimiento de modelos pequeños en hasta un
10 % en el benchmark AfriMedQA. En conjunto, estos hallazgos sugieren que
los agentes de lenguaje equipados con herramientas de exploración sobre
grafos constituyen una vía prometedora para integrar recuperación
estructurada y generación en dominios complejos.
Saludos,
Luciano
Más información sobre la lista de distribución general_dat