[general_dat] Invitación a Defensa de Tesis de Licenciatura de Manuel Costa
Viviana Cotik
vcotik at dc.uba.ar
Mon May 19 08:00:00 -03 2025
Tenemos el agrado de invitarlos a la defensa de Tesis de Licenciatura en
Ciencias de la Computación de Manuel Costa.
*Título: *Word-embeddings contextualizados para detección de entidades
nombradas en textos de radiología en español
*Cuándo: *Jueves 22 de Mayo, 10:30 hrs
*Dónde:* La defensa será transmitida de manera virtual (enviaremos el link
más adelante)
*Directora:* Viviana Cotik
*Jurados: *María Teresa Martín Valdivia, Pablo Brusco
*Resumen:*
La creciente digitalización de los procesos médicos ha generado una gran
cantidad de datos textuales, como informes de estudios clínicos, que
permiten mejorar procesos a través de la automatización de la extracción de
información. Sin embargo, esta última presenta desafíos significativos,
especialmente en español, debido a la escasez de recursos en este idioma y
al uso de vocabulario especializado. Además, algunos de estos textos suelen
contener abreviaturas, errores ortográficos y de tipeo, lo que agrega una
complejidad adicional. Este trabajo busca contribuir al campo del
Procesamiento del Lenguaje Natural Biomédico* (BioNLP, por sus siglas en
inglés)* mediante el desarrollo de mejores representaciones de textos que
optimicen la extracción de información en informes clínicos escritos en
español.
En esta tesis se desarrolla un estudio sobre el uso de *word embeddings* y
modelos de lenguaje para informes de ecografía escritos en español. Se
proponen y evalúan diferentes modelos de *embeddings*, incluyendo técnicas
estáticas como *FastText* y modelos basados en arquitecturas contextuales
como *Transformers* y *BiLSTM*. Los *embeddings* se entrenaron utilizando
un corpus anonimizado de más de 80 mil informes de ecografías. Se
realizaron dos tipos de evaluaciones sobre los *embeddings*: una extrínseca
y una intrínseca. Para la evaluación extrínseca se utilizó la tarea de
reconocimiento de entidades nombradas con el conjunto de datos de la
competencia *SpRadIE*. Además, se realiza un estudio de ablación para
intentar establecer un vínculo más directo entre el uso de las
representaciones y el rendimiento obtenido por los modelos. Para la
evaluación intrínseca, se presenta un marco basado en análisis cualitativo
para medir la calidad de los *embeddings* en dominios donde no existen
*benchmarks* estandarizados.
Los resultados obtenidos muestran mejoras sobre el estado del arte para la
tarea de reconocimiento de entidades nombradas de *SpRadIE*, destacando el
impacto de usar representaciones contextuales adaptadas al subdominio
específico de la tarea. Observamos que los mejores resultados del
reconocimiento de entidades nombradas se obtienen con modelos basados en
*Transformers*; sin embargo, las representaciones generadas a partir de
*BiLSTM* parecen capturar información semántica más rica, como evidencian
los estudios de ablación y el análisis cualitativo.
*Palabras clave:* *embeddings*, reconocimiento de entidades nombradas,
*BioNLP* en español, informes clínicos, ecografías, *transformers*, *BiLSTM*
, *FastText*
Más información sobre la lista de distribución general_dat