[general_dat] Invitación a Defensa de Tesis de Licenciatura de Manuel Costa

Viviana Cotik vcotik at dc.uba.ar
Thu May 22 10:25:49 -03 2025


Recordatorio. A las 10:30 Manuel Costa defiende su tesis de Licenciatura.

Se puede ver la misma en este link:
https://youtube.com/live/XjuYPQ7Dw-U?feature=share

Saludos,
Viviana

El lun, 19 may 2025 a la(s) 8:00 a.m., Viviana Cotik (vcotik at dc.uba.ar)
escribió:

> Tenemos el agrado de invitarlos a la defensa de Tesis de Licenciatura en
> Ciencias de la Computación de Manuel Costa.
>
> *Título: *Word-embeddings contextualizados para detección de entidades
> nombradas en textos de radiología en español
>
>
> *Cuándo: *Jueves 22 de Mayo, 10:30 hrs
> *Dónde:* La defensa será transmitida de manera virtual (enviaremos el
> link más adelante)
> *Directora:* Viviana Cotik
> *Jurados: *María Teresa Martín Valdivia, Pablo Brusco
>
> *Resumen:*
>
> La creciente digitalización de los procesos médicos ha generado una gran
> cantidad de datos textuales, como informes de estudios clínicos, que
> permiten mejorar procesos a través de la automatización de la extracción de
> información. Sin embargo, esta última presenta desafíos significativos,
> especialmente en español, debido a la escasez de recursos en este idioma y
> al uso de vocabulario especializado. Además, algunos de estos textos suelen
> contener abreviaturas, errores ortográficos y de tipeo, lo que agrega una
> complejidad adicional. Este trabajo busca contribuir al campo del
> Procesamiento del Lenguaje Natural Biomédico* (BioNLP, por sus siglas en
> inglés)* mediante el desarrollo de mejores representaciones de textos que
> optimicen la extracción de información en informes clínicos escritos en
> español.
>
> En esta tesis se desarrolla un estudio sobre el uso de *word embeddings* y
> modelos de lenguaje para informes de ecografía escritos en español. Se
> proponen y evalúan diferentes modelos de *embeddings*, incluyendo
> técnicas estáticas como *FastText* y modelos basados en arquitecturas
> contextuales como *Transformers* y *BiLSTM*. Los *embeddings* se
> entrenaron utilizando un corpus anonimizado de más de 80 mil informes de
> ecografías. Se realizaron dos tipos de evaluaciones sobre los *embeddings*:
> una extrínseca y una intrínseca. Para la evaluación extrínseca se utilizó
> la tarea de reconocimiento de entidades nombradas con el conjunto de datos
> de la competencia *SpRadIE*. Además, se realiza un estudio de ablación
> para intentar establecer un vínculo más directo entre el uso de las
> representaciones y el rendimiento obtenido por los modelos. Para la
> evaluación intrínseca, se presenta un marco basado en análisis cualitativo
> para medir la calidad de los *embeddings* en dominios donde no existen
> *benchmarks* estandarizados.
>
> Los resultados obtenidos muestran mejoras sobre el estado del arte para la
> tarea de reconocimiento de entidades nombradas de *SpRadIE*, destacando
> el impacto de usar representaciones contextuales adaptadas al subdominio
> específico de la tarea. Observamos que los mejores resultados del
> reconocimiento de entidades nombradas se obtienen con modelos basados en
> *Transformers*; sin embargo, las representaciones generadas a partir de
> *BiLSTM* parecen capturar información semántica más rica, como evidencian
> los estudios de ablación y el análisis cualitativo.
>
> *Palabras clave:* *embeddings*, reconocimiento de entidades nombradas,
> *BioNLP* en español, informes clínicos, ecografías, *transformers*,
> *BiLSTM*, *FastText*
>
>


Más información sobre la lista de distribución general_dat