[general_dat] Hoy: Defensa de Tesis de Licenciatura de Javier Petri

Viviana Cotik vcotik at dc.uba.ar
Fri Apr 11 10:24:30 -03 2025


Recordatorio.

Transmitiremos la defensa via youtube en:
https://www.youtube.com/live/qLL_Q1jMBUo?si=aXFasAAOM6XDxh4t.

Saludos,
Viviana

---------- Forwarded message ---------
De: Viviana Cotik <vcotik at dc.uba.ar>
Date: vie, 4 abr 2025 a la(s) 4:27 p.m.
Subject: Invitación a Defensa de Tesis de Licenciatura de Javier Petri
To: <todos at dc.uba.ar>, <general_dat at listas.exactas.uba.ar>


Tenemos el agrado de invitarlos a la defensa de Tesis de Licenciatura en
Ciencias de la Computación de Javier Petri.

*Título: *Extracción de información de Historias Clínicas Electrónicas
escritas en español para realizar inteligencia epidémica

*Cuándo: *Viernes 11 de Abril, 11:30 hrs
*Dónde:* Sala 1606, pabellón 0+inf
*Directora:* Viviana Cotik
*Co-Directora:* Pilar Bárcena Barbeira
*Jurados: *Martina Pesce, Juan Manuel Pérez

*Resumen:*
Las historias clínicas son una herramienta fundamental para la atención
médica. La creciente adopción de las historias clínicas electrónicas
facilita la extracción automática de datos para realizar análisis que
permitan detectar brotes de enfermedades de forma temprana y tomar
decisiones basadas en datos, contribuyendo así a la vigilancia basada en
eventos.

Esta tesis aborda dos tareas principales: la detección automática de
síntomas asociados a cinco síndromes de interés —síndrome febril agudo
inespecífico, COVID-19, diarrea, neumonía y enfermedad tipo influenza— y la
clasificación de historias clínicas en cuanto a la presencia, sospecha o
ausencia de COVID-19. Para lograr estos objetivos, se utilizaron corpus de
historias clínicas electrónicas escritas en español provenientes del
sistema de salud argentino, previamente anotadas por expertos, así como
métodos avanzados del procesamiento del lenguaje natural.

Para la primer tarea utilizamos 6.228 historias clínicas etiquetadas y
aproximadamente 1 millón de historias clínicas no etiquetadas. Nuestro
enfoque consistió en ajustar (i.e. realizar el fine-tuning) modelos de
reconocimiento de entidades nombradas del estado del arte, incluyendo
BiLSTM-CRF y modelos basados en transformers de la familia de BERT y
RoBERTa. Nos enfocamos en modelos orientados al dominio y a la tarea para
mejorar el rendimiento: los primeros fueron pre-entrenados en corpus
biomédicos, mientras que los últimos fueron pre-entrenados adicionalmente
en nuestras historias clínicas no etiquetadas. A pesar de las limitaciones
computacionales con las que contamos para entrenar nuestros modelos, estos
demostraron resultados prometedores. En particular, RoBERTa-Clinico, un
transformer preentrenado en nuestro corpus no etiquetado, alcanzó el mejor
rendimiento con un micro recall de 79.30 y un micro F1-score de 70.83,
resultados comparables a los reportados en estudios similares.

Para la tarea de clasificación, se utilizaron 4.996 historias clínicas
etiquetadas y se implementaron modelos basados en transformers de la
familia BERT y RoBERTa, adaptados al español y al dominio clínico. Los
resultados de estos modelos se compararon con los obtenidos previamente por
un proyecto anterior que incluyó la implementación de algoritmos clásicos
de aprendizaje automático como la regresión logística. Los modelos basados
en transformers, al igual que en la tarea de detección de síntomas, fueron
preentrenados en grandes corpus de texto biomédico y luego ajustados con
nuestro conjunto de datos sin etiquetar. Uno de esos modelos, BETO Clínico,
una variante de BERT para el español, ajustado posteriormente con nuestros
datos, alcanzó un micro F1 del 88.1%, superando por un margen pequeño pero
significativo el 85.1% obtenido por regresión logística, siendo este el
mejor de los modelos más sencillos.


Más información sobre la lista de distribución general_dat