[general_dat] (Recordatorio) Invitación a la Defensa de Tesis de Licenciatura de Mauro Giordano - Martes 2/12/25 - 13hs

Pablo Turjanski pturjanski at dc.uba.ar
Mon Dec 1 16:27:13 -03 2025


Estimadas y estimados,

Tenemos el agrado de invitarlos a la defensa de Tesis de Licenciatura en
Ciencias de la Computación de Mauro Giordano

*Título:* Estudio de la homología de proteínas mediante embeddings basados
en repeticiones maximales de sus secuencias

*Cuándo:* Martes 2 de diciembre de 2025, a las 13:00 hs.
*Dónde:* Sala 1606, del Pabellón Cero+Infinito, Ciudad Universitaria

Director: Dr. Pablo Turjanski
Co-Director: Dr. Diego Ferreiro

*Jurados:*
Dra. Rocío Espada
Dr. Esteban Lanzarotti

*Resumen:*
El estudio de homología de proteínas y su clasificación en familias son
pilares de la biología molecular, sin embargo los métodos tradicionales
suelen ser costosos, lentos y dependientes de heurísticas con múltiples
parámetros ajustables. Este trabajo introduce una estrategia no supervisada
para abordar este desafío, buscando representar el espacio de secuencias de
proteínas de una forma que permita medir distancias con significado
biológico. El método formulado se basa en la construcción de embeddings a
partir de definir un “vocabulario biológico” basado en las repeticiones
maximales (MRs) de aminoácidos presentes en un corpus de secuencias. El
pipeline desarrollado computa estos patrones y permite entrenar un modelo
FastText (basado en skip-gram) para aprender una representación espacial de
las secuencias. A partir de estudiar la composición y naturaleza de los
MRs, definimos tres criterios de filtrado de patrones para construir tres
corpus de entrenamiento distintos. Analizamos los espacios resultantes de
estos tres modelos aplicando las etiquetas originales de familias sobre las
secuencias y mostramos que la representación vectorial captura de forma no
supervisada relaciones intrínsecas de homología entre sus cadenas de
aminoácidos. Mostramos que al entrenar los embeddings con todos los MRs
computados, la separabilidad entre grupos de familias disminuye pero
aumenta la capacidad de distinción entre secuencias sintéticas y naturales,
mientras que al reducir la redundancia en el corpus de entrenamiento, una
menor cantidad de redundancia en los MRs utilizados genera mejores
agrupaciones pero dificulta más la distinción entre secuencias sintéticas y
naturales,  particularmente las que responden a un reordenamiento aleatorio
de sus  aminoácidos. Gracias a transformaciones realizadas con t-SNE,
presentamos visualizaciones de los espacios resultantes para estudiar la
estructura de los clústers formados. Observamos que al aumentar el valor de
perplexity, estas transformaciones amplifican la separación de los
clústers, a costa de alterar las distancias locales entre objetos vecinos,
y sus resultados están fuertemente determinados por la calidad de las
agrupaciones presentes en el espacio original de alta dimensionalidad. Por
último, planteamos nuevos experimentos y mejoras posibles para construir un
clasificador de secuencias de proteínas que pueda ser utilizado en
aplicaciones reales.


Más información sobre la lista de distribución general_dat