[general_dat] Invitación a cursar "Datos Masivos para Aprendizaje Automático"

Sergio D'Arrigo sergio.darrigo at gmail.com
Tue Feb 11 14:38:44 -03 2025


Hola!, ¿cómo están?

Les invitamos a cursar la materia "*Datos Masivos para Aprendizaje
Automático*", que se dictará este primer cuatrimestre de forma presencial.



*Días y horarios*

Las clases serán los días martes de 18 a 22 hs., con excepción de tres
clases de laboratorio (con día y hora a confirmar)



*Correlatividad*

- Para Ciencias de la Computación: Bases de Datos

- Para Ciencia de Datos: Introducción a las Bases de Datos

Se pide esto porque se requieren algunos conceptos básicos brindados en
esas materias (bbdd, SQL, normalización)



*Puntaje*: 3 puntos para Licenciatura en Ciencias de la Computación, 64 hs
para Licenciatura en Ciencia de Datos



A continuación les acercamos una descripción y el programa.



Cualquier duda que les surja no duden en escribirnos!



Les esperamos

Saluti
Sergio


*Breve Descripción *

En la era del Big Data, podríamos decir que los datos nos hablan. A través
del análisis y la inteligencia artificial, podemos escucharlos y
transformarlos en conocimiento útil para la toma de decisiones.


Pero el camino no es sencillo. Los datos no vienen a golpearnos la puerta:
debemos recolectarlos, organizarlos y gestionarlos de manera eficiente para
que estén disponibles cuando los necesitemos. Ya sea que querramos
desarrollar modelos de aprendizaje automático, realizar análisis ad-hoc o
construir tableros de control, disponer de los datos adecuados en el
momento preciso es un desafío permanente.

Más aún cuando los datos provienen de múltiples fuentes implementadas sobre
diferentes plataformas tecnológicas, en distintos formatos, con volúmenes
masivos y frecuencias de actualización heterogéneas. En la industria, las
necesidades varían y no existe una única solución que las resuelva a todas.
Hay variadas estrategias para la obtención, almacenamiento, procesamiento y
acceso a los datos, desde los data warehouses clásicos hasta los más
recientes data lakes y arquitecturas híbridas modernas y soluciones cloud.

En este curso, de modalidad teórico práctica, exploraremos estas
arquitecturas y sus conceptos clave, desde su concepción hasta su
implementación, y presentaremos las nuevas tendencias emergentes.
Ejercitaremos sobre un caso de estudio y realizaremos algunos talleres en
laboratorio.


En el mundo del Big Data, no se trata sólo de almacenar información, el
plus está en convertirla en valor.


*Programa*

   - *Introducción y motivación*: Introducción. Importancia de los datos y
   rol de la analítica. Organizaciones “Data Driven”. Clasificación de los
   tipos de datos. ¿Qué entendemos por datos masivos? Desafíos para la
   inteligencia artificial y la analítica. Acceso e ingesta. Procesamiento.
   Integración. Almacenamiento. Explotación y visualización.
   - *Modelos y Diseño de Almacenamiento de Datos Masivos*: Principales
   soluciones de almacenamiento de datos masivos. Modelos multidimensionales.
   Conceptos de Data Warehouse y Data Lake y arquitecturas híbridas.
   Arquitectura, modelización, diseño. Linaje y gobierno de datos. Protección
   de datos personales. Soluciones cloud.
   - *Procesos de ingesta de datos masivos*: Implementación. Ingesta,
   almacenamiento y actualización. ETL, ELT, ETL Inverso. Ingesta en batch y
   en tiempo real. Integridad y calidad. DataOps.
   - *Explotación, visualización y análisis de datos masivos*: Exploración,
   BI, Aprendizaje Automático. Utilización de sandbox analíticos. MLOps.
   - *Nuevas tendencias para almacenamiento de datos masivos*: Variantes de
   data warehouses. Data warehouses y Big Data. Data lakehouses. Utilización
   de IA para extracción de características. Estado del arte.


Más información sobre la lista de distribución general_dat