[general_dat] ASAI: Inscripción a tutorial “Introducción al análisis y procesamiento de audio con Machine Learning”

Viviana Cotik vcotik at dc.uba.ar
Mon Oct 24 15:57:54 -03 2022


Buenas tardes,


Los invitamos al tutorial “Introducción al análisis y procesamiento de
audio con Machine Learning”, que será dictado de manera virtual el jueves
27 de Octubre de 2022 en el marco del Simposio Argentino de Inteligencia
Artificial (ASAI) de las 51 JAIIO (Jornadas Argentinas de Informática).

Para inscribirse (de manera gratuita), pueden hacerlo hasta el miércoles 26
de Octubre de 2022 a las 20 hs. ART a través del siguiente link
<https://docs.google.com/forms/d/e/1FAIpQLSdywWsvtIln3gC9r-bfAe_1bNNYhCRvHiVetQetDyLqQILZFg/viewform?usp=sharing>.
Quienes se inscriban, recibirán un link de acceso a Zoom antes del comienzo
del tutorial. Tengan en cuenta que el evento será transmitido en vivo y
quedará grabado. Aquellos que no se inscriban, podrán seguir el tutorial a
través del siguiente canal de Youtube: https://www.youtube.com/SADIOSala2 o
de KingConf, en caso de haberse registrado a las JAIIO.

Saludos,

Viviana Cotik


--
Profesora - Departamento de Computación, FCEyN, UBA <https://www.dc.uba.ar/>
Investigadora - ICC (CONICET, UBA) <https://icc.fcen.uba.ar/>


—

Título: Introducción al análisis y procesamiento de audio con Machine
Learning

Disertantes: Pablo Riera y Leonardo Pepino

Fecha: 27 de Octubre 9:15 a 16 hs. (1 destinada a almuerzo)

Disertantes: Pablo Riera y Leonardo Pepino


Resumen:

En el día a día, quizás sin saberlo, interactuamos con aplicaciones que en
el fondo utilizan técnicas del análisis y procesamiento de audio. Detrás de
un asistente virtual que reconoce lo que hablamos y nos responde con una
voz sintética, detrás de una comunicación por videoconferencia en la que el
ruido es filtrado para mejorar la comunicación, o de una aplicación que nos
dice qué canción es la que está sonando, subyacen conceptos fundamentales
del procesamiento de señales, como el análisis en tiempo-frecuencia.
Además, en los últimos años, los avances en el campo del Machine Learning,
principalmente en redes neuronales profundas, han abierto posibilidades
impensadas hace 10 años en el campo del procesamiento de audio.

En este tutorial, presentaremos los conceptos fundamentales del
procesamiento de señales necesarios para entender cómo analizar y procesar
sonidos. Posteriormente, haremos una introducción al deep learning, y
explicaremos cómo utilizar redes neuronales para clasificar y procesar
sonidos. Durante el tutorial, explicaremos la teoría y también mostraremos
ejemplos en Python de los temas presentados. Particularmente, mostraremos
código para clasificación de comandos de voz y reducción de ruido.
Finalmente, discutiremos sobre el estado del arte en estos temas, y hacia
dónde se dirige el campo del procesamiento de audio. Si bien el foco del
tutorial estará en señales de audio, los conceptos presentados pueden
aplicarse al procesamiento de otras señales, como series de tiempo e
imágenes.

Acerca de los disertantes:

Pablo Riera

Doctor de la UBA en Ciencias Físicas. Realizó un postdoctorado en
neurociencia computacional estudiando la percepción rítmica en el
Laboratorio de Dinámica Senso Motora de la UNQ y también un postdoctorado
en el procesamiento del habla para la detección de estados mentales en el
Laboratorio de Inteligencia Artificial Aplicada de FCEN/UBA. Sus temas de
interés abarcan la percepción del habla y la música, el modelado con redes
neuronales y la producción artística con herramientas científicas y
tecnológicas. En el ámbito de la divulgación, ha realizado diversos
talleres, charlas, apariciones en medios de comunicación y también
performances artísticas en vivo utilizando EEG, inteligencia artificial y
ecuaciones diferenciales y más herramientas en tiempo real.


Leonardo Pepino

Ingeniero de sonido graduado de la UNTREF, actualmente realiza el doctorado
en Ciencias de la Computación dentro del Laboratorio de Inteligencia
Artificial Aplicada (UBA-CONICET). Su tesis de grado consistió en el
desarrollo de un sistema de separación de fuentes musicales usando redes
neuronales convolucionales. Actualmente estudia modelos generales de audio
utilizando transformers y técnicas de auto-supervisión. En el pasado ha
trabajado en proyectos de reconocimiento de emociones a partir del habla,
detección de comandos de voz, reconocimiento de eventos acústicos, síntesis
de voz a partir de texto y clonación de voz, entre otros.



Temario:

Parte 1 (2 horas y media)

Aplicaciones del procesamiento de audio, digitalización de señales,
cuantización, profundidad de bits, ruido de cuantización, relación señal a
ruido, decibeles, frecuencia de muestreo, teorema de Nyquist, transformada
discreta de Fourier, espectrogramas, efecto de la ventana, principio de
incertidumbre, inversión de espectrogramas, criterio COLA, fase, Griffin
Lim.

Ejemplo de reducción de ruido mediante substracción espectral.

Almuerzo (1 hora)

Parte 2 (2 horas y media)

Introducción al machine learning, aprendizaje supervisado, descriptores de
audio (MFCCs, pitch), introducción a redes neuronales. Ejemplo de
clasificación de comandos de voz a partir de MFCCs. Redes convolucionales.
Ejemplo de denoising mediante redes convolucionales. Respuestas al impulso,
reverberación, aprendizaje profundo sobre audio crudo, transferencia de
aprendizaje, métodos de autosupervisión.


Más información sobre la lista de distribución general_dat