Redes neuronales artificiales con atención auditiva selectiva para la separación y mejora de voz en ambientes complejos

Cargando...
Miniatura

Título de la revista

ISSN de la revista

Título del volumen

Editor

Resumen

Poder comunicarse en ambientes con fuentes de sonido de distintos tipos interviniendo simultáneamente es una habilidad normal para los humanos, por ejemplo, al sostener una conversación con otras personas resulta sencillo ignorar todas las demás fuentes de sonido presentes, que no son de interés en ese momento. Desafortunadamente, para los sistemas computacionales de procesamiento de audio, realizar esta tarea requiere de la integración de algoritmos que les brinden la capacidad para separar fuentes de audio diferentes cuando se encuentren mezcladas. En esta investigación se implementaron diversos modelos de redes neuronales artificiales que pertenecen a tres categorías: perceptrón multicapa, red neuronal convolucional y red neuronal de unidad es recurrentes. A estos modelos se les incluyó un mecanismo de atención inspirado en la atención auditiva humana para separar y mejorar una señal de voz, lo que permitió atenuar diversas señales ruido presentes en un ambiente sonoro complejo. Después de analizar las características de los diversos conjuntos de datos públicos, se seleccionaron cuatro conjuntos de datos; como conjunto de datos de voz se utilizó el TIMIT, y como conjunto de datos de ruido se utilizó NoiseX-92, DEMAND, y PNL-100. Se crearon cinco horas de mezclas de audio en fragmentos de un minuto con relación señal a ruido muestreados uniformemente entre-10dB y 10 dB para que los diferentes ruidos corrompieran la señal de voz. Posteriormente, se calculó el espectro de la magnitud de la señal mediante la transformada de Fourier de tiempo corto (STFT) con un tamaño de 256 puntos de frecuencias. Finalmente, se establecieron y entrenaron las arquitecturas básicas de los modelos para hacer una comparación equitativa entre los modelos y mostrar el efecto de los parámetros en cada red específica, así como el efecto del módulo de atención en el rendimiento general Para evaluar el rendimiento de los modelos, se utilizaron tres métricas de evaluación: la evaluación perceptual de la calidad del habla (PESQ), la inteligibilidad objetiva a corto plazo (STOI) y la relación señal-distorsión invariante (SI-SDR). Las cuales son las métricas estándar más utilizadas para evaluar el rendimiento de propuestas que buscan resolver el problema de la mejora del habla. Los resultados de los experimentos reflejaron que la inclusión de un mecanismo de atención permite que las arquitecturas de los modelos de redes neuronales sean menos complejas, sin sacrificar suficiencia. En cuanto a los resultados; al evaluar con la métrica PESQ, los experimentos mostraron que los modelos convolucionales obtuvieron resultados similares; sin embargo, el modelo perceptrón multicapa obtuvo el rendimiento más bajo; aun así, los cuatro modelos mostraron mejoras al incluir el módulo de atención. Respecto a los resultados de la métrica STOI, los resultados muestran que la red neuronal convolucional de una dimensión con el módulo de atención alcanzó el mejor resultado, seguida del modelo basado en la red de unidades recurrentes cerradas con el módulo de atención, el modelo perceptrón multicapa obtuvo el rendimiento más bajo. La métrica SI-SDR también mostró resultados similares a las métricas PESQ y STOI. Respecto a la capacidad de generalización de los modelos, desde una perspectiva general, la inclusión de un módulo de atención produjo mejoras en las capacidades de generalización de los modelos de perceptrón multicapa y basados en convolución (con algunas excepciones). Sin embargo, la inclusión del módulo de atención en el modelo de red de unidades recurrentes cerradas produjo resultados contrarios a los esperados en términos de la mayoría de las métricas.

Descripción

Citación

Aprobación

Revisión

Complementado por

Referenciado por