Redes neuronales artificiales con atención auditiva selectiva para la separación y mejora de voz en ambientes complejos

Zacarias Morales, Noel

Redes neuronales artificiales con atención auditiva selectiva para la separación y mejora de voz en ambientes complejos

dc.contributor	Hernández Nolasco, José Adán
dc.contributor.id	0000-0003-4671-0350
dc.contributor.idtwo	0000-0002-5482-6372
dc.contributor.role	asesorTesis
dc.contributor.rolethree	colaborador
dc.contributor.roletwo	colaborador
dc.contributor.two	Pancardo García , Pablo
dc.creator	Zacarias Morales, Noel
dc.creator.id	0000-0001-7850-6587
dc.date.accessioned	2026-04-30T21:19:08Z
dc.date.issued	2023-04-01
dc.description.abstract	Poder comunicarse en ambientes con fuentes de sonido de distintos tipos interviniendo simultáneamente es una habilidad normal para los humanos, por ejemplo, al sostener una conversación con otras personas resulta sencillo ignorar todas las demás fuentes de sonido presentes, que no son de interés en ese momento. Desafortunadamente, para los sistemas computacionales de procesamiento de audio, realizar esta tarea requiere de la integración de algoritmos que les brinden la capacidad para separar fuentes de audio diferentes cuando se encuentren mezcladas. En esta investigación se implementaron diversos modelos de redes neuronales artificiales que pertenecen a tres categorías: perceptrón multicapa, red neuronal convolucional y red neuronal de unidad es recurrentes. A estos modelos se les incluyó un mecanismo de atención inspirado en la atención auditiva humana para separar y mejorar una señal de voz, lo que permitió atenuar diversas señales ruido presentes en un ambiente sonoro complejo. Después de analizar las características de los diversos conjuntos de datos públicos, se seleccionaron cuatro conjuntos de datos; como conjunto de datos de voz se utilizó el TIMIT, y como conjunto de datos de ruido se utilizó NoiseX-92, DEMAND, y PNL-100. Se crearon cinco horas de mezclas de audio en fragmentos de un minuto con relación señal a ruido muestreados uniformemente entre-10dB y 10 dB para que los diferentes ruidos corrompieran la señal de voz. Posteriormente, se calculó el espectro de la magnitud de la señal mediante la transformada de Fourier de tiempo corto (STFT) con un tamaño de 256 puntos de frecuencias. Finalmente, se establecieron y entrenaron las arquitecturas básicas de los modelos para hacer una comparación equitativa entre los modelos y mostrar el efecto de los parámetros en cada red específica, así como el efecto del módulo de atención en el rendimiento general Para evaluar el rendimiento de los modelos, se utilizaron tres métricas de evaluación: la evaluación perceptual de la calidad del habla (PESQ), la inteligibilidad objetiva a corto plazo (STOI) y la relación señal-distorsión invariante (SI-SDR). Las cuales son las métricas estándar más utilizadas para evaluar el rendimiento de propuestas que buscan resolver el problema de la mejora del habla. Los resultados de los experimentos reflejaron que la inclusión de un mecanismo de atención permite que las arquitecturas de los modelos de redes neuronales sean menos complejas, sin sacrificar suficiencia. En cuanto a los resultados; al evaluar con la métrica PESQ, los experimentos mostraron que los modelos convolucionales obtuvieron resultados similares; sin embargo, el modelo perceptrón multicapa obtuvo el rendimiento más bajo; aun así, los cuatro modelos mostraron mejoras al incluir el módulo de atención. Respecto a los resultados de la métrica STOI, los resultados muestran que la red neuronal convolucional de una dimensión con el módulo de atención alcanzó el mejor resultado, seguida del modelo basado en la red de unidades recurrentes cerradas con el módulo de atención, el modelo perceptrón multicapa obtuvo el rendimiento más bajo. La métrica SI-SDR también mostró resultados similares a las métricas PESQ y STOI. Respecto a la capacidad de generalización de los modelos, desde una perspectiva general, la inclusión de un módulo de atención produjo mejoras en las capacidades de generalización de los modelos de perceptrón multicapa y basados en convolución (con algunas excepciones). Sin embargo, la inclusión del módulo de atención en el modelo de red de unidades recurrentes cerradas produjo resultados contrarios a los esperados en términos de la mayoría de las métricas.
dc.division	9
dc.format	1
dc.identifier.uri	https://ri.ujat.mx/handle/200.500.12107/214
dc.language.iso	spa
dc.publisher.university	Universidad Juárez Autónoma de Tabasco.
dc.rights	info:eu-repo/semantics/openAccess
dc.rights.license	http://creativecommons.org/licenses/by-nc-sa/4.0
dc.subject	Redes neuronales artificiales con atención auditiva selectiva para la separación y mejora de voz en ambientes complejos
dc.subject.cti	info:eu-repo/classification/cti/7
dc.title	Redes neuronales artificiales con atención auditiva selectiva para la separación y mejora de voz en ambientes complejos
local.Ods	9

Archivos

Bloque original

Mostrando 1 - 1 de 1

Nombre:: Noel Zacarias Morales.pdf
Tamaño:: 12.08 MB
Formato:: Adobe Portable Document Format

Descargar

Bloque de licencias

Mostrando 1 - 1 de 1

Nombre:: license.txt
Tamaño:: 1.71 KB
Formato:: Item-specific license agreed to upon submission
Descripción:

Descargar

Colecciones

Doctorado en Ciencias de la Computación (PNPC)