Redes neuronales artificiales con atención auditiva selectiva para la separación y mejora de voz en ambientes complejos

dc.contributorHernández Nolasco, José Adán
dc.contributor.id0000-0003-4671-0350
dc.contributor.idtwo0000-0002-5482-6372
dc.contributor.roleasesorTesis
dc.contributor.rolethreecolaborador
dc.contributor.roletwocolaborador
dc.contributor.twoPancardo García , Pablo
dc.creatorZacarias Morales, Noel
dc.creator.id0000-0001-7850-6587
dc.date.accessioned2026-04-30T21:19:08Z
dc.date.issued2023-04-01
dc.description.abstractPoder comunicarse en ambientes con fuentes de sonido de distintos tipos interviniendo simultáneamente es una habilidad normal para los humanos, por ejemplo, al sostener una conversación con otras personas resulta sencillo ignorar todas las demás fuentes de sonido presentes, que no son de interés en ese momento. Desafortunadamente, para los sistemas computacionales de procesamiento de audio, realizar esta tarea requiere de la integración de algoritmos que les brinden la capacidad para separar fuentes de audio diferentes cuando se encuentren mezcladas. En esta investigación se implementaron diversos modelos de redes neuronales artificiales que pertenecen a tres categorías: perceptrón multicapa, red neuronal convolucional y red neuronal de unidad es recurrentes. A estos modelos se les incluyó un mecanismo de atención inspirado en la atención auditiva humana para separar y mejorar una señal de voz, lo que permitió atenuar diversas señales ruido presentes en un ambiente sonoro complejo. Después de analizar las características de los diversos conjuntos de datos públicos, se seleccionaron cuatro conjuntos de datos; como conjunto de datos de voz se utilizó el TIMIT, y como conjunto de datos de ruido se utilizó NoiseX-92, DEMAND, y PNL-100. Se crearon cinco horas de mezclas de audio en fragmentos de un minuto con relación señal a ruido muestreados uniformemente entre-10dB y 10 dB para que los diferentes ruidos corrompieran la señal de voz. Posteriormente, se calculó el espectro de la magnitud de la señal mediante la transformada de Fourier de tiempo corto (STFT) con un tamaño de 256 puntos de frecuencias. Finalmente, se establecieron y entrenaron las arquitecturas básicas de los modelos para hacer una comparación equitativa entre los modelos y mostrar el efecto de los parámetros en cada red específica, así como el efecto del módulo de atención en el rendimiento general Para evaluar el rendimiento de los modelos, se utilizaron tres métricas de evaluación: la evaluación perceptual de la calidad del habla (PESQ), la inteligibilidad objetiva a corto plazo (STOI) y la relación señal-distorsión invariante (SI-SDR). Las cuales son las métricas estándar más utilizadas para evaluar el rendimiento de propuestas que buscan resolver el problema de la mejora del habla. Los resultados de los experimentos reflejaron que la inclusión de un mecanismo de atención permite que las arquitecturas de los modelos de redes neuronales sean menos complejas, sin sacrificar suficiencia. En cuanto a los resultados; al evaluar con la métrica PESQ, los experimentos mostraron que los modelos convolucionales obtuvieron resultados similares; sin embargo, el modelo perceptrón multicapa obtuvo el rendimiento más bajo; aun así, los cuatro modelos mostraron mejoras al incluir el módulo de atención. Respecto a los resultados de la métrica STOI, los resultados muestran que la red neuronal convolucional de una dimensión con el módulo de atención alcanzó el mejor resultado, seguida del modelo basado en la red de unidades recurrentes cerradas con el módulo de atención, el modelo perceptrón multicapa obtuvo el rendimiento más bajo. La métrica SI-SDR también mostró resultados similares a las métricas PESQ y STOI. Respecto a la capacidad de generalización de los modelos, desde una perspectiva general, la inclusión de un módulo de atención produjo mejoras en las capacidades de generalización de los modelos de perceptrón multicapa y basados en convolución (con algunas excepciones). Sin embargo, la inclusión del módulo de atención en el modelo de red de unidades recurrentes cerradas produjo resultados contrarios a los esperados en términos de la mayoría de las métricas.
dc.division9
dc.format1
dc.identifier.urihttps://ri.ujat.mx/handle/200.500.12107/214
dc.language.isospa
dc.publisher.universityUniversidad Juárez Autónoma de Tabasco.
dc.rightsinfo:eu-repo/semantics/openAccess
dc.rights.licensehttp://creativecommons.org/licenses/by-nc-sa/4.0
dc.subjectRedes neuronales artificiales con atención auditiva selectiva para la separación y mejora de voz en ambientes complejos
dc.subject.ctiinfo:eu-repo/classification/cti/7
dc.titleRedes neuronales artificiales con atención auditiva selectiva para la separación y mejora de voz en ambientes complejos
local.Ods9

Archivos

Bloque original

Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
Noel Zacarias Morales.pdf
Tamaño:
12.08 MB
Formato:
Adobe Portable Document Format

Bloque de licencias

Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
license.txt
Tamaño:
1.71 KB
Formato:
Item-specific license agreed to upon submission
Descripción: