Modelo híbrido para la descripción de escenas usando aprendizaje profundo

López Sánchez, Marco Antonio

Modelo híbrido para la descripción de escenas usando aprendizaje profundo

Archivos

Principal Marco Antonio López Sánchez.pdf (7.98 MB)

Fecha

2025-12-01

Autores

López Sánchez, Marco Antonio

Resumen

La descripción automática de escenas es una tarea compleja que requiere la integración de técnicas de visión por computadora y procesamiento de lenguaje natural. Esta tesis doctoral propone un modelo hıbrido basado en arquitecturas encoder-decoder, combinando redes neuronales Universidad Juárez Autónoma de Tabasco. México. Convolucionales (CNN) para la extracción de características visuales y redes LSTM para la generación secuencial de descripciones en lenguaje natural. El trabajo se estructura en torno a tres contribuciones principales: (i) un estudio comparativo sobre el impacto de diferentes algoritmos de optimización (SGD, RMSprop y Adam) en el entrenamiento de CNN para la clasificación binaria de imágenes, (ii) una revisión sistemática de la literatura sobre arquitecturas encoder-decoder aplicadas a la descripción automática de imágenes, abarcando 53 artículos publicados entre 2014 y 2022, y (iii) el diseño y evaluación de un sistema de reconocimiento facial basado en aprendizaje profundo, validado en condiciones del mundo real. Los resultados muestran que el optimizador Adam supera a otros algoritmos en tareas de clasificación, que la combinación CNN+LSTM sigue siendo la arquitectura predominante en tareas de captioning, y que los modelos propuestos son robustos bajo condiciones adversas. Se discute la relevancia de métricas de evaluación como BLEU, METEOR y CIDEr, así como la necesidad de avanzar hacia evaluaciones más fundamentadas semánticamente e interpretables. Finalmente, se proponen direcciones futuras de investigación, que incluyen la exploración de modelos basados en transformers, la reducción de la dependencia de datos etiquetados y la mejora de la aplicabilidad en sistemas generativos. Esta tesis proporciona fundamentos teóricos y empíricos para el desarrollo de sistemas multimodales más eficientes, interpretables y aplicables en entornos reales.

Palabras clave

Descripción automática de imágenes, Aprendizaje profundo, Redes neuronales convolucionales

URI

https://ri.ujat.mx/handle/200.500.12107/102

Colecciones

Doctorado en Ciencias de la Computación (PNPC)

Página completa del ítem

Modelo híbrido para la descripción de escenas usando aprendizaje profundo

Archivos

Fecha

Autores

Título de la revista

ISSN de la revista

Título del volumen

Editor

Resumen

Descripción

Palabras clave

Citación

URI

Colecciones

Aprobación

Revisión

Complementado por

Referenciado por