Modelo híbrido para la descripción de escenas usando aprendizaje profundo

dc.contributorChávez-Bosquez, Oscar
dc.contributor.id/0000-0002-0324-9886
dc.contributor.idtwo0000-0003-3146-9349
dc.contributor.roleasesorTesis
dc.contributor.roletwocolaborador
dc.contributor.twoHernández-Torruco, José
dc.creatorLópez Sánchez, Marco Antonio
dc.creator.id0000-0003-0644-5441
dc.date.accessioned2026-01-26T21:19:54Z
dc.date.issued2025-12-01
dc.description.abstractLa descripción automática de escenas es una tarea compleja que requiere la integración de técnicas de visión por computadora y procesamiento de lenguaje natural. Esta tesis doctoral propone un modelo hıbrido basado en arquitecturas encoder-decoder, combinando redes neuronales Universidad Juárez Autónoma de Tabasco. México. Convolucionales (CNN) para la extracción de características visuales y redes LSTM para la generación secuencial de descripciones en lenguaje natural. El trabajo se estructura en torno a tres contribuciones principales: (i) un estudio comparativo sobre el impacto de diferentes algoritmos de optimización (SGD, RMSprop y Adam) en el entrenamiento de CNN para la clasificación binaria de imágenes, (ii) una revisión sistemática de la literatura sobre arquitecturas encoder-decoder aplicadas a la descripción automática de imágenes, abarcando 53 artículos publicados entre 2014 y 2022, y (iii) el diseño y evaluación de un sistema de reconocimiento facial basado en aprendizaje profundo, validado en condiciones del mundo real. Los resultados muestran que el optimizador Adam supera a otros algoritmos en tareas de clasificación, que la combinación CNN+LSTM sigue siendo la arquitectura predominante en tareas de captioning, y que los modelos propuestos son robustos bajo condiciones adversas. Se discute la relevancia de métricas de evaluación como BLEU, METEOR y CIDEr, así como la necesidad de avanzar hacia evaluaciones más fundamentadas semánticamente e interpretables. Finalmente, se proponen direcciones futuras de investigación, que incluyen la exploración de modelos basados en transformers, la reducción de la dependencia de datos etiquetados y la mejora de la aplicabilidad en sistemas generativos. Esta tesis proporciona fundamentos teóricos y empíricos para el desarrollo de sistemas multimodales más eficientes, interpretables y aplicables en entornos reales.
dc.division9
dc.format1
dc.identifier.urihttps://ri.ujat.mx/handle/200.500.12107/102
dc.language.isospa
dc.publisher.universityUniversidad Juárez Autónoma de Tabasco.
dc.rightsinfo:eu-repo/semantics/openAccess
dc.rights.licensehttp://creativecommons.org/licenses/by-nc-sa/4.0
dc.subjectDescripción automática de imágenes
dc.subjectAprendizaje profundo
dc.subjectRedes neuronales convolucionales
dc.subject.ctiinfo:eu-repo/classification/cti/7
dc.titleModelo híbrido para la descripción de escenas usando aprendizaje profundo
local.Ods9

Archivos

Bloque original

Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
Marco Antonio López Sánchez.pdf
Tamaño:
7.98 MB
Formato:
Adobe Portable Document Format

Bloque de licencias

Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
license.txt
Tamaño:
1.71 KB
Formato:
Item-specific license agreed to upon submission
Descripción: