Modelo híbrido para la descripción de escenas usando aprendizaje profundo

López Sánchez, Marco Antonio

Modelo híbrido para la descripción de escenas usando aprendizaje profundo

dc.contributor	Chávez-Bosquez, Oscar
dc.contributor.id	/0000-0002-0324-9886
dc.contributor.idtwo	0000-0003-3146-9349
dc.contributor.role	asesorTesis
dc.contributor.roletwo	colaborador
dc.contributor.two	Hernández-Torruco, José
dc.creator	López Sánchez, Marco Antonio
dc.creator.id	0000-0003-0644-5441
dc.date.accessioned	2026-01-26T21:19:54Z
dc.date.issued	2025-12-01
dc.description.abstract	La descripción automática de escenas es una tarea compleja que requiere la integración de técnicas de visión por computadora y procesamiento de lenguaje natural. Esta tesis doctoral propone un modelo hıbrido basado en arquitecturas encoder-decoder, combinando redes neuronales Universidad Juárez Autónoma de Tabasco. México. Convolucionales (CNN) para la extracción de características visuales y redes LSTM para la generación secuencial de descripciones en lenguaje natural. El trabajo se estructura en torno a tres contribuciones principales: (i) un estudio comparativo sobre el impacto de diferentes algoritmos de optimización (SGD, RMSprop y Adam) en el entrenamiento de CNN para la clasificación binaria de imágenes, (ii) una revisión sistemática de la literatura sobre arquitecturas encoder-decoder aplicadas a la descripción automática de imágenes, abarcando 53 artículos publicados entre 2014 y 2022, y (iii) el diseño y evaluación de un sistema de reconocimiento facial basado en aprendizaje profundo, validado en condiciones del mundo real. Los resultados muestran que el optimizador Adam supera a otros algoritmos en tareas de clasificación, que la combinación CNN+LSTM sigue siendo la arquitectura predominante en tareas de captioning, y que los modelos propuestos son robustos bajo condiciones adversas. Se discute la relevancia de métricas de evaluación como BLEU, METEOR y CIDEr, así como la necesidad de avanzar hacia evaluaciones más fundamentadas semánticamente e interpretables. Finalmente, se proponen direcciones futuras de investigación, que incluyen la exploración de modelos basados en transformers, la reducción de la dependencia de datos etiquetados y la mejora de la aplicabilidad en sistemas generativos. Esta tesis proporciona fundamentos teóricos y empíricos para el desarrollo de sistemas multimodales más eficientes, interpretables y aplicables en entornos reales.
dc.division	9
dc.format	1
dc.identifier.uri	https://ri.ujat.mx/handle/200.500.12107/102
dc.language.iso	spa
dc.publisher.university	Universidad Juárez Autónoma de Tabasco.
dc.rights	info:eu-repo/semantics/openAccess
dc.rights.license	http://creativecommons.org/licenses/by-nc-sa/4.0
dc.subject	Descripción automática de imágenes
dc.subject	Aprendizaje profundo
dc.subject	Redes neuronales convolucionales
dc.subject.cti	info:eu-repo/classification/cti/7
dc.title	Modelo híbrido para la descripción de escenas usando aprendizaje profundo
local.Ods	9

Archivos

Bloque original

Mostrando 1 - 1 de 1

Nombre:: Marco Antonio López Sánchez.pdf
Tamaño:: 7.98 MB
Formato:: Adobe Portable Document Format

Descargar

Bloque de licencias

Mostrando 1 - 1 de 1

Nombre:: license.txt
Tamaño:: 1.71 KB
Formato:: Item-specific license agreed to upon submission
Descripción:

Descargar

Colecciones

Doctorado en Ciencias de la Computación (PNPC)