Modelo híbrido para la descripción de escenas usando aprendizaje profundo
| dc.contributor | Chávez-Bosquez, Oscar | |
| dc.contributor.id | /0000-0002-0324-9886 | |
| dc.contributor.idtwo | 0000-0003-3146-9349 | |
| dc.contributor.role | asesorTesis | |
| dc.contributor.roletwo | colaborador | |
| dc.contributor.two | Hernández-Torruco, José | |
| dc.creator | López Sánchez, Marco Antonio | |
| dc.creator.id | 0000-0003-0644-5441 | |
| dc.date.accessioned | 2026-01-26T21:19:54Z | |
| dc.date.issued | 2025-12-01 | |
| dc.description.abstract | La descripción automática de escenas es una tarea compleja que requiere la integración de técnicas de visión por computadora y procesamiento de lenguaje natural. Esta tesis doctoral propone un modelo hıbrido basado en arquitecturas encoder-decoder, combinando redes neuronales Universidad Juárez Autónoma de Tabasco. México. Convolucionales (CNN) para la extracción de características visuales y redes LSTM para la generación secuencial de descripciones en lenguaje natural. El trabajo se estructura en torno a tres contribuciones principales: (i) un estudio comparativo sobre el impacto de diferentes algoritmos de optimización (SGD, RMSprop y Adam) en el entrenamiento de CNN para la clasificación binaria de imágenes, (ii) una revisión sistemática de la literatura sobre arquitecturas encoder-decoder aplicadas a la descripción automática de imágenes, abarcando 53 artículos publicados entre 2014 y 2022, y (iii) el diseño y evaluación de un sistema de reconocimiento facial basado en aprendizaje profundo, validado en condiciones del mundo real. Los resultados muestran que el optimizador Adam supera a otros algoritmos en tareas de clasificación, que la combinación CNN+LSTM sigue siendo la arquitectura predominante en tareas de captioning, y que los modelos propuestos son robustos bajo condiciones adversas. Se discute la relevancia de métricas de evaluación como BLEU, METEOR y CIDEr, así como la necesidad de avanzar hacia evaluaciones más fundamentadas semánticamente e interpretables. Finalmente, se proponen direcciones futuras de investigación, que incluyen la exploración de modelos basados en transformers, la reducción de la dependencia de datos etiquetados y la mejora de la aplicabilidad en sistemas generativos. Esta tesis proporciona fundamentos teóricos y empíricos para el desarrollo de sistemas multimodales más eficientes, interpretables y aplicables en entornos reales. | |
| dc.division | 9 | |
| dc.format | 1 | |
| dc.identifier.uri | https://ri.ujat.mx/handle/200.500.12107/102 | |
| dc.language.iso | spa | |
| dc.publisher.university | Universidad Juárez Autónoma de Tabasco. | |
| dc.rights | info:eu-repo/semantics/openAccess | |
| dc.rights.license | http://creativecommons.org/licenses/by-nc-sa/4.0 | |
| dc.subject | Descripción automática de imágenes | |
| dc.subject | Aprendizaje profundo | |
| dc.subject | Redes neuronales convolucionales | |
| dc.subject.cti | info:eu-repo/classification/cti/7 | |
| dc.title | Modelo híbrido para la descripción de escenas usando aprendizaje profundo | |
| local.Ods | 9 |
Archivos
Bloque original
1 - 1 de 1
Cargando...
- Nombre:
- Marco Antonio López Sánchez.pdf
- Tamaño:
- 7.98 MB
- Formato:
- Adobe Portable Document Format
Bloque de licencias
1 - 1 de 1
Cargando...
- Nombre:
- license.txt
- Tamaño:
- 1.71 KB
- Formato:
- Item-specific license agreed to upon submission
- Descripción: