Reconocimiento de emociones faciales en v´ıdeo mediante deep–learning para interacci´on humano-robot
DOI:
https://doi.org/10.64117/simposioscea.v2i2.144Palabras clave:
Control Basado en Datos, Inteligencia Artificial y Control, Inteligencia Computacional en Control, Sistemas Biol´ogicos y M´edicos, Sistemas Hombre–M´aquinaResumen
El reconocimiento autom´atico de emociones a partir de expresiones faciales en v´ıdeo es un problema relevante en el ´ambito de la inteligencia artificial afectiva. En particular, se considera su aplicaci´on como m´odulo perceptivo para adaptar la interacci´on y el comportamiento de un robot en funci´on del estado afectivo estimado. En este trabajo se presenta el desarrollo y la evaluaci´on de dos enfoques complementarios para el an´alisis din´amico de emociones faciales. Por un lado, se emplea un modelo basado en Vision Transformers (ViT-B/32), entrenado sobre el conjunto de datos DFEW y validado de forma externa en MAFW, permitiendo una evaluaci´on cuantitativa mediante m´etricas globales y por clase. Por otro lado, se implementa un sistema h´ıbrido CNN+LSTM (EMO-AffectNet), orientado a ejecuci´on en tiempo real y evaluado de forma cualitativa. Los resultados muestran un rendimiento
s´olido del modelo ViT-B/32, con una degradaci´on moderada en validaci´on externa, y una elevada capacidad de respuesta en tiempo real del modelo CNN+LSTM, alcanzando mayores tasas de procesamiento. El estudio pone de manifiesto el compromiso entre precisi´on, generalizaci´on y operatividad en aplicaciones reales