Diseño de recompensas mediante LLMs para tareas de manipulación robótica

Moisés Fernández Herrero; Santiago Puente; Ignacio  de Loyola Páez Ubieta

doi:10.64117/simposioscea.v1i1.24

Diseño de recompensas mediante LLMs para tareas de manipulación robótica

Autores/as

Moisés Fernández Herrero Universidad de Alicante – Escuela Politécnica Superior, Grado en Ingeniería Robótica
Santiago Puente AUtomatics, RObotics, and Artificial Vision Lab. University Institute for Computer Research. University of Alicante. San Vicente, Spain. https://orcid.org/0000-0002-6175-600X
Ignacio de Loyola Páez Ubieta AUtomatics, RObotics, and Artificial Vision Lab. University Institute for Computer Research. University of Alicante. San Vicente, Spain. https://orcid.org/0000-0001-9901-7264

DOI:

https://doi.org/10.64117/simposioscea.v1i1.24

Palabras clave:

Aprendizaje por Refuerzo, Robots inteligentes, Grandes Modelos de Lenguaje, Diseño de Recompensas, Cadena de Razonamiento

Resumen

El diseño manual de funciones de recompensa para el Aprendizaje por Refuerzo (RL) en robótica es complejo y propenso a errores. Este trabajo investiga la automatización de dicho proceso mediante Grandes Modelos de Lenguaje (LLMs), ampliando la metodología Eureka. Se evaluó la capacidad de diversos LLMs del mercado, más allá de GPT-4 y GPT-3.5 estudiados en el trabajo original, para generar recompensas en tres tareas de manipulación robótica con las manos Shadow y Allegro en el simulador Isaac Gym. Los resultados muestran que los LLMs, especialmente modelos recientes y aquellos con razonamiento Chain-of-Thought, pueden superar las recompensas diseñadas por expertos humanos en el 100 % de las tareas evaluadas, logrando éxito en entornos de alta complejidad como pen spinning con la Allegro Hand. Modelos como O1 y algunas variantes de Claude destacan significativamente. El estudio confirma el gran potencial de los LLMs para optimizar el diseño de recompensas en RL aplicado a la realización de tareas complejas en robótica.

Descargas

Publicado

2025-06-03

Número

Vol. 1 Núm. 1 (2025): Simposio CEA de Robótica, Bioingeniería, Visión Artificial y Automática Marina 2025

Sección

Robótica

Licencia

Los autores conservan los derechos de autor de sus trabajos y conceden a Simposios CEA el derecho de primera publicación.

Los artículos se publican bajo una licencia Creative Commons Attribution-NonCommercial 4.0 International (CC BY-NC 4.0), que permite compartir, copiar, distribuir y reutilizar el contenido para fines no comerciales, siempre que se reconozca adecuadamente la autoría y la publicación original.

Cualquier uso comercial del contenido requerirá autorización expresa de los titulares de los derechos de autor.

Diseño de recompensas mediante LLMs para tareas de manipulación robótica

Autores/as

DOI:

Palabras clave:

Resumen

Descargas

Publicado

Número

Sección

Licencia

Número actual

Información

Enviar un artículo