Diseño de recompensas mediante LLMs para tareas de manipulación robótica
DOI:
https://doi.org/10.64117/simposioscea.v1i1.24Palabras clave:
Aprendizaje por Refuerzo, Robots inteligentes, Grandes Modelos de Lenguaje, Diseño de Recompensas, Cadena de RazonamientoResumen
El diseño manual de funciones de recompensa para el Aprendizaje por Refuerzo (RL) en robótica es complejo y propenso a errores. Este trabajo investiga la automatización de dicho proceso mediante Grandes Modelos de Lenguaje (LLMs), ampliando la metodología Eureka. Se evaluó la capacidad de diversos LLMs del mercado, más allá de GPT-4 y GPT-3.5 estudiados en el trabajo original, para generar recompensas en tres tareas de manipulación robótica con las manos Shadow y Allegro en el simulador Isaac Gym. Los resultados muestran que los LLMs, especialmente modelos recientes y aquellos con razonamiento Chain-of-Thought, pueden superar las recompensas diseñadas por expertos humanos en el 100 % de las tareas evaluadas, logrando éxito en entornos de alta complejidad como pen spinning con la Allegro Hand. Modelos como O1 y algunas variantes de Claude destacan significativamente. El estudio confirma el gran potencial de los LLMs para optimizar el diseño de recompensas en RL aplicado a la realización de tareas complejas en robótica.
Descargas
Publicado
Número
Sección
Licencia
Los autores conservan los derechos de autor de sus trabajos y conceden a Simposios CEA el derecho de primera publicación.
Los artículos se publican bajo una licencia Creative Commons Attribution-NonCommercial 4.0 International (CC BY-NC 4.0), que permite compartir, copiar, distribuir y reutilizar el contenido para fines no comerciales, siempre que se reconozca adecuadamente la autoría y la publicación original.
Cualquier uso comercial del contenido requerirá autorización expresa de los titulares de los derechos de autor.