• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Mémoire de Maîtrise
DOI
https://doi.org/10.11606/D.100.2023.tde-01062023-160931
Document
Auteur
Nom complet
Eric Muszalska Claro Gomes
Adresse Mail
Unité de l'USP
Domain de Connaissance
Date de Soutenance
Editeur
São Paulo, 2023
Directeur
Jury
Silva, Valdinei Freire da (Président)
Bianchi, Reinaldo Augusto da Costa
Mauá, Denis Deratani
 
Titre en portugais
Descoberta de Options Multi-tarefas: Um estudo em StarCraft II
Mots-clés en portugais
Framework de Options
Option Discovery
Aprendizado por Imitação
Aprendizado por Reforço
Starcraft II
Resumé en portugais
Este trabalho propõe e valida uma arquitetura para resolver problemas complexos em jogos de estratégia em tempo real, como o Starcraft II, utilizando o conceito hierárquico temporal de option. A arquitetura é baseada em uma abordagem de descoberta de options (option discovery) utilizando aprendizado por imitação para abstrair meta-políticas e políticas intra-options comuns a vários agentes. A validação foi realizada tanto em minigames, quanto em cenários criados especificamente para este estudo, que visam analisar o componente temporal do problema. Os resultados mostraram que a arquitetura proposta foi capaz de obter resultados próximos aos obtidos pelo agente padrão Reaver em alguns dos minigames, além de ser capaz de aprender uma única política genérica que se aplicaria a todos os minigames. Além disso, foi possível observar o comportamento das options para cada minigame no agente genérico, o que permitiu uma melhor compreensão da arquitetura proposta. Foi possível observar que a arquitetura Multi-Level Discovery of Deep Options (MLDDO) apresentou resultados significativos para a descoberta de options utilizando aprendizado por imitação. Esse trabalho também analisou o impacto da separabilidade de estados no MLDDO, comparando resultados do aprendizado com uma implementação específica para cada diferente cenário separável pelo espaço e com o aprendizado de uma única implementação generalista que busca aprender diferentes objetivos em cenários indistinguíveis pelo estado.
 
Titre en anglais
Multi-task Option Discovery: A study in StarCraft II
Mots-clés en anglais
Imitation Learning
Option Discovery
Option Framework
Reinforcement Learning
Starcraft II
Resumé en anglais
This work proposes and validates an architecture for solving complex problems in real time strategy games, such as Starcraft II, using the hierarchical temporal concept of options. The architecture is based on an approach of option discovery using imitation learning to abstract meta-policies and intra-options policies common to various agents. The validation was performed both on minigames, and on scenarios created specifically for this study, which aim to analyze the temporal component of the problem. The results showed that the proposed architecture was able to obtain results similar to those obtained by the standard Reaver agent in some of the minigames, and was also able to learn a single generic policy that would apply to all minigames. In addition, it was possible to observe the behavior of the options for each minigame in the generic agent, which allowed for a better understanding of the proposed architecture. It was observed that the MLDDO architecture presented significant results for the discovery of options using imitation learning. This work also analyzed the impact of state separability in the Multi-Level Discovery of Deep Options (MLDDO), comparing learning results with a specific implementation for each different scenario separable by space and with learning of a single generalist implementation that seeks to learn different goals in indistinguishable scenarios by state.
 
AVERTISSEMENT - Regarde ce document est soumise à votre acceptation des conditions d'utilisation suivantes:
Ce document est uniquement à des fins privées pour la recherche et l'enseignement. Reproduction à des fins commerciales est interdite. Cette droits couvrent l'ensemble des données sur ce document ainsi que son contenu. Toute utilisation ou de copie de ce document, en totalité ou en partie, doit inclure le nom de l'auteur.
Date de Publication
2024-07-24
 
AVERTISSEMENT: Apprenez ce que sont des œvres dérivées cliquant ici.
Tous droits de la thèse/dissertation appartiennent aux auteurs.
CeTI-SC/STI
© 2001-2024. Bibliothèque Numérique de Thèses et Mémoires de l'USP.