Estudo sobre multi-armed bandits
Resumo
Este trabalho analisa as classificações do algoritmo multi-Armed bandits (MAB) e os seus campos de aplicação, por ser um algoritmo genérico o MAB tem diversas aplicações atuais. Um algoritmo MAB refere-se à uma subclasse do aprendizado por reforço onde o algoritmo, tem um agente que segue um processo sequencial de decisão em que procura otimizar suas ações enquanto melhora seu conhecimento sobre as opções disponíveis no ambiente. Sendo estas aplicações de problema bandidos encontradas em várias áreas de pesquisa envolvendo desde sistemas de recomendações, teste clínicos, problemas de roteamento em redes cognitivas, pesquisa operacional, economia e estatística. O objetivo deste trabalho é realizar um estudo dos problemas bandidos e suas diferentes configurações, e encontrar na literatura quais passos serão abordados em trabalhos futuros.