광고/용어

The Multi- Armed Bandit Problem이란? #1 [출처] The Multi- Armed Bandit Problem이란?

적외선 2018. 2. 28. 11:40

 Reinforcement learning 쉬운 예를 들어본다면 robot dog에게 걷기 연습을 시키는 algorithm입니다. Robot dog에게 우측 앞발을 움직이고 다음에 좌측 뒷발을 움직이고  다음으로 좌측 앞발을 움직이게 프로그래밍을 하고 실제적으로 연속적으로 수행하도록   있습니다 다른방법으로  Reinforcement learning algorithm 이용하여 robot dog 걷도록 training시킬  있습니다기본적으로 robot dog에게 모든 가능한 action tool 들에 대해 알려줍니다이렇게도 움직일  있고 저렇게도 움직일  있다는 정보를 줍니다그리고 robot dog 목표는 앞으로 나아가는 것이라고 알려줍니다앞으로 나아가는  순간마다 reward 받고 넘어지는 순간마다 punishment 받습니다당근이나 간식을 주는 것은 아니고 algorithm에서  reward  1이고 punishment 0 입니다기본적으로 robot dog 모든 가능한 random sets action 시도하게 되고  순간 1  0  평가를 받게 됩니다. Machine 이러한good action들을 기억하게 되고 반복함으로써 실제로 개가 걷는 것처럼 앞으로 걸을  있게 됩니다.
 
Multi-Armed Bandit Problem 무엇일까요?
기본적인 가정을 두가지 해보도록 하겠습니다.
1)      우리는 세상에 대해  모른다.
2)      세상은 계속 변한다.
Machine learning에서 지도학습이란  모르는 세상에 대해 기존의 지식을 training하고 일반화를 통해 최적화된 모델을 만드는 것이지만  모든 일반화된 모델 역시  번째 가정 세상은 계속 변한다에 의해 지속적으로 업그레이드 되어야 하는 경우가 발생하게 됩니다.
이때 필요한 중요한 개념은
Exploration(탐험하기) : 최적 안을 결정하기 위해 다른 안들을 계속 평가하는 
Exploitation( 뽑아먹기)최적 안이 나왔다면 이곳으로 사용자를 몰아주고 최대의 이익이 나올  있도록 하는 .
반복적으로  검증가능한 현상을 과학이라고 부르지만 비즈니스 환경 등에서는 계속되는 변화 속에 있고 추세의 변화를 빠르게 찾아낼 필요가 있게 됩니다얼마만큼의 시간과 재화의 투자를 exploration(탐험하기) 몰아주고 얼마만큼의 시간과 재화를 exploitation(뽑아먹기) 몰아주어야 이익이 최대가  것인가를 알고 또한 시간의 흐름에 따라 얼마의 비중으로 exploration exploitation 비율을 바꾸어갈지 판단해야 하며 이는 어려운 문제가 됩니다이와 같은 딜레마의 대표적인 예가 multi-armed bandit problem입니다.