The multi-Armed Bandit Problem이란? #2

광고/용어 2018. 2. 28. 11:41

Multi-armed 이해하기 위해 one-armed 알아봅시다가장 흔하게 예로 들어지는 one-armed 슬롯머신입니다카지노에서   있는 슬롯머신에는우측에 당길  있는  레버가 하나 달려 있습니다.  (기계식 슬롯머신은 영화나 박물관에서   있고 요즈음은 전자식으로 버튼을 누르는 슬롯머신을 쓰고있기는 합니다.)  레버를 잡아 당겼다 놓으면 게임이 시작됩니다

 실제로 카지노에서 빠른 시간 안에 많은 돈을 슬롯머신에서 잃을  있습니다만약에  슬롯머신에서 돈을   있는 기회가 50:50라고 한다면 실제로 돈을 잃을 기회도 50: 50 것입니다하지만 카지노에서 슬롯머신에 bug 넣고 사람들은 실제로 50%보다  빠른 속도로 돈을 잃게 되며  기계가 돈을 강탈해 가기 때문에   레버를 bandit(도둑강도)라고 부르는 이유가 됩니다.
 그러면 multi-armed bandit 무엇일까요Multi – armed bandit problem이라는 것은 예를 들면  사람이 5대의 슬롯머신 세트를 play해야 하는 상황을  있습니다 5대의 슬롯머신에서 최소한으로 돈을 잃고 최대한으로 돈을따야 합니다. 5대의 슬롯머신을 100, 1000 반복되는 게임을 하다 보면 어떤 기계에서 돈을  따게 되고 어떤 기계에서 돈을  잃을  경험적으로   있습니다하지만 가지고 있는 돈은 한정이 되어 있으니 한없이 게임을 반복할   없습니다.
 
 5대의 슬롯머신을 M1, M2, M3, M4, M5라고 하고   각의 기계는 default 값이 달라 돈을 잃고 따는 확률이 다르다고 가정해 봅시다하지만 게임을 하는 사람은 사전에 어떤 기계에서 돈을  많이   있는지는   없습니다따라서 게임을 하는 사람은 빠른 시간 안에 가장 돈을 많이   있는 기계를 알아내야 합니다. M1부터 M5까지 슬롯머신마다 각각의 distribution 값을 보게 되면 어떤 기계가 가장 돈을 많이   있는 기계인지   있습니다 사실만  알게 된다면 게임을 하는 사람은  기계에만 계속 배팅을 하고 가장 이득이되는 결과를 갖게  것입니다.
 하지만 어떤 기계가 좋은 결과를 보여주는지 찾는 동안에도 계속해서 돈을 써야 하고 잃어야 합니다어떤 기계에서 돈을   있는   아는 데까지 시간이 많이 걸린다면 확률이 낮은 기계에 돈을 계속 쓰게 되고  사이에 가진 돈을 모두 잃게   모릅니다.

 따라서 이렇게 슬롯머신 게임을 하면서  가지의 개념이 필요하게 됩니다
Exploration(탐험하기) exploitation(뽑아먹기)
1)      어떤 기계에서 가장 돈을 많이   있는지 빠른 시간 안에 알아야 한다(exploration)
2)      동시에 현재 알고 있는 가장 돈을 많이   있는 기계에서 최대한 빨리 돈을 계속 따야 한다(exploitation)
 
또한 여기서 regret이라는 수학적 개념이 나오게 됩니다.
한쪽은 optimal machine 돈을 계속 넣어서 돈을 따게 되었지만 다른 한쪽은non-optimal machine 돈을 계속 넣어서 많은 돈을 잃게 되었다면 best outcome non-best outcome 사이의 차이가 regret개념이 됩니다.
 Optimal machine 찾기 위해 다른 기계들을 exploration하는데 쓰이는 비용을 opportunity cost라고 하며 다른 non-optimal machine들을 explore하는 시간이 길면 길수록 높은 reget값을 가질  있습니다빠른 시간 안에 explore하면서 sub-optimal machine 찾고(exploration)   기계에서 계속 돈을 따면서( exploitation) 최소한의 시간 안에 optimal machine 찾아 내야 합니다
(짧은 시간 안에 찾은 sub-optimal distribution 정말 optimal distribution인지 검증이 필요합니다섣부른 판단으로 sub-optimal optimal이라고 판단할 수도 있습니다
 
정리를 한다면The multi-Armed Bandit model 목적은 best one 찾고(exploration)  best one에서 돈을 따고(exploitation) best one 찾는 시간을 최소화 하는 것입니다.


: