'머신러닝'에 해당되는 글 10건

  1. 2019.08.29 AdaGrad
  2. 2019.08.29 Optimization Algorithms
  3. 2019.08.29 optimizer 원리
  4. 2019.03.21 Click Through Rate Prediction
  5. 2019.03.06 부스팅 기법의 이해
  6. 2019.03.06 회귀분석 강의노트
  7. 2019.03.06 최대우도법(Maximum Likelihood)
  8. 2019.03.06 로지스틱 회귀모델의 모수 추정
  9. 2019.03.06 로지스틱 함수
  10. 2019.01.29 주요 개념 및 관련 문서

AdaGrad

머신러닝 2019. 8. 29. 13:27

Stochastic Gradient Descent (SGD)는 convex 또는 non-convex function의 optimization에 일반적으로 사용되는 알고리즘입니다.
SGD의 한가지 문제점은 learning rate에 매우 민감합니다. 특히 데이터가 sparse이며 features가 서로다른 frequencies (빈도수)를 갖고 있다면, 단 하나의 learning rate가 모든 weight update에 영향을 주는것은 문제가 될 수 있습니다.

이전의 Momentum update에서는 다음과 같은 공식을 사용했습니다.

v=γvt1+ηθJ(θ;x(i),y(i))θ=θvv=γvt−1+η∇θJ(θ;x(i),y(i))θ=θ−v

즉 모든 weights θθ에 대해서 동일한 learning rate ηη 를 사용하여 update를 하였습니다.

AgaGrad는 각각의 데이터에 dynamically adapt함으로서 궁극적으로 각각의 feature들마다 서로다른 learning rate로 연산을 합니다.

gt,i=θJ(θi)gt,i=∇θJ(θi)

이렇게 해주기 위해서는.. 실제로는 sum을 제거해야 합니다.
2Ny^y2N∑y−y^
이게 아니고 2Ny^y2Ny−y^ 
즉 weight값의 gradient값을 구하는게 아니라, 각각 weight element θiθi 들의 gradient gt,igt,i 값을 구해야 합니다.

쉽게 이야기해서, 빈도수가 낮은 데이터에는 높은 learning rate를 적용하고, 빈도수가 높은 데이터에는 낮은 learning rate를 자동으로 적용합니다. 
따라서 sparse한 데이터에 적합하며, 대표적인 예가 구글 X lab에서 16000대의 cores를 사용하여 유튜브 동영상안의 고양이를 detection하는 모델에 Adagrad를 사용한것입니다.

  • Global Learning Rate ηη 가 필요합니다.
  • weights θθ에 대한 초기화가 필요합니다.
  • small constant ϵϵ 값을 설정합니다. (numerical stability를 위해서 약 10810−8로 설정, 즉 분모에 들어가게 되는데 0이 안되도록 매우 작은 수를 넣음)
  • gradient accumulation variable GG값은 weight와 동일한 shape인 0으로 초기화합니다.

먼저 gradient를 구한뒤 sqaured gradient (gradient의 제곱)을 r에 accumulation해줍니다.

gt=θJ(θ;x(i),y(i))Gt=Gt+gtgtgt=∇θJ(θ;x(i),y(i))Gt=Gt+gt⊙gt

update를 계산합니다.

Δθt=ηϵ+GtgtΔθt=ηϵ+Gt⊙gt

update를 적용합니다.

θt+1=θtΔθtθt+1=θt−Δθt

 기호는 element wise multiplication 입니다

AdaGrad의 장점은 보통 다른 optimizers의 경우에는 learning rate를 일반적으로 0.01로 놓고 변경되지 않지만, Adagram같은 경우는 자동으로 learning rate를 계산해준다는 것입니다. 반면 약점은 denominator부분의 accumulation of the squared gradients의 값이 지속적으로 쌓여서 계속 늘어난다는 단점이 있습니다. 결국 learning rate는 점점 작아진다는 약점을 갖고있습니다. 이러한 약점은 극복한 것이 Adadelta입니다.

 

출처 - http://incredible.ai/artificial-intelligence/2017/04/09/Optimizer-Adagrad/

'머신러닝' 카테고리의 다른 글

Optimization Algorithms  (0) 2019.08.29
optimizer 원리  (0) 2019.08.29
Click Through Rate Prediction  (0) 2019.03.21
부스팅 기법의 이해  (0) 2019.03.06
회귀분석 강의노트  (0) 2019.03.06
:

Optimization Algorithms

머신러닝 2019. 8. 29. 13:25

Neural network의 weight을 조절하는 과정에는 보통 ‘Gradient Descent’ 라는 방법을 사용한다. 이는 네트워크의 parameter들을 θθ라고 했을 때, 네트워크에서 내놓는 결과값과 실제 결과값 사이의 차이를 정의하는 함수 Loss function J(θ)J(θ)의 값을 최소화하기 위해 기울기(gradient) θJ(θ)∇θJ(θ)를 이용하는 방법이다. Gradient Descent에서는 θθ 에 대해 gradient의 반대 방향으로 일정 크기만큼 이동해내는 것을 반복하여 Loss function J(θ)J(θ) 의 값을 최소화하는 θθ 의 값을 찾는다. 한 iteration에서의 변화 식은 다음과 같다.

θ=θηθJ(θ)θ=θ−η∇θJ(θ)

이 때 ηη 는 미리 정해진 걸음의 크기 ‘step size’ 로서, 보통 0.01~0.001 정도의 적당한 크기를 사용한다.

이 때 Loss Function을 계산할 때 전체 train set을 사용하는 것을 Batch Gradient Descent 라고 한다. 그러나 이렇게 계산을 할 경우 한번 step을 내딛을 때 전체 데이터에 대해 Loss Function을 계산해야 하므로 너무 많은 계산량이 필요하다. 이를 방지하기 위해 보통은 Stochastic Gradient Descent (SGD) 라는 방법을 사용한다. 이 방법에서는 loss function을 계산할 때 전체 데이터(batch) 대신 일부 조그마한 데이터의 모음(mini-batch)에 대해서만 loss function을 계산한다. 이 방법은 batch gradient descent 보다 다소 부정확할 수는 있지만, 훨씬 계산 속도가 빠르기 때문에 같은 시간에 더 많은 step을 갈 수 있으며 여러 번 반복할 경우 보통 batch의 결과와 유사한 결과로 수렴한다. 또한, SGD를 사용할 경우 Batch Gradient Descent에서 빠질 local minima에 빠지지 않고 더 좋은 방향으로 수렴할 가능성도 있다.

보통 Neural Network를 트레이닝할 때는 이 SGD를 이용한다. 그러나 단순한 SGD를 이용하여 네트워크를 학습시키는 것에는 한계가 있다. 결론부터 살펴보기 위해, 다음과 같은 그림들을 살펴보자.

Gradient Descent Optimization Algorithms at Long Valley

Gradient Descent Optimization Algorithms at Beale's Function

Gradient Descent Optimization Algorithms at Saddle Point

위의 그림들은 각각 SGD 및 SGD의 변형 알고리즘들이 최적값을 찾는 과정을 시각화한 것이다. 빨간색의 SGD가 우리가 알고 있는 Naive Stochastic Gradient Descent 알고리즘이고, Momentum, NAG, Adagrad, AdaDelta, RMSprop 등은 SGD의 변형이다. 보다시피 모든 경우에서 SGD는 다른 알고리즘들에 비해 성능이 월등하게 낮다. 다른 알고리즘들 보다 이동속도가 현저하게 느릴뿐만 아니라, 방향을 제대로 잡지 못하고 이상한 곳에서 수렴하여 이동하지 못하는 모습도 관찰할 수 있다. 즉 단순한 SGD를 이용하여 네트워크를 학습시킬 경우 네트워크가 상대적으로 좋은 결과를 얻지 못할 것이라고 예측할 수 있다. 그렇다면 실제로는 어떤 방법들을 이용해야 하는 것인가? 이 글에서는 Neural Network를 학습시킬 때 실제로 많이 사용하는 다양한 SGD의 변형 알고리즘들을 간략하게 살펴보겠다. 내용과 그림의 상당 부분은 Sebastian Ruder의 글에서 차용했다.

Momentum

Momentum 방식은 말 그대로 Gradient Descent를 통해 이동하는 과정에 일종의 ‘관성’을 주는 것이다. 현재 Gradient를 통해 이동하는 방향과는 별개로, 과거에 이동했던 방식을 기억하면서 그 방향으로 일정 정도를 추가적으로 이동하는 방식이다. 수식으로 표현하면 다음과 같다. vtvt를 time step t에서의 이동 벡터라고 할 때, 다음과 같은 식으로 이동을 표현할 수 있다.

vt=γvt1+ηθJ(θ)vt=γvt−1+η∇θJ(θ)

θ=θvtθ=θ−vt

이 때, γγ는 얼마나 momentum을 줄 것인지에 대한 momentum term으로서, 보통 0.9 정도의 값을 사용한다. 식을 살펴보면 과거에 얼마나 이동했는지에 대한 이동 항 v를 기억하고, 새로운 이동항을 구할 경우 과거에 이동했던 정도에 관성항만큼 곱해준 후 Gradient을 이용한 이동 step 항을 더해준다. 이렇게 할 경우 이동항 vtvt 는 다음과 같은 방식으로 정리할 수 있어, Gradient들의 지수평균을 이용하여 이동한다고도 해석할 수 있다.

vt=ηθJ(θ)t+γηθJ(θ)t1+γ2ηθJ(θ)t2+....vt=η∇θJ(θ)t+γη∇θJ(θ)t−1+γ2η∇θJ(θ)t−2+....

Momentum 방식은 SGD가 Oscilation 현상을 겪을 때 더욱 빛을 발한다. 다음과 같이 SGD가 Oscilation을 겪고 있는 상황을 살펴보자.

현재 SGD는 중앙의 최적점으로 이동해야하는 상황인데, 한번의 step에서 움직일 수 있는 step size는 한계가 있으므로 이러한 oscilation 현상이 일어날 때는 좌우로 계속 진동하면서 이동에 난항을 겪게 된다.

그러나 Momentum 방식을 사용할 경우 다음과 같이 자주 이동하는 방향에 관성이 걸리게 되고, 진동을 하더라도 중앙으로 가는 방향에 힘을 얻기 때문에 SGD에 비해 상대적으로 빠르게 이동할 수 있다.

Avoiding Local Minima. Picture from http://www.yaldex.com.

또한 Momentum 방식을 이용할 경우 위의 그림과 같이 local minima를 빠져나오는 효과가 있을 것이라고도 기대할 수 있다. 기존의 SGD를 이용할 경우 좌측의 local minima에 빠지면 gradient가 0이 되어 이동할 수가 없지만, momentum 방식의 경우 기존에 이동했던 방향에 관성이 있어 이 local minima를 빠져나오고 더 좋은 minima로 이동할 것을 기대할 수 있게 된다. 반면 momentum 방식을 이용할 경우 기존의 변수들 θθ 외에도 과거에 이동했던 양을 변수별로 저장해야하므로 변수에 대한 메모리가 기존의 두 배로 필요하게 된다.

Nesterov Accelerated Gradient (NAG)

Nesterov Accelerated Gradient(NAG)는 Momentum 방식을 기초로 한 방식이지만, Gradient를 계산하는 방식이 살짝 다르다. 빠른 이해를 위해 다음 그림을 먼저 살펴보자.

Difference between Momentum and NAG. Picture from CS231.

Momentum 방식에서는 이동 벡터 vtvt 를 계산할 때 현재 위치에서의 gradient와 momentum step을 독립적으로 계산하고 합친다. 반면, NAG에서는 momentum step을 먼저 고려하여, momentum step을 먼저 이동했다고 생각한 후 그 자리에서의 gradient를 구해서 gradient step을 이동한다. 이를 수식으로 나타내면 다음과 같다.

vt=γvt1+ηθJ(θγvt1)vt=γvt−1+η∇θJ(θ−γvt−1)

θ=θvtθ=θ−vt

NAG를 이용할 경우 Momentum 방식에 비해 보다 효과적으로 이동할 수 있다. Momentum 방식의 경우 멈춰야 할 시점에서도 관성에 의해 훨씬 멀리 갈수도 있다는 단점이 존재하는 반면, NAG 방식의 경우 일단 모멘텀으로 이동을 반정도 한 후 어떤 방식으로 이동해야할 지를 결정한다. 따라서 Momentum 방식의 빠른 이동에 대한 이점은 누리면서도, 멈춰야 할 적절한 시점에서 제동을 거는 데에 훨씬 용이하다고 생각할 수 있을 것이다.

Adagrad

Adagrad(Adaptive Gradient)는 변수들을 update할 때 각각의 변수마다 step size를 다르게 설정해서 이동하는 방식이다. 이 알고리즘의 기본적인 아이디어는 ‘지금까지 많이 변화하지 않은 변수들은 step size를 크게 하고, 지금까지 많이 변화했던 변수들은 step size를 작게 하자’ 라는 것이다. 자주 등장하거나 변화를 많이 한 변수들의 경우 optimum에 가까이 있을 확률이 높기 때문에 작은 크기로 이동하면서 세밀한 값을 조정하고, 적게 변화한 변수들은 optimum 값에 도달하기 위해서는 많이 이동해야할 확률이 높기 때문에 먼저 빠르게 loss 값을 줄이는 방향으로 이동하려는 방식이라고 생각할 수 있겠다. 특히 word2vec이나 GloVe 같이 word representation을 학습시킬 경우 단어의 등장 확률에 따라 variable의 사용 비율이 확연하게 차이나기 때문에 Adagrad와 같은 학습 방식을 이용하면 훨씬 더 좋은 성능을 거둘 수 있을 것이다.

Adagrad의 한 스텝을 수식화하여 나타내면 다음과 같다.

Gt=Gt1+(θJ(θt))2Gt=Gt−1+(∇θJ(θt))2

θt+1=θtηGt+ϵθJ(θt)θt+1=θt−ηGt+ϵ⋅∇θJ(θt)

Neural Network의 parameter가 k개라고 할 때, GtGt는 k차원 벡터로서 ‘time step t까지 각 변수가 이동한 gradient의 sum of squares’ 를 저장한다. θθ를 업데이트하는 상황에서는 기존 step size ηη GtGt의 루트값에 반비례한 크기로 이동을 진행하여, 지금까지 많이 변화한 변수일 수록 적게 이동하고 적게 변화한 변수일 수록 많이 이동하도록 한다. 이 때 ϵϵ 10410−4~ 10810−8 정도의 작은 값으로서 0으로 나누는 것을 방지하기 위한 작은 값이다. 여기에서 GtGt를 업데이트하는 식에서 제곱은 element-wise 제곱을 의미하며, θθ를 업데이트하는 식에서도  은 element-wise한 연산을 의미한다.

Adagrad를 사용하면 학습을 진행하면서 굳이 step size decay등을 신경써주지 않아도 된다는 장점이 있다. 보통 adagrad에서 step size로는 0.01 정도를 사용한 뒤, 그 이후로는 바꾸지 않는다. 반면, Adagrad에는 학습을 계속 진행하면 step size가 너무 줄어든다는 문제점이 있다. GG에는 계속 제곱한 값을 넣어주기 때문에 GG의 값들은 계속해서 증가하기 때문에, 학습이 오래 진행될 경우 step size가 너무 작아져서 결국 거의 움직이지 않게 된다. 이를 보완하여 고친 알고리즘이 RMSProp과 AdaDelta이다.

RMSProp

RMSProp은 딥러닝의 대가 제프리 힌톤이 제안한 방법으로서, Adagrad의 단점을 해결하기 위한 방법이다. Adagrad의 식에서 gradient의 제곱값을 더해나가면서 구한 GtGt 부분을 합이 아니라 지수평균으로 바꾸어서 대체한 방법이다. 이렇게 대체를 할 경우 Adagrad처럼 GtGt가 무한정 커지지는 않으면서 최근 변화량의 변수간 상대적인 크기 차이는 유지할 수 있다. 식으로 나타내면 다음과 같다.

G=γG+(1γ)(θJ(θt))2G=γG+(1−γ)(∇θJ(θt))2

θ=θηG+ϵθJ(θt)θ=θ−ηG+ϵ⋅∇θJ(θt)

AdaDelta

AdaDelta (Adaptive Delta) 는 RMSProp과 유사하게 AdaGrad의 단점을 보완하기 위해 제안된 방법이다. AdaDelta는 RMSProp과 동일하게 GG를 구할 때 합을 구하는 대신 지수평균을 구한다. 다만, 여기에서는 step size를 단순하게 ηη 로 사용하는 대신 step size의 변화값의 제곱을 가지고 지수평균 값을 사용한다.

G=γG+(1γ)(θJ(θt))2G=γG+(1−γ)(∇θJ(θt))2

Δθ=s+ϵG+ϵθJ(θt)Δθ=s+ϵG+ϵ⋅∇θJ(θt)

θ=θΔθθ=θ−Δθ

s=γs+(1γ)Δ2θs=γs+(1−γ)Δθ2

얼핏 보면 왜 이러한 식이 도출되었는지 이해가 안될 수 있지만, 이는 사실 Gradient Descent와 같은 first-order optimization 대신 Second-order optimization을 approximate 하기 위한 방법이다. 실제로 논문의 저자는 SGD, Momentum, Adagrad와 같은 식들의 경우 ΔθΔθ의 unit(단위)을 구해보면 θθ의 unit이 아니라 θθ의 unit의 역수를 따른다는 것을 지적한다. θθ의 unit을 u(θ)u(θ)라고 하고 J는 unit이 없다고 생각할 경우, first-order optimization에서는

ΔθJθ1u(θ)Δθ∝∂J∂θ∝1u(θ)

이다. 반면, Newton method와 같은 second-order optimization을 생각해보면

ΔθJθ2Jθ2u(θ)Δθ∝∂J∂θ∂2J∂θ2∝u(θ)

이므로 바른 unit을 가지게 된다. 따라서 저자는 Newton’s method를 이용하여 ΔθΔθ Jθ2Jθ2∂J∂θ∂2J∂θ2 라고 생각한 후, 12Jθ2=ΔθJθ1∂2J∂θ2=Δθ∂J∂θ 이므로 이를 분자의 Root Mean Square, 분모의 Root Mean Square 값의 비율로 근사한 것이다. 더욱 자세한 설명을 원하시는 분은 논문을 직접 읽어보시길 바란다.

Adam

Adam (Adaptive Moment Estimation)은 RMSProp과 Momentum 방식을 합친 것 같은 알고리즘이다. 이 방식에서는 Momentum 방식과 유사하게 지금까지 계산해온 기울기의 지수평균을 저장하며, RMSProp과 유사하게 기울기의 제곱값의 지수평균을 저장한다.

mt=β1mt1+(1β1)θJ(θ)mt=β1mt−1+(1−β1)∇θJ(θ)

vt=β2vt1+(1β2)(θJ(θ))2vt=β2vt−1+(1−β2)(∇θJ(θ))2

다만, Adam에서는 m과 v가 처음에 0으로 초기화되어 있기 때문에 학습의 초반부에서는 mt,vtmt,vt가 0에 가깝게 bias 되어있을 것이라고 판단하여 이를 unbiased 하게 만들어주는 작업을 거친다. mtmt  vtvt의 식을  형태로 펼친 후 양변에 expectation을 씌워서 정리해보면, 다음과 같은 보정을 통해 unbiased 된 expectation을 얻을 수 있다. 이 보정된 expectation들을 가지고 gradient가 들어갈 자리에 mt^mt^, GtGt가 들어갈 자리에 vt^vt^를 넣어 계산을 진행한다.

mt^=mt1βt1mt^=mt1−β1t

vt^=vt1βt2vt^=vt1−β2t

θ=θηvt^+ϵmt^θ=θ−ηvt^+ϵmt^

보통 β1β1 로는 0.9, β2β2로는 0.999, ϵϵ 으로는 10810−8 정도의 값을 사용한다고 한다.

 

출처 - http://shuuki4.github.io/deep%20learning/2016/05/20/Gradient-Descent-Algorithm-Overview.html

'머신러닝' 카테고리의 다른 글

AdaGrad  (0) 2019.08.29
optimizer 원리  (0) 2019.08.29
Click Through Rate Prediction  (0) 2019.03.21
부스팅 기법의 이해  (0) 2019.03.06
회귀분석 강의노트  (0) 2019.03.06
:

optimizer 원리

머신러닝 2019. 8. 29. 13:22

Gradient Descent

뉴럴 네트워크의 loss function의 현 weight의 기울기(gradient)를 구하고 loss를 줄이는 방향으로 업데이트(조정)해 나가는 방법을 통해서 뉴럴 네트워크를 학습하였습니다.

loss(cost) function이라는게 나왔군요. 뉴럴 네트워크에서 loss function은 무엇일까요? 간단히 설명하면 지금 현재의 가중치에서 "틀린정도"를 알려주는 함수이죠.

 

 

즉, 현재 네트워크의 weight에서 내가 가진 데이터를 다 넣어주면 전체 에러가 계산 되겠죠? 거기서 미분을 하면 에러를 줄이는 방향을 알 수 있습니다. 바로 위의 그림과 같이 말이죠. 그 방향으로 정해진 스텝량(learning rate)을 곱해서 weight을 이동시킵니다. 이걸 계속 반복해서 학습을 하는 것이죠.
수식을 간단히 살펴보면, 아래와 같습니다. 풀어서 보면 어려운 감이 있지만 하나하나 보면 그래도 조금은 이해할 수 있을거 같군요.

 

 

그러나 기존의 Gradient Descent 방식에는 크나큰 단점이 있었습니다. 위에서 적은 내용을 보시게 되면 한가지 큰 문제점을 발견할 수 있습니다.

 

내가 가진 데이터를 다 넣어주면 전체 에러가 계산 되겠죠?

바로 이 부분입니다. 최적값을 찾아 나가기 위해서 한칸 전진할 때마다 모든 데이터 셋을 넣어주어야 한다는 것이죠. 그래서 학습이 굉장히 오래 걸리는 문제가 발생하게 되는 것이죠. 언제 다 학습시킬 것인가라는 문제가 발생한 것이죠. 그러면 Gradient Descent 말고 더 빠른 Optimizer는 없는지 연구자들이 고민을 하게 되죠 그래서 나온 것이 Stochastic Gradient Descent 입니다.

Stochastic Gradient Descent

Stochastic Gradient Descent(이하 SGD)의 아이디어는 간단합니다. 바로 조금만 훑어보고(Mini batch) 빠르게 가봅시다라는 것이죠. GD와 SGD의 차이를 간단히 그림으로 비교해보면 아래의 그림과 같습니다.

 

 

최적값을 찾아가는 과정을 비교하는 그림을 살펴보면 조금더 쉽게 이해하실 수 있을 것입니다.

 

 

GD의 경우 항상 전체 데이터 셋을 가지고 한발자국 전진할 때마다(learning rate) 최적의 값을 찾아 나아가고 있는 모습을 볼수 있습니다. 그러나 SGD는 Mini-batch 사이즈 만큼 조금씩 돌려서 최적의 값으로 가고 있습니다. 그러나 최적값을 찾아 나아가는 과정을 봤을 때는 약간 뒤죽 박죽의 형태로 찾아가지만 속도는 GD 보다 훨씬 빠릅니다.
간단한 예제로 비교해보면 다음과 같습니다.

 

  • GD
    • 모든 데이터를 계산한다 => 소요시간 1시간
    • 최적의 한스텝을 나아간다.
    • 6 스텝 * 1시간 = 6시간
    • 확실한데 너무 느리다.
  • SGD
    • 일부 데이터만 계산한다 => 소요시간 5분
    • 빠르게 전진한다.
    • 10 스텝 * 5분 => 50분
    • 조금 헤메지만 그래도 빠르게 간다!

이렇게 해서 GD로 너무 오래 걸리는 학습 방법을 SGD를 통해 개선을 하였습니다.

그러나 SGD에도 문제점이 존재합니다. 미니 배치를 통해 학습을 시키는 경우 최적의 값을 찾아 가기 위한 방향 설정이 뒤죽 박죽입니다.

 

 

또 다른 문제점은 스텝의 사이즈입니다. 이것을 다른 말로 정의하면 learning rate입니다. 한걸음 나아가기 위한 보폭이 낮으면 학습하는데 오래 걸리고, 너무 크면 최적의 값을 찾지 못하는 문제가 있겠습니다.

 

 

그래서 최근의 연구에서는 이러한 SGD의 문제점을 인지하고 각각의 문제점들을 개선하는 더 좋은 Optimizer들이 많이 있습니다. 새로운 Optimizer 들에 대해 알아보도록 하겠습니다.

Optimizer 계보

 


위의 자료는 references에 나와있는 하용호님의 슬라이드에 있는 내용입니다. Optimizer에 대해서 굉장히 손쉽고 이해하기 쉽게 정리를 해주셨습니다.
그림과 같이 SGD의 방향의 문제점을 집중적으로 개선한 알고리즘들부터 스텝 사이즈를 얼마나 하는게 좋을 것인가에 대한 알고리즘 2개로 나누어져 있으면 마지막엔 이러한 2가지 방법을 같이 사용한 알고리즘들이 나왔습니다.
그럼 한번 각 알고리즘의 성능에 관하여 그림으로 살펴보면 아래와 같습니다.

 

 

또 다른 그림으로 살펴볼까요?

 

 

최근에 가장 많이 사용되는 Optimizer는 Adam을 많이 사용합니다. 대부분의 프레임워크에서도 지원을 하고 있고요.

이를 통해 기존의 SGD가 가지고 있는 문제점인 GD보다는 빠르지만 길을 헤메는 문제점을 개선시킨 버전들을 만들어서 더 빠르고 정확하게 최적을 값을 찾을 수 있는 알고리즘이 많이 나왔습니다.

결론

이번 포스트에서는 학습이 오래 걸리는 문제점의 원인에 대해 알아보았고 학습을 빠르게 하기 위해서 어떠한 방법으로 Optimizer가 개선되었는지에 대해 알아보았습니다. 오늘의 결론을 간략히 요약해 보면 다음과 같습니다.

 

  • Gradient Descent
    • 최적을 값을 찾아가는 것은 정확하지만 너무 느리다.
  • Stochastic Gradient Descent를 통해서 빠르게 찾을 수 있도록 발전
    • 그러나 최적의 값을 찾아가는 방향이 뒤죽 박죽이고, 한 스텝 나아가기 위한 사이즈를 정하기 어렵다.위한 사이즈를 정하기 어렵다.
  • 방향과 스텝 사이즈를 고려하는 새로운 Optimizer들이 많이 나왔다.
    • 방향성
      • Momentum
      • NAG
    • 스텝 사이즈
      • Adagrad
      • RMSPop
      • AdaDelta
    • 방향성 + 스텝사이즈
      • Adam
      • Nadam



출처: https://seamless.tistory.com/38 [Mino's blog]

'머신러닝' 카테고리의 다른 글

AdaGrad  (0) 2019.08.29
Optimization Algorithms  (0) 2019.08.29
Click Through Rate Prediction  (0) 2019.03.21
부스팅 기법의 이해  (0) 2019.03.06
회귀분석 강의노트  (0) 2019.03.06
:

Click Through Rate Prediction

머신러닝 2019. 3. 21. 15:29
  • Kaggle
    • Avazu - Predict whether a mobile ad will be clicked
      • Data
      • Beat the benchmark with less than 1MB of memory
    • CriteoLabs - Display Advertising Challenge
      • Data
      • md5sum 확인용
      • Beat the benchmark with less than 200MB of memory

Kaggle

  • Avazu - Predict whether a mobile ad will be clicked

https://www.kaggle.com/c/avazu-ctr-prediction

Data

https://www.kaggle.com/c/avazu-ctr-prediction/data 에서 제공하는 test.gz, train.gz 파일을 내려받는다.

train.gz 파일의 크기는 1.12GB 이다.

Data Field
id: ad identifier
click: 0/1 for non-click/click
hour: format is YYMMDDHH, so 14091123 means 23:00 on Sept. 11, 2014 UTC.
C1 -- anonymized categorical variable
banner_pos
site_id
site_domain
site_category
app_id
app_domain
app_category
device_id
device_ip
device_model
device_type
device_conn_type
C14-C21 -- anonymized categorical variables

4 Idiots' Solution & LIBFFM

https://www.kaggle.com/c/avazu-ctr-prediction/discussion/12608

Beat the benchmark with less than 1MB of memory

https://www.kaggle.com/c/avazu-ctr-prediction/discussion/10927


논문, 구현체

https://www.csie.ntu.edu.tw/~cjlin/libffm/


https://github.com/guestwalk/kaggle-avazu


  • CriteoLabs - Display Advertising Challenge

https://www.kaggle.com/c/criteo-display-ad-challenge

Data

kaggle 의 data 페이지에서 제공하는 data download link 는 깨어져 있다. CriteoLab 홈페이지에서 다운로드 받을 수 있는 링크는 다음과 같다.

위의 링크에서 제공하는 dac.tar.gz 파일은 약 4GB 의 크기이다. 인터넷을 통해 내려받는데 속도가 느려 시간이 10시간 이상 걸릴 수 있다.

https://jkkim.me/kaggle/dac.tar.gz - 내려받아 놓은 파일

md5sum 확인용
$ md5 *.gz
MD5 (dac.tar.gz) = df9b1b3766d9ff91d5ca3eb3d23bed27
MD5 (sampleSubmission.gz) = 39c3ff7b677a8de71412f7cb00c4e5f2
MD5 (test.gz) = 47e20bc113bd2009b46dd125bb987c76
MD5 (train.gz) = f65aa86a4d3e3219c17225bd301b64f6
$


Beat the benchmark with less than 200MB of memory

https://www.kaggle.com/c/criteo-display-ad-challenge/discussion/10322


https://github.com/guestwalk/kaggle-2014-criteo


https://www.csie.ntu.edu.tw/~r01922136/kaggle-2014-criteo.pdf

https://medium.com/@chris_bour/what-i-learned-from-the-kaggle-criteo-data-science-odyssey-b7d1ba980e6

'머신러닝' 카테고리의 다른 글

Optimization Algorithms  (0) 2019.08.29
optimizer 원리  (0) 2019.08.29
부스팅 기법의 이해  (0) 2019.03.06
회귀분석 강의노트  (0) 2019.03.06
최대우도법(Maximum Likelihood)  (0) 2019.03.06
:

부스팅 기법의 이해

머신러닝 2019. 3. 6. 15:18

boosting기법이해.zip

boosting기법이해.z01


'머신러닝' 카테고리의 다른 글

optimizer 원리  (0) 2019.08.29
Click Through Rate Prediction  (0) 2019.03.21
회귀분석 강의노트  (0) 2019.03.06
최대우도법(Maximum Likelihood)  (0) 2019.03.06
로지스틱 회귀모델의 모수 추정  (0) 2019.03.06
:

회귀분석 강의노트

머신러닝 2019. 3. 6. 14:57

권세혁 교수 - 회귀분석 강의노트

한남대학교 통계학과 권세혁 교수

http://wolfpack.hnu.ac.kr/lecture/Regression/

1장 서론

2장 단순회귀, 추정 및 검정

3장 잔차분석

4장 다중회귀

5장 지시변수 모형

6장 다중공선성

7장 변수선택

8장 영향치, 이상치 진단

9장 로지스틱 회귀

10장 계량경제


ch1_introduction.pdf

ch2_simple.pdf

ch3_residual.pdf

ch4_multiple.pdf

ch5_indicator.pdf

ch6_multicollinearity.pdf

ch7_selection.pdf

ch8_influence.pdf

ch9_logistic.pdf

ch10_econometric.pdf

'머신러닝' 카테고리의 다른 글

Click Through Rate Prediction  (0) 2019.03.21
부스팅 기법의 이해  (0) 2019.03.06
최대우도법(Maximum Likelihood)  (0) 2019.03.06
로지스틱 회귀모델의 모수 추정  (0) 2019.03.06
로지스틱 함수  (0) 2019.03.06
:

최대우도법(Maximum Likelihood)

머신러닝 2019. 3. 6. 14:56

정의

어떤 확률변수에서 표집한 값들을 토대로 그 확률변수의 모수를 구하는 방법.

즉, 어떤 모수가 주어졌을 때, 원하는 값들이 나올 가능도를 최대로 만드는 모수를 선택하는 방법.

방법

어떤 모수  θ 로 결정되는 확률변수들의 모임  Dθ=(X1,X2,,Xn) 이 있고,  Dθ 의 확률밀도함수나 확률질량함수가  f 이고, 그 확률변수들에서 각각 값  x1,x2,,xn 을 얻었을 경우의 가능도  L(θ) 는 다음과 같다.

L(θ)=fθ(x1,x2,,xn)

여기서 가능도를 최대로 만드는  θ 는 다음과 같다.

θ^=argmaxθL(θ)

이 때  X1,X2,,Xn 이 모두 독립적이고 같은 확률분포를 가지고 있다면  L 은 다음과 같이 표현이 가능하다.

L(θ)=i=1nfθ(xi)

또한, 로그함수는 단조 증가하므로,  L 에 로그를 씌운 값의 최대값은 원래 값  θ^ 와 같고, 이 경우 계산이 비교적 간단해진다.

L(θ) =log(L(θ)) = i=1nlogfθ(xi)

L(θ)=i=1nfθ(xi)

=fθ(x1)fθ(x2)fθ(x3)

log(L(θ)) =log(i=1nfθ(xi))

=logfθ(x1)+logfθ(x2)+logfθ(x3)+

예시 (모비율 추정)

대한민국의 모든 인구 중 한명을 표본으로 추출하는데 추출된 사람이 남자인지 여자인지를 알려고 한다고 하면, 이 때 표본 랜덤변수가 갖는 확률분포는 베르누이 분포를 따를 것이다. 베르누이 분포는 다음과 같다.

1회 시행 시 두 가지 결과에 의해 그 값이 각각 0 또는 1로 결정되는 확률변수 X 에 대해서

f(x)=px(1p)(1x)

그러면 총  n 명에 대해 추출했을 때의 우도(likelihood)는 다음과 같이 정해진다.

L(X1=x1, X2=x2, , Xn=xn | p)=i=1npxi(1p)1xi (a)

즉, 위 식은 다음과 같이 설명할 수 있다. 가령 10명의 사람을 추출했는데 1번부터 10번 사람까지의 성별이 각각 {남, 여, 남, 남, 여, 여, 남, 남, 여, 남} 이라고 해보자.

남자라면  Xi=0 이라고 하고 여자라면 Xi=1 이라고 결정한다고 했을 때, 현 상태에서  xi(i=1,2,,10) 은

{0, 1, 0, 0, 1, 1, 0, 0, 1, 0} 이라고 할 수 있다. 그러면 식 (a) 는 다음과 같을 것이다.

L(X1=0, X2=1, , X10=0 | p)=i=110pxi(1p)1xi

하지만 여전히  p (표본이 여성일 확률)를 알 수 없기 때문에 확률  f 를 최대화 할 수 있는 모수  p 를 찾도록 최대우도법을 시행한다.

식  (a) 에서 함수  f 를  p 에 대해 편미분 하려면 쉽지 않다. 여기서 로그 함수의 단조증가 성질을 활용하여  L=log(L) 라는 보조 방정식을 도입하도록 한다. 그러면  L 은 다음과 같다.


L=log(L) = i=1nlog(pxi(1p)(1xi))=i=1n{xilog(p)+(1xi)log(1p)}


L 의  p 에 대한 편미분이 0이 되는  p 를 찾으면 최대우도를 만족하는 모수  p 를 추정할 수 있다.

L=i=1nxipi=1n(1xi)1p

=nX¯pn(1X¯)p=0

=nX¯p=n(1X¯)p

=(1p)X¯=(1X¯)p

=X¯pX¯=pX¯p

=p=X¯

따라서,  p=X¯ 로 모수  p 를 추정하는 것이 적절하다는 것을 알 수 있다.

생각해보면 자연스러운 것이 모비율 추정 시 현재 모여있는 사람의 성비를 가지고 모비율을 추정할 수 밖에 없고, 아마 그런 모비율이 있었기 때문에 현재 상태가 만들어 진 것은 아닐까? 라고 추정하는 것은 자연스럽다.

'머신러닝' 카테고리의 다른 글

부스팅 기법의 이해  (0) 2019.03.06
회귀분석 강의노트  (0) 2019.03.06
로지스틱 회귀모델의 모수 추정  (0) 2019.03.06
로지스틱 함수  (0) 2019.03.06
주요 개념 및 관련 문서  (0) 2019.01.29
:

로지스틱 회귀모델의 모수 추정

머신러닝 2019. 3. 6. 14:56

Sigmoid 함수 (logistic function)

sigmoid(x)=11+ex


Sigmoid 함수 미분

ddxsigmoid(x)=ddx(1+ex)1

=(1)1(1+ex)2ddx(1+ex)

=(1)1(1+ex)2(0+ex)ddx(x)

=(1)1(1+ex)2ex(1)

=(1)1(1+ex)2ex(1)

=(1)1(1+ex)2ex(1)

=(1+ex)(1+ex)21(1+ex)2

=11+ex1(1+ex)2

=11+ex(111+ex)

=sigmoid(x)(1sigmoid(x))

=σ(x)=σ(x)(1σ(x))


Cost 함수

Cost(hθ(x),y)=ylog(hθ(x))(1y)log(1hθ(x))


전체 Cost 함수

j(θ)=1mi=1m[y(i)log(hθ(x(i)))+(1y(i))log(1hθ(x(i)))]


Cost 함수 미분

θjj(θ)=θj1mi=1m[y(i)log(hθ(x(i)))+(1y(i))log(1hθ(x(i)))]

=1mi=1m[y(i)θjlog(hθ(x(i)))+(1y(i))θjlog(1hθ(x(i)))]

=1mi=1m[y(i)θjhθ(x(i))hθ(x(i))+(1y(i))θj(1hθ(x(i)))1hθ(x(i))]

=1mi=1m[y(i)θjσ(θTx(i))hθ(x(i))+(1y(i))θj(1σ(θTx(i)))1hθ(x(i))]

=1mi=1m[y(i)σ(θTx(i))(1σ(θTx(i)))θjθTx(i)hθ(x(i))+(1y(i))σ(θTx(i))(1σ(θTx(i)))θjθTx(i)1hθ(x(i))]

=1mi=1m[y(i)hθ(x(i))(1hθ(x(i)))θjθTx(i)hθ(x(i))+(1y(i))hθ(x(i))(1hθ(x(i)))θjθTx(i)1hθ(x(i))]

=1mi=1m[y(i)hθ(x(i))(1hθ(x(i)))xj(i)+(1y(i))hθ(x(i))xj(i)]

=1mi=1m[y(i)hθ(x(i))(1hθ(x(i)))+(1y(i))hθ(x(i))]xj(i)

=1mi=1m[y(i)y(i)hθ(x(i))hθ(x(i))+y(i)hθ(x(i))]xj(i)

=1mi=1m[y(i)hθ(x(i))]xj(i)

=1mi=1m[hθ(x(i))y(i)]xj(i)



Gradient Desent

Repeat{θj :=θjαθjJ(θ)}

'머신러닝' 카테고리의 다른 글

부스팅 기법의 이해  (0) 2019.03.06
회귀분석 강의노트  (0) 2019.03.06
최대우도법(Maximum Likelihood)  (0) 2019.03.06
로지스틱 함수  (0) 2019.03.06
주요 개념 및 관련 문서  (0) 2019.01.29
:

로지스틱 함수

머신러닝 2019. 3. 6. 14:55

로지스틱 함수

y=11+ez


선형 회귀 분석의 경우 모델을 위해 만들어 지는 함수는 아래와 같다.

y=Wx+b

y=W1x1+W2x2+...+Wixi+b

y=WX

이 1차 함수는 독립변수  x 가 변화할때 종속변수  y 의 변화를 관찰하는 것이 목적인 함수라고 할때 독립변수  x 와 종속변수  y 는 모두 음의 무한대  에서 양의 무한대  의 범위를 갖는다.

혈압과 나이에 대한 상관 관계를 확인/예측하기 위해 선형 회귀 분석을 사용 할 수 있고 이때 나이와 혈압은 연속형 변수로 1차 함수 그래프로 표현하기에 문제가 없다.

그러나 암의 경우와 같이 발병 여부가 데이터로 주어졌을 경우 종속변수  y 는 발병=1, 정상=0 과 같은 범주형 변수의 범위를 갖게 된다.

발병여부를 선형식으로 표현하기 위해 하루에 담배를 5개피 피는 사람을 기준으로 1의 값을 얻기 위해 기울기  W 를 편의상 1로 놓고  b 는 -4로 초기 설정했을 경우  y=154=1 의 결과를 얻을 수 있다.

하지만 담배의 갯수가 10개비로 늘어날 경우  y=1104=6 으로 발병=1, 정상=0 의 범위를 넘어가게 된다.

즉, 독립변수 x 는   에서   의 범위를 갖는데 반해 종속변수  y 는 1과 0 의 범주를 가지고 있어 기존 선형식으로는 표현이 불가능하다.


종속변수 범위의 확장

종속변수  y 의 범위를    에서   로 확장하기 위해 odds 비  odd ratio=p1p 와 로지트 함수(Logit function) z=logit(odds ratio)=log(p1p) 을 이용한다.

odds ratio

실패 확률에 대한 성공 확률의 비율이다. 성공 확률을  p 라고 한다면 실패 확률은  1p 가 된다.

이렇게 보았을때 odds 비는  p1p 와 같이 표현할 수 있다.

p 는 0에서 1사이의 값을 가지므로 위 식을 계산해 보면  p 가 가장 작은 0일 경우  010=0 값을 갖게 되고  p 가 가장 큰 1이 되는 경우  111=10= 값을 갖게 된다.

다시 말하면 승산(Odds)이란 사건 A가 발행하지 않을 확률 대비 일어날 확률의 비율을 뜻하며  odds = P(A)P(Ac)=P(A)1P(A) 와 같이 쓸 수 있다.

승산(Odds)이 커질수록 사건  A 가 발행할 활률이 커진다고 볼 수 있다.

이렇게 odds 비를 적용해  p 에 대해 0부터   의 범위를 갖는 새로운 함수를 만들 수 있다.

logit function

odds 비를 통해 0부터   로 확장 시킨 범위를   에서   로 확장하기 위해 odds에 자연로그를 취한다.

logit(odds ratio)=ln(p1p)

로지스틱 회귀 모델식 유도

  1. 종속 변수  Y 를 1이 될 확률로 두고 식을 세운다.
    P(Y=1|X=x)=β0+β1x1+β2x2++βnxn=βTx
  2. 좌변을 승산(odds)로 설정 한다.
    P(Y=1 | X=x)1P(Y=1| X=x)=βTx
  3. 좌변(승산)에 자연로그를 취한다.
    ln(P(Y=1 | X=x)1P(Y=1| X=x))=βTx
  4. x 가 주어졌을 경우 범우 1일 확률을  p(x) , 위 식의 우변을  a 로 치환해 확률  p 에 대한 식을 도출한다.
    p(x)1p(x)=ea 
    p(x) = ea{1p(x)} = eaeap(x) 
    p(x)(1 +ea) = ea 
    p(x) = ea1+ea=ea1+ea1ea1ea=11ea+1=11+ea 
    P(Y=1 | X=x) = 11+e(βTx)

이항 로지스틱 회귀의 결정 경계

이항로지스틱 모델에 범주 정보를 모르는 입력벡터  x 를 넣으면 범주 1에 속할 확률을 반환해 준다.

범주 1로 분류할 수 있는 확률값은 다음과 같이 표현 할 수 있다.

P(Y=1 | X=x) >P(Y=0 | X=x)

범주가 두개이므로 위 식의 좌변을  p(x) 로 치환하면 다음과 같이 식을 정리 할 수 있다.

p(x) > 1p(x)

p(x)1p(x)>1

βTx>0


마찬가지로  βTx<0  이면 해당 데이터의 범주를 0 으로 분류할 수 있다. 따라서 로지스틱 모델의 결정경계 (decision boundry) 는  βTx=0  인 하이퍼플레인 (hyperplane) 이다.

입력벡터가 2차원인 경우 다음과 같이 시각화 할 수 있다.


'머신러닝' 카테고리의 다른 글

부스팅 기법의 이해  (0) 2019.03.06
회귀분석 강의노트  (0) 2019.03.06
최대우도법(Maximum Likelihood)  (0) 2019.03.06
로지스틱 회귀모델의 모수 추정  (0) 2019.03.06
주요 개념 및 관련 문서  (0) 2019.01.29
:

주요 개념 및 관련 문서

머신러닝 2019. 1. 29. 14:01

섀넌 엔트로피, 크로스 엔트로피, KL Divergence

Logit function

Decision Tree + ID3알고리즘

베르누이 확률 분포

최대가능도 추정법 (Maximum Likelihood Estimator, MLE)

SGD

Boosting 기법의 기해

Mean Squared Error, Bias, and Variance

Posterior Probability

SVM(Support Vector Machine)


FFM 선행 논문 

- https://www.analyticsvidhya.com/blog/2018/01/factorization-machines/

- http://ailab.criteo.com/ctr-prediction-linear-model-field-aware-factorization-machines/


Word2Vec

 - https://ratsgo.github.io/natural%20language%20processing/2017/03/08/word2vec/

  * one hot encoding 을 TF-IDF 로 대체해 응용 가능

Doc2Vec

- https://yujuwon.tistory.com/entry/Doc2Vec

- http://www.engear.net/wp/tag/doc2vec/

paragraph_vector.pdf


머신러닝 전반적인 내용 (part1~8)


회귀분석 강의 노트 (한남대학교 통계학과 권세혁 교수)

http://wolfpack.hnu.ac.kr/lecture/Regression/


ALS(MF) 알고리즘

- https://www.slideshare.net/madvirus/als-ws?from_action=save

 * als-141117230305-conversion-gate01.pdf


기계학습관련 동강

- https://seslab.kaist.ac.kr/xe2/page_GBex27




'머신러닝' 카테고리의 다른 글

부스팅 기법의 이해  (0) 2019.03.06
회귀분석 강의노트  (0) 2019.03.06
최대우도법(Maximum Likelihood)  (0) 2019.03.06
로지스틱 회귀모델의 모수 추정  (0) 2019.03.06
로지스틱 함수  (0) 2019.03.06
: