부스팅 기법의 이해
머신러닝 2019. 3. 6. 15:18'머신러닝' 카테고리의 다른 글
optimizer 원리 (0) | 2019.08.29 |
---|---|
Click Through Rate Prediction (0) | 2019.03.21 |
회귀분석 강의노트 (0) | 2019.03.06 |
최대우도법(Maximum Likelihood) (0) | 2019.03.06 |
로지스틱 회귀모델의 모수 추정 (0) | 2019.03.06 |
'2019/03/06'에 해당되는 글 5건부스팅 기법의 이해머신러닝 2019. 3. 6. 15:18'머신러닝' 카테고리의 다른 글
회귀분석 강의노트머신러닝 2019. 3. 6. 14:57권세혁 교수 - 회귀분석 강의노트한남대학교 통계학과 권세혁 교수 http://wolfpack.hnu.ac.kr/lecture/Regression/ 1장 서론 2장 단순회귀, 추정 및 검정 3장 잔차분석 4장 다중회귀 5장 지시변수 모형 6장 다중공선성 7장 변수선택 8장 영향치, 이상치 진단 9장 로지스틱 회귀 10장 계량경제 '머신러닝' 카테고리의 다른 글
최대우도법(Maximum Likelihood)머신러닝 2019. 3. 6. 14:56정의어떤 확률변수에서 표집한 값들을 토대로 그 확률변수의 모수를 구하는 방법. 즉, 어떤 모수가 주어졌을 때, 원하는 값들이 나올 가능도를 최대로 만드는 모수를 선택하는 방법. 방법어떤 모수 로 결정되는 확률변수들의 모임 이 있고, 의 확률밀도함수나 확률질량함수가 이고, 그 확률변수들에서 각각 값 을 얻었을 경우의 가능도 는 다음과 같다. 여기서 가능도를 최대로 만드는 는 다음과 같다. 이 때 이 모두 독립적이고 같은 확률분포를 가지고 있다면 은 다음과 같이 표현이 가능하다. 또한, 로그함수는 단조 증가하므로, 에 로그를 씌운 값의 최대값은 원래 값 와 같고, 이 경우 계산이 비교적 간단해진다. 예시 (모비율 추정)대한민국의 모든 인구 중 한명을 표본으로 추출하는데 추출된 사람이 남자인지 여자인지를 알려고 한다고 하면, 이 때 표본 랜덤변수가 갖는 확률분포는 베르누이 분포를 따를 것이다. 베르누이 분포는 다음과 같다. 1회 시행 시 두 가지 결과에 의해 그 값이 각각 0 또는 1로 결정되는 확률변수 에 대해서 그러면 총 명에 대해 추출했을 때의 우도(likelihood)는 다음과 같이 정해진다. 즉, 위 식은 다음과 같이 설명할 수 있다. 가령 10명의 사람을 추출했는데 1번부터 10번 사람까지의 성별이 각각 {남, 여, 남, 남, 여, 여, 남, 남, 여, 남} 이라고 해보자. 남자라면 이라고 하고 여자라면 이라고 결정한다고 했을 때, 현 상태에서 은 {0, 1, 0, 0, 1, 1, 0, 0, 1, 0} 이라고 할 수 있다. 그러면 식 는 다음과 같을 것이다. 하지만 여전히 (표본이 여성일 확률)를 알 수 없기 때문에 확률 를 최대화 할 수 있는 모수 를 찾도록 최대우도법을 시행한다. 식 에서 함수 를 에 대해 편미분 하려면 쉽지 않다. 여기서 로그 함수의 단조증가 성질을 활용하여 라는 보조 방정식을 도입하도록 한다. 그러면 은 다음과 같다. 의 에 대한 편미분이 0이 되는 를 찾으면 최대우도를 만족하는 모수 를 추정할 수 있다. 따라서, 로 모수 를 추정하는 것이 적절하다는 것을 알 수 있다. 생각해보면 자연스러운 것이 모비율 추정 시 현재 모여있는 사람의 성비를 가지고 모비율을 추정할 수 밖에 없고, 아마 그런 모비율이 있었기 때문에 현재 상태가 만들어 진 것은 아닐까? 라고 추정하는 것은 자연스럽다. '머신러닝' 카테고리의 다른 글
로지스틱 회귀모델의 모수 추정머신러닝 2019. 3. 6. 14:56Sigmoid 함수 (logistic function)Sigmoid 함수 미분Cost 함수전체 Cost 함수Cost 함수 미분Gradient Desent↓ '머신러닝' 카테고리의 다른 글
로지스틱 함수머신러닝 2019. 3. 6. 14:55로지스틱 함수선형 회귀 분석의 경우 모델을 위해 만들어 지는 함수는 아래와 같다. 이 1차 함수는 독립변수 가 변화할때 종속변수 의 변화를 관찰하는 것이 목적인 함수라고 할때 독립변수 와 종속변수 는 모두 음의 무한대 에서 양의 무한대 의 범위를 갖는다. 혈압과 나이에 대한 상관 관계를 확인/예측하기 위해 선형 회귀 분석을 사용 할 수 있고 이때 나이와 혈압은 연속형 변수로 1차 함수 그래프로 표현하기에 문제가 없다. 그러나 암의 경우와 같이 발병 여부가 데이터로 주어졌을 경우 종속변수 는 발병=1, 정상=0 과 같은 범주형 변수의 범위를 갖게 된다. 발병여부를 선형식으로 표현하기 위해 하루에 담배를 5개피 피는 사람을 기준으로 1의 값을 얻기 위해 기울기 를 편의상 1로 놓고 는 -4로 초기 설정했을 경우 의 결과를 얻을 수 있다. 하지만 담배의 갯수가 10개비로 늘어날 경우 으로 발병=1, 정상=0 의 범위를 넘어가게 된다. 즉, 독립변수 는 에서 의 범위를 갖는데 반해 종속변수 는 1과 0 의 범주를 가지고 있어 기존 선형식으로는 표현이 불가능하다. 종속변수 범위의 확장종속변수 의 범위를 에서 로 확장하기 위해 odds 비 와 로지트 함수(Logit function) 을 이용한다. odds ratio실패 확률에 대한 성공 확률의 비율이다. 성공 확률을 라고 한다면 실패 확률은 가 된다. 이렇게 보았을때 odds 비는 와 같이 표현할 수 있다. 는 0에서 1사이의 값을 가지므로 위 식을 계산해 보면 가 가장 작은 0일 경우 값을 갖게 되고 가 가장 큰 1이 되는 경우 값을 갖게 된다. 다시 말하면 승산(Odds)이란 사건 A가 발행하지 않을 확률 대비 일어날 확률의 비율을 뜻하며 와 같이 쓸 수 있다. 승산(Odds)이 커질수록 사건 가 발행할 활률이 커진다고 볼 수 있다. 이렇게 odds 비를 적용해 에 대해 0부터 의 범위를 갖는 새로운 함수를 만들 수 있다. logit functionodds 비를 통해 0부터 로 확장 시킨 범위를 에서 로 확장하기 위해 odds에 자연로그를 취한다. 로지스틱 회귀 모델식 유도
이항 로지스틱 회귀의 결정 경계이항로지스틱 모델에 범주 정보를 모르는 입력벡터 를 넣으면 범주 1에 속할 확률을 반환해 준다. 범주 1로 분류할 수 있는 확률값은 다음과 같이 표현 할 수 있다. 범주가 두개이므로 위 식의 좌변을 로 치환하면 다음과 같이 식을 정리 할 수 있다. 마찬가지로 이면 해당 데이터의 범주를 0 으로 분류할 수 있다. 따라서 로지스틱 모델의 결정경계 (decision boundry) 는 인 하이퍼플레인 (hyperplane) 이다. 입력벡터가 2차원인 경우 다음과 같이 시각화 할 수 있다. '머신러닝' 카테고리의 다른 글
|