Proglam: [인공지능을위한머신러닝알고리즘] Lab3

2019년 2월 11일 월요일

[인공지능을위한머신러닝알고리즘] Lab3

개요

강의(질문) - 복습(필기) - 자료화

출처
https://www.youtube.com/watch?v=rNn7mVF6HWo

학습목표

로짓(logit) 함수를 이해할 수 있다.
로지스틱 회귀의 분류 원리에 대해 이해할 수 있다.
로지스틱 회귀 모델의 파라미터를 구할 수 있다.

로짓 (logit) 함수

오즈(odds)

어떠한 사건의 확률이 p일 때, 그 사건의 오즈는 다음과 같이 계산

odds = p/(1-p)

혈중 콜레스테롤이 정상인 그룹에서 비만인 경우의 오즈

비만일 확률 / (1-비만일 확률) = (402/4016) / (1-(402/4016)) = 0.1001 / 0.8889 = 0.111

혈중 콜레스테롤이 정상인 그룹에서 비만이 아닌 경우의 오즈

0.8999/0.1001 = 8.99

혈중 콜레스테롤이 높은 그룹

odds(비만) = 101/345 = 0.293
odds(비만이 아님) = 345/101 = 3.416

혈중 콜레스테롤이 정상에서 높은 수치로 갈 때, 비만인 경우의 오즈는 약 세 배 증가

odds 비율: 0.293/0.111 = 2.64
혈중 콜레스테롤이 높을 때, 2.64 배 더 비만이 되기 쉬움(해석)

오즈는 무엇을 위한 정의인가?

로짓 변형

로짓은 오즈의 자연로그

logit은 오즈에 자연로그를 취한 값이다. odds가 p/(1-p)이므로 logit은 다음과 같이 나타낼 수 있다.

로지스틱 회귀 모델

로지스틱 회귀 분석이 사용되는 예

종속 변수의 값을 0 또는 1로 (이진 변수로) 표현할 수 있는 경우

약물 치료 후 환자의 반응 예측
약물 치료에 대한 환자의 반응(종속 변수)을 예측하고자 할 때, 약물 치료 적용 후 환자가 살아남은 경우 1로,
살아남지 못한 경우를 0으로 표현할 수 있음

선형 회귀 모델

위의 약물 치료 후 환자의 반응 예측을 선형 회귀 모델을 사용할 경우, 규칙을 찾아내기 어렵다.

더 나은 솔루션

시그모이드 함수는 점근적으로 y=0, y=1에 근사하므로 비교적 선형 회귀 모델보다 근사한 모델을 생성할 수 있다.

로지스틱 회귀 모델

로지스틱 회귀 모델의 방정식

종속변수 p에 logit 함수를 적용시킨 것
logit 함수는 odds의 자연로그
p의 odds는 자연상수의 베타_제로 + 베타_원*X

오즈의 로그(로짓)은 설명변수 X와 선형적 관계
일반적 선형 회귀 문제처럼 접근 가능

종속 변수 p 값 구하기

종속변수 p에 logit 함수를 적용시킨 것이 로지스틱 회귀 모델의 방정식이고
logit 함수는 odds에 자연로그를 취한 것이므로
logit(p)는 p의 odds를 구하여 자연로그를 구하는 것이다.
따라서, ln(p의 odds) = ln(p/(1-p)) 이므로 다음과 같이 p를 구할 수 있다.

선형회귀 모델을 사용하여 예측값을 계산한 뒤, 시그모이드 함수에 넣어서 나온 출력이 종속변수 p이다.
베타_제로+베타_원*X는 선형 회귀 모델에서 y 값을 계산하기 위해 나온 예측 모델이다. 이 선형 회귀 모델에서 계산한 값을 시그모이드 함수에 적용시켜서 나온 출력이 종속변수 p이다.

값 해석

Let

odds1 = X의 odds (p/(1-p))
odds2 = X + 1의 odds
= ((p+1)/(2-p))?? umm 아닌 것 같다. X = p/(1-p)가 아니니까

Then

X가 각 단위 값마다 증가할 때,
예측된 odds의 비율이 e의 기울기() 제곱만큼의 증가함을 의미

logit 변환의 의미

선형회귀에 더 적절한 함수를 도출하기 위함

종속변수 p의 값은 시그모이드 함수 값이기 때문에 0과 1사이의 값이고, 이는 확률 값의 범위와도 같으므로 확률 값으로 분석하기도 한다.
odds는 0에서 무한대 사이의 값을 갖고, p가 0이면 odds 값은 0에 가깝고, 1이면 무한대에 가깝다.
logit은 음의 무한대와 양의 무한대 사이의 값을 갖는다.

로지스틱 회귀 모델의 파라미터 추정

로지스틱 회귀 모델의 파라미터는 최대 우도 추정법에 의해 구할 수 있다.
최대 우도 추정법이란?

동전 던지기 문제

앞/뒤가 나올 확률이 공정하지 않은(biased) 동전이 있을 경우, 동전의 앞면이 나올 확률 head(p)를 계산하고자 함
이 때, p는 unknown 파라미터
동전을 10번 던져서 앞면이 7번 나왔다고 하자.
이 때, p의 값으로 추정할 수 있는 값 중 가장 최선은 무엇일까?
데이터에 기반하여 0.7로 예측

9:38

소제목

댓글 없음:

댓글 쓰기

피드 구독하기: 댓글 (Atom)