개요
강의(질문) - 복습(필기) - 자료화
출처
https://www.youtube.com/watch?v=rNn7mVF6HWo
학습목표
출처
https://www.youtube.com/watch?v=rNn7mVF6HWo
학습목표
- 로짓(logit) 함수를 이해할 수 있다.
- 로지스틱 회귀의 분류 원리에 대해 이해할 수 있다.
- 로지스틱 회귀 모델의 파라미터를 구할 수 있다.
로짓 (logit) 함수
오즈(odds)
- 어떠한 사건의 확률이 p일 때, 그 사건의 오즈는 다음과 같이 계산
- odds = p/(1-p)
- 혈중 콜레스테롤이 정상인 그룹에서 비만인 경우의 오즈
- 비만일 확률 / (1-비만일 확률) = (402/4016) / (1-(402/4016)) = 0.1001 / 0.8889 = 0.111
- 혈중 콜레스테롤이 정상인 그룹에서 비만이 아닌 경우의 오즈
- 0.8999/0.1001 = 8.99
- 혈중 콜레스테롤이 높은 그룹
- odds(비만) = 101/345 = 0.293
- odds(비만이 아님) = 345/101 = 3.416
- 혈중 콜레스테롤이 정상에서 높은 수치로 갈 때, 비만인 경우의 오즈는 약 세 배 증가
- odds 비율: 0.293/0.111 = 2.64
- 혈중 콜레스테롤이 높을 때, 2.64 배 더 비만이 되기 쉬움(해석)
오즈는 무엇을 위한 정의인가?
로짓 변형
로짓은 오즈의 자연로그
로지스틱 회귀 모델
로지스틱 회귀 분석이 사용되는 예
- 종속 변수의 값을 0 또는 1로 (이진 변수로) 표현할 수 있는 경우
- 약물 치료 후 환자의 반응 예측
약물 치료에 대한 환자의 반응(종속 변수)을 예측하고자 할 때, 약물 치료 적용 후 환자가 살아남은 경우 1로,
살아남지 못한 경우를 0으로 표현할 수 있음
선형 회귀 모델
- 위의 약물 치료 후 환자의 반응 예측을 선형 회귀 모델을 사용할 경우, 규칙을 찾아내기 어렵다.
더 나은 솔루션
- 시그모이드 함수는 점근적으로 y=0, y=1에 근사하므로 비교적 선형 회귀 모델보다 근사한 모델을 생성할 수 있다.
로지스틱 회귀 모델
- 로지스틱 회귀 모델의 방정식
- 종속변수 p에 logit 함수를 적용시킨 것
- logit 함수는 odds의 자연로그
- p의 odds는 자연상수의 베타_제로 + 베타_원*X
- 오즈의 로그(로짓)은 설명변수 X와 선형적 관계
- 일반적 선형 회귀 문제처럼 접근 가능
종속 변수 p 값 구하기
- 종속변수 p에 logit 함수를 적용시킨 것이 로지스틱 회귀 모델의 방정식이고
- logit 함수는 odds에 자연로그를 취한 것이므로
- logit(p)는 p의 odds를 구하여 자연로그를 구하는 것이다.
- 따라서, ln(p의 odds) = ln(p/(1-p)) 이므로 다음과 같이 p를 구할 수 있다.
- 선형회귀 모델을 사용하여 예측값을 계산한 뒤, 시그모이드 함수에 넣어서 나온 출력이 종속변수 p이다.
- 베타_제로+베타_원*X는 선형 회귀 모델에서 y 값을 계산하기 위해 나온 예측 모델이다. 이 선형 회귀 모델에서 계산한 값을 시그모이드 함수에 적용시켜서 나온 출력이 종속변수 p이다.
- Let
- odds1 = X의 odds (p/(1-p))
- odds2 = X + 1의 odds
= ((p+1)/(2-p))?? umm 아닌 것 같다. X = p/(1-p)가 아니니까 - Then
logit 변환의 의미
로지스틱 회귀 모델의 파라미터 추정
로지스틱 회귀 모델의 파라미터는 최대 우도 추정법에 의해 구할 수 있다.
최대 우도 추정법이란?
최대 우도 추정법이란?
- 동전 던지기 문제
- 앞/뒤가 나올 확률이 공정하지 않은(biased) 동전이 있을 경우, 동전의 앞면이 나올 확률 head(p)를 계산하고자 함
- 이 때, p는 unknown 파라미터
- 동전을 10번 던져서 앞면이 7번 나왔다고 하자.
이 때, p의 값으로 추정할 수 있는 값 중 가장 최선은 무엇일까? - 데이터에 기반하여 0.7로 예측
9:38
소제목
댓글 없음:
댓글 쓰기