2019년 2월 11일 월요일

[인공지능을위한머신러닝알고리즘] Lab3

   개요
강의(질문) - 복습(필기) - 자료화

출처

https://www.youtube.com/watch?v=rNn7mVF6HWo

학습목표
  • 로짓(logit) 함수를 이해할 수 있다.
  • 로지스틱 회귀의 분류 원리에 대해 이해할 수 있다.
  • 로지스틱 회귀 모델의 파라미터를 구할 수 있다.

   로짓 (logit) 함수

오즈(odds)

  • 어떠한 사건의 확률이 p일 때, 그 사건의 오즈는 다음과 같이 계산
    • odds = p/(1-p)
  • 혈중 콜레스테롤이 정상인 그룹에서 비만인 경우의 오즈
    • 비만일 확률 / (1-비만일 확률) = (402/4016) / (1-(402/4016)) = 0.1001 / 0.8889 = 0.111
  • 혈중 콜레스테롤이 정상인 그룹에서 비만이 아닌 경우의 오즈
    • 0.8999/0.1001 = 8.99
  • 혈중 콜레스테롤이 높은 그룹
    • odds(비만) = 101/345 = 0.293
    • odds(비만이 아님) = 345/101 = 3.416
  • 혈중 콜레스테롤이 정상에서 높은 수치로 갈 때, 비만인 경우의 오즈는 약 세 배 증가
    • odds 비율: 0.293/0.111 = 2.64
    • 혈중 콜레스테롤이 높을 때, 2.64 배 더 비만이 되기 쉬움(해석)
오즈는 무엇을 위한 정의인가?

로짓 변형
로짓은 오즈의 자연로그
 logit은 오즈에 자연로그를 취한 값이다. odds가 p/(1-p)이므로 logit은 다음과 같이 나타낼 수 있다.

   로지스틱 회귀 모델

로지스틱 회귀 분석이 사용되는 예

  • 종속 변수의 값을 0 또는 1로 (이진 변수로) 표현할 수 있는 경우
    • 약물 치료 후 환자의 반응 예측
      약물 치료에 대한 환자의 반응(종속 변수)을 예측하고자 할 때, 약물 치료 적용 후 환자가 살아남은 경우 1로,
      살아남지 못한 경우를 0으로 표현할 수 있음
선형 회귀 모델
  • 위의 약물 치료 후 환자의 반응 예측을 선형 회귀 모델을 사용할 경우, 규칙을 찾아내기 어렵다.

더 나은 솔루션
  • 시그모이드 함수는 점근적으로 y=0, y=1에 근사하므로 비교적 선형 회귀 모델보다 근사한 모델을 생성할 수 있다.


로지스틱 회귀 모델

  • 로지스틱 회귀 모델의 방정식
    • 종속변수 p에 logit 함수를 적용시킨 것
    • logit 함수는 odds의 자연로그
    • p의 odds는 자연상수의 베타_제로 + 베타_원*X
  • 오즈의 로그(로짓)은 설명변수 X와 선형적 관계
  • 일반적 선형 회귀 문제처럼 접근 가능
종속 변수 p 값 구하기
  • 종속변수 p에 logit 함수를 적용시킨 것이 로지스틱 회귀 모델의 방정식이고
  • logit 함수는 odds에 자연로그를 취한 것이므로
  • logit(p)는 p의 odds를 구하여 자연로그를 구하는 것이다.
  • 따라서, ln(p의 odds) = ln(p/(1-p)) 이므로 다음과 같이 p를 구할 수 있다.
  • 선형회귀 모델을 사용하여 예측값을 계산한 뒤, 시그모이드 함수에 넣어서 나온 출력이 종속변수 p이다.
  • 베타_제로+베타_원*X는 선형 회귀 모델에서 y 값을 계산하기 위해 나온 예측 모델이다. 이 선형 회귀 모델에서 계산한 값을 시그모이드 함수에 적용시켜서 나온 출력이 종속변수 p이다. 

값 해석
  • Let
    • odds1 = X의 odds (p/(1-p))
    • odds2 = X + 1의 odds
               = ((p+1)/(2-p))?? umm 아닌 것 같다. X = p/(1-p)가 아니니까
  • Then
  • X가 각 단위 값마다 증가할 때,
    예측된 odds의 비율이 e의 기울기() 제곱만큼의 증가함을 의미

logit 변환의 의미
  • 선형회귀에 더 적절한 함수를 도출하기 위함
  • 종속변수 p의 값은 시그모이드 함수 값이기 때문에 0과 1사이의 값이고, 이는 확률 값의 범위와도 같으므로 확률 값으로 분석하기도 한다.
  • odds는 0에서 무한대 사이의 값을 갖고, p가 0이면 odds 값은 0에 가깝고, 1이면 무한대에 가깝다.
  • logit은 음의 무한대와 양의 무한대 사이의 값을 갖는다.

   로지스틱 회귀 모델의 파라미터 추정

로지스틱 회귀 모델의 파라미터는 최대 우도 추정법에 의해 구할 수 있다.
최대 우도 추정법이란?

  • 동전 던지기 문제
    • 앞/뒤가 나올 확률이 공정하지 않은(biased) 동전이 있을 경우, 동전의 앞면이 나올 확률 head(p)를 계산하고자 함
    • 이 때, p는 unknown 파라미터
    • 동전을 10번 던져서 앞면이 7번 나왔다고 하자.
      이 때, p의 값으로 추정할 수 있는 값 중 가장 최선은 무엇일까?
    • 데이터에 기반하여 0.7로 예측
9:38









   소제목






댓글 없음:

댓글 쓰기