Cross Entropy
Information, 정보는 추상적인 개념이므로 정보의 양을 나타낼 때 '놀람의 정도'로 나타낸다.
Entropy, 엔트로피는 그런 정보의 평균을 말하는데, 정보의 평균이라는 것은 한 개의 사건이 있을 때, 그 사건에 대한 일어날 확률과 일어나지 않을 확률의 평균이라고 생각하면 된다.
> Entropy 계산
A사건에 대해 두가지 경우의 결과가 존재할 때, 각 결과가 일어날 확률을 a, b라고 할 때 수학적 계산은 다음과 같다.
E(-log P(x)) = a(발생확률)*-log(정보량=놀람의 정도) + b*-log(정보량=놀람의 정도)
KL-divergence, 상대적인 엔트로피를 뜻한다. 사건이 일어날 확률을 예측했을 때, 예측한 값에서 실제 발생한 확률을 뺀 값을 의미한다. (실제 확률에서 예측한 확률 값을 빼는 경우는 KL-divergence에 해당하지 않으므로 거리값으로 사용할 수 없다.)
> KL-divergence 계산
A사건에 대해 예측한 엔트로피를 Q라고 하고 실제 엔트로피를 P라고 했을 때, 수학적 계산은 다음과 같다.
KL-divergence = relative entropy = E(-log(Q(x))) - E(-log(P(x)))
Entropy, 엔트로피는 그런 정보의 평균을 말하는데, 정보의 평균이라는 것은 한 개의 사건이 있을 때, 그 사건에 대한 일어날 확률과 일어나지 않을 확률의 평균이라고 생각하면 된다.
> Entropy 계산
A사건에 대해 두가지 경우의 결과가 존재할 때, 각 결과가 일어날 확률을 a, b라고 할 때 수학적 계산은 다음과 같다.
E(-log P(x)) = a(발생확률)*-log(정보량=놀람의 정도) + b*-log(정보량=놀람의 정도)
KL-divergence, 상대적인 엔트로피를 뜻한다. 사건이 일어날 확률을 예측했을 때, 예측한 값에서 실제 발생한 확률을 뺀 값을 의미한다. (실제 확률에서 예측한 확률 값을 빼는 경우는 KL-divergence에 해당하지 않으므로 거리값으로 사용할 수 없다.)
> KL-divergence 계산
A사건에 대해 예측한 엔트로피를 Q라고 하고 실제 엔트로피를 P라고 했을 때, 수학적 계산은 다음과 같다.
KL-divergence = relative entropy = E(-log(Q(x))) - E(-log(P(x)))
※ KL-divergence 값은 항상 0이상이라는 성질은 jensen 부등식으로 증명된다고 한다.
KL은 예측한 확률이 실제와 같아질수록 0에 가까워진다.
Cross Entropy
하지만 실제 엔트로피는 구할 수 없으므로 KL-divergence를 minimize 하려면, E(-log(Q(x)))를 minimize해야 한다.
이 때, minimize해야 하는 E(-log(Q(x)))를 cross entropy라고 한다.
이 때, minimize해야 하는 E(-log(Q(x)))를 cross entropy라고 한다.
댓글 없음:
댓글 쓰기