개요
개인적인 정리이므로, 생략/추가하여 정리한다.
"기계학습은 데이터의 의미를 만드는 것이다."
기계학습의 알고리즘
분류, 회귀, 군집, 밀도 추정을 수행하기 위한 일반적인 알고리즘 |
이 책에서는 기계학습을 데이터의 의미를 만드는 것이라고 정의하였다. 이 말은 기계학습은 데이터를 가공하는 것이라는 의미이다. 그렇다면 지도학습과 비지도학습도 데이터를 가공하는 방법을 크게 두 가지로 나누는 것이다.
지도 학습 방법의 분류, 회귀, k-최근접 이웃 등도 마찬가지로 (데이터에 label을 붙이는) 지도 학습으로 데이터를 정리하고, 어떤 모양으로 데이터를 만들 것이냐의 문제인 것이다.
올바른 알고리즘 선정 방법
위에서 설명한 알고리즘들은 모두 같은 문제를 해결하기 위한 다양한 방법이라고 할 수 있다. 그렇다면 우리는 한 가지 의문을 가질 수 있다. "만약, 같은 것을 하고자 하는 것이라면, 왜 다른 방법이 네 개나 있어야 하는 걸까? 왜 단 하나의 방법만 선택할 수는 없는 것인가?"
해결하고 싶은 문제에 가장 알맞은 해결방법을 모르고, 가장 알맞은 해결방법을 선택하고 싶기 때문이라고 답할 수 있다. 그렇다면 알고리즘 중에서 하나를 사용할 때, 어떻게 선택해야 할까?
(아래에 나열될 질문들에 대해 간결하게 답하기 위해 YES/NO 로 답한다.)
해결하고 싶은 문제에 가장 알맞은 해결방법을 모르고, 가장 알맞은 해결방법을 선택하고 싶기 때문이라고 답할 수 있다. 그렇다면 알고리즘 중에서 하나를 사용할 때, 어떻게 선택해야 할까?
(아래에 나열될 질문들에 대해 간결하게 답하기 위해 YES/NO 로 답한다.)
- 목적을 고려해야 한다.
- 목적 값을 예측하거나 예견하려고 하는가? 지도학습방법 / 비지도학습방법
- 지도학습방법이라면, 목적 값은 무엇인가? 이산적인가? 분류 /
- 지도학습방법이라면, 목적 값은 무엇인가? 수치적인가? 회귀 /
- 비지도학습방법이라면, 어떤 이산적인 집합에 속하는지 알아보려고 하는가? 군집화 /
- 비지도학습방법이라면, 각각의 집합에 속하는 정도를 수치적으로 평가할 것인가? 밀도 추정 알고리즘 /
- 보유하고 있는 데이터를 고려해야만 한다.
- 속성이 명목형인가? 연속형인가?
- 속성 내에 누락된 값이 있는가?
- 누락된 값이 있다면 데이터가 누락된 상황은 왜 존재하는가?
- 데이터 내에 오류 데이터가 있는가?
- 매우 드물게 발생하는 어떤 것이 존재하는가?
기계학습의 공통적인 단계
기계 학습 알고리즘이 구축될 때 모든 알고리즘이 꼭 해야만 하는 공통적인 단계들이 있다.
- 데이터 수집
- 입력 데이터 준비가지고 있는 데이터를 유용한 형식으로 만들어야 한다. 이 단계에서는 알고리즘마다 다른 특유의 형식을 만들어야 한다.
어떤 알고리즘은 특별한 형식의 속성을 요구하기도 하고, 문자열처럼 목적 변수와 속성을 대응시킬 수 있고, 또 어떤 경우는 속성이 정수가 되도록 해야 한다. - 입력 데이터 분석
이전 작업을 바탕으로 데이터를 주의 깊게 보는 단계이다. - 알고리즘 훈련
기계 학습이 이루어지는 부분이다. 이번 단계와 다음 단계에서는 핵심 알고리즘을 다룬다. 처음 두 단계에서 얻어진 잘 정제된 데이터를 알고리즘에 넣어 지식이나 정보를 추출한다. 이러한 지식은 종종 하나의 형식으로 저장되며, 다음 두 단계에서 기계를 이용해 이를 손쉽게 사용하도록 한다.
비지도 학습으 경우 목적 값을 가지지 않기 때문에 훈련 단계가 없다. - 알고리즘 테스트
이전 단계에서 학습된 정보를 사용하는 단계이다. 훈련이 얼마나 잘 되었는지 알아보기 위해 학습된 정보를 테스트하는 것이다.
지도학습의 경우, 알고리즘을 평가하는 데 사용할 수 잇는 몇 가지 알려진 값을 가진다. 비지도학습의 경우, 성공 여부를 평가하기 위해 다른 통계를 사용하게 될 것이다.
두 경우 모두가 만족스럽지 않다면, 4 단계로 돌아가 몇 가지를 변경하고 다시 테스트를 시도할 수 있다. 데이터를 수집하고 준비하는 과정에서 문제가 있었을 수도 있으며, 이러한 경우에는 1 단계로 돌아가야 한다. - 사용하기
몇 가지 작업을 위해 실질적인 프로그램으로 만들고 이전의 모든 단계가 예상했던 것처럼 진행되었는지 다시 살펴본다. 몇 가지 새로운 데이터를 적용하여 1-5 단계를 다시 살펴보아야 한다.
댓글 없음:
댓글 쓰기