머신러닝 지도학습의 대표적인 두가지 문제- 분류와 회귀
본문 바로가기
통계, 인공지능/AI 관련

머신러닝 지도학습의 대표적인 두가지 문제- 분류와 회귀

by 통계하는 피터팬 2022. 9. 12.
반응형

안녕하세요!!

통계하는 피터팬 입니다!!

오늘은 머신러닝 지도학습의 대표적인 두가지 문제인 분류 문제와 회귀문제에 대해 소개하도록 하겠습니다.  이때 중요한것이 종속변수의 형태입니다. 종속변수가 어떤 형태냐에 따라 분류문제 혹은 회귀분제로 구분되게 됩니다. 여기에서 우선 알이야 하는 개념이 지도학습과 비지도 학습입니다. 더 복잡하고 어려운 내용들이 많이 있지만, 이번 포스팅에서 간단하게 설명드리도록 하겠습니다.

그럼 이제 시작하겠습니다!

1.지도학습과 비지도 학습

지도학습과 비지도 학습을 나누는 기준은 간단하게 데이터의 형태라고 생각하면 될것 같습니다. 데이터의 형태는 크게 결과의 레이블이 있는 데이터와 없는 데이터로 나누어 집니다. 다시 말해서 $(X_i,Y_i)$ 형태로 데이터가 주어진다면 지도학습 기법들을 통해 머신러닝 학습을 진행하게 되고 $Y_i$가 존재하지 않는 형태라면 비지도 학습기법들을 통해 머신러닝 학습을 진행하게 됩니다. 지도학습의 대표적인 방법으로는 분류 방법과 회귀 방법이 있습니다. 분류와 회귀문제는 잠시 후에 대루도록 하겠습니다. 비지도학습의 경우 $Y_i$가 없기 때문에 데이터들의 패턴을 찾아서 문제를 해결합니다. 대표적으로 클러스터링이 있는데, $X_i$값의 패턴에 따라 비슷한 값들을 모아서 군집화 시키는 것입니다. 더 많은 기법들이 있지만 다른 포스팅에서 차근차근 소개하도록 하겠습니다.

 

2.분류문제

지도학습의 한가지 방법으로 분류문제가 있습니다. 분류문제란 데이터의 $Y_i$가 범주형인 형태를 의미합니다. 즉 머신러닝을 통해 분류문제를 해결한 다는 것은 $X_i$ 들의 특징을 이용해서 $Y_i$의  범주를 정한다는 것을 의미합니다. 예를 들어 과일(혹은 야채를 모두 포함하여)을 색깔이라는 특징만으로 구분이 가능하다고 가정해 보겠습니다. 학습 데이터로 (주황색, 오랜지), (초록색, 수박), (붉은색, 토마토), (검정색, 가지), (노란색, 레몬) 등등의 형태로 주어져 있다고 생각하 보겠습니다. 머신러닝 기법들을 통해 위의 데이터를 학습하게 되고 그 결과 학습을 완료한 머신러닝 모델은 다음과 같은 문제들을 해결할 수 있게 됩니다. 바로 색깔만으로 과일을 구분할 수 있는 모델이 되는것입니다. 그래서 "어떤 과일이 주황색이라면 이 과일은 무엇인가?" 에 대한 답으로 "오랜지"라는 답을 할수 있게되는 것입니다. 물론 위와같은 가정의 예시는 세상에 거의 없고 말도 안되는 예시지만, 이런식의 문제를 해결하는 것이라고 알려드리기 위해 간단한 예를 들어보았습니다. 

 

3.회귀문제

지도학습의 또다른 한가지 방법으로 회귀문제가 있습니다. 회귀문제는 분류문제와 달리 데이터의 $Y_i$가 연속형 값을 가질 때의 문제를 의미합니다. 분류문제와 마찬가지로 $X_i$들을 이용해서 $Y_i$를 학습하는 것이지만, $Y_i$의 형태가 다르므로 방법론들도 조금씩 달라지게 됩니다. 예를들어, 사람의 키가 팔길이, 몸무게, 발크기의 세가지 변수로만 정해진다고 가정해 보겠습니다. 그러면 (팔길이, 몸무게, 발크기, 키)의 형태로 구성된 데이터들을 학습하게 됩니다. 몸무게의 단위는 kg,  발크기는 mm, 팔 길이와 키의 단위는 cm라고 가정했을때 다음과 같은 데이터들을 학습하게 됩니다. (160, 58, 255, 170), (165, 65, 270, 175), (155, 60, 260, 170), (145, 45, 245, 156) 등등의 형태의 데이터들을 가지고 학습을 진행하게 됩니다. 그리고 그 결과로 학습을 완료한 모델은 "(165, 65, 270)의 $X_i$값을 갖는 사람의 키는 몇인가?"라는 질문에 대한 답을 할 수 있게 되는 것입니다. 역시나 제가 설명을 위해 만든 데이터이기 때문에 실제로 사람들이 저런 특징을 가지고 있다고 할 수 없습니다. 이해를 돕기위해 만든 예시들 입니다.

 

이번 포스팅에서는 데이터 레이블의 유무에 따라 머신러닝 기법을 지도학습과 비지도 학습으로 나눌수 있다는 것을 알아보았습니다. 추가로 지도학습의 대표적인 문제인 분류문제와 회귀문제에 대해 간단하게 설명 했습니다. 분류문제는 $Y_i$가 범주형으로 나누어 지는 형태의 데이터에 대한 문제를 의미하고, 회귀문제는 $Y_i$가 실수형으로 나타나는 데이터에 대한 문제를 의미했습니다. 따라서 사용되는 기법들에도 차이가 있습니다. 각각의 기법들에 대해서는 추후 포스팅으로 다루도록 하겠습니다.

 

긴글 읽어주셔서 감사합니다!

반응형

댓글


TOP

Designed by 티스토리