인공지능 & IT

통계 및 머신러닝 관련 용어 차이 정리

프리 이글 2024. 1. 6. 15:36
반응형
반응형

머신러닝은 기본적으로 통계학에서 파생되었으나, 최근에는 통계라는 용어 보다는 훨씬 핫한 용어가 되었다.

그러다 보니, 통계와 머신러닝이란 용어에 대한 혼란도 많은 듯 하다.

 

데이터 사이언티스트인 이지영 작가의 책에 보면, 통계와 머신러닝에 대한 차이점에 대한 내용을 볼 수 있다. 물론 책에서도 이들 두 가지의 구분이 쉽지 않거나 무의미하다는 내용도 나온다. 일단 일반적인 차이점은 다음과 같다고 한다.

 

통계는 데이터 분석에 더 중점을 두는 학문이라면, 머신러닝은 예측에 더 중점을 둔다.

 

물론 이들 두 가지의 차이점을 한 마디로 정의하면, 없다 (None)이라고 정의하는 학자도 있다.

 

중요한 점은 이들의 기원이 무엇이든 간에, 현재 통계와 머신러닝은 동일한 내용들은 서로 다른 용어로 적시하는 것은 사실이다. 이번 포스트에서는 이지영 작가의 책에서 나온 두 가지, 통계와 머신러닝 간의 용어 차이를 인용한다.

 

설명 통계 머신러닝
데이터 샘플
관측치(Observation)
행 혹은 열
인스턴스(Instance)
예측 변수, 변수 Y 종속변수
반응변수
라벨(Label)
타깃(Target)
변수 Y를 예측하기 위해 사용되는 다른 변수 X 독립변수
설명변수
예측변수
피처/특징(Feature)
속성(Attribute)
입력(Input)
모델이 데이터를 학습하는 과정 모형적합(Model Fitting) 학습(Learning)
학습 결과물 혹은 식 매개변수(Parameters) 가중치(Weights, 선형모델)
정답이 있는 데이터를 활용해서 데이터 학습 회귀, 분류(Classification) 지도학습
지도학습의 예로 회귀, 분류 포함
정답이 없는 데이터를 비슷한 특징끼리 군집화 군집화,
밀도추정(Density estimation)
비지도학습
비지도학습의 예로 군집화, 밀도추정