Tech Blog

머신러닝 개요, 지도학습과 비지도학습 본문

데이터 분석 이론/머신러닝

머신러닝 개요, 지도학습과 비지도학습

agsu 2023. 2. 27. 23:10

  예전부터 꾸준히 발전해오던 인공지능이었지만, 최근 들어 chat gpt3부터 그 이상의 버전들이 등장하면서 인공지능의 영향력을 다시 한 번 체감하고있습니다. 본 포스팅에서는 앞으로도 더욱 발전해나갈 인공지능이라는 것이 무엇인지, 그 안에서 쓰이는 기술인 머신러닝이 무엇이고 어떻게 동작하는지 정리하려고 합니다. 또, 지도학습과 비지도학습에 따라 어떤 알고리즘의 종류가 있는지 알아보겠습니다. 

 

1. 인공지능과 머신러닝 

 데이터 과학을 공부한다면, 위의 벤다이어그램을 한 번씩은 본 적이 있을 겁니다. 인공지능 안에 머신러닝이 포함되고, 머신러닝 안에 딥러닝이 포함됩니다. (cf. 본 글에서는 머신러닝까지 다루고, 딥러닝에 대해서는 따로 작성합니다.) 그렇다면, 본 글의 목적인 머신러닝이 무엇인지에 대해 이해하려면 먼저 인공지능에 대하여 이해하고 있어야 합니다. 

 

인공지능 (Artificiail Intelligence) ?

[지능]   

* 한 개인이 문제에 대해 합리적으로 사고하고 해결하는 인지적인 능력과 학습 능력을 포함하는 총체적인 능력 (심리학용어사전)

* 시스템이나 장치, 기기가 반복 수행함으로써 그 능력을 개선하는 능력. 「처리 기능」이라는 정도의 가벼운 의미로도 사용되고 있었으나 최근에는 인공 지능(artificial intelligence)과 같이 내용이 고도화하고 있다. (컴퓨터인터넷IT용어대사전)

 

[인공지능]

* 인간의 인지·추론·판단 등의 능력을 컴퓨터로 구현하기 위한 기술 혹은 그 연구 분야. (두산백과)

 

'지능'과 '인공지능'의 용어 설명입니다.  '지능'을 요약하자면 학습능력과 문제해결 능력입니다. 따라서 인공지능이 합쳐진 인공지능기계(컴퓨터)가 사람과 관련된 인지 기능들, 즉, 학습이나 문제해결과 같은 것을 모방하는 것이라고 할 수 있습니다.

 

더 자세히 말하면, 기계가 인간의 지능을 모방하거나 자동화하기 위한 기술, 시스템을 의미합니다. 즉, 기계가 인간의 사고, 학습, 추론, 의사결정 등의 능력을 갖추는 것을 목표로 하는 분야입니다.

 

인공지능은 이미지 인식, 음성 인식, 자연어 처리 등의 분야에서 활용되고 있으며, 산업 현장에서도 제조, 로봇, 자율주행, 의료 등 다양한 분야에서 적용되고 있습니다. 또한, 인공지능 기술은 앞으로 인간의 삶을 변화시키는 기술 중 하나로 꼽히며 발전 가능성이 무궁무진한 기술입니다. 

 

 

인공지능의 본질은 문제를 해결하는 것이다. 

 결국 인공지능의 본질은 위와 같이 정의할 수 있습니다. 예를 들어 아이리스 꽃잎을 분류한다. 와 같은 유명한 분류 주제도 넓게 생각하면 꽃잎을 분류하는 문제를 해결하는 것입니다. 모델 학습에 대한 연습을 하다보면 맹목적으로 하게될 때가 있는데, 이것을 계기로 인공지능의 본질을 항상 되새기면 도움이 될 것 같습니다. 

 

 

 

 위의 그림에서 볼 수 있듯, 인공지능은 크게 규칙 기반 인공지능머신러닝 기반 인공지능으로 나뉩니다. 규칙 기반 인공지능은 미리 정해진 규칙과 로직을 기반으로 동작하는 것이며, 주로 패턴 인식, 추론, 분류 등의 작업에서 활용됩니다. 반면 머신러닝 기반 인공지능대량의 데이터를 분석하여 스스로 학습하고 패턴을 찾아내는 것으로, 딥러닝, 강화학습 등의 방법이 이에 해당합니다. 이제부터 인공지능 기법 중 머신러닝 기반 인공지능에 대해서 자세히 알아보도록 하겠습니다. 


 

머신러닝 (Machine Learning) ?

머신러닝(Machine Learning)은 인공지능(Artificial Intelligence)의 한 분야로, 컴퓨터가 데이터를 학습하여 스스로 패턴을 찾고 예측 모델을 만들 수 있게 하는 기술입니다.

간단히 말하면, 머신러닝은 컴퓨터가 데이터를 분석하고 패턴을 파악하여 이를 바탕으로 문제를 해결하는 기술입니다. 머신러닝을 사용하면, 데이터의 크기와 복잡도에 상관없이 컴퓨터가 스스로 패턴을 찾을 수 있으므로, 예측, 분류, 클러스터링 등 다양한 문제를 해결할 수 있습니다.

  조금 더 기술적으로 머신러닝을 한 줄로 요약하자면, 데이터로부터 알고리즘(모델)을 만들어내는 것이라고 할 수 있습니다. 

 

 

 더 자세한 전체적인 흐름은 위의 그림과 같습니다. 파란색 부분이 기계를 학습시키는 과정입니다. 존재하는 데이터로 머신러닝 알고리즘을 사용하여 적절한 가중치 값을 찾아내서 모델을 완성시키고, 완성된 모델에 새로운 데이터를 넣어 예측 값을 도출해 내는 프로세스입니다. 

 

 

 

 

 

2. 머신러닝의 학습방법

 머신러닝에 대해서 알아보았으니, 머신러닝에는 크게 어떤 어떤 종류의 학습 방법이 있는지 살펴보겠습니다. 

 

 머신러닝의 학습 방법은 지도학습 (Supervised Learning)비지도학습 (Unsupervised Learning) 으로 나뉩니다. 지도학습은 입력 데이터와 그에 대한 출력 데이터(정답)를 함께 제공하여 모델을 학습시키는 방법입니다. 예를 들어, 입력 = [[x1, x2, x3], [x4, x5, x6]], 출력 = [y1, y2] 이면, 입력이 [x1, x2, x3]일 때 정답은 y1, 입력이 [x4, x5, x6]일 때 정답은 y2 라고 알려주면서 학습시키는 것과 같습니다. 이렇게 모델은 입력 데이터를 분석하여 출력 데이터를 예측하도록 학습하며, 이를 통해 새로운 입력 데이터가 주어졌을 때 출력으로 어떤 데이터가 나오게 될지 예측할 수 있습니다. 지도학습의 한 예시로, 스팸 메일 필터링 같은 문제에서 메일의 내용과 이메일이 스팸인지 아닌지에 대한 정보를 함께 제공하여 모델을 학습시킬 수 있습니다.

 비지도학습출력 데이터 없이 입력 데이터만으로 모델을 학습시키는 방법입니다. 모델은 입력 데이터만 가지고 그들의 특징이나 패턴을 파악하여 데이터를 분류하거나 군집화하는 등의 작업을 수행할 수 있습니다. 비지도학습의 예시로, 고객들의 구매 이력 데이터를 입력으로 받아 유사한 패턴을 갖는 고객들을 그룹화하는 클러스터링 작업을 수행할 수 있습니다.

 


 간단히 말하자면 지도학습은 레이블 데이터로 피드백을 주며 기계를 학습시키는 것이고, 비지도학습은 레이블 값 없이 기계가 패턴을 스스로 학습하여 잠재된 데이터의 구조를 찾아내는 것입니다. 이렇듯, 지도학습과 비지도학습은 상황에 따라 각각의 장단점과 적용 분야가 다르기 때문에 문제에 따라, 데이터에 따라 적합한 학습 방법을 선택해야 합니다. 

 

 

지도 학습: 회귀 Regression 

 회귀 문제는 입력 데이터와 출력 데이터(수치 값)의 관계를 학습하여 새로운 입력 데이터가 주어졌을 때 연속적인 출력 값을 예측하는 문제입니다. 예시로, 부동산 가격 예측, 주식 가격 예측 같이 연속적인 값을 예측하는 문제는 회귀 문제로 처리됩니다.

 한마디로 회귀는 추세선을 긋는 것입니다. 위 그림 처럼 우리가 갖고있는 데이터에 가장 근접한 선을 그어, 새로운 임의의 데이터 X1을 회귀 선 y = ax+b에 넣었을 때의 y값 ax1+b가 예측 값이 되는 것입니다. 

 

 

지도학습: 분류 Classification 

 분류 문제는 입력 데이터를 미리 정의된 여러 클래스 중 하나로 분류하는 문제입니다. 이때, 각 클래스는 이산적인 값(카테고리)으로 표현됩니다. 예시로, 이메일이 스팸인지 아닌지를 분류하는 문제인 이진 분류 문제, 문서를 여러 주제로 분류하는 다중 클래스 분류 문제가 있습니다. 

 분류는 데이터의 유형을 나누는 것입니다. 밑에서 알아볼 군집화와 다른 점이라면, "미리 정의된 클래스"를 꼽을 수 있습니다.  그림에서 볼 수 있듯, 미리 정의된 클래스로 모델을 생성하고, 새로운 데이터가 왔을 때 어떤 그룹인지 분류해주는 로직입니다. 

 

 

비지도 학습: 군집화 Clustering 

 군집화 문제는 입력 데이터를 유사한 특성이나 패턴을 가진 그룹으로 나누는 문제입니다. 예시로, 고객 구매 이력 데이터를 군집화하여 유사한 구매 패턴을 가진 고객 그룹을 찾는 문제가 있습니다.

 

 처음 배울 때는 분류와 혼동이 올 수 있습니다. 어찌됐든 그룹을 분류하는 문제이기 때문입니다. 군집화는 모든 데이터가 어떠한 그룹에도 속하지 않은 상태에서, 내제되어있는 패턴을 찾아 스스로 그룹화 한다는 점에서 분류와 차이점이 있습니다. 

 

 

 

학습방법에 따른 머신러닝 알고리즘 

출처: 머신러닝 강의 수업 자료

 위와 같이, 지도학습과 비지도학습에는 여러 알고리즘이 존재합니다. 상황에 따라, 데이터에 따라 적절한 학습방법과 알고리즘을 선택해주는 것이 중요합니다. 다음 글에서는  Linear regression, Logistic Regression, Decision Tree 등 주요 머신러닝 알고리즘이 동작하는 원리에 대하여 알아보도록 하겠습니다.  

 

 

 

 

 

 

'데이터 분석 이론 > 머신러닝' 카테고리의 다른 글

[논문리뷰] mobilenet  (0) 2023.04.07
[논문리뷰] RESNET  (0) 2023.04.07
[논문리뷰] vggNET  (0) 2023.04.07
Comments