AI/ML

Machine Learning

페에이리 2026. 4. 17. 07:44

- 사람이 명확하게 구분할 수 없는 지식을 구현해야 하거나

- 사람이 일일히 구현하기에는 너무 많은 양의 규칙들이 필요한 경우

=> 위 두 개의 문제를 해결할 수 있는 것이 머신러닝이다.

 

즉, 인간처럼 학습시켜서 컴퓨터가 규칙을 생성할 수 있지 않을까 해서 시도한 방법

 

[1]. 머신러닝? 인공지능이랑 뭐가 다름?

{1}. 인공지능

  • 기계를 인간 행동의 지식에서와 같이 행동하게 만드는 것

=> 1956년 다트머스 회의에서 존 매카시가 처음으로 발표함

{2}. 그럼 뭐가 더 큰가?

  • 인공지능이 가장 큰 개념
  • 인공지능을 구현하는 방법 중 하나가 머신러닝
  • 머신러닝에는 여러 알고리즘이 있다. 그 중 하나가 인공신경망이고, 인공신경망 중에서 층을 깊게 쌓은 것이 딥러닝이다. 

구조를 그리면 아래와 같다.

AI 
 └── Machine Learning 
      ├── 결정 트리
      ├── SVM
      ├── KNN
      ├── ...
      └── 인공신경망 (Artificial Neural Network)
           ├── 얕은 신경망 (Shallow NN)
           └── Deep Learning ← 층이 많은 신경망

 

그렇기 때문에 개념 순으로 나열하면 아래와 같다. 

인공지능 > 머신러닝 > 인공 신경망 > 딥러닝 

[2]. 머신러닝

- 알고리즘을 이용하여 데이터를 분석하고, 분석 결과를 스스로 학습한 후,

- 이를 기반으로 어떠한 판단이나 예측하는 것

{1}. 좋은 데이터가 필요하다

머신러닝에서 *양질의 데이터가 매우 중요한 역할을 한다.

양질의 데이터를 많이 보유할수록 보다 높은 성능을 이끌어낼 수 있다.

양질의 데이터를 얻기 위해 데이터 분석 과정 중 데이터 정제 과정을 거친다. => 전처리

 

? 양질의 데이터란

1. 정확성 (accuracy) - 값이 맞는가?

데이터의 값이 실제 현실을 올바르게 반영하고 있어야 한다.

- 잘못 측정된 값, 오타, 라벨 오류가 없어야 함

 

2. 완전성 (Completeness) - 빠진 값이 없는가?

학습에 필요한 정보가 빠짐없이 있어야 한다. 

- 결측값(missing value)이 적거나 없어야 함 

- 예) NULL, NaN 등 빈 값을 의미함 

 

3. 대표성 (Representativeness) - 전체를 고르게 반영하는가?

데이터가 예측하려는 대상 전체를 골고루 반영해야 한다.

- 특정 집단이 과도하게 많거나 적으면 모델이 편향됨 

- 예) 성별 관련 데이터에서 여성 데이터 90%면, 남성에 대한 예측 성능이 떨어짐

 

4. 충분한 양 (Volume) - 학습하기에 충분한가?

모델이 패턴을 학습하기에 충분한 샘플 수가 있어야 함

- 데이터가 너무 적으면 *과적합 발생

 

? 과적합

- 모델이 학습 데이터에 지나치게 맞춰져 있어 예측 능력이 떨어지는 것을 과적합 이라 한다.

 

5. 일관성 (Consistency) - 표현 방식이 통일되어 있는가?

- 같은 의미를 가진 값은 데이터 전체에서 같은 형식으로 기록되어야 한다.

- 성별에 대해서 어떤 행은 "남성", 다른 행들에서는 1, "Man"

 

6. 관련성 (relevance)

모델이 풀려는 문제와 실제로 연관된 피처(feature)가 포함되어 있어야 한다.

- 관련 없는 피처가 많으면 노이즈가 증가함 

{2}. 학습 방법

머신러닝 모델은 데이터를 보고 스스로 규칙을 찾는다.

찾는 과정은 아래와 같다.

1. 모델이 데이터를 보고 예측 함

2. 예측이 정답과 얼마나 틀렸는지 오차를 계산

3. 오차를 줄이는 방향으로 모델 내부의 파라미터를 조정 함

4. 이 과정을 데이터 전체에 대해 반복 함 

 

예)

강아지 사진 1000장을 주고 "이건 강아지야~"라고 학습시키면

모델은 특징들을 파악하고, 오차를 줄이면서 강아지를 구별할 수 있게 된다. 

(1). 학습법 종류

1. 지도 학습 (Supervised Learning)

  • 학습 데이터와 시험(정답) 데이터를 같이 주고 학습 시킴
  • 예 : 사진1 = 강아지, 사진2 = 고양이

- 대표 알고리즘 : Classification(분류), Regression(회귀)

 

Classification :

  • 입력 데이터를 보고 "이건 A인가 B인가?" 라고 답하는 것
  • 이진 분류 : 레이블이 두 개인 경우
  • 다중 클래스 분류 : 범주가  개 이상인 경우 

Regression :

  • 학습 데이터를 이용하여 연속적인 값을 예측하는 것
  • 예 : 중고차 가격 예측할 때 주행거리, 연식, 브랜드 등을 분석해서 가격 예측

(2). 비지도 학습 (Unsupervised Learning)

  • 정답을 알려주지 않고 예측하는 방법
  • 모델이 스스로 규칙을 찾음 
  • 정답을 모르더라도 유사한 것들과 서로 다른 것들을 구분해서 군집을 만들 수 있는 학습법

- 대표 알고리즘 : Clustering(클러스터링), Dimension Reduction(차원 축소)

 

Clustering :

  • 특정 기준에 따라 유사한 데이터 사례들을 하나의 세트로 그룹화
  • 전체 데이터 세트를 여러 그룹으로 분류하기 위해 사용함
  • 고유한 패턴을 찾기 위해 개별 그룹 차원에서 분석할 수 있음

Dimension Reduction :

  • 변수의 개수를 줄이는 작업
  • 원시 데이터는 높은 차원의 특징을 갖음
  • 차원 수를 줄이면서 관계를 도출함 

(3). 준지도 학습 (Semi-supervised learning)

  • 지도 학습과 비지도 학습 섞어서 정답을 유추하는 방법
  • 군집을 학습 후, 일부 데이터만 지도 학습을 시켜주면 군집이 정답을 확인할 수 있다.

예)

강아지, 고양이 사진 1000장 중 비슷한 것끼리 묶어놓고,

각 그룹에서 딱 1장씩만 "이거 강아지야", "이거 고양이야" 알려주면 나머지 998장도 자동으로 정답을 알게됨 

(4). 강화 학습 (Reinforcement Learning)

  • 벌칙과 보상을 함께 주면서 스스로 학습하는 방법
  • 모델이 시행착오를 거치면서 자기에게 맞는 방법을 습득하는 방법임
  • 행동을 해봐야 그 결과(보상/벌칙)가 생기고, 그 결과가 있어야 다음 학습 데이터가 만들어진다.

⇒ 즉, 데이터를 모으는 것 자체가 학습의 일부다. 

  • 이 학습법은 데이터를 한 번에 줄 수 없고, 시행 한 번당 데이터 하나씩.. 순서대로 만들어지기 때문에 시간이 오래 걸린다.
  • 초반에는 학습되지 않아 많이 틀려서 보상을 거의 못 받으며, "아 모르겠다~" 하고 객관식 찍듯이 시도하는 구간도 있어서 더 느리다.
  • 하지만 찍어서 정답을 맞추게 되면 좋은 행동이구나를 기억하고 다음 데이터에서 반영을 한다. 

즉, 강화 학습은 초반엔 탐색 비율이 높고, 학습이 진행될수록 활용 비율이 높아지는 식으로 균형을 조절한다.

 

 

 

출처 : 

https://www.netapp.com/ko/artificial-intelligence/what-is-machine-learning/

 

머신 러닝(ML)의 의미와 중요성 | NetApp

머신 러닝(ML)은 데이터의 패턴과 구조를 분석하고 해석하여 사람의 상호작용 없이도 학습을 가능하게 하는 계산 과학의 한 분야입니다. 머신 러닝이 중요한 이유를 자세히 알아보십시오.

www.netapp.com

https://modulabs.co.kr/blog/machine-learning

 

머신러닝(Machine Learning) 이란

머신러닝이란 무엇인지? 인공지능, 딥러닝과는 어떤 관계에 있는지? 머신러닝의 3가지 학습방법(지도, 비지도, 강화 학습)에 대해 이해하고 머신러닝 사례 및 장점과 단점은 어떤 것들이 있는지

modulabs.co.kr

 

'AI > ML' 카테고리의 다른 글

AI 최적화 방법  (0) 2026.04.17
머신러닝 - 심화 모델  (0) 2026.04.17
머신러닝 - 기초 모델  (0) 2026.04.17