- 사람이 명확하게 구분할 수 없는 지식을 구현해야 하거나
- 사람이 일일히 구현하기에는 너무 많은 양의 규칙들이 필요한 경우
=> 위 두 개의 문제를 해결할 수 있는 것이 머신러닝이다.
즉, 인간처럼 학습시켜서 컴퓨터가 규칙을 생성할 수 있지 않을까 해서 시도한 방법
[1]. 머신러닝? 인공지능이랑 뭐가 다름?
{1}. 인공지능
- 기계를 인간 행동의 지식에서와 같이 행동하게 만드는 것
=> 1956년 다트머스 회의에서 존 매카시가 처음으로 발표함
{2}. 그럼 뭐가 더 큰가?
- 인공지능이 가장 큰 개념
- 인공지능을 구현하는 방법 중 하나가 머신러닝
- 머신러닝에는 여러 알고리즘이 있다. 그 중 하나가 인공신경망이고, 인공신경망 중에서 층을 깊게 쌓은 것이 딥러닝이다.
구조를 그리면 아래와 같다.
AI
└── Machine Learning
├── 결정 트리
├── SVM
├── KNN
├── ...
└── 인공신경망 (Artificial Neural Network)
├── 얕은 신경망 (Shallow NN)
└── Deep Learning ← 층이 많은 신경망
그렇기 때문에 개념 순으로 나열하면 아래와 같다.
인공지능 > 머신러닝 > 인공 신경망 > 딥러닝
[2]. 머신러닝
- 알고리즘을 이용하여 데이터를 분석하고, 분석 결과를 스스로 학습한 후,
- 이를 기반으로 어떠한 판단이나 예측하는 것
{1}. 좋은 데이터가 필요하다
머신러닝에서 *양질의 데이터가 매우 중요한 역할을 한다.
양질의 데이터를 많이 보유할수록 보다 높은 성능을 이끌어낼 수 있다.
양질의 데이터를 얻기 위해 데이터 분석 과정 중 데이터 정제 과정을 거친다. => 전처리
? 양질의 데이터란
1. 정확성 (accuracy) - 값이 맞는가?
데이터의 값이 실제 현실을 올바르게 반영하고 있어야 한다.
- 잘못 측정된 값, 오타, 라벨 오류가 없어야 함
2. 완전성 (Completeness) - 빠진 값이 없는가?
학습에 필요한 정보가 빠짐없이 있어야 한다.
- 결측값(missing value)이 적거나 없어야 함
- 예) NULL, NaN 등 빈 값을 의미함
3. 대표성 (Representativeness) - 전체를 고르게 반영하는가?
데이터가 예측하려는 대상 전체를 골고루 반영해야 한다.
- 특정 집단이 과도하게 많거나 적으면 모델이 편향됨
- 예) 성별 관련 데이터에서 여성 데이터 90%면, 남성에 대한 예측 성능이 떨어짐
4. 충분한 양 (Volume) - 학습하기에 충분한가?
모델이 패턴을 학습하기에 충분한 샘플 수가 있어야 함
- 데이터가 너무 적으면 *과적합 발생
? 과적합
- 모델이 학습 데이터에 지나치게 맞춰져 있어 예측 능력이 떨어지는 것을 과적합 이라 한다.
5. 일관성 (Consistency) - 표현 방식이 통일되어 있는가?
- 같은 의미를 가진 값은 데이터 전체에서 같은 형식으로 기록되어야 한다.
- 성별에 대해서 어떤 행은 "남성", 다른 행들에서는 1, "Man"
6. 관련성 (relevance)
모델이 풀려는 문제와 실제로 연관된 피처(feature)가 포함되어 있어야 한다.
- 관련 없는 피처가 많으면 노이즈가 증가함
{2}. 학습 방법
머신러닝 모델은 데이터를 보고 스스로 규칙을 찾는다.
찾는 과정은 아래와 같다.
1. 모델이 데이터를 보고 예측 함
2. 예측이 정답과 얼마나 틀렸는지 오차를 계산
3. 오차를 줄이는 방향으로 모델 내부의 파라미터를 조정 함
4. 이 과정을 데이터 전체에 대해 반복 함
예)
강아지 사진 1000장을 주고 "이건 강아지야~"라고 학습시키면
모델은 특징들을 파악하고, 오차를 줄이면서 강아지를 구별할 수 있게 된다.
(1). 학습법 종류
1. 지도 학습 (Supervised Learning)
- 학습 데이터와 시험(정답) 데이터를 같이 주고 학습 시킴
- 예 : 사진1 = 강아지, 사진2 = 고양이
- 대표 알고리즘 : Classification(분류), Regression(회귀)
Classification :
- 입력 데이터를 보고 "이건 A인가 B인가?" 라고 답하는 것
- 이진 분류 : 레이블이 두 개인 경우
- 다중 클래스 분류 : 범주가 개 이상인 경우
Regression :
- 학습 데이터를 이용하여 연속적인 값을 예측하는 것
- 예 : 중고차 가격 예측할 때 주행거리, 연식, 브랜드 등을 분석해서 가격 예측
(2). 비지도 학습 (Unsupervised Learning)
- 정답을 알려주지 않고 예측하는 방법
- 모델이 스스로 규칙을 찾음
- 정답을 모르더라도 유사한 것들과 서로 다른 것들을 구분해서 군집을 만들 수 있는 학습법
- 대표 알고리즘 : Clustering(클러스터링), Dimension Reduction(차원 축소)
Clustering :
- 특정 기준에 따라 유사한 데이터 사례들을 하나의 세트로 그룹화
- 전체 데이터 세트를 여러 그룹으로 분류하기 위해 사용함
- 고유한 패턴을 찾기 위해 개별 그룹 차원에서 분석할 수 있음
Dimension Reduction :
- 변수의 개수를 줄이는 작업
- 원시 데이터는 높은 차원의 특징을 갖음
- 차원 수를 줄이면서 관계를 도출함
(3). 준지도 학습 (Semi-supervised learning)
- 지도 학습과 비지도 학습 섞어서 정답을 유추하는 방법
- 군집을 학습 후, 일부 데이터만 지도 학습을 시켜주면 군집이 정답을 확인할 수 있다.
예)
강아지, 고양이 사진 1000장 중 비슷한 것끼리 묶어놓고,
각 그룹에서 딱 1장씩만 "이거 강아지야", "이거 고양이야" 알려주면 나머지 998장도 자동으로 정답을 알게됨
(4). 강화 학습 (Reinforcement Learning)
- 벌칙과 보상을 함께 주면서 스스로 학습하는 방법
- 모델이 시행착오를 거치면서 자기에게 맞는 방법을 습득하는 방법임
- 행동을 해봐야 그 결과(보상/벌칙)가 생기고, 그 결과가 있어야 다음 학습 데이터가 만들어진다.
⇒ 즉, 데이터를 모으는 것 자체가 학습의 일부다.
- 이 학습법은 데이터를 한 번에 줄 수 없고, 시행 한 번당 데이터 하나씩.. 순서대로 만들어지기 때문에 시간이 오래 걸린다.
- 초반에는 학습되지 않아 많이 틀려서 보상을 거의 못 받으며, "아 모르겠다~" 하고 객관식 찍듯이 시도하는 구간도 있어서 더 느리다.
- 하지만 찍어서 정답을 맞추게 되면 좋은 행동이구나를 기억하고 다음 데이터에서 반영을 한다.
즉, 강화 학습은 초반엔 탐색 비율이 높고, 학습이 진행될수록 활용 비율이 높아지는 식으로 균형을 조절한다.
출처 :
https://www.netapp.com/ko/artificial-intelligence/what-is-machine-learning/
머신 러닝(ML)의 의미와 중요성 | NetApp
머신 러닝(ML)은 데이터의 패턴과 구조를 분석하고 해석하여 사람의 상호작용 없이도 학습을 가능하게 하는 계산 과학의 한 분야입니다. 머신 러닝이 중요한 이유를 자세히 알아보십시오.
www.netapp.com
https://modulabs.co.kr/blog/machine-learning
머신러닝(Machine Learning) 이란
머신러닝이란 무엇인지? 인공지능, 딥러닝과는 어떤 관계에 있는지? 머신러닝의 3가지 학습방법(지도, 비지도, 강화 학습)에 대해 이해하고 머신러닝 사례 및 장점과 단점은 어떤 것들이 있는지
modulabs.co.kr
'AI > ML' 카테고리의 다른 글
| AI 최적화 방법 (0) | 2026.04.17 |
|---|---|
| 머신러닝 - 심화 모델 (0) | 2026.04.17 |
| 머신러닝 - 기초 모델 (0) | 2026.04.17 |