Machine Learning

AI/ML

Machine Learning

페에이리 2026. 4. 17. 07:44

- 사람이 명확하게 구분할 수 없는 지식을 구현해야 하거나

- 사람이 일일히 구현하기에는 너무 많은 양의 규칙들이 필요한 경우

=> 위 두 개의 문제를 해결할 수 있는 것이 머신러닝이다.

즉, 인간처럼 학습시켜서 컴퓨터가 규칙을 생성할 수 있지 않을까 해서 시도한 방법

[1]. 머신러닝? 인공지능이랑 뭐가 다름?

{1}. 인공지능

기계를 인간 행동의 지식에서와 같이 행동하게 만드는 것

=> 1956년 다트머스 회의에서 존 매카시가 처음으로 발표함

{2}. 그럼 뭐가 더 큰가?

인공지능이 가장 큰 개념
인공지능을 구현하는 방법 중 하나가 머신러닝
머신러닝에는 여러 알고리즘이 있다. 그 중 하나가 인공신경망이고, 인공신경망 중에서 층을 깊게 쌓은 것이 딥러닝이다.

구조를 그리면 아래와 같다.

AI 
 └── Machine Learning 
      ├── 결정 트리
      ├── SVM
      ├── KNN
      ├── ...
      └── 인공신경망 (Artificial Neural Network)
           ├── 얕은 신경망 (Shallow NN)
           └── Deep Learning ← 층이 많은 신경망

그렇기 때문에 개념 순으로 나열하면 아래와 같다.

인공지능 > 머신러닝 > 인공 신경망 > 딥러닝

[2]. 머신러닝

- 알고리즘을 이용하여 데이터를 분석하고, 분석 결과를 스스로 학습한 후,

- 이를 기반으로 어떠한 판단이나 예측하는 것

{1}. 좋은 데이터가 필요하다

머신러닝에서 *양질의 데이터가 매우 중요한 역할을 한다.

양질의 데이터를 많이 보유할수록 보다 높은 성능을 이끌어낼 수 있다.

양질의 데이터를 얻기 위해 데이터 분석 과정 중 데이터 정제 과정을 거친다. => 전처리

? 양질의 데이터란

1. 정확성 (accuracy) - 값이 맞는가?

데이터의 값이 실제 현실을 올바르게 반영하고 있어야 한다.

- 잘못 측정된 값, 오타, 라벨 오류가 없어야 함

2. 완전성 (Completeness) - 빠진 값이 없는가?

학습에 필요한 정보가 빠짐없이 있어야 한다.

- 결측값(missing value)이 적거나 없어야 함

- 예) NULL, NaN 등 빈 값을 의미함

3. 대표성 (Representativeness) - 전체를 고르게 반영하는가?

데이터가 예측하려는 대상 전체를 골고루 반영해야 한다.

- 특정 집단이 과도하게 많거나 적으면 모델이 편향됨

- 예) 성별 관련 데이터에서 여성 데이터 90%면, 남성에 대한 예측 성능이 떨어짐

4. 충분한 양 (Volume) - 학습하기에 충분한가?

모델이 패턴을 학습하기에 충분한 샘플 수가 있어야 함

- 데이터가 너무 적으면 *과적합 발생

? 과적합

- 모델이 학습 데이터에 지나치게 맞춰져 있어 예측 능력이 떨어지는 것을 과적합 이라 한다.

5. 일관성 (Consistency) - 표현 방식이 통일되어 있는가?

- 같은 의미를 가진 값은 데이터 전체에서 같은 형식으로 기록되어야 한다.

- 성별에 대해서 어떤 행은 "남성", 다른 행들에서는 1, "Man"

6. 관련성 (relevance)

모델이 풀려는 문제와 실제로 연관된 피처(feature)가 포함되어 있어야 한다.

- 관련 없는 피처가 많으면 노이즈가 증가함

{2}. 학습 방법

머신러닝 모델은 데이터를 보고 스스로 규칙을 찾는다.

찾는 과정은 아래와 같다.

1. 모델이 데이터를 보고 예측 함

2. 예측이 정답과 얼마나 틀렸는지 오차를 계산

3. 오차를 줄이는 방향으로 모델 내부의 파라미터를 조정 함

4. 이 과정을 데이터 전체에 대해 반복 함

예)

강아지 사진 1000장을 주고 "이건 강아지야~"라고 학습시키면

모델은 특징들을 파악하고, 오차를 줄이면서 강아지를 구별할 수 있게 된다.

(1). 학습법 종류

1. 지도 학습 (Supervised Learning)

학습 데이터와 시험(정답) 데이터를 같이 주고 학습 시킴
예 : 사진1 = 강아지, 사진2 = 고양이

- 대표 알고리즘 : Classification(분류), Regression(회귀)

Classification :

입력 데이터를 보고 "이건 A인가 B인가?" 라고 답하는 것
이진 분류 : 레이블이 두 개인 경우
다중 클래스 분류 : 범주가 개 이상인 경우

Regression :

학습 데이터를 이용하여 연속적인 값을 예측하는 것
예 : 중고차 가격 예측할 때 주행거리, 연식, 브랜드 등을 분석해서 가격 예측

(2). 비지도 학습 (Unsupervised Learning)

정답을 알려주지 않고 예측하는 방법
모델이 스스로 규칙을 찾음
정답을 모르더라도 유사한 것들과 서로 다른 것들을 구분해서 군집을 만들 수 있는 학습법

- 대표 알고리즘 : Clustering(클러스터링), Dimension Reduction(차원 축소)

Clustering :

특정 기준에 따라 유사한 데이터 사례들을 하나의 세트로 그룹화
전체 데이터 세트를 여러 그룹으로 분류하기 위해 사용함
고유한 패턴을 찾기 위해 개별 그룹 차원에서 분석할 수 있음

Dimension Reduction :

변수의 개수를 줄이는 작업
원시 데이터는 높은 차원의 특징을 갖음
차원 수를 줄이면서 관계를 도출함

(3). 준지도 학습 (Semi-supervised learning)

지도 학습과 비지도 학습 섞어서 정답을 유추하는 방법
군집을 학습 후, 일부 데이터만 지도 학습을 시켜주면 군집이 정답을 확인할 수 있다.

예)

강아지, 고양이 사진 1000장 중 비슷한 것끼리 묶어놓고,

각 그룹에서 딱 1장씩만 "이거 강아지야", "이거 고양이야" 알려주면 나머지 998장도 자동으로 정답을 알게됨

(4). 강화 학습 (Reinforcement Learning)

벌칙과 보상을 함께 주면서 스스로 학습하는 방법
모델이 시행착오를 거치면서 자기에게 맞는 방법을 습득하는 방법임
행동을 해봐야 그 결과(보상/벌칙)가 생기고, 그 결과가 있어야 다음 학습 데이터가 만들어진다.

⇒ 즉, 데이터를 모으는 것 자체가 학습의 일부다.

이 학습법은 데이터를 한 번에 줄 수 없고, 시행 한 번당 데이터 하나씩.. 순서대로 만들어지기 때문에 시간이 오래 걸린다.
초반에는 학습되지 않아 많이 틀려서 보상을 거의 못 받으며, "아 모르겠다~" 하고 객관식 찍듯이 시도하는 구간도 있어서 더 느리다.
하지만 찍어서 정답을 맞추게 되면 좋은 행동이구나를 기억하고 다음 데이터에서 반영을 한다.

즉, 강화 학습은 초반엔 탐색 비율이 높고, 학습이 진행될수록 활용 비율이 높아지는 식으로 균형을 조절한다.

출처 :

https://www.netapp.com/ko/artificial-intelligence/what-is-machine-learning/

머신 러닝(ML)의 의미와 중요성 | NetApp

머신 러닝(ML)은 데이터의 패턴과 구조를 분석하고 해석하여 사람의 상호작용 없이도 학습을 가능하게 하는 계산 과학의 한 분야입니다. 머신 러닝이 중요한 이유를 자세히 알아보십시오.

www.netapp.com

https://modulabs.co.kr/blog/machine-learning

머신러닝(Machine Learning) 이란

머신러닝이란 무엇인지? 인공지능, 딥러닝과는 어떤 관계에 있는지? 머신러닝의 3가지 학습방법(지도, 비지도, 강화 학습)에 대해 이해하고 머신러닝 사례 및 장점과 단점은 어떤 것들이 있는지

modulabs.co.kr

'AI > ML' 카테고리의 다른 글

AI 최적화 방법 (0)	2026.04.17
머신러닝 - 심화 모델 (0)	2026.04.17
머신러닝 - 기초 모델 (0)	2026.04.17

현재글Machine Learning

페리

perry03 님의 블로그 입니다.

Linear Regession, crv, Saliency Map, 그래프 오마카세, AI, 리뷰 논문, Cot, 머신러닝, graphrag, GraphFrame, Logistic Regession, 확률, 딥러닝을 위한 수학, vs SHAP, 확률과 통계, 선형대수, XAI, Rag, 인공지능, 하네스 엔지니어링,

Today :
Yesterday :

일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

페리