AI/수학

미분

페에이리 2026. 5. 13. 20:31

[1]. 미분

"함수가 특정 지점에서 얼마나 빠르게 변하는가?"를 측정하는 도구

 

현재 가중치에서 Loss의 순간 기울기를 구하기 위해 사용한다.

 

비유하자면 산 등반과 같다.

함수를 울퉁불퉁한 산이라고 생각하면 된다.

  • 어떤 구간은 완만하고 (기울기 작음)
  • 어떤 구간은 가파르고 (기울기 큼)
  • 어떤 구간은 평평함 (기울기 = 0)

미분은 지금 내가 서 있는 바로 그 지점의 경사도를 알려준다.

즉, "지금 발 딛고 있는 곳이 얼마나 가파른가?"를 측정하는 도구이다.

{1}. 수학적 정의

  • f(x+h) - f(x) : x가 h만큼 변했을 때, 함수값의 변화량 
  • h : x의 변화량
  • h → 0 : 그 간격을 0에 수렴 (h값이 0에 가까워 지도록 점점 줄여감. 0이 되는 것이 아님)

즉, "x가 아주 조금 변할 때 f(x)가 얼마나 변하는가?"의 비율이다.

{2}. AI에서 미분의 역할

AI 학습의 목표는 딱 하나이다. 

  • 손실함수(Loss)를 최소화하는 가중치(W)를 찾는 것이다.

가중치 공간은 가중치 수만큼 차원이 생기고, 비선형 함수들이 쌓이면서 Loss 지형이 울퉁불퉁 해진다. 

근데 무작정 가중치를 찾으러 다니면 평생 걸린다. 미분으로 지금 서 있는 곳의 경사를 계산하고, 

내리막 방향으로 한 걸음씩 이동한다. 이걸 수식으로 표현하면 아래와 같다.

  • W_new = W_oid - lr * dL/dW 
기호 명칭 의미
W_new 새 가중치 업데이트 후 가중치
W_old 기존 가중치 업데이트 전 가중치
lr 학습률 (Learning Rate) 한 걸음의 크기
dL/dW 미분값(기울기, Gradient) 손실 L을 가중치 W로 미분화 값
d 미분 기호 "~에 대한 변화율"을 나타냄
L 손실 (Loss) 모델 예측이 얼마나 틀렸는지
W 가중치 (Weight) 모델이 학습하는 파라미터

 

  • 기울기가 양수면 오른쪽으로 올라가는 경사이기 때문에 왼쪽으로 이동해서 가중치를 감소
  • 기울기가 음수면 왼쪽으로 올라가는 경사이기 때문에 오른쪽으로 이동해서 가중치를 증가
  • 기울기가 0이면 평평한 지점이기 때문에 최솟값(안장점)에 도달한 것이다.

이게 경사하강법(Gradient Descent)이다.

경사하강법

{3}. 경사하강법 전체 흐름 요약 

  1. 모델 예측
  2. 손실 계산
  3. 미분으로 기울기 파악
  4. 가중치 업데이트
  5. 반복 

미분을 모르면 이 사이클 자체가 블랙박스가 된다. 

{4}. 할선과 접선 

(1). 할선 (Secant Line) = 평균

"두 점을 직선으로 이은 선"

서울 출발 ~ 부산 도착, 두 지점을 직선으로 이은 것 

 

두 점 사이의 평균 변화율을 직선으로 그리기 위해 사용한다.

  • f(x+h) - f(x) : y값의 변화량 (서울-부산 거리)
  • h : x값의 변화량 (걸린 시간)
  • m : 기울기 (평균 속도)

천천히 가든, 늦게 가든, 신경 안쓰고 출발점과 도착점을 보고 평균을 낸 것이다.

(2). 접선 (tangent Line) = 순간

"한 점에서 곡선에 살짝 닿는 직선"

속도위반  카메라가 찍힌 그 순간의 속도다. 

 

h를 0으로 줄였을 때 한 점에서의 순간 변화율을 직선으로 그리기 위해 사용한다.

h가 0에 수렴할 순간이 접선이고, 이게 접선의 기울기가 된다. 

(3). 핵심 관계

  • 할선(평균 변화율)에서 h를 점점 줄이면 접선(순간변화율 = 미분)이 된다.

즉, 미분의 정의 자체가 할선을 접선으로 수렴시키는 과정이다. 

 

AI에서는 손실함수 곡선 위 현재 가중치 위치에서 접선의 기울기 = dL/dW

이걸 구해야 어느 방향으로 내려갈지(가중치 조절) 알 수 있다.

[2]. 도함수 

"모든 x(점)에서의 미분값을 하나의 함수로 정리한 것"

 

비유하자면 산 지형도와 같다.

  • 미분 = 산의 특정 한 지점의 경사도
  • 도함수 = 산 전체의 경사도를 지도로 그린 것

한 점만 아는 게 아니라, 모든 점에서의 기울기를 한 번에 표현한 함수다.

{1}. 미분과 도함수

구분 미분 도함수
결과 숫자 (특정 점의 기울기) 함수 (모든 점의 기울기)
예시 x=2에서 기울기 = 4 f`(x)=2x  (어디서든 계산 가능)

 

표기법은 아래와 같다.

  • f`(x) = dy/dx = df/dx
표기 읽는 법
f`(x) "f 프라임 x"
dy/dx "x에 대한 y의 미분"

 

AI에서는

도함수가 있으면 가중치 W 값이 뭐든 바로 기울기를 계산할 수 있다.

  • L(W) = W^2 이라면
  • L`(W) =2W ⇒ 도함수

 

  • W = 3일 때 기울기 = 2x3 = 6
  • W = 5일 때 기울기 = 2x5 = 10

매번 lim 계산할 필요 없이 도함수에 W값만 대입하면 끝이다. 

{2}. 도함수 구하는 방법들

(1). 거듭제곱 법칙 (power Rule)

"x^n을 미분하면 nx^n-1이 되는 기본 미분 규칙"

 

1. 공식

지수를 앞으로 내리고, 지수를 1 줄여라

 

2. 비유하자면 "계단 내려오기"이다.

예를 들어 x^4를 미분하면

  • 지수 4를 앞으로 내리고 (계수로)
    지수를 1 마이너스 해서 

= x^3

 

  • x^4 = 4x^3
  • x^3 = 3x^2
  • x^2 = 2x
  • x = 1
  • x^0 = 0

n이 정수가 아니여도 적용된다.

  • f(x) = x^(1/2) = √x
  • f`(x) = (1/2)x^(-1/2)

 

  • f(x) = x^(-1) = 1/x
  • f`(x) = -1x^(-2) = -1/x^2

 

AI에서는

손실함수가 L(W) = W^2 형태일 때 적용된다.

그냥 x 자리에 W가 들어간 것이다.

  • 거듭제곱 법칙 : f(x) = x^2 → f`(x) = 2x
  • 손실함수 : L(W) = W^2 → L`(W) = 2W

 

근데 L(W) = W2는 단순화한 예시이고,

실제 손실함수 *MSE는 아래처럼 생겼다. 

  • L(W) = y -Wx)^2

? MSE : 예측값과 실제값 사이의 오차를 수치로 표현한 것

 

W^2 형태가 아니다. 분배법칙하고, 거듭제곱 법칙으로 풀수 있기는 한데

지수가 커지면 전개가 불가능하거나 비효율적인 경우가 있기 때문에

이후에 정리할 연쇄 법칙이 필요하다. 

(2). 곱 법칙 (Product Rule)

"두 함수의 곱을 미분하는 규칙"

  • 앞 미분 x 뒤 + 앞 x 뒤 미분

비유하자면 "직사각형 넓이"이다.

가로 g(x), 세로 h(x)인 직사각형이 x가 변할 때 넓이가 어떻게 변하는가?

  • 넓이 변화 = (가로 변화 x 현재 세로) + (현재 가로 x 세로 변화)

둘 다 동시에 변하니까 두 경우를 더해야 전체 변화량이 나온다.

 

예를 들면

  • f(x) = x^2 * x^3
  • g(x) = x^2 → g`(x) = 2x
  • h(x) = x^3 → h`(x) = 3x^2

 

  • f`(x) = 2x * x^3 + x^2 * 3x^2
  • = 2x^4 + 3x^4
  • 5x^4

AI에서 신경망 레이어는 가중치 x 활성화 함수 형태이다.

  • f(W) = W x σ(x) (σ는 시그마 기호다)
  • f(W) = g(W) * h(W)

이걸 W로 미분할 때 곱 법칙이 적용된다.

(3). 몫 법칙 (Quotient Rule)

"두 함수의 나눗셈을 미분하는 규칙"

  • 앞 미분 * 뒤 - 뒤 미분 / 뒤^2

비유하자면 "반 평균 점수"이다.

전체 점수 합 g(x) / 학생 수 h(x) = 평균 점수

평균이 변하려면 :

  • 점수 합이 올라가거나 (분자 변화)
  • 학생 수가 바뀌거나 (분모 변화)

근데 분모가 커지면 평균은 내려가니까 부호가 "-(마이너스)"이다.

 

예를 들면 :

  • f(x) = x^2 / x^3
  • g(x) = x^2 → g`(x) = 2x
  • h(x) = x^3 →h`(x) = 3x^2

 

  • f`(x) = (2x * x^3 - x^2 * 3x^2) / (x^2)^2
  • = (2x^4 - 3x^4) / x^4
  • = -x^4 / x^4
  • = 1/x^2

 

AI에서

Attention 메커니즘의 *SoftMax가 분수 형태다.

 

?SoftMax : 여러 숫자를 합이 1인 확률 분포로 바꿔주는 함수 

여러 숫자를 전체 합이 1이 되는 확률로 변환해주는 수식이다.

이걸 미분할 때 몫 법칙이 적용된다.

(4). 연쇄 법칙 (Chain Rule)

"겹겹이 쌓인 함수를 바깥에서 안으로 순서대로 미분하는 규칙"

바깥 미분 * 안 미분

 

비유하자면 "톱니바퀴"이다.

톱니바퀴 3개가 연결되어 있다.

  • A → B → C

A가 움직이면 B가 움직이고, B가 움직이면 C가 움직인다.

여기서 C가 얼마나 변하는가를 구하려면

(B → C 변화율) * (A → B 변화율)로 구할 수 있다.

 

함수도 똑같다. 안쪽 함수가 변하면 바깥 함수도 연쇄적으로 변한다. 

 

예를 들면 

  • f(x) = (x^2 + 1)^3
  • 안쪽 h(x) = x^2 + 1 → h`(x) = 2x
  • 바깥 g(u) = u^3 →g`(u) = 3u^2

 

  • f`(x) = g`(h(x) * h`(x)
  • = 3(x^2 + 1)^2 * 2x
  • = 6x(x^2 + 1)^2
  • = 6x^5 + 12x^3 + 6x

 

AI에서 연쇄법칙이 핵심인 이유는 역전파 때문이다.

신경망은 함수가 겹겹이 쌓인 구조다

  • 입력 x → 레이어 1 → 레이어 2 → ... → 손실 L

이걸 수식으로 쓰면 :

  • L = f(g(h(x)))

가 되며,

손실 L을 x로 미분하려면 :

  • dL/dx = dL/df * df/dg * dg/dh * dh/dx

이런 식으로 된다.

 

겹겹이 쌓인 연쇄 법칙 = 역전파

레이어가 100개면 연쇄 법칙을 100번 적용하는 것이다.

(5). 정리 

{3}. 삼각함수 미분법

(1). 공식 정리

함수 미분
sin(x) cos(x)
cos(x) -sin(x)
tan(x) 1/cos^2(x)

 

비유하자면 "파도"다

  • sin(x)는 파도처럼 위아래로 움직인다.
  • sin(x) : 파도의 높이
  • cos(x) : 파도의 속도 (높이의 변화율)

파도가 최고점일 떄 속도는 0, 중간 일 떄 속도가 가장 빠른 것처럼

sin을 미분하면 cos이 나온다.

 

예를 들면 

  • f(x) = sin(x) → f`(x) = cos(x)
  • f(x) = cos(x) → f`(x) = -sin(x)
  • f(x) = sin(x^2) → 연쇄 법칙 적용으로 cos(x^2) * 2x

삼각함수 미분은 AI에서 거의 안 쓰인다. Positional Encoding에서 sin/cos가 등장하긴 하는데 

미분할 일은 거의 없다. 

{4}. 지수·로그 미분  

(1). 공식 정리

함수 미분
e^x e^x
a^x a^x * ln(a)
ln(x) 1/x
log_a(x) 1/(x * ln(a))

 

? ln = 자연로그

 

e^x를 미분했는데 자기 자신이 나오는 이유는 

"복리 이자"에 비유할 수 있다.

 

e^x는 "지금 잔고가 곧 변화 속도"인 통장이다.

  • 잔고 100만원 → 변화 속도 100만원/일
  • 잔고 200만원 → 변화 속도 200만원/일

잔고가 많을수록 더 빠르게 늘어난다.

그래서 미분해도 자기 자신 e^x가 나온다.

 

AI에서 핵심인 이유는 *Cross Entropy 손실함수 때문이다. 

 

? Cross Entropy : 모델이 예측한 확률 분포가 정답과 얼마나 다른지 측정하는 함

 

이걸 미분해야 역전파가 가능한데, ln 미분이 바로 여기에 쓰인다.

  • d/dy ln(ŷ) = 1/ŷ

SoftMax + Croiss Entropy 미분할 때 매번 등장하는 공식이다.

(2). 왜 log가 손실함수에 쓰이는가?

예측값 ŷ이 정답에 가까울수록 손실이 0에 수렴하고, 틀릴수록 손실이 폭발적으로 커지는 특성이 필요한데

log가 그 곡선을 자연스럽게 만들어준다.

  • ŷ = 1.0(완벽) → -ln(1.0) = 0
  • ŷ = 0.5(애매) → -ln(0.5) = 0.69
  • ŷ = 0.1(틀림) → -ln(0.1) = 2.30

[3]. 함수의 극솟값과 극댓값

"함수의 그래프에서 주변보다 높은 점(극대), 낮은 점(극소)"

  • 극솟값 : 기울기가 0이면서 주변보다 낮은 지점으로 Loss의 최솟값 후보
  • 극댓값 : 기울기가 0이면서 주변보다 높은 지점으로 학습에서 피해야 할 지점

 

비유하자면 "산악 지형"이다

        극대
       /    \
      /      \        극대
     /        \      /    \
────/          \    /      \────
                \  /
                 \/
                극소
  • 극댓값 = 주변보다 높은 봉우리
  • 극솟값 = 주변보다 낮은 골짜기

"전체에서 가장 높은 것"이 아니라 주변과 비교해서 높고 낮은 것이다.

{1}. 핵심 조건

극값이 존재하려면 그 점에서 미분값이 0이여야 한다.

  • f`(x) = 0 → 기울기가 0 → 극대 또는 극소 후보

기울기가 0이라는 건 그 지점이 평평하다는 의미다.

{2}. 극대 vs 극소 구분법

f`(x) = 0인 점을 찾은 후, 그 전후 기울기 부호를 보면 된다.

  • 전후 기울기 : + → 0 → - = 극대 (올라가다 내려감)
  • 전후 기울기 : - → 0 → + = 극소 (내려가다 올라감

 

예를 들면

  • f(x) = x^3 - 3x 라는 수식을 미분하면
  • f`(x) = 3x^2 -3 =0 이 되며, 방정식을 풀면
  • x^2 = 1
  • x = 1, x = -1 으로 극값 후보를 구할 수 있다.

 

  • x = -1 : 전후 기울기 + → - = 극대, f(-1) = 2
  • x = 1 전후 기울기 - → + = 극소, f(1) = -2

 

AI에서 손실함수의 최솟값을 찾는 게 학습 목표다

dL/dW = 0 → 극값 후보 ⇒ 여기가 최솟값이길 바라는 것이다.

근데 문제가 있다.

  • 진짜 최솟값 (Global minimum) ⇒ 원하는 것
  • 가짜 최솟값 (local minimum) ⇒ 빠질 수 있는 함정
  • 안장점 (saddle point) ⇒ 기울기=0인데 극값 아님

경사하강법이 dL/dW = 0인 지점에 도달했다고 해서

항상 최적의 가중치는 아닌 이유가 여기에 있다. 

[4]. 편미분

"여러 변수 중 하나만 변수로 보고, 나머지는 상수로 고정한 채 미분"

 

편미분은 가중치가 수백만 개니까, 각각이 Loss에 얼마나 영향을 주는지

따로따로 계산하기 위해서 사용한다.

 

비유하자면 "커피 맛"이다.

커피 맛f가 두 가지에 의해 결정된다.

  • f(원두량, 물 양) = 커피 맛

편미분은 이렇게 묻는 것이다.

  • 물 양을 고정하고, 원두량만 바꾸면 맛이 얼마나 변하는가?
  • 원두량을 고정하고, 물 양만 바꾸면 맛이 얼마나 변하는가?

한 번에 하나씩만 건드리는 것이다.

 

표기법은 아래와 같다.

  • ∂f/ ∂x = x에 대한 f의 편미분 (y는 상수 취급)
  • ∂f/ ∂y = y에 대한 f의 편미분 (x는 상수 취급)

∂는 편미분 기호로 d 대신 사용한 것이다.

 

편미분 예를 들면

  • f(x, y) = x^2 + 3xy + y^2
  • ∂f/ ∂x = 2x + 3y (y는 상수 취급)
  • ∂f/ ∂y = 3x + 2y (x는 상수 취급)

 

AI에서 핵심인 이유는 

신경망 가중치는 하나가 아니라 수백만 개다.

  • L(W_1, W_2, W_3 .. W_n)

각 가중치가 손실에 얼마나 영향을 주는지 따로따로 계산해야 한다.

  • ∂L/ ∂W_1 : W_1이 손실에 미치는 영향
  • ∂L/ ∂W_2 : W_2이 손실에 미치는 영향
  • ∂L/ ∂W_n : W_n이 손실에 미치는 영향

{2}. 혼합 편미분

"편미분을 두 번 하는데, 서로 다른 변수로 순서대로 미분"

 

비유하자면 위의 커피 맛의 연장선이라고 할 수 있다.

커피 맛 비유에서

  • 물 양을 고정하고 원두량만 바꾼 변화율을 구했다.

혼합 편미분은 한 발 더 나아가

  • 원두랑 변화가 맛에 미치는 영향이 물 양에 따라 얼마나 달라지는가?

변화율의 변화율을 구하는 것이다.

 

표기법은 아래와 같다.

  • ∂^2f/ ∂y ∂x = x로 먼저 미분, 그 다움 y로 미분
  • ∂^2f/ ∂x ∂y = y로 먼저 미분, 그 다움 x로 미분

 

예를 들면

  • f(x, y) = x^2 + 3xy + y^2 같은 이차 방정식이 있다고 하자

1단계 : x로 편미분

  • ∂f/ ∂x = 2x + 3y

2단계 : 그 결과를 y로 편미분

  • ∂^2f/ ∂y ∂x = 3

순서를 바꿔도 결과는 같다.

 

AI에서 혼합 편미분 자체가 딥러닝에서 직접 쓰이는 경우는 드물다.

2차 미분 기반 최적화(뉴턴법 등)에서 등장하긴 하지만, 일반적인 경사하강법에선 잘 안쓴다.

{3}. 편미분 연쇄법칙

"여러 변수가 얽힌 함수를 연쇄적으로 편미분"

 

신경망은 함수가 겹겹이 쌓여 있어서, 안쪽 가중치의 영향을 계산하려면

바깥층부터 순서대로 미분을 전달해야 하기 때문에 사용한다. 

 

비유하자면 "공장 생산량"이다

  • 온도(x), 습도(y) → 재료 상태(z) = 최종 생산량(L)

온도가 변하면 모든게 변한다.

  • dL/dx = ∂L/ ∂z * ∂z/ ∂x

중간 단계를 거쳐서 전달되는 변화율을 계산하는 것이다.

(1). 공식

  • L = f(z)
  • z = g(x, y)

일 떄

 

  • ∂L/ ∂x = ∂L/ ∂z * ∂z/ ∂x
  • ∂L/ ∂y = ∂L/ ∂z * ∂z/ ∂y

이다.

 

AI에서 핵심인 이유는 신경망 역전파가 이 구조다.

  • L → 레이어3 → 레이어2 → 레이어1 → W
  • ∂L/ ∂W = ∂L/ ∂레이어3 * ∂레이어3/ ∂레이어2 * ∂레이어2/ ∂레이어1 * ∂레이어1/ ∂W

각 레이어를 거슬러 올라가면서 편미분 연쇄법칙을 반복 적용하는 게 역전파다. 

[5]. Gradient

"편미분 결과를 전부 모아놓은 벡터"

 

∂L/ ∂W_1, ∂L/ ∂W_2 ... 을 따로따로 쓰면 너무 길어지니까

이걸 하나의 벡터로 묶은 게 ∇L(W)이다

 

비유하자면 "산 지형도 나침반"이다.

편미분이 "동쪽 경사", "북쪽 경사"를 따로따로 재는 거라면,

Gradient는 그걸 합쳐서 가장 가파른 방향과 경사도를 동시에 알려주는 나침반이다.

{1}. 공식

  • f(x, y) 일 때
  • ∇f = [ ∂f/ ∂x, ∂f/ ∂y]
  • ∂f/ ∂x = x 방향
  • ∂f/ ∂y = y 방향

 

∇는 나블라(nabla)라고 읽는다.

나블라는 벡터 미적분학에서 공간의 각 지점에서의 변화율을 계산하는 

벡터 미분 연산자이다.

 

예를 들면

  • f(x, y) = x^2 + y^2
  • ∂f/ ∂x = 2x
  • ∂f/ ∂y = 2y

 

  • ∇f = [2x, xy]

x = 1, y = 2일 때 :

  • ∇f = [2, 4] ⇒ 이 지점에서 가장 가파른 방향이 된다. 

{2}. 시각화

빨간 화살표가 Gradient(오르막), 파란 경로가 그 반대 방향으로 이동하는 경사하강법이다.

등고선 안쪽일수록 Loss가 낮아지고, 최종 목표는 가운데 Global Min이다. 

 

경사하강법은 반대로 이동한다.

Gradient는 오르막을 가리키니까, 경사하강법은 화살표 반대 방향으로 이동한다.

 

AI에서 

  • ∇L(W) = [∂L/∂W₁, ∂L/∂W₂, ∂L/∂W₃ ... ∂L/∂Wₙ]

가중치가 수백만 개여도 Gradient 하나에 전부 담긴다.

 

  • W_new = W_old - lr * ∇L(W)

이 수식은 위쪽에서 정리한 dL/dW 수식인데

이 수식의 다변수 버전이 Gradient이다.

[6]. 전체 정리

{1}. 미분이란?

"x가 아주 조금 변할 때 f(x)가 얼마나 변하는가"의 비율이다.

 

AI에서는 손실함수의 기울기를 구해 가중치를 업데이트하는 데 사용한다.

  • W_new = W_old - lr * dL/dW

(1). 할선 /접선

구분 의미 수식
할선 두 점 사이 평균 변화율 Δy/Δx
접선 한 점에서의 순간 변화율  lim(h→0) (f(x+h)-f(x))/h

 

할선을 h →0으로 수렴시키면 접선 = 미분의 정의가 된다.

{2}. 도함수

특정 점의 기울기(숫자) -> 모든 점의 기울기(함수)로 확장한 것이다.

법칙 형태 핵심
거듭제곱 xⁿ → nxⁿ⁻¹ 지수를 앞으로 내리고 1 감소
곱 법칙 g·h → g'h + gh' 앞 미분*뒤 + 앞*뒤 미분
몫 법칙 g/h → (g'h - gh')/h² 앞 미분*뒤 - 앞*뒤 미분 / 뒤^2
연쇄 법칙 g(h(x)) → g'(h(x))·h'(x) 바깥 미분 * 안 미분
삼각함수 sin→cos, cos→-sin AI에서 거의 안 쓰임
지수와 로그 eˣ→eˣ, ln(x)→1/x Cross Entropy 미분에 직접 사용

{3}. 극솟값/극댓값

  • f`(x) = 0인 지점 = 극값 후보
  • 전후 기울기 + → - = 극대 | - → + = 극소
  • AI에서 손실함수 최솟값 탐색의 수학적 근거
  • 함정 : local minimum, saddle point

{4}. 편미분

여러 변수 중 하나만 변수로 보고 나머지는 상수 취급

  • f(x, y) = x^2 + 3xy + y2
  • ∂f/ ∂x = 2x + 3y (y 고정)
  • ∂f/ ∂y = 2x + 3y (x 고정)

 

혼합 편미분 : 서로 다른 변수로 두 번 미분. 순서 바꿔도 결과는 동일 (클레로 정리). AI에서 직접 사용은 드물다

편미분 연쇄법칙 : 중간 단계를 거쳐 전달되는 변화율로 역전파의 본질이다.

  • ∂L/ ∂W = ∂L/ ∂레이어 * ∂레이어3/ ∂레이어2 ... ∂레이어1/ ∂W

{5}. Gradient

편미분 결과를 전부 모은 벡터, ∇(나블라)로 표기

  • = [∂L/∂W₁, ∂L/∂W₂ ... ∂L/∂Wₙ]
  • W_new = W_old - lr * ∇L(W)

dL/dW의 다변수 버전이 Gradient이다.

 

미분은 "함수가 얼마나 빠르게 변하는가?"를 측정하는 도구이며, 할선에서 출밣하여 접선으로 수렴하는 과정이 미분의 본질이다.

도함수는 이를 모든 점에서 사용할 수 있게 함수로 확장하고, 

편미분과 그래디언트는 이를 다변수로 일반화한다.

 

결국 AI에서 미분은 손실함수의 기울기를 계산하여 가중치를 업데이트하는 경사하강법의 수학적 토대이며,

역전파는 편미분 연쇄법칙을 레이어 전체에 반복 전용한 것이다. 

 

'AI > 수학' 카테고리의 다른 글

선형대수 2  (0) 2026.05.16
선형대수 1  (0) 2026.03.04
통계 2  (0) 2025.12.29
통계 1  (0) 2025.12.27
베이즈 정리 : AI 수학 관점  (0) 2025.12.23