[1]. 미분
"함수가 특정 지점에서 얼마나 빠르게 변하는가?"를 측정하는 도구
현재 가중치에서 Loss의 순간 기울기를 구하기 위해 사용한다.
비유하자면 산 등반과 같다.
함수를 울퉁불퉁한 산이라고 생각하면 된다.
- 어떤 구간은 완만하고 (기울기 작음)
- 어떤 구간은 가파르고 (기울기 큼)
- 어떤 구간은 평평함 (기울기 = 0)
미분은 지금 내가 서 있는 바로 그 지점의 경사도를 알려준다.
즉, "지금 발 딛고 있는 곳이 얼마나 가파른가?"를 측정하는 도구이다.
{1}. 수학적 정의

- f(x+h) - f(x) : x가 h만큼 변했을 때, 함수값의 변화량
- h : x의 변화량
- h → 0 : 그 간격을 0에 수렴 (h값이 0에 가까워 지도록 점점 줄여감. 0이 되는 것이 아님)
즉, "x가 아주 조금 변할 때 f(x)가 얼마나 변하는가?"의 비율이다.
{2}. AI에서 미분의 역할
AI 학습의 목표는 딱 하나이다.
- 손실함수(Loss)를 최소화하는 가중치(W)를 찾는 것이다.
가중치 공간은 가중치 수만큼 차원이 생기고, 비선형 함수들이 쌓이면서 Loss 지형이 울퉁불퉁 해진다.
근데 무작정 가중치를 찾으러 다니면 평생 걸린다. 미분으로 지금 서 있는 곳의 경사를 계산하고,
내리막 방향으로 한 걸음씩 이동한다. 이걸 수식으로 표현하면 아래와 같다.
- W_new = W_oid - lr * dL/dW
| 기호 | 명칭 | 의미 |
| W_new | 새 가중치 | 업데이트 후 가중치 |
| W_old | 기존 가중치 | 업데이트 전 가중치 |
| lr | 학습률 (Learning Rate) | 한 걸음의 크기 |
| dL/dW | 미분값(기울기, Gradient) | 손실 L을 가중치 W로 미분화 값 |
| d | 미분 기호 | "~에 대한 변화율"을 나타냄 |
| L | 손실 (Loss) | 모델 예측이 얼마나 틀렸는지 |
| W | 가중치 (Weight) | 모델이 학습하는 파라미터 |
- 기울기가 양수면 오른쪽으로 올라가는 경사이기 때문에 왼쪽으로 이동해서 가중치를 감소
- 기울기가 음수면 왼쪽으로 올라가는 경사이기 때문에 오른쪽으로 이동해서 가중치를 증가
- 기울기가 0이면 평평한 지점이기 때문에 최솟값(안장점)에 도달한 것이다.
이게 경사하강법(Gradient Descent)이다.

{3}. 경사하강법 전체 흐름 요약
- 모델 예측
- 손실 계산
- 미분으로 기울기 파악
- 가중치 업데이트
- 반복
미분을 모르면 이 사이클 자체가 블랙박스가 된다.
{4}. 할선과 접선
(1). 할선 (Secant Line) = 평균
"두 점을 직선으로 이은 선"
서울 출발 ~ 부산 도착, 두 지점을 직선으로 이은 것
두 점 사이의 평균 변화율을 직선으로 그리기 위해 사용한다.

- f(x+h) - f(x) : y값의 변화량 (서울-부산 거리)
- h : x값의 변화량 (걸린 시간)
- m : 기울기 (평균 속도)
천천히 가든, 늦게 가든, 신경 안쓰고 출발점과 도착점을 보고 평균을 낸 것이다.
(2). 접선 (tangent Line) = 순간
"한 점에서 곡선에 살짝 닿는 직선"
속도위반 카메라가 찍힌 그 순간의 속도다.
h를 0으로 줄였을 때 한 점에서의 순간 변화율을 직선으로 그리기 위해 사용한다.

h가 0에 수렴할 순간이 접선이고, 이게 접선의 기울기가 된다.
(3). 핵심 관계
- 할선(평균 변화율)에서 h를 점점 줄이면 접선(순간변화율 = 미분)이 된다.
즉, 미분의 정의 자체가 할선을 접선으로 수렴시키는 과정이다.
AI에서는 손실함수 곡선 위 현재 가중치 위치에서 접선의 기울기 = dL/dW
이걸 구해야 어느 방향으로 내려갈지(가중치 조절) 알 수 있다.
[2]. 도함수
"모든 x(점)에서의 미분값을 하나의 함수로 정리한 것"
비유하자면 산 지형도와 같다.
- 미분 = 산의 특정 한 지점의 경사도
- 도함수 = 산 전체의 경사도를 지도로 그린 것
한 점만 아는 게 아니라, 모든 점에서의 기울기를 한 번에 표현한 함수다.
{1}. 미분과 도함수
| 구분 | 미분 | 도함수 |
| 결과 | 숫자 (특정 점의 기울기) | 함수 (모든 점의 기울기) |
| 예시 | x=2에서 기울기 = 4 | f`(x)=2x (어디서든 계산 가능) |
표기법은 아래와 같다.
- f`(x) = dy/dx = df/dx
| 표기 | 읽는 법 |
| f`(x) | "f 프라임 x" |
| dy/dx | "x에 대한 y의 미분" |
AI에서는
도함수가 있으면 가중치 W 값이 뭐든 바로 기울기를 계산할 수 있다.
- L(W) = W^2 이라면
- L`(W) =2W ⇒ 도함수
- W = 3일 때 기울기 = 2x3 = 6
- W = 5일 때 기울기 = 2x5 = 10
매번 lim 계산할 필요 없이 도함수에 W값만 대입하면 끝이다.
{2}. 도함수 구하는 방법들
(1). 거듭제곱 법칙 (power Rule)
"x^n을 미분하면 nx^n-1이 되는 기본 미분 규칙"
1. 공식

지수를 앞으로 내리고, 지수를 1 줄여라
2. 비유하자면 "계단 내려오기"이다.
예를 들어 x^4를 미분하면
- 지수 4를 앞으로 내리고 (계수로)
지수를 1 마이너스 해서
= x^3
- x^4 = 4x^3
- x^3 = 3x^2
- x^2 = 2x
- x = 1
- x^0 = 0
n이 정수가 아니여도 적용된다.
- f(x) = x^(1/2) = √x
- f`(x) = (1/2)x^(-1/2)
- f(x) = x^(-1) = 1/x
- f`(x) = -1x^(-2) = -1/x^2
AI에서는
손실함수가 L(W) = W^2 형태일 때 적용된다.
그냥 x 자리에 W가 들어간 것이다.
- 거듭제곱 법칙 : f(x) = x^2 → f`(x) = 2x
- 손실함수 : L(W) = W^2 → L`(W) = 2W
근데 L(W) = W2는 단순화한 예시이고,
실제 손실함수 *MSE는 아래처럼 생겼다.
- L(W) = y -Wx)^2
? MSE : 예측값과 실제값 사이의 오차를 수치로 표현한 것
W^2 형태가 아니다. 분배법칙하고, 거듭제곱 법칙으로 풀수 있기는 한데
지수가 커지면 전개가 불가능하거나 비효율적인 경우가 있기 때문에
이후에 정리할 연쇄 법칙이 필요하다.
(2). 곱 법칙 (Product Rule)
"두 함수의 곱을 미분하는 규칙"

- 앞 미분 x 뒤 + 앞 x 뒤 미분
비유하자면 "직사각형 넓이"이다.
가로 g(x), 세로 h(x)인 직사각형이 x가 변할 때 넓이가 어떻게 변하는가?
- 넓이 변화 = (가로 변화 x 현재 세로) + (현재 가로 x 세로 변화)
둘 다 동시에 변하니까 두 경우를 더해야 전체 변화량이 나온다.
예를 들면
- f(x) = x^2 * x^3
- g(x) = x^2 → g`(x) = 2x
- h(x) = x^3 → h`(x) = 3x^2
- f`(x) = 2x * x^3 + x^2 * 3x^2
- = 2x^4 + 3x^4
- 5x^4
AI에서 신경망 레이어는 가중치 x 활성화 함수 형태이다.
- f(W) = W x σ(x) (σ는 시그마 기호다)
- f(W) = g(W) * h(W)
이걸 W로 미분할 때 곱 법칙이 적용된다.
(3). 몫 법칙 (Quotient Rule)
"두 함수의 나눗셈을 미분하는 규칙"

- 앞 미분 * 뒤 - 뒤 미분 / 뒤^2
비유하자면 "반 평균 점수"이다.
전체 점수 합 g(x) / 학생 수 h(x) = 평균 점수
평균이 변하려면 :
- 점수 합이 올라가거나 (분자 변화)
- 학생 수가 바뀌거나 (분모 변화)
근데 분모가 커지면 평균은 내려가니까 부호가 "-(마이너스)"이다.
예를 들면 :
- f(x) = x^2 / x^3
- g(x) = x^2 → g`(x) = 2x
- h(x) = x^3 →h`(x) = 3x^2
- f`(x) = (2x * x^3 - x^2 * 3x^2) / (x^2)^2
- = (2x^4 - 3x^4) / x^4
- = -x^4 / x^4
- = 1/x^2
AI에서
Attention 메커니즘의 *SoftMax가 분수 형태다.
?SoftMax : 여러 숫자를 합이 1인 확률 분포로 바꿔주는 함수

여러 숫자를 전체 합이 1이 되는 확률로 변환해주는 수식이다.
이걸 미분할 때 몫 법칙이 적용된다.
(4). 연쇄 법칙 (Chain Rule)
"겹겹이 쌓인 함수를 바깥에서 안으로 순서대로 미분하는 규칙"

바깥 미분 * 안 미분
비유하자면 "톱니바퀴"이다.
톱니바퀴 3개가 연결되어 있다.
- A → B → C
A가 움직이면 B가 움직이고, B가 움직이면 C가 움직인다.
여기서 C가 얼마나 변하는가를 구하려면
(B → C 변화율) * (A → B 변화율)로 구할 수 있다.
함수도 똑같다. 안쪽 함수가 변하면 바깥 함수도 연쇄적으로 변한다.
예를 들면
- f(x) = (x^2 + 1)^3
- 안쪽 h(x) = x^2 + 1 → h`(x) = 2x
- 바깥 g(u) = u^3 →g`(u) = 3u^2
- f`(x) = g`(h(x) * h`(x)
- = 3(x^2 + 1)^2 * 2x
- = 6x(x^2 + 1)^2
- = 6x^5 + 12x^3 + 6x
AI에서 연쇄법칙이 핵심인 이유는 역전파 때문이다.
신경망은 함수가 겹겹이 쌓인 구조다
- 입력 x → 레이어 1 → 레이어 2 → ... → 손실 L
이걸 수식으로 쓰면 :
- L = f(g(h(x)))
가 되며,
손실 L을 x로 미분하려면 :
- dL/dx = dL/df * df/dg * dg/dh * dh/dx
이런 식으로 된다.
겹겹이 쌓인 연쇄 법칙 = 역전파
레이어가 100개면 연쇄 법칙을 100번 적용하는 것이다.
(5). 정리

{3}. 삼각함수 미분법
(1). 공식 정리
| 함수 | 미분 |
| sin(x) | cos(x) |
| cos(x) | -sin(x) |
| tan(x) | 1/cos^2(x) |
비유하자면 "파도"다
- sin(x)는 파도처럼 위아래로 움직인다.
- sin(x) : 파도의 높이
- cos(x) : 파도의 속도 (높이의 변화율)
파도가 최고점일 떄 속도는 0, 중간 일 떄 속도가 가장 빠른 것처럼
sin을 미분하면 cos이 나온다.
예를 들면
- f(x) = sin(x) → f`(x) = cos(x)
- f(x) = cos(x) → f`(x) = -sin(x)
- f(x) = sin(x^2) → 연쇄 법칙 적용으로 cos(x^2) * 2x
삼각함수 미분은 AI에서 거의 안 쓰인다. Positional Encoding에서 sin/cos가 등장하긴 하는데
미분할 일은 거의 없다.
{4}. 지수·로그 미분
(1). 공식 정리
| 함수 | 미분 |
| e^x | e^x |
| a^x | a^x * ln(a) |
| ln(x) | 1/x |
| log_a(x) | 1/(x * ln(a)) |
? ln = 자연로그
e^x를 미분했는데 자기 자신이 나오는 이유는
"복리 이자"에 비유할 수 있다.
e^x는 "지금 잔고가 곧 변화 속도"인 통장이다.
- 잔고 100만원 → 변화 속도 100만원/일
- 잔고 200만원 → 변화 속도 200만원/일
잔고가 많을수록 더 빠르게 늘어난다.
그래서 미분해도 자기 자신 e^x가 나온다.
AI에서 핵심인 이유는 *Cross Entropy 손실함수 때문이다.
? Cross Entropy : 모델이 예측한 확률 분포가 정답과 얼마나 다른지 측정하는 함

이걸 미분해야 역전파가 가능한데, ln 미분이 바로 여기에 쓰인다.
- d/dy ln(ŷ) = 1/ŷ
SoftMax + Croiss Entropy 미분할 때 매번 등장하는 공식이다.
(2). 왜 log가 손실함수에 쓰이는가?
예측값 ŷ이 정답에 가까울수록 손실이 0에 수렴하고, 틀릴수록 손실이 폭발적으로 커지는 특성이 필요한데
log가 그 곡선을 자연스럽게 만들어준다.
- ŷ = 1.0(완벽) → -ln(1.0) = 0
- ŷ = 0.5(애매) → -ln(0.5) = 0.69
- ŷ = 0.1(틀림) → -ln(0.1) = 2.30
[3]. 함수의 극솟값과 극댓값
"함수의 그래프에서 주변보다 높은 점(극대), 낮은 점(극소)"
- 극솟값 : 기울기가 0이면서 주변보다 낮은 지점으로 Loss의 최솟값 후보
- 극댓값 : 기울기가 0이면서 주변보다 높은 지점으로 학습에서 피해야 할 지점
비유하자면 "산악 지형"이다
극대
/ \
/ \ 극대
/ \ / \
────/ \ / \────
\ /
\/
극소
- 극댓값 = 주변보다 높은 봉우리
- 극솟값 = 주변보다 낮은 골짜기
"전체에서 가장 높은 것"이 아니라 주변과 비교해서 높고 낮은 것이다.
{1}. 핵심 조건
극값이 존재하려면 그 점에서 미분값이 0이여야 한다.
- f`(x) = 0 → 기울기가 0 → 극대 또는 극소 후보
기울기가 0이라는 건 그 지점이 평평하다는 의미다.
{2}. 극대 vs 극소 구분법
f`(x) = 0인 점을 찾은 후, 그 전후 기울기 부호를 보면 된다.
- 전후 기울기 : + → 0 → - = 극대 (올라가다 내려감)
- 전후 기울기 : - → 0 → + = 극소 (내려가다 올라감
예를 들면
- f(x) = x^3 - 3x 라는 수식을 미분하면
- f`(x) = 3x^2 -3 =0 이 되며, 방정식을 풀면
- x^2 = 1
- x = 1, x = -1 으로 극값 후보를 구할 수 있다.
- x = -1 : 전후 기울기 + → - = 극대, f(-1) = 2
- x = 1 전후 기울기 - → + = 극소, f(1) = -2
AI에서 손실함수의 최솟값을 찾는 게 학습 목표다
dL/dW = 0 → 극값 후보 ⇒ 여기가 최솟값이길 바라는 것이다.
근데 문제가 있다.
- 진짜 최솟값 (Global minimum) ⇒ 원하는 것
- 가짜 최솟값 (local minimum) ⇒ 빠질 수 있는 함정
- 안장점 (saddle point) ⇒ 기울기=0인데 극값 아님
경사하강법이 dL/dW = 0인 지점에 도달했다고 해서
항상 최적의 가중치는 아닌 이유가 여기에 있다.
[4]. 편미분
"여러 변수 중 하나만 변수로 보고, 나머지는 상수로 고정한 채 미분"
편미분은 가중치가 수백만 개니까, 각각이 Loss에 얼마나 영향을 주는지
따로따로 계산하기 위해서 사용한다.
비유하자면 "커피 맛"이다.
커피 맛f가 두 가지에 의해 결정된다.
- f(원두량, 물 양) = 커피 맛
편미분은 이렇게 묻는 것이다.
- 물 양을 고정하고, 원두량만 바꾸면 맛이 얼마나 변하는가?
- 원두량을 고정하고, 물 양만 바꾸면 맛이 얼마나 변하는가?
한 번에 하나씩만 건드리는 것이다.
표기법은 아래와 같다.
- ∂f/ ∂x = x에 대한 f의 편미분 (y는 상수 취급)
- ∂f/ ∂y = y에 대한 f의 편미분 (x는 상수 취급)
∂는 편미분 기호로 d 대신 사용한 것이다.
편미분 예를 들면
- f(x, y) = x^2 + 3xy + y^2
- ∂f/ ∂x = 2x + 3y (y는 상수 취급)
- ∂f/ ∂y = 3x + 2y (x는 상수 취급)
AI에서 핵심인 이유는
신경망 가중치는 하나가 아니라 수백만 개다.
- L(W_1, W_2, W_3 .. W_n)
각 가중치가 손실에 얼마나 영향을 주는지 따로따로 계산해야 한다.
- ∂L/ ∂W_1 : W_1이 손실에 미치는 영향
- ∂L/ ∂W_2 : W_2이 손실에 미치는 영향
- ∂L/ ∂W_n : W_n이 손실에 미치는 영향
{2}. 혼합 편미분
"편미분을 두 번 하는데, 서로 다른 변수로 순서대로 미분"
비유하자면 위의 커피 맛의 연장선이라고 할 수 있다.
커피 맛 비유에서
- 물 양을 고정하고 원두량만 바꾼 변화율을 구했다.
혼합 편미분은 한 발 더 나아가
- 원두랑 변화가 맛에 미치는 영향이 물 양에 따라 얼마나 달라지는가?
변화율의 변화율을 구하는 것이다.
표기법은 아래와 같다.
- ∂^2f/ ∂y ∂x = x로 먼저 미분, 그 다움 y로 미분
- ∂^2f/ ∂x ∂y = y로 먼저 미분, 그 다움 x로 미분
예를 들면
- f(x, y) = x^2 + 3xy + y^2 같은 이차 방정식이 있다고 하자
1단계 : x로 편미분
- ∂f/ ∂x = 2x + 3y
2단계 : 그 결과를 y로 편미분
- ∂^2f/ ∂y ∂x = 3
순서를 바꿔도 결과는 같다.
AI에서 혼합 편미분 자체가 딥러닝에서 직접 쓰이는 경우는 드물다.
2차 미분 기반 최적화(뉴턴법 등)에서 등장하긴 하지만, 일반적인 경사하강법에선 잘 안쓴다.
{3}. 편미분 연쇄법칙
"여러 변수가 얽힌 함수를 연쇄적으로 편미분"
신경망은 함수가 겹겹이 쌓여 있어서, 안쪽 가중치의 영향을 계산하려면
바깥층부터 순서대로 미분을 전달해야 하기 때문에 사용한다.
비유하자면 "공장 생산량"이다
- 온도(x), 습도(y) → 재료 상태(z) = 최종 생산량(L)
온도가 변하면 모든게 변한다.
- dL/dx = ∂L/ ∂z * ∂z/ ∂x
중간 단계를 거쳐서 전달되는 변화율을 계산하는 것이다.
(1). 공식
- L = f(z)
- z = g(x, y)
일 떄
- ∂L/ ∂x = ∂L/ ∂z * ∂z/ ∂x
- ∂L/ ∂y = ∂L/ ∂z * ∂z/ ∂y
이다.
AI에서 핵심인 이유는 신경망 역전파가 이 구조다.
- L → 레이어3 → 레이어2 → 레이어1 → W
- ∂L/ ∂W = ∂L/ ∂레이어3 * ∂레이어3/ ∂레이어2 * ∂레이어2/ ∂레이어1 * ∂레이어1/ ∂W
각 레이어를 거슬러 올라가면서 편미분 연쇄법칙을 반복 적용하는 게 역전파다.

[5]. Gradient
"편미분 결과를 전부 모아놓은 벡터"
∂L/ ∂W_1, ∂L/ ∂W_2 ... 을 따로따로 쓰면 너무 길어지니까
이걸 하나의 벡터로 묶은 게 ∇L(W)이다
비유하자면 "산 지형도 나침반"이다.
편미분이 "동쪽 경사", "북쪽 경사"를 따로따로 재는 거라면,
Gradient는 그걸 합쳐서 가장 가파른 방향과 경사도를 동시에 알려주는 나침반이다.
{1}. 공식
- f(x, y) 일 때
- ∇f = [ ∂f/ ∂x, ∂f/ ∂y]
- ∂f/ ∂x = x 방향
- ∂f/ ∂y = y 방향
∇는 나블라(nabla)라고 읽는다.
나블라는 벡터 미적분학에서 공간의 각 지점에서의 변화율을 계산하는
벡터 미분 연산자이다.
예를 들면
- f(x, y) = x^2 + y^2
- ∂f/ ∂x = 2x
- ∂f/ ∂y = 2y
- ∇f = [2x, xy]
x = 1, y = 2일 때 :
- ∇f = [2, 4] ⇒ 이 지점에서 가장 가파른 방향이 된다.
{2}. 시각화

빨간 화살표가 Gradient(오르막), 파란 경로가 그 반대 방향으로 이동하는 경사하강법이다.
등고선 안쪽일수록 Loss가 낮아지고, 최종 목표는 가운데 Global Min이다.
경사하강법은 반대로 이동한다.
Gradient는 오르막을 가리키니까, 경사하강법은 화살표 반대 방향으로 이동한다.
AI에서
- ∇L(W) = [∂L/∂W₁, ∂L/∂W₂, ∂L/∂W₃ ... ∂L/∂Wₙ]
가중치가 수백만 개여도 Gradient 하나에 전부 담긴다.
- W_new = W_old - lr * ∇L(W)
이 수식은 위쪽에서 정리한 dL/dW 수식인데
이 수식의 다변수 버전이 Gradient이다.
[6]. 전체 정리
{1}. 미분이란?
"x가 아주 조금 변할 때 f(x)가 얼마나 변하는가"의 비율이다.
AI에서는 손실함수의 기울기를 구해 가중치를 업데이트하는 데 사용한다.
- W_new = W_old - lr * dL/dW
(1). 할선 /접선
| 구분 | 의미 | 수식 |
| 할선 | 두 점 사이 평균 변화율 | Δy/Δx |
| 접선 | 한 점에서의 순간 변화율 | lim(h→0) (f(x+h)-f(x))/h |
할선을 h →0으로 수렴시키면 접선 = 미분의 정의가 된다.
{2}. 도함수
특정 점의 기울기(숫자) -> 모든 점의 기울기(함수)로 확장한 것이다.
| 법칙 | 형태 | 핵심 |
| 거듭제곱 | xⁿ → nxⁿ⁻¹ | 지수를 앞으로 내리고 1 감소 |
| 곱 법칙 | g·h → g'h + gh' | 앞 미분*뒤 + 앞*뒤 미분 |
| 몫 법칙 | g/h → (g'h - gh')/h² | 앞 미분*뒤 - 앞*뒤 미분 / 뒤^2 |
| 연쇄 법칙 | g(h(x)) → g'(h(x))·h'(x) | 바깥 미분 * 안 미분 |
| 삼각함수 | sin→cos, cos→-sin | AI에서 거의 안 쓰임 |
| 지수와 로그 | eˣ→eˣ, ln(x)→1/x | Cross Entropy 미분에 직접 사용 |
{3}. 극솟값/극댓값
- f`(x) = 0인 지점 = 극값 후보
- 전후 기울기 + → - = 극대 | - → + = 극소
- AI에서 손실함수 최솟값 탐색의 수학적 근거
- 함정 : local minimum, saddle point
{4}. 편미분
여러 변수 중 하나만 변수로 보고 나머지는 상수 취급
- f(x, y) = x^2 + 3xy + y2
- ∂f/ ∂x = 2x + 3y (y 고정)
- ∂f/ ∂y = 2x + 3y (x 고정)
혼합 편미분 : 서로 다른 변수로 두 번 미분. 순서 바꿔도 결과는 동일 (클레로 정리). AI에서 직접 사용은 드물다
편미분 연쇄법칙 : 중간 단계를 거쳐 전달되는 변화율로 역전파의 본질이다.
- ∂L/ ∂W = ∂L/ ∂레이어 * ∂레이어3/ ∂레이어2 ... ∂레이어1/ ∂W
{5}. Gradient
편미분 결과를 전부 모은 벡터, ∇(나블라)로 표기
- = [∂L/∂W₁, ∂L/∂W₂ ... ∂L/∂Wₙ]
- W_new = W_old - lr * ∇L(W)
dL/dW의 다변수 버전이 Gradient이다.
미분은 "함수가 얼마나 빠르게 변하는가?"를 측정하는 도구이며, 할선에서 출밣하여 접선으로 수렴하는 과정이 미분의 본질이다.
도함수는 이를 모든 점에서 사용할 수 있게 함수로 확장하고,
편미분과 그래디언트는 이를 다변수로 일반화한다.
결국 AI에서 미분은 손실함수의 기울기를 계산하여 가중치를 업데이트하는 경사하강법의 수학적 토대이며,
역전파는 편미분 연쇄법칙을 레이어 전체에 반복 전용한 것이다.
