미분

AI/수학

미분

페에이리 2026. 5. 13. 20:31

[1]. 미분

"함수가 특정 지점에서 얼마나 빠르게 변하는가?"를 측정하는 도구

현재 가중치에서 Loss의 순간 기울기를 구하기 위해 사용한다.

비유하자면 산 등반과 같다.

함수를 울퉁불퉁한 산이라고 생각하면 된다.

어떤 구간은 완만하고 (기울기 작음)
어떤 구간은 가파르고 (기울기 큼)
어떤 구간은 평평함 (기울기 = 0)

미분은 지금 내가 서 있는 바로 그 지점의 경사도를 알려준다.

즉, "지금 발 딛고 있는 곳이 얼마나 가파른가?"를 측정하는 도구이다.

{1}. 수학적 정의

f(x+h) - f(x) : x가 h만큼 변했을 때, 함수값의 변화량
h : x의 변화량
h → 0 : 그 간격을 0에 수렴 (h값이 0에 가까워 지도록 점점 줄여감. 0이 되는 것이 아님)

즉, "x가 아주 조금 변할 때 f(x)가 얼마나 변하는가?"의 비율이다.

{2}. AI에서 미분의 역할

AI 학습의 목표는 딱 하나이다.

손실함수(Loss)를 최소화하는 가중치(W)를 찾는 것이다.

가중치 공간은 가중치 수만큼 차원이 생기고, 비선형 함수들이 쌓이면서 Loss 지형이 울퉁불퉁 해진다.

근데 무작정 가중치를 찾으러 다니면 평생 걸린다. 미분으로 지금 서 있는 곳의 경사를 계산하고,

내리막 방향으로 한 걸음씩 이동한다. 이걸 수식으로 표현하면 아래와 같다.

W_new = W_oid - lr * dL/dW

기호	명칭	의미
W_new	새 가중치	업데이트 후 가중치
W_old	기존 가중치	업데이트 전 가중치
lr	학습률 (Learning Rate)	한 걸음의 크기
dL/dW	미분값(기울기, Gradient)	손실 L을 가중치 W로 미분화 값
d	미분 기호	"~에 대한 변화율"을 나타냄
L	손실 (Loss)	모델 예측이 얼마나 틀렸는지
W	가중치 (Weight)	모델이 학습하는 파라미터

기울기가 양수면 오른쪽으로 올라가는 경사이기 때문에 왼쪽으로 이동해서 가중치를 감소
기울기가 음수면 왼쪽으로 올라가는 경사이기 때문에 오른쪽으로 이동해서 가중치를 증가
기울기가 0이면 평평한 지점이기 때문에 최솟값(안장점)에 도달한 것이다.

이게 경사하강법(Gradient Descent)이다.

{3}. 경사하강법 전체 흐름 요약

모델 예측
손실 계산
미분으로 기울기 파악
가중치 업데이트
반복

미분을 모르면 이 사이클 자체가 블랙박스가 된다.

{4}. 할선과 접선

(1). 할선 (Secant Line) = 평균

"두 점을 직선으로 이은 선"

서울 출발 ~ 부산 도착, 두 지점을 직선으로 이은 것

두 점 사이의 평균 변화율을 직선으로 그리기 위해 사용한다.

f(x+h) - f(x) : y값의 변화량 (서울-부산 거리)
h : x값의 변화량 (걸린 시간)
m : 기울기 (평균 속도)

천천히 가든, 늦게 가든, 신경 안쓰고 출발점과 도착점을 보고 평균을 낸 것이다.

(2). 접선 (tangent Line) = 순간

"한 점에서 곡선에 살짝 닿는 직선"

속도위반 카메라가 찍힌 그 순간의 속도다.

h를 0으로 줄였을 때 한 점에서의 순간 변화율을 직선으로 그리기 위해 사용한다.

h가 0에 수렴할 순간이 접선이고, 이게 접선의 기울기가 된다.

(3). 핵심 관계

할선(평균 변화율)에서 h를 점점 줄이면 접선(순간변화율 = 미분)이 된다.

즉, 미분의 정의 자체가 할선을 접선으로 수렴시키는 과정이다.

AI에서는 손실함수 곡선 위 현재 가중치 위치에서 접선의 기울기 = dL/dW

이걸 구해야 어느 방향으로 내려갈지(가중치 조절) 알 수 있다.

[2]. 도함수

"모든 x(점)에서의 미분값을 하나의 함수로 정리한 것"

비유하자면 산 지형도와 같다.

미분 = 산의 특정 한 지점의 경사도
도함수 = 산 전체의 경사도를 지도로 그린 것

한 점만 아는 게 아니라, 모든 점에서의 기울기를 한 번에 표현한 함수다.

{1}. 미분과 도함수

구분	미분	도함수
결과	숫자 (특정 점의 기울기)	함수 (모든 점의 기울기)
예시	x=2에서 기울기 = 4	f`(x)=2x (어디서든 계산 가능)

표기법은 아래와 같다.

f`(x) = dy/dx = df/dx

표기	읽는 법
f`(x)	"f 프라임 x"
dy/dx	"x에 대한 y의 미분"

AI에서는

도함수가 있으면 가중치 W 값이 뭐든 바로 기울기를 계산할 수 있다.

L(W) = W^2 이라면
L`(W) =2W ⇒ 도함수

W = 3일 때 기울기 = 2x3 = 6
W = 5일 때 기울기 = 2x5 = 10

매번 lim 계산할 필요 없이 도함수에 W값만 대입하면 끝이다.

{2}. 도함수 구하는 방법들

(1). 거듭제곱 법칙 (power Rule)

"x^n을 미분하면 nx^n-1이 되는 기본 미분 규칙"

1. 공식

지수를 앞으로 내리고, 지수를 1 줄여라

2. 비유하자면 "계단 내려오기"이다.

예를 들어 x^4를 미분하면

지수 4를 앞으로 내리고 (계수로)
지수를 1 마이너스 해서

= x^3

x^4 = 4x^3
x^3 = 3x^2
x^2 = 2x
x = 1
x^0 = 0

n이 정수가 아니여도 적용된다.

f(x) = x^(1/2) = √x
f`(x) = (1/2)x^(-1/2)

f(x) = x^(-1) = 1/x
f`(x) = -1x^(-2) = -1/x^2

AI에서는

손실함수가 L(W) = W^2 형태일 때 적용된다.

그냥 x 자리에 W가 들어간 것이다.

거듭제곱 법칙 : f(x) = x^2 → f`(x) = 2x
손실함수 : L(W) = W^2 → L`(W) = 2W

근데 L(W) = W2는 단순화한 예시이고,

실제 손실함수 *MSE는 아래처럼 생겼다.

L(W) = y -Wx)^2

? MSE : 예측값과 실제값 사이의 오차를 수치로 표현한 것

W^2 형태가 아니다. 분배법칙하고, 거듭제곱 법칙으로 풀수 있기는 한데

지수가 커지면 전개가 불가능하거나 비효율적인 경우가 있기 때문에

이후에 정리할 연쇄 법칙이 필요하다.

(2). 곱 법칙 (Product Rule)

"두 함수의 곱을 미분하는 규칙"

앞 미분 x 뒤 + 앞 x 뒤 미분

비유하자면 "직사각형 넓이"이다.

가로 g(x), 세로 h(x)인 직사각형이 x가 변할 때 넓이가 어떻게 변하는가?

넓이 변화 = (가로 변화 x 현재 세로) + (현재 가로 x 세로 변화)

둘 다 동시에 변하니까 두 경우를 더해야 전체 변화량이 나온다.

예를 들면

f(x) = x^2 * x^3
g(x) = x^2 → g`(x) = 2x
h(x) = x^3 → h`(x) = 3x^2

f`(x) = 2x * x^3 + x^2 * 3x^2
= 2x^4 + 3x^4
5x^4

AI에서 신경망 레이어는 가중치 x 활성화 함수 형태이다.

f(W) = W x σ(x) (σ는 시그마 기호다)
f(W) = g(W) * h(W)

이걸 W로 미분할 때 곱 법칙이 적용된다.

(3). 몫 법칙 (Quotient Rule)

"두 함수의 나눗셈을 미분하는 규칙"

앞 미분 * 뒤 - 뒤 미분 / 뒤^2

비유하자면 "반 평균 점수"이다.

전체 점수 합 g(x) / 학생 수 h(x) = 평균 점수

평균이 변하려면 :

점수 합이 올라가거나 (분자 변화)
학생 수가 바뀌거나 (분모 변화)

근데 분모가 커지면 평균은 내려가니까 부호가 "-(마이너스)"이다.

예를 들면 :

f(x) = x^2 / x^3
g(x) = x^2 → g`(x) = 2x
h(x) = x^3 →h`(x) = 3x^2

f`(x) = (2x * x^3 - x^2 * 3x^2) / (x^2)^2
= (2x^4 - 3x^4) / x^4
= -x^4 / x^4
= 1/x^2

AI에서

Attention 메커니즘의 *SoftMax가 분수 형태다.

?SoftMax : 여러 숫자를 합이 1인 확률 분포로 바꿔주는 함수

여러 숫자를 전체 합이 1이 되는 확률로 변환해주는 수식이다.

이걸 미분할 때 몫 법칙이 적용된다.

(4). 연쇄 법칙 (Chain Rule)

"겹겹이 쌓인 함수를 바깥에서 안으로 순서대로 미분하는 규칙"

바깥 미분 * 안 미분

비유하자면 "톱니바퀴"이다.

톱니바퀴 3개가 연결되어 있다.

A → B → C

A가 움직이면 B가 움직이고, B가 움직이면 C가 움직인다.

여기서 C가 얼마나 변하는가를 구하려면

(B → C 변화율) * (A → B 변화율)로 구할 수 있다.

함수도 똑같다. 안쪽 함수가 변하면 바깥 함수도 연쇄적으로 변한다.

예를 들면

f(x) = (x^2 + 1)^3
안쪽 h(x) = x^2 + 1 → h`(x) = 2x
바깥 g(u) = u^3 →g`(u) = 3u^2

f`(x) = g`(h(x) * h`(x)
= 3(x^2 + 1)^2 * 2x
= 6x(x^2 + 1)^2
= 6x^5 + 12x^3 + 6x

AI에서 연쇄법칙이 핵심인 이유는 역전파 때문이다.

신경망은 함수가 겹겹이 쌓인 구조다

입력 x → 레이어 1 → 레이어 2 → ... → 손실 L

이걸 수식으로 쓰면 :

L = f(g(h(x)))

가 되며,

손실 L을 x로 미분하려면 :

dL/dx = dL/df * df/dg * dg/dh * dh/dx

이런 식으로 된다.

겹겹이 쌓인 연쇄 법칙 = 역전파

레이어가 100개면 연쇄 법칙을 100번 적용하는 것이다.

(5). 정리

{3}. 삼각함수 미분법

(1). 공식 정리

함수	미분
sin(x)	cos(x)
cos(x)	-sin(x)
tan(x)	1/cos^2(x)

비유하자면 "파도"다

sin(x)는 파도처럼 위아래로 움직인다.
sin(x) : 파도의 높이
cos(x) : 파도의 속도 (높이의 변화율)

파도가 최고점일 떄 속도는 0, 중간 일 떄 속도가 가장 빠른 것처럼

sin을 미분하면 cos이 나온다.

예를 들면

f(x) = sin(x) → f`(x) = cos(x)
f(x) = cos(x) → f`(x) = -sin(x)
f(x) = sin(x^2) → 연쇄 법칙 적용으로 cos(x^2) * 2x

삼각함수 미분은 AI에서 거의 안 쓰인다. Positional Encoding에서 sin/cos가 등장하긴 하는데

미분할 일은 거의 없다.

{4}. 지수·로그 미분

(1). 공식 정리

함수	미분
e^x	e^x
a^x	a^x * ln(a)
ln(x)	1/x
log_a(x)	1/(x * ln(a))

? ln = 자연로그

e^x를 미분했는데 자기 자신이 나오는 이유는

"복리 이자"에 비유할 수 있다.

e^x는 "지금 잔고가 곧 변화 속도"인 통장이다.

잔고 100만원 → 변화 속도 100만원/일
잔고 200만원 → 변화 속도 200만원/일

잔고가 많을수록 더 빠르게 늘어난다.

그래서 미분해도 자기 자신 e^x가 나온다.

AI에서 핵심인 이유는 *Cross Entropy 손실함수 때문이다.

? Cross Entropy : 모델이 예측한 확률 분포가 정답과 얼마나 다른지 측정하는 함

이걸 미분해야 역전파가 가능한데, ln 미분이 바로 여기에 쓰인다.

d/dy ln(ŷ) = 1/ŷ

SoftMax + Croiss Entropy 미분할 때 매번 등장하는 공식이다.

(2). 왜 log가 손실함수에 쓰이는가?

예측값 ŷ이 정답에 가까울수록 손실이 0에 수렴하고, 틀릴수록 손실이 폭발적으로 커지는 특성이 필요한데

log가 그 곡선을 자연스럽게 만들어준다.

ŷ = 1.0(완벽) → -ln(1.0) = 0
ŷ = 0.5(애매) → -ln(0.5) = 0.69
ŷ = 0.1(틀림) → -ln(0.1) = 2.30

[3]. 함수의 극솟값과 극댓값

"함수의 그래프에서 주변보다 높은 점(극대), 낮은 점(극소)"

극솟값 : 기울기가 0이면서 주변보다 낮은 지점으로 Loss의 최솟값 후보
극댓값 : 기울기가 0이면서 주변보다 높은 지점으로 학습에서 피해야 할 지점

비유하자면 "산악 지형"이다

        극대
       /    \
      /      \        극대
     /        \      /    \
────/          \    /      \────
                \  /
                 \/
                극소

극댓값 = 주변보다 높은 봉우리
극솟값 = 주변보다 낮은 골짜기

"전체에서 가장 높은 것"이 아니라 주변과 비교해서 높고 낮은 것이다.

{1}. 핵심 조건

극값이 존재하려면 그 점에서 미분값이 0이여야 한다.

f`(x) = 0 → 기울기가 0 → 극대 또는 극소 후보

기울기가 0이라는 건 그 지점이 평평하다는 의미다.

{2}. 극대 vs 극소 구분법

f`(x) = 0인 점을 찾은 후, 그 전후 기울기 부호를 보면 된다.

전후 기울기 : + → 0 → - = 극대 (올라가다 내려감)
전후 기울기 : - → 0 → + = 극소 (내려가다 올라감

예를 들면

f(x) = x^3 - 3x 라는 수식을 미분하면
f`(x) = 3x^2 -3 =0 이 되며, 방정식을 풀면
x^2 = 1
x = 1, x = -1 으로 극값 후보를 구할 수 있다.

x = -1 : 전후 기울기 + → - = 극대, f(-1) = 2
x = 1 전후 기울기 - → + = 극소, f(1) = -2

AI에서 손실함수의 최솟값을 찾는 게 학습 목표다

dL/dW = 0 → 극값 후보 ⇒ 여기가 최솟값이길 바라는 것이다.

근데 문제가 있다.

진짜 최솟값 (Global minimum) ⇒ 원하는 것
가짜 최솟값 (local minimum) ⇒ 빠질 수 있는 함정
안장점 (saddle point) ⇒ 기울기=0인데 극값 아님

경사하강법이 dL/dW = 0인 지점에 도달했다고 해서

항상 최적의 가중치는 아닌 이유가 여기에 있다.

[4]. 편미분

"여러 변수 중 하나만 변수로 보고, 나머지는 상수로 고정한 채 미분"

편미분은 가중치가 수백만 개니까, 각각이 Loss에 얼마나 영향을 주는지

따로따로 계산하기 위해서 사용한다.

비유하자면 "커피 맛"이다.

커피 맛f가 두 가지에 의해 결정된다.

f(원두량, 물 양) = 커피 맛

편미분은 이렇게 묻는 것이다.

물 양을 고정하고, 원두량만 바꾸면 맛이 얼마나 변하는가?
원두량을 고정하고, 물 양만 바꾸면 맛이 얼마나 변하는가?

한 번에 하나씩만 건드리는 것이다.

표기법은 아래와 같다.

∂f/ ∂x = x에 대한 f의 편미분 (y는 상수 취급)
∂f/ ∂y = y에 대한 f의 편미분 (x는 상수 취급)

∂는 편미분 기호로 d 대신 사용한 것이다.

편미분 예를 들면

f(x, y) = x^2 + 3xy + y^2
∂f/ ∂x = 2x + 3y (y는 상수 취급)
∂f/ ∂y = 3x + 2y (x는 상수 취급)

AI에서 핵심인 이유는

신경망 가중치는 하나가 아니라 수백만 개다.

L(W_1, W_2, W_3 .. W_n)

각 가중치가 손실에 얼마나 영향을 주는지 따로따로 계산해야 한다.

∂L/ ∂W_1 : W_1이 손실에 미치는 영향
∂L/ ∂W_2 : W_2이 손실에 미치는 영향
∂L/ ∂W_n : W_n이 손실에 미치는 영향

{2}. 혼합 편미분

"편미분을 두 번 하는데, 서로 다른 변수로 순서대로 미분"

비유하자면 위의 커피 맛의 연장선이라고 할 수 있다.

커피 맛 비유에서

물 양을 고정하고 원두량만 바꾼 변화율을 구했다.

혼합 편미분은 한 발 더 나아가

원두랑 변화가 맛에 미치는 영향이 물 양에 따라 얼마나 달라지는가?

변화율의 변화율을 구하는 것이다.

표기법은 아래와 같다.

∂^2f/ ∂y ∂x = x로 먼저 미분, 그 다움 y로 미분
∂^2f/ ∂x ∂y = y로 먼저 미분, 그 다움 x로 미분

예를 들면

f(x, y) = x^2 + 3xy + y^2 같은 이차 방정식이 있다고 하자

1단계 : x로 편미분

∂f/ ∂x = 2x + 3y

2단계 : 그 결과를 y로 편미분

∂^2f/ ∂y ∂x = 3

순서를 바꿔도 결과는 같다.

AI에서 혼합 편미분 자체가 딥러닝에서 직접 쓰이는 경우는 드물다.

2차 미분 기반 최적화(뉴턴법 등)에서 등장하긴 하지만, 일반적인 경사하강법에선 잘 안쓴다.

{3}. 편미분 연쇄법칙

"여러 변수가 얽힌 함수를 연쇄적으로 편미분"

신경망은 함수가 겹겹이 쌓여 있어서, 안쪽 가중치의 영향을 계산하려면

바깥층부터 순서대로 미분을 전달해야 하기 때문에 사용한다.

비유하자면 "공장 생산량"이다

온도(x), 습도(y) → 재료 상태(z) = 최종 생산량(L)

온도가 변하면 모든게 변한다.

dL/dx = ∂L/ ∂z * ∂z/ ∂x

중간 단계를 거쳐서 전달되는 변화율을 계산하는 것이다.

(1). 공식

L = f(z)
z = g(x, y)

일 떄

∂L/ ∂x = ∂L/ ∂z * ∂z/ ∂x
∂L/ ∂y = ∂L/ ∂z * ∂z/ ∂y

이다.

AI에서 핵심인 이유는 신경망 역전파가 이 구조다.

L → 레이어3 → 레이어2 → 레이어1 → W
∂L/ ∂W = ∂L/ ∂레이어3 * ∂레이어3/ ∂레이어2 * ∂레이어2/ ∂레이어1 * ∂레이어1/ ∂W

각 레이어를 거슬러 올라가면서 편미분 연쇄법칙을 반복 적용하는 게 역전파다.

[5]. Gradient

"편미분 결과를 전부 모아놓은 벡터"

∂L/ ∂W_1, ∂L/ ∂W_2 ... 을 따로따로 쓰면 너무 길어지니까

이걸 하나의 벡터로 묶은 게 ∇L(W)이다

비유하자면 "산 지형도 나침반"이다.

편미분이 "동쪽 경사", "북쪽 경사"를 따로따로 재는 거라면,

Gradient는 그걸 합쳐서 가장 가파른 방향과 경사도를 동시에 알려주는 나침반이다.

{1}. 공식

f(x, y) 일 때
∇f = [ ∂f/ ∂x, ∂f/ ∂y]
∂f/ ∂x = x 방향
∂f/ ∂y = y 방향

∇는 나블라(nabla)라고 읽는다.

나블라는 벡터 미적분학에서 공간의 각 지점에서의 변화율을 계산하는

벡터 미분 연산자이다.

예를 들면

f(x, y) = x^2 + y^2
∂f/ ∂x = 2x
∂f/ ∂y = 2y

∇f = [2x, xy]

x = 1, y = 2일 때 :

∇f = [2, 4] ⇒ 이 지점에서 가장 가파른 방향이 된다.

{2}. 시각화

빨간 화살표가 Gradient(오르막), 파란 경로가 그 반대 방향으로 이동하는 경사하강법이다.

등고선 안쪽일수록 Loss가 낮아지고, 최종 목표는 가운데 Global Min이다.

경사하강법은 반대로 이동한다.

Gradient는 오르막을 가리키니까, 경사하강법은 화살표 반대 방향으로 이동한다.

AI에서

∇L(W) = [∂L/∂W₁, ∂L/∂W₂, ∂L/∂W₃ ... ∂L/∂Wₙ]

가중치가 수백만 개여도 Gradient 하나에 전부 담긴다.

W_new = W_old - lr * ∇L(W)

이 수식은 위쪽에서 정리한 dL/dW 수식인데

이 수식의 다변수 버전이 Gradient이다.

[6]. 전체 정리

{1}. 미분이란?

"x가 아주 조금 변할 때 f(x)가 얼마나 변하는가"의 비율이다.

AI에서는 손실함수의 기울기를 구해 가중치를 업데이트하는 데 사용한다.

W_new = W_old - lr * dL/dW

(1). 할선 /접선

구분	의미	수식
할선	두 점 사이 평균 변화율	Δy/Δx
접선	한 점에서의 순간 변화율	lim(h→0) (f(x+h)-f(x))/h

할선을 h →0으로 수렴시키면 접선 = 미분의 정의가 된다.

{2}. 도함수

특정 점의 기울기(숫자) -> 모든 점의 기울기(함수)로 확장한 것이다.

법칙	형태	핵심
거듭제곱	xⁿ → nxⁿ⁻¹	지수를 앞으로 내리고 1 감소
곱 법칙	g·h → g'h + gh'	앞 미분뒤 + 앞뒤 미분
몫 법칙	g/h → (g'h - gh')/h²	앞 미분뒤 - 앞뒤 미분 / 뒤^2
연쇄 법칙	g(h(x)) → g'(h(x))·h'(x)	바깥 미분 * 안 미분
삼각함수	sin→cos, cos→-sin	AI에서 거의 안 쓰임
지수와 로그	eˣ→eˣ, ln(x)→1/x	Cross Entropy 미분에 직접 사용

{3}. 극솟값/극댓값

f`(x) = 0인 지점 = 극값 후보
전후 기울기 + → - = 극대 | - → + = 극소
AI에서 손실함수 최솟값 탐색의 수학적 근거
함정 : local minimum, saddle point

{4}. 편미분

여러 변수 중 하나만 변수로 보고 나머지는 상수 취급

f(x, y) = x^2 + 3xy + y2
∂f/ ∂x = 2x + 3y (y 고정)
∂f/ ∂y = 2x + 3y (x 고정)

혼합 편미분 : 서로 다른 변수로 두 번 미분. 순서 바꿔도 결과는 동일 (클레로 정리). AI에서 직접 사용은 드물다

편미분 연쇄법칙 : 중간 단계를 거쳐 전달되는 변화율로 역전파의 본질이다.

∂L/ ∂W = ∂L/ ∂레이어 * ∂레이어3/ ∂레이어2 ... ∂레이어1/ ∂W

{5}. Gradient

편미분 결과를 전부 모은 벡터, ∇(나블라)로 표기

= [∂L/∂W₁, ∂L/∂W₂ ... ∂L/∂Wₙ]
W_new = W_old - lr * ∇L(W)

dL/dW의 다변수 버전이 Gradient이다.

미분은 "함수가 얼마나 빠르게 변하는가?"를 측정하는 도구이며, 할선에서 출밣하여 접선으로 수렴하는 과정이 미분의 본질이다.

도함수는 이를 모든 점에서 사용할 수 있게 함수로 확장하고,

편미분과 그래디언트는 이를 다변수로 일반화한다.

결국 AI에서 미분은 손실함수의 기울기를 계산하여 가중치를 업데이트하는 경사하강법의 수학적 토대이며,

역전파는 편미분 연쇄법칙을 레이어 전체에 반복 전용한 것이다.

'AI > 수학' 카테고리의 다른 글

선형대수 2 (0)	2026.05.16
선형대수 1 (0)	2026.03.04
통계 2 (0)	2025.12.29
통계 1 (0)	2025.12.27
베이즈 정리 : AI 수학 관점 (0)	2025.12.23

현재글미분

페리

perry03 님의 블로그 입니다.

확률, Linear Regession, 딥러닝을 위한 수학, Logistic Regession, Cot, 확률과 통계, 머신러닝, 하네스 엔지니어링, graphrag, crv, 인공지능, Saliency Map, 선형대수, XAI, vs SHAP, GraphFrame, Rag, 그래프 오마카세, 리뷰 논문, AI,

Today :
Yesterday :

« 2026/06 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

미분

[1]. 미분

{1}. 수학적 정의

{2}. AI에서 미분의 역할

{4}. 할선과 접선

(1). 할선 (Secant Line) = 평균

(2). 접선 (tangent Line) = 순간

(3). 핵심 관계

[2]. 도함수

{1}. 미분과 도함수

{2}. 도함수 구하는 방법들

(1). 거듭제곱 법칙 (power Rule)

(2). 곱 법칙 (Product Rule)

(3). 몫 법칙 (Quotient Rule)

(4). 연쇄 법칙 (Chain Rule)

(5). 정리

{3}. 삼각함수 미분법

(1). 공식 정리

{4}. 지수·로그 미분

(1). 공식 정리

(2). 왜 log가 손실함수에 쓰이는가?

[3]. 함수의 극솟값과 극댓값

{1}. 핵심 조건

{2}. 극대 vs 극소 구분법

[4]. 편미분

{2}. 혼합 편미분

{3}. 편미분 연쇄법칙

(1). 공식

[5]. Gradient

{1}. 공식

{2}. 시각화

[6]. 전체 정리

{1}. 미분이란?

(1). 할선 /접선

{2}. 도함수

{3}. 극솟값/극댓값

{4}. 편미분

{5}. Gradient

'AI > 수학' 카테고리의 다른 글

'AI/수학'의 다른글

관련글

티스토리툴바