선형대수 2

AI/수학

선형대수 2

페에이리 2026. 5. 16. 10:34

[1]. 정방행렬 (Square Matrix )

행과 열의 크기가 같은 행렬

정방행렬 특징

차수 : 행과 열의 크기가 n으로 같으므로 보통 'n차 정방행렬'이고 함
주대각선 : 왼쪽에서 오른쪽 아래로 이어지는 대각선 성분들이 존재함

정방행렬에도 종류가 다양하다.

정방행렬은 딥러닝 모델의 Layer 구조를 설계할 때 자주 등장한다.

예를 들어 입력 데이터 512차원이고 출력도 512차원인 레이어의 가중치는

512 x 512 정방행렬이 된다.

또한

트랜스포머 모델에서 문장 내 단어들끼리의 관계를 계산할 때

단어 개수가 N개라면 N x N 정방행렬을 만들어

단어 간의 상관관계를 분석한다.

{1}. 상관변환

정방행렬 중 직교행렬을 이용한 좌표 변환

벡터의 길이와 각도를 그대로 유지하면서 좌표만 바꾸는 변환

정방행렬 Q가 위를 만족하면 직교행렬이다.

근데

위와 같이 변환하게 되면 상관변환이라고 한다.

벡터 공간을 회전하거나 반사시키는 변환이다. 그래서

길이
각도
거리

는 변하지 않는다.

[2]. 대각행렬 (Diagonal Matrix)

주 대각 성분을 제외한 모든 성분의 값이 0인 행렬이다.

하지만

주대각선 성분은 0일 수도 있고, 0이 아닐 수도 있다.

나머지 성분들은 반드시 0이어야 하나도.

대각행렬은 딥러닝의 효율성과 수치 안정성을 위해 사용한다.

특정 레이어에서 각 뉴런의 영향력을

독립적으로 조절하고 싶을 때 사용한다.

또한

행렬 곱셈을 할 때 A가 대각행렬이면 각 요소끼리만 곱하면 되므로

수만 개의 파라미터를 계산해야 하는 딥러닝에서 연산 비용을 줄일 수 있다.

[3]. 삼각행렬 (Trianglar Matrix)

삼각행렬은 대각선 기준으로 두 개로 나뉜다.

{1}. 상삼각행렬 (Upper Triangular Matrix)

주대각선을 기준으로 위쪽 부분에만 성분이 있고

아래쪽은 성분은 모두 0인 행렬이다.

특징 : i > j인 모든 성분은 a_ij = 0이다.

{2}. 하삼각행렬 (Lower Triangular Matrix)

주대각선을 기준으로 아래쪽 부분에만 성분이 있고,

위쪽 성분은 모두 0인 행렬이다.

특징 : i < j인 모든 성분은 a_ij = 0이다.

상/하삼각행렬은 생성형 모델의 학습 과정에서 필수다.

LLM이 문장을 생성할 때, 현재단어가 미래의 단어를 미리 보고 커닝하지 못하게 막아야 한다.

이때 미래 단어 위치의 값들을 0으로 날려버리기 위해서

상삼각행렬 형태의 마스크를 씌운다.

모델 최적화 과정에서 복잡한 가중치 행렬을 계산하기 쉬운

두 개의 삼각행렬 곱으로 나누어 처리한다.

[3]. 항등행렬 (Identity Matrix)

주대각선의 성분들만 1이고

나머지 성분들은 모두 0인 행렬이다.

곱셈에서 어떤 수에 1을 곱해도 자기 자신이 나오듯

어떤 행렬 A에 항등행렬 I를 곱해도 항상 자기 자신인 A가 나오기 때문에 항등이다.

A x I = I x A = A

항등 행렬은 딥러닝 모델의 정보 보존에 핵심적인 역할을 한다.

*ResNet 같은 깊은 신경망에서 입력 데이터 x의 정보가

층을 지나며 소실되지 않게 그대로 전달할 때 사용한다.

y = f(x) + i * x 구조를 통해

원래 정보(x)를 유지하며 학습 효율을 높인다.

또한

입력값이 변형되지 않고 층을 통과하게 유도함으로써

기울기 소실 문제를 방지하기도 한다.

[4]. 역행렬

n x n 행렬 A에 대해

곱해서 단위행렬이 나오게 하는 행렬을 행렬 A의 역행렬이라고 한다.

A x B = B x A = I

식으로 표현하면 위와 같고,

이것을 B가 행렬 A의 역행렬이라고 부른다.

역행렬을 구하는 법은 두 가지가 있다.

가우스-조단 소거법

Adjoint 행렬을 이용한 방법

{1}. 가우스-조던 소거법

"확장 행렬"을 사용해서 역행렬을 만들 수 있다.

역행렬을 구하고자 하는 행렬 A을 왼쪽에
단위행렬 I를 오른쪽에 배치
각 행의 실수곱을 통해 왼쪽 행렬을 단위행렬로 만들면
오른쪽에 역행렬 B가 나온다.

직접 해보면

A : 원래 행렬
I : 같은 크기의 단위행렬

이 상태에서 행 연산을 이용해 왼쪽을 단위행렬로 만들어준다.

두 행을 교환
한 행에 상수 곱하기
한 행에 다른 행의 배수를 더하기

위의 과정을 진행하면

행렬 A를 확장 행렬로 만들면 아래와 같다.

이 상태에서 아래 원소를 아래 수식과 같이 제거하면

Row2 = Row2 - 3 * Row1

이와 같이 된다.

그리고 피벗(중심점)을 1로 만들기 위해서

Row2 / (-2)를 하면

이렇게 되고,

여기서 왼쪽에 있는 2를 제거하기 위해

Row1 = Row1 - 2 * Row2를 하면

A의 역행렬을 완성할 수 있다.

{2}. Adjoint 행렬을 이용한 방법

역행렬을 구하기 위한 식은 위와 같다.

1. 행렬식 계산

det(A)를 구해야 하나도.

근데 det(A) = 0이면 역행렬은 없는 것이다.

2. 소행렬식 M_ij

원소 a_ij 기준으로

i행과 j열을 제거한 행렬의 행렬식을 구한다.

3. 여인수 C_ij

소행렬식에 부호를 붙인다.

부호 패턴은 아래와 같다.

4. Adjoint 행렬

여인수 행렬을 전치하면

5. 역행렬 계산

전치한 adj(A)에 1/det(A)를 곱하면 역행렬을 만들 수 있다.

{3}. 정방행렬의 역행렬 (코드)

NumPy의 linalg.inv를 사용하면 정방행렬의 역행렬을 구할 수 있다.

임의 행렬을 만들었는데

이 상태에서 linalg.inv를 사용해 주면

역행렬을 구할 수 있다.

이 상태에서

행렬 a와 역행렬 b를 서로 곱하면 단위행렬을 구할 수 있다.

{4}. 대칭행렬

전치행렬이 자기 자신과 같은 행렬이면 대칭행렬이다.

주대각선을 기준으로 값이 서로 같다.

a_12 = 2, a_21 = 2
a_13 = 3, a+31 = 3
…

즉, 전치행렬이 자신과 같게 된 것이다.

{5}. 직교행렬

전치행렬이 역행렬과 같다.

직교행렬의 열벡터나 행벡터는

서로 수직(직교)이고

길이가 1인 단위벡터

그렇기 때문에

서로 내적 = 0

자기 자신과 내적 = 1

예를 들어 아래와 같은 행렬 A가 있다고 하자.

여기서 전치행렬을 하면

이와 같이 되고,

서로 곱하면

직교행렬이 된다.

{6}. 유니 터리 행렬

위의 조건을 만족하면 유니터리 행렬이다.

켤레전치

전치
복소수 켤레

를 동시에 한 것으로

위와 같은 행렬 A를 전치하면

이렇게 된다.

여기서 허수만 -(마이너스)를 곱하면

켤레전치를 만들 수 있다.

유니터리 행렬은 직교행렬과 비슷하다

실수 행렬 → 직교 행렬
복소수 행렬 → 유니터리 행렬

예를 들면

이 행렬의 열벡터를 보면

첫 번째 열벡터는

이러하고

두 번째 열벡터는

이렇게 되고,

두 개의 열 벡터를 각각 자기 자신과의 내적을 구하면

위와 같이 길이가 1인 것을 알 수 있다

그리고 서로 다른 벡터의 내적을 구하면

서로 직교하는 것을 알 수 있다.

그래서

열벡터들이

길이는 1이고
서로 직교이면

유니 터리 행렬이 되는 것을 확인할 수 있다.

[2]. 벡터 노름과 거리함수

벡터의 "크기"또는 "길이"를 숫자 하나로 표현하는 방법이다.

위의 식은 Lp 노름의 일반식이다.

p 값에 따라 다른 노름이 될 수도 있다.

{1}. L1 노름 (맨해튼 거리)

각 성분의 절댓값을 모두 더한 것이다.

격자로 이루어진 도시에서 블록을 돌아가듯 이동하는 거와 같다고 해서

맨해튼 거리, 도시 블록 거리 등 불리는 이름이 다양하다.

딥러닝에서 L1은 Lasso 정규화에 쓰인다.

모델 가중치 중 중요하지 않은 것을 정확히 0으로 만들 어린 희소성 효과가 있다.

⇒ 불필요한 특징을 완전히 제거해 모델을 간결하게 만든다.

{2}. L2 노름 (유클리드 거리)

각 성분을 제곱해서 더한 뒤 투트를 씌운 것이다. ⇒ 직선거리와 같음

딥러닝에서 L2는 Ridge 정규화(가중치 감쇠, Weight Decay)에 쓰인다.

가중치를 0 근처로 작게 유지시켜서 모델이 특정 특징에 과도하게 의존하지 않게 막는다.

L1처럼 완전히 0으로 만들지는 않고, 전체적으로 골고루 작게 줄이는 효과다.

{3}. L∞ 노름 (체비쇼프 거리)

성분들 중 절댓값이 가장 큰 값만 취함

{4}. L1, L2 비교

L1과 L2의 차이를 직관적으로 보면 위와 같다.

L1의 단위구는 마름모 형태라서, 정화 경로가 꼭짓점에서 만나기 쉽다.

[3]. *공분산 행렬 (Convariance Matrix)

여러 변수들 사이의 관계(분산 + 공분산)를 하나의 행렬로 정리한 것
변수가 n개라면 n x n 정방행렬이 되고, 항상 대칭행렬이다.

대각 성분 : 각 변수 자신의 분산
비대각 성분 : 두 변수 사이의 공분산

공분산이 양수면 두 변수가 같은 방향으로 움직이고, 음수면 반대 방향, 0이면 무관함

딥러닝에서 공분산 행렬은 Batch Normalization, 데이터 화이트닝 등에서

데이터의 분포를 파악하고, 정규화할 때 사용

아래의 마할라노비스 거리과 PCA 계산의 핵심임

? Batch Normalization, 데이터 화이트닝

1. Batch Normalization

학습 중 각 레이어의 입력값을 미니배치 단위로 평균 0, 분산 1로 정규화함

→ 공장 컨베이어 벨트에서 제품 크기가 들쭉날쭉하면 기계가 오작동함

⇒ 이걸 정규화시켜서 일정한 범위로 만듦 = Batch Normalization

2. 데이터 화이트닝

데이터의 평균을 0, 분산을 1로 맞추고, 변수 간 상관관계까지 제거함

→ 학교 시험 점수가 수학은 평균 80점, 점수 범위가 70점에 몰림,

→ 영어는 평균 50점, 점수 범위는 60점에 몰렸다고 해보자

이러면 두 과목의 스케일이 달라서 비교하기가 어렵다

⇒ 이걸 화이트닝 하면 평균 0, 분산 1로 동일한 기준으로 비교가 가능하다.

[4]. 마할라노비스 거리 (Mahalanobis Distance)

유클리드 거리는 데이터 분포를 전혀 고려하지 않음
마할라노비스 거 린느 공분산 행렬을 이용해 데이터의 분포까지 감안한 거리임

μ : 데이터의 평균 벡터
Σ : 공분산 행렬
Σ−1 : 공분산 행렬의 역행렬 (분포를 보정해 줌)

예를 들어

키와 몸무게 데이터가 있을 때, 키는 퍼진 범위가 넓고 몸무게는 좁다면,

유클리드 거리로는 키 차이가 과도하게 반영됨

마할라노비스 거리는 이 스케일 차이와 상관관계를 보정해서 공정하게 측정함

이상치 탐지에 자주 쓰임. 새로운 데이터가 기존 분포에서 얼마나 멀리 떨어져 있는지 판단할 수 있기 때문이다.

[5]. 쿨백-라이블러 발산 (KL Divergence)

두 확률 분포 P와 Q가 얼마나 다른지를 측정하는 값

P를 기준으로 Q가 얼마나 다른가를 측정함

특징으로는

비대칭
KL 발산값은 항상 0 이상임
P와 Q가 완전히 같으면 0

딥러닝에서 KL 발산은 두 군데서 자주 등장함

VAE(변이형 오토인코더)에서 인코더가 만들어낸 잠재 분포를 정규분포와 가깝게 유지시키기 위해 손실 함수 안에 KL 발산으로 포함시킴
지식 증류에서 큰 교사 모델의 출력 분포와 작은 학생 모델의 출력 분포 차이를 KL 발산으로 측정하며 학습함

[6]. 주성분 분석 (PCA, Principal Componect Analysis)

고차원 데이터를 저 차원으로 압축하는 기법
데이터의 분산이 최대인 방향을 찾는 것이 핵심

PCA 절차

데이터를 평균 0으로 중심화함
공분산 행렬 Σ를 계산
Σ를 고윳값 분해함
고윳값이 큰 순서대로 고유벡터를 고름 → 이게 주성분
원하는 차원 수만큼 주성분을 선택해 투영함

Q의 열벡터가 주성분(방향), A의 대각 성분이 각 방향의 분산(고윳값) 임

딥러닝에서 PCA는 입력 데이터의 차원을 줄여

학습 속도를 높이거나 노이즈를 제거하거나 특징을 시각화할 때 사용

또한 얼굴 인식, 춴 시스템 등에서 직접 핵심 구성요소로 사용됨

[7]. 특잇값 분해 (SVD, Singular Value Decomposition)

정방행렬에서만 쓸 수 있는 고윳값 분해와 달리
임의의 m x n 행렬 A를 세 행렬의 곱으로 분해하는 방법

U : m x m 직교 행렬로 출력 공간의 기저 방향들이다
Σ : m x n 대각행렬로 대각 성분이 특잇값(σ₁ ≥ σ₂ ≥ … ≥ 0)
Vᵀ : n x n 직교행렬의 전치로 입력 공간의 기저 방향들이다

특잇값(σ)이 클수록 그 방향이 중요하다는 뜻이고,

SVD는 행 축소 SVD (Truncated SVD)로 압축에 쓰임.

특이값이 큰 k개만 남기고 나머지를 버리면 행렬을 근사적으로 표현하면서 용량을 크게 줄일 수 있음

이미지 압축, 추천 시스템의 행렬 분해, 자연어 처리의 LSA 등에 쓰이는 핵심 원리다

딥러닝에서 SVD는 가중치 행렬의 Low-Rank Approximation에 쓰인다.

대형 언어 모델을 경량화하는 LoRA 기법도 이 아이디어에 기반함

[8]. 무어-펜로즈 유사 역행렬 (Moore-Penrose Pseudoinverse)

정방행렬이 아니거나, 역행렬이 존재하지 않는 경우에 역행렬과 유사한 역할을 하는 행렬

Σ+는 Σ의 0이 아닌 대각 성분을 역수로 바꾸고, 행/열 구조를 전치시킨 것

0인 특잇값은 그대로 0으로 둠. 역수를 취하면 무한대가 되기 때문에

유사 역행렬은 다음 성질을 만족함

AA^+A = A
A^+AA^+ = A^+
(AA^+)^T = AA^+
(A^+A)^T = A^+A

이 네 조건을 무어-펜로즈 조건이라 함

유사 역행렬이 가장 많이 쓰이는 곳은 최소 제곱법이다.

방정식 Ax = b에서 해가 없거나 무한히 많을 때, 유사 역행렬을 사용해 최선의 근사해를 구한다

Overdetermined (m > n) : 오차가 가장 작은 최소 제곱해
Underdetermined (m < n) : 오차가 0이면서 노름이 가장 작은 해

딥러닝에서 선형 레이어의 가중치 초기화, *그래디언트 계산이 불안정할 때의 보완,

선형 회귀 모델의 정규 방정식 풀이에 쓰임

? 그래디언트 계산

표 정리

개념	핵심 역할	딥러닝 활용
L1 노름	희소성 유도	Lasso 정규화, 희소 특징 선택
L2 노름	균등 수축	Ridge 정규화, Weight Decay
공분산 행렬	변수 간 관계	Batch Normalization, 데이터 분석
마할라노비스 거리	분포 보정 거리	이상치 탐지, 거리 학습
KL 발산	분포 차이 측정	VAE, 지식 증류
PCA	차원 축소	특징 압축, 시각화, 노이즈 제거
SVD	행렬 분해	추천 시스템, 이미지 압축, LoRA
유사 역행렬	역행렬 대체	최소 제곱 풀이, 선형 회귀

[?]. 궁금한 점

{1}. 왜 미래의 단어를 커닝하지 못하게 막아야 하나?

1. 딥러닝의 목적은 예측이다.

나는 학교에 [?]라는 문장이 있을 때

모델은 앞의 단어들만 보고 '간다'를 추론해야 한다.

근데 모델이 미래의 단어 '간다'를 미리 볼 수 있다면

모델은 추론하는 법을 배우는 대신 정답을 베껴서 맞히게 되는 것이다.

2. 병렬 연산과 마스크의 필용성

통째로 계산하는 효율성 현대 LLM은 단어를 하나씩 입력받지 않고,

문장 전체를 입력받아 병렬 계산함으로써 GPU 연산 효율을 극대화한다.

눈가림의 모순 해결 데이터를 한 번에 주면서도 미래 단어는 보지 못하게 해야 하는 모순이 생긴다.

계산 과정에서 특정 영역을 물리적으로 차단하는 어텐션 마스크로 해결할 수 있다.

3. 상/하삼각 행렬

상삼각행렬 : 마스크 (가리는 영역) 주대각선 기준 오른쪽 위 영역으로, 미래 단어가 위치한 자리다.

이 영역에 마스크를 씌워 값을 전부 로 날린 뒤, Softmax를 거치면 0이 되어 해당 위치의 정보가 완전히 차단된다.

하삼각행렬 : 결과물 (살아남는 영역) 주대각선 기준 왼쪽 아래 영역으로, 상삼각행렬이 가리고 남은 자리다.

마스크의 영향을 받지 않아 실제 어텐션 값이 그대로 유지되며, 모델은 이 영역만을 참고해 연산을 수행한다.

{2}. ResNet

딥러닝에서 매우 깊은 *CNN을 학습할 수 있도록 만든 신경망 구조

2015년 Kaiming He 등이 발표한

Deep Residual Learning for Image Recognition에서 제안된 내용이다.

? CNN (학성곱 신경망)

이미지와 영상 등 시각적 데이터를 분석한 데 특화된 딥러닝 알고리즘

(1). 기존 문제점

레이어가 깊어질수록

학습이 어렵고,
정확도가 오히려 떨어짐

예 :

20-layer CNN = 정확도 높음
100-layer CNN = 정확도 낮음

Overfitting 문제가 아닌 학습 자체가 어려워져서 정확도가 낮아진 것이다.

(2). ResNet의 아이디어

ResNet은 *Skip Connection을 도입했다.

*Skip Connection

딥러닝에서 사용되는 네트워크 구조 중 하나

입력 데이터가 네트워크의 여러 레이어를 건너뛰어

출력 레이어에 직접 연결되는 방식

그니까

기존 CNN은

x → layer1 → layer2 → layer3 →.. → output

이렇게 순서대로 진행했다면

ResNet은

x ─────────┐

↓

x → layer1 → layer2 →... → ouput

구조로 입력값 x를 건너뛰어서 뒤로 전달하는 구조이다.

(3). Residual Learning

ResNet은 출력을 직접 학습하지 않는다.

*잔차(residual)를 학습한다.

또한

모델 학습 초기에 가중치 행렬을 항등행렬에 가깝게 설정하여

입력값이 변형되지 않고 층을 통과하게 유도함으로써

기울기 소실 문제를 방지하기도 한다.

일반 CNN은

H(x)를 학습하지만

ResNet은

H(x) = F(x) + x

x : 입력
F(x) : residual 함수
H(x) : 최종 출력

= F(x) = H(x) - x

을 학습하는 구조로 학습을 쉽게 만든다.

? 잔차

실제 값에서 추정 값을 뺸 값

입력값과 출력값의 차이

y = f(x) + x

입력 x를 넣으면 연산을 거쳐 새로운 출력 y = f(x)를 만드들려고함
잔차 연결은 모델이 입력 x를 얼마나 변화시킬 것인가에 집중

수식에서 f(x)가 잔차이다.
모델은 입력값 x를 정답으로 만들기 위해
더하거나 빼야 할 나머지만 학습하면 된다.

1. 왜 씀?

딥러닝 층이 깊어지면 깊어질수록,

학습을 위한 데이터 신호(기울기)가 뒤로 갈수록,

사라지는 기울기 소실 문제가 발생

잔차를 이용하면

연결은 입력 x를 연산 없이 다음 층으로 바로 전달하는 지름길 역할을 해주고,
층이 깊어져도 지름길 때문에 최소한 입력값 x만큼의 정보는 끝까지 전달된다.

= 그래서 1000층 1000000층이어도 안정적으로 학습할 수 있게 된다.

{3}. 공분산

두 변수가 함께 얼마나 변하는지를 나타내는 값

예를 들어

키가 클수록 몸무게도 많이 나가는 경향이 있다.

⇒ 두 변수가 “같은 방향”으로 움직임

= 공분산 (+)

공부시간이 길수록 게임시간이 줄어듦

⇒ 두 변수가 “반대 방향”으로 움직임

= 공분산 (-)

(1). 수식

항	의미
Xi−Xˉ	X가 평균에서 얼마나 벗어났는지
Yi−Yˉ	Y가 평균에서 얼마나 벗어낫는지
둘을 곱함	같은 방향이면(+), 반대 방향(-)

(2). 단점

크기 비교가 어려움

공분산이 500이면 관계가 강한 건지 약한 건지 알 수 없음

⇒ 이걸 해결하기 위해 상관계수 사용

공분산을 -1~1 사이로 정규화한 것

출처 :

https://mvje.tistory.com/80

[AI/ML] 딥러닝 정규화 Regularization : Weight Decay, Batch Normalization, Early Stopping

딥러닝 모델은 대규모 데이터셋과 복잡한 신경망 구조를 사용하여 높은 예측 성능을 달성할 수 있다. 하지만 모델이 학습 데이터에 지나치게 맞춰져서 새로운 데이터에 대한 일반화 능력이 떨

mvje.tistory.com

https://modulabs.co.kr/blog/loss-function-machinelearning

손실함수 (Loss Function)

머신러닝과 딥러닝에서 아주 중요한 개념 중 하나인 손실함수에 대해 이야기해보려고 합니다. 손실함수는 모델의 학습을 이끄는 나침반과 같은 역할을 합니다. 이번 글에서는 손실함수가 무엇

modulabs.co.kr

https://hsm-edu.tistory.com/1266

공분산이란 무엇인가 (정의와 의미)

역사적 정황을 정확히 알 수는 없지만 공분산은 분산에서 유래된 개념인 것 같습니다. 분산을 먼저 발견하고, 이후에 공분산을 떠올린 것입니다. 공분산은 공+분산인데, 여기서 공은 함께, 여럿

hsm-edu.tistory.com

https://velog.io/@kgj9818/선형대수학-행렬3-정방행렬-및-행렬의-종류

[선형대수학] 행렬(3) - 정방행렬 및 행렬의 종류

이번 포스팅은 정방행렬(Square matrix)에 대해 다뤄보겠습니다.

velog.io

https://stevenkim1217.tistory.com/entry/ResNet-개념-정리

[논문정리] ResNet 개념 정리

*본 내용은 논문의 상세한 분석이 아닌, 간단한 복기용 정리입니다. Residual Learning ResNet의 핵심인 Residual Learning입니다. 기존 방식은 input으로 x를 받아서 두개의 weight layer을 거치고, 학습을 통해

stevenkim1217.tistory.com

https://wikidocs.net/202621

Skip Connection (스킵 연결)

### 정의 Skip Connection이란 딥러닝에서 사용되는 네트워크 구조 중 하나이다. 이는 입력 데이터가 네트워크의 여러 레이어를 건너뛰어 출력 레이어에 직접 연결되는 방…

wikidocs.net

https://jangpiano-science.tistory.com/116

[회귀]오차와 잔차, 표준화 잔차

오차와 잔차는 표기방식부터, 해석, 조건까지 정확하게 다른 값입니다. 오차(error)는 모집단(population)으로부터 추정한 회귀식으로부터 얻은 예측값과 실제 관측값의 차이를 이야기 합니다. 여기

jangpiano-science.tistory.com

https://study2give.tistory.com/entry/선형대수학-역행렬 Inverse-matrix

[선형대수학] 역행렬(Inverse matrix)

이번 포스팅에서는 역행렬에 대해 다뤄보겠습니다. 역행렬(Inverse matrix)이란? $n$ x $n$행렬 $A$에 대하여, 곱하여 단위행렬이 나오게하는 행렬을 행렬 $A$의 역행렬이라 하며, 식으로 나타내면 아래

study2give.tistory.com

https://portrait-of-youngblood.tistory.com/12

7. 수반행렬과 여인수 전개 (Adjoint Matrix and Minor Expansion)

오늘은 행렬식을 구하는 또다른 방법인 "여인수 전개"에 대해 알아보자 여인수 전개에 대해 배우기 전에 여러가지 정의들을 알고 넘어가야 한다. 소행렬식, 여인수, 수반행렬의 개념이 처음 등

portrait-of-youngblood.tistory.com

'AI > 수학' 카테고리의 다른 글

미분 (0)	2026.05.13
선형대수 1 (0)	2026.03.04
통계 2 (0)	2025.12.29
통계 1 (0)	2025.12.27
베이즈 정리 : AI 수학 관점 (0)	2025.12.23

현재글선형대수 2

페리

perry03 님의 블로그 입니다.

Logistic Regession, XAI, Saliency Map, 머신러닝, 확률과 통계, graphrag, Linear Regession, vs SHAP, crv, AI, GraphFrame, 그래프 오마카세, Rag, Cot, 하네스 엔지니어링, 선형대수, 리뷰 논문, 인공지능, 딥러닝을 위한 수학, 확률,

Today :
Yesterday :

페리

선형대수 2

[1]. 정방행렬 (Square Matrix )

{1}. 상관변환

{1}. 가우스-조던 소거법

{2}. Adjoint 행렬을 이용한 방법

{3}. 정방행렬의 역행렬 (코드)

{4}. 대칭행렬

{5}. 직교행렬

{6}. 유니 터리 행렬

[2]. 벡터 노름과 거리함수

{1}. L1 노름 (맨해튼 거리)

{2}. L2 노름 (유클리드 거리)

{3}. L∞ 노름 (체비쇼프 거리)

{4}. L1, L2 비교

[3]. *공분산 행렬 (Convariance Matrix)

[4]. 마할라노비스 거리 (Mahalanobis Distance)

[5]. 쿨백-라이블러 발산 (KL Divergence)

[6]. 주성분 분석 (PCA, Principal Componect Analysis)

[7]. 특잇값 분해 (SVD, Singular Value Decomposition)

[8]. 무어-펜로즈 유사 역행렬 (Moore-Penrose Pseudoinverse)

표 정리

[?]. 궁금한 점

{1}. 왜 미래의 단어를 커닝하지 못하게 막아야 하나?

{2}. ResNet

(1). 기존 문제점

(2). ResNet의 아이디어

(3). Residual Learning

{3}. 공분산

(1). 수식

(2). 단점

출처 :

'AI > 수학' 카테고리의 다른 글

'AI/수학'의 다른글

티스토리툴바

« 2026/06 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

선형대수 2

[1]. 정방행렬 (Square Matrix )

{1}. 상관변환

{1}. 가우스-조던 소거법

{2}. Adjoint 행렬을 이용한 방법

{3}. 정방행렬의 역행렬 (코드)

{4}. 대칭행렬

{5}. 직교행렬

{6}. 유니 터리 행렬

[2]. 벡터 노름과 거리함수

{1}. L1 노름 (맨해튼 거리)

{2}. L2 노름 (유클리드 거리)

{3}. L∞ 노름 (체비쇼프 거리)

{4}. L1, L2 비교

[3]. *공분산 행렬 (Convariance Matrix)

[4]. 마할라노비스 거리 (Mahalanobis Distance)

[5]. 쿨백-라이블러 발산 (KL Divergence)

[6]. 주성분 분석 (PCA, Principal Componect Analysis)

[7]. 특잇값 분해 (SVD, Singular Value Decomposition)

[8]. 무어-펜로즈 유사 역행렬 (Moore-Penrose Pseudoinverse)

표 정리

[?]. 궁금한 점

{1}. 왜 미래의 단어를 커닝하지 못하게 막아야 하나?

{2}. ResNet

(1). 기존 문제점

(2). ResNet의 아이디어

(3). Residual Learning

{3}. 공분산

(1). 수식

(2). 단점

출처 :

'AI > 수학' 카테고리의 다른 글

'AI/수학'의 다른글

관련글

티스토리툴바