딥러닝 개념
1. 손실 함수 (Loss Function)
- 손실 함수(Loss) 는 모델의 예측값과 실제 정답의 차이를 수치로 나타냄
- 예: L = f(p) (L은 손실 값, p는 예측 결과)
- L은 스칼라값 (즉, 하나의 수)
- p는 스칼라/벡터/행렬 등 다양할 수 있음
손실 함수는 작을수록 좋다!
- 손실을 줄이는 것이 모델 학습의 목표
- 분류 문제에서는 크로스 엔트로피(Cross Entropy) 를 주로 사용
2. 경사 하강법 (Gradient Descent)
- 손실 값을 가장 작게 만드는 가중치(weight) 를 찾기 위한 알고리즘
- 손실 함수의 기울기(경사) 를 따라 가중치를 조금씩 바꿔감
러닝레이트 (learning rate 또는 alpha)
- 한 번에 이동하는 거리 (step size)
- 너무 작으면: 학습이 느림
- 너무 크면: 최소점을 지나쳐 버릴 수 있음 (학습 불안정)
학습이란?
손실을 줄이기 위해 가중치(W) 를 계속 조정하는 것
3. 가중치(W) vs 하이퍼파라미터
- 가중치(W): 학습을 통해 자동으로 찾아내는 값 (노드 사이 연결값)
- 하이퍼파라미터: 사람이 직접 정하는 값
- 예: 러닝레이트, 에폭 수, 배치 크기 등
4. ReLU 함수
- Rectified Linear Unit (ReLU): 비선형 활성화 함수 중 가장 많이 사용
- 정의:
- x > 0: 그대로 출력
- x <= 0: 0 출력
- 수식: f(x) = max(0, x)
ReLU 특징
- 계산이 간단하고, 비선형성을 도입할 수 있음
- 입력이 음수일 땐 0이 돼서 일부 뉴런은 작동하지 않게 됨 → 희소성 효과 (연결 일부 차단)
- 미분 시, x>0이면 1, x<0이면 0 (간단함)
5. MLP (다층 퍼셉트론)
- 가장 기본적인 신경망
- Linear 계층만 연속적으로 쌓음
- 입력은 1차원으로 펼쳐야 함 (예: 28x28 이미지는 784차원 벡터로 변환)
구성
- 입력 → Linear → ReLU → Linear → ... → 출력
6. CNN (합성곱 신경망)
- 이미지 분석에 특화된 구조
- Conv2D 필터를 통해 이미지의 특징(테두리, 색감, 질감 등)을 추출
- 마지막엔 Linear 계층으로 결과 출력
구성
- Conv2D → ReLU → MaxPooling → (반복) → Flatten → Linear
7. SGD (Stochastic Gradient Descent)
- 경사 하강법의 한 종류
- 전체 데이터가 아닌 일부 샘플(배치) 를 사용해 매번 업데이트
- 계산량이 적고, 빠르게 수렴 가능
- 단점: 지그재그로 움직이며 최솟값을 찾음
8. 과적합 (Overfitting) vs 일반화 (Generalization)
- 과적합: 학습 데이터에만 잘 맞고, 테스트 데이터에는 성능이 나쁨
- 일반화: 새로운 데이터에도 잘 맞는 모델
9. 과적합 방지 방법
1) Dropout
- 학습 중 일부 뉴런을 랜덤하게 꺼서 과도한 학습을 방지
- 일종의 앙상블 효과 (네트워크 하나로 여러 개처럼 학습됨)
- 예: 4개 중 2개만 학습에 사용
2) Regularization
- 가중치의 크기를 줄이도록 유도하여 일반화 향상 (예: L2 정규화)
3) Batch Normalization (배치 정규화)
- 각 층의 출력을 정규화해서 기울기 소실 문제 해결
- 특히 레이어가 깊어질수록 효과가 큼
- 일반적으로 Conv → BN → ReLU 순서로 많이 사용
10. ResNet (Residual Network)
- 레이어가 많아지면 기울기 소실로 학습이 어려움
- 이를 해결하기 위해 Skip Connection 도입
- 이전 출력값을 다음 레이어로 직접 전달
- 깊은 네트워크에서도 학습 가능하게 해줌 (30층 이상도 가능)
Loss | 예측과 실제의 차이 |
Optimizer | 손실을 줄이기 위해 가중치를 바꾸는 방법 |
ReLU | 비선형 함수, 음수는 0, 양수는 그대로 |
Dropout | 일부 뉴런 끄기, 과적합 방지 |
Regularization | 복잡한 모델 단순화, 일반화 능력 향상 |
Batch Norm | 출력 정규화, 깊은 네트워크 학습 안정화 |
CNN | 이미지 분석용 구조, 특징 추출에 유리 |
MLP | 기본 신경망, Fully Connected만 사용 |
SGD | 일부 샘플로 반복 학습, 효율적이나 지그재그 경로 |
728x90
'인공지능 대학원 > AI 영상처리' 카테고리의 다른 글
CNN 및 Convolution 종류 (0) | 2025.05.25 |
---|---|
전이학습 및 Semantic Segmentation (0) | 2025.05.16 |
인공신경망 MLP,CNN (0) | 2025.03.31 |
CIFAR-10로 CNN 이미지 분류 (0) | 2025.03.31 |
CNN(Convolutional Neural Network) (0) | 2025.03.20 |