인공지능 대학원/AI 영상처리
CNN 및 Convolution 종류
열쩡왔쩡
2025. 5. 25. 17:19
✅ 1. CNN 및 Convolution 종류
🔹 CNN의 특징
- 로컬 정보에 강함 (이미지의 작은 영역을 잘 인식)
- 채널 수가 많은 이미지를 처리할 수 있음
🔹 Convolution 종류
종류 설명
Standard Convolution | 모든 채널에 대해 필터를 적용한 후 합쳐서 출력 |
Depthwise Convolution | 각 채널에 대해 개별 필터 적용 → 채널 간 정보 결합 없음 |
Pointwise Convolution (1x1 Conv) | 각 픽셀 위치마다 채널을 통합 → 채널 간 정보 통합 |
✅ Depthwise + Pointwise = Depthwise Separable Convolution(모바일넷에서 사용) | 계산량을 줄이면서도 성능을 유지하려는 구조 |
🔸 SE 블록 (Squeeze-and-Excitation Block)
- 채널 간 중요도를 학습해, 중요한 채널의 가중치를 높임
- CNN이 놓치는 채널 간 상호작용을 보완
✅ 2. MobileNet 구조
🔹 등장 배경
- 모바일/임베디드 환경에서도 사용 가능한 경량 모델 필요
- 정확도 vs 효율성 트레이드오프 해결을 위한 시도
🔹 핵심 구성
- Depthwise Separable Convolution 기반
- Inverted Residual Block:
- ResNet의 구조를 뒤집은 형태
- 좁은-넓은-좁은 구조 사용
🔹 Linear Bottleneck
- 마지막에 ReLU를 사용하지 않고 선형(linear) 계층을 유지
- 출력의 표현력을 최대한 보존
🔹 Stride
- Stride > 1: 특성맵 축소 효과 (Pooling과 유사)
- 정보 손실이 발생할 수 있어 주의 필요
✅ 3. 기타 모델 구조
🔹 EfficientNet
- 너비, 깊이, 해상도 세 가지 축을 동시에 조정하여 효율적인 구조 학습
🔹 NAS (Neural Architecture Search)
- 자동으로 모델 구조를 탐색
- 예: 어떤 레이어를 몇 개 쌓을지 자동으로 결정
🔹 Xception (Extreme Inception)
- 너비로 확장하는 구조
- 깊이보다 병렬 구조 강조 (Depthwise Conv + Residual 구조 포함)
✅ 4. Transformer 기반 이미지 모델
🔹 Swin Transformer
- CNN의 지역 처리 개념을 Transformer에 도입
- 핵심 개념:
- Shifted Window Attention: 지역 내에서만 어텐션 수행
- Patch Merging: CNN의 pooling처럼 특성 요약
🔹 Vision Transformer의 단점 보완
- Swin은 CNN처럼 로컬 피처를 유지
- **피처 피라미드(FPN)**처럼 다양한 해상도 정보 반영
✅ 5. Few-shot & Fine-tuning 관련
🔹 Few-shot Learning
- 데이터가 적을 때, 기존 모델을 약간만 수정하여 학습하는 기법
🔹 Inductive Bias
- 시간 정보 등 선제 조건이 모델 성능 향상에 도움
- 데이터가 적을수록 기존 지식이 더 중요함
✅ 6. 데이터 증강 & 손실 함수
🔹 Cutout, CutMix (네이버 개발)
- 이미지 일부를 잘라내거나 섞어서 학습 데이터 다양화
🔹 Cross Entropy Loss
- 확률 기반 분류 문제에서 가장 많이 사용하는 손실 함수
- 모델의 과신(over-confidence) 방지
🔹 Log Likelihood
- **최대 가능도 추정(Maximum Likelihood Estimation, MLE)**을 통해 모델 학습
- 그리디 방식으로 반복적인 최적화 수행
✅ 한 줄 요약
CNN과 트랜스포머 기반 영상처리 모델들은 정확도와 효율성의 균형을 맞추기 위해 다양한 구조(Depthwise, SE block, Swin 등)를 도입했고, 최근에는 소량 데이터 기반의 학습과 손실함수 최적화 등 실제 적용성을 높이기 위한 방법들이 함께 연구되고 있다.
728x90