CNN 및 Convolution 종류

인공지능 대학원/AI 영상처리

CNN 및 Convolution 종류

열쩡왔쩡 2025. 5. 25. 17:19

✅ 1. CNN 및 Convolution 종류

🔹 CNN의 특징

로컬 정보에 강함 (이미지의 작은 영역을 잘 인식)
채널 수가 많은 이미지를 처리할 수 있음

🔹 Convolution 종류

종류 설명

Standard Convolution	모든 채널에 대해 필터를 적용한 후 합쳐서 출력
Depthwise Convolution	각 채널에 대해 개별 필터 적용 → 채널 간 정보 결합 없음
Pointwise Convolution (1x1 Conv)	각 픽셀 위치마다 채널을 통합 → 채널 간 정보 통합
✅ Depthwise + Pointwise = Depthwise Separable Convolution(모바일넷에서 사용)	계산량을 줄이면서도 성능을 유지하려는 구조

🔸 SE 블록 (Squeeze-and-Excitation Block)

채널 간 중요도를 학습해, 중요한 채널의 가중치를 높임
CNN이 놓치는 채널 간 상호작용을 보완

✅ 2. MobileNet 구조

🔹 등장 배경

모바일/임베디드 환경에서도 사용 가능한 경량 모델 필요
정확도 vs 효율성 트레이드오프 해결을 위한 시도

🔹 핵심 구성

Depthwise Separable Convolution 기반
Inverted Residual Block:
- ResNet의 구조를 뒤집은 형태
- 좁은-넓은-좁은 구조 사용

🔹 Linear Bottleneck

마지막에 ReLU를 사용하지 않고 선형(linear) 계층을 유지
출력의 표현력을 최대한 보존

🔹 Stride

Stride > 1: 특성맵 축소 효과 (Pooling과 유사)
정보 손실이 발생할 수 있어 주의 필요

✅ 3. 기타 모델 구조

🔹 EfficientNet

너비, 깊이, 해상도 세 가지 축을 동시에 조정하여 효율적인 구조 학습

🔹 NAS (Neural Architecture Search)

자동으로 모델 구조를 탐색
예: 어떤 레이어를 몇 개 쌓을지 자동으로 결정

🔹 Xception (Extreme Inception)

너비로 확장하는 구조
깊이보다 병렬 구조 강조 (Depthwise Conv + Residual 구조 포함)

✅ 4. Transformer 기반 이미지 모델

🔹 Swin Transformer

CNN의 지역 처리 개념을 Transformer에 도입
핵심 개념:
- Shifted Window Attention: 지역 내에서만 어텐션 수행
- Patch Merging: CNN의 pooling처럼 특성 요약

🔹 Vision Transformer의 단점 보완

Swin은 CNN처럼 로컬 피처를 유지
**피처 피라미드(FPN)**처럼 다양한 해상도 정보 반영

✅ 5. Few-shot & Fine-tuning 관련

🔹 Few-shot Learning

데이터가 적을 때, 기존 모델을 약간만 수정하여 학습하는 기법

🔹 Inductive Bias

시간 정보 등 선제 조건이 모델 성능 향상에 도움
데이터가 적을수록 기존 지식이 더 중요함

✅ 6. 데이터 증강 & 손실 함수

🔹 Cutout, CutMix (네이버 개발)

이미지 일부를 잘라내거나 섞어서 학습 데이터 다양화

🔹 Cross Entropy Loss

확률 기반 분류 문제에서 가장 많이 사용하는 손실 함수
모델의 과신(over-confidence) 방지

🔹 Log Likelihood

**최대 가능도 추정(Maximum Likelihood Estimation, MLE)**을 통해 모델 학습
그리디 방식으로 반복적인 최적화 수행

✅ 한 줄 요약

CNN과 트랜스포머 기반 영상처리 모델들은 정확도와 효율성의 균형을 맞추기 위해 다양한 구조(Depthwise, SE block, Swin 등)를 도입했고, 최근에는 소량 데이터 기반의 학습과 손실함수 최적화 등 실제 적용성을 높이기 위한 방법들이 함께 연구되고 있다.

728x90