인공지능 대학원/AI 영상처리

CNN 및 Convolution 종류

열쩡왔쩡 2025. 5. 25. 17:19

✅ 1. CNN 및 Convolution 종류

🔹 CNN의 특징

  • 로컬 정보에 강함 (이미지의 작은 영역을 잘 인식)
  • 채널 수가 많은 이미지를 처리할 수 있음

🔹 Convolution 종류

종류 설명

Standard Convolution 모든 채널에 대해 필터를 적용한 후 합쳐서 출력
Depthwise Convolution 각 채널에 대해 개별 필터 적용 → 채널 간 정보 결합 없음
Pointwise Convolution (1x1 Conv) 각 픽셀 위치마다 채널을 통합 → 채널 간 정보 통합
Depthwise + Pointwise = Depthwise Separable Convolution(모바일넷에서 사용) 계산량을 줄이면서도 성능을 유지하려는 구조

🔸 SE 블록 (Squeeze-and-Excitation Block)

  • 채널 간 중요도를 학습해, 중요한 채널의 가중치를 높임
  • CNN이 놓치는 채널 간 상호작용을 보완

✅ 2. MobileNet 구조

🔹 등장 배경

  • 모바일/임베디드 환경에서도 사용 가능한 경량 모델 필요
  • 정확도 vs 효율성 트레이드오프 해결을 위한 시도

🔹 핵심 구성

  • Depthwise Separable Convolution 기반
  • Inverted Residual Block:
    • ResNet의 구조를 뒤집은 형태
    • 좁은-넓은-좁은 구조 사용

🔹 Linear Bottleneck

  • 마지막에 ReLU를 사용하지 않고 선형(linear) 계층을 유지
  • 출력의 표현력을 최대한 보존

🔹 Stride

  • Stride > 1: 특성맵 축소 효과 (Pooling과 유사)
  • 정보 손실이 발생할 수 있어 주의 필요

✅ 3. 기타 모델 구조

🔹 EfficientNet

  • 너비, 깊이, 해상도 세 가지 축을 동시에 조정하여 효율적인 구조 학습

🔹 NAS (Neural Architecture Search)

  • 자동으로 모델 구조를 탐색
  • 예: 어떤 레이어를 몇 개 쌓을지 자동으로 결정

🔹 Xception (Extreme Inception)

  • 너비로 확장하는 구조
  • 깊이보다 병렬 구조 강조 (Depthwise Conv + Residual 구조 포함)

✅ 4. Transformer 기반 이미지 모델

🔹 Swin Transformer

  • CNN의 지역 처리 개념을 Transformer에 도입
  • 핵심 개념:
    • Shifted Window Attention: 지역 내에서만 어텐션 수행
    • Patch Merging: CNN의 pooling처럼 특성 요약

🔹 Vision Transformer의 단점 보완

  • Swin은 CNN처럼 로컬 피처를 유지
  • **피처 피라미드(FPN)**처럼 다양한 해상도 정보 반영

✅ 5. Few-shot & Fine-tuning 관련

🔹 Few-shot Learning

  • 데이터가 적을 때, 기존 모델을 약간만 수정하여 학습하는 기법

🔹 Inductive Bias

  • 시간 정보 등 선제 조건이 모델 성능 향상에 도움
  • 데이터가 적을수록 기존 지식이 더 중요함

✅ 6. 데이터 증강 & 손실 함수

🔹 Cutout, CutMix (네이버 개발)

  • 이미지 일부를 잘라내거나 섞어서 학습 데이터 다양화

🔹 Cross Entropy Loss

  • 확률 기반 분류 문제에서 가장 많이 사용하는 손실 함수
  • 모델의 과신(over-confidence) 방지

🔹 Log Likelihood

  • **최대 가능도 추정(Maximum Likelihood Estimation, MLE)**을 통해 모델 학습
  • 그리디 방식으로 반복적인 최적화 수행

✅ 한 줄 요약

CNN과 트랜스포머 기반 영상처리 모델들은 정확도와 효율성의 균형을 맞추기 위해 다양한 구조(Depthwise, SE block, Swin 등)를 도입했고, 최근에는 소량 데이터 기반의 학습과 손실함수 최적화 등 실제 적용성을 높이기 위한 방법들이 함께 연구되고 있다.

 

728x90