인공지능 대학원/AI 영상처리

딥러닝 이전의 영상 인식 및 딥러닝 기반 기술

열쩡왔쩡 2025. 3. 9. 16:38

1. 딥러닝 이전의 영상 인식 기술

1.1 비올라-존스 얼굴 검출 (Viola-Jones Face Detection, 2001)

  • 단순한 필터를 여러 개 사용하여 얼굴을 검출하는 기법
  • Haar-like Feature를 활용해 얼굴 특징을 빠르게 찾고, AdaBoost 알고리즘으로 중요한 특징을 선별하여 검출 속도를 높임
  • Cascade 구조를 사용하여 단계적으로 검출 정확도를 높임
  • 실시간 얼굴 검출이 가능해졌으며, 컴퓨터 비전 분야에서 중요한 논문으로 평가됨

1.2 Building Rome in a Day (2009)

  • 2D 이미지(사진)를 활용하여 3D 모델을 생성하는 연구
  • 관광객들이 찍은 다양한 각도의 사진을 활용해 3D 재구성 가능성을 제시
  • 이미지 calibration을 통해 동일한 객체의 공통 포인트를 이어서 3D 모델로 변환
  • 빅데이터를 활용하여 자동으로 3D 구조를 생성하는 방법을 제시했으며, 이후 딥러닝 기반 3D 재구성 연구에 영향을 줌

1.3 Scene Completion using Millions of Photographs (2007)

  • 수백만 장의 사진 데이터를 활용하여 이미지 복원(Scene Completion)을 수행
  • 원본 이미지에서 불필요한 요소를 제거하면 빈 영역이 발생하는데, 그 부분을 가장 적합한 장면으로 채움
  • 데이터가 많을수록 자연스러운 복원이 가능하며, 빅데이터 기반 이미지 복원의 가능성을 보여줌
  • 이후 딥러닝을 활용한 인페인팅(Inpainting, 이미지 복원) 연구에 중요한 시사점을 제공

2. 딥러닝 발전 배경

  • 신경망 알고리즘(MLP, CNN 등)은 1960년대부터 연구되었으나, 당시 하드웨어 한계로 인해 활용이 어려웠음
  • GPU를 활용하면서 신경망 연산 속도가 개선됨
  • 빅데이터를 학습에 활용할 수 있게 되면서 성능이 크게 향상됨

3. 딥러닝 기반 영상 인식 기술

3.1 영상 분류 (Classification)

  • 입력된 이미지를 특정 클래스로 분류 (예: 개, 고양이, 자동차 등)
  • CNN 기반 분류 모델(AlexNet, VGGNet, ResNet 등) 사용
  • CIFAR-10, ImageNet 같은 데이터셋 활용
  • 주요 응용 분야: 이미지 자동 태깅, 의료 영상 분석

3.2 객체 검출 (Object Detection)

  • 이미지에서 특정 객체의 위치와 클래스를 찾는 기술
  • Localization: 특정 객체의 위치(Bounding Box) 예측
  • Object Detection: 여러 개의 객체 검출 및 분류
  • YOLO, Faster R-CNN, SSD 등의 딥러닝 모델 활용
  • 자율주행, 스마트 CCTV 등에 적용

3.3 의미적 분할 (Semantic Segmentation)

  • 픽셀 단위로 객체를 분할하여 각 픽셀에 클래스를 할당
  • Object Detection은 Bounding Box를 사용하지만, Semantic Segmentation은 객체 윤곽선을 정확히 검출
  • Instance Segmentation은 개별 객체를 각각 분리하여 분석
  • U-Net, DeepLabV3, Mask R-CNN 같은 모델이 사용됨
  • 의료 영상 분석, 위성 이미지 분석 등에 활용

3.4 자세 추정 (Pose Estimation)

  • 사람의 관절(Keypoints)을 인식하여 자세를 분석하는 기술
  • 히트맵 & Affinity Field를 이용하여 관절을 탐지하고, 여러 사람을 동시에 추정할 수 있음
  • OpenPose, HRNet 같은 모델이 사용됨
  • 스포츠 분석, AR/VR, AI 피트니스 코칭 등에 활용

3.5 GAN (Generative Adversarial Networks, 생성적 적대 신경망)

  • AI가 새로운 이미지를 생성하는 모델
  • Generator(생성기)와 Discriminator(판별기)가 서로 경쟁하면서 점점 더 사실적인 이미지를 생성
  • Style Transfer를 통해 특정 스타일의 이미지를 만들어낼 수 있음
  • 예술적 스타일 변환, 딥페이크 기술 등에 활용

3.6 초해상도 영상 복원 (Super-Resolution)

  • 저해상도 이미지를 고해상도로 변환하는 기술
  • SRCNN, ESRGAN 같은 모델이 사용됨
  • CCTV 영상 복원, 위성 영상 품질 개선 등에 활용

4. 딥러닝 기반 영상 처리 응용 분야

기술 설명 주요 모델 응용 사례

Classification 영상 분류 CNN (ResNet, VGG) 자율주행, 의료 진단
Object Detection 객체 검출 & 바운딩 박스 YOLO, Faster R-CNN 보안 시스템, CCTV
Semantic Segmentation 픽셀 단위 객체 분할 U-Net, DeepLab 의료 영상, 위성 분석
Pose Estimation 사람 관절 추정 OpenPose, HRNet 스포츠 분석, AR/VR
GAN 이미지 생성 StyleGAN, DeepFake 예술 생성, 딥페이크
Super-Resolution 저해상도 → 고해상도 변환 SRCNN, ESRGAN 영상 복원, 위성 영상

5. 결론

  • 딥러닝 이전에도 다양한 영상 인식 기술이 존재했으며, 빅데이터 활용의 중요성이 대두됨
  • CNN, GAN, Transformer 등의 등장으로 영상 인식 성능이 크게 향상됨
  • 초해상도, 실시간 객체 검출, 3D 복원 등의 기술이 발전하면서 다양한 응용 분야에서 활용 가능
  • AI 기반 영상 처리 기술은 앞으로도 계속 발전할 것으로 예상됨
728x90
댓글수0