인공지능 대학원/AI 영상처리
딥러닝 이전의 영상 인식 및 딥러닝 기반 기술
열쩡왔쩡
2025. 3. 9. 16:38
1. 딥러닝 이전의 영상 인식 기술
1.1 비올라-존스 얼굴 검출 (Viola-Jones Face Detection, 2001)
- 단순한 필터를 여러 개 사용하여 얼굴을 검출하는 기법
- Haar-like Feature를 활용해 얼굴 특징을 빠르게 찾고, AdaBoost 알고리즘으로 중요한 특징을 선별하여 검출 속도를 높임
- Cascade 구조를 사용하여 단계적으로 검출 정확도를 높임
- 실시간 얼굴 검출이 가능해졌으며, 컴퓨터 비전 분야에서 중요한 논문으로 평가됨
1.2 Building Rome in a Day (2009)
- 2D 이미지(사진)를 활용하여 3D 모델을 생성하는 연구
- 관광객들이 찍은 다양한 각도의 사진을 활용해 3D 재구성 가능성을 제시
- 이미지 calibration을 통해 동일한 객체의 공통 포인트를 이어서 3D 모델로 변환
- 빅데이터를 활용하여 자동으로 3D 구조를 생성하는 방법을 제시했으며, 이후 딥러닝 기반 3D 재구성 연구에 영향을 줌
1.3 Scene Completion using Millions of Photographs (2007)
- 수백만 장의 사진 데이터를 활용하여 이미지 복원(Scene Completion)을 수행
- 원본 이미지에서 불필요한 요소를 제거하면 빈 영역이 발생하는데, 그 부분을 가장 적합한 장면으로 채움
- 데이터가 많을수록 자연스러운 복원이 가능하며, 빅데이터 기반 이미지 복원의 가능성을 보여줌
- 이후 딥러닝을 활용한 인페인팅(Inpainting, 이미지 복원) 연구에 중요한 시사점을 제공
2. 딥러닝 발전 배경
- 신경망 알고리즘(MLP, CNN 등)은 1960년대부터 연구되었으나, 당시 하드웨어 한계로 인해 활용이 어려웠음
- GPU를 활용하면서 신경망 연산 속도가 개선됨
- 빅데이터를 학습에 활용할 수 있게 되면서 성능이 크게 향상됨
3. 딥러닝 기반 영상 인식 기술
3.1 영상 분류 (Classification)
- 입력된 이미지를 특정 클래스로 분류 (예: 개, 고양이, 자동차 등)
- CNN 기반 분류 모델(AlexNet, VGGNet, ResNet 등) 사용
- CIFAR-10, ImageNet 같은 데이터셋 활용
- 주요 응용 분야: 이미지 자동 태깅, 의료 영상 분석
3.2 객체 검출 (Object Detection)
- 이미지에서 특정 객체의 위치와 클래스를 찾는 기술
- Localization: 특정 객체의 위치(Bounding Box) 예측
- Object Detection: 여러 개의 객체 검출 및 분류
- YOLO, Faster R-CNN, SSD 등의 딥러닝 모델 활용
- 자율주행, 스마트 CCTV 등에 적용
3.3 의미적 분할 (Semantic Segmentation)
- 픽셀 단위로 객체를 분할하여 각 픽셀에 클래스를 할당
- Object Detection은 Bounding Box를 사용하지만, Semantic Segmentation은 객체 윤곽선을 정확히 검출
- Instance Segmentation은 개별 객체를 각각 분리하여 분석
- U-Net, DeepLabV3, Mask R-CNN 같은 모델이 사용됨
- 의료 영상 분석, 위성 이미지 분석 등에 활용
3.4 자세 추정 (Pose Estimation)
- 사람의 관절(Keypoints)을 인식하여 자세를 분석하는 기술
- 히트맵 & Affinity Field를 이용하여 관절을 탐지하고, 여러 사람을 동시에 추정할 수 있음
- OpenPose, HRNet 같은 모델이 사용됨
- 스포츠 분석, AR/VR, AI 피트니스 코칭 등에 활용
3.5 GAN (Generative Adversarial Networks, 생성적 적대 신경망)
- AI가 새로운 이미지를 생성하는 모델
- Generator(생성기)와 Discriminator(판별기)가 서로 경쟁하면서 점점 더 사실적인 이미지를 생성
- Style Transfer를 통해 특정 스타일의 이미지를 만들어낼 수 있음
- 예술적 스타일 변환, 딥페이크 기술 등에 활용
3.6 초해상도 영상 복원 (Super-Resolution)
- 저해상도 이미지를 고해상도로 변환하는 기술
- SRCNN, ESRGAN 같은 모델이 사용됨
- CCTV 영상 복원, 위성 영상 품질 개선 등에 활용
4. 딥러닝 기반 영상 처리 응용 분야
기술 설명 주요 모델 응용 사례
Classification | 영상 분류 | CNN (ResNet, VGG) | 자율주행, 의료 진단 |
Object Detection | 객체 검출 & 바운딩 박스 | YOLO, Faster R-CNN | 보안 시스템, CCTV |
Semantic Segmentation | 픽셀 단위 객체 분할 | U-Net, DeepLab | 의료 영상, 위성 분석 |
Pose Estimation | 사람 관절 추정 | OpenPose, HRNet | 스포츠 분석, AR/VR |
GAN | 이미지 생성 | StyleGAN, DeepFake | 예술 생성, 딥페이크 |
Super-Resolution | 저해상도 → 고해상도 변환 | SRCNN, ESRGAN | 영상 복원, 위성 영상 |
5. 결론
- 딥러닝 이전에도 다양한 영상 인식 기술이 존재했으며, 빅데이터 활용의 중요성이 대두됨
- CNN, GAN, Transformer 등의 등장으로 영상 인식 성능이 크게 향상됨
- 초해상도, 실시간 객체 검출, 3D 복원 등의 기술이 발전하면서 다양한 응용 분야에서 활용 가능
- AI 기반 영상 처리 기술은 앞으로도 계속 발전할 것으로 예상됨
728x90