본문 바로가기

인공지능 대학원/데이터분석

빅데이터 개념 및 정보통신기술 패러다임 변화

1. 빅데이터 개념과 특징

(1) 데이터의 양적 팽창 → 데이터 가공 및 분석 → 새로운 가치 창출

  • 정보통신기술(ICT)의 발전으로 인해 데이터가 폭발적으로 증가
  • 단순한 데이터 축적이 아닌 가공 및 분석을 통해 인사이트를 도출하고, 이를 활용해 비즈니스 및 사회적 가치를 창출

(2) 정형화 정도에 따른 데이터 분류

데이터 유형 특징

정형 데이터 (Structured Data) - 행(row)과 열(column)로 구성된 고정된 구조의 데이터- 기존의 관계형 데이터베이스(RDBMS)에서 쉽게 저장 및 관리 가능- 예: 엑셀 파일, SQL 데이터베이스, ERP 시스템의 데이터
반정형 데이터 (Semi-structured Data) - 고정된 스키마는 없지만, 일부 구조화된 형식이 존재- 태그 또는 메타데이터를 포함하여 데이터를 정리 가능- 예: XML, JSON, HTML, 로그 파일
비정형 데이터 (Unstructured Data) - 고정된 스키마가 없는 형태의 데이터- 텍스트, 이미지, 동영상, 음성 등 다양한 형태 포함- 예: SNS 데이터, 이메일, CCTV 영상, GPS 위치정보

(3) 빅데이터의 5V 특성

과거에는 규모(Volume), 다양성(Variety), 속도(Velocity) 3가지 특성이 강조되었으나, 최근에는 정확성(Veracity)과 가치(Value)까지 포함한 5V 개념이 중요해짐.

요소 설명

Volume (규모) 데이터 생성 및 저장량이 폭증 (TB → PB → ZB 단위로 증가)
Variety (다양성) 정형/반정형/비정형 데이터 증가, 다양한 출처의 데이터 활용
Velocity (속도) 실시간 데이터 수집, 분석, 활용이 중요 (IoT, 스트리밍 데이터)
Veracity (정확성) 데이터의 신뢰성과 품질 확보 필요 (정확한 분석을 위해 데이터 정제 필수)
Value (가치) 데이터를 분석하여 비즈니스 및 사회적 가치 창출

2. 빅데이터 시대의 변화

(1) 데이터 환경의 변화

  • 과거: 정형화된 수치 중심 데이터 (RDBMS 활용) → 테라바이트(TB) 단위 데이터
  • 현재: 비정형 데이터 증가 (텍스트, 이미지, 영상, 위치정보 등) → 페타바이트(PB), 제타바이트(ZB) 단위 데이터
    • 예: SNS 검색어 분석, 고객 행동 데이터, IoT 센서 데이터, 스트리밍 영상 분석 등

(2) 기술적 변화: 기존 DBMS vs. 빅데이터 기술

비교 요소 기존 DBMS 빅데이터 기술

데이터 유형 주로 정형 데이터 비정형 데이터 포함
저장 방식 중앙 집중식 분산 저장 (HDFS, NoSQL)
처리 방식 OLTP 기반 분산 병렬 처리 (Hadoop, Spark)
확장성 제한적 수평적 확장 가능 (Scale-out)
비용 고비용 개방형 솔루션으로 비용 절감

3. 빅데이터 기술 및 활용 전략

(1) 빅데이터 처리 기술

  • BI (Business Intelligence): 기업 내외부 데이터를 분석하여 의사결정 지원
  • DW (Data Warehouse): 대용량 데이터를 저장하고 분석하는 시스템
  • 클라우드 컴퓨팅: 확장성과 비용 절감을 위한 데이터 저장 및 처리 기술 (AWS, GCP, Azure 등)
  • 분산 데이터베이스 및 분산 처리 기술
    • 하둡 (Hadoop): 대용량 데이터 분산 저장 및 병렬 처리 (HDFS, MapReduce)
    • NoSQL (Not only SQL): 비정형 데이터를 처리하기 위한 비관계형 데이터베이스 (MongoDB, Cassandra)
    • 인메모리 컴퓨팅 (In-Memory Computing): RAM을 활용하여 초고속 데이터 처리 (SAP HANA, Redis)
    • 데이터 마이닝 (Data Mining): 머신러닝, 통계 기법을 이용하여 숨겨진 패턴 발견

(2) 빅데이터 활용 전략

  • 정보의 투명성 확보: 데이터 공개 및 공유를 통해 더 나은 의사결정 지원
  • 데이터 중심 의사결정: 감이 아닌 데이터 분석 기반으로 의사결정
  • 실시간 데이터 분석: AI 및 머신러닝을 활용한 실시간 예측 및 대응

4. 데이터 과학자의 역할과 역량

(1) 데이터 과학자의 정의

  • 대규모 데이터에서 숨겨진 의미를 찾아내어 비즈니스 인사이트 도출
  • 통계적 분석, 머신러닝, 데이터 엔지니어링 기술을 활용하여 문제 해결

(2) 데이터 과학자가 갖춰야 할 6가지 핵심 역량 (존 라우치)

  1. 데이터 핸들링 능력: 대량의 데이터를 수집, 정제, 변환하는 기술
  2. 통계 및 수학 지식: 데이터 분석, 가설 검정, 예측 모델링 수행
  3. 프로그래밍 능력: Python, R, SQL, Spark 등의 활용
  4. 머신러닝 및 AI 이해: 딥러닝, 자연어 처리, 추천 시스템 등 AI 기술 활용
  5. 비즈니스 도메인 지식: 특정 산업 및 문제 해결을 위한 분석 기획 능력
  6. 데이터 시각화 및 커뮤니케이션: 분석 결과를 효과적으로 전달하는 능력

 

728x90

'인공지능 대학원 > 데이터분석' 카테고리의 다른 글

Matplotlib / Numpy  (0) 2025.03.31
빅데이터 산업 이해  (0) 2025.03.20
Pandas: 데이터 분석 라이브러리 정리  (0) 2025.03.20