1. 빅데이터 개념과 특징
(1) 데이터의 양적 팽창 → 데이터 가공 및 분석 → 새로운 가치 창출
- 정보통신기술(ICT)의 발전으로 인해 데이터가 폭발적으로 증가
- 단순한 데이터 축적이 아닌 가공 및 분석을 통해 인사이트를 도출하고, 이를 활용해 비즈니스 및 사회적 가치를 창출
(2) 정형화 정도에 따른 데이터 분류
데이터 유형 특징
정형 데이터 (Structured Data) | - 행(row)과 열(column)로 구성된 고정된 구조의 데이터- 기존의 관계형 데이터베이스(RDBMS)에서 쉽게 저장 및 관리 가능- 예: 엑셀 파일, SQL 데이터베이스, ERP 시스템의 데이터 |
반정형 데이터 (Semi-structured Data) | - 고정된 스키마는 없지만, 일부 구조화된 형식이 존재- 태그 또는 메타데이터를 포함하여 데이터를 정리 가능- 예: XML, JSON, HTML, 로그 파일 |
비정형 데이터 (Unstructured Data) | - 고정된 스키마가 없는 형태의 데이터- 텍스트, 이미지, 동영상, 음성 등 다양한 형태 포함- 예: SNS 데이터, 이메일, CCTV 영상, GPS 위치정보 |
(3) 빅데이터의 5V 특성
과거에는 규모(Volume), 다양성(Variety), 속도(Velocity) 3가지 특성이 강조되었으나, 최근에는 정확성(Veracity)과 가치(Value)까지 포함한 5V 개념이 중요해짐.
요소 설명
Volume (규모) | 데이터 생성 및 저장량이 폭증 (TB → PB → ZB 단위로 증가) |
Variety (다양성) | 정형/반정형/비정형 데이터 증가, 다양한 출처의 데이터 활용 |
Velocity (속도) | 실시간 데이터 수집, 분석, 활용이 중요 (IoT, 스트리밍 데이터) |
Veracity (정확성) | 데이터의 신뢰성과 품질 확보 필요 (정확한 분석을 위해 데이터 정제 필수) |
Value (가치) | 데이터를 분석하여 비즈니스 및 사회적 가치 창출 |
2. 빅데이터 시대의 변화
(1) 데이터 환경의 변화
- 과거: 정형화된 수치 중심 데이터 (RDBMS 활용) → 테라바이트(TB) 단위 데이터
- 현재: 비정형 데이터 증가 (텍스트, 이미지, 영상, 위치정보 등) → 페타바이트(PB), 제타바이트(ZB) 단위 데이터
- 예: SNS 검색어 분석, 고객 행동 데이터, IoT 센서 데이터, 스트리밍 영상 분석 등
(2) 기술적 변화: 기존 DBMS vs. 빅데이터 기술
비교 요소 기존 DBMS 빅데이터 기술
데이터 유형 | 주로 정형 데이터 | 비정형 데이터 포함 |
저장 방식 | 중앙 집중식 | 분산 저장 (HDFS, NoSQL) |
처리 방식 | OLTP 기반 | 분산 병렬 처리 (Hadoop, Spark) |
확장성 | 제한적 | 수평적 확장 가능 (Scale-out) |
비용 | 고비용 | 개방형 솔루션으로 비용 절감 |
3. 빅데이터 기술 및 활용 전략
(1) 빅데이터 처리 기술
- BI (Business Intelligence): 기업 내외부 데이터를 분석하여 의사결정 지원
- DW (Data Warehouse): 대용량 데이터를 저장하고 분석하는 시스템
- 클라우드 컴퓨팅: 확장성과 비용 절감을 위한 데이터 저장 및 처리 기술 (AWS, GCP, Azure 등)
- 분산 데이터베이스 및 분산 처리 기술
- 하둡 (Hadoop): 대용량 데이터 분산 저장 및 병렬 처리 (HDFS, MapReduce)
- NoSQL (Not only SQL): 비정형 데이터를 처리하기 위한 비관계형 데이터베이스 (MongoDB, Cassandra)
- 인메모리 컴퓨팅 (In-Memory Computing): RAM을 활용하여 초고속 데이터 처리 (SAP HANA, Redis)
- 데이터 마이닝 (Data Mining): 머신러닝, 통계 기법을 이용하여 숨겨진 패턴 발견
(2) 빅데이터 활용 전략
- 정보의 투명성 확보: 데이터 공개 및 공유를 통해 더 나은 의사결정 지원
- 데이터 중심 의사결정: 감이 아닌 데이터 분석 기반으로 의사결정
- 실시간 데이터 분석: AI 및 머신러닝을 활용한 실시간 예측 및 대응
4. 데이터 과학자의 역할과 역량
(1) 데이터 과학자의 정의
- 대규모 데이터에서 숨겨진 의미를 찾아내어 비즈니스 인사이트 도출
- 통계적 분석, 머신러닝, 데이터 엔지니어링 기술을 활용하여 문제 해결
(2) 데이터 과학자가 갖춰야 할 6가지 핵심 역량 (존 라우치)
- 데이터 핸들링 능력: 대량의 데이터를 수집, 정제, 변환하는 기술
- 통계 및 수학 지식: 데이터 분석, 가설 검정, 예측 모델링 수행
- 프로그래밍 능력: Python, R, SQL, Spark 등의 활용
- 머신러닝 및 AI 이해: 딥러닝, 자연어 처리, 추천 시스템 등 AI 기술 활용
- 비즈니스 도메인 지식: 특정 산업 및 문제 해결을 위한 분석 기획 능력
- 데이터 시각화 및 커뮤니케이션: 분석 결과를 효과적으로 전달하는 능력
728x90
'인공지능 대학원 > 데이터분석' 카테고리의 다른 글
Matplotlib / Numpy (0) | 2025.03.31 |
---|---|
빅데이터 산업 이해 (0) | 2025.03.20 |
Pandas: 데이터 분석 라이브러리 정리 (0) | 2025.03.20 |