인공지능 대학원/데이터분석 (4) 썸네일형 리스트형 Matplotlib / Numpy Matplotlib (맷플롯립) 1. Matplotlib이란?파이썬의 시각화 라이브러리로, 데이터를 그래프로 쉽게 표현할 수 있음Pyplot은 Matplotlib의 가장 많이 쓰는 서브모듈2. Pyplot 구성 요소구성 요소설명figure전체 그래프의 틀 (도화지 전체)axes그래프가 실제로 그려지는 영역 (x축, y축 포함)subplot한 figure 안에 여러 개의 axes를 넣을 수 있는 기능예시:import matplotlib.pyplot as pltfig, ax = plt.subplots() # figure와 axes 생성ax.plot([1, 2, 3], [4, 5, 6]) # 그래프 그리기plt.show()plt.subplots()는 도화지 위에 공간을 나눠 그래프를 여러 개 그릴 때 사용.. 빅데이터 산업 이해 빅데이터 산업 이해 1. 빅데이터 개요빅데이터(Big Data)는 대량의 데이터를 효율적으로 저장, 처리, 분석하여 가치 있는 정보를 도출하는 기술이다.빅데이터 산업에서는 데이터를 다루는 플랫폼, 에코시스템, 서비스 프레임워크가 중요한 요소로 작용한다.2. 빅데이터 플랫폼과 에코시스템(1) 빅데이터 플랫폼하둡(Hadoop)대용량 데이터를 병렬 처리할 수 있는 대표적인 오픈소스 플랫폼데이터 저장(HDFS) + 분산처리(MapReduce) 기반확장성 및 시각화 기능 지원(2) 빅데이터 에코시스템빅데이터 기술과 서비스를 구성하는 다양한 소프트웨어 및 인프라데이터 저장, 처리, 분석을 위한 다양한 오픈소스 및 상용 솔루션 포함(3) 빅데이터 서비스 프레임워크빅데이터 서비스를 효율적으로 이해하고, 서비스 공급자를.. Pandas: 데이터 분석 라이브러리 정리 Pandas: 데이터 분석 라이브러리 정리1. Pandas 개요Pandas는 데이터 분석을 위한 Python 라이브러리로, NumPy 기반에서 동작하며, Series 객체와 DataFrame 객체를 활용하여 데이터를 효율적으로 다룰 수 있다.NumPy와의 관계NumPy: 배열 연산을 위한 라이브러리 (고속 연산 가능)Pandas: 데이터 분석을 위한 라이브러리 (테이블 형태의 데이터 처리)2. Pandas의 주요 객체(1) Series 객체각 열(column)을 다루는 객체 (세로 방향)NumPy 배열의 하위 클래스이며, 데이터 인덱스를 포함함Feature Vector(피처 벡터)와 유사한 개념인덱스(index) 값은 중복 가능하며, 정렬될 필요 없음Series 객체 생성 예제import pandas a.. 빅데이터 개념 및 정보통신기술 패러다임 변화 1. 빅데이터 개념과 특징(1) 데이터의 양적 팽창 → 데이터 가공 및 분석 → 새로운 가치 창출정보통신기술(ICT)의 발전으로 인해 데이터가 폭발적으로 증가단순한 데이터 축적이 아닌 가공 및 분석을 통해 인사이트를 도출하고, 이를 활용해 비즈니스 및 사회적 가치를 창출(2) 정형화 정도에 따른 데이터 분류데이터 유형 특징정형 데이터 (Structured Data)- 행(row)과 열(column)로 구성된 고정된 구조의 데이터- 기존의 관계형 데이터베이스(RDBMS)에서 쉽게 저장 및 관리 가능- 예: 엑셀 파일, SQL 데이터베이스, ERP 시스템의 데이터반정형 데이터 (Semi-structured Data)- 고정된 스키마는 없지만, 일부 구조화된 형식이 존재- 태그 또는 메타데이터를 포함하여 데이.. 이전 1 다음