본문 바로가기

전체 글

(72)
빅데이터 산업 이해 빅데이터 산업 이해 1. 빅데이터 개요빅데이터(Big Data)는 대량의 데이터를 효율적으로 저장, 처리, 분석하여 가치 있는 정보를 도출하는 기술이다.빅데이터 산업에서는 데이터를 다루는 플랫폼, 에코시스템, 서비스 프레임워크가 중요한 요소로 작용한다.2. 빅데이터 플랫폼과 에코시스템(1) 빅데이터 플랫폼하둡(Hadoop)대용량 데이터를 병렬 처리할 수 있는 대표적인 오픈소스 플랫폼데이터 저장(HDFS) + 분산처리(MapReduce) 기반확장성 및 시각화 기능 지원(2) 빅데이터 에코시스템빅데이터 기술과 서비스를 구성하는 다양한 소프트웨어 및 인프라데이터 저장, 처리, 분석을 위한 다양한 오픈소스 및 상용 솔루션 포함(3) 빅데이터 서비스 프레임워크빅데이터 서비스를 효율적으로 이해하고, 서비스 공급자를..
Pandas: 데이터 분석 라이브러리 정리 Pandas: 데이터 분석 라이브러리 정리1. Pandas 개요Pandas는 데이터 분석을 위한 Python 라이브러리로, NumPy 기반에서 동작하며, Series 객체와 DataFrame 객체를 활용하여 데이터를 효율적으로 다룰 수 있다.NumPy와의 관계NumPy: 배열 연산을 위한 라이브러리 (고속 연산 가능)Pandas: 데이터 분석을 위한 라이브러리 (테이블 형태의 데이터 처리)2. Pandas의 주요 객체(1) Series 객체각 열(column)을 다루는 객체 (세로 방향)NumPy 배열의 하위 클래스이며, 데이터 인덱스를 포함함Feature Vector(피처 벡터)와 유사한 개념인덱스(index) 값은 중복 가능하며, 정렬될 필요 없음Series 객체 생성 예제import pandas a..
python 연산자 및 제어문 1. 변수와 예약어변수: 값을 저장하는 참조자 또는 포인터 역할예약어(키워드): 변수로 활용할 수 없는 단어2. 리터럴과 자료형리터럴: 코드에서 직접 값을 표현하는 것주요 자료형: int, float, str, bool, list, tuple, set, dict3. 연산자//: 나눈 값의 몫 반환%: 나눈 값의 나머지 반환관계 연산자: , >, , >=, !=논리 연산자: or (||), and (&&), not (!)in, not in: 특정 값이 존재하는지 확인 (if문에서 사용 가능)4. 함수 호출과 입출력 함수내장 함수 예시: sum()함수 호출 방법: 함수명(인수)키보드 입력 함수: input()int()/float(): 입력값을 숫자로 변환5. 조건문if, else, elif 사용하여 분기 처..
빅데이터 개념 및 정보통신기술 패러다임 변화 1. 빅데이터 개념과 특징(1) 데이터의 양적 팽창 → 데이터 가공 및 분석 → 새로운 가치 창출정보통신기술(ICT)의 발전으로 인해 데이터가 폭발적으로 증가단순한 데이터 축적이 아닌 가공 및 분석을 통해 인사이트를 도출하고, 이를 활용해 비즈니스 및 사회적 가치를 창출(2) 정형화 정도에 따른 데이터 분류데이터 유형 특징정형 데이터 (Structured Data)- 행(row)과 열(column)로 구성된 고정된 구조의 데이터- 기존의 관계형 데이터베이스(RDBMS)에서 쉽게 저장 및 관리 가능- 예: 엑셀 파일, SQL 데이터베이스, ERP 시스템의 데이터반정형 데이터 (Semi-structured Data)- 고정된 스키마는 없지만, 일부 구조화된 형식이 존재- 태그 또는 메타데이터를 포함하여 데이..
LEETCODE SQL : Group by 1. Queries Quality and Percentage 문제 정리문제 설명Queries 테이블에서 query_name별로 데이터를 그룹화하고, 다음 값을 구해야 함.quality: (rating / position) 값의 평균poor_query_percentage: rating 결과는 소수점 두 자리까지 반올림SQL 코드SELECT query_name, ROUND(AVG(rating / position), 2) AS quality, ROUND(SUM(CASE WHEN rating 예제 설명 quality 계산: ((5/1) + (5/2) + (1/200)) / 3 = 2.50poor_query_percentage 계산: (1/3) * 100 = 33.332. Daily Leads and Par..
LEETCODE : SQL - JOIN 1. Product Sales Analysis I🔗 문제 링크: Product Sales Analysis I문제 개요Sales 테이블에는 제품 판매 정보가 저장되어 있음.Product 테이블에는 product_id와 해당 제품명이 저장되어 있음.각 sale_id에 대해 제품명(product_name), 연도(year), 가격(price)을 출력해야 함.결과 순서는 중요하지 않음.해결 방법product_id를 기준으로 INNER JOIN을 사용하여 Sales와 Product를 연결.필요한 컬럼만 선택하여 출력.SELECT p.product_name, s.year, s.priceFROM Sales AS sINNER JOIN Product AS pON s.product_id = p.product_id;..
시간 복잡도 표기법과 알고리즘, 하노이탑 1. 시간 복잡도 표기법시간 복잡도는 알고리즘의 실행 시간이 입력 크기에 따라 어떻게 변화하는지를 나타내는 개념이다. 대표적으로 빅오(Big-O), 빅세타(Big-Theta), 빅오메가(Big-Omega) 표기법이 사용된다.1.1 빅오(Big-O) 표기법최악의 경우 시간 복잡도를 나타냄.알고리즘의 실행 시간이 가장 오래 걸리는 경우를 기준으로 평가.입력 크기 n이 커질수록 성능이 어떻게 변하는지를 분석.상한선(Upper Bound)을 나타냄.예제선형 탐색(순차 탐색) → O(N)선택 정렬 → O(N²)이진 탐색 → O(log N)퀵 정렬(평균) → O(N log N), 최악 → O(N²)1.2 빅세타(Big-Theta, Θ) 표기법평균적인 경우 시간 복잡도를 나타냄.최선과 최악의 경우를 포함하여 입력 크..
딥러닝 이전의 영상 인식 및 딥러닝 기반 기술 1. 딥러닝 이전의 영상 인식 기술1.1 비올라-존스 얼굴 검출 (Viola-Jones Face Detection, 2001)단순한 필터를 여러 개 사용하여 얼굴을 검출하는 기법Haar-like Feature를 활용해 얼굴 특징을 빠르게 찾고, AdaBoost 알고리즘으로 중요한 특징을 선별하여 검출 속도를 높임Cascade 구조를 사용하여 단계적으로 검출 정확도를 높임실시간 얼굴 검출이 가능해졌으며, 컴퓨터 비전 분야에서 중요한 논문으로 평가됨1.2 Building Rome in a Day (2009)2D 이미지(사진)를 활용하여 3D 모델을 생성하는 연구관광객들이 찍은 다양한 각도의 사진을 활용해 3D 재구성 가능성을 제시이미지 calibration을 통해 동일한 객체의 공통 포인트를 이어서 3D 모..

728x90