본문 바로가기

DATA

(24)

[해커랭크] Top Earners - Group by 문제출처 : https://www.hackerrank.com/challenges/earnings-of-employees/problem 해설 : 끊어서 생각하기 salary * month = earnings각 earning 별로 몇명이 그 만큼 벌어쓴ㄴ지 계산 ( 5000, 2 / 3000, 5 / 10000, 1) group byearning 중에 가장 큰 값을 가져온다 order by, limit 그러면 이렇게 됨 : 1번 = select salary * months as earnings,2번 = count(*)from employeegroup by earnings3번 = order by earnings desclimit 1

해커랭크 Revising Aggregations - Averages 외 5문제 Revising Aggregations - Averages 넘 오랜만에 해서 3트 만에 썩세스 ㅠ ㅋㅋㅋㅋ이유 : where 을 from 전에 썼었고 "" 를 필드명에도 사용했어서 틀렸다. #The Sum Function -> 한번에 통과 #틀린문제 - The Count Function 정답 select count(id) 또는 count(*)from citywhere population > 100,000 # Average Population소수점 둘째자리에서 반올림 하는 방법 까먹은듯...정답:round down = 버림 select floor(avg(population))from city 빼기 방법이 저게 맞나?카운트도 헷갈린다 .. 정답 : 위 답에 sum을 빼면 됨.

MySQL : WorkBench PK 설정 및 Table 구조 # pk 설정하기 apply 버튼을 누르면 이렇게 apply 되었다는 문구가 뜨며 적용됩니다. Primary Key는 테이블에서 특정 row 하나를 식별하는 역할을 합니다.primary Key- Natural Key : 진짜 구분지을 수 있는 특성이 PK 가 되었을 때- Surrogate Key : id 처럼 의미 없는 특성이 PK 가 되었을 때 -> Natural Key는 row 값이 변하면 변경해줘야 하기 때문에 보통 Surrogate Key를 사용하지만 좋고 나쁘고는 없음 #NN의 의미Not Null 어떤 값이 없음숫자 0 과 비어있는 칸 과는 다른 개념 + PK 체크 시 NN 자동 체크되는 의미값이 비어있으면 안됨, 비어있으면 오류를 반환 # AI 의미Auto Increment 자동으로..

read_csv() 함수 주요 파라미터 1. read_csv() 함수 주요 파라미터1.1 sep / delimitersep='\t' 또는 delimiter='\t': 탭으로 구분된 데이터를 읽을 때 사용기본값은 sep=',' 이므로, 일반 CSV(쉼표) 파일은 별도 설정 없이 읽을 수 있습니다.1.2 headerheader=0 (기본값): 첫 번째 행을 컬럼 이름으로 사용header=None: 컬럼 이름이 따로 없을 때 사용 (이 경우 자동으로 0, 1, 2, ...라는 숫자가 컬럼명이 됨)특정 행(예: 2행)을 컬럼명으로 쓰고 싶다면 **header=1**처럼 인덱스를 지정할 수 있습니다.1.3 namesCSV 파일에 컬럼명이 없거나, 사용자가 직접 컬럼명을 지정하고 싶을 때 사용합니다. df = pd.read_csv('data.csv', ..

RFM 개념 1. RFM ( Recency, Frequency, Monetary ) 데이터 수집Recency: 기준 시점부터 가장 최근 구매일이 며칠 전인지 Frequency: 기준 기간 동안 상품을 구매한 횟수 Monetary: 기준 기간 동안 구매한 상품의 총금액2. 고객을 세그먼트 화 PM이나 마케터는 고객 세그먼트에 따라 서로 다른 고객 관리 전략을 수립하고 적용해 볼 수 있음 3. 등급등급을 매기는 데에는 크게 세 가지 방법 - - 각 등급마다 고객의 수가 비슷해지도록 하거나, - 구간의 길이를 똑같이 나누거나, - 아니면 임의로 구간을 설정 4. 세그먼트등급을 N등급까지 세웠다면, **3 (RFM 에서 3개 -> 세제곱)을 하면 세그먼트 수가 나옴. 5. 전략해당 세그먼트에 따라 전략 세운다 # 가중..

DA를 위한 Pandas 학습 기록 Python 독학 데이터 애널리스트(DA)를 위한 Pandas 학습 기록안녕하세요! 오늘은 Pandas를 활용해 데이터 다루는 법을 공부하면서 배운 내용을 정리해보려고 합니다.이 글은 저처럼 Python을 독학하는 데이터 애널리스트(DA) 지망생을 위한 것이며, 제가 직접 궁금했던 부분과 해결한 과정을 공유합니다! 1. Pandas에서 데이터 개수 세기 (value_counts() vs shape)데이터 분석을 할 때, 특정 컬럼에 있는 값들의 개수를 세야 할 때가 많습니다.처음엔 value_counts()와 shape의 차이를 명확히 몰랐는데, 공부하면서 이해하게 된 내용입니다.📍 value_counts()를 활용한 개수 세기import pandas as pddf = pd.read_csv('data..

[Tableau] 서비스 개념 정리 1. 테블로(Tableau) 기본 개념데이터 시각화 툴테블로는 데이터를 쉽고 직관적으로 시각화하고, 대시보드를 구성하여 인사이트를 도출할 수 있는 BI(Business Intelligence) 도구입니다.직관적인 드래그 앤 드롭 방식, 풍부한 시각화 타입을 제공하여 비즈니스 사용자도 쉽게 접근 가능합니다.워크플로우 이해데이터 연결(Data Connection)데이터 준비(Data Preparation)시트(Sheet) 작성대시보드(Dashboard) 제작스토리(Story) 구성주요 용어워크북(Workbook): 테블로에서 작업한 전체 파일시트(Sheet): 차트가 배치되는 단위대시보드(Dashboard): 여러 시트(차트)를 한 화면에 모아 인사이트 제공스토리(Story): 대시보드/시트를 연결하여 ‘프..

Pandas에서 데이터 인덱싱 정리 & 예시 Pandas에서 데이터 인덱싱 정리 & 예시1. 이름(label)으로 인덱싱 (.loc[])기본 형태데이터 선택 방식 사용법 (.loc[]) 단축 형태하나의 행 선택df.loc["row4"]-여러 행 선택 (리스트)df.loc[["row4", "row5", "row3"]]-여러 행 선택 (슬라이싱)df.loc["row2":"row5"]df["row2":"row5"]하나의 열 선택df.loc[:, "col1"]df["col1"]여러 열 선택 (리스트)df.loc[:, ["col4", "col6", "col3"]]df[["col4", "col6", "col3"]]여러 열 선택 (슬라이싱)df.loc[:, "col2":"col5"]-🔹 예제import pandas as pddata = { "col1":..

이전 1 2 3 다음

728x90

티스토리툴바