본문 바로가기

DATA/Python

(12)
read_csv() 함수 주요 파라미터 1. read_csv() 함수 주요 파라미터1.1 sep / delimitersep='\t' 또는 delimiter='\t': 탭으로 구분된 데이터를 읽을 때 사용기본값은 sep=',' 이므로, 일반 CSV(쉼표) 파일은 별도 설정 없이 읽을 수 있습니다.1.2 headerheader=0 (기본값): 첫 번째 행을 컬럼 이름으로 사용header=None: 컬럼 이름이 따로 없을 때 사용 (이 경우 자동으로 0, 1, 2, ...라는 숫자가 컬럼명이 됨)특정 행(예: 2행)을 컬럼명으로 쓰고 싶다면 **header=1**처럼 인덱스를 지정할 수 있습니다.1.3 namesCSV 파일에 컬럼명이 없거나, 사용자가 직접 컬럼명을 지정하고 싶을 때 사용합니다. df = pd.read_csv('data.csv', ..
RFM 개념 1. RFM ( Recency, Frequency, Monetary ) 데이터 수집Recency: 기준 시점부터 가장 최근 구매일이 며칠 전인지  Frequency: 기준 기간 동안 상품을 구매한 횟수 Monetary: 기준 기간 동안 구매한 상품의 총금액2. 고객을 세그먼트 화 PM이나 마케터는 고객 세그먼트에 따라 서로 다른 고객 관리 전략을 수립하고 적용해 볼 수 있음  3. 등급등급을 매기는 데에는 크게 세 가지 방법 - - 각 등급마다 고객의 수가 비슷해지도록 하거나, - 구간의 길이를 똑같이 나누거나, - 아니면 임의로 구간을 설정  4. 세그먼트등급을 N등급까지 세웠다면, **3 (RFM 에서 3개 -> 세제곱)을 하면 세그먼트 수가 나옴. 5. 전략해당 세그먼트에 따라 전략 세운다 # 가중..
DA를 위한 Pandas 학습 기록 Python 독학 데이터 애널리스트(DA)를 위한 Pandas 학습 기록안녕하세요! 오늘은 Pandas를 활용해 데이터 다루는 법을 공부하면서 배운 내용을 정리해보려고 합니다.이 글은 저처럼 Python을 독학하는 데이터 애널리스트(DA) 지망생을 위한 것이며, 제가 직접 궁금했던 부분과 해결한 과정을 공유합니다!  1. Pandas에서 데이터 개수 세기 (value_counts() vs shape)데이터 분석을 할 때, 특정 컬럼에 있는 값들의 개수를 세야 할 때가 많습니다.처음엔 value_counts()와 shape의 차이를 명확히 몰랐는데, 공부하면서 이해하게 된 내용입니다.📍 value_counts()를 활용한 개수 세기import pandas as pddf = pd.read_csv('data..
Pandas에서 데이터 인덱싱 정리 & 예시 Pandas에서 데이터 인덱싱 정리 & 예시1. 이름(label)으로 인덱싱 (.loc[])기본 형태데이터 선택 방식 사용법 (.loc[]) 단축 형태하나의 행 선택df.loc["row4"]-여러 행 선택 (리스트)df.loc[["row4", "row5", "row3"]]-여러 행 선택 (슬라이싱)df.loc["row2":"row5"]df["row2":"row5"]하나의 열 선택df.loc[:, "col1"]df["col1"]여러 열 선택 (리스트)df.loc[:, ["col4", "col6", "col3"]]df[["col4", "col6", "col3"]]여러 열 선택 (슬라이싱)df.loc[:, "col2":"col5"]-🔹 예제import pandas as pddata = { "col1":..
행복지수 시도별 분석 및 시각화 실습 데이터 수집 및 전처리:'삶의 만족도', '건강', '안전', '환경', '경제', '교육', '관계 및 사회참여', '여가' 등 다양한 행복지수 관련 데이터를 엑셀 파일로부터 불러옵니다.​각 데이터셋에서 시도별 평균 값을 계산하여 'happy_merge'라는 데이터프레임에 병합합니다.​데이터 시각화:matplotlib과 seaborn 라이브러리를 활용하여 시도별 행복지수를 선 그래프로 시각화합니다.​그래프에는 앞서 언급한 여러 지표들이 포함되어 있으며, 이를 통해 각 시도의 행복지수 현황을 비교할 수 있습니다.​추가 분석 계획:향후 비정형 데이터를 활용한 분석을 계획하고 있으며, 이를 위해 문제 정의와 변수 설명 등의 과정을 거칠 예정입니다.​예를 들어, 병원 관련 데이터의 기본 통계량을 확인하고, 이..
[Python] 조코딩 - 점프투파이썬 강의 독학 D+7 #2024-06-19  어제 전 직장 동료들을 만났다. 여전히 열심히 사는 그들, 그리고 응원해주는 사람들에게 힘을 얻었다. 다시 열심히 공부해보자 !!!! Learned아래 내용이 핵심.Immutable - 변경 불가한 것(정수, 실수, 문자열, 튜플) a는 숫자 1이에요.함수 안에서 a에 1을 더하지만, 함수 밖에서는 a가 여전히 1이에요. a = 1def vartest(a): a = a + 1vartest(a)print(a) Mutable - 변경 가능한 것들(리스트, 딕셔너리, 집합)b는 [1, 2, 3]이라는 숫자들을 담고 있는 가방이에요.함수 안에서 b 가방에 숫자 4를 추가해요.함수 밖에서도 b 가방의 내용이 바뀌어서 [1, 2, 3, 4]가 돼요.b = [1,2,3]def vartest2(..
[Python] 조코딩 - 점프투파이썬 강의 독학 D+6 #2024-06-17 월요일이다. 부트캠프 등록도 완료했으니개강까지 1주일 열심히 살아보도록 해야지 Learned 함수를 사용하는 이유 : 반복적으로 사용되는 부분을 뭉치로 묶어서 사용 함수의 구조def 함수_이름(매개변수): 수행할_문장1 수행할_문장2 매개변수와 인수: 함수에 들어가는 값(겹치는 용어가 많은데 비슷한 개념임) 아래와 같은 예시는 리턴 값이 None 이다. 이유는?  return 이 없어서. 위 예시로 알 수 있는 점 ? 프린트는 있어도 리턴이 없으면 None 이 나올 수 있음 리턴값, 함수값 둘 다 없는 경우 : say 함수 예시의 경우에 None 이 나온다.# say 함수 예시def say(): print('Hi') a = say()print(a) 입력, 출력 없어도..
[Python] 조코딩 - 점프투파이썬 강의 독학 D+5 #2024-06-15 퇴사 한지 반개월. 그동안 나는 뭘 이뤘는가? 1. 부트캠프 정하기2. 커리어 로드맵3. 체력 & 마인드 재정비(억지로 끼워넣은 거 아님)... 갈 길이 멀지만 잘 하고 있다 !!!! Learned if문 복습문항 a = ""if a: print("참입니다")else: print("거짓입니다.")답 : 거짓입니다이유: 값의 유무에 따라 참/거짓이 판별되기 때문 반복문(while문)-이전 버전으로 수강 반복문 (for 문)문장구조가 한눈에 들어온다는 장점 변수는 상자의 개념 [tip] for문과 while문 차이?for: 하나씩 뽑아오는거-> 여러개의 리스트를 하나씩 쓸 때while 계속 반복하는거 튜플의 경우, 내가 원하는 의도에 맞게 for 과 in 사이에 문자 넣으면 ..

728x90