ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [pandas] 기초
    데이터 분석/Python 2024. 7. 6. 20:05

    데이터 불러오기

    sample_1 = pd.read_excel('./files/sample_1.xlsx', # './'은 상대 경로를 의미
                             header=1,                # 칼럼명이 있는 위치
                             skipfooter=2,            # 마지막 로우에서 두 줄은 생략
                             usecols='A:C')           # A 칼럼부터 C 칼럼까지 불러오기
    sample_1.info()     # 데이터 정보 살펴보기

    sample_1.describe() # 데이터 기초통계량 확인

     

    데이터 선택하기 - 로우(Row) 기준

    condition = (sample_1['성별'] == '남성')
    sample_1[condition]

    conditions = (sample_1['성별'] == '남성') & (sample_1['입국객수'] >= 150000)
    sample_1[conditions]

    conditions = (sample_1['국적코드'].isin(['A01', 'A18'])) 
    sample_1[conditions == False]

     

    데이터 통합하기 - 옆으로 통합(merge)

    sample_1_code = pd.merge(left=sample_1,       # 왼쪽 테이블
                             right=code_master,   # 오른쪽 테이블
                             how='left',          # 병합 기준
                             left_on='국적코드',  # 왼쪽 테이블의 기준 칼럼
                             right_on='국적코드') # 오른쪽 테이블의 기준 칼럼

     

    데이터 통합하기 - 아래로 통합(concat)

    sample = pd.concat([sample_1_code, sample_2_code], ignore_index=True)
    • 데이터를 아래로 통합하기 위해서는 칼럼 순서가 동일해야 한다.
    • ignore_index=True를 지정하지 않으면 원래 각 데이터에서의 인덱스 값으로 합쳐지므로 일반적으로 ignore_index=True 인자를 지정하길 권장한다.

     

    데이터 집계하기

    sample_pivot = sample.pivot_table(values='입국객수',  # 엑셀에서 값
                                      index='국적명',     # 엑셀에서 행
                                      columns='기준년월', # 엑셀에서 열
                                      aggfunc='mean' )
    sample_pivot

     

    sample_pivot_2 = sample.pivot_table(values='입국객수',
                                        index='국적명',
                                        aggfunc='max')
    sample_pivot_2

     

Designed by Tistory.