Data Analysis/청소년수련활동인증제

e청소년_데이터전처리2

mansoorrr 2023. 8. 29. 10:37

1. 데이터전처리

 

Tableau를 활용해 데이터를 전처리했지만 분석하기 전에 추가적으로 전처리해야할 부분이 있다. 전처리할 부분과 관련 설명은 아래와 같다.

 

가. age

현재 age 컬럼은 초, 중, 고 등의 연령대로 작성되어 있다. 그런데 하나의 연령대만 있는것이 아닌 중고, 고일반 등으로 복수의 연령대를 대상으로한 프로그램도 존재한다. 따라서 해당 컬럼은 더미변수로 변환한다.

 

value_counts()를 활용해 age컬럼의 값들을 확인했다.  unique값은 초, 중, 고, 대, 일반, 전체, 오류 였다. 따라서 unique값을 기준으로 더미처리를 진행했다.

age필드 현황 / age필드 value_counts() / 더미변수 변환

#----- age 더미처리
dummy_cols = ["초", "중", "고", "대", "일반", "전체", "오류"] #unique값
for col in dummy_cols:    
    for j in range(copy_df.shape[0]):
        if col in copy_df.loc[j, 'age']: #unique값이 age필드에 있을경우
            row_list.append(1)
            copy_df.loc[j, col] = 1
        else: # 없을경우 
            copy_df.loc[j, col] = 0

 

나. price

price컬럼은 null값이 존재한다. null값은 참가비가 없는 것이므로 0으로 대체한다.

copy_df.loc[copy_df["price"].isnull(), "price"] = 0

 

 

 

 

 

e청소년_데이터분석

Tableau를 활용하여 분석을 진행한다. Tableau에 데이터를 연결하고 기초통계량을 확인한다. 1. 프로그램 수 분석 먼저 필드별 기초 통계량을 파악하고 분석한다. 가. 프로그램 갯수 수집한 데이터의

hiphan-mansoorrr.tistory.com