Data Analysis/청소년수련활동인증제
e청소년_데이터전처리2
mansoorrr
2023. 8. 29. 10:37
1. 데이터전처리
Tableau를 활용해 데이터를 전처리했지만 분석하기 전에 추가적으로 전처리해야할 부분이 있다. 전처리할 부분과 관련 설명은 아래와 같다.
가. age
현재 age 컬럼은 초, 중, 고 등의 연령대로 작성되어 있다. 그런데 하나의 연령대만 있는것이 아닌 중고, 고일반 등으로 복수의 연령대를 대상으로한 프로그램도 존재한다. 따라서 해당 컬럼은 더미변수로 변환한다.
value_counts()를 활용해 age컬럼의 값들을 확인했다. unique값은 초, 중, 고, 대, 일반, 전체, 오류 였다. 따라서 unique값을 기준으로 더미처리를 진행했다.
#----- age 더미처리
dummy_cols = ["초", "중", "고", "대", "일반", "전체", "오류"] #unique값
for col in dummy_cols:
for j in range(copy_df.shape[0]):
if col in copy_df.loc[j, 'age']: #unique값이 age필드에 있을경우
row_list.append(1)
copy_df.loc[j, col] = 1
else: # 없을경우
copy_df.loc[j, col] = 0
나. price
price컬럼은 null값이 존재한다. null값은 참가비가 없는 것이므로 0으로 대체한다.
copy_df.loc[copy_df["price"].isnull(), "price"] = 0
e청소년_데이터분석
Tableau를 활용하여 분석을 진행한다. Tableau에 데이터를 연결하고 기초통계량을 확인한다. 1. 프로그램 수 분석 먼저 필드별 기초 통계량을 파악하고 분석한다. 가. 프로그램 갯수 수집한 데이터의
hiphan-mansoorrr.tistory.com