본문 바로가기

Data Analysis/청소년수련활동인증제11

e청소년_데이터분석 Tableau를 활용하여 분석을 진행한다. Tableau에 데이터를 연결하고 기초통계량을 확인한다. 1. 프로그램 수 분석 먼저 필드별 기초 통계량을 파악하고 분석한다. 가. 프로그램 갯수 수집한 데이터의 프로그램코드로 갯수를 파악한 결과 2993개 프로그램이다. 나. 지역: 17개 지리적 위치를 파악하기 위해 Addr(주소) 필드를 도와 시로 구분하고 계층구조를 만든다. 1) Addr(도) 필드 생성 필드생성 SPLIT([Addr], " ", 1) 2) 지리명 변경 Tableau 에서 강원특별자치도는 강원도로 인식한다. 따라서 지리명을 강원도로 변경한다. 나. Addr(시) 필드 생성 1) 필드생성 SPLIT([Addr], " ", 2) 수집한 데이터가 속한 도는 17개 지역이며 지역별 프로그램 분포 .. 2023. 8. 29.
e청소년_데이터전처리2 1. 데이터전처리 Tableau를 활용해 데이터를 전처리했지만 분석하기 전에 추가적으로 전처리해야할 부분이 있다. 전처리할 부분과 관련 설명은 아래와 같다. 가. age 현재 age 컬럼은 초, 중, 고 등의 연령대로 작성되어 있다. 그런데 하나의 연령대만 있는것이 아닌 중고, 고일반 등으로 복수의 연령대를 대상으로한 프로그램도 존재한다. 따라서 해당 컬럼은 더미변수로 변환한다. value_counts()를 활용해 age컬럼의 값들을 확인했다. unique값은 초, 중, 고, 대, 일반, 전체, 오류 였다. 따라서 unique값을 기준으로 더미처리를 진행했다. #----- age 더미처리 dummy_cols = ["초", "중", "고", "대", "일반", "전체", "오류"] #unique값 for .. 2023. 8. 29.
e청소년_데이터 전처리 Tableau Prep을 이용해 e청소년 사이트에서 수집한 데이터를 전처리 한다. 먼저 Tableau Prep에 mysql을 연결하여 db를 불러온다. 나는 3개의 테이블이 조회된다. orgInfo 테이블과 pginfo테이블을 join 한다. 조인시 idx필드(orginfo)와 orgInfo_idx(pginfo)를 관계 맺는다. 아래 그림을 보면 orginfo테이블의 681개의 기관과 인증활동 2993개가 모두 잘 연결된 것을 확인할 수 있다. 1. 값 그룹화 및 공백 제거 데이터가 수집되면서 불필요한 문자열이 들어오거나 정정해야 하는 부분이 있어 값 그룹화와 공백을 제거하는 과정을 실시한다. 가. 값 그룹화 조인된 데이터로 onMethod(운영방식) 필드를 살펴보니 공백으로 되어있는 데이터가 있다. 5.. 2023. 8. 18.
e-청소년 사이트 스크래핑 공공api를 활용해 데이터를 수집하여 분석 하였지만 분석할 수 있는 건덕지가 많지 않았다. 또한 인증제에 대한 이론적 배경과 관련하여 분석하기 위해 서는 다른 방법으로 데이터를 수집할 필요가 있어 보였다. 따라서 e-청소년 사이트에 올라와있는 인증활동을 직접 스크래핑하여 데이터를 수집하기로 했다. [e-청소년 사이트] 사이트는 아래 사진 처럼 인증 프로그램이 나열되어있고, 활동들에 대한 정보가 형식에 맞춰 나열되어있다. 청소년활동정보서비스 e청소년 - 청소년활동 > 2023. 8. 18.