본문 바로가기

Data Analysis39

e청소년_데이터전처리2 1. 데이터전처리 Tableau를 활용해 데이터를 전처리했지만 분석하기 전에 추가적으로 전처리해야할 부분이 있다. 전처리할 부분과 관련 설명은 아래와 같다. 가. age 현재 age 컬럼은 초, 중, 고 등의 연령대로 작성되어 있다. 그런데 하나의 연령대만 있는것이 아닌 중고, 고일반 등으로 복수의 연령대를 대상으로한 프로그램도 존재한다. 따라서 해당 컬럼은 더미변수로 변환한다. value_counts()를 활용해 age컬럼의 값들을 확인했다. unique값은 초, 중, 고, 대, 일반, 전체, 오류 였다. 따라서 unique값을 기준으로 더미처리를 진행했다. #----- age 더미처리 dummy_cols = ["초", "중", "고", "대", "일반", "전체", "오류"] #unique값 for .. 2023. 8. 29.
e청소년_데이터 전처리 Tableau Prep을 이용해 e청소년 사이트에서 수집한 데이터를 전처리 한다. 먼저 Tableau Prep에 mysql을 연결하여 db를 불러온다. 나는 3개의 테이블이 조회된다. orgInfo 테이블과 pginfo테이블을 join 한다. 조인시 idx필드(orginfo)와 orgInfo_idx(pginfo)를 관계 맺는다. 아래 그림을 보면 orginfo테이블의 681개의 기관과 인증활동 2993개가 모두 잘 연결된 것을 확인할 수 있다. 1. 값 그룹화 및 공백 제거 데이터가 수집되면서 불필요한 문자열이 들어오거나 정정해야 하는 부분이 있어 값 그룹화와 공백을 제거하는 과정을 실시한다. 가. 값 그룹화 조인된 데이터로 onMethod(운영방식) 필드를 살펴보니 공백으로 되어있는 데이터가 있다. 5.. 2023. 8. 18.
e-청소년 사이트 스크래핑 공공api를 활용해 데이터를 수집하여 분석 하였지만 분석할 수 있는 건덕지가 많지 않았다. 또한 인증제에 대한 이론적 배경과 관련하여 분석하기 위해 서는 다른 방법으로 데이터를 수집할 필요가 있어 보였다. 따라서 e-청소년 사이트에 올라와있는 인증활동을 직접 스크래핑하여 데이터를 수집하기로 했다. [e-청소년 사이트] 사이트는 아래 사진 처럼 인증 프로그램이 나열되어있고, 활동들에 대한 정보가 형식에 맞춰 나열되어있다. 청소년활동정보서비스 e청소년 - 청소년활동 > 2023. 8. 18.
공공데이터 api 활용 데이터 연결 및 관계 설정 큰 틀은 Tableau에서 MySQL을 연결하여 실시하는 것이다. 기본적으로는 Tableau Desktop을 활용하여 여러 테이블을 가져와 관계설정을 위해 join을 진행하면 된다. 하지만 이번에는 Tableau Prep Builder를 사용하여 관계 및 기본적인 정제를 실시한다. 1. 데이터 연결 먼저 데이터베이스를 연결하면 6개의 테이블이 생성되어 있다. 4개 정도만 사용할 것이지만 6개가 불러와졌다. 2. 관계설정 먼저 orginfo(기관 정보)와 programinfo(기관 및 프로그램 정보)의 관계(join)를 설정한다. join은 programinfo를 바탕으로 orginfo를 만들었으므로 inner join을 활용하면 된다. join할 컬럼은 orgName이다. 드래그하게 되면 다음과 같이 나.. 2023. 8. 9.