본문 바로가기
Data Analysis/청소년수련활동인증제

공공데이터api_데이터정제 1 - 데이터 하나만 남도록 설정

by mansoorrr 2023. 8. 9.

 

 

추가데이터수집 보완

naver api를 활용해 추가데이터 수집을 했다. 그런데 빈 데이터가 너무 많아 사용하기가 어려웠다. 그래서 새로운 방법을 생각했다. 이 데이터는 원래 e-청소년 홈페이지에서 확인할 수 있는 데이

hiphan-mansoorrr.tistory.com

위의 링크에서 진행한 것처럼 추가 데이터 수집(위도, 경도, 주소)을 마치고 살짝 정제할 필요가 있었다.

 

orginfo 테이블에서 정제할 사항은 다음과 같았다.

1) api로 가져오지 못한 주소 및 위경도 채우기(7건)

이건 그냥 손으로 검색해서 복사 붙여넣기 했다.

 

2) 중복으로 들어가있는 데이터 없도록

중복으로 들어가있는 데이터가 있었다. 그래서 중복으로 들어가있는 데이터를 삭제해주었다.mysql에서 where삭제시 alias를 설정해 주지 않으면 오류가 나서 코드가 길어졌다. 이렇게 하면 이제 정말 기관들이 유니크하게 테이블 안에 들어가 있다.

DELETE
FROM orginfo A
WHERE A.id in( # 가져온 id들 삭제
    SELECT B.id
    FROM orginfo (
        SELECT orgName, max(id) as id # 기관이름별 최대 id가져오기
        FROM orginfo
        GROUP BY orgName
        HAVING COUNT(orgName) >1 
        ) B
    )

 

이를 바탕으로  Tableau를 활용해 분석을 실시한다.