추가데이터수집 보완
naver api를 활용해 추가데이터 수집을 했다. 그런데 빈 데이터가 너무 많아 사용하기가 어려웠다. 그래서 새로운 방법을 생각했다. 이 데이터는 원래 e-청소년 홈페이지에서 확인할 수 있는 데이
hiphan-mansoorrr.tistory.com
위의 링크에서 진행한 것처럼 추가 데이터 수집(위도, 경도, 주소)을 마치고 살짝 정제할 필요가 있었다.
orginfo 테이블에서 정제할 사항은 다음과 같았다.
1) api로 가져오지 못한 주소 및 위경도 채우기(7건)
이건 그냥 손으로 검색해서 복사 붙여넣기 했다.
2) 중복으로 들어가있는 데이터 없도록
중복으로 들어가있는 데이터가 있었다. 그래서 중복으로 들어가있는 데이터를 삭제해주었다.mysql에서 where삭제시 alias를 설정해 주지 않으면 오류가 나서 코드가 길어졌다. 이렇게 하면 이제 정말 기관들이 유니크하게 테이블 안에 들어가 있다.
DELETE
FROM orginfo A
WHERE A.id in( # 가져온 id들 삭제
SELECT B.id
FROM orginfo (
SELECT orgName, max(id) as id # 기관이름별 최대 id가져오기
FROM orginfo
GROUP BY orgName
HAVING COUNT(orgName) >1
) B
)
이를 바탕으로 Tableau를 활용해 분석을 실시한다.
'Data Analysis > 청소년수련활동인증제' 카테고리의 다른 글
e-청소년 사이트 스크래핑 (0) | 2023.08.18 |
---|---|
공공데이터 api 활용 데이터 연결 및 관계 설정 (0) | 2023.08.09 |
공공데이터 api 활용 수집 이후 추가데이터수집 보완 (0) | 2023.08.08 |
공공데이터 api 활용 수집 이후 추가데이터 수집 (0) | 2023.08.07 |
데이터 탐색 (0) | 2023.08.02 |