본문 바로가기

Data Analysis39

공공데이터api_데이터정제 1 - 데이터 하나만 남도록 설정 추가데이터수집 보완 naver api를 활용해 추가데이터 수집을 했다. 그런데 빈 데이터가 너무 많아 사용하기가 어려웠다. 그래서 새로운 방법을 생각했다. 이 데이터는 원래 e-청소년 홈페이지에서 확인할 수 있는 데이 hiphan-mansoorrr.tistory.com 위의 링크에서 진행한 것처럼 추가 데이터 수집(위도, 경도, 주소)을 마치고 살짝 정제할 필요가 있었다. orginfo 테이블에서 정제할 사항은 다음과 같았다. 1) api로 가져오지 못한 주소 및 위경도 채우기(7건) 이건 그냥 손으로 검색해서 복사 붙여넣기 했다. 2) 중복으로 들어가있는 데이터 없도록 중복으로 들어가있는 데이터가 있었다. 그래서 중복으로 들어가있는 데이터를 삭제해주었다.mysql에서 where삭제시 alias를 설정해.. 2023. 8. 9.
공공데이터 api 활용 수집 이후 추가데이터수집 보완 naver api를 활용해 추가데이터 수집을 했다. 그런데 빈 데이터가 너무 많아 사용하기가 어려웠다. 그래서 새로운 방법을 생각했다. 이 데이터는 원래 e-청소년 홈페이지에서 확인할 수 있는 데이터였다. 그러니 기관에 대한 정보가 다 있을것이라고 판단했다. 따라서. 기관 이름만 가지고 e- 청소년 홈페이지에 등록되어있는 주소를 먼저 가져왔다. 그 후 가져온 주소의 모양을 통일하고 좌표도 갖기 위해 geocoding api를 사용했다. e-청소년 사이트에서 가져온 주소는 정제가 되어있지 않아 깔끔하지 않았다. 하지만 geocoding api를 활용하면 자체적으로 일치하는 부분만 가지고 원하는 정보를 가져올 수 있었다. 만들다 보니 데이터가 너무 더럽게 저장되어있어서 다시 table을 다시 만들 생각을 했.. 2023. 8. 8.
공공데이터 api 활용 수집 이후 추가데이터 수집 추가 데이터는 주소와 위경도를 수집한다. 추가로 데이터를 수집하기 위해 naver map api를 활용한다. db에 저장해 두었던 데이터를 불러와 기관 이름을 리스트로 저장한 후 api를 활용해 정보를 가져왔다. #---------- 데이터 불러오기 data_sql = """ SELECT * FROM programinfo; """ col_sql = """ SELECT COLUMN_NAME FROM INFORMATION_SCHEMA.COLUMNS WHERE TABLE_NAME="programinfo"; """ result = read_table(data_sql) cols = read_table(col_sql) columns = [col[0] for col in cols] df = pd.DataFrame(r.. 2023. 8. 7.
데이터 탐색 청소년수련활동인증제 공공데이터를 통해 수집한 데이터는 테이블 세개로 나뉜다. 기본적으로 데이터 탐색을 진행한다. 1. Programlist(2016.11.30 ~ 2023.08.01) 가. 프로그램 갯수: 2972개 select count(*) from programlist; 나. 기관 갯수: 674개 select count(*) from ( select distinct(orgName) from programlist ) a; 다. 기관별 프로그램 갯수(최대, 최소, 평균) - 프로그램 수가 가장 많은 기관은 국립청소년해양센터로 46개 이다. - 프로그램수가 가장 적은 기관들은 1개 프로그램을 가지고 있고 213개 기관이 있다. 수련활동 인증제를 실시하는 전체 기관의 1/3정도는 1개 프로그램만 운영한다... 2023. 8. 2.