본문 바로가기

Certification/ADP필기5

4과목 - 데이터분석 1. 과대적합 모델 개발 시에는 높은 적중률을 보이지만 테스트 데이터에서는 적중률이 떨어지는 현상 과대적합이 발생할 것으로 예상되면 학습을 종료하고 업데이트 하는 과정을 반복해 과대적합 방지 분석변수가 많거나 분석모델이 복잡할때 발생 분석데이터가 모집단의 특성을 설명하지 못할때 발생 모델이 훈련데이터에 최적화 되어있기 때문에 테스트 데이터의 작은 변화에 민감하게 반응 2. 척도 명목척도: 측정 대상이 어느 집단에 속하는지 분류할때 사용 ex)성별, 출생지정보 순서척도: 관찰 대상이 가지고 있는 속성의 크기를 측정하여 순서대로 대상의 순위를 나타내는 척도 구간척도 속성의 양을 측정하는 것으로 결과는 숫자지만 절대적인 영점이 없어 두 관측값 사이의 비율은 의미가 없게 됨(온도, 지수, 주가지수 등) 측정 대.. 2023. 9. 26.
5과목 - 데이터 시각화 1. 시각화 인사이트 프로세스 인사이트 발전과 확장 처음으로 무언가를 살펴볼 때는 보텀업 방식이 적절 데이터가 많아질수록 실시간으로 처리할 수 있는 탐색과 분석의 수준은 낮아진다 몇 가지의 지표에만 집중해도 관계들을 통해 나타나는 전체적인 흐름을 알 수 있다 다양한 시각화의 오류와 문제점을 피하기 위해서는 최대한 여러 관점에서 신중하게 고려해야 함 1단계: 탐색 계층 관계를 갖는 데이터나, 어떤 기준으로 묶인 데이터의 대부분은 형태를 변환해 연결고리를 찾아낼 수 있다. 여러 개의 데이터 명세를 보유한 경우, 연결고리를 확인함으로써 명세들을 포괄해 탐색할 수 있는 차원과 측정값의 조합을 정리해야 한다. 척도 문제가 발생하는 경우 실제 값을 변형해 같은 공간에 표기해도 각각의 패턴이 명확하게 보이게끔 조정해.. 2023. 9. 26.
3과목 - 데이터 분석 기획 1. 분석 주제 유형 분석대상(What) 분석주제유형 Known Un-Known Optimization(최적화) Insight(통찰) Known 분석방법(How) Solution(솔루션) Discovery(발견) Un-Known 2. 분석시 고려할 요소 가용 데이터에 대한 고려 데이터 확보 적절한 활용방안과 유즈케이스 장애요소들에 대한 사전계획 수립 3. 분석과제 발굴을 위한 접근 방법 가. 상향식 접근법 비지도 학습방법에 의해 수행된다 인과관계로부터 상관관계 분석으로의 이동이라는 변화를 만들었다 사물을 있는 그대로 인식하는 What의 관점에서 접근 데이터먼저 보고 문제정의 데이터를 활용하여 인사이트를 도출하는 것으로 유용성이 점차 증가되고 있음 나. 하향식 접근법 기업의 내/외부 환경을 포괄하는 비지니.. 2023. 9. 25.
2과목 - 데이터 처리 기술의 이해 1. 데이터웨어하우스 ODS(ETL과정 거치는거)로 만들어진 데이터 저장소 주제중심성: 실 업무 상황(주제)을 반영하므로 최종 사용자도 이해하기 쉬운 형태를 가짐 영속성, 비휘발성: 최초 저장 이후에 읽기전용(load, access 중심)이라 삭제 안됨, batch(일괄)처리 외에는 별도의 갱신 이루어 지지 않음 통합성: 기관의 많은 부서들이 보유한 데이터들의 집합소 시계열성: 시간순에 의한 이력 데이터를 보유 오래된 상세 데이터 및 2차 가공된 요약된 데이터를 저장 비교적 대규모 데이터를 저장 가. 스타스키마 조인 스키마라고 부르고 가장 단순 단일 테이블을 중심으로 다수차원 테이블 들로 구성 관계형 데이터 베이스를 통해 다차원 데이터 베이스 기능 구현 가능 중심(사실)테이블은 제 3정규형으로 모델링, .. 2023. 9. 25.