본문 바로가기
Certification/ADP필기

4과목 - 데이터분석

by mansoorrr 2023. 9. 26.

1. 과대적합

  • 모델 개발 시에는 높은 적중률을 보이지만 테스트 데이터에서는 적중률이 떨어지는 현상
  • 과대적합이 발생할 것으로 예상되면 학습을 종료하고 업데이트 하는 과정을 반복해 과대적합 방지
  • 분석변수가 많거나 분석모델이 복잡할때 발생
  • 분석데이터가 모집단의 특성을 설명하지 못할때 발생
  • 모델이 훈련데이터에 최적화 되어있기 때문에 테스트 데이터의 작은 변화에 민감하게 반응

2. 척도

  • 명목척도: 측정 대상이 어느 집단에 속하는지 분류할때 사용 ex)성별, 출생지정보
  • 순서척도: 관찰 대상이 가지고 있는 속성의 크기를 측정하여 순서대로 대상의 순위를 나타내는 척도
  • 구간척도
    • 속성의 양을 측정하는 것으로 결과는 숫자지만 절대적인 영점이 없어 두 관측값 사이의 비율은 의미가 없게 됨(온도, 지수, 주가지수 등)
    • 측정 대상의 순서와 순서 사이의 간격이 의미가 있는 자료
  • 비율척도: 측정대상의 간격에 대한 비율이 의미를 가짐 (무게, 나이, 시간, 거리)

3. 모분산의 추론

  • 이표본에 대한 분산비 검정은 두 표본의 분산이 동일한지 비교하는 검정으로 F분포를 따름
  • 모분산이 추론의 대상이 되는 경우는 모집단의 변동성 또는 퍼짐 정도에 관심이 있을때
  • 모집단이 정규분포를 따르지 않더라도 중심극한정리에 의해 정규 모집단으로부터의 모분산에 대한 검정을 유사하게 시행할 수 있음

4. 카이제곱 분포

  • 평균모집단에서 n개를 단순 임의 추출한 표본의 분산은 카이제곱 분포를 따름

5. 다중회귀분석을 위해 사용되는 변수선택방법

  • 전진선택법과 후진선택법의 결과는 항상 동일하지 않음
  • 독립변수들의 조합으로 이루어진 회귀모형 중 가장 적합하게 나타낸 모형을 선택한다
  • 통계량 용어
    • 수정결정계수(Adjusted R squared): 평균 제곱 오차가 가장 작은 축소모형을 선택하는 방법으로 모형의 간명성과 설명성을 동시에 고려
    • Mallows Cp: 예측식이 가진 수행능력을 에측값의 변이를 기준으로 평가하기 위해 예측값에 대한 MSE를 고려
    • Akaike: 정확도와 간명성 사이의 상충을 조절하려는 방법, 비슷한 SSE를 갖는 두 모형에 대해 AIC는 적은 변수를 갖는 모형에 대해 가산점을 부여
  • 전진선택법
    • 상수항만 포함한 모형에서 출발하여 설명력이 좋은 변수를 추가
    • 중요하다고 생각되는 설명변수부터 차례대로 선택
    • 변수가 추가되면 기존 변수들의 중요도에 영향을 받게 됨(변수를 추가했는데 이미 선택된 변수의 유의수준이 높아지면 추가한 변수 사용 못함)
  • 후진제거법: 모든 변수가 포함된 모형에서 출발하여 설명력이 나쁜 변수를 하나씩 제거
  • 단계선택법: 설명력이 나쁜 변수를 제거하거나 모형에서 제외된 변수 중 모형의 설명력을 가장 잘 개선하는 변수 추가

6. 이상치 판별법

  • 이상치는 분포를 왜곡할 수 있으나 실제 오류인자인지에 대해서는 통계적으로 판단하지 못하므로 제거여부는 실무자와 상의해야함
  • 상자그림
    • IQR = Q3-Q1 일때 Q1-(1.5*Q1) < x < Q3 + (1.5*Q3) 범위를 벗어나는 x를 이상치라 함
    • 이상치는 상자그림을 통해 확인 가능
    • 평균으로 부터 3표준 편차 범위를 벗어나는 것들을 비정상이라고 봄(무조건 제거는 안됨)
  •  

8. 표본 추출 방법

  • 표본의 크기를 결정할 때 가장 중요한 부분은 표본이 모집단을 얼마나 설명하는지 임
  • 단순 랜덤 추출법: 모집단에서 샘플 뽑을때 각각의 샘플이 모두 동등한 확률을 가지고 무작위로 추출되는 방법
  • 층화추출법: 모집단을 몇 개의 집단으로 구분하고, 각 집단의 크기와 분산을 고려하여 집단마다 샘플을 추출하는 방법
  • 집락추출법: 모집단을 군집으로 구분하고, 선정된 군집의 원소를 모두 샘플로 추출하는 다단계 추출 방법
  • 계통추출법: 모집단의 원소들에 일련번호를 부여하고 순서대로 나열한 후에 k개씩 n개의 구간으로 나눔, 첫 구간에서 하나를 임의로 선택한 후에 k개씩 띄어서 표본을 추출하는 방법

9. 비모수검정

  • 자료가 추출된 모집단에 아무런 제약을 가하지 않고 검정을 실시하는 것
  • 관측되 자료의 수가 많지 않거나 자료가 개체간의 서열관리를 나타내는 경우
  • 관측된 자료가 주어진 분포를 따른다는 가정을 받아드릴 수 없을때 이용하는 검정
  • 관측된 자료가 특정 분포를 따른다고 가정할 수 없을때 이용
  • 부호검정, 윌콕슨의 순위합검정, 만-위트니의 U검정, 런검정, 스피어만의 순위 상관계수 등이 있음

10. 두변량 상관분석

  • 등간 척도로 측정된 두 변수간의 상관관계는 피어슨 상관계수로 확인
  • 상관계수가 0이면 두변량 사이에 선형관계 없음
  • 서열척도로 측정된 두 변수간의 상관관계는 스피어만 상관계수로 확인
  • R에서 상관계수를 구하기 위해서는 cor(), rcorr()함수 사용
  • rcorr()함수 사용시 type인자를 통해 피어슨과 스피어만 상관계수를 선택할 수 있음

11. 결정계수(R^2)

  • 총 제곱의 합 중 설명된 제곱의 합의 비율
  • R^2값이 클 수록 회귀선으로 실제 관찰치를 예측하는데 정확성이 높아진다
  • 독립변수와 종속변수 간의 표본상관계수 r의 제곱값과 같다.
  • 종속변수에 미치는 영향이 작더라도 독립변수가 추가되면 결정계수는 변한다.

12. 시계열

  • 정상시계열인지 비정상인지 확인하기 위해 폭발적인 추세를 보이거나 시간에 따라 분산이 변화하는지 확인해야 한다
  • 비정상 시계열을 정상으로 변경하기 위해 변환과 차분을 사용
  • 평균이 일정하지 않은 비정상 시계열은 차분을 통해 정상성 확보
  • 분산이 일정하지 않은 비정상 시계열은 변환을 통해 정상성 확보
  • 정상성
    • 평균이 일정하다
    • 시계열 분석에서는 거의 모든 자료가 비정상 시계열이라 정상성을 갖추고 분석 진행한다
    • 분산이 시점에 의존하지 않는다
    • 공분산은 단지 시차에만 의존하고 실제 어느 시점 t,s에는 의존하지 않는다.
  • 종류
    • AR(자기회귀)
      • ACF(자기상관함수)는 빠르게 감소하고 PACF(부분자기함수)는 어느 시점에서 절단점을 갖게 됨
    • MA(이동평균)
      • ACF(자기상관함수)는 절단점을 갖고, PACF(부분자기함수)는 빠르게 감소한다
    • ARIMA(자기회귀누적이동평균)
      • 비정상시계열모형으로 차분이나 변환을 통해 AR, MA, ARMA모형으로 정상화 할 수 있음
  • 지수평활법: 모든 시계열 자료를 사용하여 평균을 구하고 시간에 흐름에 따라 최근 시계열에 더 많은 가중치를 부여하여 미래를 예측하는 방법

13. 회귀분석

  • 특정 변수의 t값과 p값이 유의하지 않다면 유의하지 않은 변수를 제외하고 다시한번 회귀분석 진행
  • 이후 모든 변수가 유의하고 모형의 F값과 p값이 유의할 경우에 회귀식을 결정한다
  •  가정
    • 선형성
    • 등분산성
      • 잔차도 그림이 0을 중심으로 특정 패턴 없이 일정하게 분포되어 있어야 함
    • 독립성
    • 비상관성(상관성확인)
    • 정규성
      • QQ plot은 정규성을 평가하는 절대적 기준: 직선위에 분포해아 함
      • 잔차의 히스토그램이나 점도표를 그려서 정규성 문제 검토
      • shapiro-wilk test, anderson-darling test등을 이용
      • 정규성 가정을 충족하지 못한다면 데이터 추가 수집을 통해 해결 가능
  • 모형적합 후 확인해야 할 사항
    • F-value를 통해 모형이 통계적으로 유의한지 확인
    • 모형이 데이터에 잘 적합되어 있는지 확인
    • t-value, p-value를 통해 유의한지 확인

14. 데이터마이닝의 활용 예

  • 병원에서 환자 데이터를 이용해 발생 가능성 높은 병 예측
  • 웹사이트 접속 고객 데이터 활용해 상품 추천
  • 대출심사시 고객데이터 활용 우량/불량 예측

15. Classification 에 활용되는 R패키지

  • rpart
  • party
  • marginTree

16. ROC

  • 모형 성능 평가 지표
  • 사후확률과 각 분류기준값에 의해 오분류 행렬을 만든 다음, 민감도와 특이도를 산출해 도식화
  • x축은 1-특이도 y축은 민감도로 설정하여 그려지는 모형을 평가

18. 장바구니분석(연관성분석)

  • 구매한 상품 데이터를 이용해 분석해본 결과 A를 산사람이 B도 사더라 와 같은 결론을 얻어내는 방법
  • Apriori 알고리즘: 최소지지도보다 큰 빈발항목집합에서 높은 측도(신뢰도, 향상도) 값을 갖는 연관 규칙을 구하는 방법

19. 이상값을 활용한 응용 시스템

  • 부정사용 방지 시스템

20. 거리계산

  • 유클리드(비계층적군집)
    • √(x-y)^2 + (x-y)^2
  • 계층적군집: 최장, 최단, 와드, 평균연결법
    • 최단연결법:
      • 사슬모양이 생길 수 있음
      • 각 군집에서 하나의 관측값을 뽑았을 때 나타날 수 있는 거리의 최소값

21. 모델성능평가

  • 분류모델
    • 예비기법(HoldOut): 데이터를 훈련집단과 시험 집단으로 나누어 평가하는 기법
    • 다중교차검증(K-Fold cross validation): 데이터를 k개의 동일 크기 구획으로 분할하여 평가
    • 부트스트랩: 샘플링방식으로 훈련집합 구성(63.2%의 훈련용 자료로 하는걸 적절하다고 함)
    • ROC
    • 이익도표
    • 향상도 곡선
    •  혼동행렬
      • 분류 문제를 예측하기 위한 모형 개발 후 평가 지표
      • 정확도: (TP + TN) / (TP + FN + FP + TN)2
      • 재현율(예측한 전체값들중 positive를 맞춘비율): (TP) / (TP + FN)
      • 민감도(실제 positive를 positive로 잘 맞춘 값): (TP) / (TP + FN) 
      • 특이도(실제 negative를 negative로 잘 맞춘 값): (TN) / (FP + TN)
      • 재현율(예측한 전체 값들 중 
혼동행렬 예측
Positive Negative
실제 Positive TP FN
Negative FP TN

23. 결정의 기준

  • 1종오류
    • 실제로 귀무가설이 맞는데 틀리다고 결론 내리는 오류

24. 앙상블(지도학습: supervised learning)

  • 배깅
    • 원데이터에서 여러개의 부트스트랩(표본: 표본마다 동일한 확률 부여)을 추출하고 부트스트랩마다 예측모형을 만든 후 결합하여 최종 예측 모형을 만듬
    • 랜덤포레스트
      • 배깅 과정에 랜덤과정을 추가한 방법
      • 의사결정나무모형의 특징인 분산이 크다는걸 고려한 방법
  • 부스팅
    • 부트스트랩(표본)을 구성하는 과정에서 분류가 잘못된 데이터에 더 큰 가중을 주어 표본을 추출함

25. 사회연결망 분석

  • 연결중심성: 한 노드에 직접적으로 연결되 노드들의 합
  • 근접중심성: 직접적으로 연결되 노드 뿐만 아니라 간접적으로 연결되 노드들간의 거리를 계산
  • 매개 중심성: 한 노드가 연결망 내의 다른 노드들 사이의 최다 경로 위에 위치 할 수록 그 노드의 중심성이 높은 것으로 측정하는 방법
  • 위세중심성: 연결된 노드의 중요성에 가중치를 둬 중심성을 측정하는 방법
  • 2원모드 매트릭스: 행과 열에 다른 개체가 배열되어 있는 매트릭스
  • 인디그리중심성: 관계의 방향이 존재하는 그래프를 분석할때 A노드가 다른 노드로 부터 관계를 받는 정도를 의미

26. 공분산

  • X, Y의 방향의 조합(선형성)이다.
  • Cov(X, Y) = E[(X-ux)(Y-uy)]
  • X와 Y가 서로 독립이면 Cov(X, Y) = 0이다
  • 공분산의 범위는 -1 ~ 1 사이가 아니다

28. TDM(Term - Document - Metrix)

  • 전처리된 문서와 단어간의 사용여부를 사용해 만들어진 행렬로 각 단어의 빈도를 쉽게 알 수 있음
  • sparcity(희소성): tdm안에 0인 원소가 있는 % ( 0개수 / 전체 개수)

29. 연관 규칙 ( A -> B 일 경우)

  • 신뢰도 = 지지도 / P(A): (A가 들어있는 물품의 합 / 전체합)
  • 지지도 = A와 B가 동시에 들어있는 물품의 합 / 전체 합
  • 향상도(A를 안샀을때 B의 확률에 비해 A를 샀을때 B확률의 증가율) = 신뢰도 / P(B)
    • A와 B가 관련이 없으면 향상도 = 1
    • A를 샀을때 B를 살 확률이 향상된다면 향상도 > 1
    • A를 샀을 때 B를 살 확률이 저하된다면 향상도 < 1

 

30. 분해 시계열 

  • 시계열에 영향을 주는 일반적인 요인을 분리해 분석하는 방법
  • 구성요소
    • 추세(경향)요인: 자료의 형태가 오르거나 내리는 모습이 추세를 따르는 경우로 선형형태, 지수형태 등이 있음
    • 순환요인: 경제적이나 자연적 이유 없이 알려지지 않은 주기를 가지고 변화하는 자료 형태 
    • 계절요인:
    • 불규칙요인:

31. TM 패키지 기본 Transformation 함수

  • stripWhitespace, tolower, removeNumbers, removePunctuation

32. R에서 사용 가능한  데이터 오브젝트에 대한 설명

  • 행렬: 차원을 가진 벡터
  • 리스트: 원소들은 다른 모드여도 상관 없음
  • 벡터: 원소들은 모두 같은 모드여야 함
  • 데이터프레임: 리스트 구조로 구현된 테이블로된 구조

33. 종속변수를 설명하는데 가장 중요한 독립변수의 특징

  • 표준화 자료로 추정 계수가 가장 큰 변수
  • 추정한 계수가 클 수록 종속변수에 가장 영향을 많이 미치게 됨

34. 중심극한정리

  • 여러 통계적 방법론에는 정규데이터가 필요함
  • 중심극한정리를 사용하면 비정규적인 모집단에도 정규데이터처럼 처리 가능
  • 표본평균의 분포는 표본의 크기가 커짐에 따라 정규 분포로 근사
  • 모집단의 분포가 대칭이면 표본의 크기가 작아도 되지만 모집단의 분포가 비대칭이면 표본의 크기가 30이상 되야함
  • 동일한 확률분포를 가진 독립변확률 변수의 분포는 n이 30이상이라면 정규분포에 가까워 진다

35. 확률변수

  • 특정값이 나타날 가능성을 확률로 나타낸것
  • 실수로 나타남
  • 이산형 확률분포: 확률 변수의 공간이 유한하거나 셀 수 있는 경우
    • 이항분포
    • 기하분포
    • 초기하분포
    • 다항분포
    • 베르누이
    • 포아송
  • 연속형 확률분포: 확률변수의 공간이 무한한 경우 
    • 정규분포
    • T분포(t검정: 평균비교)
    • F분포
  • 균일분포
    • 확률변수의 구간내에서 모든 확률이 동일한 분포를 의미
    • 확률 = 1-(b-a)

36. 주성분 분석

  • 차원의 단순화를 통해 서로 상관되어 있는 변수들 간의 복잡한 구조를 분석하는 것이 목적
  • 다변량 그래프를 저차원 그래프로 표시하여 이상치 탐색에 사용
  • 변수들간에 상관성이 있는 경우 해석상의 복잡한 구조적 문제가 발생하는데 이를 해결하기 위해 사용
  • 회귀분석에서 다중공선성 문제를 해결하기 위해 사용
  • p개의 변수들을 m개의 주성분으로 표현하여 전체변동을 설명
  • m개의 주성분은 원래 변수에서 선형 결합으로 생성된 변수
  • 설명력은 누적비율(Cumulative Proportion)활용
  • 전체 변이 공헌도(percentage of total variance) 방법은 전체 변이의 70 ~ 90% 정도가 되도록 주성분의 수 결정

37. 데이터 분할

  • 데이터를 구축(train), 검정(validation), 시험(test)용으로 분리
  • 일반적으로 구축용(50%), 검정용(30%), 시험용(20%)로 분리
  • 데이터가 충분하지 않다면 구축, 시험용만 구분하여 활용
  • 필요에 따라 구축용과 시험용을 번갈아가며 사용하는 교차확인을 통해 모형을 평가

38. 데이터 분석 기법

  • 군집분석(비지도학습)
    • 계층적 군집분석
      • 처음 속한 군집에서 다른 군집으로 이동할 수 없다
      • 동일한 거리계산법을 적용하면 몇번 시행해도 동일한 결과 나온다
      • 거리가 가장 짧은 노드들을 하나의 군집으로 선택하고 다음 노드들을 최장, 최단, 평균, 와드 등 연결법을 적용해서 묶어 나감
      • 사슬모양의 군집이 생길 수 있음
    • 비계층적 군집분석
      • 주어진 데이터의 내부 구조의 사전 정보 없이도 의미있는 결과 도출 가능
      • 다양한 형태의 데이터 적용 가능
      • 분석방법의 적용 용이
      • 사전에 주어진 정보가 없어 해석이 어려움
      • K-means
        • 한 개체가 처음 속한 군집에서 다른 군집으로 이동해 재배치 될 수 있다
        • 초기값에 대한 의존도가 커서 초기값을 어떻게 하느냐에 따라 군집이 달라질 수 있다
        • 실행할때 동일한 결과 달라질 수 있다
        • 잡음이나 이상값에 영향을 많이 받는다
        • 전체 최적화가 보장되지 않음
        • 볼록한 형태가 아닌 군집에 존재하면 성능이 떨어짐
        • 단점을 보완하기 위해 평균대신 중앙값을 사용
        • 계층적 군집보다 많은 양의 데이터를 다룰 수 있음
      • DBSCAN
        • 군집의 경계를 찾기 위해 밀도가 낮아지는 시점이 필요, 실제 세계에서는 정확한 군집의 구조 찾기 힘듬
        • 두가지 파라미터 정의 필요
          • 주변공간에 대한 정의
          • 주변공간에 몇개의 데이터가 존재해야 군집으로 설정할 것인지
        • 군집과 노이즈를 분류하는 알고리즘
        • 군집은 한 예상벡터로 부터 접근 가능한 모든 데이터 집합이라고 정의
        • 데이터의 밀도를 통해 군집을 정하는 방법
  • 텍스트마이닝
    • Corpus
      • 데이터마이닝 절차중 정제, 통합, 선택, 변환을 마친 구조화된 단계
      • 알고리즘 실험에서 사용될 수 있는 상태
      • R의 tm(텍스트마이닝) 패키지에서 문서를 관리하는 기본 구조
    • Stemming: 영문 텍스트마이닝 시 텍스트 데이터에 대한 전처리 작업으로 공통 어간을 가지는 단어를 묶는 처리 방법
    • TF-IDF: 단어 빈도수를 이용하여 키워드를 도출하는 기법
    • WordCloud: 문서의 단어를 이용해 빈도가 높은 단어를 크게 나타내 효과적으로 시각화 한 기법
    • 감성분석(Opinion Mining)
      • 문장에서 사용된 단어의 긍정과 부정여부에 따라 얼마나 긍정적인 단어가 많은지 여부로 문장을 파악
      • 내용이 긍정적인지 부정적인지 판별하고 나의 상품이나 브랜드의 여론이 긍정적인지 부정적인지를 찾아내는지 활용됨
      • 개별 문장의 분석에 오류가 나면 많은 문서를 가공하더라도 추이 파악이 어려울 수 있다.
      • 영향력이 높은 대상자에게는 높은 가중치를 부여함으로써 더 정확한 감정 지표를 계산할 수 있다
  • 의사결정나무 분석(지도학습)
    • 모형 결과를 누구나 이해하기 쉽고 설명 용이
    • 모형 정확도는 다른 모형에 비해 뒤쳐지지 않음
    • 대용량 데이터도 빠르게 만들 수 있고 데이터의 분류 작업도 신속히 진행 가능
    • 비정상 잡음 데이터에 민감하지 않다
    • 많은 수의 예측변수 중 목표변수에 가장 큰 영향을 미치는 변수를 선택하고자 할 때 사용
    • 여러개의 독립변수들이 결합하여 종속변수에 적용하는 교호작용을 파악하고자 하는 경우 유용
    • 세분화(segment), 분류(classification), 예측(Prediction)에 사용
    • 과적합의 문제를 해결하기 위해 가지치기 바업을 이용하여 트리 조정
    • 엔트로피: 불순도측도로 여러가지 임의의 사건이 모여있는 집합의 순수성 또는 단일성 관점의 특성을 정량화 해서 표현한 것( -시그마 p_k *  log_2(p_k) )
  • SOM
    • 고차원의 데이터를 저차원의 뉴런으로 정렬하여 지도 형태로 형상화 하는 방법
    • 지도 형태의 형상화는 입력변수의 위치 관계를 그대로 보존
    • 입력벡터와 가장 비슷한 연결강도 벡터를 가진 경쟁층의 뉴런이 승자
    • 승자와 그 주변의 경쟁층 뉴런에 대해서만 연결강도 수행
    • 고차원의 데이터를 1차원으로 표시할 수 있는 장점
    • 역전파 알고리즘을 사용하는 인공신경망과 달리 단 하나의 전방패스를 사용함으로 속도 빠름

39. 모수검정

  • 관측된 자료로 구한 표본평균과 표본분산을 이용해 검정 실시

40. t-test 해석

  • one Sample t-test
    • df: 자유도
    • 신뢰구간 설정 파라미터: conf.level = .95
    • mean of x: 점추정량
    • 95 percent confidence interval: 신뢰구간

41. 데이터 마이닝 추진 단계

  • 목적정의
  • 데이터 준비
  • 데이터 가공: 모델링 목적에 따라 목적변수 정의, 필요한 데이터를 적합한 형태로 변환
  • 데이터마이닝 기법 적용
  • 검증

42. 다층 신경망 모형

  • 노드수 결정시 고려사항
    • 출력층 노드는 출력 범주의 수로 결정
    • 은닉층 노드 수가 적으면 복잡한 의사결정 경계 만들 수 없음
    • 입력수는 입력 차원의 수로 결정.
    •  
    • 은닉층 노드가 너무 많아지면 일반화가 어려움

43. 탐색적 데이터 분석

  • 결측치 처리
    • 결측치는 비율이 10%이하인 경우에는 해당 변수를 제거하고 분석하는 것이 효율적
    • 먼저 결측치가 많은 변수를 처리하고 결측치가 포함된 레코드 처리
    • 회귀분석시 결측치가 포함된 레코드는 결측치가 많은 변수부터 삭제하는 것이 효과적
    • complete Analysis: 불완전한 자료 모두 삭제하고 완전한 관측치 만으로 자료를 분석하는 방법(부분적 자료만 사용하므로 통계적 추론의 타당성 문제가 있음)
    • 평균대치법: 자료의 평균값으로 결측값을 대치하여 불완전한 자료를 완전한 자료로 만들어 분석
    • 단순확률대치법: 평균대치법에서 추정량 표준오차의 과소 추정 문제를 보완하고자 고안된 방법
    • 다중대치법: 단순대치법을 m번하고 m개의 가상적 완전 자료를 만드는 방법
      • 1단계: 대치
      • 2단계: 분석
      • 3단계: 결합
  • 모델의 성능은 보통 설명변수가 많아질수록 향상됨
  • 현 데이터의 성능만 고려하여 번수를 추가하면 예측시 부정적으로 사용될 가능성 있음
  • 데이터를 표준화 해야 설명변수의 영향도가 제대로 표현되는 경우 있음

44. 기술통계

  • 평균(mean): 데이터의 전체 합을 전체 개수로 나누어 산출하는 대표 값
  • 중위수(median): 데이터를 크기 순서에 따라 나열하여 가장 중앙에 위치하는 값
  • 사분위수(quantile): 데이터를 작은 수 부터 큰 수 까지 배열했을 때 전체 관측값을 n등분하는 위치에 오는 값을 n사분위수
  • 백분위수(percentile): 크기가 있는 값들로 이루어진 자료를 순서대로 나열했을 때 전체 데이터 개수의 p%에 위치하는 값

45. 지니지수: 1 - ( (A개수) /전체 ) - ( (B개수) / 전체 )

46. 다중공선성

  • 변수간에 높은 상관성이 있는 것들이 회귀모형에 포함될 경우 나타남
  • 중요하지 않으면서 다른 변수와 상관성이 높은 변수를 제거
  • 구조적 다중공선성의 문제가 있는 경우 데이터의 평균 중심을 변화
  • VIF를 이용하여 다중공선성이 존재하는지 파악

47. 인공신경망

  • neuralnet()함수 사용
  • 일반화 가중치(generalized weight)
    • 로지스틱 회귀에서의 회귀계수와 유사하게 해석
    • 각 공변량의 영향을 나타냄
  • 사용하는 활성화함수: 계단함수, softmax, 가우스함수

48. 퍼셉트론

  • 최종 목표값은 활성함수에 의해 결정됨
  • 활성함수
    • Softmax: 출력값이 여러개로 주어지고, 목표치가 다범주인 경우 각 범주에 속할 사후 확률을 제

49. 로지스틱 회귀

  • 독립변수의 선형 결합을 이용하여 사건의 발생 가능성을 예측하는데 사용되는 통계 기법
  • 종속변수가 이진형(실패/성공, 정상/불량 등)일 때와 순서형인 경우에 사용 가능
  • 분류기법의 일종
  • 종속변수 y=1일 확률의 로짓과 q개의 설명변수간의 관계를 선형으로 모형화한 것
  • 집단(y=1)에 속하는 오즈(odds)는 집단 1에 속하는 확률을 집단 0에 속하는 확률로 나눈 비율
  • 로지스틱 함수는 0과 1의 값을 갖음

50. lasso회귀 모형

  • L1 penalty 사용
  • 모형에 포함된 회귀계수들의 절대 값 크기가 클 수록 panalty 부여
  • 자동적으로 변수 선택을 하는 효과 있음
  • 람다 값으로 penalty 정도 조정

51. 영향관측치

  • 모형의 인수들에 불규칙한 영향을 미치는 관측치
  • 하나의 관측치를 제거 함으로써 모형이 극적으로 달라지는 경우가 있음
  • cooks disance는 추정 회귀모형에서 판단하고 이 값이 클 수록 영향치 가능성이 높음
  • DFBETAS의 절대값이 유난히 큰 관측개체는 k번째 회귀계수의 추정에 대하여 큰 영향력을 행사하는 것으로 간주하는 방법
  • Leverage H의 대각 원소는 관측치가 다른 관측치 집단으로 부터 떨어진 정도를 나타냄 표준화 잔차와 대각원소가 크면 영향 관측치

52. 통계적 추론

  • 구간추정: 모수의 참값이 포함되어 있으리라고 추정되는 구간을 결정하는것, 신뢰수준은 신뢰구간이 모수를 포함할 확률
  • 점추정: 추정량이 모수에 얼마나 가까운지를 나타내기 위해 추정량의 표준오차를 사용
  • 베이지안추론: 모수를 상수가 아니라 확률변수로 보고 사후분포를 유도하는 것
  • 비모수적 추론: 모집단에 대해 특정 분포 가정을 하지 않음. 다양한 통계량들을 고려할 수 있고 통계량의 성질을 유도하여 이를 기반으로 추론 실시 대표적인 방법으로 자료의 순위를 사용

53. 조건부 확률

  • p(B|A): A일때 B의 확률 => p(A n B) / p(A)

54. 시그모이드 함수

  • y값이 0과 1을 갖음

'Certification > ADP필기' 카테고리의 다른 글

5과목 - 데이터 시각화  (0) 2023.09.26
3과목 - 데이터 분석 기획  (0) 2023.09.25
2과목 - 데이터 처리 기술의 이해  (0) 2023.09.25
1과목- 데이터 이해  (0) 2023.09.25