1. 과대적합
- 모델 개발 시에는 높은 적중률을 보이지만 테스트 데이터에서는 적중률이 떨어지는 현상
- 과대적합이 발생할 것으로 예상되면 학습을 종료하고 업데이트 하는 과정을 반복해 과대적합 방지
- 분석변수가 많거나 분석모델이 복잡할때 발생
- 분석데이터가 모집단의 특성을 설명하지 못할때 발생
- 모델이 훈련데이터에 최적화 되어있기 때문에 테스트 데이터의 작은 변화에 민감하게 반응
2. 척도
- 명목척도: 측정 대상이 어느 집단에 속하는지 분류할때 사용 ex)성별, 출생지정보
- 순서척도: 관찰 대상이 가지고 있는 속성의 크기를 측정하여 순서대로 대상의 순위를 나타내는 척도
- 구간척도
- 속성의 양을 측정하는 것으로 결과는 숫자지만 절대적인 영점이 없어 두 관측값 사이의 비율은 의미가 없게 됨(온도, 지수, 주가지수 등)
- 측정 대상의 순서와 순서 사이의 간격이 의미가 있는 자료
- 비율척도: 측정대상의 간격에 대한 비율이 의미를 가짐 (무게, 나이, 시간, 거리)
3. 모분산의 추론
- 이표본에 대한 분산비 검정은 두 표본의 분산이 동일한지 비교하는 검정으로 F분포를 따름
- 모분산이 추론의 대상이 되는 경우는 모집단의 변동성 또는 퍼짐 정도에 관심이 있을때
- 모집단이 정규분포를 따르지 않더라도 중심극한정리에 의해 정규 모집단으로부터의 모분산에 대한 검정을 유사하게 시행할 수 있음
4. 카이제곱 분포
- 평균모집단에서 n개를 단순 임의 추출한 표본의 분산은 카이제곱 분포를 따름
5. 다중회귀분석을 위해 사용되는 변수선택방법
- 전진선택법과 후진선택법의 결과는 항상 동일하지 않음
- 독립변수들의 조합으로 이루어진 회귀모형 중 가장 적합하게 나타낸 모형을 선택한다
- 통계량 용어
- 수정결정계수(Adjusted R squared): 평균 제곱 오차가 가장 작은 축소모형을 선택하는 방법으로 모형의 간명성과 설명성을 동시에 고려
- Mallows Cp: 예측식이 가진 수행능력을 에측값의 변이를 기준으로 평가하기 위해 예측값에 대한 MSE를 고려
- Akaike: 정확도와 간명성 사이의 상충을 조절하려는 방법, 비슷한 SSE를 갖는 두 모형에 대해 AIC는 적은 변수를 갖는 모형에 대해 가산점을 부여
- 전진선택법
- 상수항만 포함한 모형에서 출발하여 설명력이 좋은 변수를 추가
- 중요하다고 생각되는 설명변수부터 차례대로 선택
- 변수가 추가되면 기존 변수들의 중요도에 영향을 받게 됨(변수를 추가했는데 이미 선택된 변수의 유의수준이 높아지면 추가한 변수 사용 못함)
- 후진제거법: 모든 변수가 포함된 모형에서 출발하여 설명력이 나쁜 변수를 하나씩 제거
- 단계선택법: 설명력이 나쁜 변수를 제거하거나 모형에서 제외된 변수 중 모형의 설명력을 가장 잘 개선하는 변수 추가
6. 이상치 판별법
- 이상치는 분포를 왜곡할 수 있으나 실제 오류인자인지에 대해서는 통계적으로 판단하지 못하므로 제거여부는 실무자와 상의해야함
- 상자그림
- IQR = Q3-Q1 일때 Q1-(1.5*Q1) < x < Q3 + (1.5*Q3) 범위를 벗어나는 x를 이상치라 함
- 이상치는 상자그림을 통해 확인 가능
- 평균으로 부터 3표준 편차 범위를 벗어나는 것들을 비정상이라고 봄(무조건 제거는 안됨)
8. 표본 추출 방법
- 표본의 크기를 결정할 때 가장 중요한 부분은 표본이 모집단을 얼마나 설명하는지 임
- 단순 랜덤 추출법: 모집단에서 샘플 뽑을때 각각의 샘플이 모두 동등한 확률을 가지고 무작위로 추출되는 방법
- 층화추출법: 모집단을 몇 개의 집단으로 구분하고, 각 집단의 크기와 분산을 고려하여 집단마다 샘플을 추출하는 방법
- 집락추출법: 모집단을 군집으로 구분하고, 선정된 군집의 원소를 모두 샘플로 추출하는 다단계 추출 방법
- 계통추출법: 모집단의 원소들에 일련번호를 부여하고 순서대로 나열한 후에 k개씩 n개의 구간으로 나눔, 첫 구간에서 하나를 임의로 선택한 후에 k개씩 띄어서 표본을 추출하는 방법
9. 비모수검정
- 자료가 추출된 모집단에 아무런 제약을 가하지 않고 검정을 실시하는 것
- 관측되 자료의 수가 많지 않거나 자료가 개체간의 서열관리를 나타내는 경우
- 관측된 자료가 주어진 분포를 따른다는 가정을 받아드릴 수 없을때 이용하는 검정
- 관측된 자료가 특정 분포를 따른다고 가정할 수 없을때 이용
- 부호검정, 윌콕슨의 순위합검정, 만-위트니의 U검정, 런검정, 스피어만의 순위 상관계수 등이 있음
10. 두변량 상관분석
- 등간 척도로 측정된 두 변수간의 상관관계는 피어슨 상관계수로 확인
- 상관계수가 0이면 두변량 사이에 선형관계 없음
- 서열척도로 측정된 두 변수간의 상관관계는 스피어만 상관계수로 확인
- R에서 상관계수를 구하기 위해서는 cor(), rcorr()함수 사용
- rcorr()함수 사용시 type인자를 통해 피어슨과 스피어만 상관계수를 선택할 수 있음
11. 결정계수(R^2)
- 총 제곱의 합 중 설명된 제곱의 합의 비율
- R^2값이 클 수록 회귀선으로 실제 관찰치를 예측하는데 정확성이 높아진다
- 독립변수와 종속변수 간의 표본상관계수 r의 제곱값과 같다.
- 종속변수에 미치는 영향이 작더라도 독립변수가 추가되면 결정계수는 변한다.
12. 시계열
- 정상시계열인지 비정상인지 확인하기 위해 폭발적인 추세를 보이거나 시간에 따라 분산이 변화하는지 확인해야 한다
- 비정상 시계열을 정상으로 변경하기 위해 변환과 차분을 사용
- 평균이 일정하지 않은 비정상 시계열은 차분을 통해 정상성 확보
- 분산이 일정하지 않은 비정상 시계열은 변환을 통해 정상성 확보
- 정상성
- 평균이 일정하다
- 시계열 분석에서는 거의 모든 자료가 비정상 시계열이라 정상성을 갖추고 분석 진행한다
- 분산이 시점에 의존하지 않는다
- 공분산은 단지 시차에만 의존하고 실제 어느 시점 t,s에는 의존하지 않는다.
- 종류
- AR(자기회귀)
- ACF(자기상관함수)는 빠르게 감소하고 PACF(부분자기함수)는 어느 시점에서 절단점을 갖게 됨
- MA(이동평균)
- ACF(자기상관함수)는 절단점을 갖고, PACF(부분자기함수)는 빠르게 감소한다
- ARIMA(자기회귀누적이동평균)
- 비정상시계열모형으로 차분이나 변환을 통해 AR, MA, ARMA모형으로 정상화 할 수 있음
- AR(자기회귀)
- 지수평활법: 모든 시계열 자료를 사용하여 평균을 구하고 시간에 흐름에 따라 최근 시계열에 더 많은 가중치를 부여하여 미래를 예측하는 방법
13. 회귀분석
- 특정 변수의 t값과 p값이 유의하지 않다면 유의하지 않은 변수를 제외하고 다시한번 회귀분석 진행
- 이후 모든 변수가 유의하고 모형의 F값과 p값이 유의할 경우에 회귀식을 결정한다
- 가정
- 선형성
- 등분산성
- 잔차도 그림이 0을 중심으로 특정 패턴 없이 일정하게 분포되어 있어야 함
- 독립성
- 비상관성(상관성확인)
- 정규성
- QQ plot은 정규성을 평가하는 절대적 기준: 직선위에 분포해아 함
- 잔차의 히스토그램이나 점도표를 그려서 정규성 문제 검토
- shapiro-wilk test, anderson-darling test등을 이용
- 정규성 가정을 충족하지 못한다면 데이터 추가 수집을 통해 해결 가능
- 모형적합 후 확인해야 할 사항
- F-value를 통해 모형이 통계적으로 유의한지 확인
- 모형이 데이터에 잘 적합되어 있는지 확인
- t-value, p-value를 통해 유의한지 확인
14. 데이터마이닝의 활용 예
- 병원에서 환자 데이터를 이용해 발생 가능성 높은 병 예측
- 웹사이트 접속 고객 데이터 활용해 상품 추천
- 대출심사시 고객데이터 활용 우량/불량 예측
15. Classification 에 활용되는 R패키지
- rpart
- party
- marginTree
16. ROC
- 모형 성능 평가 지표
- 사후확률과 각 분류기준값에 의해 오분류 행렬을 만든 다음, 민감도와 특이도를 산출해 도식화
- x축은 1-특이도 y축은 민감도로 설정하여 그려지는 모형을 평가
18. 장바구니분석(연관성분석)
- 구매한 상품 데이터를 이용해 분석해본 결과 A를 산사람이 B도 사더라 와 같은 결론을 얻어내는 방법
- Apriori 알고리즘: 최소지지도보다 큰 빈발항목집합에서 높은 측도(신뢰도, 향상도) 값을 갖는 연관 규칙을 구하는 방법
19. 이상값을 활용한 응용 시스템
- 부정사용 방지 시스템
20. 거리계산
- 유클리드(비계층적군집)
- √(x-y)^2 + (x-y)^2
- 계층적군집: 최장, 최단, 와드, 평균연결법
- 최단연결법:
- 사슬모양이 생길 수 있음
- 각 군집에서 하나의 관측값을 뽑았을 때 나타날 수 있는 거리의 최소값
- 최단연결법:
21. 모델성능평가
- 분류모델
- 예비기법(HoldOut): 데이터를 훈련집단과 시험 집단으로 나누어 평가하는 기법
- 다중교차검증(K-Fold cross validation): 데이터를 k개의 동일 크기 구획으로 분할하여 평가
- 부트스트랩: 샘플링방식으로 훈련집합 구성(63.2%의 훈련용 자료로 하는걸 적절하다고 함)
- ROC
- 이익도표
- 향상도 곡선
- 혼동행렬
- 분류 문제를 예측하기 위한 모형 개발 후 평가 지표
- 정확도: (TP + TN) / (TP + FN + FP + TN)2
- 재현율(예측한 전체값들중 positive를 맞춘비율): (TP) / (TP + FN)
- 민감도(실제 positive를 positive로 잘 맞춘 값): (TP) / (TP + FN)
- 특이도(실제 negative를 negative로 잘 맞춘 값): (TN) / (FP + TN)
- 재현율(예측한 전체 값들 중
혼동행렬 | 예측 | ||
Positive | Negative | ||
실제 | Positive | TP | FN |
Negative | FP | TN |
23. 결정의 기준
- 1종오류
- 실제로 귀무가설이 맞는데 틀리다고 결론 내리는 오류
24. 앙상블(지도학습: supervised learning)
- 배깅
- 원데이터에서 여러개의 부트스트랩(표본: 표본마다 동일한 확률 부여)을 추출하고 부트스트랩마다 예측모형을 만든 후 결합하여 최종 예측 모형을 만듬
- 랜덤포레스트
- 배깅 과정에 랜덤과정을 추가한 방법
- 의사결정나무모형의 특징인 분산이 크다는걸 고려한 방법
- 부스팅
- 부트스트랩(표본)을 구성하는 과정에서 분류가 잘못된 데이터에 더 큰 가중을 주어 표본을 추출함
25. 사회연결망 분석
- 연결중심성: 한 노드에 직접적으로 연결되 노드들의 합
- 근접중심성: 직접적으로 연결되 노드 뿐만 아니라 간접적으로 연결되 노드들간의 거리를 계산
- 매개 중심성: 한 노드가 연결망 내의 다른 노드들 사이의 최다 경로 위에 위치 할 수록 그 노드의 중심성이 높은 것으로 측정하는 방법
- 위세중심성: 연결된 노드의 중요성에 가중치를 둬 중심성을 측정하는 방법
- 2원모드 매트릭스: 행과 열에 다른 개체가 배열되어 있는 매트릭스
- 인디그리중심성: 관계의 방향이 존재하는 그래프를 분석할때 A노드가 다른 노드로 부터 관계를 받는 정도를 의미
26. 공분산
- X, Y의 방향의 조합(선형성)이다.
- Cov(X, Y) = E[(X-ux)(Y-uy)]
- X와 Y가 서로 독립이면 Cov(X, Y) = 0이다
- 공분산의 범위는 -1 ~ 1 사이가 아니다
28. TDM(Term - Document - Metrix)
- 전처리된 문서와 단어간의 사용여부를 사용해 만들어진 행렬로 각 단어의 빈도를 쉽게 알 수 있음
- sparcity(희소성): tdm안에 0인 원소가 있는 % ( 0개수 / 전체 개수)
29. 연관 규칙 ( A -> B 일 경우)
- 신뢰도 = 지지도 / P(A): (A가 들어있는 물품의 합 / 전체합)
- 지지도 = A와 B가 동시에 들어있는 물품의 합 / 전체 합
- 향상도(A를 안샀을때 B의 확률에 비해 A를 샀을때 B확률의 증가율) = 신뢰도 / P(B)
- A와 B가 관련이 없으면 향상도 = 1
- A를 샀을때 B를 살 확률이 향상된다면 향상도 > 1
- A를 샀을 때 B를 살 확률이 저하된다면 향상도 < 1
30. 분해 시계열
- 시계열에 영향을 주는 일반적인 요인을 분리해 분석하는 방법
- 구성요소
- 추세(경향)요인: 자료의 형태가 오르거나 내리는 모습이 추세를 따르는 경우로 선형형태, 지수형태 등이 있음
- 순환요인: 경제적이나 자연적 이유 없이 알려지지 않은 주기를 가지고 변화하는 자료 형태
- 계절요인:
- 불규칙요인:
31. TM 패키지 기본 Transformation 함수
- stripWhitespace, tolower, removeNumbers, removePunctuation
32. R에서 사용 가능한 데이터 오브젝트에 대한 설명
- 행렬: 차원을 가진 벡터
- 리스트: 원소들은 다른 모드여도 상관 없음
- 벡터: 원소들은 모두 같은 모드여야 함
- 데이터프레임: 리스트 구조로 구현된 테이블로된 구조
33. 종속변수를 설명하는데 가장 중요한 독립변수의 특징
- 표준화 자료로 추정 계수가 가장 큰 변수
- 추정한 계수가 클 수록 종속변수에 가장 영향을 많이 미치게 됨
34. 중심극한정리
- 여러 통계적 방법론에는 정규데이터가 필요함
- 중심극한정리를 사용하면 비정규적인 모집단에도 정규데이터처럼 처리 가능
- 표본평균의 분포는 표본의 크기가 커짐에 따라 정규 분포로 근사
- 모집단의 분포가 대칭이면 표본의 크기가 작아도 되지만 모집단의 분포가 비대칭이면 표본의 크기가 30이상 되야함
- 동일한 확률분포를 가진 독립변확률 변수의 분포는 n이 30이상이라면 정규분포에 가까워 진다
35. 확률변수
- 특정값이 나타날 가능성을 확률로 나타낸것
- 실수로 나타남
- 이산형 확률분포: 확률 변수의 공간이 유한하거나 셀 수 있는 경우
- 이항분포
- 기하분포
- 초기하분포
- 다항분포
- 베르누이
- 포아송
- 연속형 확률분포: 확률변수의 공간이 무한한 경우
- 정규분포
- T분포(t검정: 평균비교)
- F분포
- 균일분포
- 확률변수의 구간내에서 모든 확률이 동일한 분포를 의미
- 확률 = 1-(b-a)
36. 주성분 분석
- 차원의 단순화를 통해 서로 상관되어 있는 변수들 간의 복잡한 구조를 분석하는 것이 목적
- 다변량 그래프를 저차원 그래프로 표시하여 이상치 탐색에 사용
- 변수들간에 상관성이 있는 경우 해석상의 복잡한 구조적 문제가 발생하는데 이를 해결하기 위해 사용
- 회귀분석에서 다중공선성 문제를 해결하기 위해 사용
- p개의 변수들을 m개의 주성분으로 표현하여 전체변동을 설명
- m개의 주성분은 원래 변수에서 선형 결합으로 생성된 변수
- 설명력은 누적비율(Cumulative Proportion)활용
- 전체 변이 공헌도(percentage of total variance) 방법은 전체 변이의 70 ~ 90% 정도가 되도록 주성분의 수 결정
37. 데이터 분할
- 데이터를 구축(train), 검정(validation), 시험(test)용으로 분리
- 일반적으로 구축용(50%), 검정용(30%), 시험용(20%)로 분리
- 데이터가 충분하지 않다면 구축, 시험용만 구분하여 활용
- 필요에 따라 구축용과 시험용을 번갈아가며 사용하는 교차확인을 통해 모형을 평가
38. 데이터 분석 기법
- 군집분석(비지도학습)
- 계층적 군집분석
- 처음 속한 군집에서 다른 군집으로 이동할 수 없다
- 동일한 거리계산법을 적용하면 몇번 시행해도 동일한 결과 나온다
- 거리가 가장 짧은 노드들을 하나의 군집으로 선택하고 다음 노드들을 최장, 최단, 평균, 와드 등 연결법을 적용해서 묶어 나감
- 사슬모양의 군집이 생길 수 있음
- 비계층적 군집분석
- 주어진 데이터의 내부 구조의 사전 정보 없이도 의미있는 결과 도출 가능
- 다양한 형태의 데이터 적용 가능
- 분석방법의 적용 용이
- 사전에 주어진 정보가 없어 해석이 어려움
- K-means
- 한 개체가 처음 속한 군집에서 다른 군집으로 이동해 재배치 될 수 있다
- 초기값에 대한 의존도가 커서 초기값을 어떻게 하느냐에 따라 군집이 달라질 수 있다
- 실행할때 동일한 결과 달라질 수 있다
- 잡음이나 이상값에 영향을 많이 받는다
- 전체 최적화가 보장되지 않음
- 볼록한 형태가 아닌 군집에 존재하면 성능이 떨어짐
- 단점을 보완하기 위해 평균대신 중앙값을 사용
- 계층적 군집보다 많은 양의 데이터를 다룰 수 있음
- DBSCAN
- 군집의 경계를 찾기 위해 밀도가 낮아지는 시점이 필요, 실제 세계에서는 정확한 군집의 구조 찾기 힘듬
- 두가지 파라미터 정의 필요
- 주변공간에 대한 정의
- 주변공간에 몇개의 데이터가 존재해야 군집으로 설정할 것인지
- 군집과 노이즈를 분류하는 알고리즘
- 군집은 한 예상벡터로 부터 접근 가능한 모든 데이터 집합이라고 정의
- 데이터의 밀도를 통해 군집을 정하는 방법
- 계층적 군집분석
- 텍스트마이닝
- Corpus
- 데이터마이닝 절차중 정제, 통합, 선택, 변환을 마친 구조화된 단계
- 알고리즘 실험에서 사용될 수 있는 상태
- R의 tm(텍스트마이닝) 패키지에서 문서를 관리하는 기본 구조
- Stemming: 영문 텍스트마이닝 시 텍스트 데이터에 대한 전처리 작업으로 공통 어간을 가지는 단어를 묶는 처리 방법
- TF-IDF: 단어 빈도수를 이용하여 키워드를 도출하는 기법
- WordCloud: 문서의 단어를 이용해 빈도가 높은 단어를 크게 나타내 효과적으로 시각화 한 기법
- 감성분석(Opinion Mining)
- 문장에서 사용된 단어의 긍정과 부정여부에 따라 얼마나 긍정적인 단어가 많은지 여부로 문장을 파악
- 내용이 긍정적인지 부정적인지 판별하고 나의 상품이나 브랜드의 여론이 긍정적인지 부정적인지를 찾아내는지 활용됨
- 개별 문장의 분석에 오류가 나면 많은 문서를 가공하더라도 추이 파악이 어려울 수 있다.
- 영향력이 높은 대상자에게는 높은 가중치를 부여함으로써 더 정확한 감정 지표를 계산할 수 있다
- Corpus
- 의사결정나무 분석(지도학습)
- 모형 결과를 누구나 이해하기 쉽고 설명 용이
- 모형 정확도는 다른 모형에 비해 뒤쳐지지 않음
- 대용량 데이터도 빠르게 만들 수 있고 데이터의 분류 작업도 신속히 진행 가능
- 비정상 잡음 데이터에 민감하지 않다
- 많은 수의 예측변수 중 목표변수에 가장 큰 영향을 미치는 변수를 선택하고자 할 때 사용
- 여러개의 독립변수들이 결합하여 종속변수에 적용하는 교호작용을 파악하고자 하는 경우 유용
- 세분화(segment), 분류(classification), 예측(Prediction)에 사용
- 과적합의 문제를 해결하기 위해 가지치기 바업을 이용하여 트리 조정
- 엔트로피: 불순도측도로 여러가지 임의의 사건이 모여있는 집합의 순수성 또는 단일성 관점의 특성을 정량화 해서 표현한 것( -시그마 p_k * log_2(p_k) )
- SOM
- 고차원의 데이터를 저차원의 뉴런으로 정렬하여 지도 형태로 형상화 하는 방법
- 지도 형태의 형상화는 입력변수의 위치 관계를 그대로 보존
- 입력벡터와 가장 비슷한 연결강도 벡터를 가진 경쟁층의 뉴런이 승자
- 승자와 그 주변의 경쟁층 뉴런에 대해서만 연결강도 수행
- 고차원의 데이터를 1차원으로 표시할 수 있는 장점
- 역전파 알고리즘을 사용하는 인공신경망과 달리 단 하나의 전방패스를 사용함으로 속도 빠름
39. 모수검정
- 관측된 자료로 구한 표본평균과 표본분산을 이용해 검정 실시
40. t-test 해석
- one Sample t-test
- df: 자유도
- 신뢰구간 설정 파라미터: conf.level = .95
- mean of x: 점추정량
- 95 percent confidence interval: 신뢰구간
41. 데이터 마이닝 추진 단계
- 목적정의
- 데이터 준비
- 데이터 가공: 모델링 목적에 따라 목적변수 정의, 필요한 데이터를 적합한 형태로 변환
- 데이터마이닝 기법 적용
- 검증
42. 다층 신경망 모형
- 노드수 결정시 고려사항
- 출력층 노드는 출력 범주의 수로 결정
- 은닉층 노드 수가 적으면 복잡한 의사결정 경계 만들 수 없음
- 입력수는 입력 차원의 수로 결정.
- 은닉층 노드가 너무 많아지면 일반화가 어려움
43. 탐색적 데이터 분석
- 결측치 처리
- 결측치는 비율이 10%이하인 경우에는 해당 변수를 제거하고 분석하는 것이 효율적
- 먼저 결측치가 많은 변수를 처리하고 결측치가 포함된 레코드 처리
- 회귀분석시 결측치가 포함된 레코드는 결측치가 많은 변수부터 삭제하는 것이 효과적
- complete Analysis: 불완전한 자료 모두 삭제하고 완전한 관측치 만으로 자료를 분석하는 방법(부분적 자료만 사용하므로 통계적 추론의 타당성 문제가 있음)
- 평균대치법: 자료의 평균값으로 결측값을 대치하여 불완전한 자료를 완전한 자료로 만들어 분석
- 단순확률대치법: 평균대치법에서 추정량 표준오차의 과소 추정 문제를 보완하고자 고안된 방법
- 다중대치법: 단순대치법을 m번하고 m개의 가상적 완전 자료를 만드는 방법
- 1단계: 대치
- 2단계: 분석
- 3단계: 결합
- 모델의 성능은 보통 설명변수가 많아질수록 향상됨
- 현 데이터의 성능만 고려하여 번수를 추가하면 예측시 부정적으로 사용될 가능성 있음
- 데이터를 표준화 해야 설명변수의 영향도가 제대로 표현되는 경우 있음
44. 기술통계
- 평균(mean): 데이터의 전체 합을 전체 개수로 나누어 산출하는 대표 값
- 중위수(median): 데이터를 크기 순서에 따라 나열하여 가장 중앙에 위치하는 값
- 사분위수(quantile): 데이터를 작은 수 부터 큰 수 까지 배열했을 때 전체 관측값을 n등분하는 위치에 오는 값을 n사분위수
- 백분위수(percentile): 크기가 있는 값들로 이루어진 자료를 순서대로 나열했을 때 전체 데이터 개수의 p%에 위치하는 값
45. 지니지수: 1 - ( (A개수) /전체 ) - ( (B개수) / 전체 )
46. 다중공선성
- 변수간에 높은 상관성이 있는 것들이 회귀모형에 포함될 경우 나타남
- 중요하지 않으면서 다른 변수와 상관성이 높은 변수를 제거
- 구조적 다중공선성의 문제가 있는 경우 데이터의 평균 중심을 변화
- VIF를 이용하여 다중공선성이 존재하는지 파악
47. 인공신경망
- neuralnet()함수 사용
- 일반화 가중치(generalized weight)
- 로지스틱 회귀에서의 회귀계수와 유사하게 해석
- 각 공변량의 영향을 나타냄
- 사용하는 활성화함수: 계단함수, softmax, 가우스함수
48. 퍼셉트론
- 최종 목표값은 활성함수에 의해 결정됨
- 활성함수
- Softmax: 출력값이 여러개로 주어지고, 목표치가 다범주인 경우 각 범주에 속할 사후 확률을 제
49. 로지스틱 회귀
- 독립변수의 선형 결합을 이용하여 사건의 발생 가능성을 예측하는데 사용되는 통계 기법
- 종속변수가 이진형(실패/성공, 정상/불량 등)일 때와 순서형인 경우에 사용 가능
- 분류기법의 일종
- 종속변수 y=1일 확률의 로짓과 q개의 설명변수간의 관계를 선형으로 모형화한 것
- 집단(y=1)에 속하는 오즈(odds)는 집단 1에 속하는 확률을 집단 0에 속하는 확률로 나눈 비율
- 로지스틱 함수는 0과 1의 값을 갖음
50. lasso회귀 모형
- L1 penalty 사용
- 모형에 포함된 회귀계수들의 절대 값 크기가 클 수록 panalty 부여
- 자동적으로 변수 선택을 하는 효과 있음
- 람다 값으로 penalty 정도 조정
51. 영향관측치
- 모형의 인수들에 불규칙한 영향을 미치는 관측치
- 하나의 관측치를 제거 함으로써 모형이 극적으로 달라지는 경우가 있음
- cooks disance는 추정 회귀모형에서 판단하고 이 값이 클 수록 영향치 가능성이 높음
- DFBETAS의 절대값이 유난히 큰 관측개체는 k번째 회귀계수의 추정에 대하여 큰 영향력을 행사하는 것으로 간주하는 방법
- Leverage H의 대각 원소는 관측치가 다른 관측치 집단으로 부터 떨어진 정도를 나타냄 표준화 잔차와 대각원소가 크면 영향 관측치
52. 통계적 추론
- 구간추정: 모수의 참값이 포함되어 있으리라고 추정되는 구간을 결정하는것, 신뢰수준은 신뢰구간이 모수를 포함할 확률
- 점추정: 추정량이 모수에 얼마나 가까운지를 나타내기 위해 추정량의 표준오차를 사용
- 베이지안추론: 모수를 상수가 아니라 확률변수로 보고 사후분포를 유도하는 것
- 비모수적 추론: 모집단에 대해 특정 분포 가정을 하지 않음. 다양한 통계량들을 고려할 수 있고 통계량의 성질을 유도하여 이를 기반으로 추론 실시 대표적인 방법으로 자료의 순위를 사용
53. 조건부 확률
- p(B|A): A일때 B의 확률 => p(A n B) / p(A)
54. 시그모이드 함수
- y값이 0과 1을 갖음
'Certification > ADP필기' 카테고리의 다른 글
5과목 - 데이터 시각화 (0) | 2023.09.26 |
---|---|
3과목 - 데이터 분석 기획 (0) | 2023.09.25 |
2과목 - 데이터 처리 기술의 이해 (0) | 2023.09.25 |
1과목- 데이터 이해 (0) | 2023.09.25 |