4과목 - 데이터분석

1. 과대적합

모델 개발 시에는 높은 적중률을 보이지만 테스트 데이터에서는 적중률이 떨어지는 현상
과대적합이 발생할 것으로 예상되면 학습을 종료하고 업데이트 하는 과정을 반복해 과대적합 방지
분석변수가 많거나 분석모델이 복잡할때 발생
분석데이터가 모집단의 특성을 설명하지 못할때 발생
모델이 훈련데이터에 최적화 되어있기 때문에 테스트 데이터의 작은 변화에 민감하게 반응

2. 척도

명목척도: 측정 대상이 어느 집단에 속하는지 분류할때 사용 ex)성별, 출생지정보
순서척도: 관찰 대상이 가지고 있는 속성의 크기를 측정하여 순서대로 대상의 순위를 나타내는 척도
구간척도
- 속성의 양을 측정하는 것으로 결과는 숫자지만 절대적인 영점이 없어 두 관측값 사이의 비율은 의미가 없게 됨(온도, 지수, 주가지수 등)
- 측정 대상의 순서와 순서 사이의 간격이 의미가 있는 자료
비율척도: 측정대상의 간격에 대한 비율이 의미를 가짐 (무게, 나이, 시간, 거리)

3. 모분산의 추론

이표본에 대한 분산비 검정은 두 표본의 분산이 동일한지 비교하는 검정으로 F분포를 따름
모분산이 추론의 대상이 되는 경우는 모집단의 변동성 또는 퍼짐 정도에 관심이 있을때
모집단이 정규분포를 따르지 않더라도 중심극한정리에 의해 정규 모집단으로부터의 모분산에 대한 검정을 유사하게 시행할 수 있음

4. 카이제곱 분포

평균모집단에서 n개를 단순 임의 추출한 표본의 분산은 카이제곱 분포를 따름

5. 다중회귀분석을 위해 사용되는 변수선택방법

전진선택법과 후진선택법의 결과는 항상 동일하지 않음
독립변수들의 조합으로 이루어진 회귀모형 중 가장 적합하게 나타낸 모형을 선택한다
통계량 용어
- 수정결정계수(Adjusted R squared): 평균 제곱 오차가 가장 작은 축소모형을 선택하는 방법으로 모형의 간명성과 설명성을 동시에 고려
- Mallows Cp: 예측식이 가진 수행능력을 에측값의 변이를 기준으로 평가하기 위해 예측값에 대한 MSE를 고려
- Akaike: 정확도와 간명성 사이의 상충을 조절하려는 방법, 비슷한 SSE를 갖는 두 모형에 대해 AIC는 적은 변수를 갖는 모형에 대해 가산점을 부여
전진선택법
- 상수항만 포함한 모형에서 출발하여 설명력이 좋은 변수를 추가
- 중요하다고 생각되는 설명변수부터 차례대로 선택
- 변수가 추가되면 기존 변수들의 중요도에 영향을 받게 됨(변수를 추가했는데 이미 선택된 변수의 유의수준이 높아지면 추가한 변수 사용 못함)
후진제거법: 모든 변수가 포함된 모형에서 출발하여 설명력이 나쁜 변수를 하나씩 제거
단계선택법: 설명력이 나쁜 변수를 제거하거나 모형에서 제외된 변수 중 모형의 설명력을 가장 잘 개선하는 변수 추가

6. 이상치 판별법

이상치는 분포를 왜곡할 수 있으나 실제 오류인자인지에 대해서는 통계적으로 판단하지 못하므로 제거여부는 실무자와 상의해야함
상자그림
- IQR = Q3-Q1 일때 Q1-(1.5*Q1) < x < Q3 + (1.5*Q3) 범위를 벗어나는 x를 이상치라 함
- 이상치는 상자그림을 통해 확인 가능
- 평균으로 부터 3표준 편차 범위를 벗어나는 것들을 비정상이라고 봄(무조건 제거는 안됨)

8. 표본 추출 방법

표본의 크기를 결정할 때 가장 중요한 부분은 표본이 모집단을 얼마나 설명하는지 임
단순 랜덤 추출법: 모집단에서 샘플 뽑을때 각각의 샘플이 모두 동등한 확률을 가지고 무작위로 추출되는 방법
층화추출법: 모집단을 몇 개의 집단으로 구분하고, 각 집단의 크기와 분산을 고려하여 집단마다 샘플을 추출하는 방법
집락추출법: 모집단을 군집으로 구분하고, 선정된 군집의 원소를 모두 샘플로 추출하는 다단계 추출 방법
계통추출법: 모집단의 원소들에 일련번호를 부여하고 순서대로 나열한 후에 k개씩 n개의 구간으로 나눔, 첫 구간에서 하나를 임의로 선택한 후에 k개씩 띄어서 표본을 추출하는 방법

9. 비모수검정

자료가 추출된 모집단에 아무런 제약을 가하지 않고 검정을 실시하는 것
관측되 자료의 수가 많지 않거나 자료가 개체간의 서열관리를 나타내는 경우
관측된 자료가 주어진 분포를 따른다는 가정을 받아드릴 수 없을때 이용하는 검정
관측된 자료가 특정 분포를 따른다고 가정할 수 없을때 이용
부호검정, 윌콕슨의 순위합검정, 만-위트니의 U검정, 런검정, 스피어만의 순위 상관계수 등이 있음

10. 두변량 상관분석

등간 척도로 측정된 두 변수간의 상관관계는 피어슨 상관계수로 확인
상관계수가 0이면 두변량 사이에 선형관계 없음
서열척도로 측정된 두 변수간의 상관관계는 스피어만 상관계수로 확인
R에서 상관계수를 구하기 위해서는 cor(), rcorr()함수 사용
rcorr()함수 사용시 type인자를 통해 피어슨과 스피어만 상관계수를 선택할 수 있음

11. 결정계수(R^2)

총 제곱의 합 중 설명된 제곱의 합의 비율
R^2값이 클 수록 회귀선으로 실제 관찰치를 예측하는데 정확성이 높아진다
독립변수와 종속변수 간의 표본상관계수 r의 제곱값과 같다.
종속변수에 미치는 영향이 작더라도 독립변수가 추가되면 결정계수는 변한다.

12. 시계열

정상시계열인지 비정상인지 확인하기 위해 폭발적인 추세를 보이거나 시간에 따라 분산이 변화하는지 확인해야 한다
비정상 시계열을 정상으로 변경하기 위해 변환과 차분을 사용
평균이 일정하지 않은 비정상 시계열은 차분을 통해 정상성 확보
분산이 일정하지 않은 비정상 시계열은 변환을 통해 정상성 확보
정상성
- 평균이 일정하다
- 시계열 분석에서는 거의 모든 자료가 비정상 시계열이라 정상성을 갖추고 분석 진행한다
- 분산이 시점에 의존하지 않는다
- 공분산은 단지 시차에만 의존하고 실제 어느 시점 t,s에는 의존하지 않는다.
종류
- AR(자기회귀)
  - ACF(자기상관함수)는 빠르게 감소하고 PACF(부분자기함수)는 어느 시점에서 절단점을 갖게 됨
- MA(이동평균)
  - ACF(자기상관함수)는 절단점을 갖고, PACF(부분자기함수)는 빠르게 감소한다
- ARIMA(자기회귀누적이동평균)
  - 비정상시계열모형으로 차분이나 변환을 통해 AR, MA, ARMA모형으로 정상화 할 수 있음
지수평활법: 모든 시계열 자료를 사용하여 평균을 구하고 시간에 흐름에 따라 최근 시계열에 더 많은 가중치를 부여하여 미래를 예측하는 방법

13. 회귀분석

특정 변수의 t값과 p값이 유의하지 않다면 유의하지 않은 변수를 제외하고 다시한번 회귀분석 진행
이후 모든 변수가 유의하고 모형의 F값과 p값이 유의할 경우에 회귀식을 결정한다
가정
- 선형성
- 등분산성
  - 잔차도 그림이 0을 중심으로 특정 패턴 없이 일정하게 분포되어 있어야 함
- 독립성
- 비상관성(상관성확인)
- 정규성
  - QQ plot은 정규성을 평가하는 절대적 기준: 직선위에 분포해아 함
  - 잔차의 히스토그램이나 점도표를 그려서 정규성 문제 검토
  - shapiro-wilk test, anderson-darling test등을 이용
  - 정규성 가정을 충족하지 못한다면 데이터 추가 수집을 통해 해결 가능
모형적합 후 확인해야 할 사항
- F-value를 통해 모형이 통계적으로 유의한지 확인
- 모형이 데이터에 잘 적합되어 있는지 확인
- t-value, p-value를 통해 유의한지 확인

14. 데이터마이닝의 활용 예

병원에서 환자 데이터를 이용해 발생 가능성 높은 병 예측
웹사이트 접속 고객 데이터 활용해 상품 추천
대출심사시 고객데이터 활용 우량/불량 예측

15. Classification 에 활용되는 R패키지

rpart
party
marginTree

16. ROC

모형 성능 평가 지표
사후확률과 각 분류기준값에 의해 오분류 행렬을 만든 다음, 민감도와 특이도를 산출해 도식화
x축은 1-특이도 y축은 민감도로 설정하여 그려지는 모형을 평가

18. 장바구니분석(연관성분석)

구매한 상품 데이터를 이용해 분석해본 결과 A를 산사람이 B도 사더라 와 같은 결론을 얻어내는 방법
Apriori 알고리즘: 최소지지도보다 큰 빈발항목집합에서 높은 측도(신뢰도, 향상도) 값을 갖는 연관 규칙을 구하는 방법

19. 이상값을 활용한 응용 시스템

부정사용 방지 시스템

20. 거리계산

유클리드(비계층적군집)
- √(x-y)^2 + (x-y)^2
계층적군집: 최장, 최단, 와드, 평균연결법
- 최단연결법:
  - 사슬모양이 생길 수 있음
  - 각 군집에서 하나의 관측값을 뽑았을 때 나타날 수 있는 거리의 최소값

21. 모델성능평가

분류모델
- 예비기법(HoldOut): 데이터를 훈련집단과 시험 집단으로 나누어 평가하는 기법
- 다중교차검증(K-Fold cross validation): 데이터를 k개의 동일 크기 구획으로 분할하여 평가
- 부트스트랩: 샘플링방식으로 훈련집합 구성(63.2%의 훈련용 자료로 하는걸 적절하다고 함)
- ROC
- 이익도표
- 향상도 곡선
- 혼동행렬
  - 분류 문제를 예측하기 위한 모형 개발 후 평가 지표
  - 정확도: (TP + TN) / (TP + FN + FP + TN)2
  - 재현율(예측한 전체값들중 positive를 맞춘비율): (TP) / (TP + FN)
  - 민감도(실제 positive를 positive로 잘 맞춘 값): (TP) / (TP + FN)
  - 특이도(실제 negative를 negative로 잘 맞춘 값): (TN) / (FP + TN)
  - 재현율(예측한 전체 값들 중

혼동행렬		예측
혼동행렬		Positive	Negative
실제	Positive	TP	FN
실제	Negative	FP	TN

23. 결정의 기준

1종오류
- 실제로 귀무가설이 맞는데 틀리다고 결론 내리는 오류

24. 앙상블(지도학습: supervised learning)

배깅
- 원데이터에서 여러개의 부트스트랩(표본: 표본마다 동일한 확률 부여)을 추출하고 부트스트랩마다 예측모형을 만든 후 결합하여 최종 예측 모형을 만듬
- 랜덤포레스트
  - 배깅 과정에 랜덤과정을 추가한 방법
  - 의사결정나무모형의 특징인 분산이 크다는걸 고려한 방법
부스팅
- 부트스트랩(표본)을 구성하는 과정에서 분류가 잘못된 데이터에 더 큰 가중을 주어 표본을 추출함

25. 사회연결망 분석

연결중심성: 한 노드에 직접적으로 연결되 노드들의 합
근접중심성: 직접적으로 연결되 노드 뿐만 아니라 간접적으로 연결되 노드들간의 거리를 계산
매개 중심성: 한 노드가 연결망 내의 다른 노드들 사이의 최다 경로 위에 위치 할 수록 그 노드의 중심성이 높은 것으로 측정하는 방법
위세중심성: 연결된 노드의 중요성에 가중치를 둬 중심성을 측정하는 방법
2원모드 매트릭스: 행과 열에 다른 개체가 배열되어 있는 매트릭스
인디그리중심성: 관계의 방향이 존재하는 그래프를 분석할때 A노드가 다른 노드로 부터 관계를 받는 정도를 의미

26. 공분산

X, Y의 방향의 조합(선형성)이다.
Cov(X, Y) = E[(X-ux)(Y-uy)]
X와 Y가 서로 독립이면 Cov(X, Y) = 0이다
공분산의 범위는 -1 ~ 1 사이가 아니다

28. TDM(Term - Document - Metrix)

전처리된 문서와 단어간의 사용여부를 사용해 만들어진 행렬로 각 단어의 빈도를 쉽게 알 수 있음
sparcity(희소성): tdm안에 0인 원소가 있는 % ( 0개수 / 전체 개수)

29. 연관 규칙 ( A -> B 일 경우)

신뢰도 = 지지도 / P(A): (A가 들어있는 물품의 합 / 전체합)
지지도 = A와 B가 동시에 들어있는 물품의 합 / 전체 합
향상도(A를 안샀을때 B의 확률에 비해 A를 샀을때 B확률의 증가율) = 신뢰도 / P(B)
- A와 B가 관련이 없으면 향상도 = 1
- A를 샀을때 B를 살 확률이 향상된다면 향상도 > 1
- A를 샀을 때 B를 살 확률이 저하된다면 향상도 < 1

30. 분해 시계열

시계열에 영향을 주는 일반적인 요인을 분리해 분석하는 방법
구성요소
- 추세(경향)요인: 자료의 형태가 오르거나 내리는 모습이 추세를 따르는 경우로 선형형태, 지수형태 등이 있음
- 순환요인: 경제적이나 자연적 이유 없이 알려지지 않은 주기를 가지고 변화하는 자료 형태
- 계절요인:
- 불규칙요인:

31. TM 패키지 기본 Transformation 함수

stripWhitespace, tolower, removeNumbers, removePunctuation

32. R에서 사용 가능한 데이터 오브젝트에 대한 설명

행렬: 차원을 가진 벡터
리스트: 원소들은 다른 모드여도 상관 없음
벡터: 원소들은 모두 같은 모드여야 함
데이터프레임: 리스트 구조로 구현된 테이블로된 구조

33. 종속변수를 설명하는데 가장 중요한 독립변수의 특징

표준화 자료로 추정 계수가 가장 큰 변수
추정한 계수가 클 수록 종속변수에 가장 영향을 많이 미치게 됨

34. 중심극한정리

여러 통계적 방법론에는 정규데이터가 필요함
중심극한정리를 사용하면 비정규적인 모집단에도 정규데이터처럼 처리 가능
표본평균의 분포는 표본의 크기가 커짐에 따라 정규 분포로 근사
모집단의 분포가 대칭이면 표본의 크기가 작아도 되지만 모집단의 분포가 비대칭이면 표본의 크기가 30이상 되야함
동일한 확률분포를 가진 독립변확률 변수의 분포는 n이 30이상이라면 정규분포에 가까워 진다

35. 확률변수

특정값이 나타날 가능성을 확률로 나타낸것
실수로 나타남
이산형 확률분포: 확률 변수의 공간이 유한하거나 셀 수 있는 경우
- 이항분포
- 기하분포
- 초기하분포
- 다항분포
- 베르누이
- 포아송
연속형 확률분포: 확률변수의 공간이 무한한 경우
- 정규분포
- T분포(t검정: 평균비교)
- F분포
균일분포
- 확률변수의 구간내에서 모든 확률이 동일한 분포를 의미
- 확률 = 1-(b-a)

36. 주성분 분석

차원의 단순화를 통해 서로 상관되어 있는 변수들 간의 복잡한 구조를 분석하는 것이 목적
다변량 그래프를 저차원 그래프로 표시하여 이상치 탐색에 사용
변수들간에 상관성이 있는 경우 해석상의 복잡한 구조적 문제가 발생하는데 이를 해결하기 위해 사용
회귀분석에서 다중공선성 문제를 해결하기 위해 사용
p개의 변수들을 m개의 주성분으로 표현하여 전체변동을 설명
m개의 주성분은 원래 변수에서 선형 결합으로 생성된 변수
설명력은 누적비율(Cumulative Proportion)활용
전체 변이 공헌도(percentage of total variance) 방법은 전체 변이의 70 ~ 90% 정도가 되도록 주성분의 수 결정

37. 데이터 분할

데이터를 구축(train), 검정(validation), 시험(test)용으로 분리
일반적으로 구축용(50%), 검정용(30%), 시험용(20%)로 분리
데이터가 충분하지 않다면 구축, 시험용만 구분하여 활용
필요에 따라 구축용과 시험용을 번갈아가며 사용하는 교차확인을 통해 모형을 평가

38. 데이터 분석 기법

군집분석(비지도학습)
- 계층적 군집분석
  - 처음 속한 군집에서 다른 군집으로 이동할 수 없다
  - 동일한 거리계산법을 적용하면 몇번 시행해도 동일한 결과 나온다
  - 거리가 가장 짧은 노드들을 하나의 군집으로 선택하고 다음 노드들을 최장, 최단, 평균, 와드 등 연결법을 적용해서 묶어 나감
  - 사슬모양의 군집이 생길 수 있음
- 비계층적 군집분석
  - 주어진 데이터의 내부 구조의 사전 정보 없이도 의미있는 결과 도출 가능
  - 다양한 형태의 데이터 적용 가능
  - 분석방법의 적용 용이
  - 사전에 주어진 정보가 없어 해석이 어려움
  - K-means
    - 한 개체가 처음 속한 군집에서 다른 군집으로 이동해 재배치 될 수 있다
    - 초기값에 대한 의존도가 커서 초기값을 어떻게 하느냐에 따라 군집이 달라질 수 있다
    - 실행할때 동일한 결과 달라질 수 있다
    - 잡음이나 이상값에 영향을 많이 받는다
    - 전체 최적화가 보장되지 않음
    - 볼록한 형태가 아닌 군집에 존재하면 성능이 떨어짐
    - 단점을 보완하기 위해 평균대신 중앙값을 사용
    - 계층적 군집보다 많은 양의 데이터를 다룰 수 있음
  - DBSCAN
    - 군집의 경계를 찾기 위해 밀도가 낮아지는 시점이 필요, 실제 세계에서는 정확한 군집의 구조 찾기 힘듬
    - 두가지 파라미터 정의 필요
      - 주변공간에 대한 정의
      - 주변공간에 몇개의 데이터가 존재해야 군집으로 설정할 것인지
    - 군집과 노이즈를 분류하는 알고리즘
    - 군집은 한 예상벡터로 부터 접근 가능한 모든 데이터 집합이라고 정의
    - 데이터의 밀도를 통해 군집을 정하는 방법
텍스트마이닝
- Corpus
  - 데이터마이닝 절차중 정제, 통합, 선택, 변환을 마친 구조화된 단계
  - 알고리즘 실험에서 사용될 수 있는 상태
  - R의 tm(텍스트마이닝) 패키지에서 문서를 관리하는 기본 구조
- Stemming: 영문 텍스트마이닝 시 텍스트 데이터에 대한 전처리 작업으로 공통 어간을 가지는 단어를 묶는 처리 방법
- TF-IDF: 단어 빈도수를 이용하여 키워드를 도출하는 기법
- WordCloud: 문서의 단어를 이용해 빈도가 높은 단어를 크게 나타내 효과적으로 시각화 한 기법
- 감성분석(Opinion Mining)
  - 문장에서 사용된 단어의 긍정과 부정여부에 따라 얼마나 긍정적인 단어가 많은지 여부로 문장을 파악
  - 내용이 긍정적인지 부정적인지 판별하고 나의 상품이나 브랜드의 여론이 긍정적인지 부정적인지를 찾아내는지 활용됨
  - 개별 문장의 분석에 오류가 나면 많은 문서를 가공하더라도 추이 파악이 어려울 수 있다.
  - 영향력이 높은 대상자에게는 높은 가중치를 부여함으로써 더 정확한 감정 지표를 계산할 수 있다
의사결정나무 분석(지도학습)
- 모형 결과를 누구나 이해하기 쉽고 설명 용이
- 모형 정확도는 다른 모형에 비해 뒤쳐지지 않음
- 대용량 데이터도 빠르게 만들 수 있고 데이터의 분류 작업도 신속히 진행 가능
- 비정상 잡음 데이터에 민감하지 않다
- 많은 수의 예측변수 중 목표변수에 가장 큰 영향을 미치는 변수를 선택하고자 할 때 사용
- 여러개의 독립변수들이 결합하여 종속변수에 적용하는 교호작용을 파악하고자 하는 경우 유용
- 세분화(segment), 분류(classification), 예측(Prediction)에 사용
- 과적합의 문제를 해결하기 위해 가지치기 바업을 이용하여 트리 조정
- 엔트로피: 불순도측도로 여러가지 임의의 사건이 모여있는 집합의 순수성 또는 단일성 관점의 특성을 정량화 해서 표현한 것( -시그마 p_k * log_2(p_k) )

SOM
- 고차원의 데이터를 저차원의 뉴런으로 정렬하여 지도 형태로 형상화 하는 방법
- 지도 형태의 형상화는 입력변수의 위치 관계를 그대로 보존
- 입력벡터와 가장 비슷한 연결강도 벡터를 가진 경쟁층의 뉴런이 승자
- 승자와 그 주변의 경쟁층 뉴런에 대해서만 연결강도 수행
- 고차원의 데이터를 1차원으로 표시할 수 있는 장점
- 역전파 알고리즘을 사용하는 인공신경망과 달리 단 하나의 전방패스를 사용함으로 속도 빠름

39. 모수검정

관측된 자료로 구한 표본평균과 표본분산을 이용해 검정 실시

40. t-test 해석

one Sample t-test
- df: 자유도
- 신뢰구간 설정 파라미터: conf.level = .95
- mean of x: 점추정량
- 95 percent confidence interval: 신뢰구간

41. 데이터 마이닝 추진 단계

목적정의
데이터 준비
데이터 가공: 모델링 목적에 따라 목적변수 정의, 필요한 데이터를 적합한 형태로 변환
데이터마이닝 기법 적용
검증

42. 다층 신경망 모형

노드수 결정시 고려사항
- 출력층 노드는 출력 범주의 수로 결정
- 은닉층 노드 수가 적으면 복잡한 의사결정 경계 만들 수 없음
- 입력수는 입력 차원의 수로 결정.
- 은닉층 노드가 너무 많아지면 일반화가 어려움

43. 탐색적 데이터 분석

결측치 처리
- 결측치는 비율이 10%이하인 경우에는 해당 변수를 제거하고 분석하는 것이 효율적
- 먼저 결측치가 많은 변수를 처리하고 결측치가 포함된 레코드 처리
- 회귀분석시 결측치가 포함된 레코드는 결측치가 많은 변수부터 삭제하는 것이 효과적
- complete Analysis: 불완전한 자료 모두 삭제하고 완전한 관측치 만으로 자료를 분석하는 방법(부분적 자료만 사용하므로 통계적 추론의 타당성 문제가 있음)
- 평균대치법: 자료의 평균값으로 결측값을 대치하여 불완전한 자료를 완전한 자료로 만들어 분석
- 단순확률대치법: 평균대치법에서 추정량 표준오차의 과소 추정 문제를 보완하고자 고안된 방법
- 다중대치법: 단순대치법을 m번하고 m개의 가상적 완전 자료를 만드는 방법
  - 1단계: 대치
  - 2단계: 분석
  - 3단계: 결합
모델의 성능은 보통 설명변수가 많아질수록 향상됨
현 데이터의 성능만 고려하여 번수를 추가하면 예측시 부정적으로 사용될 가능성 있음
데이터를 표준화 해야 설명변수의 영향도가 제대로 표현되는 경우 있음

44. 기술통계

평균(mean): 데이터의 전체 합을 전체 개수로 나누어 산출하는 대표 값
중위수(median): 데이터를 크기 순서에 따라 나열하여 가장 중앙에 위치하는 값
사분위수(quantile): 데이터를 작은 수 부터 큰 수 까지 배열했을 때 전체 관측값을 n등분하는 위치에 오는 값을 n사분위수
백분위수(percentile): 크기가 있는 값들로 이루어진 자료를 순서대로 나열했을 때 전체 데이터 개수의 p%에 위치하는 값

45. 지니지수: 1 - ( (A개수) /전체 ) - ( (B개수) / 전체 )

46. 다중공선성

변수간에 높은 상관성이 있는 것들이 회귀모형에 포함될 경우 나타남
중요하지 않으면서 다른 변수와 상관성이 높은 변수를 제거
구조적 다중공선성의 문제가 있는 경우 데이터의 평균 중심을 변화
VIF를 이용하여 다중공선성이 존재하는지 파악

47. 인공신경망

neuralnet()함수 사용
일반화 가중치(generalized weight)
- 로지스틱 회귀에서의 회귀계수와 유사하게 해석
- 각 공변량의 영향을 나타냄
사용하는 활성화함수: 계단함수, softmax, 가우스함수

48. 퍼셉트론

최종 목표값은 활성함수에 의해 결정됨
활성함수
- Softmax: 출력값이 여러개로 주어지고, 목표치가 다범주인 경우 각 범주에 속할 사후 확률을 제

49. 로지스틱 회귀

독립변수의 선형 결합을 이용하여 사건의 발생 가능성을 예측하는데 사용되는 통계 기법
종속변수가 이진형(실패/성공, 정상/불량 등)일 때와 순서형인 경우에 사용 가능
분류기법의 일종
종속변수 y=1일 확률의 로짓과 q개의 설명변수간의 관계를 선형으로 모형화한 것
집단(y=1)에 속하는 오즈(odds)는 집단 1에 속하는 확률을 집단 0에 속하는 확률로 나눈 비율
로지스틱 함수는 0과 1의 값을 갖음

50. lasso회귀 모형

L1 penalty 사용
모형에 포함된 회귀계수들의 절대 값 크기가 클 수록 panalty 부여
자동적으로 변수 선택을 하는 효과 있음
람다 값으로 penalty 정도 조정

51. 영향관측치

모형의 인수들에 불규칙한 영향을 미치는 관측치
하나의 관측치를 제거 함으로써 모형이 극적으로 달라지는 경우가 있음
cooks disance는 추정 회귀모형에서 판단하고 이 값이 클 수록 영향치 가능성이 높음
DFBETAS의 절대값이 유난히 큰 관측개체는 k번째 회귀계수의 추정에 대하여 큰 영향력을 행사하는 것으로 간주하는 방법
Leverage H의 대각 원소는 관측치가 다른 관측치 집단으로 부터 떨어진 정도를 나타냄 표준화 잔차와 대각원소가 크면 영향 관측치

52. 통계적 추론

구간추정: 모수의 참값이 포함되어 있으리라고 추정되는 구간을 결정하는것, 신뢰수준은 신뢰구간이 모수를 포함할 확률
점추정: 추정량이 모수에 얼마나 가까운지를 나타내기 위해 추정량의 표준오차를 사용
베이지안추론: 모수를 상수가 아니라 확률변수로 보고 사후분포를 유도하는 것
비모수적 추론: 모집단에 대해 특정 분포 가정을 하지 않음. 다양한 통계량들을 고려할 수 있고 통계량의 성질을 유도하여 이를 기반으로 추론 실시 대표적인 방법으로 자료의 순위를 사용

53. 조건부 확률

p(B|A): A일때 B의 확률 => p(A n B) / p(A)

54. 시그모이드 함수

y값이 0과 1을 갖음

'Certification > ADP필기' 카테고리의 다른 글

5과목 - 데이터 시각화 (0)	2023.09.26
3과목 - 데이터 분석 기획 (0)	2023.09.25
2과목 - 데이터 처리 기술의 이해 (0)	2023.09.25
1과목- 데이터 이해 (0)	2023.09.25

만수르 개발 일기

4과목 - 데이터분석

'Certification > ADP필기' 카테고리의 다른 글

티스토리툴바

4과목 - 데이터분석

'Certification > ADP필기' 카테고리의 다른 글

관련글

티스토리툴바