카테고리 없음
서술형
mansoorrr
2023. 9. 26. 14:40
1. 분류분석
- 로지스틱회귀
- glm함수 사용: glm(<종속변수> ~ <독립변수1>+<독립변수2>+<독립변수3>, data=<data>, family="binomial")
- 분석결과 나타나면 독립변수에 대해 통계적 타당성을 가설검정하여 설명변수가 모두 유의한지 파악
- 유의하지 않은 변수가 포함될 수 있으므로 step함수 활용하여 변수선택법(전진선택, 후진제거, 단계선택)으로 최적 모형 찾음
- 최종적으로 로지스틱 회귀 결과 종합하여 식 도출
- 종속변수가 연속형 변수 값이라면 범주화, 구간화 등을 통해 범주형 변수로 변환하여 분석에 적용
- 의사결정나무
- 앙상블(배깅, 부스팅, 랜덤포레스트)
- KNN
- SVM
- 인공신경망
2. 군집분석
- 계층적과 비계층적으로 나뉨
- 계층적
- 군집의 갯수가 가장 나중에 결정됨
- 군집방법으로는 최장, 최단, 평균, 와드연결법이 있음
- R에서 hclust함수를 이용하면 되고 덴드로그램으로 시각화 가능
- 덴드로그램은 각 단계에서 관측치의 군집화를 통해 형성된 그룹과 이들의 유사성 수준을 표시하는 트리 다이어그램
- 덴드로그램은 y축에 나타나는 값을 기준으로 군집을 결정할 수 있음
- y축에서 수평축을 그어 나뉘는 그룹을 하나의 군집으로 구성할 수 있음
- 비계층적
- 군집의 모양이 계층적이지 않고 군집의 개수를 제일 먼저 선정하고 모형을 개발함
- 방법으로는 kmeans, kmedoid, 혼합분포군집, SOM등의 방법이 있음
- 보편적으로 사용되는 kmeans의 경우 R에서는 kmeans함수를 사용하여 진행 가능
- 군집의 중심 정보는 $centers함수로 확인 가능
- between_ss / total_ss값은 1에 가까울 수록 군집이 잘 되었다는 것을 의미
- 인사이트를 위해 군집된 변수의 크고 낮은 값들을 확인하여 특징을 도출할 수 있다
- 그룹의 개수를 정하기 위해 군집 수에 따른 집단 내 제곱 합 그래프를 그려 그룹 개수를 결정하는 기준을 제시할 수 있음
- 집단 내 제곱 합 그래프는 얼마나 군집화가 잘 되었는가를 알려주는 척도
- 집단 내 제곱합의 합을 최소화 하는 것을 목적으로 함
- screeplot과 비슷한 형태로 그려짐
- 해석방법: 급격히 감소하는 지점까지만 군집으로 설정
- R프로그램에서는 Nbclust함수와 Screeplot을 활용하여 군집을 정하는 방법도 있음
3. 최적 회귀 분석방법
- 데이터에 가장 잘 맞는 모형을 찾아가는 방법
- R에서는 step함수를 통해 종속변수에 설명변수가 없을 때 부터 모두 있을때까지 회귀 모형을 비교해 최적의 회귀방정식을 도출 할 수 있다
- step함수의 direction을 'both로 하면 단계적 선택법(모든 독립변수들의 조합)
- direction을 'forword'로 하면 전진선택법
- direction을 'backword'로 하면 후진제거법을 의미한다.
- 수행단계
- 변수선택법을 결정 및 초기모델 설정
- direction: 'both', 'forword', 'backword'세개 중 하나 선택
- step(lm(종속변수~독립변수), direction = 'both'): 이렇게 초기모델 설정
- 설정한 초기모델의 Start AIC 확인
- 선택된 모형에서 변수를 추가/삭제 할 경우의 각 모형의 AIC 확인
- 모형의 AIC와 변수들의 AIC를 비교
- 모형 AIC보다 변수 AIC가 작을 경우 그 변수는 제거
- 최소 AIC모형을 선택하여 최적 모형으로 선정
- 2~4번을 반복하여 AIC가 더이상 줄어들지 않으면 최적 모형으로 선정
- 종속변수에 대한 설명변수들간의 모형에 대한 통계적 타당성 검정
- 귀무: 모형은 타당하지 않다 / 대립: 모형은 타당하다
- F통계랑, p-value확인하여 가설 검증
- 변수들에 대한 통계적 타당성을 검증한다
- 귀무: 모형은 타당하지 않다 / 대립: 모형은 타당하다
- F통계랑, p-value확인하여 가설 검증
- 모형이 전체 데이터를 얼마나 잘 설명하는지 확인하기 위해 결정계수를 확인한다
- Multi R-squared
- Adjusted R-squared
- (최종)
- 회귀식을 작성한다
- 상관계수들의 + / - 를 확인하여 종속변수와의 관계를 토대로 인사이트를 도출한다
- 변수선택법을 결정 및 초기모델 설정
4. 주성분분석
주성분분석은 가장 널리 사용되는 차원 축소 기법 중 하나로, 원 데이터의 분포를 최대한 보존하면서 고차원 데이터들을 저차원 공간으로 변환하는 기법이다. 기존의 변수를 조합하여 서로 연관성이 없는 새로운 변수인 주성분을 만들어 낸다. 첫 번째 주성분인 PC1이 원 데이터의 분포를 가장 많이 보존하고, 두 번째 주성분인 PC2가 그 다음으로 원 데이터의 분포를 많이 보존한다.
Biplot을 통해 시각화 하면 pc1과 pc2를 기준으로 하는 그래프가 나타난다. 이 그래프에는 원변수와 주성분의 상관관계를 나타내는 화살표가 그려져 있다. 화살표는 pc와 평행할 수록 pc에 큰 영향을 미친다. 또한 화살표가 같은 방향으로 인접해 있을 수록 같은 주성분으로 생성될 수 있다.
pc1은 "00"과 "00"변수가 하나로 묶여 생성되었다고 판단할 수 있고, pc2는 "00"변수가 묶여 생성되었다고 판단할 수 있다. 그리고 모든 변수중 가장 영향을 많이 미치는 변수는 pc1과 수평을 이루고 있는 "00"변수라고 판단할 수 있다.