Data Analysis39 Python_Statistics_TimeSeries 시계열분석 시간의 흐름에 따라 기록된 데이터를 바탕으로 미래의 변화에 대한 추세를 분석하는 방법 데이터의 추세, 시간 외에 어떤 외부요인이 데이터에 영향을 미쳤는지를 나누어 생각해야 함 따라서 시계열분해를 통해 시간요인과 외부요인으로 구분하여 분석할 수 있음 [시계열분해] 시계열 자료를 추세(Trend), 계절성(Seasonal), 잔차(Residual)로 분해하는 기법 시간요인: 추세, 계절성 외부요인: 잔차(불규칙요인) 분해과정 모형판단: 데이터를 보고 주기적반복과 계절성이 있는지에 따라 Additive모형과 Multiplicative모형 중 어떤 모형이 더 적합할지 판단 Additive모형: 추세와 계절성이 별개로 존재할 경우 Multiplicative모형: 추세에 따라 계절성이 있는 경우 stat.. 2024. 3. 14. Python_Statistics_Association 연관분석(Association Analysis) 사건의 연관규칙을 찾는 방법 A후에 B를 시행할 확률을 구하는데 사용 소비자의 구매 패턴 분석에 주로 사용됨 장바구니분석이라고도 불림 유투브, 넷플릭스 등과 같은 플랫폼도 이러한 알고리즘을 기반으로 콘텐츠를 추천 연관규칙을 찾기 전 연관성이 있는지를 파악한다.(Run-test) 이후 연관규칙분석을 실시한다(Aporiori) 연관분석에 사용되는 척도 척도명 내용 지지도 - 전체 거래중 A와 B가 함께 거래된 비율 - A와 B를 모두 포함하는 거래 수 / 전체거래수 신뢰도 - A를 구매한 거래중 A와 B가 함께 거래된 비율 - 연관성의 정도를 파악 가능 - 지지도 / A구매비율 향상도 - A가 구매되지 않았을때 B의 구매 확률보다 A가 구매되었을때 B가 구매될.. 2024. 3. 13. Python_Statistics_Cluster 군집분석 군집분석이란 객체의 유사성을 측정해서 유사성이 높은 집단끼리 분류하는 통계기법 머신러닝 분야에서 이상치 탐지를 위해 사용되기도 함 대표적인 비지도 학습 계층적 군집분석과 비계층적 군집분석으로 나뉨 [군집분석 vs 요인분석] 구분 내용 군집분석 - 객체간의 상이성을 규명 - 군집의 특성 파악 요인분석 - 유사한 변수를 묶어 다중공선성을 줄이기 위함 [계층적 군집분석] n개의 군집으로 시작해 점차 군집의 개수를 줄여나가는 방식 군집의 거리를 계산하는 방법에 따라 연결법이 달라짐 모든 객체는 거리 행렬을 통해 가까운 거리의 객체들의 관계를 규명, 군집 개수 선택 연결법 구분 내용 최단연결법 - 거리행렬에서 거리가 가장 가까운 데이터끼리 묶어서 군집 형성 최장연결법 - 데이터와의 거리를 계산할때 최장거.. 2024. 3. 7. Python_Statistics_Regression 선형회귀 머신러닝의 회귀는 예측의 성공 확률을 높이는데 목적 통계방법의 회귀는 정해진 분포나 가정을 통해 실패 확률을 줄이고 원인을 찾는데 목적 [개념] 하나 혹은 그 이상의 원인이 종속변수에 미치는 영향도를 추적 변수들 사이의 상관관계를 밝힘 관심있는 변수를 예측하거나 추론하기 위해 사용하는 분석 방법 [단순회귀분석의 평가] $ SSE $: $ (관측값 - 예측값)^2 $ > 설명되지 않는 변동(잔차) $ SSR $: $ (예측값 - 기대값) ^2 $ > 설명할 수 있는 변동 $ SST $: 총 변동 F-통계량은 설명할 수 있는 변동이 설명하지 못하는 변동보다 클때 값이 크게 나타난다. 이는 회귀선이 데이터에 잘 적합했음을 의미한다. 따라서 F-통계량이 클수록 귀무가설을 기각할 확률이 올라간다. 모든 .. 2024. 3. 1. 이전 1 2 3 4 ··· 10 다음