Data Analysis39 Python_ML_Supervised_Polynomial Regression 다항회귀(Polynomial Regression) 데이터가 단순한 직선 형태가 아닌 비선형의 형태를 갖고 있을때 각 변수의 거듭제곱을 새로운 변수로 추가하면 선형 모델 사용 가능 이렇게 확장된 특성을 데이터세트에 선형모델로 훈련시키는 기법을 다항회귀라고 함 각 변수의 거듭제곱을 추가해 고차 다항회귀를 적용하면 과대적합 가능성이 있다. sklearn의 PolynimailFeatures로 변수를 생성하고 LinearRegression의 입력값으로 대입 sklearn.preprocessing.PolynomialFeatures(parameters) Parameter degree - default: 2 - 다항식의 차수 결정 interaction_only - default: False - 교차항 추가할지 여부 -.. 2024. 1. 2. Python_ML_Supervised_SimpleLinearRegression 단순선형회귀(Simple Linear Regression) 종속변수에 대한 선형함수를 만들어 예측하는 알고리즘 독립변수가 하나인 경우 특정 직선을 학습 $$ y = \beta_0 + \beta_1*x $$ 입력 특성의 가중치($\beta_1 *x$) 합과 편향($\beta_0$)을 더해 예측을 수행 선형 회귀 모델을 이용해 학습데이터세트에 가장 적합하도록 모델 파리미터를 설정하는 과정을 '모델을 학습시킨다'라고 함 선형회귀 모델을 잘 학습시키기 위해 MSE(평균제곱오차)를 최소화하는 파라미터를 찾아야 함 통계방식: 정규방정식을 사용해 MSE를 최소화 머신러닝: 경사하강법을 사용해 MSE를 최소화 정규방정식 정규방정식을 통해 MSE값을 최소로 하는 파라미터를 얻을 수 있음 최소자승법(Least Square.. 2024. 1. 2. Python_ML_Supervised_Logistic Regression 로지스틱회귀(Logistic Regression) 선형 모델을 분류하는데 사용해 샘플이 특정 클래스에 속할 확률을 추정 가능 이름은 회귀지만 종속변수가 범주형인 경우 사용 종속변수가 특정 범수에 속하는 확률을 모델링함 시그모이드(로지스틱)함수 로지스틱 회귀는 선형회귀처럼 $y=\beta_0 + \beta_1X$로 표현해야 하는데 y가 범주형 변수이기 때문에 저렇게 표현하면 예측이 맞지 않는다. 따라서 모든 값에 0 또는 1사이의 값을 제공하는 함수를 사용해야 함 X가 아주 큰 음수일때 0이 되고 아주 큰 양수일때 1이 되도록 바꿔줌 승산비(Odds) 실패(1-p)에 비해 성공(p)할 확률 $p/(1-p)$ $P(Y=1|X)$ 가 1에 가까워 질수록 Odds가 무한대로 발산하는 한계가 있음 이를 극복하기 .. 2023. 12. 18. Python_Statistics_Chi-square 카이제곱 검정 t-test와 Anova는 종속변수가 연속형 변수 카이제곱 검정은 종속변수가 범주형 변수 적합성 검정, 독립성 검정, 동질성 검정 목적으로 사용됨 검정 방법 내용 적합성 검정 각 범주에 따른 데이터의 빈도분포가 이론적으로 기대하는 분포를 따르는지 검정 독립성 검정 모집단이 두 개의 변수 A, B에 의해 범주화 되었을 때, 이 두 변수들 사이의 관계가 독립인지 검정 동질성 검정 서로 다른 표본 집단의 변수의 동질성 확인 교차분석의 관측빈도와 기대빈도의 차이를 비교하는것이 기본적인 아이디어 교차분석 교차표를 통해 각 셀의 관찰빈도와 기대빈도 간의 차이를 검정하는 방법 관찰빈도: 자료로 부터 얻은 빈도분포 기대빈도: 두 변수가 독립일때 이론적으로 기대할 수 있는 빈도분포 적합성검정 각 범주에 따.. 2023. 12. 15. 이전 1 2 3 4 5 6 ··· 10 다음