본문 바로가기

Data Analysis39

Python_Statistics_Anova(분산분석) Anova(분산분석) T-검정: 두 집단 사이의 평균 차이를 비교 Anova: 두 개 이상의 다시 집단간 평균을 비교 F검정 통계량 사용(F분포) 정규분포를 이루는 모집단에서 독립적으로 추출한 표본들의 분산비율이 나타내는 연속확률분포 두 집단간 분산의 동일성 검정에 사용 종속변수: 연속형 독립변수: 범주형 변수의 개수에 따라 일원, 이원, 다원배치 분산분석으로 나뉨 단일변량 분산분석 일원배치 분산분석: 독립변수 1개, 종속변수 1개 이원배치 분산분석: 독립변수 2개, 종속변수 1개 다원배치 분산분석: 독립변수 3개 이상, 종속변수 1개 다변량 분산분석 MANOVA: 독립변수 1개이상, 종속변수 2개 이상 집단 간 평균 차이를 집단 내 변동에 비교하여 살펴보는 통계 방법 집단 내 분산 보다 집단 간 분산이.. 2023. 12. 11.
Python_Statistics_t-test t-test t-분포를 따르는 통계적 가설 검정 방법 모집단 표준편차를 알 수 없을때 표본평균과 모집단 평균 사이의 표준화된 거리를 설명 관측값은 정규분포를 따르는 모집단에서 추출 정규분포(z분포)는 모집단의 표준편차를 알고 있다고 가정 표본크기가 커질수록 t분포는 정규분포와 비슷해짐 정규분포와 마찬가지로 t분포의 평균도 0 기본적으로 정규분포와 모양이 비슷하지만 꼬리가 두꺼움 일반적으로 표본 크기가 30이상인 경우 z분포 사용 가능 모집단을 대표하는 표본의 분산이나 표준편차를 가지고 검정하는 방법 어느 특정 집단의 평균값을 추정하거나 차이를 검정할때 사용가능 종속변수는 연속형이어야 하며 독립변수는 범주형이어야 함 t검정통계량: 분산을 사용하여 집단간의 차이를 통계적으로 표현한 것 두 집단의 차이의 평균.. 2023. 12. 7.
R-연관분석 연관분석이란 상품의 구매, 서비스, 거래, 사건 등 간에 규칙을 발견하여 연관성을 파악하는 데이터마이닝 방법론 효과적인 상품진열, 패키지 상품개발, 교차판매 전략, 기획상품의 결정 등에 사용됨 장바구니분석, 서열분석이라고 불림 측도 지지도(Support): 전체 거래중 A와 B를 동시에 포함하는 거래의 비율: A ∩ B / 전체 신뢰도(Confidence): A거래 비율중 A와 B가 같이 포함될 확률: 지지도 / P(A) 향상도(Lift): A가 구매되지 않았을때 B가 구매될 확률보다 A가 구매됐을때 B가 구매될 확률이 얼마나 높은지의 증가비: P( B | A) / P(B) = 신뢰도 / P(B) L > 1: 양의 상관관계 A와 B를 구매할 확률이 B만 구매할 확률보다 L배만큼 높음 L = 1: 상관없음.. 2023. 12. 3.
R기초 1. 많이 사용되는 패키지 및 코드 R code 기능 Python Code install.packages("패키지명") 패키지 설치 pip install 패키지 library(패키지명) 패키지 로드 import 패키지 getwd() 현재 작업중 경로 산출 import os os.getwd() setwd(path) 작업폴더 새로지정 import os os.chdir(path) dir() 현재 작업중 폴더 파일목록 import os os.path.listdir() ls() 변수목록 rm(list=ls()) 메모리 모든 객체 삭제 ; 명령어 끝 명시 - print() 출력 print() read.csv(filepath) csv읽기 import pandas as pd pd.read_csv(filepath) re.. 2023. 12. 3.