데이터 위클리 페이퍼 4 - 데이터 전처리와 t-test
- 데이터 위클리 페이퍼 12 - 머신러닝 편향과 분산, K-폴드
- 데이터 위클리 페이퍼 11 - 지도학습과 비지도학습, 손실 함수
- 데이터 위클리 페이퍼 10 - A/B테스트, Event Taxonomy
- 데이터 위클리 페이퍼 9 - AARRR 사례 분석
- 데이터 위클리 페이퍼 8 - AARRR, 코호트와 세그먼트, RFM
- 데이터 위클리 페이퍼 7 - 장바구니 분석(연관분석)
- 데이터 위클리 페이퍼 6 - 클러스터링, 고유값과 고유벡터, 히스토그램
- 데이터 위클리 페이퍼 5 - 사분위수, 기술통계와 추론통계
- 데이터 위클리 페이퍼 3 - 제1종 오류와 제2종 오류, p-value
- 데이터 위클리 페이퍼 2 - 유닉스 절대경로와 상대경로, 깃 브랜치
- 데이터 위클리 페이퍼 1 - 클래스와 인스턴스, 정적 메소드
데이터 전처리 방법들 (ex. 결측값 처리 등) 에 대해 설명해 주세요
데이터 전처리? 데이터를 통계적으로 분석하거나, 머신러닝을 통해 예측 모델을 만들 수 있도록 완벽한 상태로 가다듬는 과정
데이터 전처리 단계
- 데이터 병합(merge) : 원하는 정보들이 하나의 자료로 통합되지 않은 상황에서 합치는 작업
- 범주(category) 변수 처리 : 회귀분석을 수행하기 전에 필요한 전처리 작업
- 문자 변수를 숫자로 변환
- 결측치(missing value) 처리 : 전체 변수들의 인과 관계에 왜곡을 방지하기 위한 전처리 작업
- 결측치가 들어있는 케이스를 표본 자체에서 제거 : 데이터 샘플이 충분히 크고 데이터를 제거했을시 대표성이 깨지지 않는 경우 사용
- 결측치를 평균, 중앙값, 최빈값 등으로 대체
- 결측치를 예측 : 머신러닝이나 통계적 기법을 통해 해당 변수의 값들 간 관계를 예측하여 할당
- 이상치(outlier) 처리 : 평균에 큰 영향을 주는 값들을 사분위수를 이용하여 제거
- 3사분위수와 1사분위수 사이의 범위를 뜻하는 IQR을 이용하여 너무 작은 이상치
Q1-1.5*IQR
와 너무 큰 이상치Q3+1.5*IQR
제거
- 3사분위수와 1사분위수 사이의 범위를 뜻하는 IQR을 이용하여 너무 작은 이상치
t-test에 대해 설명해 주세요
t-test?
A집단과 B집단의 평균이 같다
라는 가설(주장)을 통계적으로 검증하는 절차- A집단과 B집단이 같은 집단인 A와 A’인 경우 :
쌍체 비교
,Paired t-test
,사전/사후 t-test
등으로 부름- 당뇨에 대한 새로운 약이 개발되었을 때, 이 약이 효과가 있는지를 측정하는 경우 등
- 같은 대상에 대해 약을 투여하기 전/후 당 수치 비교
- 당뇨에 대한 새로운 약이 개발되었을 때, 이 약이 효과가 있는지를 측정하는 경우 등
- A집단과 B집단의 구성원이 서로 다른 경우
- 한 학년에서 각 반의 국어 성적 간 비교 등
- 값들이 집단 별로 묶여 있어야함(한 학년의 A, B, C반 학생들의 성적이 각 반에 맞추어 정렬되어 있어야 함)
- t-test는 오직 두 집단 간의 평균 비교만을 수행할 수 있음. 집단이 3개 이상일 경우 분산 분석 필요
- t-test진행 전 두 집단의 분산이 동일한지 검정 필요(F-검정)
This post is licensed under CC BY 4.0 by the author.