데이터 위클리 페이퍼 4 - 데이터 전처리와 t-test

Posted Aug 13, 2024

By Sun Hyuk Kim

3 min read

데이터 전처리 방법들 (ex. 결측값 처리 등) 에 대해 설명해 주세요

데이터 전처리? 데이터를 통계적으로 분석하거나, 머신러닝을 통해 예측 모델을 만들 수 있도록 완벽한 상태로 가다듬는 과정
데이터 전처리 단계
1. 데이터 병합(merge) : 원하는 정보들이 하나의 자료로 통합되지 않은 상황에서 합치는 작업
2. 범주(category) 변수 처리 : 회귀분석을 수행하기 전에 필요한 전처리 작업
  - 문자 변수를 숫자로 변환
3. 결측치(missing value) 처리 : 전체 변수들의 인과 관계에 왜곡을 방지하기 위한 전처리 작업
  - 결측치가 들어있는 케이스를 표본 자체에서 제거 : 데이터 샘플이 충분히 크고 데이터를 제거했을시 대표성이 깨지지 않는 경우 사용
  - 결측치를 평균, 중앙값, 최빈값 등으로 대체
  - 결측치를 예측 : 머신러닝이나 통계적 기법을 통해 해당 변수의 값들 간 관계를 예측하여 할당
4. 이상치(outlier) 처리 : 평균에 큰 영향을 주는 값들을 사분위수를 이용하여 제거
  - 3사분위수와 1사분위수 사이의 범위를 뜻하는 IQR을 이용하여 너무 작은 이상치Q1-1.5*IQR와 너무 큰 이상치Q3+1.5*IQR제거

t-test? A집단과 B집단의 평균이 같다라는 가설(주장)을 통계적으로 검증하는 절차
A집단과 B집단이 같은 집단인 A와 A’인 경우 : 쌍체 비교, Paired t-test, 사전/사후 t-test등으로 부름
- 당뇨에 대한 새로운 약이 개발되었을 때, 이 약이 효과가 있는지를 측정하는 경우 등
  - 같은 대상에 대해 약을 투여하기 전/후 당 수치 비교
A집단과 B집단의 구성원이 서로 다른 경우
- 한 학년에서 각 반의 국어 성적 간 비교 등
- 값들이 집단 별로 묶여 있어야함(한 학년의 A, B, C반 학생들의 성적이 각 반에 맞추어 정렬되어 있어야 함)
- t-test는 오직 두 집단 간의 평균 비교만을 수행할 수 있음. 집단이 3개 이상일 경우 분산 분석 필요
- t-test진행 전 두 집단의 분산이 동일한지 검정 필요(F-검정)

This post is licensed under CC BY 4.0 by the author.