데이터 위클리 페이퍼 3 - 제1종 오류와 제2종 오류, p-value
제1종 오류와 제2종 오류에 대해 파악하고 p값(p-valuse)에 대해 알아봅니다.
- 데이터 위클리 페이퍼 12 - 머신러닝 편향과 분산, K-폴드
- 데이터 위클리 페이퍼 11 - 지도학습과 비지도학습, 손실 함수
- 데이터 위클리 페이퍼 10 - A/B테스트, Event Taxonomy
- 데이터 위클리 페이퍼 9 - AARRR 사례 분석
- 데이터 위클리 페이퍼 8 - AARRR, 코호트와 세그먼트, RFM
- 데이터 위클리 페이퍼 7 - 장바구니 분석(연관분석)
- 데이터 위클리 페이퍼 6 - 클러스터링, 고유값과 고유벡터, 히스토그램
- 데이터 위클리 페이퍼 5 - 사분위수, 기술통계와 추론통계
- 데이터 위클리 페이퍼 4 - 데이터 전처리와 t-test
- 데이터 위클리 페이퍼 2 - 유닉스 절대경로와 상대경로, 깃 브랜치
- 데이터 위클리 페이퍼 1 - 클래스와 인스턴스, 정적 메소드
제1종 오류와 제2종 오류에 대해 설명해주세요
- 1종오류와 2종오류에서 말하는 오류?
판단
에 대한 오류- 판단? 증거를 가지고 어떠한 사실(귀무가설)이 참인지 거짓인지 결정하는과정
- 사실에 의한 판단은 4가지
- 어떠한 사실(귀무가설)이 참인데 맞다고 판단(채택) → 옳은 결정
- 어떠한 사실(귀무가설)이 참인데 틀리다고 판단(기각) → 1종 오류
- 어떠한 사실(귀무가설)이 거짓인데 기각하지않고 맞다고 판단(귀무가설 채택) → 2종 오류
- 어떠한 사실(귀무가설)이 거짓인데 틀리다고 판단(기각) → 옳은 결정
귀무가설 참 | 귀무가설 거짓 | |
---|---|---|
기각안함(채택) | 옳은 결정 | 2종 오류 |
기각 | 1종 오류 | 옳은 결정 |
- 1종오류 : 귀무가설이 참인 상황에서 귀무가설을 기각하는 오류
- 부적절한 증거를 가지고 사실이 아닌것을 사실이라고 판단하는 오류(신중하지못한)
- 2종오류 : 귀무가설이 거짓인 상황에서 귀무가설을 기각하지 않는 오류
- 아주 명확한 증거에도 불구하고 귀무가설을 채택하는 오류(확신이부족한)
- 어떤 오류가 치명적인가? 상황마다 다르다
- 의료 분야 : 일반적으로 2종 오류가 더 치명적(병의 조기 발견이 중요한 경우 등)
- 1종 오류: 병이 없는데 병이 있다고 진단하는 경우
- 2종 오류: 병이 있는데 병이 없다고 진단하는 경우
- 법률 분야 : 1종 오류가 더 치명적(무죄추정의 원칙)
- 1종 오류: 무고한 사람을 유죄로 판단하는 경우
- 2종 오류: 범죄를 저지른 사람을 무죄로 판단하는 경우
- 한쪽 오류의 확률이 작아지면 다른 오류의 확률이 커진다
- 두가지 오류를 모두 줄이려면 표본의 크기를 늘려야 한다
- 의료 분야 : 일반적으로 2종 오류가 더 치명적(병의 조기 발견이 중요한 경우 등)
- 참고
- H0(귀무가설, 영가설) : 기존과 비교하여 변화 및 차이가 없음을 나타내는 가설
- 예시 : A제품의 판매량은 성별과 관계가 없다
- H1(대립가설, 연구가설) : 귀무가설에 대립하는 가설로 표본을 통해 확실한 근거를 가지고 입증하고자 하는 가설
- 예시 : A제품의 판매량은 성별과 관계가 있다
- H0(귀무가설, 영가설) : 기존과 비교하여 변화 및 차이가 없음을 나타내는 가설
p값 (p-value)는 무엇인가요?
- p-값(p-value) : Probability value(확률 값)의 약자로 특정한 결과가 우연히 발생할 확률
- 귀무가설(H0)이 참일 경우 관찰된 데이터가 우연히 발생할 가능성
- 유의수준 : 귀무가설이 참일 때 관찰된 결과가 우연히 발생할 확률
- 이 확률보다 낮으면 우연히 발생하지 않았다고 판단
- 일반적으로 유의수준은 0.05(5%)로 설정
- p-값의 해석
- P-값 > 유의수준 : 관찰된 결과가 우연히 발생했을 가능성이 높다 → 귀무가설을 채택한다
- P-값 < 유의수준 : 관찰된 결과가 우연히 발생하지 않았다고 판단 → 귀무가설을 기각한다
- P-값이 유의수준보다 작으면 대립가설을 채택한다.
- p-값 예시(의학연구)
- 귀무가설 : 특정 약물이 환자에게 효과가 없다
- 대립가설 : 특정 약물이 환자에게 효과가 있다
- 임상시험 결과 p-값이 0.03으로 나왔다면,
- 유의수준 0.05와 비교시 귀무가설을 기각하고 약물이 효과가 있다고 판단할 수 있다
- p-값은 관찰된 데이터의 신뢰성의 평가하는데 도움을 주지만, 그 값 자체로 귀무가설을 결정하지 않는다.
- 따라서 다른 통계지표와 함께 종합적으로 데이터를 분석할 필요가 있다.
This post is licensed under CC BY 4.0 by the author.