안녕하세요!
통계하는 피터팬입니다!!
오늘은 통계적 가설검정에 대해 알아보도록 하겠습니다(물론 수학적으로, 통계적으로 엄밀하지는 않지만)
통계가 다양한 분양에서 눈에 보이게 활용되는 부분 중 하나가 바로 가설검정 부분입니다. 하지만 전공자가 아닌 사람들의 관점에서 가설검정은 용어부터 아주 생소한 부분이라고 할 수 있습니다. 저도 처음 배울 때 "이 용어만 좀 어떻게 해도 훨씬 더 다가가기 쉬울 텐데"라고 생각했었습니다. 그래서 용어부터 차근차근 설명해보도록 하겠습니다.
시작하겠습니다!
1.가설과 가설검정 개요
가설검정에서 가설이란 통계적으로 확인하고 싶은 주장을 의미합니다. 간단하게 설명하면, 이 주장을 통계적인 기법을 활용해서 유의미한 주장인지, 또 그런 주장이라면 얼마나 유의미한지 등을 따지는 게 바로 가설검정입니다. 통계적으로 가설검정을 진행하는 과정에서 두 개의 가설을 세우게 됩니다. 한 개는 귀무가설이고 다른 한 가지는 대립 가설입니다. 일반적으로 귀무가설은 H0으로 쓰고 대립 가설은 H1으로 씁니다. 또 대립 가설은 보통 새롭게 확인하고 싶은 주장을 설정하고, 귀무가설은 대립 가설의 근거가 부족할 때 선택할 수 있는 지금까지의 상식 등으로 설정하게 됩니다. 물론 가설을 아무런 조건 없이 세울 수 있는 것은 아닙니다. 그 조건들은 잠시 뒤에 서술하도록 하겠습니다. 이해를 돕기 위해 예를 들어보겠습니다. 가설 검정이랑 가장 비슷한 실생활의 예시가 바로 법정공방이라고 생각합니다. 귀무가설은 무죄 주장, 대립 가설은 유죄 주장과 유사하고 이 유죄를 입증하기 위해 검사는 다양한 증거자료를 제출하는 과정은 가설검정의 과정과 유사합니다. 판사는 검사가 제시한 다양한 자료가 충분할 때까지는 무죄로 판단하는 것과 유사하게, 가설검정도 귀무가설이 아니라는 명백한 근거가 있어야만 귀무가설이 아닌 대립 가설을 선택하게 됩니다.
2. 가설 설정의 조건
가설을 설정할 때에는 다음의 2가지 규칙을 지켜야 합니다.
• 귀무가설을 설정할 때에는 '평균이 ~~ 이다'와 같이 등호의 의미가 포함되어야 합니다.
• 대립 가설은 귀무가설과는 다른 범위를 설정해야 합니다.
예를 들어 첫 번째 규칙의 경우 '대한민국 성인의 평균 키는 180cm이다'와 같이 가설을 구성해야 한다는 의미이고, 두 번째 규칙의 경우 대립 가설은 귀무가설처럼 '대한민국 성인의 평균 키는 180m'로 서술해서는 안되고 '대한민국 성인의 평균 키는 180cm보다 작다'처럼 설정해야 한다는 의미입니다. 두 번째 조건을 생각해 보면 한 가지 형태로만 대립 가설이 설 되지 않는다는 것을 짐작할 수 있습니다. 즉, '대한민국 성인의 평균 키는 180cm보다 작다' , '대한민국 성인의 평균 키는 180cm보다 크다', '대한민국 성인의 평균 키는 180cm가 아니다'와 같은 세 가지 형태의 가설이 가능합니다. 앞의 2개('대한민국 성인의 평균 키는 180cm보다 작다' , '대한민국 성인의 평균 키는 180cm보다 크다')를 단측 대립 가설이라고 하고 마지막의 경우( '대한민국 성인의 평균 키는 180cm가 아니다')를 양측 대립 가설이라고 합니다.
3. 2가지 오류
다음으로 알아볼 개념은 2가지 오류입니다. 우선 표를 이용해 간단하게 표현하면 다음과 같습니다.
출처: 위키백과
귀무가설이 참인데 가설검정을 잘못 해서 귀무가설을 기각해버리면 그건 오류입니다. 그걸 제1종 오류라고 부릅니다. 그리고 일반적으로 제1종 오류가 발생할 수 있는 확률의 최대 허용 한계를 로마자 α를 써서 나타내고, 이를 유의 수준이라고 부릅니다. 반면에 대립 가설이 참인데 대립 가설을 기각하는 경우를 제2종 오류라고 하고 일반적으로 로마자 β를 사용해서 표현합니다. 그리고 1-β를 검정의 검정력이라고 합니다. 방금 설명드린 제1종 오류의 최대 허용 한계인 유의 수준이 일반적으로 검정의 기준으로 사용됩니다. 그래서 가설 검정할 때 '유의 수준 ~~ 에서 ~~ 하다'라는 결론을 내리게 됩니다. 예를 들어 설명하면 '유의 수준 0.05에서 귀무가설을 기각한다'라고 결론이 났다면 이는 제1종 오류가 발생할 확률이 0.05보다 작은 상태로 귀무가설을 기각하겠다는 것을 의미합니다. 물론 검정력도 함께 제시하는 경우도 많이 있지만 이것은 추후에 검정력 분석 포스팅에서 다루도록 하겠습니다. 가설검정에서 유의 수준을 작게 유지하는 이유는 귀무가설이 기각되면 안 되는 상황에서 잘못 기각되는 것이 상당히 치명적일 수 있기 때문입니다. 일반적으로 귀무가설은 지금까지 받아들여지던 사실로 설정하는 경우가 많은데 이러한 가설은 분야와 관계없이 치명적인 문제는 없어왔을 가능성이 큽니다. 하지만 대립 가설의 경우 새롭게 주장하는 가설이므로 충분히 검증되지 못했을 가능성이 높고 그러므로 제1종 오류가 치명적이게 됩니다. 그래서 유의 수준을 작게 해서 그 위험을 최대한으로 작게 하려는 겁니다.
한 번에 너무 많은 개념을 설명하면 머리가 아플 수 있으니 오늘은 여기까지 설명하도록 하겠습니다.
긴글 읽어주셔서 감사합니다.
'통계, 인공지능 > 통계 관련' 카테고리의 다른 글
확률변수의 기댓값과 표본 평균 (0) | 2022.09.05 |
---|---|
활용도가 높은 분할표 분석의 기초적인 검정 (0) | 2022.09.04 |
대표적인 몇가지 상황과 그에 따른 가설검정 방법 설명 (0) | 2022.09.04 |
p-value에 대한 개념과 가설검정의 절차 (0) | 2022.09.04 |
통계를 공부하기 전에 알면 좋은 확률변수 확률분포의 직관적 개념 (0) | 2022.09.03 |
댓글