안녕하세요!!
통계하는 피터팬 입니다.
이번 글에서는 표의 형태로 된 데이터를 분석할 때 활용이 가능한 분할표 분석의 기본적인 검정 2개에 대해 소개하도록 하겠습니다. 바로 동질성 검정과 독립성 검정인데, 각각이 무엇을 검정하는 것인지 차근차근 설명 해보겠습니다. 참고로 검정에 대한 내용은 이전에 포스팅 되있으니 참고하여 읽고 오시기 바랍니다!
시작하겠습니다!
참고로 이후에 첨부되는 그림들은 모두 제가 직접 그린 그림으로 불법으로 퍼가는 것을 금지합니다. 대신 직접그린 그림이다보디 매우 형편없이 못나서 아무도 안 퍼가실거라 생각합니다...
1.동질성 검정
검정을 설명하기 앞서 용어대한 설명을 간다한게 하도록 하겠습니다. Pop는 모집단을, Cate는 범주를 의미하고 O는 관측치를 의미합니다. 즉 행 하나하나가 모집단을 의미하므로, 각 행의 표본의 크기는 고정되어 있는 구조 입니다. 동질성 검정은 이러한 분할표 상황에서 모집단의 동일성에 대한 검정을 하는 검정법 입니다. 즉, 모집단들의 확률적 구조가 통계적으로 얼마나 유의미하게 동일한가를 검정하는 것입니다. 이때 사용하게 될 검정 및 분포는 카이제곱검정 및 분포입니다. 앞선 글에서도 서술했듯 카이제곱분포 및 검정법은 정말 다양한 분야에서 사용되니 용어정도는 알고계신것이 좋을것 같습니다. 귀무가설이 "모집단의 확률적 구조가 같다"이고 대립가설이 "모집단의 확률적 구조가 같지 않다" 입니다. 예를들면 다음과 같은 상황에서 동질성 검정을 활용하게 됩니다.
"K고등학교의 학생들의 학년별 수학에대한 자신감을 조사하기 위해 설문조사를 실시하였다. 학년은 1학년 100명, 2학년 200명, 3학년 300명이 있고, 수학에 대한 자신감에대한 범주는"자신없다, 중간이다, 자신있다" 3가지로 조사였다. 이 때 다음과 같은 결과가 얻어졌을때 학년에 따라 수학에 대한 자신감에 차이가 있다고 할 수 있는가?"
위와같은 질문을 받게 되면 고민없이 동질성 검정을 진행하셔서 원하는 유의수준과 p-value를 비교하여 결론을 내리시면 됩니다. 더 자세한 절차에 대한 설명은 기초부터 설명하는 통계적 가설검정 시리즈에 포스팅 하였으니 참고하시면 좋을것 같습니다.
2.독립성 검정
독립성 검정의 분할표의 경우 동질성 검정과는 살짝 다른 형태임을 확인할 수 있습니다. 동질성 검정의 분할표와 달리 독립성 검정의 경우 어떤한 두가지 처리(표에서는 A, B라고 표현된 것들)에 서로 연관성이 있냐 없냐를 검정하는 검정법 입니다. 독립성 검정의 분할표는 동질성 검정의 분할표와 달리 행합과 열합이 모두 고정되어 있지 않다는 점입니다. 참고로 동질성 검정의 경우 행합은 고정이었습니다. 귀무가설은 "두 처리 A, B 가 독립이다"이고 대립가설은 "두 처리 A, B가 독립이 아니다" 입니다. 독립성 검정도 마찬가지로 카이제곱 분포와 카이제곱 검정을 사용합니다. 예를 들어 다음과 같은 상황에서 독립성 검정을 활용하시게 됩니다.
"K고등학교 학생들의 수학과 영어 과목에 대한 선호도가 남녀 차이가 있는지 조사하기 위해 설문조사를 실시하였다. 수학을 좋아하는 남학생의 경우 400명, 여학생의 경우 200명 이었으며 영어를 좋아하는 남학생의 경우는 150명, 여학생의 경우는 300명 이었다. 주어진 조사 결과를 분석하여, 남여 성별과 수학, 영어 과목 선호도에 연관성이 있다고 할 수 있는가?"
이러한 질문을 받게 되면 독립성 검정을 진행하시면됩니다. 역시 원하는 유의수준과 p-value를 비교하여 결론을 내리시면 될것 같습니다. 이후의 절차는 앞선 기초부터 설명하는 통계적 가설검정 포스팅대로 진행하시면 적절하게 검정의 결과를 얻으실 수 있습니다.
두 검정에서 약간의 흥미로운 점은 두 검정 모두 카이제곱 분포와 검정을 사용한다는 부분입니다. 이러한 내용은 나중에 포스팅하도록 하겠습니다. 사실 제가 더 수학적인 내용이나, 통계량 등에 관한 이야기를 하지 않는 이유는 목적이 "~~한 상황에 ~검정을 이용하면 되는구나"를 알아줬으면 하고 쓰는 글이라 그렇습니다. 다른 포스팅에서는 더 자세하게 조금더 전공스럽고 수학스럽게 접근하도록 하겠습니다!!
긴글 읽어주셔서 감사합니다!
이 글이 누군가에게 꼭 도움이 되면 좋겠습다!
다들 화이팅!!
'통계, 인공지능 > 통계 관련' 카테고리의 다른 글
베르누이 분포와 이항분포, 그리고 기하분포 (0) | 2022.09.06 |
---|---|
확률변수의 기댓값과 표본 평균 (0) | 2022.09.05 |
대표적인 몇가지 상황과 그에 따른 가설검정 방법 설명 (0) | 2022.09.04 |
p-value에 대한 개념과 가설검정의 절차 (0) | 2022.09.04 |
통계적 가설검정의 개요와 가설 설정의 조건 (0) | 2022.09.04 |
댓글