안녕하세요!
통계하는 피터팬입니다.
오늘은 기초부터 설명하는 통계적 가설검정 3편으로 몇 가지 상황별 대표적인 가설검정 방법에 대해 설명하도록 하겠습니다.
설명에 들어가기 앞서, 세상에는 아주 많은 가설에 대한 검정이 존재합니다. 그래서 제가 모든 것들을 설명할 수 없습니다. 대신에 몇 가지 대표적인 방법론을 설명하고 어떤 식으로 적용하는지 보여줌으로써 연구자 혹은 가설검정을 진행하실 때 어떤식으로 사용하면 될지 감을 잡을 수 있는 방향으로 설명하는 것이 목표입니다. 그래서 제가 설명하지 않은 가설에 대한 검정 방법은 구글을 이용하면 됩니다. 구글에 굉장히 많은 검정법들이 설명되어 있고, 사용하시는 언어, 도구의 코드까지 설명이 잘 되어있습니다.
그럼 이제 시작하겠습니다!
1. 한 개 혹은 두 개의 평균에 관한 추론
가설검정에 대한 수업을 한 번이라도 들어보셨다면, 아마 당연하게 배우셨을 검정입니다. 특히나 평균에 관한 추론에서 빠지지 않는 검정이 제가 설명드릴 t-검정입니다. 언제 이 t-검정을 사용하는지 궁금하실 것 같습니다. T-검정의 경우 대표적으로 다음과 같은 몇 가지 상황에서 사용하기 적절한 검정입니다.
- 특정 집단의 평균이 어떤 실수에 비교했을 때, "크다, 작다, 같지 않다"와 같은 내용을 검정하고 싶을 때
- A와 B 두 개의 집단의 평균을 비교했을 때, "A집단의 평균이 B집단의 평균보다 크다, 작다, 같지 않다"와 같은 내용을 검정하고 싶을 때
- 같은 집단에 대한 어떤 처리 전과 후의 평균을 비교하고 싶을 때
위의 경우 말고도 사용이 가능할 수 있지만 대표적인 몇 가지만 서술하였습니다. 우선 위의 경우에서 바로 t-검정을 사용하시지 말고 일단 집단이 정규분포를 따르는지 확인을 하셔야 합니다. 정규성에 대한 검정은 구글에 검색해서 내용을 찾아보시거나 제가 추후에 비모수적 검정법에 대해 포스팅할 때 읽어보시고 참고하시면 좋을 것 같습니다. 이후에는 제가 지난 글에서 설명하신 절차대로 진행하시면 됩니다. 사실 더 엄밀하게 들어가면 등분산이니 이분산이니 하는 이야기와 그에 따른 합동 분산 추 정략을 사용하거나 아니면 섀터 스웨이트 근사 자유도를 사용하는 등의 복잡한 내용이 있지만 생략하도록 하겠습니다. 추후에 t검정 자체를 다루는 글을 서술하게 되면 그 글에서 최대한 자세하게 설명하도록 하겠습니다.
2. 분산에 관한 추론
두 번째는 분산에 관한 추론입니다. 이때 사용할 검정을 바로 카이제곱 검정입니다. 통계를 배우셨다면 t-검정과 t분포만큼은 아니어도 카이제곱도 들어보셨을 거라고 생각됩니다. 카이제곱 검정의 경우 굉장히 광범위하고 다양한 검정에 사용되는 분포와 검정입니다. 그래서 분산에 관한 상황 위주로 설명드리도록 하겠습니다. 다음과 같은 경우에 대해 주로 사용하게 됩니다.
- 모집단 한 개의 분산이 특정 실수와 비교했을 때, "크다, 작다, 같지 않다"와 같은 내용을 검정하고 싶을 때
- A와 B 두 개의 집단에 대해 분산을 비교했을 때, "A집단의 분산이 B집단의 분산보다 크다, 작다, 같지 않다"와 같은 내용을 검정하고 싶을 때
카이제곱 검정은 정말 다양한 상황에서 사용이 가능합니다. 카이제곱 분포 및 검정에 관한 포스팅에서 자세하게 설명하도록 하겠습니다. 이제 지난 포스팅의 절차대로 검정을 진행하시면 됩니다.
3.세 개 이상의 평균에 관한 추론
1번과 달리 세개 이상의 집단의 평균에 대한 추론을 하고 싶을 때 사용하는 검정에 대해 설명하겠습니다. 바로 분산분석입니다. 영어로는 ANOVA로 잘 알려져 있는 검정 방법입니다. 사실 엄밀하게 검정은 아니고 분석 방법이지만, 그래도 정말 자주 중요하게 사용되는 방법이라 설명하게 되었습니다. 분산분석의 경우 세 집단 이상의 평균을 비교할 때 사용하는 방법입니다. 검정으로 치면 F-검정 정도로 설명드릴 수 있겠지만, 굳이 엄밀하게 다루지는 않겠습니다. 세개 이상의 집단에 대해 한 개라도 평균이 다른지에 대해 검정하게 됩니다. 참고로 t-검정을 여러 번 해서는 문제가 발생하게 됩니다. 여기서는 "뭔가 문제가 발생해서 분산분석이라는 방법을 사용하는구나" 정도로 이해하고 넘어가시면 좋을 것 같습니다.
몇 가지 검정 방법에 대해 설명하였습니다.
사실 엄밀하게 혹은 더 자세히 통계적으로 설명할 수 있지만, 우선 제 글의 목표가 읽고 이해하고 사용할 수 있도록 하는 것이라 최대한 간결하고 간단하게 서술하였습니다.
긴 글 읽어주셔서 감사합니다.
모두 파이팅!!
'통계, 인공지능 > 통계 관련' 카테고리의 다른 글
확률변수의 기댓값과 표본 평균 (0) | 2022.09.05 |
---|---|
활용도가 높은 분할표 분석의 기초적인 검정 (0) | 2022.09.04 |
p-value에 대한 개념과 가설검정의 절차 (0) | 2022.09.04 |
통계적 가설검정의 개요와 가설 설정의 조건 (0) | 2022.09.04 |
통계를 공부하기 전에 알면 좋은 확률변수 확률분포의 직관적 개념 (0) | 2022.09.03 |
댓글