표본추출과 모집단 그리고 통계량
본문 바로가기
통계, 인공지능/통계 관련

표본추출과 모집단 그리고 통계량

by 통계하는 피터팬 2022. 9. 10.
반응형

안녕하세요!

통계하는 피터팬입니다.

이번 포스팅에서는 지난번에 설명한 모집단, 표본추출에 대한 조금 더 자세한 설명과 통계량에 대해 설명하도록 하겠습니다. 

이 포스팅을 준비하게 된 이유는 이런저런 설명을 하면서 너무 몽글몽글(?)하게 설명할 수밖에 없고, 그러면서 너무 많은 부분을 설명하지 않고 넘어가는 것이 아닌가 하는 생각을 하게 되었습니다. 그래서 이미 포스팅을 완료한 글들을 차근차근 더 읽어보니 제 생각이 일정 부분 맞다고 생각해서 포스팅을 하게 되었습니다. 그래서 이전의 글과 마찬가지로, 이번 포스팅은 이미 이전 글을 읽었다고 가정하겠습니다.  그렇지만 이전 포스팅들과 달리 겹치는 내용이 상당히 많이 들어 있을 예정입니다. 그러므로 이 부분에 대한 내용을 좀 잘 알고 계신 분이라면 스킵해주셔도 좋은 글입니다. 그래도 읽어보시면 도움이 될 수 있으니 읽는 것을 추천드리기는 합니다.

그럼 이제 시작하겠습니다!

화살표의 집단

1. 모집단과 분포

우선 일반적으로 관심 있는 대상을 모집단이라고 합니다. 관심있는 대상이 모집단인 것을 맞지만, 모집단의 모든 것들을 알아내는 것은 상당히 어렵고, 일반적인 상황에서는 알아낼 수도 없습니다. 그래서 '평균'과 같이, 어떤 특정한 것 혹은 모집단의 일부를 알아내고 싶어 합니다. 예를 들어, 대한민국의 대통령을 뽑는 선거에 대해, 모든 전국의 국민을 조사하기 어려움으로, 일부만 추출하여 여론조사를 진행하게 되고, 이때 모든 국민이라는 모집단에 대해 관심 있는 것은 어떤 후보를 지지하는지 등의 특정한 정보입니다. 모집단 자체, 전체를 알고 싶어 하는 것이 아닙니다. 알아낼 수도 없습니다. 즉 특정 안 특성 값에 대해 관심을 가지게 됩니다. 그리고 이러한 특성값이 가지고 있는 구조를 분포라고 합니다. 여기에서 '구조'는 어떤식으로 퍼져 있는지, 혹은 흩어져 있는지 정도로 생각하시면 될것 같습니다. 이런 특성값이 가질 수 있는 값이 연속적일수도 있고, 이산적일수도 있습니다. 그리고 이러한 특성값의 확률적 구조를 대표하는 모집단의 확률변수가 있다고 마음속으로 가정하면 좋을거 같습니다. 또 , 이 확률변수가 어떤 확률적 구조를 가지고 있는지, 합 또는 적분값이 1인 함수로 표현한 것이 확률 질량 함수 및 확률 밀도함수 입니다. 이산적 특성값에 대한 확률변수는 확률 질량함수를 가지고 구조를 설명하고, 연속적 특성값에 대한 확률변수는 확률 밀도 함수를 통해 그 확률적 구조를 표현하게 된다고 이해하면 편할것 같습니다. 그런데, 도저히 저 확률 질량함수 혹은 확률 밀도함수를 정확하게 알 방법이 없습니다. 그래서...

 

2. 표본추출

그래서 우리 인간들은 표본추출이라는 방법을 사용하게 됩니다. 모집단에서 몇 개의 표본을 뽑아, 관심 있는 특성 값에 대해 살펴보는 겁니다. 제가 방금 위에서 모집단의 특성을 대표하는 확률변수가 존재하고 있다고 마음속으로 가정하면 좋겠다고 했었는데, 표본 추출은 이 확률변수를 복사했다고 생각하는 겁니다. 여기에서 엄밀하게 말하실 분들이 계시다면, 조용히 넘어가 주시면 감사하겠습니다. 이런식의 이해가 통계학을 접할 때는 충분히 도움이 된다고 생각합니다. 다시 본론으로 돌아와, 이렇게 복사된 확률변수들을 일반적으로 랜덤 샘플이라고 부르고, 이를 이용해서 모집단의 특성을 추론하고 싶은 겁니다. 추론의 방법은 크게 추정과 검정이 있습니다. 추정은 실제 모집단의 특성 값에대한 것이고, 검정은 모집단의 특성값에 대한 가설을 검정하는 방법입니다. 통계적 추론에 대해서는 제 다른 포스팅을 참고 부탁드리겠습니다.

 

3. 통계량

위에서 표본 추출된 확률 변수들을 랜덤 샘플이라고 한다고 했습니다. 이렇게 모집단 속의 특성 값에 대한 미지의 확률변수의 복사본으로 확률변수를 랜덤샘플이라고 하고, 이러한 랜덤샘플의 함수를 일반적으로 통계량 이라고 부릅니다. 또 이러한 통계량 중, 모집단의 관심 있는 특성값에 대한 추정에 사용되는 통계량을 추정량이라고 합니다. 그런데 이런 통계량들이 얼마나 정확하게, 혹은 어떤 성질을 가지고 모집단의 관심있는 특성을 설명해 주는지 알고 싶은 경우가 많습니다. 이럴 때 필요한 것이 이 통계량의 분포이고, 통계량이 표본의 함수이므로 이를 표본 분포라고 부릅니다.

 

오늘은 여기까지 하겠습니다!

긴 글 읽어주셔서 감사합니다!!

 

Reference

Spss를 이용한 통계학. 서울대학교 통계학과

반응형

댓글


TOP

Designed by 티스토리