통계를 공부하기 전에 알면 좋은 확률변수 확률분포의 직관적 개념
본문 바로가기
통계, 인공지능/통계 관련

통계를 공부하기 전에 알면 좋은 확률변수 확률분포의 직관적 개념

by 통계하는 피터팬 2022. 9. 3.
반응형

안녕하세요!!

통계하는 피터팬입니다!!

이번 글에서는 엄밀함과는 거리가 멀지만 통계를 공부할 때, 분포를 공부하기 전에 직관적으로 알면 좋을 거 같은 부분에 대해 글을 써 보려고 합니다.  즉, 확률변수와 확률분포의 직관적 개념에 대해 설명하도록 하겠습니다. 참고로 수학적으로나 통계적으로 엄밀한 설명을 할 것은 아닙니다. 뭔가 제가 통계를 공부하면서 처음에 많이 헷갈렸고 고민도 한참 했던 부분들을 직관적으로 이해하기 쉽게 서술하는 것이 목적입니다. 댓글로 뭔가 필요한 내용을 남겨주시면 준비해서 글로 포스팅하도록 하겠습니다.

그럼 시작하겠습니다.

내용과는 관련이 없습니다

일단! 통계학을 공부하다 보면 꼭 듣게 되는 단어가 있습니다. 바로 확률변수와 확률분포입니다. 아마 통계학을 아예 처음 하시는 분들보다는 그래도 어느 정도 관심이 있으시니까 제 블로그에 들어오셨을 거라고 생각합니다. 그래서 표본, 표본 공간 이런 단어를 사용해서 설명드리도록 하겠습니다. 각 단어의 정의를 전혀 모르시거나, 아예 처음 들어 보시는 분들은 제가 나중에 용어 정리 포스팅을 할 예정이니 그때 읽어보시고 이해하시거나, 구글에 검색해서 정의 정도만 이해하고 이 글을 읽어주셨으면 좋겠습니다. 아니면 댓글로 물어봐 주시면 최대한 성실히 답변드리도록 하겠습니다.

 

일단 확률수의 정의를 살펴보면 다음과 같습니다. 물론 확률론적으로 깊이 들어간 내용은 절대 아닙니다.

"표본 공간의 원소를 실수로 대응시키는 함수"입니다. 여기서 잘 생각해 봐야 할 부분은 함수라는 것입니다! 그러니까 모든 가능한 사건들을 입력으로 받아 실수 값을 출력으로 하는 함수인 겁니다. 계속 말하지만 엄밀한 정의가 아닙니다.

 

예를 들어,

동전을 던졌을 때 나올 수 있는 사건들을 표본 공간이라고 하면, 표본공간이 H(앞면)와 T(뒷면)로 구성되게 됩니다. 이때 제가 확률변수 X를 입력이 H면 1, 입력이 T면 0의 값을 갖도록 정의하면 X(H)=1이고 X(T)=0 이 될 것입니다. 이런 함수 X를 확률변수라고 합니다.

 

이때 표본 공간에 원소가 총 2개고 동전의 앞면과 뒷면이 나올 가능성이 모두 같다고 가정하면, 두 원소 모두 발생할 정도가 같으니까 P(X(.)=1) = 0.5인데 일반적으로 표본 공간의 원소, 즉, 입력값은 생략하고 P(X=1)=0.5 이런 식으로 쓰게 됩니다!

이렇게 확률변수 X가 저런 확률 구조를 갖는 것이 보이십까? 0.5의 값을 갖는 저런 확률적 구조를 확률분포라고 합니다. 역시나 엄밀한 정의가 절대로 아닙니다. 즉, 확률변수는 저 표본 공간을(앞으로는 표본공간을 모르는 상황도 나올 텐데 그때를 모두 포함해서) 설명해 준다고 생각하시는 게 편합니다. 다시 말해서 '우리가 알고 싶은 미지(잘 모르는) 어떤 집단의 정보도 신(GOD)만이 알고있는 확률변수와 그 확률적구조인 확률분포에 다 포함되어 있을거다' 라고 생각하는겁니다. 그런데 그걸 인간인 우리는 모릅니다. 여러분들 혹시 그 우화 중에 장님 3명이서 코끼리를 더듬거리는 이야기 알고 계십니까? 그 이야기를 보면 3명의 장님이 각각 코끼리를 다르게 판단하는 내용입니다. 물론 통계에서도 그런일이 일어날 수 있지만, 제가 설명 드리고 싶은 핵심 그게 아니고, 그 이야기 처럼 일부만을 이용해서 미지의 전체에 대한 정보를 추론하는 것이라는 겁니다. 즉, 저 이갸기처럼 그런것 처럼 일부를 통해서 원하는 정보를 알아내는게 우리 인간들이 할 수 있는 최선인겁니다. 그래서 하는게 표본추출 입니다!! 표본을 뽑아서 그 정보를 토대로 신(GOD)만이 알고 있는 정보 근데 우리도 알고싶은 그 정보를 어떻게든 가깝게 맞춰보고자 하는게 표본추출이고, 그 표본들을 통해 정보를 얻어내서 모집단에 대한 정보를 대충 맞춰보는것이 통계적 추론입니다. 통계적 추론에는 크게 추정과 가설검정이 있습니다. 다른 포스팅에서 설명하도록 하겠습니다. 물론 개념적으로 엄밀하게 틀린말이다! 라는 댓글이 있다면 할수 없다고 생각합니다. 저도 수학적으로 엄밀한 정의가 아닌 것은 알지만 그래도 직관적으로 이런 이해가 있으면 통계를 하는 길이 편해진다고 생각해서 이 글을 포스팅하게 되었습니다.

 

일단 오늘은 이 정도로 마무리하겠습니다.

궁금하신 부분 댓글 달아주시면 감사하겠습니다.

읽어주셔서 감사합니다.

모두 파이팅!

반응형

댓글


TOP

Designed by 티스토리