확률변수의 기댓값과 표본 평균
본문 바로가기
통계, 인공지능/통계 관련

확률변수의 기댓값과 표본 평균

by 통계하는 피터팬 2022. 9. 5.
반응형

 

안녕하세요!!

통계하는 피터팬입니다.

오늘은 조금 수학적인 이야기를 해보려고 합니다.

제가 통계를 공부하면서 가장 혼란을 가지고 있던 개념입니다. 사실 이 글을 읽으시면 "뭐 저런 멍청이가 있지?"라고 생각하실 수도 있고, "아! 이런 개념이구나. 이런 차이가 있구나!"라고 생각하실 수도 있습니다. 누구에게는 당연한 이야기이기도 할 수 있고, 누구에게는 정말 엄청난 도움이 될 수 있는 내용이라고 생각합니다. 잘 알고계신 분들은 그냥 이 포스팅을 지나가시면 될 것 같습니다. 저는 혼란스러웠던 제 과거와 혹시라도 있을 그런 분들으 위해 이 글을 쓰고 있습니다. 

그럼 시작하겠습니다!

0.평균 그리고 기댓값

평균과 기댓값. 통계를 배우면서 엄청나게 자주 듣게 되는 말입니다. "도대체 평균이 뭐고 기댓값이 뭔가?" 저는 저런 고민을 통계학을 공부하면 한 적이 있습니다. 책으로 공부하다 보면 평균이라는 말이 기댓값이라는 말과 혼용돼서 사용되고, 그러다 보니 저도 "그냥 같은 거" 정도로 생각을 하다가 어느 날, 회귀분석을 공부하며 증명을 하던(그 기억이 수리 통계학의 공부에서 나왔는지 회귀분석이었는지 잘 기억이 안 납니다) 시기에 저 "같은 거"라는 생각이 무너지게 됩니다. 노파심에 말하지만, 저 두 용어는 혼용돼서 사용되는 것이 맞습니다. 단지 저는 서로 다른 개념을 지칭하는 것에 사용하기 위해 나누어서 설명하려고 합니다. 절대로 혼용해서 사용하는 것이 틀렸다는 말이 아닙니다. 일단 따로따로 알고 나서 그 이후에는 별로 혼동이 오지 않으므로 그때 혼용해서 사용하는 것을 권장드릴뿐입니다. 저만의 기준이므로 절대 규칙이거나 정의가 아닙니다!!

다시 본론으로 돌아오면, 증명을 하면서 기댓값 기호속 평균이 있었던 적이 있습니다.  다음과 같은 순간이 왔던 것입니다.

$$E [ \overline {X}] $$

이때 저는 "아 평균의 평균? 그냥 평균이지"라고 생각하면 다음과 같이 쓰게 됩니다.

$$E [ \overline {X}] = \overline{X} $$

그런 뒤 증명은 실패하고 말았습니다. 그 당시에는 도대체 왜 실패한 것인지 몰랐습니다. 이제 저런 실수를 누구도 이 글을 읽으시는 분들은 하지 않으셨으면 해서 글을 쓰려고 합니다. 앞으로 저는 표본 평균을 평균이라고 하고 확률변수의 기댓값을 기댓값이라고 쓰겠습니다!

 

1. 평균

통계학을 공부하시면 정말 많이 나오는 말이 평균입니다. 저는 처음에 표본들의 평균인 표본 평균을 배웠었습니다. 그래서 평균은 표본평균이라고 알고 공부를 했습니다. 처음에 표본평균을 배울 때 표본의 대푯값이라는 것으로 배우고 다음과 같은 수식으로 배웠습니다.

$$\overline {X} = \frac {X_1 + X_2 + X_3 \ldots + X_n}{n} $$

위와 같은 식을 표본 평균이라고 부르고 일반적으로$\overline {X}$ 로 많이 써서 표현합니다. 저는 앞으로 글에서 이러한 표본 평균만을 평균이라고 부르겠습니다. 사실 통계학에서 사용하는 평균 이외에도 조화 평균, 기하평균과 같은 여러 평균들에 대해 알고 계신 분들도 계실 거라고 생각합니다. 표본 평균은 표본들의 산술평균을 지칭하는 용어로 사용하겠습니다.  

 

2. 기댓값

저는 앞으로 다음의 확률분포를 알고 있는 확률변수의 기댓값을 기댓값이라고 쓰도록 하겠습니다. 일반적으로 확률변수의 기댓값은 다음과 같습니다.

$$ E(X)  =\begin {cases} \sum_{i=1}^ \infty  x_iP(x_i)  & X 가 \,이산형 확률변수\\ \int_{- \infty }^ \infty  xf(x)  & X가\, 연속형 확률변수\end {cases} $$

제가 이렇게 평균과 기댓값을 나누는 이유는, 일단 저부터 착각을 하고 살았고(물론 확률변수에 대한 적절한 개념이 없어서 그런 거겠지만) 누군가 저 같은 사람이 있을까 해서입니다. 여기서 잘 알고 계셔야 하는 부분이 표본 평균과 차이인데, 확률변수의 기댓값은 모집단의 기댓값(=모평균)과 같은 개념이라는 것입니다. 즉, 확률 분포를 안다면 이런 확률변수의 기댓값을 통해 모평균을 알 수 있는 것입니다. 그래서 확률변수와 분포의 직관적 이해 포스팅에서 표본을 추출한다고 한 것입니다.

 

긴 글 읽어주셔서 정말 감사합니다.

누군가에게는 꼭 도움이 되었으면 좋겠습니다.

 

반응형

댓글


TOP

Designed by 티스토리