안녕하세요!
통계하는 피터팬입니다.
이번 포스팅에서는 저번 포스팅에서 다뤘던 이산형 확률분포에 이어서 또 다른 2개의 이산형 확률분포를 다뤄보도록 하겠습니다.
지난 포스팅에서는 베르누이 분포, 이항 분포, 기하 분포를 다루었는데, 이번 포스팅에서는 이산형 균일 분포, 음이항 분포를 다뤄보도록 하겠습니다. 이산형 균일 분포의 경우 가장 기본적인 형태의 분포이면서 연속형에도 존재하는 그런 분포입니다. 또, 음이항 분포의 경우 앞선 포스팅에서 설명했던 베르누이 시행, 기하 분포의 확장판이라고 생각할 수 있기 때문에 이번 포스팅에서 연속적으로 다루도록 하겠습니다.
시작하겠습니다!
1.이산형 균일 분포
오늘의 포스팅에서 가장 처음으로 알아볼 이산형 확률분포는 바로 이산형 균일 분포입니다. 이름에서도 알 수 있듯이 이산형도 있고 연속형도 있기 때문에 이산형 균일 분포라고 합니다. 또 균일 분포라는 말에서 알 수 있는 것처럼 분포가 균일한 경우를 의미합니다. 즉, 확률 질량 함수는 그 자체가 확률이므로 확률이 존재하는 구간의 특정 점들에 대해서는 모두 같은 확률을 가지고 있습니다. 이 확률 밀도 함수를 식으로 표현하면 다음과 같습니다. 참고로 $a <b$이고 a, b모두 정수라고 가정하며 a부터 b까지 총 n개의 정수가 존재한다고 하겠습니다.
$$p(x) = \frac {1}{n} , a\leq x \leq b$$
위 식을 보면 확률 질량 함수가 x완 관계없이 모든 x 점들에 대해 항상 $ \frac {1}{n}$임을 확인할 수 있습니다. 그래서 이름이 균일 분포라고 생각하시면 기억하시기 편하실 거라고 생각합니다. 다음으로 알아볼 것은 이산형 균 이분포의 평균과 분산입니다. 역시나 유도과정은 생략하고 다음과 같이 평균과 분산을 제시하도록 하겠습니다.
$$E(X) = \frac {a+b}{2}$$
$$Var(X) = \frac {n^2-1}{12}$$
분산의 형태는 익숙하지 않을 수 있지만 평균의 형태는 아주 친숙하실 거라고 생각합니다. 잘 보면 구간의 끝점들의 산술평균임을 알 수 있는데, 이는 어떻게 생각해 보면 당연한 것입니다. 왜냐하면, 모든 점들에 대해 확률이 일정하므로 이산형 균일 분포의 무게중심이라고 할 수 있는 평균은 구간의 딱 가운데일 것이기 때문입니다. 따라사 이산형 균일분포의 평균은 구간의 중앙지점이다라고 생각하시면 기억이 오래갈 것입니다.
2. 음이항 분포
두 번째로 알아볼 분포는 음이항 분포입니다. 음이항 분포의 확률변수 및 확률분포를 설명하기 앞서 이전 포스팅에서 설명했던 베르누이 시행과 기하 분포에 대해 간단하게 복습하고 넘어가도록 하겠습니다. 베르누이 시행은 결과가 성공, 실패 2가지로 나타나는 시행이었고 이에 대한 확률변수가 베르누이 확률변수였습니다. 또 기하 분포는 성공확률이 p인 베르누이 시행에서 첫 번째 성공이 나타날 때까지의 실패횟수를 확률변수라고 하면 그 확률변수의 확률분포를 의미했습니다. 음이항분포는 바로 이 기하분포의 확장이라고 생각할 수 있습니다. 기하분포의 확률변수는 첫번째 성공에 대해 관심이 있었다면, 음이항 분포 확률변수의 경우 r번째 성공에 관심이 있는 경우입니다. 즉, 확률변수 X를 성공률이 p인 베르누이 시행을 독립적으로 시행할 때 r번째 성공까지의 실패 횟수라고 정의하면, 이러한 확률변수 X의 확률분포를 음이항 분포라고 하고 다음과 같이 표현할 수 있습니다. 참고로 $q = 1-p $입니다.
$$p(x) = \binom {x+r-1}{x}(q)^xp^{r-1} p = \binom {x+r-1}{x}(q)^xp^{r}, y = 0, 1, \cdots$$
식을 두 번에 나눠서 서술한 이유는 앞의 것의 의미를 살짝 설명드리기 위해섭니다. 앞 의식은 마지막에 p를 곱한 형태로 총 y+r-1의 시행 중 y번의 실패와 r-1번의 성공이 있었고 마지막으로 r번째 성공이 발생할 확률을 곱한 형태임을 말씀드리고 싶었습니다. 기하 분포도, 음이항 분포도 저런 식으로 유도가 가능합니다! 다음으로 평균과 분산에 대해 알아보도록 하겠습니다.
$$E(X) = \frac {rq}{p}$$
$$Var(X) = \frac {rq}{p^2}$$
사실 확률변수를 다르게 정의하면 조금 더 예쁜 형태의 평균과 분산이 나타나기도 합니다. 확률변수를 r번째 성공까지의 시행 횟수라고 정의하면 평균과 분산이 조금 더 깔끔하게 표현 가능합니다. 이러한 내용은 검색해서 찾아보시기 바랍니다! 혹은 제가 뒤에 포스팅 할 내용을 참고로 직접 유도해 보시는 것도 좋은 방법이라고 생각합니다.
뭔가 수식은 최대한 빼서 설명해야겠다 하면서도 어느정도 수식이 포함되는것은 어쩔수 없는것 같습니다. 조금더 생각하고 조금더 검토하고, 고민해서 더 좋은 글을 쓸 수 있도록 노력하겠습니다. 항상 이렇게 두서없는 글을 읽어주시는 분들께 감사의 인사를 드립니다.
오늘은 여기까지 하도록 하겠습니다!
긴 글 읽어주셔서 감사합니다!
이 글을 읽는 모든 분들에게 도움이 되면 좋겠습니다.
'통계, 인공지능 > 통계 관련' 카테고리의 다른 글
확률분포의 여러가지 기댓값의 형태 (0) | 2022.09.06 |
---|---|
지수분포와 감마분포-두 분포의 관계설명을 포함한 (0) | 2022.09.06 |
베르누이 분포와 이항분포, 그리고 기하분포 (0) | 2022.09.06 |
확률변수의 기댓값과 표본 평균 (0) | 2022.09.05 |
활용도가 높은 분할표 분석의 기초적인 검정 (0) | 2022.09.04 |
댓글