본문 바로가기
정기연재 - 수학 & 통계학/[통계학] 통계랑 오늘부터 1일!

통계랑 '6'일째: 분포 2_초기하분포와 이항분포 마무리

by STEMSNU 2015. 8. 30.

1. 들어가며

어느덧 8월의 마지막 주말이네요. 이제 9월이면 즐거운^^ 개강이네요 ㅠㅠ 마지막으로 하얗게 불태워 놀다 가시길 바랍니다ㅎㅎ

오늘은 지난번에 이산 분포로써 베르누이 분포와 이항 분포를 살펴본 데 이어 기하 분포와 초기하 분포를 알아보고, 연속 분포 중 우선적으로 균일 분포와 정규 분포를 알아보려 했으나! 이산 분포를 마무리하기 전 설명할 내용이 많아 다음 기회로 미루겠습니다.

2. 기하 분포(Geometric Distribution)

기하 분포는 저번 시간의 이항 분포를 잘 이해하셨다면 쉽게 이해하실 수 있습니다. 이항 분포의 pmf, 아 우선 pmf가 뭐였죠? 확률질량함수였죠! 이항 분포의 pmf f(x)=nCxp^x(1-p)^(n-x)였죠. 여기서 기하 분포는 몇 번이나 시행을 해야 처음으로 성공을 하는지 관심을 두고 있습니다. 만약 x번 시행을 했을때 처음으로 성공했다고 가정을 합시다. 이렇게 될 확률을 pmf를 통해 구해봐요. x번 시행을 해서 그 중에 (x-1)번은 실패, 1번은 성공을 하려면 xC1p(1-p)^(x-1)=xp(1-p)^(x-1)의 확률이 필요하죠? 근데 성공이 x번 중 아무때나 있으면 안되고 딱 마지막 순서에 있어야 하니까 x로 나누어주면 되겠죠? 그럼 확률은 p(1-p)^(x-1)입니다. 결국 기하 분포의 pmf는 f(x)=p(1-p)^(x-1)가 됩니다. 아, 물론 베르누이 분포 때와 같이 p는 몇 번째 시행에서나 일정해야 합니다.

정리해보면 다음과 같습니다.

1)확률 변수 X를 처음으로 성공하기까지 시행한 횟수라고 할 때, 매번 시행마다 성공 확률이 p로 일정한 조건에서 X는 기하 분포를 따르고 표기는 X~Geometric(p)로 합니다.
2)기하 분포의 pmf f(x)는 p(1-p)^(x-1)입니다.

3.초기하 분포(Hypergeometric Distribution)

초기하 분포는 기하 분포와 명칭이 매우 비슷하지만 실상은 완전히 다릅니다. 바구니 하나가 있다고 생각합시다. 여기 안에는 빨강 구슬a개와 파랑 구슬 b개가 섞여 있는데, 우리는 이 중에서 n개를 뽑을 기회가 있습니다. 이제 우리는 그 중에 빨강 구슬이 몇 개나 뽑혔는지 궁금한 상황입니다. 늘 그래왔듯이 뽑은 n개 중에 빨강 구슬이 x개가 뽑히는 상황을 생각해봅시다. 아, 물론 그러면 파랑 구슬은 n-x개가 되니까 x는 a이하이어야 하고, n-x는 b이하여야 합니다. 물론 x는 0이상의 정수여야겠죠. 정리하면 max{0,n-b}<=x<=a라고 할 수 있겠죠? 이것이 기본적인 조건입니다. 이제 생각은 쉬워집니다.빨강 구슬 a개 중에 x개를 뽑으면 되고, 파랑 구슬 b개 중에 n-x개를 뽑으면 됩니다. 그러면 이러한 경우의 수는 aCxbC(n-x)가 되죠? 그리고 가능한 모든 경우의 수는 단순히 (a+b)Cn이니까, 초기하 분포의 pmf f(x)는 aCxbC(n-x)/(a+b)Cn이 됩니다. 어 그러고 보니 일정한 확률 p라는 말이 없네요?ㅎㅎ 네 맞습니다. 단순히 pmf는 저렇게 생각하시면 됩니다.

정리해보면 다음과 같습니다.

1)확률 변수 X를 위와 같은 경우를 상정할 때 X는 초기하 분포를 따르고 표기는 X~Hypergeometric(a,b)로 합니다.
2)초기하 분포의 pmf f(x)는 aCxbC(n-x)/(a+b)Cn입니다.

4. 복원추출과 비복원추출

4.1. 복원추출과 비복원추출의 개념

여러분은 통계학 문제를 풀 때 바구니에서 구슬을 꺼내는 경우를 많이, 아주 많이 보시게 될 겁니다. 이 때 복원추출과 비복원추출의 개념을 정확히 아는 것이 중요합니다. 복원추출은 바구니에서 한번 구슬을 꺼내고, 그 구슬을 다시 집어넣어 바구니의 전체 구슬의 갯수를 일정하게 유지하는 것입니다. 반면 비복원추출은 제비뽑기 같이 한번 구슬을 꺼내면 자기가 가지고 마는 거죠. 즉 바구니의 전체 구슬의 갯수는 하나씩 줄어들게 됩니다.

4.2.이산 분포들과의 관계

기하 분포와 이항 분포는 넓게 보아 복원 추출이라 할 수 있습니다. 구슬을 바구니에서 꺼내는 경우와 똑같이 생각할 순 없지만, 우리는 기하 분포와 이항 분포에서 일정한 확률 p를 가정하였습니다. 아, 베르누이 분포는 한번만 시행하니까 복원추출과 비복원추출의 개념이 특별히 필요하지 않아 언급하지 않았습니다. 매번 성공 확률이 p로 일정하려면 매번 반복 시행을 할 때마다 뽑는 조건이 동일해야겠죠? 이것이 전체 구슬의 갯수와 특성을 그대로 보존해주는 복원추출의 성질과 일치합니다.

반면 초기하 분포의 경우 일정한 확률 p를 가정하지 않았습니다. 왜냐하면 하고 싶어도 할 수가 없기 때문이죠. 초기하 분포의 경우 빨강 구슬과 파랑 구슬을 뽑을 때 한번 구슬을 뽑으면 다시 넣어놓지 않습니다. 따라서 구슬을 뽑고 나면, 즉 한번 시행하고 나면 바구니의 조건은 바뀌어있습니다. 예를 들어 빨강 구슬을 뽑으면 다음에 뽑을 때는 빨강 구슬을 뽑을 확률이 줄어들게되죠. 이것이 비복원추출이 가정된 상황입니다.

5. 보론 1: 초기하 분포와 이항 분포의 관계

아직 연속 분포의 정규 분포를 설명하지 않아 서술의 한계는 있겠지만, 미리 초기하 분포와 이항 분포의 관계를 살펴보겠습니다. 초기하 분포의 상황과 이항 분포의 상황은 상당히 유사합니다. 바구니에서 구슬을 뽑고, 그 중에 x개 어쩌구저쩌구 되게 비슷하죠? 그래서 우리는 초기하 분포와 이항 분포가 어떤 경우에 수학적으로 동일하다고, 구체적으로는 초기하 분포가 어떤 경우에 이항 분포에 수렴하냐고 의문을 던질 수 있겠습니다.

다시 빨강 구슬 a개와 파랑 구슬 b개로 돌아가 봅시다. 여기서 전체 갯수 n=a+b라고 따로 둡시다. 한번 뽑을 때, 빨강 구슬이 뽑힐 확률은 간단히 a/n입니다. 만약 여기서 지금까지 시행이 t번 됐고 빨강 구슬이 k번 뽑혔으면 이번에 빨강 구슬을 뽑을 확률은 (a-k)/(n-t)가 됩니다. (비복원추출이니까 계속 확률이 변하겠죠?) 그런데 이때 n이 매우 매우 커지면? a도 그에 상응해 매우 크다고 생각해보면 a에 비해 k는 무시할 정도로 작게 되고, n에 대해 t도 마찬가지가 됩니다. 즉 lim(n->00) (a-k)/(n-t) = a/n이 됩니다. 이제는 완전히 이항 분포라고 생각할 수 있습니다. 매번 빨강 구슬을 뽑을 확률이 a/n으로 일정하다고 생각할 수 있게되죠? 즉 n이 충분히 클 때 초기하 분포는 p=a/n을 일정한 확률로 하는 이항 분포를 따르게 됩니다.

6.보론 2: 다항 분포(Multinomial Distribution)

예리하신 독자 분들께서는 왜 빨강 구슬과 파랑 구슬, 두 가지 종류만 얘기하느냐!! 라고 생각하실 수 있습니다. 제가 드리는 답은, 그게 그거라는 것이며 이또한 매우 간단하다는 것입니다. 이제 색이 엄청나게 많다고 생각해봅시다. 빨강, 파랑, 노랑, 검정, 하양, … 총 n가지 종류의 구슬이 있다고 칩시다. 이 때 내가 t번 뽑았을 때 빨강 구슬이 x개 있을 확률은? 신기하게도 초기하 분포랑 똑같습니다. 전체 갯수가 무한히 클 때는 이항 분포랑 똑같습니다. 왜냐? 빨강 구슬, 파랑 구슬 두가지로만 나누는 의도는 우리가 관심있는 것, 관심없는 것으로 간단하게 이분법적으로 생각하는 것입니다. 우리는 단지 빨강 구슬이 몇 개 뽑히냐에만 관심이 있습니다. 나머지는 몇 개가 뽑히든 관심이 없죠. 그들은 단지 ‘빨강 구슬이 아닌 것’일뿐입니다. 따라서 초기하 분포가 되고, 또 이항 분포의 관점에서 ‘성공’이 됩니다. 그래서 빨강 구슬에만 관심이 있으면, 나머지 색을 모두 간단하게 파랑 구슬이라 생각해도 무방합니다.

다만, 빨강 구슬이 몇 개 뽑히는 지도 알고 싶고 동시에 파랑 구슬, 초록 구슬 모두 몇 개 뽑히는지 전부 알고 싶은 경우에는 다릅니다. 더이상 관심이 있는 것이 빨강 구슬만 있지 않기 때문이죠. 이 때는 다항 분포를 불러옵니다. 다항 분포의 pmf는 상당히 생각하기 쉬우므로 여러분의 몫으로 남겨보겠습니다. 다음 시간에 공개!!!

7.마치며

다음주 개강 첫주 주말에는! 연속 분포에 대해 배우게 됩니다. 통계학하면 흔히 떠올리는 낙타 등모양 곡선이 정규 분포라는 이름으로 등장하게 됩니다. 기대 많이 해주시고 다음 시간에 다시 뵙도록 하겠습니다~

댓글