본문 바로가기
정기연재 - 수학 & 통계학/[통계학] 통계랑 오늘부터 1일!

통계랑 '5'일째: 분포 1_분포함수와 베르누이 분포/이항분포

by STEMSNU 2015. 8. 23.

1. 들어가며

아이고야 무려 2주만에 돌아왔습니다. 저번주에는 무슨 일이 있었냐 하면은 음 모르겠네요 ㅎㅎㅎ 휴식 시간이었다고 칩시다 ㅎㅎㅎ 이제 다시 공부를 시작해봐요! 오늘은 정말 전형적인 통계학 시간입니다 ㅎㅎ

2. 분포(Distribution)

오늘은 분포를 배워볼 거에요. 분포는 말그대로! 분포입니다. 데이터들이 어떻게 퍼져있고, 분포있나를 단지 수식으로 표현해주었을 뿐이죠. 집 나간 며느리가 인천에 있을 확률, 서울에 있을 확률 등을 정형화한 것이 바로 통계학에서 이야기하는 확률 분포(Probability Distribution)입니다. 어떤 데이터가 어떤 값을 가질지에 대한 확률을 계산할 수 있도록 해준 일종의 모형(model)이지요.

분포에도 여러가지 종류가 있습니다. 모든 사람이 서로 다른 외모를 가지고 있듯이 분포도 여러가지 형태를 가지고 있습니다. 그 중에서 자연 세계, 그리고 인간 세계에서 가장 많이 등장하는 대표적인 분포를 몇 가지 살펴보겠습니다!

2.1. 분포 함수(Distribution Function)

아, 분포에 대해 공부하기 전에 먼저 분포 함수에 대해 개념을 잡고 넘어갑시다. 분포 함수는 앞서 말한대로 데이터가 어떤 값을 가질지에 대한 확률을 계산해줄 때의 공식이에요. 좀더 엄밀히 말하면 확률과 확률변수의 값을 대응시켜주는 함수이죠.

단 여기서 유의해야할 점은 용어입니다. 분포 함수라고 지칭할 때는 두가지 종류가 있어요. 확률밀도함수(Probability Density Function;pdf)/확률질량함수(Probability Mass Function;pmf)와 누적확률밀도함수(혹은 그냥 분포함수)(Cumulative Probability Density Function;cdf 혹은 Distribution Function)으로 말입니다.

2.1.1. 확률밀도함수(pdf)

먼저 pdf는 연속 분포(Continuous Distribution)을 표현해주는 함수예요. 연속 분포는 이를테면 온도와 같이 20.1도, 20.111도, … 등과 같이 데이터들이 연속해서 존재할 수 있는 분포입니다. 그리고 이때 하나의 데이터값(확률 변수의 값)과 확률을 연결해주는 함수를 pdf라고 해요.

2.1.2. 확률질량함수(pmf)

그리고 pmf는 pdf와 의미는 같지만, 연속 분포가 아닌 이산 분포(Discrete Distribution)의 경우에 대한 것이에요. 이산 분포는 주사위 눈금과 같이 1,2,3,4,5,6으로 딱딱 끊어지는 분포를 말합니다.

2.1.3. 확률밀도함수와 확률질량함수

앞서 설명한 pdf와 pmf는 모두 f(x)로 소문자 f로 표기해주는 것이 관례입니다.

2.1.4. 분포함수

이제 분포함수(Distribution Function)누적성의 개념을 내포해요. F(x)로 대문자 F로 표기해주는 것이 관례이며, pdf와 pmf와 달리 F(x)=P(X<=x)입니다. 즉, 어떤 확률 변수의 값 x에 대해 확률 변수 X의 값이 특정 x 이하일 확률을 나타내어 줍니다. 즉 누적적으로 값을 표현해줍니다.

2.1.5. 분포함수와 확률밀도함수/확률질량함수의 관계

연속 분포가 가정된 경우에는 분포함수를 미분해주면 확률밀도함수가 나오고, 확률밀도함수를 적분해주면 분포함수가 나오게 됩니다. 그 이유는 굳이 설명을 하지 않아도 이해가 되시죠? 더불어 이산 분포가 가정된 경우에는 이를테면 f(x)값을 구하고 싶을 때는, 확률 변수가 가질 수 있는 값 중 x 미만의 가장 큰 값을 y라 할 때 F(x)-F(y)가 f(x)가 됩니다. 간단한 개념이므로 이 또한 따로 설명을 하지 않고 넘어가도록 하겠습니다.

2.1. 베르누이 분포(Bernoulli Distribution)

베르누이 분포는 분포 공부의 첫 단추입니다. 간단하지만, 베르누이 분포를 통해서 이항분포 등 여러 가지 분포의 토대를 쌓으니 유의해서 들어주세요!

베르누이 분포를 정의하기에 앞서 대표적인 예를 살펴보겠습니다. 바로 동전 던지기(Coin Tossing)입니다. 100원짜리 동전을 던지면 100원이라고 쓰여진 글자면, 혹은 이순신 장군님이 그려진 그림면 둘 중 하나가 나오죠? 이 때 표본공간 S를 {글자면, 그림면}이라고 하고 확률변수 X를 여기에 대응시켜 1의 값을 글자면, 0의 값을 그림면이라고 정의하면 이 확률변수 X는 베르누이 분포를 따르게 됩니다. 1의 성공(success), 혹은 0의 실패(failure)로 말이죠. 아, 여기서 분포를 말할 때는 ‘확률변수 X가 ㅁㅁ분포를 따른다!’라고 말해주는 것이 정석입니다. 더불어 글자면 혹은 그림면이 나올 확률은 각각 0.5겠죠!

결국 베르누이 분포는 확률변수가 ‘일정한’ 확률 p에 따라 두 가지 값으로 귀결될 때를 말합니다. 그리고 우리는 경우가 두 가지 뿐이므로 임의적으로 하나를 성공, 하나를 실패라고 간주할 수 있겠죠! 그리고 유의할 점은 저기 확률 p는 성공의 경우에 대한 확률이며, 반드시 일정해야 합니다. 계속 변하면 그것은 베르누이 분포라고 하지 않아요!

이제 베르누이 분포를 표기하려면, X~Bernoulli(p)라고 써주시면 됩니다. 그리고 분포라고 하면 이제 항상 확률밀도함수/확률질량함수나 분포함수가 친구처럼 따라다닙니다. 베르누이 분포는 확률변수가 두 가지 값을 가지므로 딱딱 끊어지죠? 그러면 ‘이산 분포’라고 우선 말할 수 있고요. 그러면 확률질량함수(pmf)라고 말하면 정확하겠죠? 베르누이 분포의 확률질량함수는 f(x)=p^x(1-p)^(1-x)입니다. 이는 x값이 1일 때 f(1)=p, x값이 0일 때 f(0)=1-p가 나오도록 설계돼있습니다. 어때요. 딱딱 맞쥬? ㅎㅎ 분포함수는 여러분이 직접 계산해보세요!! 쉽죠쉽죠.

아주아주 중요한 베르누이 분포의! 특성을 다시 한번 정리해보면,
확률 변수 X가 베르누이 분포를 따를 때

1) X~Bernoulli(p) 라고 표기한다.
2) X는 1의 성공 혹은 0의 실패의 두 값을 가지며, 1의 성공의 값을 가질 확률은 p로 일정하다.
3) pmf f(x)=p^x(1-p)^(1-x) 이다.
4) X는 이산 분포를 가진다.

2.2. 이항분포(Binomial Distribution)

이항분포는 여러가지 방면에서 많이 들어보셨을 것 같아요. 혹시나 수학 경시대회 등등을 준비하셨다면 이항 함수를 들어보셨을 것이고, 수학 교양서적을 읽으시다보면 파스칼의 삼각형도 보셨을 것이고, 여러 가지로 수학에서 중요한 의미를 가진 것이 이항 함수인데, 이항분포는 확률질량함수로 이항 함수를 가지게 됩니다.

이항분포는 개념적으로 베르누이 분포의 ‘반복’입니다. 자, 이항분포는 우선 n회 시행했을 때의 성공 횟수 r의 값의 분포입니다. 주사위를 10번 던졌을 때 1이 나오는 횟수 등으로 우리는 이항분포의 경우를 쉽게 떠올려 볼 수 있습니다. 그런데 잘 생각해보면, 각각의 n회에서 성공할 확률은 어떤 p라고 정해져 있다면, 성공/실패로 결과가 나뉘고 곧 그것은 베르누이 분포죠? 네 결국 이항분포는 베르누이 시행(Bernoulli Trial)을 n회 반복 시행한 것으로 이해할 수 있습니다. 이 때 베르누이 시행은 그 시행의 결과가 베르누이 분포를 따르는 것을 말합니다. 즉, 결과가 성공/실패로 둘이며 일정한 성공 확률 p를 가지는 것이죠.

어떤 확률변수 X가 이항분포를 따르는 경우 표기는 다음과 같이 합니다. X~B(n, p)로 말이죠. 여기서 Bernoulli(p)에 비해 n이 추가됐는데, 이는 전체 시행 횟수를 의미하고 p는 베르누이의 경우의 그 p입니다. 앞서 주사위 눈금이 1인 횟수를 나타낼 때 p는 1/6이라고 할 수 있겠죠. 그리고 X~B(10,1/6)으로 나타내볼 수 있을 것입니다.

그리고 여전히 확률 변수 X는 10회 중 1번, 5번 등으로 딱딱 끊어지는 값만을 가질 수 있죠? 따라서 이산 분포를 가진다고 할 수 있고, 마찬가지로 pdf가 아닌 pmf를 구해보아야 합니다. pmf f(x)는 우리가 이항분포를 베르누이 시행의 반복으로 이해한 이상 쉽게 구할 수 있습니다. 우선, 전체 n회 중에 성공한 횟수 x라 해봅시다. 그러면 전체 n개의 시행 중에 성공한 시행 x개를 고를 수 있을 것입니다. x번은 성공한 시행이고, n-x번은 실패한 시행으로 정하면 우리가 관심있는 x번 성공의 경우가 되죠? 그러면 n개 중 x개를 고르는 경우의 수가 nCx가 됩니다. 그리고, 일단 x개를 정했다치면 그 x개는 무조건 성공을 해야 합니다. 그리고 n-x개는 무조건 실패를 해야하죠. 이 확률은 당연히 p^x(1-p)^(n-x)가 되겠죠? 그러면 우리는 nCx와 p^x(1-p)^(n-x)를 곱해 f(x)=nCx*p^x(1-p)^(n-x)라고 최종적으로 결론지을 수 있게 됩니다. 마찬가지로 분포함수도 쉽게 구할 수 있습니다!

지금까지 살펴본 이항분포의! 특성을 다시 한번 정리해보면,
확률 변수 X가 이항분포를 따를 때

1) X~B(n, p) 라고 표기한다.
2) 전체 시행 횟수는 n번이며, 각각의 시행에서 성공할 확률은 p로 일정하다.
3) pmf f(x)=nCx*p^x(1-p)^(n-x) 이다.
4) X는 이산 분포를 가진다.

3. 마치며

으으 항상 분량 조절에 실패하는 군요ㅠㅠ 여러분께 최대한 자세하게 설명해드리다 보니 글이 항상 지나치게 길어지는 것 같습니다! 그런데 안타깝게도? 다행히도 아직 포스팅을 읽어주시는 분이 많이 없으셔서 ㅠ!? ㅋㅋㅋㅋ 진도 걱정은 크게 안해도 될 것 같습니다 아직은!! 꾸준히 포스팅해놓을테니 언젠가 오셔서 한꺼번에 보시길 바랍니다 ㅎㅎㅎ 오늘은 분포함수의 개념을 잡고, 또 이산 분포로써 베르누이 분포와 이항분포를 살펴보았습니다. 이는 아주아주 중요한 개념이니 반드시 가슴에 새기고 계시길 부탁드립니다! 다음 시간에는 아직 엄청~ 많이 남은 다른 분포에 관해 살펴보는 것으로 하겠습니다. 그럼 다음 시간에 봬요^^

댓글