1. 들어가며
오늘은 두둥 드디어 수학 시간이 아니고 통계학 시간입니다. 사실 저번 시간까지 했던 것들은 전부 왠지 다 아는 것 같은데 저 사람이 뭔 소리하는 지 잘 모르겠던, 그런 시간이었죠? 이제부터는 그렇게 추상적인 거 없고… 컴팩트하게 통.계.학.에 대해 배웁니다!
2. 확률 변수
확률 변수(Random Variables)는 언제 처음 배웠죠? 고등학교 졸업한 지가 어느덧 3년 가까이… 기억이 나지가… ㅎㅎ 무튼무튼 어디선가 들어본 것만은 확실합니다.
확률 변수가 헷갈린다면 먼저 변수가 뭔지 떠올려 보죠! 변수는 중학교 1학년 때 처음 배웁니다. 미지수 x라는 명목 하에 변할 수 있는 수라고 해서 변수라고 하죠. 미지수 x는 1도 될 수 있고, 0도 될 수 있고, 1000도 될 수 있습니다.
확률 변수도 마찬가지입니다. 그냥 변할 수 있는 수입니다. 마찬가지로 1도 될 수 있고, 0도 될 수 있고, 1000도 될 수 있습니다. 여기서 그냥 변수와의 차이점은! 확률을 가지고 값이 결정된다는 것입니다. 변수는 그 수가 무엇이 될지 확률적으로 예측이 불가능합니다. 그냥 방정식 속에 숨겨진 값을 찾아내거나, 함수의 독립 변수로써 임의로 값이 정해지지요. 주사위를 던져 값이 정해지는 것이 아니란 뜻입니다. 하지만 확률 변수는 한마디로 주사위를 던져 값이 정해집니다. 정해진 확률에 따라 확률 변수의 값이 결정되는 것이죠.
그러나 우리는 학문적 탐구욕이 높은 학생들로서…ㅎㅎ 이런 직관적인 정의보다는 원래의 정확한 정의를 궁금해 해야겠지요? 혹시 두 번째 시간에 했던 표본공간! 생각나시나요? 표본공간은 일어날 수 있는 모든 경우를 표현한 집합이라고 말씀드렸습니다. 이 때 꼭 그것이 숫자일 필요는 없다고 했죠. 가령 관심이 있는 것이 서든어택 계급일 때, 표본공간은 {훈련병, 상병, 소위, 중장, … 등등} 이렇게 될 수 있다는 뜻입니다. 하지만 확률 변수는 변‘수’입니다. 그 값이 숫자, 정확히 말하자면 실수라는 뜻입니다. 네 그렇습니다. 결국 확률 변수는 표본공간의 각 원소를 실수 값으로 대응시키는 함수입니다. 이를테면 훈련병을 0, 상병을 1, 소위를 2로 마음대로 정해놓고 이 0,1,2를 표현하는 하나의 확률 변수 X를 정의할 수 있는 것입니다. 이 때 X:서든어택 계급 이라고 말해주면 명확하겠죠? 따라서 다분히 주관적이고 임의로 정할 수 있는 것이 바로 확률 변수입니다.
3. 모집단과 표본, 그리고 모수와 통계량
우리는 앞으로의 방대한 통계학 공부에서 헤매지 않기 위해 모집단과 표본의 차이를 조금은 빨리 알고 넘어가도록 하겠습니다. 통계학을 공부하면서 처음 부닥치는 벽이 바로 모집단과 표본의 구분일 것입니다. 엄청 쉬운 개념인데, 문제를 풀다보면 생각보다 모집단과 표본을 잘 구분하지 못해 갈피를 못 잡는 경우가 부지기수입니다. 따라서 모집단과 표본의 차이를 정확히 알고, 더 나아가 모수와 통계량의 차이를 정확히 알고 통계학 공부를 시작하는 것은 정말 중요합니다.
3.1. 모집단과 표본
모집단(Population)은 완전 그냥 아주 막 전체입니다. 여러분이 관심 있는 어떤 집단 전체 말입니다. 예를 들어볼까요? 당신은 국회의원입니다. 다음 총선에도 출마해야하는데, 여론이 어떤지 너무 궁금해요. 그래서 여론 조사를 실시하려는데, 이 때 모집단은 바로 만 19세 이상의 대한민국 성인 남녀 전부입니다. 투표권을 가진 사람들 전부를 조사해야 정확한 여론을 파악할 수 있겠죠? 이것이 바로 모집단입니다.
하지만 우리의 생활 속을 들여다 봅시다. 저녁 식사를 하며 뉴스를 볼 때 ‘여론 조사 결과에 의하면~’라는 보도를 자주 들을 수 있습니다. 그런데, 이상합니다. ‘엥 여론 조사? 나는 여론 조사 대답한 적이 없는데 개뿔 여론 조사?? 순 엉터리구만!’ 이라고 생각하시겠지요. 이것은 여론 조사를 할 때 앞서 언급한 모집단을 대상으로 조사를 한 것이 아니기 때문입니다. 현실적으로 말이 안 되죠. 어떻게 천 만 이상의 인구를 한 명씩 다 조사하겠습니까? 세금이 거덜 나고 국회의원은 쪽박을 경험하겠죠. 이 때 뉴스 보도를 자세히 들어보면 앞에 ‘(성인 남녀 500명을 대상으로 한) 여론 조사 결과에 의하면~‘ 이라는 말을 잡아내실 수 있으실 겁니다. 이것이 바로 표본(Sample)입니다. 관심이 있는 모집단의 일부를 말하는 것입니다. 현실적인 제약을 고려해 표본만을 조사하고 통계적 분석을 수행하는 것입니다. 앞으로 계속 공부하시면 깨달으시겠지만, 이렇게 일부만을, 표본만을 조사해도 생각보다 결과가 괜찮습니다.
3.2. 모수와 통계량
이제 모집단과 표본의 차이는 알았으니 그들의 대푯값에 대해 살펴봅시다. 사실 모집단과 표본을 구분하지 못하는 사람은 없습니다. 하지만 그들의 대푯값은 많이들 구분하지 못하고, 많이 틀리고, 결국 재수강의 고통을 겪게 됩니다.
3.2.1. 대푯값
대푯값은 한마디로 그 집단을 대표하는 값들입니다. 우리 과를 대표하는 값은 이를테면 성적 분포가 있겠죠. 과 평균, 산포도 등으로 우리 과에 대해 다른 사람에게 설명할 수 있습니다.
3.2.1.1. 평균과 분산(표준편차)
이 때 수치적으로 가장 중요한 두 개념이 평균(Mean)과 분산(Variance)입니다. 평균은 모두들 아시니 pass~ 단, 여기서 의미하는 평균은 산술평균을 말합니다. 분산은 한마디로 분산된 정도입니다. 성적이 100점, 100점, 96점 이런 식이냐 100점, 50점, 10점 이런 식이냐를 알려주는 지표죠. 분산이 중요한 이유는 다음과 같습니다. 성적이 100점, 50점, 0점인 반과 성적이 40점, 50점, 60점인 반이 있습니다. 평균은 50점으로 똑같습니다. 하지만 누구나 알 수 있듯이 성적 분포는 두 반이 아주 상이합니다. 이를 표현해주려면 중심(평균)으로부터 얼마나 퍼져있는지, 분산되어있는지를 알 수 있어야 합니다. 이것이 바로 분산입니다.
평균은 다들 아실 것이라 믿고 자세한 설명은 건너뛰도록 하겠습니다. 분산은 ‘편차의 제곱의 평균’이라고 익혀두시면 됩니다. 편차란, 각 값에서 평균값을 뺀 것의 절댓값을 말합니다. 이 때 왜 하필 절댓값이고 게다가 제곱이냐고 반문하실 수 있습니다. 먼저, 절댓값을 사용하는 이유는 아무리 값들끼리 퍼져 있어도, 분포가 대칭적이라면 다 더 하면 매우 작아지는, 심지어는 0이 돼버리는 경우가 비일비재하기 때문입니다. 그리고 제곱을 사용하는 것은 수학적으로 조작이 용이하기 때문입니다. 사실 그냥 편차의 평균이나 편차의 제곱의 평균이나 의미는 매한가지이긴 하지만, 편차의 평균은 절댓값이 식에 들어가 다른 조작을 가할 때 매우 복잡해집니다. 이에 제곱이라는 트릭을 사용해 분석을 편리하게 합니다. 물론 그냥 편차의 제곱도 대푯값으로 사용되기도 합니다.
사실 여러분은 분산보다는 표준 편차(Standard Deviation)라는 말을 더 자주 접하실 겁니다. 왜냐하면 분산은 편차의 제곱의 평균이므로 결국 제곱된 값을 의미해 다소 직관적이지 않습니다. 따라서 일상 생활이나 뉴스 기사에서는 분산에 제곱근을 씌워준 값을 사용합니다. 이것이 바로 표준편차, 즉 ‘분산의 제곱근’입니다.
3.2.1.2. 그 외
그 외의 대푯값으로 중앙값(Median)이 있습니다. 중앙값은 말 그대로, 데이터들을 순서대로 정렬했을 때(이 때 데이터들을 순서 통계량(Ordered Statistics)라고 합니다.) 상위 50% 값을 의미합니다.
사실은 중앙값보다는 100p%백분위수(100p percentile)을 알아두는 것이 훨씬 이해에 도움이 됩니다. 100p%백분위수는 이름처럼 상위 100p%의 값입니다. 만약 여기서 p가 0.5로, 50%백분위수는 결국 중앙값과 같아지겠지요?
그런데 보통은 100p%백분위수 이렇게 아무거나 사용하는 게 아니라 사분위수(Quantile)을 주로 사용합니다. 상위 25%, 상위 50%, 상위 75% 값으로 이를테면 성적을 가늠해보는 거죠. 순서대로 제1사분위수, 제2사분위수, 제3사분위수라고 합니다. 눈치채셨겠지만 제2사분위수는 결국 중앙값을 의미하게 됩니다.
3.2.2.모수와 통계량
눈치가 빠르신 분은 지금까지 제가 수식을 전혀 사용하지 않은 것을 아셨을 겁니다. 왜냐구요? 절대 귀찮아서가 아니구요…!! 여러분에게 모수와 통계량의 차이를 명확하게 알려드리기 위함입니다. 서로 표기법도 아주 다릅니다. 이제부터는 수식과 미지수의 지뢰밭이니 주의집중!!
우선 모수와 통계량이 어떤 뜻인지 알아야겠죠? 별거 아닙니다. 먼저 모수(Parameter)은 ‘모집단의 대푯값’입니다. 즉 모집단의 평균, 모집단의 분산, 모집단의 표준편차, 모집단의 중앙값, …. 모두 모수라는 이름으로 묶일 수 있습니다. 반면 통계량(Statistics)는 ‘표본의 대푯값’입니다. 표본의 평균, 표본의 분산, 표본의 표준편차 등등 모두 통계량이라고 합니다.
3.2.2.1. 모수와 통계량의 표기법
통계학을 공부할 때 가장 헷갈리는 것 중 하나가 표기법입니다. 각 대푯값 별로 모집단과 표본의 관점에서 어떻게 표기되는지 살펴봅시다!
*1. 평균
모평균(모집단의 평균):
표본평균(표본집단의 평균):
이 때, 모평균은 모든 를 더해주면 되고, 표본평균은 표본에 포함된 것들만 더해주면 됩니다.
*2. 분산과 표준편차
모분산(모집단의 분산):
모표준편차(모집단의 표준편차):
표본분산(표본집단의 분산):
표본표준편차(표본집단의 표준편차):
차이가 조금 느껴지시나요? 모분산의 편차는 각 데이터에서 ‘모평균’을 기준으로 계산된 것이고, 표본분산의 편차는 각 데이터에서 ‘표본평균’을 기준으로 해 계산된 것입니다.
더불어 엄청 중요한 것이 표본분산의 경우 n이 아닌 n-1로 나눈다는 것입니다. 언뜻 보기엔 이해가 가지 않습니다. 왜 n-1로???? 그 이유는 보다 공부를 더한 후에 다시 설명해드리겠지만, 우선 정성적으로 설명해보겠습니다. 모든 를 다 더하면 뭐가 되죠? 가 되죠. 아니죠 죠 ㅋㅋㅋㅋㅋ 낚이시면 안 됩니다. 아무쪼록 이거는 등식입니다. 절대 변하지 않는 등식이죠. 한마디로 하나의 제약식입니다. 그렇기 때문에 각각의 , 가 1부터 n-1까지 일때의 값은 아무렇게나 정한다고 쳐도, 마지막 은 로 정해집니다. 제약식에 의해서요. 따라서 우리가 마음대로 값을 정할 수 있는 것은 딱 n-1개까지입니다. 통계학에서는 이러한 상황을 자유도(degrees of freedom)가 n-1이라고 이야기합니다. 그리고 어떤 변수를 만들어 줄때, 그 값을 자유도로 나눠줍니다. 그래서 우리의 표본 분산은 분모가 직관과는 달리 n-1이 됩니다. 이거 꼭 알아두셔야 돼요!! 교수님들께서 낚시로 내는 전형적인 내용입니다 ㅋㅋ
3.2.2.2.모수와 통계량의 관계
결국 통계학의 본질은 모수와 통계량의 관계를 이해하고, 다양한 환경에 응용하는 것입니다. 우리의 목표는 언제나 모수를 정확히 아는 것입니다. 모평균, 모분산을 알아내는 것이 우리의 소망이죠. 하지만 현실에는 항상 시간과 금전적 제약이 존재합니다. 따라서 우리는 표본을 추출하고, 통계량을 산출해내는 것으로 만족합니다. 그리고 통계량으로 모수값을 가늠하게 돼죠. 따라서 모수와 통계량의 관계를 이해하는 것이 바로 통계학 공부의 첫단추라고 할 수 있습니다.
통계적 검정과 추정이라는 말, 분명 들어보셨을 겁니다. 왜냐하면 통계적 검정과 추정이 사실상 통계학 그 전부이기 때문이죠.
먼저 통계적 추정(Statistical Inference)는 측정한 통계량으로 모수의 값을 예측하는 것입니다. 이를테면 여론 조사 결과가 40%인 것으로 진짜 여론이 40%라고 예상하는 것이죠. 이 때 예측하는 공식이 바로 추정량(Estimator)입니다. 어떤 라는 모수를 알고 싶을 때, 표본값을 대입하는 식이 바로 추정량이고 보통 라고 표기합니다. ‘땡땡 햇’이라고 발음하면 됩니다 ㅋㅋ 그리고 실제로 어떤 값을 대입해서 얻은 값을 추정치(Estimate)라고 합니다.
아마 문자로 표기해서 무슨 말인지 잘 이해가 안 가실 수 있을 것 같습니다. 그래서 예를 들어보면, 모평균 (모수)를 알고 싶을 때 추정량 중 하나는 =입니다. 즉 표본평균을 계산해서 그것을 모평균이라고 생각하는 거죠. 여기서 이 무조건 가 될 필요는 전혀 전혀 없습니다. 는 이 될 수 있는 여러 가지 후보 중 하나일 뿐입니다. 나중에 통계적 추정을 본격적으로 공부할 때 다시 설명해드리겠지만, 여러가지 후보 중 불편성(biasedness), 효율성(efficiency), 일치성(consistency)의 세 가지 기준을 바탕으로 가장 좋은 추정량을 고른 것이 바로 인 것입니다. 사실 앞서 설명한 표본분산 를 n이 아닌 n-1로 나눠준 것도 모분산의 추정량으로 n으로 나눈 것과 n-1로 나눈것을 비교했을 때 위의 세 가지 기준, 불편성과 효율성 그리고 일치성을 토대로 평가했을 때 n-1이 더 좋기 때문입니다.
다음으로 통계적 검정(Statistical Testing)은 우리가 생각한 ‘가설’이 옳은지 통계학적으로 의사결정을 내리는 것입니다. 여기서 우리가 생각한 가설을 귀무가설(Null Hypothesis)라 하고 라고 표기합니다. 반면 귀무가설이 아닌 경우를 대립가설(Alternative Hypothesis)라고 하고 혹은 라고 표기하죠.
통계적 검정이 활용되는 경우가 대표적으로 과학 실험에서 입니다. 첫 시간에 화학 실험을 해서 평균이 0.5몰농도가 나왔다고 우왕 실험 성공 혹은 아놔 실험 망함 이렇게 판단해 버리면 안 된다고 말씀드렸죠? 왜냐하면 통계적 검정 절차를 아직 거치지 않았기 때문입니다. 상식적으로 생각해봅시다. 그냥 실험이 운이 좋아서 실험 결과가 그렇게 나온 것인지, 진짜로 그래서 실험 결과가 그렇게 나온 것인지 알 수가 없겠죠? 따라서 통계적으로 검정 절차가 필요합니다. 통계적 검정은 데이터의 분포를 고려해서 일정한 확률 하에, 이를테면 95%의 확률(이 때 0.05를 유의수준(significant level)이라고 합니다.)로 옳은 의사결정을 내립니다. 이 실험 결과가 유의하다 혹은 유의하지 않다로요. 이때 유의하면 귀무가설을 기각했다고 하고(reject) 유의하지 않다면 귀무가설을 기각할만한 충분한 근거가 없다고, 혹은 대립가설을 지지한다고(accept)합니다. 마찬가지로 통계적 검정 시간에 보다 구체적으로 다뤄 보겠습니다.
4. 마치며
분량 조절에 실패했습니다. 허헣…. 쓰다보니 너무 길어지는 포스팅!! 다음 시간에는 자료의 분류와 확률 분포에 대해 살펴보겠습니다! 뭐 베르누이 분포, 이항 분포 이런 것들 말이죠. 다양한 상황에서 멋있는 추정과 검정을 해내려면 이런 기본적인 개념들을 빠삭하게 알고 있어야 합니다!!! 그럼 다음 시간에 또 봬요!!
'지난 연재물 - 수학 & 통계학 > [통계학] 통계랑 오늘부터 1일!' 카테고리의 다른 글
통계랑 '6'일째: 분포 2_초기하분포와 이항분포 마무리 (4) | 2015.08.30 |
---|---|
통계랑 '5'일째: 분포 1_분포함수와 베르누이 분포/이항분포 (2) | 2015.08.23 |
통계랑 '3'일째: 기초확률론 2_확률 법칙과 조건부 확률 (0) | 2015.08.02 |
통계랑 '2일'째: 기초확률론 1 (4) | 2015.07.26 |
통계랑 '1일'째: 통계학에 들어가며 (0) | 2015.07.17 |
댓글