서재/비소설

[세상에서 가장쉬운 통계학입문] 고지마 히로유키. 지상사.

리노타호 2026. 5. 28. 22:55
반응형

 

0강의 통계학을 효율적으로 한 단계씩 이해하는 것이 목적

혼란한 원인은 통계와 확률의 차이가 미묘하기 때문이다. 통계는 관측된 데이터의 집합이기 때문에 과거에 일어난 것에 관한 기술인 반면, 확률은 미래에 일어날 것에 관한 기술이다. 이렇게 현재를 기준으로 보면 두 가지는 아주 의미가 다르지만, 시간 축 위를 오고가다보면 그 차이는 줄어든다. 왜냐하면 미래에 일어날 것은 그때가 지나면 이미 일어난 데이터가 되어 버리고, ‘과거에 일어났던 것도 그 전 시점으로 되돌아가면 미래에 일어날 것이 되기 때문이다. (18)

 

이렇게 같은 것인지 다른 것인지 차이가 미묘한 통계와 확률을 평균값이나 표준편차 등으로 같은 계산을 각각 적용하기 때문에 공부하는 사람들이 혼란스러워 하는 것도 무리는 아니다. 게다가 추리통계의 방법에서는(이 책의 제9강의에서 자세히 설명한다), ‘이미 과거의 것에서 얻은 데이터를 마치 미래에 일어날 것인 양추측하는 것으로 보인다. 그래서 꼼꼼한 사람일수록 대체 무엇을 하고 있는 것인지 모르는 답답한 심정을 갖기 쉽다. 그래서 이 책에서는 공부하는 사람들이 혼란스러워하지 않도록 가능한 한 확률을 사용하지 않는다는 대담한 시도를 해보았다. (18)

 

또한 이 책에서는 통계학 공식을 가능한 한 말로 표현했다. 수학 기호가 어렵다는 이유로 수리적인 것을 피하는 것은 마치 음표를 읽을 줄 몰라서 음악을 들을 수 없다고 하는 것과 같아서 참으로 안타까운 일이다. 누구나 음악의 본질은 음표와는 별개라는 말에 동의할 것이다. 이와 마찬가지로 통계학의 본질은 수학 기호와는 별개라고 하는 점을 전하고 싶을 뿐이다. (21)

 

7강의 정규분포 : , 동전 던지기 등에서 흔히 볼 수 있는 분포

정규분포는 평균값 μ와 표준편차 σ를 주면 한 종류로 정해진다. (94)

 

8강의 통계적 추정의 출발점 : 정규분포를 이용해서 예언

과학 법칙이라는 것을 반드시 그렇게 되는 진실이라고 이해하는 사람은 이 점으로 인해서 당황해 할지도 모른다. 통계학의 방법론은 지금까지의 과학 법칙(예를 들어서 지구상의 물체는 그냥 떨어트리면 바닥을 향해서 떨어진다는 법칙과 같은 것)과는 조금 다른 형식을 취한다. 바로 처음부터 100% 맞추지는 못한다는 것을 전제하는 것이다. 95% 예언적중구간의 개념은 5%는 틀린다는, ‘완벽하지 않다는 점을 허용하는 것으로, 상당히 좁은 구간의 예언을 가능하게 하는 것이라고 이해해야 한다. (104)

 

9강의 가설검정 : 하나의 데이터로 모집단을 추리

우선 모집단은 ‘N개의 동전을(무한반복) 던져서 나온 앞면의 개수 데이터가 된다. 독자 여러분은 머릿속에 0, 1, 2, ..., N의 숫자들이 무수하게 쌓이는 연못과 같은 곳을 상상하기 바란다(어떤 숫자이든지 동일한 숫자가 무수하게 쌓이지만, 많음은 다르다).

이 중에서 하나의 데이터 10이 현실에서 관측되었다고 할 때, 우리들은 N을 얼마라고 예상하는 것이 타당할까?’ 이것이 주어진 문제다.

이때, 추측하려는 N을 모집단이 가진 모수(Parameter)’라고 부른다. 여기에서 모수는 예상하는 모집단의 종류에 대응하는 것이라고 이해하면 된다.

N=16이라면 16개의 동전을 던져서 앞면이 나오는 개수의 데이터를 모은 모집단, N=36이라면 36개의 동전을 던져서 앞면이 나오는 개수의 데이터를 모은 모집단이라고 하듯이 다른 종류의 모집단이 하나로 고정된다.

다시 말해 모수란, ‘모집단을 하나로 정하는 것이며, ‘실제로는 얼마인지 모르는 추정 대상인수치다. 문제는 어떻게 해서 타당한 모수 N을 추정할 것인가 하는 점이다(도표9-2 참조).

 

(115-116)

 

3. 95% 예언적중구간으로 가설의 타당성 판단

모수 N으로 타당한 수치를 어디까지 허용할 수 있을까를 생각할 때, 통계학에서는 앞 강의에서 설명한 ‘95% 예언적중구간의 개념을 이용한다.

우선, 후보 속에 들어있는 ‘N=16’있을 수 있다고 할 수 있는지 생각해보자. 다시 말해 ‘N=16’을 가설로 해서 이것이 타당한 가설인지, 아니면 버려야 할 가설인지를 검토하는 것이다.

여기에서 가령 ‘N=16’, 즉 던진 동전의 개수가 16이라고 하고, 관측된 앞면의 개수는 10’이라고 하는 것이 이치에 맞는 것인가를 살펴보도록 하자. 이 판단을 하기 위해서는 이렇게 생각하면 된다.

‘16개의 동전을 던져서 앞면이 나오는 개수를 예언한다면, 10개는 그 예언의 범위에 들어갈까?’

실제로 N=16의 경우, 앞면이 나오는 개수를 예언할 때의 ‘95% 예언 적중구간을 만들어보자. 이 경우 앞면이 나오는 개수의 데이터는 근사적으로 평균값 μ=16/2=8, 표준편차 σ=16/2=2인 정규분포라고 생각할 수 있기 때문에 ‘95% 예언적중구간의 부등식 표시는(8강의 정리) 다음과 같다.

-1.96x-8/2+1.96

을 풀어

8-1.96*2x8+1.96*2

4.08x11.92

로 구할 수 있다(물론, 8강의 정리에서 ‘(μ-1.96σ) 이상 (μ+1.96σ) 이하의 공식으로 구해도 값은 같다). , 앞면이 나오는 개수는 ‘4.08개 이상 11.92개 이하라고 예언할 수 있다.

관측된 앞면이 나오는 개수 10은 이 범위에 들어가는 것이다. 이것은 다음과 같은 내용을 의미한다. 가령, 우리들이 모집단을 모수 N=16이라는 지식을 갖고 있고, 앞면이 나오는 개수를 예측한다면 10은 그 예측의 사정권에 있다는 말이다.

그렇기 때문에 16개의 동전을 던질(N=16이 모수)때 앞면이 나오는 개수 10이 고나측되어도 이상한 일이 아니며, 예상한 범위 내에 있는 것이다. 그래서 ‘N=16’이라는 가설은 버릴 수 없는 타당한 가능성이 된다.

이와 같이 가설 ‘N=36’도 검토해보자.

N=36일 때 앞면이 나오는 개수는 근사적으로 평균값 μ=36/2=18, 표준편차 σ=36/2=3인 정규분포라고 생각할 수 있다. 그래서 ‘95% 예언적중구간

-1.96x-18/3+1.96

을 풀어

18-1.96*3x18+1.96*3

12.12x22.88

로 구할 수 있다. 이번에는 이 예언의 범위가 ‘12.12 이상 23.88 이하가 되어 현실에서 관측된 10이라는 수가 들어가지 않는다. 만일 모집단의 모수가 N=36이라고 하면 우리들이 현실에서 관측된 데이터 10은 예상할 수 없는 예상외의 수치라는 말이 된다. 이때 우리들은 두 가지 방법으로 생각할 수 있다.

 

방법모집단에 관한 가설은 바른데 틀릴지도 모른다는 리스크(5%의 확률에서만 일어나는 희귀한 일)가 일어났다.

방법모집단에 관한 가설이 바르지 않다.

 

위의 두 가지 방법 모두 생각할 수 있는데, 통계학에서는 방법를 사용한다.

애당초 예언적중 범위를 만들 때, 틀릴지도 모른다는 리스크를 각오하고 진행한 것이기 때문에 여기에서도 일관된 태도를 취하는 것이다. 이때는 가설 ‘N=36’을 타당하지 않다고 보고 버린다. 이것을 통계학의 전문용어로 가설을 기각한다고 말한다.

그러면 이것으로 문제의 답을 구할 수 있다. N=16은 타당한 가설로 채택한다(기각하지 않는다). 그리고 가설 N=36은 기각한다. 이것을 도표로 설명하면 도표 9-3과 같다.

(116-119)

 

통계적 추론이라는 것은 20세기가 되어 처음으로 확립된 기술로, 이것은 인류가 기다리던 방법론이라고 해도 좋을 것이다. 왜냐하면, 이것은 부분적인 사실로 전체를 추론한다귀납적 추론이기 때문이다.

...

수리적인 과학에서의 추론은 지금까지 계속 연역법 중심이었다. 그런데 20세기가 되고서 통계학이 귀납적인 추론을 수리 과학으로구축하는 데 성공했다. (121-122)

 

10강의 구간추정 : 95% 적중하는 신뢰구간 찾기

이 가설의 평가법을 모든 모수 각각에 대해서 실행하면 버릴 수 없는 가능성으로 두어야 하는 모수의 집합이 확정될 것이다. 이 모수의 집합을 가능한 모집단의 모수로 추정되는 구간으로 보는 것은 아주 자연스러운 일이다. 이렇게 있을 수 있는 모수가 들어있는 구간‘95% 신뢰구간이라고 하며, 모수를 이러한 구간에서 추정하는 것을 구간추정이라고 한다. (123)

 

2. 신뢰구간 ‘95%’가 의미하는 것

‘95% 신뢰구간이라고 할 때 ‘95%’라는 확률의 의미를 제대로 이해하는 것이 아주 중요하다.

‘95% 예언적중구간일 때 95%라는 것은 분명히 ‘95%의 데이터가 그 구간에 들어가 있다는 것을 의미한다고 설명했다. 그렇기 때문에 다음에 관측하는 데이터는 95%의 확률로 그 구간에 들어간다고 생각하면 맞는 말이었다.

그러나 신뢰구간의 경우는 그렇지 않다. ‘앞면이 나온 개수가 10개로 관측될 때, 모수 N95%의 확률로 이 13N30의 범위에 들어간다는 의미가 아니다.

애초에 N불확실하게 앞으로 결정될 것이 아니라 이미 확정된 것이지만, 모르는 것이다. 그리고 도표 10-1을 한 번 더 주의 깊게 보면 알 수 있듯이 ‘N이 다르면 모집단은 다르다.’

우리들이 다루는 불확실한 현상이란 고정된 모집단으로부터 어느 데이터가 관측되는가라는 것이었다. 이때 결정된 일정한 구조로 확률적인 수치가 나오는 것은 모수 N이 아니라, 어디까지나 관측되는 수치(이번 예에서는 앞면이 나오는 개수인 10). 엄밀하게 말하면 다음과 같이 된다.

일단 관측값 10을 의식하지 말고, 관측값을 일반적인 x라고 해보자. 동전을 N개 던져서 x개가 앞면이 된 경우, xμ=N/2, σ=N/2로부터 z=x-μ/σ로 계산한 z가 부등식 1.96z+1.96을 만족할 확률은(예언적중구간의 논의로) 0.95.

, x를 관측하고 그 x에서 z를 계산하여 N을 기각해 가는 작업을 한 경우, 정말 올바른 개수 N이 남을 확률은 각각의 관측값 x에 대해서 모두 0.95가 될 것이다. 그래서 (10을 한 예로 한다) 어떤 관측값 x가 나온 경우에도 이 방법에서 N을 추정해 가는 과정을 반복한다면, 그 중 95%의 추정 결과는 맞다는 것이 올바른 해석이다. 다시 말해 95%라는 것은 구간 13N30에 정말 N으로 가능한 것이 95%로 들어간다는 추정이 아니라 구간추정이라는 과정을 계속 실행하면, 관측값에 대응하는 여러 구간을 구할 수 있지만, 100번 중 95번은 N이 구해지는 구간에 들어간다는 추정이며, %가 된다. (126-127)

(131)

 

11강의 모집단과 통계적 추정 : ‘부분으로 전체를 추론

 

예를 들어서 다음과 같은 경우도 해당될 것이다. 된장국을 끓일 때, 국물 맛이 좋은지 아닌지를 판정하게 되는데, 물론 끓인 된장국 전부를 먹어보면 확실히 알 수 있지만, 이것은 맛을 본다는 의미가 아니다. 여기에서는 한 숟가락 떠먹어 보고 그것으로 맛있으면 괜찮다고 판정하는 것이다. , 부분으로 전체를 판단하는 것이다.

한 숟가락 맛을 보고서 그 맛에 따라서 대략적으로 재료를 추가하여 맛을 더 냄으로써 맛있는 음식을 만들 수 있는 이유는 무엇일까? 그렇다. ‘된장국을 잘 저어 양념과 재료가 골고루 섞였다면 한 숟가락이 전체의 맛을 반영한다고 생각하기 때문이다.

통계적 추정도 이와 같은 것이다. 모집단이라는 가상의 어떤 항아리에서 나오는 데이터가 누군가에 의해서 자의적으로 조정된 것이 아니라 모집단 전체의 상태를 반영한 결과라면 부분으로 전체를 판단하는 것은 된장국을 맛보는 경우와 같다.

다만, 된장국을 맛볼 경우에도 우연히 조금 진한 맛을 내는 부분을 떠서 먹을 경우나 조금 약한 맛을 내는 부분을 떠서 먹을 경우도 있을 것이라고 생각할 수 있기 때문에, 된장국 전체의 맛은 한 숟가락 맛을 볼 때의 맛과 조금은 다를 가능성이 있다는 점을 고려해야 한다. 이와 같이 통계적 추정에서도 모집단의 추정은 ‘100% 적중하는 것이 아니라 얼마만큼은 틀릴 것이라고 생각해야 한다. (136)

(138)

 

(140)

 

평균값=(계급값*상대도수)의 합계

이기 때문에 이 모집단의 평균값은 충분히 반복해서 관측했을 때의 히스토그램으로부터

평균값=(1*0.6)+(5*0.3)+(9*0.1)=3

으로 계산할 수 있다. 이 계산은

(모집단에 존재하는 수치)*(이것이 헤엄치는 연못의 넓이)의 합계와 같은 것이 된다는 것을 바로 알 수 있을 것이다.

이러한 모집단의 평균값을 모평균이라고 부른다. 모평균은 일반적으로 나타낼 때는 μ()를 사용한다. (140)

 

15강의 표본평균을 이용한 모평균의 구간추정 : 모분산을 알고 있는 정규모집단의 모평균은?

 

-본 강의(15강의) <정규모집단이라는 것은 알고 있으며, 모분산도 알고 있을 때의 모평균 추정>

-17강의 <정규모집단이라는 것은 알고 있으며, 모평균을 알고 있을 때의 모분산 추정>

-19강의 <정규모집단이라는 것은 알지만, 모평균을 모를 때의 모분산 추정>

-21강의 <정규모집단이라는 것은 알지만, 모분산을 모를 때의 모평균 추정> (169)

반응형