[세상에서 가장쉬운 통계학입문] 고지마 히로유키. 지상사.

서재/비소설

[세상에서 가장쉬운 통계학입문] 고지마 히로유키. 지상사.

리노타호 2026. 5. 28. 22:55

0강의 ‘통계학’을 효율적으로 한 단계씩 이해하는 것이 목적

혼란한 원인은 통계와 확률의 차이가 미묘하기 때문이다. 통계는 관측된 데이터의 집합이기 때문에 ‘과거에 일어난 것에 관한 기술’인 반면, 확률은 ‘미래에 일어날 것에 관한 기술’이다. 이렇게 ‘현재’를 기준으로 보면 두 가지는 아주 의미가 다르지만, 시간 축 위를 오고가다보면 그 차이는 줄어든다. 왜냐하면 ‘미래에 일어날 것’은 그때가 지나면 ‘이미 일어난 데이터’가 되어 버리고, ‘과거에 일어났던 것’도 그 전 시점으로 되돌아가면 ‘미래에 일어날 것’이 되기 때문이다. (18)

이렇게 같은 것인지 다른 것인지 차이가 미묘한 통계와 확률을 평균값이나 표준편차 등으로 같은 계산을 각각 적용하기 때문에 공부하는 사람들이 혼란스러워 하는 것도 무리는 아니다. 게다가 추리통계의 방법에서는(이 책의 제9강의에서 자세히 설명한다), ‘이미 과거의 것에서 얻은 데이터를 마치 미래에 일어날 것인 양’ 추측하는 것으로 보인다. 그래서 꼼꼼한 사람일수록 대체 무엇을 하고 있는 것인지 모르는 답답한 심정을 갖기 쉽다. 그래서 이 책에서는 공부하는 사람들이 혼란스러워하지 않도록 ‘가능한 한 확률을 사용하지 않는다’는 대담한 시도를 해보았다. (18)

또한 이 책에서는 통계학 공식을 가능한 한 말로 표현했다. 수학 기호가 어렵다는 이유로 수리적인 것을 피하는 것은 마치 음표를 읽을 줄 몰라서 음악을 들을 수 없다고 하는 것과 같아서 참으로 안타까운 일이다. 누구나 ‘음악의 본질은 음표와는 별개’라는 말에 동의할 것이다. 이와 마찬가지로 ‘통계학의 본질은 수학 기호와는 별개’라고 하는 점을 전하고 싶을 뿐이다. (21)

7강의 정규분포 : 키, 동전 던지기 등에서 흔히 볼 수 있는 분포

정규분포는 평균값 μ와 표준편차 σ를 주면 한 종류로 정해진다. (94)

8강의 통계적 추정의 출발점 : 정규분포를 이용해서 ‘예언’

과학 법칙이라는 것을 ‘반드시 그렇게 되는 진실’이라고 이해하는 사람은 이 점으로 인해서 당황해 할지도 모른다. 통계학의 방법론은 지금까지의 과학 법칙(예를 들어서 ‘지구상의 물체는 그냥 떨어트리면 바닥을 향해서 떨어진다’는 법칙과 같은 것)과는 조금 다른 형식을 취한다. 바로 ‘처음부터 100% 맞추지는 못한다’는 것을 전제하는 것이다. 95% 예언적중구간의 개념은 5%는 틀린다는, ‘완벽하지 않다’는 점을 허용하는 것으로, 상당히 좁은 구간의 예언을 가능하게 하는 것이라고 이해해야 한다. (104)

9강의 가설검정 : 하나의 데이터로 모집단을 추리

우선 모집단은 ‘N개의 동전을(무한반복) 던져서 나온 앞면의 개수 데이터’가 된다. 독자 여러분은 머릿속에 0, 1, 2, ..., N의 숫자들이 무수하게 쌓이는 연못과 같은 곳을 상상하기 바란다(어떤 숫자이든지 동일한 숫자가 무수하게 쌓이지만, 그 ‘많음’은 다르다).

‘이 중에서 하나의 데이터 10이 현실에서 관측되었다고 할 때, 우리들은 N을 얼마라고 예상하는 것이 타당할까?’ 이것이 주어진 문제다.

이때, 추측하려는 N을 모집단이 가진 ‘모수(Parameter)’라고 부른다. 여기에서 모수는 ‘예상하는 모집단의 종류’에 대응하는 것이라고 이해하면 된다.

N=16이라면 16개의 동전을 던져서 앞면이 나오는 개수의 데이터를 모은 모집단, N=36이라면 36개의 동전을 던져서 앞면이 나오는 개수의 데이터를 모은 모집단이라고 하듯이 다른 종류의 모집단이 하나로 고정된다.

다시 말해 모수란, ‘모집단을 하나로 정하는 것’이며, ‘실제로는 얼마인지 모르는 추정 대상인’ 수치다. 문제는 어떻게 해서 타당한 모수 N을 추정할 것인가 하는 점이다(도표9-2 참조).

(115-116)

3. 95% 예언적중구간으로 가설의 타당성 판단

‘모수 N으로 타당한 수치를 어디까지 허용할 수 있을까’를 생각할 때, 통계학에서는 앞 강의에서 설명한 ‘95% 예언적중구간’의 개념을 이용한다.

우선, 후보 속에 들어있는 ‘N=16’이 ‘있을 수 있다’고 할 수 있는지 생각해보자. 다시 말해 ‘N=16’을 가설로 해서 이것이 타당한 가설인지, 아니면 버려야 할 가설인지를 검토하는 것이다.

여기에서 가령 ‘N=16’, 즉 던진 동전의 개수가 16이라고 하고, 관측된 ‘앞면의 개수는 10’이라고 하는 것이 이치에 맞는 것인가를 살펴보도록 하자. 이 판단을 하기 위해서는 이렇게 생각하면 된다.

‘16개의 동전을 던져서 앞면이 나오는 개수를 예언한다면, 10개는 그 예언의 범위에 들어갈까?’

실제로 N=16의 경우, 앞면이 나오는 개수를 예언할 때의 ‘95% 예언 적중구간’을 만들어보자. 이 경우 앞면이 나오는 개수의 데이터는 근사적으로 평균값 μ=16/2=8, 표준편차 σ=√16/2=2인 정규분포라고 생각할 수 있기 때문에 ‘95% 예언적중구간’의 부등식 표시는(제8강의 정리④) 다음과 같다.

-1.96≤x-8/2≤+1.96

을 풀어

8-1.96*2≤x≤8+1.96*2

4.08≤x≤11.92

로 구할 수 있다(물론, 제8강의 정리②에서 ‘(μ-1.96σ) 이상 (μ+1.96σ) 이하’의 공식으로 구해도 값은 같다). 즉, 앞면이 나오는 개수는 ‘4.08개 이상 11.92개 이하’라고 예언할 수 있다.

관측된 앞면이 나오는 개수 10은 이 범위에 들어가는 것이다. 이것은 다음과 같은 내용을 의미한다. 가령, 우리들이 모집단을 모수 N=16이라는 지식을 갖고 있고, 앞면이 나오는 개수를 예측한다면 10은 그 예측의 사정권에 있다는 말이다.

그렇기 때문에 16개의 동전을 던질(N=16이 모수)때 앞면이 나오는 개수 10이 고나측되어도 이상한 일이 아니며, 예상한 범위 내에 있는 것이다. 그래서 ‘N=16’이라는 가설은 버릴 수 없는 타당한 가능성이 된다.

이와 같이 가설 ‘N=36’도 검토해보자.

N=36일 때 앞면이 나오는 개수는 근사적으로 평균값 μ=36/2=18, 표준편차 σ=√36/2=3인 정규분포라고 생각할 수 있다. 그래서 ‘95% 예언적중구간’은

-1.96≤x-18/3≤+1.96

을 풀어

18-1.96*3≤x≤18+1.96*3

12.12≤x≤22.88

로 구할 수 있다. 이번에는 이 예언의 범위가 ‘12.12 이상 23.88 이하’가 되어 현실에서 관측된 10이라는 수가 들어가지 않는다. 만일 모집단의 모수가 N=36이라고 하면 ‘우리들이 현실에서 관측된 데이터 10은 예상할 수 없는 예상외의 수치’라는 말이 된다. 이때 우리들은 두 가지 방법으로 생각할 수 있다.

방법① 모집단에 관한 가설은 바른데 틀릴지도 모른다는 리스크(5%의 확률에서만 일어나는 희귀한 일)가 일어났다.

방법② 모집단에 관한 가설이 바르지 않다.

위의 두 가지 방법 모두 생각할 수 있는데, 통계학에서는 방법②를 사용한다.

애당초 예언적중 범위를 만들 때, 틀릴지도 모른다는 리스크를 각오하고 진행한 것이기 때문에 여기에서도 일관된 태도를 취하는 것이다. 이때는 가설 ‘N=36’을 타당하지 않다고 보고 버린다. 이것을 통계학의 전문용어로 ‘가설을 기각한다’고 말한다.

그러면 이것으로 문제의 답을 구할 수 있다. N=16은 타당한 가설로 채택한다(기각하지 않는다). 그리고 가설 N=36은 기각한다. 이것을 도표로 설명하면 도표 9-3과 같다.

(116-119)

통계적 추론이라는 것은 20세기가 되어 처음으로 확립된 기술로, 이것은 인류가 기다리던 방법론이라고 해도 좋을 것이다. 왜냐하면, 이것은 ‘부분적인 사실로 전체를 추론한다’는 ‘귀납적 추론’이기 때문이다.

...

수리적인 과학에서의 추론은 지금까지 계속 연역법 중심이었다. 그런데 20세기가 되고서 통계학이 귀납적인 추론을 ‘수리 과학으로’ 구축하는 데 성공했다. (121-122)

10강의 구간추정 : 95% 적중하는 신뢰구간 찾기

이 가설의 평가법을 모든 모수 각각에 대해서 실행하면 ‘버릴 수 없는 가능성으로 두어야 하는 모수의 집합’이 확정될 것이다. 이 모수의 집합을 ‘가능한 모집단의 모수로 추정되는 구간’으로 보는 것은 아주 자연스러운 일이다. 이렇게 ‘있을 수 있는 모수가 들어있는 구간’을 ‘95% 신뢰구간’이라고 하며, 모수를 이러한 구간에서 추정하는 것을 ‘구간추정’이라고 한다. (123)

2. 신뢰구간 ‘95%’가 의미하는 것

‘95% 신뢰구간’이라고 할 때 ‘95%’라는 확률의 의미를 제대로 이해하는 것이 아주 중요하다.

‘95% 예언적중구간’일 때 95%라는 것은 분명히 ‘95%의 데이터가 그 구간에 들어가 있다’는 것을 의미한다고 설명했다. 그렇기 때문에 ‘다음에 관측하는 데이터는 95%의 확률로 그 구간에 들어간다’고 생각하면 맞는 말이었다.

그러나 신뢰구간의 경우는 그렇지 않다. ‘앞면이 나온 개수가 10개로 관측될 때, 모수 N이 95%의 확률로 이 13≤N≤30의 범위에 들어간다’는 의미가 아니다.

애초에 N은 ‘불확실하게 앞으로 결정될 것’이 아니라 ‘이미 확정된 것이지만, 모르는 것’이다. 그리고 도표 10-1을 한 번 더 주의 깊게 보면 알 수 있듯이 ‘N이 다르면 모집단은 다르다.’

우리들이 다루는 불확실한 현상이란 ‘고정된 모집단으로부터 어느 데이터가 관측되는가’라는 것이었다. 이때 결정된 일정한 구조로 확률적인 수치가 나오는 것은 모수 N이 아니라, 어디까지나 관측되는 수치(이번 예에서는 앞면이 나오는 개수인 10)다. 엄밀하게 말하면 다음과 같이 된다.

일단 관측값 10을 의식하지 말고, 관측값을 일반적인 x라고 해보자. 동전을 N개 던져서 x개가 앞면이 된 경우, 이 x와 μ=N/2, σ=√N/2로부터 z=x-μ/σ로 계산한 z가 부등식 –1.96≤z≤+1.96을 만족할 확률은(예언적중구간의 논의로) 0.95다.

즉, x를 관측하고 그 x에서 z를 계산하여 N을 기각해 가는 작업을 한 경우, 정말 올바른 개수 N이 남을 확률은 각각의 관측값 x에 대해서 모두 0.95가 될 것이다. 그래서 (10을 한 예로 한다) 어떤 관측값 x가 나온 경우에도 이 방법에서 N을 추정해 가는 과정을 반복한다면, 그 중 95%의 추정 결과는 맞다는 것이 올바른 해석이다. 다시 말해 95%라는 것은 ‘구간 13≤N≤30에 정말 N으로 가능한 것이 95%로 들어간다’는 추정이 아니라 ‘구간추정이라는 과정을 계속 실행하면, 관측값에 대응하는 여러 구간을 구할 수 있지만, 그 100번 중 95번은 N이 구해지는 구간에 들어간다’는 추정이며, 그 %가 된다. (126-127)

(131)

11강의 모집단과 통계적 추정 : ‘부분’으로 ‘전체’를 추론

예를 들어서 다음과 같은 경우도 해당될 것이다. 된장국을 끓일 때, 국물 맛이 좋은지 아닌지를 판정하게 되는데, 물론 끓인 된장국 전부를 먹어보면 확실히 알 수 있지만, 이것은 맛을 본다는 의미가 아니다. 여기에서는 한 숟가락 떠먹어 보고 그것으로 맛있으면 괜찮다고 판정하는 것이다. 즉, 부분으로 전체를 판단하는 것이다.

한 숟가락 맛을 보고서 그 맛에 따라서 대략적으로 재료를 추가하여 맛을 더 냄으로써 맛있는 음식을 만들 수 있는 이유는 무엇일까? 그렇다. ‘된장국을 잘 저어 양념과 재료가 골고루 섞였다면 한 숟가락이 전체의 맛을 반영한다’고 생각하기 때문이다.

통계적 추정도 이와 같은 것이다. 모집단이라는 가상의 어떤 항아리에서 나오는 데이터가 누군가에 의해서 자의적으로 조정된 것이 아니라 모집단 전체의 상태를 반영한 결과라면 부분으로 전체를 판단하는 것은 된장국을 맛보는 경우와 같다.

다만, 된장국을 맛볼 경우에도 우연히 ‘조금 진한 맛’을 내는 부분을 떠서 먹을 경우나 ‘조금 약한 맛’을 내는 부분을 떠서 먹을 경우도 있을 것이라고 생각할 수 있기 때문에, 된장국 전체의 맛은 한 숟가락 맛을 볼 때의 맛과 조금은 다를 가능성이 있다는 점을 고려해야 한다. 이와 같이 통계적 추정에서도 모집단의 추정은 ‘100% 적중’하는 것이 아니라 얼마만큼은 틀릴 것이라고 생각해야 한다. (136)

(138)

(140)

평균값=(계급값*상대도수)의 합계

이기 때문에 이 모집단의 평균값은 충분히 반복해서 관측했을 때의 히스토그램으로부터

평균값=(1*0.6)+(5*0.3)+(9*0.1)=3

으로 계산할 수 있다. 이 계산은

(모집단에 존재하는 수치)*(이것이 헤엄치는 연못의 넓이)의 합계와 같은 것이 된다는 것을 바로 알 수 있을 것이다.

이러한 모집단의 평균값을 ‘모평균’이라고 부른다. 모평균은 일반적으로 나타낼 때는 μ(뮤)를 사용한다. (140)

15강의 표본평균을 이용한 모평균의 구간추정 : 모분산을 알고 있는 정규모집단의 모평균은?

-본 강의(제15강의) <정규모집단이라는 것은 알고 있으며, 모분산도 알고 있을 때의 모평균 추정>

-제17강의 <정규모집단이라는 것은 알고 있으며, 모평균을 알고 있을 때의 모분산 추정>

-제19강의 <정규모집단이라는 것은 알지만, 모평균을 모를 때의 모분산 추정>

-제21강의 <정규모집단이라는 것은 알지만, 모분산을 모를 때의 모평균 추정> (169)

저작자표시 비영리 변경금지 (새창열림)

'서재 > 비소설' 카테고리의 다른 글

[불안] 알랭 드 보통. 은행나무. (1)	2026.04.07
[통계101 x 데이터 분석] 아베 마사토. 프리렉. (0)	2026.04.05
[통계학 리스타트] 이다 야스유키. 비즈니스맵. (1)	2026.03.03
[요리를 한다는 것] 최강록. 클. (2)	2026.01.09
[사는 곳, 바뀔 곳, 오를 곳] 전형진. 한국경제신문. (1)	2026.01.09

현재글[세상에서 가장쉬운 통계학입문] 고지마 히로유키. 지상사.

리노타호의 여행기

충남대맛집, 대전시청맛집, 유성맛집, 궁동맛집, 맛집, 서구맛집, 대전돈까스맛집, 대전맛집, 봉명동맛집, 대전배달맛집, 서울맛집, 돈까스, 둔산동맛집, 중구맛집, 대전중구맛집, 대흥동맛집, 고기, 치킨, 용문동맛집, 괴정동맛집,

Today :
Yesterday :

리노타호의 여행기