알고리즘/통계학

귀무가설, 가설검정, 1종오류, 2종오류, 검정력

산을좋아한라쯔 2015. 6. 25. 11:28
반응형

계속해서 헷갈리거나 잊어버리는 개념이 귀무가설 관련 내용이다. 

"귀무가설을 기각했으므로.."  "1종오류가 5% 이기에..." 이런 글을 갑자기 접하면... 생각의 흐름이 멈춰버린다. 

 

'확실히' 알아보자.

 

귀무가설(歸無假說), 키무카세쯔(帰無仮説), 零假设

영어로는  'a null hypothesis' 이다. 

hypothesis는 '가설'이라는 뜻이니깐 명확한데, null은?

 

null은 '아무것도 없는; 아무가치 없는; 무효의' 등의 의미로, 어쨌든 '없는' 이란 성격을 가진 단어이다. 

프로그래밍에서도 어떤 변수에 대해 초기값을 설정하지 않으면, 그 상태는 '의미 있는 값을 가지지 않는 = 의미 없는 쓰레기 데이터를 가질 수 있는' 널(null) 상태가 된다.

 

근데, 이런 'null'을 왜 '귀무(歸無)'라고 번역했을까?

찾아보면, 의학한림원 원장인 유승흠교수께서 "Null hypotheses 귀무가설이라는 것은 제일 먼저 통계학을 하신 분이 일본

에서 배우고 오셨는데 그분이 60년대부터 귀무가설이라고 쓰기 시작하신 것 을 아직까지 그대로 쓰고 있습니다."라고 말한 자료가 찾아진다. 

(의학용어 원탁토론회 발표자료집 제2집 2009)

 

yahoo 일본 사이트에서 'null hypothesis'로 찾아보니 일본식 한자로 '歸無假說'(키무카세쯔, 귀무가설)이라고 나온다. 

(https://kotobank.jp/word/%E5%B8%B0%E7%84%A1%E4%BB%AE%E8%AA%AC-828808)

 

중국 포털인 바이두에서 찾아보니, 중국은 零假设(영가설)이라고 번역해서 사용하고 있다.

(http://baike.baidu.com/link?url=2U_MJEvvvvGwEM0NZHkucOACEQCHjsjNtCL__SxDTey6mmRsWAlgNukniG6M3lbZg2PZnbVUpEOYqGbb1T57tnkLszPcVK8c7YL45nsnQ_9_x7IXVlSvpiwyN6_H8bICBjStaaxyNcbyUjeb9dX6Z_)

 

해서, 아무래도 '귀무가설'은 일본의 통계학 용어를 그대로 들여다 쓴 게 맞는 듯하다. 요즘은 '영가설'이 맞다고도 해서 점차 사용되고 있는데, 개인적으로는 'null'이라는 의미 자체의 해석은 '영(zero)'보다는 '귀무'가 더 맞는 듯 하다. 왜냐면 null이라는 의미가 아무것도 없다인데, 이때 없다는 것은 0조차도 없는 의미이기 때문이다. 프로그래밍에서 변수에다 0을 넣는 것과, 아무것도 안 넣어서 null 상태인 것과는 분명히 다른 것이다. (null은 노자의 무(無)와 더 가까운 개념이다. 무(無)는 완전한 없음(0)이 아니고, 오히려 모든 것에 가까운 개념이다. 즉, 아무거나 될 수 있는.)

 

'영가설'이 더 외우기는 쉽다. 보통 null hypothesis를 H0로 표현하고 대립 가설을 H1으로 표현하기에, 0(zero)이 쓰인 null hypothesis를 '영가설'이라고 생각하는 게 혼돈스럽지 않긴 하다. 

 

근데 뭐, 일본식인 '귀무가설'이든 중국식인 '영가설'이든, 우리나라의 주체적인 번역이 아닌 것은 똑같은 일이고, 씁쓸할 뿐이다.  

구글링을 해보면, '귀무가설' 58,500개 페이지이고, '영가설'은 12,000페이지이다. (2015.6월 기준) 

'귀무가설'이 약 5배 정도 더 많이 쓰이고 있다.

그냥 '귀무가설'로 쓰기로 하자.

 

Null Hypothesis

'귀무'든 '영'이든, 왜 원 원작자는 '아무것도 아닌'이란 의미의 'null'을 사용했을까? 원 작자는 누구지?

 

'null'이라는 단어와 'null hypothesis'라는 단어가 언제부터 쓰였는지를 알아보자. 구글 엔그램 뷰어로 조사해보면 다음과 같다.

(엔그램 뷰어는, 어떤 단어가 그 당시의 책에 얼마나 등장했는 지를 보여준다. 구글이 전 세계의 거의 모든 책을 스캐닝한 덕에 얻어진 정보이다.)

 

 

그래프를 보면, 빨간색 선이 null에 대한 것인데, 'null'은 애초부터 있었던 단어인데 1930년 정도부터 사용빈도가 높아졌고, 'null hypothesis'는 1930년대쯤부터라야 사용된 단어임을 알 수 있다. 따라서, 'null hypothesis'는 1930년대쯤 누군가에 의해서 '만들어진 단어'임이 확실하다. (1990년 이후에 null의 사용빈도가 null hypothesis보다 더 가파르게 오른 것은, 아마도 컴퓨터 프로그래밍에서 null 이 사용되었기 때문 아닌가 하는 추측을 해본다.)

 

'null hypothesis'에 대해서 좀 더 조사를 해보니, 1930년쯤 활동한 것으로 보이는 로널드 피셔(Ronald Fisher)란 생물학자이면서 통계학자가 'null hypothesis'라는 단어를 처음 사용했다는 자료가 보인다. (드디어 찾았다 null hypothesis의 원류를!)

 

 

(https://en.wikiquote.org/wiki/Ronald_Fisher)

 

 

찾은 자료들을 보면 다음과 같다.

 

'null hypothesis'라는 단어는 로널드 피셔(Ronald Fisher)가 1935년 출간된 "The Design of Experiments"라는 책에서 처음 사용했다. 

이 책에서 피셔는 '숙녀들의 차 감별 실험(lady tea tasting experiments)'이라는 부분에서 'null hypothesis'라는 단어를 사용했다.

(https://en.wikipedia.org/wiki/The_Design_of_Experiments)

 

 

 

'숙녀들의 차 감별 실험'은, 어떤 여인이(Muriel Bristol) 자신은 밀크티를 마실 때, 그 밀크티가 우유를 먼저 넣어서 만들었는지 차를 먼저 넣었는지를 알 수 있다는 데 대해, 실제로 숙녀가 그러한 구분을 할 수 있는 지를 실험한 것이다.

피셔는 이 실험방법에서 '숙녀는 그런 능력이 없다. 구분할 수 없다'는 것을 '귀무가설 null hypothesis'로 놓고, 이 '귀무가설'이 옳다는 것은 실험으로 증명할 수 없지만, 그 가설이 잘못되었다는 것 즉, '능력이 없다는 것이 거짓이다 = 숙녀들이 그런 능력이 있다'는 것은 실험으로 증명할 수 있다 했다.  

실험방법은 다음과 같다. (이 실험에 대해 애니메이션으로 잘 설명해 놓은 자료는 여기 참조 https://www.youtube.com/watch?v=lgs7d5saFFc  )

  - 밀크를 먼저 넣어서 만든 4잔의 밀크티와, 티를 먼저 넣어 만든 밀크티 4잔을 준비한다.

  - 위의 총 8잔의 밀크티를 랜덤 하게 테이블 위에 배치한다.

  - 숙녀 보고 왼쪽 편에는 밀크를 먼저 넣었다고 생각되는 밀크티를, 오른편에는 티를 먼저 넣었다고 생각되는 밀크티로 구분해서 분리하라고 한다.

 

이렇게 했을 때, 귀무가설이 맞은데도 불구하고(숙녀가 분별 능력이 없음에도 불구하고), 우연히도 8잔을 모두 구분해낼 수 있는 확률은 1/70이고, 3개는 맞추고 1개는 틀릴 확률은 22.9% 등인데, 만약 실제 실험 결과가 이러한 무작위 확률보다 아 주 높다면, 귀무가설을 기각할 수 있다 즉, 숙녀가 분별능력이 있다고 얘기할 수 있는 것이다. 실제 실험에서는, 여인들이 다 맞췄다 한다.

 

피셔는 1/70, 22.9% 같은, 이러한 경우의 확률 계산방법을 아래와 같이 제시했다.

 

 

 

 

 

 

정리하면, 'null hypothesis'는 영국 통계학자인 로널드 피셔란 학자가 1930년경에, '숙녀들의 차 감별 실험'이란 부분에 처음 사용했고, 이때 '숙녀들이 밀크티 감별능력이 없다'라는 것을 귀무가설(null hypothesis)로 세운 후, 실제로 '밀크티 감별 능력'이 있는 지를 실험한데서, null hypothesis라는 용어가 처음 사용되었다.

 

현대 통계학에서의 귀무가설

피셔에 의해 사용된 null hypothesis와 현대 통계학의 '가설검정'에서 사용되는 null hypothesis는, 그 의미가 미묘하게 약간 다르다.

 

가설검정

모집단의 특성에 대한 통계적 가설을 모집단으로부터 추출한 표본을 사용하여 검토하는 통계적 추론


 

피셔의 귀무가설은 '잠재적으로 인정되지 않는 사실'을 귀무가설로 하고, 어떤 유의미한 실험을 통해서 이 귀무가설이 사실이 아님을 밝히고자 한다. 이 때 이 귀무가설은 실험을 통해서 증명되거나 받아들일 수 있는 것이 아니고, 실험을 통해서는 오직 '틀리다는'것만을 증명할 수 있다. 예를 들어, '숙녀의 밀크티 실험'에서 보면, 귀무가설은 '숙녀가 감별능력이 없다'이고, 실험을 통해서는 '감별능력이 없다'는 것을 증명할 순 없고, 대신 '감별능력이 있는' 지를 확률적으로 유추할 수 있는 것이다. 피셔의 귀무가설에 대한 정의에서 주목해야 할 것은, 귀무가설로 정한 것은 실험으로서는 '증명'할 수 없다는 데 있다. 해서, null hypothesis인 것이다.

 

피셔의 귀무가설에 대한 정의와 약간 다르게, '가설검정' 이론에서는, 귀무가설은 대립 가설(alternative hypothesis)의 반대편에 있는 가설로, 두 가설은 특정 에러 레이트와 데이터에 기초하여 구별될 뿐인 것이다. 즉, 귀무가설이 옳다는 것도 실험에 의해서 증명 가능하다. (그렇지만, 실험의 본 목적은 귀무가설이 틀리다는 것을 증명하려 함에는 변함이 없다. 즉, 귀무가설을 기각하기 위한 목적으로 계획을 세워 실험을 하게 되는데, 그 결과가 귀무가설을 기각하지 못해서 귀무가설이 옳다고 결론을 낼 뿐이지, 실험 목적 자체가 귀무가설을 증명하려는 바는 아니다.)

 

따라서 어떤 의학자가, 자신이 개발한 약이 심장발작을 막아내는 효과가 정말 있는지를 가설검정으로 증명하려면, '약이 심장발작에 효과가 없다'는 것을 귀무가설로 놓고, 실험을 해야 하는 것이다. 그래서 실험 결과를 보니, '효과가 없다'라고 가정했을 때와는 너무 다른 결과를 보이므로, 개발한 약이 '효과가 있다'라고 주장하는 것이다. (이러한 것이 가설검정임)

 

정리해보면, 처음 피셔에 의한 null hypothesis는, '증명할 수 없는 것; 증명되지 않는 것'이라는 뉘앙스를 가지고 null이라는 용어를 사용했는데, 현대의 가설검정 분야에서는 두 개의 대립되는 가설 중 하나일 뿐이고 결코 '증명되지 않는 것'은 아닌 것이다. 이러한 점 때문에 귀무가설(null hypothesis)이라는 용어가 혼란을 일으키는 듯하다. 그렇지만, 가설검정에서도 실험 계획을 세울 때, 대립 가설을 증명하려고 노력하는 것이지 귀무가설을 증명하려고 하는 것은 아니기에, null이라는 용어가 조금 이해가 되기도 한다.

 

가설검정

귀무가설을 알았으면, 1종 오류, 2종 오류, 검정력 등도 알아야 한다. 전부 '가설검정'에 나오는 용어다.

들어보면 그렇게 어려운 개념은 아닌데, 자꾸 까먹게 된다. 얕게 알아서 그렇다. 확실히 알아보자.

 

먼전 가설검정부터 알아보자.

 

가설검정은, "모집단의 특성에 대한 통계적 가설을 모집단으로부터 추출한 표본을 사용하여 검토하는 통계적 추론"을 말한다. (두산 대백과사전)

즉, 어떤 모집단에 대한 특성이 이러이러하다고 얘기하고 싶은데, 일반적으로 모집단은 너무 덩치가 커서 전부 조사할 수 없으니. 일부 표본을 샘플링해서 그 대상에 대해서 조사한 후, 표본이 이러이러한 특성을 가지니, 모집단도 이러할 것이다라는 것을 추론하는 것을 말한다.

 

근데, 가설검정의 방법은 좀 규격화되어 있다. 어떻게 규격화되어 있냐 하면,

  1) 기각하고 싶은(=부정하고 싶은) 것을 귀무가설(null hypothesis)로 두고, 그 반대되는 것을 대립 가설로 둔다.

  2) 표본에 대해 실험한다.

  3) 귀무가설이 맞다고 했을 때, 실험 결과처럼 나올 확률을 구한다.

  4) 위 3번에서 구한 확률 값의 크기를 가지고,  대립 가설이 맞다고 주장할 수 있는지 판단한다.

 

가설검정에서는 기각하고 싶은(=부정하고 싶은) 것을 귀무가설(null hypothesis)로 두고, 그 반대되는 것을 대립가설로 해서 실험하고, 실험 결과가 귀무가설을 참으로 했을 때는 확률상 나오기 힘든 결과를 보인다면, 귀무가설을 기각하고 대립 가설이 맞다고 한다. 실험 결과가 확률적으로 봤을 때 나올 수도 있는 범위의 값이다라고 한다면, 대립 가설을 버리고 귀무가설이 옳다고 한다.

 

기각(棄却)

국어사전에 보면, '기각'은 다음과 같은 뜻으로 되어 있다.

1) 물건을 내 버림 2)(법률용어) 소송을 수리한 법원이, 소나 상소가 형식적인 요건은 갖추었으나, 그 내용이 실체적으로 이유가 없다고 판단하여 소송을 종료하는 일.

이 또한, '귀무가설'과 마찬가지로 일본에서 사용된 용어를 그대로 받아들인 듯하다.  일본에서는 '帰無仮説を棄却して'와 같이 사용된다.

 

그냥, '귀무가설을 버리고' 혹은 '귀무가설을 채택하지 않고' 정도로 해석했었으면 좋지 않았을까 싶다.

 

예를 들어, "제안된 세법은 조세수입에 영향을 주지 않는다. 즉, 증가시키지도 감소시키지도 않는다"라고 국회의원이 주장했다고 하자. 이를 가설검정방법을 써서 맞는 얘긴지 틀린 얘긴지를 알아보고자 한다면, 어떻게 하면 될까?

 

1. 다음과 같이 가설을 세운다. (깨고 싶은 것을 귀무가설로)

   - 귀무가설(H0): 제안된 세법은 조세수입을 증가시키지도 감소시키지도 않는다.

   - 대립 가설(H1): 제안된 세법은 조세수입을 변화시킨다. 즉, 증가 혹은 감소시킨다.

 

2. 대상 되는 납세자 중에서 샘플로 100명 정도를(샘플 수는 상황에 따라 다르게) 추출해서, 제안된 세법을 적용해서 실제 조세수입  변화를 알아본다.

   - 100명에 대해 조사를 해봤더니, 표본의 납세액 차이 평균=-21만 원이고,  표본 표준편차=70만원이라고 하자.

      ==> 표본평균의 표준편차 = 표본표준편차 / sqrt(샘플 수량) = 70만 원 / sqrt(100) = 7만 원

 

3. 귀무가설이 맞다고 한다면 차이는 0(zero)이다. 즉, 평균이 0인 정규분포를 띤다. 그런데, 표본에 의해 조사된 값은 

평균 21만원, 표준편차가 7만원이다. 이 때의 Z 값을 구해 본다. 

   - 정규분포에서의 Z점수를 구해보면,  Z = (표본평균 - 모평균)/표본평균의 표준편차 = (-21-0) / 7 = -3 : 평균에서 왼쪽 방향으로 3개 표준편차만큼 떨어져 있다는 의미

   - 이 값이 나올 수 있는 확률은 정규분포상에서 0.1% 정도로 매우 나오기 힘든 경우임

 

4. 즉, 귀무가설이 맞다는 가정하에서는 나오기가 힘든 경우이므로, 귀무가설이 틀렸다.

 

위에서 귀무가설이 맞다고 했을 때의 확률인 0.1%를 p-value라 한다.

표준 정규분포 그래프로 생각해보면(평균이 0이고 표준편차가 1인 정규분포), 표준 정규분포 그래프의 x값이 -3일 때의 그래프 왼쪽 부분 면적을 의미한다.

따라서, 이 p-value가 작다는 것은, 그만큼 일어날 확률이 낮다는, 거의 일어나지 않는 사건임을 의미한다.

 

 

 

 정상적인 상황(정규분포를 보이는 상황)이라면 일어나기 힘든 희박한 경우이므로, 원래의 가정인 귀무가설이 틀렸다는 것이다. 즉, 조세제도의 변경에 의해, 실제로는 조세액이 변경된다는 얘기.

 

1종 오류, 2종 오류, 검정력

위에서와 같이, 실험의 결괏값을 보니 원래의 가정인 귀무가설이 맞다고 한다면, 확률적으로 일어나기 힘든 일이기 때문에, 대립 가설이 맞을 것이라고, 확률적으로 주장하는 것이기에, 오류가 있을 수 있다.

 

아래와 같은 표를 생각해 보자.

우리가 실험 결과만을 가지고 할 수 있는 행동은, 귀무가설을 기각하던지(=대립 가설을 채택) 혹은 귀무가설을 채택하던 지, 두 가지뿐이다.

근데, 나중에 실제 모집단의 특성을 알았다고 하면, 우리가 선택한 것이, 잘 못했는지(오류) 잘했는 지를 평가할 수 있을 것이다.

이것을 표로 나타낸 것이다. 경우의 수를 보면 4가지.
 

 

 실제 상황 

 귀무가설이 맞다

귀무가설이 틀리다 

 판단 혹은 결정사항

 귀무가설을 기각

 오류: 귀무가설이 맞는데, 잘못 기각함

 잘 기각했음

 귀무가설을 채택

 잘 채택했음

오류: 귀무가설이 틀린데, 잘못 채택함 

 

(앞에서 누누이 얘기했지만, 가설검정은 귀무가설이 잘못되었음을 증명하고 싶은 것이라는 것을 상기하면서 표를 보면 이해하는데 도움됨.)

가로축은 실제로 귀무가설이 맞는지 틀린지(실험 결과로부터 유추한 것이 아니고, 실제 모집단에 대한 특성이 귀무가설과 같은 지 다른 지)를 나타내고, 세로축은 실제 상황을 모르는 상태에서 실험결과 만을 가지고 귀무가설을 버린 건지(기각. 대립 가설을 채택), 귀무가설을 채택한 건 지를 나타낸다.

귀무가설이 맞는데도 불구하고 기각했거나, 귀무가설이 틀림에도 불구하고 채택했으면 오류. --> 위 표에서 빨간색

그 반대는 잘한 것임 --> 위 표에서 파란색

(표 세로축을, '귀무가설을 기각함'을 위로 올린 것에 주목. 다른 자료들을 보면 '기각'과 '채택'의 순서가 혼용되어 있는데, 이 문서에서는 '기각함'을 위로 올렸음. 가설검정의 원 목적이 귀무가설을 기각함에 있기에 '기각함'을 위로 올린 것. 순서가 중요한 것은, 시간이 흐르면 내용은 기억에 안 남고 표의 모양만 기억나기에, 일관성 있게 표를 그려야 나중에 실수하지 않는다. )

 

표 예서 알 수 있듯이, 2가지 오류가 있다. 귀무가설이 맞는데도 기각한 오류와, 틀림에도 불구하고 채택한 오류.

이 두 가지 오류에 대해, 처음 것은 1종 오류(Type 1 error), 두 번째 것은 2종 오류(Type 2 error)라고 한다.

  • 1종 오류: 귀무가설이 맞음에도 불구하고, 채택하지 않고 기각한 것.
  • 2종 오류: 귀무가설이 틀림에도 불구하고, 채택한 것

1종 오류는귀무가설이 맞음에도 불구하고 채택하지 않고 기각해버린 오류이다.

1종오류는 왜 나올까? 가설검정의 목적을 다시 생각해보면, 실험자의 본 목적은 귀무가설을 부정하는 것이다. 해서 실험을 하고 그 결과가 귀무가설이 참이라는 가정하에서는 나올 수 없는 아주 희박한 확률을 가진 결괏값이라는 것을 보이는 것이다. 근데, 실험을 하는 표본의 수가 아주 적다면? 그리고 그 값이 마침 희박한 확률을 보이는 결괏값에 가깝다면, 이런 1종 오류가 나올 수 있다. 또한, 구조적으로 1종오류가 많이 나타날 수밖에 없는 경우도 있다. 예를 들어보자.

 

(예 1)

늑대가 나타나는 지를 감시하는 파수꾼이 있다고 하자. 이 파수꾼은  늑대가 오는지를 시각, 청각, 후각 등 자신의 모든 감각을 동원해서 판단해 낸다. 자 여기서 가설검정을 해보자. 저 멀리서 뭔가 움직이는 모습이 보였고, 뭔가 바스락거리는 소리가 들렸다. 늑대인가?

귀무가설: 늑대가 아니다

대립 가설: 늑대다

파수꾼은 목적 자체가 늑대의 출현을 경고하는 것이다. "늑대가 나타났다~"고 경고했는데 사실은 늑대가 아니었다면, 그냥 욕 좀 먹으면 그만이다. 그러나, 실제 늑대가 나타났는데도 그것을 미리 경고하지 못한다면, 이건 욕 정도로 넘어갈 사안이 아니다. 따라서, 파수꾼은 조금이라도 이상한 낌새가 보이면, '늑대다'라고 귀무가설을 기각하는 성향을 보인다. 즉, 구조적으로 1종 오류가 많이 나올 수밖에 없다.

 

(예 2)

암 진단 키트가 있다. 환자의 여러 정보를 입력하면 암인지 아닌 지를 판별한다고 하자. 어떤 환자에 대한 정보를 입력하고 진단을 하는 것에 대해 가설검정을 해보자.

귀무가설: 암이 아니다.  (누누이 강조하지만, 귀무가설을 부정하는 것이 목적이다.)

대립 가설: 암이다.

진단 키트가 암이라고 진단했는데, 나중에 정밀 진단을 해보니 암이 아니었다면, 해프닝으로 끝난다.

그러나, 암이 아니라고  진단했는데, 몇 달 후에 환자의 상태가 안 좋아져서 다시 정밀 진단했더니 암 말기였다고 한다면, 이건 큰 일이다.

따라서, 진단 키트는, 조금의 이상이 있어도 암이라고 진단 내리게끔 세팅될 수밖에 없고, 따라서 1종오류가 많이 나올 수 밖에 없다.

 


2종 오류는  귀무가설이 틀림에도 불구하고 채택해버린 오류이다.

회사의 품질 파트에서 제품을 검사하는 것을 생각해 보자.

품질 파트의 검사자의 목적은 혹 있을지 모를 불량품을 찾아내서 없애고, 양품만이 출하되도록 하는 것이다.

따라서 검사자가 행하는 품질검사에 대해 가설검정을 해보면,

 

귀무가설: 제품이 양품이다.

대립 가설: 제품이 불량이다.

 

검사자의 오류는 두 가지

1종 오류: 실제 양품인데 불량품으로 처리 (너무 깐깐한 잣대를 가지고 품질검사를 한 것이다. 해서 회사 손해)

2종 오류: 실제 불량품인데 양품으로 처리 (불량품을 missing 한 것. 불량품이 출하되었으므로 그것을 받은 소비자가 손해 봄)

 

1종 오류가 벌어지면 멀쩡한 양품을 불량으로 처리해서 폐기하는 것이기에 회사가 손해를 보는 것이고, 해서 '생산자 위험'이라고도 부른다. 2종 오류가 벌어지면 불량품이 시장에 출시된 것이므로, 그것을 구입한 소비자가 손해를 볼 수 있으므로 '소비자 위험'이라고 한다.

생산자가 눈앞의 짧은 이익에만 관심이 있다면 1종 오류를 줄이기 위해 검사기준을 완화할 것이고, 그러면 1종 오류는 줄어들겠지만 2종 오류가 늘어날 것이다. 즉, 불량품이 대거 시장에 유통될 것이고, 이것은 소비자의 불만을 야기시켜 해당 제품을 구매하지 않게 되므로, 궁극적으로는 생산자에게 더 큰 손해를 미칠 것이다.

 

1종 오류도 줄이면서 2종 오류도 줄일 수 있을까?

검사기준만을 가지고 생각하면 불가능하다. 검사기준을 높이면 1종 오류가 높아지고 2종오류가 낮아지기에, 서로 상충관계에 있다. 답은, 제품 자체의 품질을 높이고 검사기준도 높힌다면 가능하다. 품질 자체가 좋기에 검사기준을 높여도 1종오류가 잘 안 나올 것이고, 검사기준도 높고 불량품도 별로 없기에 2종 오류도 당연히 낮아지게 된다.

검정력은 귀무가설이 틀린 것을 잘 예측해서 기각한 것을 말한다.

위에서 말한 2종 오류(귀무가설이 틀린데도 채택해 버린)와 반대다. 따라서, 2종 오류를 β로 표시한다면, 검정력은 (1-β)가 된다. 오류라는 것이 확률 값이므로 0~1까지의 값이고, 검정력은 2종 오류가 아닌 확률이므로 (1-2종 오류 확률)인 것이다.

 

여기서 주목할 것은, '귀무가설이 맞다는 것을 잘 예측해서 채택한 것'이 아닌, '귀무가설이 틀린 것을 잘 예측해서 기각한 것'을 검정력(power of test) 즉, 테스트의 능력으로 했는지이다. 누누이 얘기하지만, 가설검정의 목적은 귀무가설이 틀렸다는 것을 보이고 싶어 하는 것이다. 따라서, 귀무가설이 틀렸다는 것을 잘 예측한 것을 '검정력'으로 부르는 것은 당연!!  

 

 

이제 여기까지 읽었으며, 1종 오류/2종 오류/검정력에 대해서 어느 정도 감은 잡혔으리라 본다. 그러나, 이걸론 부족하다. 외워야 한다.

다음과 같이 요약된 버전으로 눈에 익게 하자.

 

 

 

 실제 

 H0 = 참

H0 = 거짓 

 판단

 H0 기각

 

1종오류(α)

 검정력(1-β)

 H0 채택

 -

2종 오류(β) 

 

 

영어로 된 표현에도 익숙해질 필요가 있다. 영어로 표현하면 다음과 같다.

 

 

 

H0 is 

 H0 = True

H0 = False 

 Decision

Reject H0

 Type 1 Error

(α)False Positive

 Power of Test(1-β)

 Do not Reject H0

 -

Type 2 Error(β) 

False Negative

 

 

위 영어로 된 표현에서 Type 1 Error를 False Positive라고 하고, Type 2 Error를 False Negative라고 하는 것이 좀 낯설 것이다.

False Positive는, 'Positive 한 것에 대해 실패했다'로 생각하면 쉽다. 귀무가설이 맞음에도(Positive) 불구하고 예측에 실패(False) 한 것이다.

마찬가지로 False Negative는, '귀무가설이 틀림(Negative)에도 불구하고 예측에 실패(False)한 것이다.'

 


 

-끝-

 

 

 

반응형

'알고리즘 > 통계학' 카테고리의 다른 글

평균, 기댓값, 분산, 기대효용  (1) 2015.11.17