알고리즘/통계학

평균, 기댓값, 분산, 기대효용

산을좋아한라쯔 2015. 11. 17. 14:48
반응형

1. 평균과 기댓값

'평균' '기댓값'은, 아마도 통계에서 가장 먼저 접하고 가장 많이 쓰이는 용어일 것이다.

그럼에도 불구하고, 종종 "평균과 기댓값이 같은 건가?"라는 질문을 받으면, 헷갈린다. 확실히 알아보도록 하자.

예전에는, '기대값'으로 표기했으나, 이제는 '기댓값'이 맞다.

2008년부터, 수학 용어들도 표준 맞춤법의 사이시옷 규칙에 맞게 표기되도록 교과서가 개정되었기 때문. 

같은 이유로 '최댓값' '최솟값' '대푯값' '근삿값' '절댓값' '함숫값' 등이 맞는 표기.

 

평균

(산술)평균은, 어떤 자료가 있을 때, 이 자료를 대표하는 값 중의 하나로, 모든 자료값을 더한 것을 자료의 개수로 나눈 값이다. 

N개의 자료가 있고, i번째 자료의 값을 xi라고 할 때, 평균 m(mean)은 다음과 같이 표현된다.

 

- 자료를 대표하는 값으로 평균 외에도, 중앙값, 최빈값 등이 있다.

- 평균의 종류에는 산술평균만 있는 것이 아니고, 기하평균, 조화 평균 등이 있고, 

  또한 표본에 대한 평균이냐 아니면 모집단에 대한 평균이냐는 세세한 구분이 있을 수 있으나,

  여기서는, 표본/모집단에 대한 구분을 하지않으며, 산술평균만을 설명

 

 

기댓값

기댓값은, 확률적 사건에 대한 평균값으로, 전체 사건에 대해, 사건이 벌어졌을 때의 이득과 그 사건이 벌어질 확률을 곱한 것을 합한 값이다.

N개의 사건이 있을 수 있고, i번째 사건의 값을 xi라하고, xi에 대한 확률 값을 P(xi)라고 할 때, 기댓값 E(x)는 다음과 같이 표현된다.
(E: Expectation, P:Probability)

 

 

평균과 기댓값 비교

위에서 살펴본 바와 같이, 평균은 '확률'이라는 개념이 들어가지 않은 개념이다. 그냥, 자료 값들이 있을 때, 이 값들을 전부 더해서 개수로 나눈 것이다.

반면에, 기댓값은 '확률적인 사건'에 대해서 어떤 사건이 일어날 것에 대해 기대되는 값이다.

 

그럼, '평균'과 '기댓값'은 같다는 건가, 아니면 다르다는 것인가? 

답은, 같은 값을 가지지만, 사용되는 성격과 정의가 다르다는 것.

예제를 가지고 살펴보자.

 

예)

1. 주사위가 있다. 주사위를 한 번 던졌을 때 기대되는 값을 구하라. (주사위에는 1~6까지 수가 있고, 각 수가 나올 확률은 동일하다고 가정)

2. 주사위를 10번 던졌더니 다음과 같은 값이 나왔다. 기댓값과 평균을 구하라.

   1, 2, 3, 4, 5, 6, 1, 2, 3, 4

 

[1번 풀이]

기댓값은, 모든 값에 대해 나올 확률을 곱하면서 더하면 된다. 

주사위를 던졌을 때 나올 수 있는 값은 1,2,3,4,5,6 이렇게 6가지. 각각에 대한 확률은 1/6. 따라서 기댓값을 E라 하면, 

E = 1 x 1/6 + 2 x 1/6 + ... + 6 x 1/6 = 1/6 + 2/6 + 3/6 + 4/6 + 5/6 + 6/6 = 21/6 = 3.5

 

[2번 풀이]

1번 풀이와 마찬가지로, 기댓값은 나올 수 있는 값에 확률을 곱하면서 더하면 된다. 나올 수 있는 값은 1~6까지 수이고, 확률은 계산을 해야 한다. (주사위이기에 각각 확률이 1/6이라고 여기고 계산하기 쉬운데, 여기서는 10번 던졌을 때 나온 사건만을 가지고 확률 계산을 하는 것임)

확률 값은 '어떤 사건이 나올 경우의 수를 전체 경우의 수로 나눈 값'이다. 따라서 각 수에 대해 나올 확률은,

1: 2/10  (2번 나왔으므로)

2: 2/10

3: 2/10

4: 2/10

5: 1/10  (1번 나왔음)

6: 1/10

 

따라서 기댓값 E는,

E = (1 x 2/10) + (2 x 2/10) + (3 x 2/10) + (4 x 2/10) + (5 x 1/10) + (6 x 1/10) = (2 + 4 + 6 + 8 + 5 + 6) / 10 = 31/10 = 3.1

 

평균은, 모든 값을 더한 후 던진 횟수로 나누면 된다. 따라서 평균을 m이라 하면,

m = (1 + 2 + 3 + 4 + 5 + 6 + 1 + 2 + 3 + 4) / 10 = 31/10 = 3.1

 

[해석]

1번 문제에서는 주사위를 던졌을 때 나올 수 있는 기댓값을 물어보고 있다. 계산된 값은 3.5. 즉, 주사위를 많이 던지면 평균적으로 3.5 정도의 값이 된다는 의미. 

이때, '평균을 구하시오'라고 했다면 구할 수 있을까? 엄밀하게 말하면 구할 수 없다. 왜냐면 시행되는 횟수를 모르거나 무한대이기 때문이다. (정의대로 평균을 구하려면, 나온 값을 전부 더한 후, 시행된 횟수로 나눠야 하기에)

그러나, '무한하게 던졌을 때 기대되는 평균값을 구하시오'라고 했다면, 기대값을 구하라는 얘기이고, 이를 구할 수 있다. (무한히 던졌을 때 예상되는 각 값의 확률이 1/6임을 알 수 있기에) 

 

2번 문제에서는, 주사위를 10번 던진 경우이다. 이때 기댓값과 평균은 같은 값으로 3.1이 계산되었다.

즉, 이 경우, 기댓값과 평균이 같은 값이고, 같은 의미이다. 

 

정리하면, 일반적으로 '평균'과 '기댓값'은 같은 값을 가진다. 그러나, '평균'은 "조사된 값들에 대해서 평균이 얼마인가"처럼, 확률적인 개념이 없을 때 쓰이고, '기댓값'은 각 사건들이 일어날 확률들을 가지고 있는 경우, 그 기대되는 값을 표현할 때 쓰인다.

따라서, 확률 개념이 들어가는 통계에서는, 대부분 '평균'이라는 표현이 아닌 '기댓값'이라는 표현으로 사용된다.

 

2. 기댓값과 분산 그리고 위험

분산을 '위험' 관점에서 설명하고자 한다. (경제학에서의 개념이다.)

아래 예를 가지고 생각해 보자.

 

수능에서 제2외국어로 '아랍어'를 선택해서 시험을 보고 있는 A, B라는 2명의 학생이 있다고 하자.

이 들은 시험을 보면서 5문제 정도는 확실히 풀 수 있고(5문제=8점), 나머지 25문제(42점)는 잘 모르는 문제임을 파악했다고 하자.

이들이 아랍어에 대한 전년도까지 평균 등급컷이 아래 표와 같음을 알고 있다고 할 때, 잘 모르는 문제 25개에 대해서 어떤 마킹 전략을 펼칠까?

 

등급

점수 컷

1

23

2

18

3

15

4

13

5

11

6

9

 7

 7

 8

 5

아래와 같은 2가지 전략을 생각할 수 있겠다.

 

전략1) 전부 같은 번호로 마킹한다. 

이유는, 같은 번호로 마킹하면 맞을 확률은 1/5이고, 한 문제당 평균 배점은 42/25=1.68점. 따라서, 25문제에 대해서 같은 번호로 마킹하면 평균 5개가 맞을 것이고 점수는 5개 x 1.68점 = 8.4점 획득. 확실히 알고 있는 5문제 8점과 8.4점을 합해서 16.4점 정도 예상됨으로, 3등급 가능. 그러나, 2등급을 맞을 가능성 없음(왜냐면 답 배분을 균등히 하기 때문)

 

전략 2) 최대한 정답이 비슷한 것을 골라 마킹한다.

이유는, 확실히 알고 있는 5문제에 의해 확보된 8점에서 어느 만큼 더 맞느냐인데, 아무리 재수 없어도 25문제 중에서 2개 정도는 맞을 것이고(3.36점), 재수 좋으면 8개 정도도 맞을 수 있어서(13.44점), 종합해보면 11.36점~21.44점 사이 정도 되니깐, 5등급~2등급 가능.

 

A와 B학생이 어떤 전략을 선택할지는, A와 B가 처한 상황성격에 따라 달라질 것이다.

4~5등급으로 내려갈 가능성이 조금이라도 있는 것이 싫은 경우는, 비교적 안정적으로 3등급을 받을 수 있는 전략 1을 선택할 것이고(위험 회피형), 좀 위험하더라도 2등급을 노리길 원한다면 전략 2를 선택할 것이다.(위험 선호형)

 

위 예에서 보면, 전략 1에 비해 전략 2가 상위등급을 맞을 가능성을 가지고 있지만 위험하다. 어떤 차이 때문일까? 

바로 분산이 높기 때문이다. 즉, '분산'이 높다는 것은 '위험'이 높다는 것이다.

 

분산의 정의

분산은 확률변수가 기댓값으로부터 얼마나 떨어진 곳에 분포하는 지를 나태 내는 값이다. 계산은, 각 변숫값에서 평균을 빼서 제곱한 것들에 대해서 평균을 내면 된다. 

 V: 분산 Variance

 E: 기댓값 Expectation

 x: 변수

 m: 평균 mean

 

예를 들어, 시험 점수가 80, 90, 100 이면,

평균 = (80 + 90 + 100) / 3 = 90이고,

분산 = (102 + 0 + 102 ) / 3 = 66.7이다. 

 

확률 값이 있을 때의 분산은 어떻게 구할까?

이때의 분산은, 각 값에서 기댓값을 빼서 제곱을 한 후, 그 값이 나올 확률들을 곱하면서 전부 더한 값이다. 

 

 

예를 들어 보자.

어떤 사업이 있는데(사업 1, 사업 2), 이 두 사업은 미래상태에 따라 그 수익률이 아래표와 같이 다르다고 하자.

 

미래 상태

확률

수익률(%)

사업1

사업2

불황

25%

6%

-4%

정상

50%

10%

8%

호황

25%

14%

28%

 

먼저, 수익률에 대한 기댓값을 구해보자. 기댓값은 (값 x 확률)을 전부 더한 것이므로,

 

E사업 1 = (0.25 x 0.06) + (0.5 x 0.1) + (0.25 x 0.14) = 0.1 = 10%

E사업 2 = (0.25 x -0.04) + (0.5 x 0.08) + (0.25 x 0.28) = 0.1 = 10%

 

두 사업에 대한 수익률 기댓값은 모두 10%로, 평균적으로 10%의 수익률을 얻을 것으로 기대된다.

그렇다면, 두 사업에 대해 어떤 것을 선택해도 동일한 효과를 가지게 되는 것인가?

답은 아니다. 분산이 다르기 때문이다. 즉, 위험 정도가 다르기 때문.

 

분산을 구해보자.

 

분산은 [확률 x (각 값 - 기댓값)2] 한 것을 전부 더한 것이므로,

V사업1 = (0.25 x 0.042) + (0.5 x 0) + (0.25 x 0.042) = 0.0008 = 8(%)2

V사업2 = (0.25 x 0.142) + (0.5 x 0.022) + (0.25 x 0.182) = 0.0132 = 132(%)2

 

사업2에 대한 분산이 사업1의 분산보다 크기에, 어떤 수익률을 낼지 가변이 심하다. 즉, 손해를 볼 수도 더 이익을 볼 수도 있다. 이러한 것을 확률적으로 '위험도'가 높다고 하는 것임.

 

답에서 8(%)2 처럼 %에 대해 제곱을 한 것은, 각 값과 기댓값의 단위가 % 이기에, (각 값 - 기댓값)2을 하면 단위가 %2이 되기 때문. 소수점 있는 값을 %로 바꿀 때는 소수점 2자리까지 오른쪽으로 쉬프트 하면 되는데(예를 들어 0.02 = 2%), %2 의 경우는 소수점 4자리까지 쉬프트하면 된다.  0.0008 = 8 %2

 

분산이 높다는 것을 '위험'이 높다고 하는 것에 수긍을 하지 못할 수도 있겠다. 오히려 '불확실성'이 높다고 하면 수긍을 할 텐데.

이렇게 생각해보자. 이미 손해 볼 것이라고 확실하게 예상되는 것은, 더 이상 위험이 아니다. 대비하면 되니깐. 문제는 불확실한 것이다. 해서, 경제학에서는 불확실한 것이 '위험'한 것이고, 불확실하다는 것은 '분산'이 높은 것이기에, '분산'이 크면 '위험'한 것이다. 

 

해서, 위 예에서 사업 1과 사업 2는 결코 같은 조건이 아니며, 결정권자의 성격(선호도)에 따라 그 선택이 달라지게 된다. 즉, 기댓값이 같아도 분산이 다르면 다른 선택이 되는 것. --> 자료들에 대한 대푯값으로 기댓값뿐만 아니라 분산도 고려해야 한다는 것임

 

3. 기대효용

위에서, 기댓값만이 아닌 분산도 중요한 값이라는 것을 알았다. 즉, 어떤 것을 결정할 때 기댓값만이 아닌 분산까지 고려한다는 것.

여기서 주의할 것은, 기댓값은 높을수록 좋은 것으로 단순하지만, 분산은 사람마다 그 취향에 따라 다르게 받아들일 수 있다는 것.

따라서, 이 기댓값과 분산을 인자로 해서 결정에 영향을 미치는 '어떤 값'을 생각해볼 수 있다.

 

이 어떤 값을 '기대효용'이라고 부를 수 있다. 영어로는 Expected Utility

 

기대효용 이론

경제학, 게임이론, 의사결정론 등에서 사용되는 개념으로, 사람들이 불확실성이 존재하는 미래에 대해서 어떤 결정을 할 때, 확률적인 변수들에 의해서 정해지는 '기대효용'에 따라 결정한다는 것.

기대효용은 주로 기댓값과 위험도(분산), 그리고 위험도에 따른 결정권자의 성향에 따라 정해진다.

 

 

예를 들어보자.

 

어떤 집단의 투자 성향을 조사하기 위해, 기대수익률과 위험도를 주고, 투자 여부를 물어봤다. 그 결과가 다음과 같았다고 하자.

 

위험도(분산)

기대수익률(%)

100

10

110

11

120

12

130

14

140

17

150

22

160

30

170

43

180

64

190 

98 

 

표를 해석해보면, 

첫 째 행의, 분산 100, 기대수익률 10% 라는 것은, 10%의 위험이 있더라도(분산이 100) 기대수익률이 10%를 넘으면 투자를 하겠다는 의미.

(분산이 100이므로, 표준편차=sqrt(100) = 10 )

두 번째 행의, 분산 110, 기대수익률 11%라는 것은, 1 위험이 110으로 좀 높아졌으므로, 기대수익률이 11% 정도는 돼야 투자를 하겠다는 의미

 

이렇게 보면, 위험이 증가할수록, 기대되는 수익률이 높아야만 투자 결정을 하는 것을 알 수 있다. 즉, 불확실성이 높아지면 그에 상응하는 기댓값이 높아져야 함 투자를 하겠다는 것. 이러한 유형을 '위험회피형(Risk Averse)'이라 한다.

 

위의 표를, X축을 위험으로, Y축을 기댓값으로 해서 그래프로 그려보면 다음과 같다.

 

 

'위험회피형'이라고 분류한 거 보면, '위험선호형'도 있는가? 

있다.

언 듯 생각하면, 어디 '위험'을 좋아할 이가 있는가 싶겠지만, 여기서의 '위험'은 '불확실성'을 얘기하는 것이고, 항상 '손해'를 의미하는 것은 아니다. '손해'를 볼 수도 '이익'을 볼 수도 있다는 얘기. 

 

이런 '위험선호형'의 성격을 가진 집단에게, 위와 동일한 조사를 했다면, 기댓값은 낮더라도 분산이 크다면 투자를 선택하는 결과를 보일 것이다.

 

'위험중립형'도 있다. 이는, 분산에 따라서 영향을 받지 않는 것이다. 

 

이 세 가지 유형을 그래프로 그려보면 다음과 같다.

 

 

 

 

-끝-

 

 

반응형