분산

위키백과 ― 우리 모두의 백과사전.

확률론통계학에서 어떤 확률변수의 분산(分散)은 그 확률변수가 기대값으로부터 얼마나 떨어진 곳에 분포하는지를 가늠하는 숫자이다. 기대값은 확률변수의 위치를 나타내고 분산은 그것이 얼마나 넓게 퍼져 있는지를 나타낸다. 분산보다는 분산의 제곱근표준편차가 더 자주 사용된다.

[편집] 정의

\mu = \operatorname{E}(X)가 확률변수 X기대값(혹은 평균)일 때, 분산 \operatorname{var}(X)는 다음과 같이 계산한다.

\operatorname{var}(X) = \operatorname{E}((X - \mu)^2)

즉, X의 평균에서 떨어진 거리의 제곱의 평균과 같다. 즉 편차의 제곱의 평균으로 표현할 수 있다. X의 분산은 보통 \operatorname{var}(X) 또는 \sigma _X ^2, 혹은 간단히 σ2으로 표현한다.

위의 정의는 이산확률변수와 연속확률변수에 모두 적용될 수 있다.

[편집] 성질

어떤 실수의 제곱은 0 이상이므로 만약 분산이 존재한다면 그 값은 음수가 될 수 없다. 분산의 단위는 확률변수를 나타내는 데 사용된 단위의 제곱이 되어야 한다. 예를 들면 센티미터로 잰 높이 집단의 분산은 제곱센티미터가 될 것이다. 이것은 여러가지 불편을 유발하므로 많은 통계학자들은 집단과 같은 단위를 사용하는 표준편차를 주로 쓴다.

정의에 의해 분산이 평균값 μ에 대해 독립변수라는 것은 쉽게 알 수 있다. 즉, 전체 집단의 값이 b만큼 이동해 X + b가 되어도 전체 집단의 분산은 변하지 않는다. 그러나 전체 집단에 같은 값 a를 곱하면 분산은 a2배가 된다. 식으로 쓰면 다음과 같다.

\operatorname{var}(aX + b) = a^2 \operatorname{var}(X)

평균값의 선형성으로부터 다음과 같은 식을 얻을 수 있다.

\operatorname{var} (X) = \operatorname{E}( X ^2 - 2\,X\,\operatorname{E}(X) + ( \operatorname{E}(X)) ^2 ) = \operatorname{E}(X ^2) - 2(\operatorname{E}(X)) ^2 + ( \operatorname{E}(X)) ^2 = \operatorname{E}(X ^2) - ( \operatorname{E}(X)) ^2

이 식은 실제로 분산을 구할 때 자주 사용된다.

분포를 가늠하는 여러가지 수치 가운데 분산을 사용하는 이유 중에 하나로는 독립된 두 확률변수의 합의 분산은 각각의 분산의 합과 같다는 성질이 있다. 더 일반적으로 쓰면 다음과 같다.

\operatorname{var}(aX + bY) = a^2 \operatorname{var}(X) + b^2 \operatorname{var}(Y) + 2ab\, \operatorname{cov}(X, Y)

여기서 \operatorname{cov}는 공분산을 나타내며, 두 변수가 독립일 경우 0이 된다.