데이터 추가하고 평균과 분산 새로 구하기

평균 m, 분산 σ인 N개의 데이터가 있다.
여기에 데이터 한 개를 추가할 때, 어떻게 평균과 분산을 구하는게 쉬울까?


글 쓴 날 : 2011.07.10

snowall 님께서 업무상 고민하신다기에…. 누구나 계산할 수 있는 고등학교 3학년 수학밖에 안 돼서…. 심심해서 오래간만에 계산해 봤다.

기존 DB에 새로운 데이터가 계속 추가되는 상황에서, 새로 추가된 데이터를 반영해 새로 평균과 분산을 계속 보여줘야 한다면 이 공식이 유용할 것이다.

프로그램으로 작성해야 한다면 평균, 표준편차 이외에 데이터 제곱의 합도 따로 관리해야 한다는 게 맘에 안 들긴 하지만….

ps. 혹시 계산식이 필요하신 분을 위해 pdf 파일을 첨부한다.

ps. 근데 이 공식은 계속 반복해 계산하다보면 컴퓨터의 계산오차가 점점 커질 것 같다. 아무래도 특정 횟수마다 처음부터 새로 계산해야 할 것 같다.

댓글 남기기