본문 바로가기
일상 문제해결!

두 집단 사이에 평균값 차이가 있는지 확인하는 통계 처리 방법

by JD의 인생살이 2022. 9. 29.

 우리는 회사일을 하다가 가끔씩 통계처리를 해야 할 때가 있다. 예를들어 설문조사 결과를 분석한다던가, 혹은 개선된 샘플의 규격을 검사하고 기존에 비해 나아졌는지 확인하는 등 말이다. 

 

 통계처리에는 여러가지 방법이 있다. 분산분석:일원배치법, 반복있는 이원배치법, 반복 없는 이원배치법, t-검정: 쌍체비교, 등분산 가정 두 집단, 이분산 가정 두 집단 등등 많기도 하다. 이중에서 나의 상황에 맞는 분석방법이 무엇인지 확신하기도 어렵고, 각각의 분석의 의미도 잘 모르겠다. 

무슨 의미인지 모르겠는 항목들이 많다.

 

 그런 분들을 위해 두 집단 사이에 통계적으로 차이가 있다고 볼 수 있는지, 그냥 우연에 의해 나온 차이인지 알아낼 수 있는 통계처리 방법에 대해 설명해 보겠다.

 

 일단 예를 들어보자, 음료의 맛에 대한 설문조사를 했다. 20명의 설문자에게 A음료, B음료를 주고 단맛이 어떠한지 1~9점(숫자가 높을 수록 단맛의 강도는 올라감)으로 평가해 달라고 했다. 그렇다면 여기서 A음료와 B음료의 단맛이 다르다고 볼 수 있는지 아니면 그저 통계적 의미 없이 사람들간의 편차나 오류로 나타난 것인지 어떻게 알아 낼 수 있을까? 

 

또 다른 예를 들어보자. A 거래처로부터 스프링을 납품받고 있다. 그런데 갑자기 B업체에서 자기회사의 스프링이 탄성이 더 좋고 수명이 좋다며 홍보를 해왔다. 우린 각각의 거래처로부터 샘플을 50개씩 받아 테스트 해보기로 했다. 확실히 B 업체의 샘플 50개의 탄성 및 수명 평균이 A업체보다 높았다. 그런데, 이게 샘플간의 편차로 나타날수 있는건지, 우연히 50개가 좋은 것들로만 들어온것은 아닌지, 어떻게 하면 알 수 있을까?

 

이럴때 T-검정을 사용하면 된다. (두 집단 사이에 차이가 있는지)

 

T-검정 하는 방법(두 집단 사이에 차이가 있는지 알아내기)

1. 분산이 같은지 확인하기 위해 먼저 F-검정을 해준다.

 엑셀에서 확인할수 있다 싶이, t-검정에는 등분산 가정 두 집단, 이분산 가정 두 집단이 있다. 어떤 방법을 쓸 것인지 확인하기 위해 먼저 F-검정:분산에 대한 두 집단을 선택한다. A음료의 단맛 설문조사 결과, B음료 단맛 설문결과 영역을 각각 다른 변수로 넣어준다. 

 

F-검정 방법

F-검정결과에서 노란색 형광펜칠한 P값을 보면 0.28로 유의수준인 0.05보다 높다. 0.05보다 P값이 높으면 등분산이고, 0.05보다 낮으면 이분산이라는 뜻이다. 그럼 우리는 두 집단이 등분산임을 확인했다.

 

2. T-검정: 등분산 가정 두 집단 분석

T-검정: 등분산 가정 두 집단을 선택한 후. 아까 F-검정과 같이 변수데이터를 넣어주고 출력범위를 설정한다. 출력범위는 아무곳이나 한 셀만 선택해도 되나, 데이터가 출력될 위치에 다른 데이터가 있으면 안된다.

 

결과는 다음과 같이 해석하면 된다. P양측검정에서 0.103 이 나왔다. 유의수준인 0.05보다 크므로 두 집단은 다르지 않다고 해석하면 된다. 다시말해서 두 집단의 평균차이는 4.08과 5.08로 1의 차이가 나지만 이는 단지 우연에 의해 나타난 차이일 뿐 통계적으로 유의한 차이가 있다고 볼수는 없다. 

댓글