행동데이터 분석이라는 책에 대해 독학을 진행하며 통계적 유의성에 대해 조금 더 공부해보고자 한다.
책 p171 페이지에서
*** 통계적 유의성 ***
왜 통계적 유의성에 너무 많은 관심을 두지 말아야 하는가?
0.05 임계값을 일종의 엄격한 진리와 같이 생각하고 사용해서는 안된다. 계수가 얼마나 중요한가에 따라 판단해야 합니다. 확실하지 않은 경우에는 항상 계수가 실제로 강력하고 통계적으로 유의미한 것처럼 취급할 수 있습니다. 통계적 유의성을 고려하기 위해서는 약간의 추가 작업이 필요하지만 이것 때문에 분석이 편향되지는 않습니다.
왜 통계적 유의성 (p값 < 0.05) 에 너무 집착하면 안되는 것일까?
기본적으로 0.05는 인위적인 경계일 뿐이다.
- 0.05는 전통적으로 정해진 임계값일 뿐 , 어떤 절대적인 진실을 말해주는 수치는 아니다.
- 예를 들어 값이 0.049이면 유의미하고 , 0.051이면 유의미하지 않다라고 나누는 매우 인위적인 경계 설정이기 때문 실제로는 수치가 0.06이든 0.04이든 통계적으로 거의 비슷한 의미일 수 있다.
P값은 '효과의 크기'를 말해주지 않는다.
- p값이 작다고 해서 그 변수의 효과가 크다는 뜻은 아니다.
예를 들어, 아주 작은 효과라도 데이터가 많을 경우 P값이 작게 나올 수 있다. 반대로 효과는 크지만 데이터가 부족하여 P값이 0.01처럼 나올 수 있다.
즉 , 효과의 크기(coef)와 통계적 유의성(p값)은 서로 다르다.
실제 중요한 것은 '효과가 의미 있는가?'
예를 들어 정책에 대한 결정이다 치료의 효과를 분석할 때 통계적으로 유의한가 보다 현실적으로 의미가 있는가? 가 더 중요할 수 있다.
계수가 크고 방향성이 뚜렷하다면 P값이 약간 높더라도 실제 적용 가능성을 고려해서 중요한 변수로 볼 수 있다. 도메인 지식이 중요한 이유가 이러한 근거 때문인 것 같다...
결론은 P값을 참고하되 너무 맹신하면 안되는 것 ! 신뢰구간, 효과의 크기와 방향을 함께 고려해야 한다는 것이다.
-> 효과크기, 신뢰구간 해석 방안, 베이지안 통계에 대해서도 공부하자!
'statistics' 카테고리의 다른 글
data 분포 확인하기. (0) | 2023.02.11 |
---|---|
통계 특강 (작성 진행중. 특강 복습하면서 다시 정리하기) (0) | 2023.01.24 |
변동성모형 ARCH , GARCH (0) | 2023.01.19 |
변동성에 대하여 (0) | 2023.01.18 |
시계열 - 금융데이터 분석 응용 (0) | 2023.01.17 |