관리 메뉴

cmos00

통계 지표 보는 법 본문

+ 정리하기/데이터 분석

통계 지표 보는 법

cmos00 2023. 7. 21. 09:59
Analysis of Variance
Source DF Sum of Squares Mean Square F Value Pr > F
Model 3 4860.32329 1620.10783 570.27 <.0001
Error 196 556.82526 2.84095    
Corrected Total 199 5417.14875      
Root MSE 1.68551 R-Square 0.6472
Dependent Mean 14.02250 Adj R-Sq 0.6456
Coeff Var 12.02004    
Parameter Estimates
Variable DF Parameter Estimate Standard Error t Value Pr > |t|
Intercept 1 2.93889 0.31191 9.42 <.0001
Store Size 1 2.40576 0.00139 32.81 <.0001
Staff 1 0.50153 0.00861 21.89 <.0001
Parking Lot 1 -0.00104 0.00587 -0.18 0.6399

* 중요항목만 붉은색 표기

 

1. 유의확률

  • 표기 : Pr, p-value, Prob 등
  • 귀무가설이 맞다고 가정할 때 관측된 통계치보다 더 극단적인 통계치가 관측될 확률
  • p-value가 0.05보다 작으면 통계학적으로 유의한 모형 (95% 신뢰수준)
  • 대부분 통계값은 p-value가 0.05보다 작지만 통계모델 확인 시 반드시 확인해야 하는 첫번째 요소

 

2. 결정계수

  • 표기 : R-Square, R-Sq, R²
  • 이 모형이 전체 현상을 얼마나 설명하는 지 나타내는 지표
  • 즉, 0.6472라는 것은 이 모형이 전체 현상을 64.72% 설명한다는 의미
  • 공학이나 자연과학에서는 0.7 이상 인정, 사회과학이나 경형학에서 0.3~0.4도 의미있다고 판단
  • Adj R-Sq (Adj R²) : 너무 많은 요인을 사용해서 모형을 만들 경우 설명력이 높아지는 현상을 보완하기 위해 만든 지표로 요인이 2개 이상일 때부터 R²보다 조금씩 수치가 작아짐, 실무에서 두 값에 큰 차이가 없기에 어떤 값을 봐도 무관 (실무에서 10개가 넘는 요인을 고려하는 경우가 드물기 때문)
  • R²를 늘려 현상에 대한 커버리지를 높이기 위해 분석 요인을 늘리는 것이 좋지만 현실적으로 어려운 이유
    • 신뢰할 수 있는 데이터의 충분한 양을 확보
    • 결과에 영향을 주지 않거나 미미한 영향을 주는 요인으로 인해 모형 복잡도가 증가
    • 이로 인해 해석이 어려워짐

 

3. 개별 요인의 p-value와 계수

  • p-value가 0.05보다 작으면 유효하다고 판단 (때문에 Parking Lot은 유의미하다고 보지 않음)
  • 참고 : 개별 요인의 p-value 산출 방법과 전체 모형의 p-value 산출 방법이 다르며, 개별 요인의 p-value는 0.05를 넘기는 경우가 많음.
  • 매출액 = 2.40576 * 매장 크기 + 0.50153 * 직원 친절도 - 0.00104 * 주차장 면수 + 2.93889

'+ 정리하기 > 데이터 분석' 카테고리의 다른 글

그룹화와 거리측정  (0) 2023.09.08
의사결정나무  (0) 2023.08.28
분석 방법  (0) 2023.08.09
변수  (0) 2023.07.26
양적요인과 질적요인  (0) 2023.07.24