관리 메뉴

cmos00

변수 본문

+ 정리하기/데이터 분석

변수

cmos00 2023. 7. 26. 09:45

1. 변수 종류

  • 독립변수
    • 다른 변수에 영향을 받지 않는 변수
    • 독립변수가 2개 이상일 경우 "다중"이라고 표현 (독립변수가 2개 이상일 경우 독립변수 사이에 상관관계가 존재하지 않아야 함)
      • 즉, 독립변수가 2개 이상이면 두개의 상관관계 그래프가 정비례나 반비례 관계를 형성하지 않고, 상관관계 계수가 0에 최대한 가깝게 나와야함
  • 종속변수 : 다른 변수로부터 영향을 받는 변수, 종속변수가 2개 이상일 경우 "다변량"이라고 표현

 

 

2. 표현

학문 X Y
통계학 (통계 학습) 독립변수 종속변수
설명변수 반응변수
보조변수 연구변수
컴퓨터공학 (기계 학습) 특징 라벨
입력 출력, 산출, 결과
데이터과학 입력 목표
예측변수 피예측변수

 

 

3. 데이터 형태에 따른 정의

  • 범주형 : 질적 변수
  • 수치형 : 양적 변수
  • 참고 : 양적분석 (정량적 분석), 질적분석 (정성적분성)과 다른 표현

 

4. 상관관계 계수

  • 0 : 패턴이 일정치 않은 경우
  • 1 : 정비례
  • -1 : 반비례
  • 상관관계 계수의 절대값이 0.7 이상인 경우 강한 상관관계, 0.3이하인 경우 약한 상관관계에 있다고 판단하며, 약한 상관관계인 경우 일반적으로 관계가 없다고 판단
  • 중요! 반드시 그래프로 그려봐야하는 이유
    • 상관관계 계수는 기울기를 표현해주지 않는다!
    • 특정 패턴을 보이더라도 계수는 낮게 표현될 수 있다. (ex. 그래프로 그렸을 때 별, 사각형, 원띄 같은 패턴을 보이더라도...)
  • 비선형 상관관계에 있는 경우 선형 상관관계로 바꿔주어야 분석 가능하며 반드시 산포도를 같이 봐야함
  • 분석이 용이 상관관계가 낮은 독립변수는 제외 (ex. 매출에 영향을 주는 요인 중 화장실 크기, 영업시간과 같은 변수가 관계가 낮다면 분석 항목에서 제외)

 

 

5. 분산팽창요인

Parameter Estimates
Variable DF Parameter Estimate Standard Error t Value Pr > |t| Variance Inflation
Intercept 1 2.93889 0.31191 9.42 <.0001 0
X1 1 2.40576 0.00139 32.81 <.0001 217.32343
X2 1 0.50153 0.00861 21.89 <.0001 15.43566
X3 1 1.00104 0.00587 4.36 0.0057 224.34346
X4 1 0.79816 0.15094 5.29 <.0001 245.23235
  • VIF : 분산팽창요인으로 10보다 크면 다중공선성에 문제가 있다고 판단
    • 다중공선성 (Multicollinearity) : 선형 성관관계가 존재할 경우를 뜻함 
    • 다중공선성이 있는 경우 독립변수 간 선형 상관관계가 있어 회귀계수의 분산이 커짐 : 분산 결과가 불안정하게 되어 분석의 효과성 감소
    • 문제 파악을 위해 산점도를 그려 눈으로 파악 필요
    • 변수를 한번에 빼는 것이 아니라 하나씩 제외해가며 다시 지표를 파악하며 유효한 변수를 최적화해서 남겨야 함

'+ 정리하기 > 데이터 분석' 카테고리의 다른 글

그룹화와 거리측정  (0) 2023.09.08
의사결정나무  (0) 2023.08.28
분석 방법  (0) 2023.08.09
양적요인과 질적요인  (0) 2023.07.24
통계 지표 보는 법  (0) 2023.07.21