관리 메뉴

cmos00

분석 방법 본문

+ 정리하기/데이터 분석

분석 방법

cmos00 2023. 8. 9. 10:47

1. 회귀 분석 방법

  • 결과가 수치로 나오며, 분석되는 데이터가 수치형이어야 함
  • 종류 : t-검정 (t-test), 분산 분석, 선형 회귀 (Linear Regression) 등

 

2. 분류 분석 방법

  • 분석되는 데이터가 범주형 (ex. 우편번호, 랭킹, 재구매 여부)을 분석
    • 재구매 : Boolean값이며, 이는 수치가 아니며 발생할 가능성을 이해하기 위해 "확률"로 표기 (때문에 범주형)
  • 종류 : 로지스틱 회귀 (Logistic Regression), 판별 분석 (Discriminant Analysis), 서포트 벡터 머신 (Support Vector Machine), 의사결정 나무 (Decision Tree), k-최근접이웃 (k-Nearest Neighbors) 등

 

3. 로지스틱 회귀 자세히 보기

  1. 일반 선형 회귀식과의 차이 
    1. 선형 회귀식 : Y = aX + b
    2. 로지스틱 회귀의 선형식 : In(Y/(1-Y)) = aX + b
      • 지수 : a^b = c, 2^3 = 8
      • 로그 : log a(​c) = b, log 2(8)  = 3
      • 자연로그 : log e(x)와 같이 e값을 밑으로 하는 로그 함수, 이를 In(x)라고 표기
      • e는 2.718281828459045...와 같이 시작되며 복리 표현을 위해 만들어진 자연상수. e = lim n→∞​ (1+1/n​)^n
      • 때문에 In(Y/(1-Y)) = aX + b와 e^(aX + b) = Y / (1-Y)는 같은 식
  2. 개념 이해
    1. 선형 회귀와 비슷하나 그래프로 표현했을 때 -자 가 아니라 S자 형태를 그림
    2. 변수의 수치가 최대로 감소하거나 증가하더라도 max값이 0과 1을 넘지 않음
      • 로지스틱 회귀 선형식은 S자 곡선을 그리게 됨
      • Y는 0~1의 값을 갖게 되며 이 값은 특정 사건의 발생 확률를 의미. 1-Y는 특정 사건이 발생하지 않을 확률을 의미
  3. 로지스틱 회귀의 선형식과 로지스틱 함수
    1. 로지스틱 회귀 선형식
      • 이 선형식의 목적은 입력 변수와 로그 오즈 (주어진 조건에서 어떤 사건이 발생할 확률과 발생하지 않을 확률 사이의 비율) 사이의 선형 관계를 모델링하는 것
      • 로그 오즈 값은 −∞에서 +∞까지의 범위를 가짐
      • In(P(Y=1) / (1-P(Y=1)) = 로그오즈
    2. 로지스틱 함수 (또는 시그모이드 함수)
      • 이 함수의 주요 목적은 로그 오즈 값을 확률로 변환하는 것
  4. 예시 적용
Analysis of Maximum Likelihood Estimates
Parameter DF Estimate Standard Error Wald Chi-Square Pr > ChiSq
Intercept 1 -10.6513 0.3612 869.7411 <.0001
Income 1 0.01100 0.000220 622.6244 <.0001
Odds Ratio Estimates
Effect Point Estimate 95% Wald Confidence Limits
Income 1.006 1.005 1.006
  • In(Y/(1-Y)) = aX + b는 In(P(Y=1) / (1-P(Y=1)) = aX + b
    • P(Y=1)은 True를 의미하며 반대로 P(Y=0)은 False를 의미
  • a는 income의 계수로 0.01100, b는 Intercept로 -10.6513, X는 income으로 1000으로 적용할 예정
    • "In(P(Y=1) / (1-P(Y=1))" = "0.01100 * 1000 - 10.6513" = "11 - 10.6513" = "0.3487"
  • 이렇게 구해진 로그오즈를 확률로 변환
    • "P(Y=1) / (1-P(Y=1))" = "e^0.3487" ≈ "1.417"
    • ≈은 "대략"을 의미
  • 발생할 확률인 P(Y=1)을 구하기 위해 식을 재정리
    • "P(Y=1)" = "1.417 * (1 − P(Y=1))" = "1.417 − 1.417 * P(Y=1)"
    • "P(Y=1) + 1.417 * P(Y=1) = 1.417" = "P(Y=1) * (1 + 1.417) = 1.417"
    • "P(Y=1)" = "1.417 / (1 + 1.417)"​
    • "P(Y=1)" ≈ "0.5862"
  • 즉, 58.62%
    • 이를 간략하게 식으로 풀어내면 P(Y=1)  =  e(aX+b) / {1+e(aX+b)}
    • "P(Y=1)" = "e^0.3487 / (1 + e^0.3487)" = "1.417 / (1 + 1.417)"

5. 기타 정보

  • 확률과 오즈의 차이
    • 둘 다 어떤 사건이 발생할 가능성을 나타내는 척도
    • 예를 들어 주사위를 던져서 1이 나오는 경우를 확률은 1/6로 표기하며, 오즈는 발생할 확률인 1/6을 발생하지 않을 확률 5/6으로 나눈 것으로 0.2가 나옴
    • 오즈는 "1이 나올 가능성이 1이 아닌 다른 숫자가 나올 가능성의 0.2배"임을 나타냄
    • 오즈가 0~∞ 범위를 가지는 이유: 경우의 수가 1인 상황에서 발생하는 케이스가 1이라면 1/0, 발생하지 않는 케이스가 1이라면 0/1로 정의될 수 있음
    • 1/0 참고: 수학에서 해당 케이스는 정의되지 않으며, f(x) = 1 / x 를 기준으로 x가 0에 가까워질수록 y값이 무한대에 가까워지기에 이를 편의상 무한대로 정의하여 해석
  • 로그 오즈란?
    • 오즈에 자연로그를 취한 값: In(Odds) = Log e(Odds)
    • 오즈에 로그를 취하는 이유
      • 분석 용이성을 높이기 위해
        • 경우의 수가 2인 상황에서 발생과 비발생이 1:1 비중이라면 1이 되기에 발생 비율이 무제한 높아지면 ∞에 가까워지고 비발생 비율이 무제한 높아지면 0에 가까워지는 현상 발생
        • 이는 1을 기준으로 분석상 비대칭인 구조를 갖게 됨
        • 이를 해소하는 방법으로 이 수의 Log를 취하게 되면 0을 기준으로 대칭 구조를 띄게 됨
        • 이것이 바로 로그오즈 값이 −∞에서 +∞까지의 범위를 갖게 되는 이유
        • 이렇게 되면 각 경우를 분리하여 볼 경우 (ex. 시즌별 우리팀의 승패오즈 분석) 정규분포를 띄게되며 이는 분석 용이성이 높아짐을 의미
 
 
 

'+ 정리하기 > 데이터 분석' 카테고리의 다른 글

그룹화와 거리측정  (0) 2023.09.08
의사결정나무  (0) 2023.08.28
변수  (0) 2023.07.26
양적요인과 질적요인  (0) 2023.07.24
통계 지표 보는 법  (0) 2023.07.21