Notice
Recent Posts
Recent Comments
250x250
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
Tags
- Dslr
- 카메라
- 60d
- Advertisement
- 올포스트
- research
- 마케팅
- 소비자
- olpost
- 경영전쟁
- 광고조사
- 브랜드
- 광고
- communication
- Marketing
- ad
- 손무
- 광고학개론
- cmos00
- 심리학
- 손자병법 활용
- 커뮤니케이션
- 손자병법
- 손자
- frozensea
- 경영전략
- 리서치
- 매체
- 대인관계
- 차가운바다
Archives
- Today
- Total
cmos00
분석 방법 본문
1. 회귀 분석 방법
- 결과가 수치로 나오며, 분석되는 데이터가 수치형이어야 함
- 종류 : t-검정 (t-test), 분산 분석, 선형 회귀 (Linear Regression) 등
2. 분류 분석 방법
- 분석되는 데이터가 범주형 (ex. 우편번호, 랭킹, 재구매 여부)을 분석
- 재구매 : Boolean값이며, 이는 수치가 아니며 발생할 가능성을 이해하기 위해 "확률"로 표기 (때문에 범주형)
- 종류 : 로지스틱 회귀 (Logistic Regression), 판별 분석 (Discriminant Analysis), 서포트 벡터 머신 (Support Vector Machine), 의사결정 나무 (Decision Tree), k-최근접이웃 (k-Nearest Neighbors) 등
3. 로지스틱 회귀 자세히 보기
- 일반 선형 회귀식과의 차이
- 선형 회귀식 : Y = aX + b
- 로지스틱 회귀의 선형식 : In(Y/(1-Y)) = aX + b
- 지수 : a^b = c, 2^3 = 8
- 로그 : log a(c) = b, log 2(8) = 3
- 자연로그 : log e(x)와 같이 e값을 밑으로 하는 로그 함수, 이를 In(x)라고 표기
- e는 2.718281828459045...와 같이 시작되며 복리 표현을 위해 만들어진 자연상수. e = lim n→∞ (1+1/n)^n
- 때문에 In(Y/(1-Y)) = aX + b와 e^(aX + b) = Y / (1-Y)는 같은 식
- 개념 이해
- 선형 회귀와 비슷하나 그래프로 표현했을 때 -자 가 아니라 S자 형태를 그림
- 변수의 수치가 최대로 감소하거나 증가하더라도 max값이 0과 1을 넘지 않음
- 로지스틱 회귀 선형식은 S자 곡선을 그리게 됨
- Y는 0~1의 값을 갖게 되며 이 값은 특정 사건의 발생 확률를 의미. 1-Y는 특정 사건이 발생하지 않을 확률을 의미
- 로지스틱 회귀의 선형식과 로지스틱 함수
- 로지스틱 회귀 선형식
- 이 선형식의 목적은 입력 변수와 로그 오즈 (주어진 조건에서 어떤 사건이 발생할 확률과 발생하지 않을 확률 사이의 비율) 사이의 선형 관계를 모델링하는 것
- 로그 오즈 값은 −∞에서 +∞까지의 범위를 가짐
- In(P(Y=1) / (1-P(Y=1)) = 로그오즈
- 로지스틱 함수 (또는 시그모이드 함수)
- 이 함수의 주요 목적은 로그 오즈 값을 확률로 변환하는 것
- 로지스틱 회귀 선형식
- 예시 적용
| Analysis of Maximum Likelihood Estimates | |||||
| Parameter | DF | Estimate | Standard Error | Wald Chi-Square | Pr > ChiSq |
| Intercept | 1 | -10.6513 | 0.3612 | 869.7411 | <.0001 |
| Income | 1 | 0.01100 | 0.000220 | 622.6244 | <.0001 |
| Odds Ratio Estimates | |||
| Effect | Point Estimate | 95% Wald Confidence Limits | |
| Income | 1.006 | 1.005 | 1.006 |
- In(Y/(1-Y)) = aX + b는 In(P(Y=1) / (1-P(Y=1)) = aX + b
- P(Y=1)은 True를 의미하며 반대로 P(Y=0)은 False를 의미
- a는 income의 계수로 0.01100, b는 Intercept로 -10.6513, X는 income으로 1000으로 적용할 예정
- "In(P(Y=1) / (1-P(Y=1))" = "0.01100 * 1000 - 10.6513" = "11 - 10.6513" = "0.3487"
- 이렇게 구해진 로그오즈를 확률로 변환
- "P(Y=1) / (1-P(Y=1))" = "e^0.3487" ≈ "1.417"
- ≈은 "대략"을 의미
- 발생할 확률인 P(Y=1)을 구하기 위해 식을 재정리
- "P(Y=1)" = "1.417 * (1 − P(Y=1))" = "1.417 − 1.417 * P(Y=1)"
- "P(Y=1) + 1.417 * P(Y=1) = 1.417" = "P(Y=1) * (1 + 1.417) = 1.417"
- "P(Y=1)" = "1.417 / (1 + 1.417)"
- "P(Y=1)" ≈ "0.5862"
- 즉, 58.62%
- 이를 간략하게 식으로 풀어내면 P(Y=1) = e(aX+b) / {1+e(aX+b)}
- "P(Y=1)" = "e^0.3487 / (1 + e^0.3487)" = "1.417 / (1 + 1.417)"
5. 기타 정보
- 확률과 오즈의 차이
- 둘 다 어떤 사건이 발생할 가능성을 나타내는 척도
- 예를 들어 주사위를 던져서 1이 나오는 경우를 확률은 1/6로 표기하며, 오즈는 발생할 확률인 1/6을 발생하지 않을 확률 5/6으로 나눈 것으로 0.2가 나옴
- 오즈는 "1이 나올 가능성이 1이 아닌 다른 숫자가 나올 가능성의 0.2배"임을 나타냄
- 오즈가 0~∞ 범위를 가지는 이유: 경우의 수가 1인 상황에서 발생하는 케이스가 1이라면 1/0, 발생하지 않는 케이스가 1이라면 0/1로 정의될 수 있음
- 1/0 참고: 수학에서 해당 케이스는 정의되지 않으며, f(x) = 1 / x 를 기준으로 x가 0에 가까워질수록 y값이 무한대에 가까워지기에 이를 편의상 무한대로 정의하여 해석
- 로그 오즈란?
- 오즈에 자연로그를 취한 값: In(Odds) = Log e(Odds)
- 오즈에 로그를 취하는 이유
- 분석 용이성을 높이기 위해
- 경우의 수가 2인 상황에서 발생과 비발생이 1:1 비중이라면 1이 되기에 발생 비율이 무제한 높아지면 ∞에 가까워지고 비발생 비율이 무제한 높아지면 0에 가까워지는 현상 발생
- 이는 1을 기준으로 분석상 비대칭인 구조를 갖게 됨
- 이를 해소하는 방법으로 이 수의 Log를 취하게 되면 0을 기준으로 대칭 구조를 띄게 됨
- 이것이 바로 로그오즈 값이 −∞에서 +∞까지의 범위를 갖게 되는 이유
- 이렇게 되면 각 경우를 분리하여 볼 경우 (ex. 시즌별 우리팀의 승패오즈 분석) 정규분포를 띄게되며 이는 분석 용이성이 높아짐을 의미
- 분석 용이성을 높이기 위해
'+ 정리하기 > 데이터 분석' 카테고리의 다른 글
| 그룹화와 거리측정 (0) | 2023.09.08 |
|---|---|
| 의사결정나무 (0) | 2023.08.28 |
| 변수 (0) | 2023.07.26 |
| 양적요인과 질적요인 (0) | 2023.07.24 |
| 통계 지표 보는 법 (0) | 2023.07.21 |