분석 방법

Notice

Recent Posts

Recent Comments

Link

250x250

« 2026/02 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28

Tags more

Archives

Today

Total

관리 메뉴

cmos00

분석 방법 본문

+ 정리하기/데이터 분석

분석 방법

cmos00 2023. 8. 9. 10:47

1. 회귀 분석 방법

결과가 수치로 나오며, 분석되는 데이터가 수치형이어야 함
종류 : t-검정 (t-test), 분산 분석, 선형 회귀 (Linear Regression) 등

2. 분류 분석 방법

분석되는 데이터가 범주형 (ex. 우편번호, 랭킹, 재구매 여부)을 분석
- 재구매 : Boolean값이며, 이는 수치가 아니며 발생할 가능성을 이해하기 위해 "확률"로 표기 (때문에 범주형)
종류 : 로지스틱 회귀 (Logistic Regression), 판별 분석 (Discriminant Analysis), 서포트 벡터 머신 (Support Vector Machine), 의사결정 나무 (Decision Tree), k-최근접이웃 (k-Nearest Neighbors) 등

3. 로지스틱 회귀 자세히 보기

일반 선형 회귀식과의 차이
1. 선형 회귀식 : Y = aX + b
2. 로지스틱 회귀의 선형식 : In(Y/(1-Y)) = aX + b
  - 지수 : a^b = c, 2^3 = 8
  - 로그 : log a(c) = b, log 2(8) = 3
  - 자연로그 : log e(x)와 같이 e값을 밑으로 하는 로그 함수, 이를 In(x)라고 표기
  - e는 2.718281828459045...와 같이 시작되며 복리 표현을 위해 만들어진 자연상수. e = lim n→∞ (1+1/n)^n
  - 때문에 In(Y/(1-Y)) = aX + b와 e^(aX + b) = Y / (1-Y)는 같은 식
개념 이해
1. 선형 회귀와 비슷하나 그래프로 표현했을 때 -자 가 아니라 S자 형태를 그림
2. 변수의 수치가 최대로 감소하거나 증가하더라도 max값이 0과 1을 넘지 않음
  - 로지스틱 회귀 선형식은 S자 곡선을 그리게 됨
  - Y는 0~1의 값을 갖게 되며 이 값은 특정 사건의 발생 확률를 의미. 1-Y는 특정 사건이 발생하지 않을 확률을 의미
로지스틱 회귀의 선형식과 로지스틱 함수
1. 로지스틱 회귀 선형식
  - 이 선형식의 목적은 입력 변수와 로그 오즈 (주어진 조건에서 어떤 사건이 발생할 확률과 발생하지 않을 확률 사이의 비율) 사이의 선형 관계를 모델링하는 것
  - 로그 오즈 값은 −∞에서 +∞까지의 범위를 가짐
  - In(P(Y=1) / (1-P(Y=1)) = 로그오즈
2. 로지스틱 함수 (또는 시그모이드 함수)
  - 이 함수의 주요 목적은 로그 오즈 값을 확률로 변환하는 것
예시 적용

Analysis of Maximum Likelihood Estimates
Parameter	DF	Estimate	Standard Error	Wald Chi-Square	Pr > ChiSq
Intercept	1	-10.6513	0.3612	869.7411	<.0001
Income	1	0.01100	0.000220	622.6244	<.0001

Odds Ratio Estimates
Effect	Point Estimate	95% Wald Confidence Limits
Income	1.006	1.005	1.006

In(Y/(1-Y)) = aX + b는 In(P(Y=1) / (1-P(Y=1)) = aX + b
- P(Y=1)은 True를 의미하며 반대로 P(Y=0)은 False를 의미
a는 income의 계수로 0.01100, b는 Intercept로 -10.6513, X는 income으로 1000으로 적용할 예정
- "In(P(Y=1) / (1-P(Y=1))" = "0.01100 * 1000 - 10.6513" = "11 - 10.6513" = "0.3487"
이렇게 구해진 로그오즈를 확률로 변환
- "P(Y=1) / (1-P(Y=1))" = "e^0.3487" ≈ "1.417"
- ≈은 "대략"을 의미
발생할 확률인 P(Y=1)을 구하기 위해 식을 재정리
- "P(Y=1)" = "1.417 * (1 − P(Y=1))" = "1.417 − 1.417 * P(Y=1)"
- "P(Y=1) + 1.417 * P(Y=1) = 1.417" = "P(Y=1) * (1 + 1.417) = 1.417"
- "P(Y=1)" = "1.417 / (1 + 1.417)"
- "P(Y=1)" ≈ "0.5862"
즉, 58.62%
- 이를 간략하게 식으로 풀어내면 P(Y=1) = e(aX+b) / {1+e(aX+b)}
- "P(Y=1)" = "e^0.3487 / (1 + e^0.3487)" = "1.417 / (1 + 1.417)"

5. 기타 정보

확률과 오즈의 차이
- 둘 다 어떤 사건이 발생할 가능성을 나타내는 척도
- 예를 들어 주사위를 던져서 1이 나오는 경우를 확률은 1/6로 표기하며, 오즈는 발생할 확률인 1/6을 발생하지 않을 확률 5/6으로 나눈 것으로 0.2가 나옴
- 오즈는 "1이 나올 가능성이 1이 아닌 다른 숫자가 나올 가능성의 0.2배"임을 나타냄
- 오즈가 0~∞ 범위를 가지는 이유: 경우의 수가 1인 상황에서 발생하는 케이스가 1이라면 1/0, 발생하지 않는 케이스가 1이라면 0/1로 정의될 수 있음
- 1/0 참고: 수학에서 해당 케이스는 정의되지 않으며, f(x) = 1 / x 를 기준으로 x가 0에 가까워질수록 y값이 무한대에 가까워지기에 이를 편의상 무한대로 정의하여 해석
로그 오즈란?
- 오즈에 자연로그를 취한 값: In(Odds) = Log e(Odds)
- 오즈에 로그를 취하는 이유
  - 분석 용이성을 높이기 위해
    - 경우의 수가 2인 상황에서 발생과 비발생이 1:1 비중이라면 1이 되기에 발생 비율이 무제한 높아지면 ∞에 가까워지고 비발생 비율이 무제한 높아지면 0에 가까워지는 현상 발생
    - 이는 1을 기준으로 분석상 비대칭인 구조를 갖게 됨
    - 이를 해소하는 방법으로 이 수의 Log를 취하게 되면 0을 기준으로 대칭 구조를 띄게 됨
    - 이것이 바로 로그오즈 값이 −∞에서 +∞까지의 범위를 갖게 되는 이유
    - 이렇게 되면 각 경우를 분리하여 볼 경우 (ex. 시즌별 우리팀의 승패오즈 분석) 정규분포를 띄게되며 이는 분석 용이성이 높아짐을 의미

저작자표시 비영리 변경금지 (새창열림)

'+ 정리하기 > 데이터 분석' 카테고리의 다른 글

그룹화와 거리측정 (0)	2023.09.08
의사결정나무 (0)	2023.08.28
변수 (0)	2023.07.26
양적요인과 질적요인 (0)	2023.07.24
통계 지표 보는 법 (0)	2023.07.21

'+ 정리하기/데이터 분석' Related Articles

cmos00

분석 방법 본문

분석 방법

1. 회귀 분석 방법

2. 분류 분석 방법

3. 로지스틱 회귀 자세히 보기

'+ 정리하기 > 데이터 분석' 카테고리의 다른 글

티스토리툴바