관리 메뉴

cmos00

그룹화와 거리측정 본문

+ 정리하기/데이터 분석

그룹화와 거리측정

cmos00 2023. 9. 8. 10:25

1. 대표 거리 측정 모델

  • 유클리드 거리: 절대적인 수치로 비교 대상이 얼마나 가까이 있는 지 기준
  • 피어슨 상관거리: 거리보다는 패턴의 유사도가 얼마나 있는 지 기준

 

2. 예시

항목 변수 1 변수 2 변수 3 변수 4 변수 5 유클리드 거리 피어슨 상관거리
A 2 8 12 4 2 - -
B 2 0 0 2 0 17.70 -0.55
C 4 2 3 1 1 11.45 0.19
D 6 7 10 0 6 7.28 0.60
E 1 4 6 2 1 7.62 1.00
  • 유클리드 거리: 수치가 낮을수록 비슷
  • 피어슨 상관거리: -1 ~ 1로 수치가 나타나며 -1이나 1에 가까울수록 비슷하며 0에 가까울수록 관련이 없음
  • 주의: 분석 시 데이터 표준화를 반드시 거쳐야 함

 

3. 데이터 표준화

  • 개요
    • 유클리드 거리 측정법을 사용할 겨우 데이터 표준화가 필요
  •  개념 정의
    • 데이터의 각 특성(feature)이 평균이 0이고 분산이 1이 되도록 변환하는 과정
    • 데이터가 정규분포를 따른다는 전제하에 평균을 0으로 맞춰 좌우가 동일하도록 가공
    • 참고: 데이터 정규화라는 개념이 있으며 이는 모든 데이터를 0~1사이 값으로 변환하는 것을 의미
  • 이유
    • 단위 문제 해결: 100 만점인 수학점수와 990 만점인 영어 점수를 같이 놓고 분석하기 힘들기에 이를 용이하게 하기 위함
    • 데이터 분포: 표준화를 통해 데이터가 정규 분포에 가까워질 경우, 통계적 분석이 더욱 정확
    • 알고리즘 성능 향상: 많은 머신러닝 알고리즘들은 표준화된 데이터에서 더 빠르고 정확하게 수렴

'+ 정리하기 > 데이터 분석' 카테고리의 다른 글

k-평균 군집 분석 (k-means clustering)  (0) 2023.09.19
분석방법론 구분  (0) 2023.09.19
의사결정나무  (0) 2023.08.28
분석 방법  (0) 2023.08.09
변수  (0) 2023.07.26