R) 상관관계 분석 cor() 옵션

상관관계 분석에 사용되는 cor() 함수의 경우 기본Default 설정으로 pearson 가 적용되어 있다.


cor(Data , method = c("pearson", "spearman", "kandall") )

1. method = "pearson"

피어슨 상관계수 (Pearson Correlation Coefficient)

- 두 연속형(수치형) 변수 간의 선형 관계(직선적 관계)를 측정

변수가 정규성을 만족하고, 등간척도 또는 비율척도일 때 적합

- 결과값은 -1 ~ 1 사이의 값으로 표현

- 이상치에 민감

※ 등간척도 : 값 사이의 간격(interval)이 일정한 척도로, 숫자로 표현되지만 절대적인 0의 개념이 없음을 말함

피어슨 상관관계 적용 예시
조건 : 
1) 변수가 연속형(수치형) 데이터이면서 정규성을 만족해야 함
2) 두 변수의 관계가 직선형이 경우 적합

ex)  키-몸무게, 자동차 엔진의 크기-연비 등


2. method = "spearman"

스피어만 순위 상관계수 (Spearman’s Rank Correlation Coefficient)

- 서열(순위) 데이터를 기반으로 두 변수 간의 단조(monotonic) 관계를 측정

- 피어슨과 달리 데이터의 선형 관계가 아닌 비선형적인 관계도 측정 가능

- 정규성을 가정하지 않으며, 서열척도(ordinal data)에도 적합.

- 이상치에 덜 민감

※ 단조관계 : 단조관계란 한 변수가 증가(또는 감소)할 때, 다른 변수도 일정한 방향으로 변화하는 관계를 의미합니다. 꼭 선형 관계일 필요는 없으며, 비선형 관계도 포함됩니다.

※ 서열척도 : 순서를 나타낼 수 있지만, 각 값 간의 차이를 정확히 측정할 수 없는 척도

스피어만 순위 상관계수 적용 예시

조건 :
1) 연속형 또는 서열형 데이터에 적용 가능
2) 정규성을 만족하지 않아도 상관 없음
3) 비선형일 가능성이 있는 경우


ex) 공부 시간-성적, 고객 만족도-재구매율 등


3. method = "kendall"

켄달 타우 상관계수 (Kendall’s Tau)

- 서열 데이터 간의 일관성을 측정하며, 두 변수의 공동 순위(concordant, discordant pairs)를 기반으로 계산

- 피어슨과 스피어만보다 노이즈(이상치)에 강한 특성이 있음

- 데이터 크기가 작거나, 순위 데이터(ordinal data)에 적합

- 계산량이 많으므로, 대규모 데이터 셋에서는 속도가 느림

※ 공동순위 : 공동순위는 두 개 이상의 데이터가 동일한 순위를 가지는 경우를 의미

켄달 타우 상관계수 예시

조건 :
1) 순위 데이터 적용가능
2) 적은 수의 데이터 연산을 권장


ex) 영화 평점-박스오피스 성정, 올림픽 메달-선수의 순위 등

댓글