회귀분석 : 연속형 변수들에 대해 두 변수 간의 관계를 수식으로 나타내는 분석 방법
선형인 1차 함수에서부터 비선형인 곡선까지 다양하게 표현이 가능하다.
예시와 같이 각 값들에 대해 X,Y로 표현, 관계를 1차 함수로 나타낸 것과 같다(경우에 따라선 2차 이상도 가능)
기본적으로 각 값들 사이의 상관이 없어야 하며, 선형관계, 정규분포를 이뤄야한다.
lm(데이터 열(종속변수 : Y축) ~ 데이터 열(독립변수 : X축) [+ 데이터 열(추가 독립변수)] ... , data = 데이터)
-해당 데이터에 대한 (다중)회귀분석 실행
R Studio 의 내부 예제 'iris'를 사용하여 선형회귀 분석을 한 후, 그대로 호출하면 다음과 같이 나타나며
관계에 대한 식은 다음과 같이 나타낸다.
Sepal.Length = Petal.Length * 0.9957 + 1.0597
해당 분석에 대해 summary() 함수를 사용하여 자세한 분석 결과를 확인
Coefficients 에서 Pr, 즉 독립변수에 대한 p값을 확인해야 한다.
0.05 보다 작으므로, 개별 독립변수는 유의수준 5%, 신뢰수준 95% 하에서 통계적으로 유의함을 의미한다.
Tip. Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 해당 출력은 Coefficients 에서 '*'의 개수가 많을 수록(최대 3개) 0에 가까워짐을 의미한다.
회귀모델의 p-value (6.298e-16)는 0.05 보다 작으므로 유의수준 5%, 신뢰수준 95% 하에서 추정된 회귀모델이 통계적으로 유의함을 알 수 있다.
Adjusted R-squared 는 1에 가까울 수록 성능이 높음을 의미한다.
iris 예제에서 Sepal.Width를 종속 변수(Y축)로 설정, 나머지 열을 모두 독립변수로 설정하여 다중회귀분석을 수행
Petal.Width 를 제외한 나머지 변수의 p-value의 값은 유의수준 0.05 이상이므로 유의하지 않음을 의미한다.
만약 각 변수가 강한 상관관계를 가지고 있다면, 회귀 분석에 어려움을 겪을 수 있다.
이때의 현상을 다중공선성 이라고 하며
10 미만의 수치는 일반 적인 값
10 이상 30 미만은 문제가 될 수 있는 값
30 이상의 경우 심각한 문제가 될 수 있는 값
으로 정의한다.
car 라이브러리의 vif() 함수를 사용한다
vif(데이터 회귀 분석)
-회귀분석결과 값에 대한 다중공정성 값 판별
다중 회귀 분석에서의 각 열은 독립적이며, 다중공선성은 발생하지 않았다.
댓글
댓글 쓰기