회귀 분석
- 연속성을 갖는 수치형 데이터들에 대해서 적용하는 분석/예측 방법
- f(x) = y 와 같은 관계를 가지면서 독립변수와 종속변수의 관계가 선형이여야 하는 등 여러 조건이 만족 되어야 회귀 분석이 가능하다.
* 잔차에 대해 독립변수와 연관이 없어야 하며, 잔차 간의 분산이 연관성이 없고 분산이 일정해야 함
단일 회귀 분석
종속변수-독립변수에 대한 y = ax + c 와 같은 형태로 표현 가능
실습 사용 데이터
- mtcars : 연비에 대한 자동자의 연속성, 범주형 데이터 존재
mpg(연비), cyl(실린더 수), disp(배기량), hp(마력), drat(리어 액슬 기어비), wt(차체 무게), qsec(1/4마일 가속 시간), vs(엔진 형태), am(변속기 종류), gear(기어 수), carb(카뷰레터 개수)
※ 범주형 데이터의 경우 회귀 분석을 위해서는 별도의 변환이 필요 하며, mtcars의 해당 데이터는 '숫자형'으로 표기되나 범주형 변환 후 별도의 변환이 필요
cyl(실린더 수), vs(엔진형태), am(변속기 종류), gear(기어 수), carb(카뷰레터 개수) → 범주형(Categorical) (변환 필요)
→ 실습을 위해 해당 데이터 열은 제외하여 회귀용 데이터 셋 생성
→ 1.79e-07 < 0.05 : 통계적 유의
2. pr 개별 독립 변수의 통계적 유의 여부 : 0.05 보다 작다면 신뢰수준 95% 에서 통계적의 유의
→ * 의 개수가 많을 수록 p 값이 작다는 걸을 명시
3. Multiple R-squared : 값이 1에 가까울 수록 회귀 모델의 성능 측정
Adjusted R-squared : 불필요한 변수를 고려하여 조정된 값
※ 일반적으로 0.7 보다 크다면, 우수한 성능
→ 0.6024 < 0.7 : 성능이 낮은 것으로 확인
4. Estimate : 회귀모델 설계를 위한 값
※ Intercept : 절편
→ y = -0.06823 * X(hp) + 30.09886
다중 회귀 분석
단순히 종속변수와 하나의 독립변수로 구성된 회귀 모델은 여러 독립변수로 구성된 데이터 셋에 비해 적합하지 않다.(다른 독립변수들과 복합적인 상관 관계가 있으므로)
※ 다른 열에 대해 독립변수를 추가하는 경우 "+" 기호 사용
- 개별 독립 변수 중 wt(차체 무게) 가 통계적으로 유의한 값임을 확인
- R^2의 경우 0.7 이상이므로 성능은 우수한 편
독립 변수를 포함하여 모델을 생성하는 경우, 각 독립 변수 간 상관관계가 발생하여 높은 성능의 회귀분석이 어려울 수 있다.
이때 독립 변수 간 상관관계에 의한 현상을 다중공선성이라 한다.
- vif(회귀 모델) : 10 보다 작다면 양호, 30을 초과 한다면 다중공선성 문제가 있는 것을 확인 할 수 있다.
Step() 을 응용한 단계별 생성
direction option :
forward : 절편만 존재하는 모델에서 독립변수를 추가함으로써 최적의 모델을 찾는 방법
backward : 독립변수, 절편을 모두 포함하는 모델에서 독립변수를 제거하는 방향으로 최적의 모델을 찾는 방법
- AIC 가 작을수록 최적의 모델
- mpg ~ drat + wt + qsec 채택
댓글
댓글 쓰기