R) 데이터 기초 분석

 ※ 설명을 위한 실습은 기본 제공되는 R 에서 제공되는 iris 데이터를 사용하였습니다.

str(데이터 셋) : 데이터 셋의 구조를 확인



iris 데이터 분석

- 5열  150행으로 구성(150개의 데이터 구성)
- 각 Sepal.Length(꽃받침의 길이), Sepal.Width(꽃받침의 폭), Petal.Length(꽃잎의 길이), Petal.Width(꽃잎의 폭), Species(종 : setosa/versicolor/virginica)
- Species 를 제외한 모든 열은 정수(num) 타입의 벡터형 자료 구조
- Species의 경우 3가지 값(3 levels)을 갖는 요인(Factor)형 자료 구조, 내부가 숫자로 저장됨
(1 = setosa, 2 = versicolor, 3 = virginica)


summary(데이터 셋) : 통계적 요약, 최소/최대, 각 분위수, 등 요약 값 출력

iris 데이터 통계 요약

- Min/Max : 최소/최대
- 1st Qu/3st Qu : 1분위수, 3분위수
- Median : 중앙값(2분위수)
- Mean : 평균값


※ 4분위수 정리

  1. 제1사분위수(Q1, 1분위수):

    • 하위 25% 지점
    • 데이터의 25%가 이 값보다 작음
    • 전체 데이터의 1/4 지점
  2. 제2사분위수(Q2, 2분위수 또는 중앙값):

    • 하위 50% 지점 (중앙값)
    • 데이터의 50%가 이 값보다 작고, 50%는 큼
    • 전체 데이터의 1/2 지점
  3. 제3사분위수(Q3, 3분위수):

    • 하위 75% 지점
    • 데이터의 75%가 이 값보다 작음
    • 전체 데이터의 3/4 지점
  4. 제4사분위수(Q4, 최대값):

    • 데이터의 최대값
    • 100%의 데이터가 이 값보다 작거나 같음

iris Sepal width histogram


- 꽃받침 폭 히스토그램

hist(  적용 데이터 열  , main  =      "히스토그램 제목"        , xlab = "가로 축 제목")
hist(iData$Sepal.Width, main = "iris Sepal Width histogram", xlab = "length")



iris sepal width boxplot

- 대략적으로 virginica 품종의 box 면적이 가장 작은 것을 확인할 수 있음
- versicolor, setosa 의 분포가 상대적으로 넓은 편
- setosa의 경우 이상치 확인

Shapiro-Wilk test
: 해당 데이터가 정규분포를 따르는지에 대한 여부 확인을 위한 검증 방법

귀무가설 : 정규분포를 따른다
대립가설 : 정규분포를 따르지 않는다


shapiro.test(데이터 셋) : Shapiro-Wilk test 수행

setosa, virginica 품종에 대한 각각의 Sepal.Width 에 대해 검증 수행

     subset(        해당 열       ,              조건식            ) → 조건식에 해당되는 열 추출
v = subset(iData$Sepal.Width, iData$Species == "setosa")
s = subset(iData$Sepal.Width, iData$Species == "virginica")


- W : 데이터가 정규분포에 얼마나 근접하는지를 나타내는 검정 통계량(Test Statistic)
- p-value : W 와 반비례 관례, 귀무가설 기각 여부 결정

W 가 1에 가까울수록 정규성 만족, p-value가 0.05 보다 크다면 정규분포를 따름

각 데이터 셋은 정규분포를 따르고 있음(귀무가설 채택)


T-Test
: 두 그룹 간의 평균 차이의 유의미성을 검정하는 통계적 검정 방법
주로 집단 간 평균 비교 및 처리 전후의 변화 검정에 사용

t.test(v,s) : 각 데이터 들에 대해 T-test 수행



귀무가설 : 두 그룹간 유의미한 평균 차이 없음
대립가설 : 두 그룹간 유의미한 평균 차이 존재

t : 두 그룹의 평균 차이의 크기를 나타내는 검정 통계량
→ 클수록 평균 차이가 큼, 0에 가까울 수록 평균 차이가 거의 없다

df(Degrees of Freedom) : 자유도, 표본 크기에 따라 결정, 통계적으로 독립적인 정보의 수
→ 자유도가 높을수록 표본이 크며, 신뢰성 있는 결과 도출 가능

p-value : 유의확률, 귀무가설 기각 여부 결정(0.05 크다면 귀무가설 채택)
→ 귀무가설이 맞다는 전제 하에 관측된 데이터가 얼마나 이례적인지를 보여줌

alternative hypothesis : 대립가설의 유형
confidence interval : 평균 차이의 신뢰 구간(default : 95%)
→95%의 확률로 참 값이 포함됨

sample estimates : 각 그룹의 평균 값

댓글