two sample t- test는 각 변수가 결과값에 미치는 영향을 확인할 때 사용할 수 있다.
머신러닝에서 각 feature의 중요도를 판별할때 사용할 수 있다.
결과값에대한 영향 유무의 판별은 다음과 같이 진행한다.
1. 먼저 변수x가 결과값y에 영향을 주지 않는다는 귀무가설을 설정한다.
2. 결과값에 차이가 있는 표본1, 2를 준비한다.
3. 표준화 식을 통해 t값을 계산하고 t분포를 그려본다.
4. t분포에서 p-value를 계산하고, 자신이 설정한 유의수준 보다 작다면, 귀무가설을 기각하고, 대립가설인 해당 변수가 결과에 영향이 있다는 결론을 내린다.
예시를 통해 확인하는것이 이해하기 편하다.
예시
A 은행에는 각 고객에 대해 '통장 잔고', '연령', '소득', '신용도'에 대한 데이터가 있다.
나는 '잔고'(x)가 '신용'(y)에 영향이 있는지 확인하고 싶다.
이를 위해 신용이 높은 집단 y 과 신용이 낮은 집단 x 집단의 데이터를 표집했다.
※모집단은 각각 Y, X이다.
1. 귀무가설 설정 $H_{0}$: 잔고는 신용도에 영향이 없다.
$$H_{0} : \mu^{잔고}_{Y} = \mu^{잔고}_{X}$$
$$H_{1} : \mu^{잔고}_{Y} \neq \mu^{잔고}_{X}$$
2. 결과값(신용도)에 차이가 있는 표본 1, 2 표집 y : 신용 o x: 신용 x
각 집단의 잔고에 대한 평균, 분산 가정
$$X \sim N(\mu^{잔고}_{Y} , \sigma^{2}_{X}) \quad X \sim N(\mu^{잔고}_{X}, \sigma^{2}_{X})$$
$$\bar{y} \sim N( \mu_{Y}, \frac{\sigma_{Y}^{2}}{n}) \quad \bar{X} \sim N( \mu_{X}, \frac{\sigma_{X}^{2}}{m})$$
$$\bar{x} - \bar{y} \sim N(\mu_{X} - \mu_{Y} , \frac{\sigma^{2}_{X}}{n} + \frac{\sigma^{2}_{Y}}{m})$$
3. 표준화 식으로 t값 계산
$$z = \frac{(\bar{x}-\bar{y})-(\mu_{X}-\mu_{Y})}{\sqrt{\frac{s^{2}_{x}}{n} + \frac{s^{2}_{y}}{m}}} \sim N(0,1)$$
이때, 귀무가설 $H_{0}$가 사실이라면, $\mu_{X} = \mu_{Y}, \; \mu_{X}-\mu_{Y} = 0$
해당 z값은 z값이 아닌 t값으로 t분포를 따르게 되므로
$$t = \frac{\bar{x}-\bar{y}}{\sqrt{\frac{s^{2}_{x}}{n}+\frac{s^{2}_{y}}{m}}} \sim t(n + m - 2)$$
4. 이렇게 계산된 t값으로 t분포도에서 t값일때의 p-value를 찾고, 자신의 유의수준보다 작다면 대립가설(잔고는 신용도에 영향을 준다)를 채택하고, 그것이 아니라면 귀무가설(잔고는 신용도에 영향을 주지 않는다)를 채택하면 된다.
'Study > 수학과통계' 카테고리의 다른 글
시계열 데이터 Time Series Data (0) | 2020.11.01 |
---|---|
선형회귀분석 Linear Regression , SSE, OLS (0) | 2020.10.23 |
p-value와 t분포 (0) | 2020.10.19 |
통계적추론 ~ 귀무가설 (0) | 2020.10.16 |
0. 평균과 표준편차 (0) | 2020.10.14 |