지난번, 귀무가설과 대립가설에대해 포스트 했다. xiang32.tistory.com/5
통계적추론 ~ 귀무가설
댓글을 쓰고싶다면 열어보세용 더보기 나는 통계에 대한 사전 지식이 많지 않은 편으로, 통린이의 입장에서 수업을 통해 이해한 통계적추론과 귀무가설로부터 two sample t-test까지를 적어보려고 �
xiang32.tistory.com
오늘은 1종 오류의 최대 허용률(귀무가설이 참인데 대립가설을 채택할때 발생하는 오류)-유의수준$\alpha$을 이야기하는 p-value와 t분포에 대해서 정리 할 것이다.
1.p-value
p-value는 지난번 가설검정의 표준정규분포에서 z값 밖의 영역으로, 귀무가설이 참일때 발생할 수 있는 1종 오류 확률을 나타낸다.
즉, 내가 유의수준을 5%미만으로 설정했다면, p-value는 0.05 미만으로 나와야 하고, 그 이상으로 나오면 귀무가설을 기각할 수 없다.
계산된 z값이 1.64라면 p-value는 아래와 같이 표현할 수 있다.
$$p-value = P(|Z| > 1.64) = 0.1$$
거칠게 이야기해서, p-value는 표준정규분포에서 z-score와 의미하는바가 같다.
이때 대립가설이 $\mu$와 $\bar{x}$의 관계를 '같지 않다' '크다' '작다' 어떻게 설정하느냐에 따라 세가지로 나뉜다.
아래 그림에서 색칠된 부분이 p-value에 해당한다.
만약 지난번 예제처럼,
귀무가설 $H_{0}$를 '프로그램을 통한 콜레스테롤 수치는 변화가 없다'로 설정하고,
대립가설 $H_{1}$을 '프로그램 전과 후의 콜레스테롤 수치는 같지 않다'로 설정한다면
(프로그램의 목적이 콜레스테롤 수치를 줄이는 것이지만, 편의를 위해 콜레스트롤 수치가 커지는 것에서도 의미를 찾는다고 가정)
$$H_{0}: \mu = \bar{x} \; H_{1}: \mu \neq \bar{x}$$
모집단의 콜레스테롤 수치 평균 $\mu$가 200 표준편차 $\sigma$가 24이며,
프로그램 후 표본의 콜레스테롤 수치의 평균 $\bar{x}$가 193이라면 (n = 40)
계산된 z값에 의해 그래프는 다음과 같이 그려지고, 색칠된 영역의 면적이 p-value값이다.
2. t 분포
우리가 표집한 표본의 평균 $\bar{x}$의 값들은 평균 $\mu$ , 표준편차 $\frac{\sigma}{\surd n}$인 정규분포를 따른다.
이를 다시 정규화시키면 평균 0 편차 1인 표준정규분포를 따른다고 알고 있다.
$$\bar{x} \sim N(\mu, \frac{\sigma^{2}}{n})$$
$$z = \frac{\bar{x} - \mu}{\frac{\sigma}{\sqrt{n}}} \sim N(0,1)$$
이때, 표본 집단의 크기가 작은경우 표본의 편차는 모집단과 다르고, 우리는 모집단의 평균과 분산을 모르기 때문에, z정규화를 수행할 수 없다. 정규화 식에 모집단 편차가 아닌 표본의 편차 $s$를 대입하게 되면, z 값은 정규분포를 따르지 않고 t분포를 따르게 된다. 그리고 이값을 t값이라고 이야기 할 수 있다.
※Student의 t를 가져온 것으로 student-t분포라 부른다.
$$\frac{\bar{x} - \mu}{\frac{s}{\sqrt{n}}} \sim t(n-1)$$
이때, n이 커지면 샘플의 크기가 커지는 것으로, $s$는 $\sigma$에 가까워 지게 된다.
보통 n이 30 이상으로 되면 표준정규분포에 근접하다고 한다.
정리하자면, 귀무가설의 검증에서 했던 정규화과정을 표본이 작은경우 표본의 편차를 이용하여 z값이 아닌 t값으로 변환해 주고, t분포에서 p-value를 얻을 수 있게된다.
'Study > 수학과통계' 카테고리의 다른 글
시계열 데이터 Time Series Data (0) | 2020.11.01 |
---|---|
선형회귀분석 Linear Regression , SSE, OLS (0) | 2020.10.23 |
Two sample t - test (0) | 2020.10.21 |
통계적추론 ~ 귀무가설 (0) | 2020.10.16 |
0. 평균과 표준편차 (0) | 2020.10.14 |