본문 바로가기

Study/수학과통계

(10)
베르누이 분포, 이항분포, Random Walk 베르누이 분포 확률 p로 성공, q로 실패를 하는 확률변수는 베르누이 분포를 따른다. 예를 들어 동전던지기는 Bernoulli(0.5)이다. 이항분포 매회 성공확률 p를 n번 반복했을때 성공회수 X가 있다. 이때 X는 이항분포를 따른다. 예를들어 타율 3할 4푼 5리 타자가 매경기 네번 타석에 섰고, 126경기를 소화했다고 한다. 이번 시즌 매경기 hit수와 전체 hit수를 예측해보자 import numpy as np a = np.random.binomial(4,0.345,size = 126) print('매경기 평균 hit수: {}, 한시즌 총 hit수: {}'.format(a.mean(), a.sum())) 매경기 평균 hit수: 1.48, 한시즌 총 hit수: 187 Random Walk 평면에서 ..
적분 in Python, 몬테카를로 방법 Monte-Carlo Method 표준 정규 분포의 적분 표준 정규 분포 확률 밀도 함수 $$ f(x) = \frac{1}{\sqrt{2 \pi}} e^{- \frac{1}{2} x^{2} } $$ 1.96~ 6까지의 적분 일반적인 적분식으로 계산하자면, $$\int_{1.96}^{6} \frac{1}{\sqrt{2 \pi}} e\left( - \frac{x^{2}}{2} \right) \, dx$$ 위 평면의 1.96부터 6까지의 초록색 막대그래프들의 넓이의 합을 구하면 된다. import numpy as np import matplotlib.pyplot as plt %matplotlib inline #Trapezoidal Rule def normal_pdf(x,m = 0, std = 1): return np.exp(- ( (x - m..
ML : K- 최근접 이웃 K-NN(K-Nearest Neighbor Algorithm) K - NN Algorithm 쓰옆쓰라는 말이 있다. 쓰레기 옆에는 쓰레기라는 말로 '유유상종' - 비슷한 사람끼리 친해지고 사귄다는 말이다. K-NN 알고리즘도 이와 같다. 입력받은 데이터를 가장 성질이 가장 가까운 이웃을 비교하여 분류하는 것이다. 예를들어 평면에 위와 같이 데이터들이 분포해 있다고 가정하자, 빨간 점들은 대부분 X축 값이 크고 Y축 값이 작은 위치에 분포되어 있다. 파란 점들은 대부분 X축 값이 크고 Y축 값이 큰 위치에 분포되어 있다. 초록 점들은 X축 값이 작은 곳에 분포되어 있다. 이때, 새로운 데이터가 주어졌고, 해당 데이터는 X축 성분 값이 작고 Y축 값은 약간 높은 편이다. 최근접 이웃 알고리즘을 이용했을때, 해당 값 근처에 가장 많은 색에 따라 새로운 데이터가 분류된다...
자기회귀누적이동평균 ARIMA Model 지난번 시계열 데이터에 이어, 오늘은 ARIMA Model에 대해 포스트 한다. 정의 "ARIMA model is transformed into stationary time series through the difference and fitting as ARMA model." ARiMA 모델은 ARMA 모델로, 차분과 fitting(훈련)을 통해 stationary(정상성) 시계열 데이터로 변환된다. ARIMA 모델을 ARMA 모델의 일반화로, 시계열 데이터를 예측 할때 사용이된다. (위키백과) 여기서 I 는 stationary time series로 바꿔주는 차분 값이다. 결국 ARMA 모델을 이해해야하고, 하나씩 공부하다보면 감이 온다. Models AR(p) = ARIMA(p,0,0) MA(q) =..
시계열 데이터 Time Series Data 시계열 데이터 Time Series Data 시계열 데이터는 시간에 따라 연결된 데이터이다. 우리 주변에서는 이런 시계열 데이터를 많이 확인 할 수 있다. 기업의 월별 매출 관리표와 같이 시간(기간)별로 정리해 놓은 데이터가 해당되고, 음성데이터 역시 시간의 흐름 안에서 입력되는 음성이라는 생각에서 시계열 데이터에 해당된다. 이때, 데이터는 모두 같은 시간의 간격으로[등간격] 저장되어야 한다. 정상성 Stationarity 정상성이란, 시간에 따른 데이터의 평균과 분산들값에 규칙성 없이 일정한것으로, 이전 시점의 데이터를 이용해서 다음 시점을 예측 할 수 없는상태를 뜻한다. 시계열데이터에는 규칙성과 불규칙성이 존재한다. 하지만 완벽히 100% 불규칙적인 데이터들은 분석에 의미가 없다. 규칙성이란 보통 추..
선형회귀분석 Linear Regression , SSE, OLS '회귀 분석'이라는 단어를 처음 접했을때, 도저히 의미를 알 수 없었다(다른 용어들도 크게 차이는 없지만) '한 바퀴 돌아 제자리로 돌아오거나 돌아감' 회귀回歸의 사전적 뜻이다. 이 뜻과 같이, 회귀분석이란 평균보다 크거나 작은 값들이 평균으로 돌아간다는 가정을 이용한 분석이다. 이는 Galton 이라는 학자가 아버지의 키로부터 아들의 키를 예측하는것에서 시작하였다. '아버지의 키가 크다면 아들도 키는 큰 편이지만 아버지보다 조금 작아 평균에 가까워지고, 아버지의 키가 작다면 아들의 키는 작은 편이지만 아버지보다 조금 커져 평균에 가까워진다'는 가설을 세웠고, 이것에 대한 분석방법을 회귀(regression)이라고 하였다. 선형회귀는 결과변수 y와 원인변수 x의 선형 상관 관계를 모델링 하는 것이다. 즉..
Two sample t - test two sample t- test는 각 변수가 결과값에 미치는 영향을 확인할 때 사용할 수 있다. 머신러닝에서 각 feature의 중요도를 판별할때 사용할 수 있다. 결과값에대한 영향 유무의 판별은 다음과 같이 진행한다. 1. 먼저 변수x가 결과값y에 영향을 주지 않는다는 귀무가설을 설정한다. 2. 결과값에 차이가 있는 표본1, 2를 준비한다. 3. 표준화 식을 통해 t값을 계산하고 t분포를 그려본다. 4. t분포에서 p-value를 계산하고, 자신이 설정한 유의수준 보다 작다면, 귀무가설을 기각하고, 대립가설인 해당 변수가 결과에 영향이 있다는 결론을 내린다. 예시를 통해 확인하는것이 이해하기 편하다. 예시 A 은행에는 각 고객에 대해 '통장 잔고', '연령', '소득', '신용도'에 대한 데이터가 있..
p-value와 t분포 더보기 지난번, 귀무가설과 대립가설에대해 포스트 했다. xiang32.tistory.com/5 통계적추론 ~ 귀무가설 댓글을 쓰고싶다면 열어보세용 더보기 나는 통계에 대한 사전 지식이 많지 않은 편으로, 통린이의 입장에서 수업을 통해 이해한 통계적추론과 귀무가설로부터 two sample t-test까지를 적어보려고 � xiang32.tistory.com 오늘은 1종 오류의 최대 허용률(귀무가설이 참인데 대립가설을 채택할때 발생하는 오류)-유의수준$\alpha$을 이야기하는 p-value와 t분포에 대해서 정리 할 것이다. 1.p-value p-value는 지난번 가설검정의 표준정규분포에서 z값 밖의 영역으로, 귀무가설이 참일때 발생할 수 있는 1종 오류 확률을 나타낸다. 즉, 내가 유의수준을 5%미만으로..