본문 바로가기

분류 전체보기

(29)
ML : K- 최근접 이웃 K-NN(K-Nearest Neighbor Algorithm) K - NN Algorithm 쓰옆쓰라는 말이 있다. 쓰레기 옆에는 쓰레기라는 말로 '유유상종' - 비슷한 사람끼리 친해지고 사귄다는 말이다. K-NN 알고리즘도 이와 같다. 입력받은 데이터를 가장 성질이 가장 가까운 이웃을 비교하여 분류하는 것이다. 예를들어 평면에 위와 같이 데이터들이 분포해 있다고 가정하자, 빨간 점들은 대부분 X축 값이 크고 Y축 값이 작은 위치에 분포되어 있다. 파란 점들은 대부분 X축 값이 크고 Y축 값이 큰 위치에 분포되어 있다. 초록 점들은 X축 값이 작은 곳에 분포되어 있다. 이때, 새로운 데이터가 주어졌고, 해당 데이터는 X축 성분 값이 작고 Y축 값은 약간 높은 편이다. 최근접 이웃 알고리즘을 이용했을때, 해당 값 근처에 가장 많은 색에 따라 새로운 데이터가 분류된다...
자기회귀누적이동평균 ARIMA Model 지난번 시계열 데이터에 이어, 오늘은 ARIMA Model에 대해 포스트 한다. 정의 "ARIMA model is transformed into stationary time series through the difference and fitting as ARMA model." ARiMA 모델은 ARMA 모델로, 차분과 fitting(훈련)을 통해 stationary(정상성) 시계열 데이터로 변환된다. ARIMA 모델을 ARMA 모델의 일반화로, 시계열 데이터를 예측 할때 사용이된다. (위키백과) 여기서 I 는 stationary time series로 바꿔주는 차분 값이다. 결국 ARMA 모델을 이해해야하고, 하나씩 공부하다보면 감이 온다. Models AR(p) = ARIMA(p,0,0) MA(q) =..
시계열 데이터 Time Series Data 시계열 데이터 Time Series Data 시계열 데이터는 시간에 따라 연결된 데이터이다. 우리 주변에서는 이런 시계열 데이터를 많이 확인 할 수 있다. 기업의 월별 매출 관리표와 같이 시간(기간)별로 정리해 놓은 데이터가 해당되고, 음성데이터 역시 시간의 흐름 안에서 입력되는 음성이라는 생각에서 시계열 데이터에 해당된다. 이때, 데이터는 모두 같은 시간의 간격으로[등간격] 저장되어야 한다. 정상성 Stationarity 정상성이란, 시간에 따른 데이터의 평균과 분산들값에 규칙성 없이 일정한것으로, 이전 시점의 데이터를 이용해서 다음 시점을 예측 할 수 없는상태를 뜻한다. 시계열데이터에는 규칙성과 불규칙성이 존재한다. 하지만 완벽히 100% 불규칙적인 데이터들은 분석에 의미가 없다. 규칙성이란 보통 추..
Python OLS Model Summary 오늘은 파이썬의 statsmodels에 있는 OLS Model에 대해 포스트 한다. 예제는 맨 마지막에 넣었다. OLS모델을 통해 살펴볼 것들 1. OLS Model은 선형 회귀분석에 있어서 각각의 독립변수 $x_{i}$가 종속변수 y에 영향이 있는지 단적으로 확인 할 수 있다. (귀무가설과 대립가설 - t분포와 p value) 2. 다른 독립변수들을 배제하고 특정 변수에 있어서 독립변수에 영향을 주는지 확인할 수 있다.(Regress out) 3. 회귀 방정식에서 각 변수의 계수값을 알 수 있다. 4. 해당 방정식으로 데이터들을 얼마나 설명할 수 있는지 5. 명목변수의 encoding 데이터 statsmodel에 보면 다음과 같은 문구가 있다. "statsmodels supports specifying..
묵사발 도토리 묵에 김치 넣고 동치미(냉면) 육수넣으면 끝 시원하다 맛있다
선형회귀분석 Linear Regression , SSE, OLS '회귀 분석'이라는 단어를 처음 접했을때, 도저히 의미를 알 수 없었다(다른 용어들도 크게 차이는 없지만) '한 바퀴 돌아 제자리로 돌아오거나 돌아감' 회귀回歸의 사전적 뜻이다. 이 뜻과 같이, 회귀분석이란 평균보다 크거나 작은 값들이 평균으로 돌아간다는 가정을 이용한 분석이다. 이는 Galton 이라는 학자가 아버지의 키로부터 아들의 키를 예측하는것에서 시작하였다. '아버지의 키가 크다면 아들도 키는 큰 편이지만 아버지보다 조금 작아 평균에 가까워지고, 아버지의 키가 작다면 아들의 키는 작은 편이지만 아버지보다 조금 커져 평균에 가까워진다'는 가설을 세웠고, 이것에 대한 분석방법을 회귀(regression)이라고 하였다. 선형회귀는 결과변수 y와 원인변수 x의 선형 상관 관계를 모델링 하는 것이다. 즉..
Two sample t - test two sample t- test는 각 변수가 결과값에 미치는 영향을 확인할 때 사용할 수 있다. 머신러닝에서 각 feature의 중요도를 판별할때 사용할 수 있다. 결과값에대한 영향 유무의 판별은 다음과 같이 진행한다. 1. 먼저 변수x가 결과값y에 영향을 주지 않는다는 귀무가설을 설정한다. 2. 결과값에 차이가 있는 표본1, 2를 준비한다. 3. 표준화 식을 통해 t값을 계산하고 t분포를 그려본다. 4. t분포에서 p-value를 계산하고, 자신이 설정한 유의수준 보다 작다면, 귀무가설을 기각하고, 대립가설인 해당 변수가 결과에 영향이 있다는 결론을 내린다. 예시를 통해 확인하는것이 이해하기 편하다. 예시 A 은행에는 각 고객에 대해 '통장 잔고', '연령', '소득', '신용도'에 대한 데이터가 있..
감자튀김 에어프라이어 230도 25분 팬스피드 3 뜨겁다 맛있다