본문 바로가기

Study

(25)
시계열 데이터 Time Series Data 시계열 데이터 Time Series Data 시계열 데이터는 시간에 따라 연결된 데이터이다. 우리 주변에서는 이런 시계열 데이터를 많이 확인 할 수 있다. 기업의 월별 매출 관리표와 같이 시간(기간)별로 정리해 놓은 데이터가 해당되고, 음성데이터 역시 시간의 흐름 안에서 입력되는 음성이라는 생각에서 시계열 데이터에 해당된다. 이때, 데이터는 모두 같은 시간의 간격으로[등간격] 저장되어야 한다. 정상성 Stationarity 정상성이란, 시간에 따른 데이터의 평균과 분산들값에 규칙성 없이 일정한것으로, 이전 시점의 데이터를 이용해서 다음 시점을 예측 할 수 없는상태를 뜻한다. 시계열데이터에는 규칙성과 불규칙성이 존재한다. 하지만 완벽히 100% 불규칙적인 데이터들은 분석에 의미가 없다. 규칙성이란 보통 추..
Python OLS Model Summary 오늘은 파이썬의 statsmodels에 있는 OLS Model에 대해 포스트 한다. 예제는 맨 마지막에 넣었다. OLS모델을 통해 살펴볼 것들 1. OLS Model은 선형 회귀분석에 있어서 각각의 독립변수 $x_{i}$가 종속변수 y에 영향이 있는지 단적으로 확인 할 수 있다. (귀무가설과 대립가설 - t분포와 p value) 2. 다른 독립변수들을 배제하고 특정 변수에 있어서 독립변수에 영향을 주는지 확인할 수 있다.(Regress out) 3. 회귀 방정식에서 각 변수의 계수값을 알 수 있다. 4. 해당 방정식으로 데이터들을 얼마나 설명할 수 있는지 5. 명목변수의 encoding 데이터 statsmodel에 보면 다음과 같은 문구가 있다. "statsmodels supports specifying..
선형회귀분석 Linear Regression , SSE, OLS '회귀 분석'이라는 단어를 처음 접했을때, 도저히 의미를 알 수 없었다(다른 용어들도 크게 차이는 없지만) '한 바퀴 돌아 제자리로 돌아오거나 돌아감' 회귀回歸의 사전적 뜻이다. 이 뜻과 같이, 회귀분석이란 평균보다 크거나 작은 값들이 평균으로 돌아간다는 가정을 이용한 분석이다. 이는 Galton 이라는 학자가 아버지의 키로부터 아들의 키를 예측하는것에서 시작하였다. '아버지의 키가 크다면 아들도 키는 큰 편이지만 아버지보다 조금 작아 평균에 가까워지고, 아버지의 키가 작다면 아들의 키는 작은 편이지만 아버지보다 조금 커져 평균에 가까워진다'는 가설을 세웠고, 이것에 대한 분석방법을 회귀(regression)이라고 하였다. 선형회귀는 결과변수 y와 원인변수 x의 선형 상관 관계를 모델링 하는 것이다. 즉..
Two sample t - test two sample t- test는 각 변수가 결과값에 미치는 영향을 확인할 때 사용할 수 있다. 머신러닝에서 각 feature의 중요도를 판별할때 사용할 수 있다. 결과값에대한 영향 유무의 판별은 다음과 같이 진행한다. 1. 먼저 변수x가 결과값y에 영향을 주지 않는다는 귀무가설을 설정한다. 2. 결과값에 차이가 있는 표본1, 2를 준비한다. 3. 표준화 식을 통해 t값을 계산하고 t분포를 그려본다. 4. t분포에서 p-value를 계산하고, 자신이 설정한 유의수준 보다 작다면, 귀무가설을 기각하고, 대립가설인 해당 변수가 결과에 영향이 있다는 결론을 내린다. 예시를 통해 확인하는것이 이해하기 편하다. 예시 A 은행에는 각 고객에 대해 '통장 잔고', '연령', '소득', '신용도'에 대한 데이터가 있..
파이썬 가상환경 tf1.x버전 다운로드 파이참 연결 이번에 과제를 수행하던 중에 tensorflow 1.x 버전을 사용할 일이 생겼다. 내가 기존에 사용하던 아나콘다의 파이썬 버전은 3.8x였고, 3.8에서는 tf2.x 버전부터만 지원하기 때문에 tf1.x를 사용할수 있는 새로운 환경이 필요했다. 1. 가상환경 만들기 먼저 사용하고 있는 가상환경을 살펴보자 아나콘다 프롬프트 창을 열고 conda info --evns를 쳐준다 여기서 현재 존재하는 가상환경들을 보여준다. base는 기본으로 사용하는 개발환경. 이제 conda -create -n 환경이름 python= 사용파이썬 버전 을 입력해준다. 나는 3.7.9버전을 사용하기 때문에 conda -create -n py379 python = 3.7.9를 입력했다. 이후에 설치를 묻는 메시지가 나오면 y를 ..
p-value와 t분포 더보기 지난번, 귀무가설과 대립가설에대해 포스트 했다. xiang32.tistory.com/5 통계적추론 ~ 귀무가설 댓글을 쓰고싶다면 열어보세용 더보기 나는 통계에 대한 사전 지식이 많지 않은 편으로, 통린이의 입장에서 수업을 통해 이해한 통계적추론과 귀무가설로부터 two sample t-test까지를 적어보려고 � xiang32.tistory.com 오늘은 1종 오류의 최대 허용률(귀무가설이 참인데 대립가설을 채택할때 발생하는 오류)-유의수준$\alpha$을 이야기하는 p-value와 t분포에 대해서 정리 할 것이다. 1.p-value p-value는 지난번 가설검정의 표준정규분포에서 z값 밖의 영역으로, 귀무가설이 참일때 발생할 수 있는 1종 오류 확률을 나타낸다. 즉, 내가 유의수준을 5%미만으로..
통계적추론 ~ 귀무가설 먼저 추론을 위한 기본 개념이다. 1. 모집단(Population) 모집단은 내가 관심있어(사용하고자)하는 모든 데이터의 집합이다. $ X = [x_{1},x_{2},\cdots]$ 예를들어 내가 한국 남자의 평균 키를 분석하고자 한다면, 모집단은 전체 한국남자의 키 데이터 들일 것이다. $$ex) X = [178,184,\cdots]$$ 데이터의 수는 유한개가 될 수도 있고, 무한대로 될 수도 있다. 하지만 사실상 모집단의 데이터를 수집하는것과 분석하는것은 불가능에 가깝다. (자세한 사항은 백영민교수님의 방법론적 사유 책 참조) 일반적으로 모집단의 평균은 $\mu$로, 표준편차는 $\sigma$로 표기한다. 2. 표본(Sample) 샘플은 내가 분석하고자 모집단에서 표집(sampling)한 데이터이다...
0. 평균과 표준편차 1. 평균 평균은 이론적으로 무게 중심을 이야기 하며, 데이터들을 가장잘 설명할 수 있는 값이라고 생각한다. 우리가 잘 알고있듯이 데이터들(값들)이 있을때, 모든 값을 더한 다음 데이터 양(n)을 나누어 계산한다. 평균의 영어표기법 mean을 따라 m의 그리스문자 $\mu$(모집단에서 주로사용) 혹은 $\bar{x}$(표본)로 표기한다. $$\bar{x} = \frac{1}{n}\sum_{i=1}^{n}{i}$$ 평균을 파이썬으로 구현 x = [1,2,3,4,5,6,7,8,9,10] x_bar1 = sum(x) / len(x) summ = 0 for i in range(len(x)): summ += x[i] x_bar2 = summ / len(x) print(x_bar1, x_bar2) 2. 표준편차 표..