statistics 8

통계적 유의성에 대하여

행동데이터 분석이라는 책에 대해 독학을 진행하며 통계적 유의성에 대해 조금 더 공부해보고자 한다.  책 p171 페이지에서 *** 통계적 유의성 *** 왜 통계적 유의성에 너무 많은 관심을 두지 말아야 하는가? 0.05 임계값을 일종의 엄격한 진리와 같이 생각하고 사용해서는 안된다. 계수가 얼마나 중요한가에 따라 판단해야 합니다. 확실하지 않은 경우에는 항상 계수가 실제로 강력하고 통계적으로 유의미한 것처럼 취급할 수 있습니다. 통계적 유의성을 고려하기 위해서는 약간의 추가 작업이 필요하지만 이것 때문에 분석이 편향되지는 않습니다.  왜 통계적 유의성 (p값 기본적으로 0.05는 인위적인 경계일 뿐이다. - 0.05는 전통적으로 정해진 임계값일 뿐 , 어떤 절대적인 진실을 말해주는 수치는 아니다.- 예를..

statistics 2025.03.13

data 분포 확인하기.

machine learning 공부를 하면서, 무작정 scaling을 하는 것이 의미가 있는가 ? 에 대한 고민을 하게되었다. 먼저 지금 내가 살펴보고 있는 data의 특징을 파악한 후 알맞은 scaler을 사용해야겠다는 생각에서 googling을 한후 보게 된 내용을 정리한다. 우리가 주로 머신러닝을 통해 예측하기 전 보게 되는 데이터는 방대한 양의 수를 가지고 있을 것이다. 그렇기에 데이터가 주로 어떤 값 근처에 어떠한 모양을 띄고 있는지는 전반적인 형태를 살펴보며 아는 수 밖에 없다. 주로 데이터의 분포는 1. 기술 통계 (descriptive statistics) 2. 히스토그램 (histogram) 3. 커널 밀도 (kernel density) 를 통해 본다. # 1 . 기술통계 기술통계는 주로..

statistics 2023.02.11

변동성모형 ARCH , GARCH

1. ARCH(AutoRegressive Conditional Heteroshkedasticity) - ARCH 는 Engle에 의해 제시되었으며 , 오차항의 분산의 현재값이 이전의 오차항의 제곱값들에 의존할 것이라는 접근에서 출발. - "바로 직전의 오차항의 제곱값에 의존: -전체 모형은 조건부 평균과 분산에 대해 두 개의 구별되는 모형을 포함한다. * ARCH 모형의 문제점 - 양(+) 의 shock과 음(-) 의 shock 을 동일하게 다루고 있음( 과거 shock의 제곱값) - 실제로는 방향에 따라 비대칭적인 영향력을 보일 때가 많다. - ARCH 의 차수는 어떻게 해야하는가?(hyperparameter결정) : 실제로 필요한 q값이 상당히 클 수가 있음. : 조건부 분산이 양(+)이 되기 위한 ..

statistics 2023.01.19

변동성에 대하여

* 금융시계열에서 수익률의 분산을 보는 이유? : t시점의 수익률 : 100 * In(xt/ xt-1) * 가변하는 변동성을 모형화하는 경우, 분산이 시점 t에 의존하므로 , t-1기까지의 정보를 이용하여 변동성을 측정하는 조건부 분산이 예측 오차를 줄일 수 있다는 장점을 가진다. *지금까지 다룬 시계열 분석을 다른 변수 또는 해당 변수 자체의 과거값의 변화에 대응 하는 종속변수의 평균적인 변화 분석에 초점을 둚. -> 따라서 회귀모형 또는 시계열 모형에 포함되는 오차항에 대한 정보는 추정값에 대한 통계적 추론을 위하여 보조적 역할이었음. *금융시장의 변동성은 시간에 따라 변화하는 것이 일반적 -> 변동성이 커진다는 것은 일반적으로 자산시장으로 유입되는 정보의 양이 많아짐을 뜻함. -> FOMC 금리 발..

statistics 2023.01.18

시계열 - 금융데이터 분석 응용

1.포트폴리오 이론 - 자산 배분 1) 전략적 자산 배분(SAA) 2) 전술적 자산 배분(TAA) - 증권 선택 1) 적극적 증권 선택(ASS) 2)소극적 증권 선택(PSS) 2. 금융분석과 변동성 - 금융시장 분석과 시계열 백테스트 1) 자산가격의 기술적 분석(Technical Analysis) 2) 변동성 대응 전략 (Dollar Cost Averaging , Buy-add-Hold ,Momentum 등) - 포트폴리오 이론 기초 1) 평균-분산 최적화 2) 자본자산 가격결정 모형 * 가격: 매수자와 매도자의 동의된 약속 * 자산배분(asset class) : 집합투자증권 기준 - 1. 선진주식(developed Market , DM) - 2. 신흥주식(Emerging Market , EM) - 3...

statistics 2023.01.17

통계적 가설 검정

- 귀무가설, 영가설(Hypothesis 0 , Null Hypothesis , H0) : 우리나라 여성의 평균 키는 180cm 이다. (참, 거짓) - 대립가설, 통계적 가설, 연구가설 (Alternative Hypothesis H1, H2, Ha, ....) : 우리나라 여성의 평균 키는 180cm 이 아니다. ''' ==> 기각할수 있다? ==> 기각할 수 없다? (reject) ==> 모수의 통계량을 검정할 때 (검정통계량 Test statistic) , 어떤 유의수준(Significance Level)하에서 맞다, 틀리다. ==> 175-180 사이가 맞는건지 170-180 사이가 맞는건지? '기각역' ==> 신뢰구간 ''' * 통계적 가설 검정의 5단계 * - 유의수준의 결정, 귀무가설과 대립..

statistics 2022.11.30

데이터 분석의 범위

- 기술통계 (Descriptive Statistics) : 주어진 데이터의 분포나 빈도, 평균 등의 통계량을 통해서 데이터를 설명한다. : 현상을 설명 -> 모집단(population) 과 표본( Sample) 간의 비교 - 추론통계(Inferential Statistics) : 모집단에서 추출된 표본으로부터 모수와 관련된 통계량들의 값을 계산하고, 이것을 이용하여 모집단의 특성을 알아나가는 과정. : 가설검정 -> 예측의 영역 * 모수(parameter) : 모집단 분포 특성을 규정짓는 척도 . c.f 모수검정(parametric test) vs 비모수 검정(non-parametric test) c.f 빈도주의(frequentist) vs 베이지안(Bayesian) c.f 초모수, 초매개변수(hype..

statistics 2022.11.30