machine learning

scaler 공부

임이레 2023. 2. 11. 23:36

Scikit learn 에서 제공하는 scaler 

1. Standard Scaler

 : 기존변수의 범위를 정규분포로 변환.

 : 데이터의 최소, 최대를 모르는 경우 사용.

 : 모든 Feature의 평균을 0, 분산을 1로 만들어준다.

 : 이상치가 있는 경우 평균과 표준편차에 영향을 주기 때문에 데이터의 확산이 달라지게 된다.

 -? 이상치가 많은 경우 사용하지 않는 것이 좋다.

 

2. Normalizer Scaler

 : 각 변수의 값을 원점으로부터 1만큼 떨어져 있는 범위 내로 변환.

 -? 빠르게 학습할 수 있으며 과대적합(Overfitting)의 확률을 낮출 수 있다.

 

3. MinMaxScaler

 : 데이터의 값들을 0-1 사이의 값으로 변환시키는 것.

 : 각 변수가 정규분포(bell-shape)가 아니거나 표준 편차가 작을 때 효과적이다.

 : 이상치 존재에 민감하기 때문에 이상치가 많을 경우 사용하지 않는 것이 좋다.

 

4. Robust Scaler

 : 모든 feature가 같은 크기를 같는다는 점이 standard와 유사하지만 평균과 분산이 아닌 중위수 (median)과 사분위수(quartile)를 사용한다. 

 그렇기 때문에 이상치의 영향이 적어질 수 있음.

 

'machine learning' 카테고리의 다른 글

scikit-learn 에서 제공하는 피처 스케일러(Scaler)  (0) 2023.05.12
시계열 비지도학습의 유의점 & 해석방법  (0) 2023.05.11
Cross Validation  (0) 2023.02.06
시계열 모델  (0) 2023.01.13
시계열 데이터  (0) 2022.11.30