Scikit learn 에서 제공하는 scaler
1. Standard Scaler
: 기존변수의 범위를 정규분포로 변환.
: 데이터의 최소, 최대를 모르는 경우 사용.
: 모든 Feature의 평균을 0, 분산을 1로 만들어준다.
: 이상치가 있는 경우 평균과 표준편차에 영향을 주기 때문에 데이터의 확산이 달라지게 된다.
-? 이상치가 많은 경우 사용하지 않는 것이 좋다.
2. Normalizer Scaler
: 각 변수의 값을 원점으로부터 1만큼 떨어져 있는 범위 내로 변환.
-? 빠르게 학습할 수 있으며 과대적합(Overfitting)의 확률을 낮출 수 있다.
3. MinMaxScaler
: 데이터의 값들을 0-1 사이의 값으로 변환시키는 것.
: 각 변수가 정규분포(bell-shape)가 아니거나 표준 편차가 작을 때 효과적이다.
: 이상치 존재에 민감하기 때문에 이상치가 많을 경우 사용하지 않는 것이 좋다.
4. Robust Scaler
: 모든 feature가 같은 크기를 같는다는 점이 standard와 유사하지만 평균과 분산이 아닌 중위수 (median)과 사분위수(quartile)를 사용한다.
그렇기 때문에 이상치의 영향이 적어질 수 있음.
'machine learning' 카테고리의 다른 글
scikit-learn 에서 제공하는 피처 스케일러(Scaler) (0) | 2023.05.12 |
---|---|
시계열 비지도학습의 유의점 & 해석방법 (0) | 2023.05.11 |
Cross Validation (0) | 2023.02.06 |
시계열 모델 (0) | 2023.01.13 |
시계열 데이터 (0) | 2022.11.30 |