machine learning 8

scikit-learn 에서 제공하는 피처 스케일러(Scaler)

StandardScaler : 기본 스케일, 각 피처의 평균을 0, 표준편차를 1로 변환 RobustScaler : 위와 유사하지만, 평균 대신 중간값(median)과 일분위, 삼분위값(quartile)을 사용하여 이상치 영향을 최소화함. MinMaxScaler : 모든 피처의 최대치와 최소치가 1,0이 되도록 스케일을 조정 Normalizer : 피처(컬럼) 이 아니라 row 마다 정규화되면, 유클리드 거리가 1이 되도록 데이터를 조정하여 빠르게 학습할 수 있도록 함. 스케일을 조정하는 이유는 데이터의 값이 너무 크거나, 작을 때 학습이 제대로 되지 않을 수 있기 때문이다. 스케일의 영향이 절대적인 분류기 (e.g. KNN 과 같은 거리기반 알고리즘) 의 경우 ,스케일 조정을 필수적으로 검토해야 한다...

machine learning 2023.05.12

시계열 비지도학습의 유의점 & 해석방법

군집화(*클러스터링) Algorithm k means Clustering - 파라미터 : k Agglomerative Clustering(병합군집) - 파라미터 : eps 일반적인 벡터의 유사도 측정 유클리드 거리(Euclidean distance 또는 L2 distance) - 장점 : 계산이 용이하고 연산속도가 빠르다. - 단점 1. 동일한 시간 구간끼리 비교하게 되면, 신호의 떨림과 움직임이 심해질수록 어긋나게 된다. 2. 길이가 다른 시계열 분석 불가. DTW(동적 시간 워핑)을 이용한 시계열 유사도 측정 장점 1. 서로 다른 길이의 시계도 유사도 분석 가능 2. 다차원 시계열 데이터의 분석 가능 단점 1. 연산비용이 크다.

machine learning 2023.05.11

scaler 공부

Scikit learn 에서 제공하는 scaler 1. Standard Scaler : 기존변수의 범위를 정규분포로 변환. : 데이터의 최소, 최대를 모르는 경우 사용. : 모든 Feature의 평균을 0, 분산을 1로 만들어준다. : 이상치가 있는 경우 평균과 표준편차에 영향을 주기 때문에 데이터의 확산이 달라지게 된다. -? 이상치가 많은 경우 사용하지 않는 것이 좋다. 2. Normalizer Scaler : 각 변수의 값을 원점으로부터 1만큼 떨어져 있는 범위 내로 변환. -? 빠르게 학습할 수 있으며 과대적합(Overfitting)의 확률을 낮출 수 있다. 3. MinMaxScaler : 데이터의 값들을 0-1 사이의 값으로 변환시키는 것. : 각 변수가 정규분포(bell-shape)가 아니거나..

machine learning 2023.02.11

Cross Validation

보통 Train set과 test set을 나누어 모델을 훈련시키고 검증을 함. 그러나 이런 방식은 고정된 test set에서만 잘 예측되는 결과를 낳는다. 즉 OverFitting의 위험성이 존재한다는 것. 다른 dataset을 통해 예측을 수행하는 경우 성능이 엉망인 결과를 야기함. 이를 해결하기 위한 방식이 바로 교차검증 'Cross Validation' ! Training Set 과 Validation Set 을 여러개 만들어 모델의 학습을 검증. Generalization 을 통해 학습의 성능을 높힘. # k-fold - 가장 일반적으로 사용되는 기법 - Regression model 에 일반적으로 사용되며 , 데이터가 독립적이고 동일한 분포를 띄우는 경우 사용. - K-fold Cross Va..

machine learning 2023.02.06

시계열 데이터

1. 시계열 데이터의 4가지 속성 : 계절성(s) , 추세성(t) , 반복성(r) , 순환성(c) 2. 다양한 형태의 시계열 데이터 : 우연변동, 계절변동, 추세변동, 계절적 추세변동, 순환변동 등 3. 시계열 데이터 처리 : 빈도(f) 추가 및 합치기 , 계절성을 제거한다 , 차분(diff)하기 ,lag 처리하기 등 # 시계열 데이터 EDA 1. 평활화 (Smoothing) 2. 필터링 (Filtering) 3. 요소분해 (Decomposition) 4. 시계열 상관관계 (Serial Correlation)

machine learning 2022.11.30

GridSearchCV_

GridSearchCV란? 사이킷런에서 분류알고리즘 또는 회귀알고리즘에 사용되는 하이퍼파라미터를 순차적으로 입력하여 학습하고 측정을 하며 가장 최적의 파라미터를 알려준다. 이 때 GridSearchCV가 없다면 max_depth가 몇일때 최적의 accuracy score을 뽑아내는지 일일이 적용해보아야 알 수 있다. 그러나 gridsearchCV가 있다면 최적화된 파라미터를 단축된 시간으로 뽑아낼 수 있다. GridSearchCV class 생성자 -estimator : classifier, regressor, pipeline 등 가능 -param_grid : 튜닝을 위해 파라미터, 사용될 파라미터를 dictionary 형태로 만들어서 넣는다. -scoring : 예측 성능을 측정할 평가 방법을 넣는다...

machine learning 2022.05.11