ML & DL
Machine Learning 모델링 과정
dalovee
2022. 9. 13. 14:05
728x90
머신러닝(Machine Learning)
데이터로부터 규칙을 학습하여 정답을 예측할 수 있도록 하는 알고리즘을 개발하는 연구 분야
일반 프로그래밍은 데이터와 규칙을 통해 정답을 반환한다면
머신러닝 알고리즘은 데이터와 정답을 통해 규칙을 반환한다.
Scikit-learn 라이브러리
머신러닝 관련 알고리즘과 개발을 위한 기능을 제공
<머신러닝 모델링 과정>
1. 데이터 불러오기
2. Data Preprocessing
1) Feature Engineering
2) 결측치 채우기
- 통계치를 이용해서 결측값 채우기
- 머신러닝 모델을 이용하여 결측치 채우기
3) 범주형 데이터 Encoding
- Label Encoding
- Ordinal Encoding
- Target Encoding
4) Feature Scaling
- Standard Scaling
- MinMax Scaling
- Power Transformation
- Robust Scaler
3. 모델 학습 및 검증
1) Holdout
2) K-Fold 교차검증
3) 층화추출
4) sklearn.model_selection 모듈 이용한 교차검증
4. 평가하기
1) 모델 성능 평가지표(Metric)
2) 회귀 문제 성능 측정 및 평가지표
3) 분류 문제 성능 측정 및 평가지표
모델을 학습하고 성능을 높이기 위해서는 앞서 데이터 전처리 과정이 정말 중요하다.
유의미한 특성을 추가하느냐에 따라 성능의 결과가 조금씩 달라진다는거!
또 결측치를 어떻게 채우냐, 범주형을 어떻게 인코딩 하냐에 따라도 모델 성능의 결과에 매우 큰 영향을 끼친다...
경험이 곧 실력이니까 이것저것 데이터로 많이 해봐야겠당
728x90