Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
Tags
- 프리온보딩
- 집계함수
- 프로그래머스
- 백엔드 인턴십
- 행렬곱
- 컴프리헨션
- 파이썬
- cerbot
- sqlalchemy
- PYTHON
- 함수
- spring boot
- 토이프로젝트
- mock server
- API
- self
- Django
- 조건연산
- 파이써닉코드
- Comprehension
- Postman
- todo project
- RDS
- yaml
- numpy
- 코딩테스트
- Jar배포
- EC2
- 람다함수
- 클래스
Archives
- Today
- Total
build my life
Machine Learning 모델링 과정 본문
728x90
머신러닝(Machine Learning)
데이터로부터 규칙을 학습하여 정답을 예측할 수 있도록 하는 알고리즘을 개발하는 연구 분야
일반 프로그래밍은 데이터와 규칙을 통해 정답을 반환한다면
머신러닝 알고리즘은 데이터와 정답을 통해 규칙을 반환한다.
Scikit-learn 라이브러리
머신러닝 관련 알고리즘과 개발을 위한 기능을 제공
<머신러닝 모델링 과정>
1. 데이터 불러오기
2. Data Preprocessing
1) Feature Engineering
2) 결측치 채우기
- 통계치를 이용해서 결측값 채우기
- 머신러닝 모델을 이용하여 결측치 채우기
3) 범주형 데이터 Encoding
- Label Encoding
- Ordinal Encoding
- Target Encoding
4) Feature Scaling
- Standard Scaling
- MinMax Scaling
- Power Transformation
- Robust Scaler
3. 모델 학습 및 검증
1) Holdout
2) K-Fold 교차검증
3) 층화추출
4) sklearn.model_selection 모듈 이용한 교차검증
4. 평가하기
1) 모델 성능 평가지표(Metric)
2) 회귀 문제 성능 측정 및 평가지표
3) 분류 문제 성능 측정 및 평가지표
모델을 학습하고 성능을 높이기 위해서는 앞서 데이터 전처리 과정이 정말 중요하다.
유의미한 특성을 추가하느냐에 따라 성능의 결과가 조금씩 달라진다는거!
또 결측치를 어떻게 채우냐, 범주형을 어떻게 인코딩 하냐에 따라도 모델 성능의 결과에 매우 큰 영향을 끼친다...
경험이 곧 실력이니까 이것저것 데이터로 많이 해봐야겠당
728x90
'ML & DL' 카테고리의 다른 글
[ML] 데이터 불러오기 (0) | 2022.09.13 |
---|