jinseon's log

04 Machine Learning Pipeline 본문

ML & DL/K-MOOK

04 Machine Learning Pipeline

J_SEON 2022. 11. 22. 17:31

✔ Data Science Process

1) Business Understanding : 문제, 배경지식에 대한 이해

2) Data Understanding : 데이터 자체에 대한 이해

3) Prepare Data : 데이터 준비

4) Building Model using Algorithms : Training Data, 학습용 데이터를 이용한 모델 구축

5) Applying Model and performance evaluation : Test Data, 검증용 데이터를 이용한 모델 평가

6) Deployment : 예측한 내용을 문제에 적용

7) Knowledge and Actions : 실행


✔ MachineLearning Process

🔍 Data 관련 용어

- Dataset : 정의된 구조로 모아져 있는 데이터 집합

- Data Point (Observation) : 관측치

- Feature (Variable, Attribute) : 데이터를 구성하는 하나의 특성, 입력 변수

- Label (Target, Response) : 입력 변수들에 의해 예측/분류되는 출력 변수

 

📍 정형, 비정형 데이터

- 정형 데이터 : 표 형식, 직관적으로 잘 정리된 데이터

- 비정형 데이터 : 텍스트, 음성, 이미지 등 파악이 어려운 데이터

 

부동산 가격 예측 데이터

- x : feature

- y : label

- n(관측치 개수) * p(feature 개수) matrix

 

✏ 위 이미지처럼 연속된 숫자를 예측할 경우 regression, 범주/class 예측할 경우 classification

 


🔍 분류와 회귀

- 분류 (Classification)

    - 종속변수(y)가 범주형일 때 사용하는 모델

    - ex. 질병 유무 (Disease, Healthy)

- 회귀 (Regression)

    - 종속변수(y)가 연속형일 때 사용하는 모델

    - ex. 유전과 수명의 상관관계

'ML & DL > K-MOOK' 카테고리의 다른 글

03 지도학습 (Supervised Learning)  (1) 2022.11.22
02 LinearRegression  (0) 2022.11.21
01 인공지능과 머신러닝 개요  (2) 2022.11.21
Comments