jinseon's log

[엘카데미] 엘카데미 챌린지_누구나 이해할 수 있는 머신러닝 기초체력_18일차 본문

ML & DL/엘카데미

[엘카데미] 엘카데미 챌린지_누구나 이해할 수 있는 머신러닝 기초체력_18일차

J_SEON 2023. 8. 3. 12:14

 

[이론3] 머신러닝 시스템

 

머신러닝 시스템 5가지

데이터 (Data)

- 학습을 시킬 데이터

- 많은 양일 수록 좋음

ex. 고양이 | 개 이미지

 

피처 (Feature)

- 전체 데이터에서 머신러닝을 학습시킬 중요한 데이터

Your ML is only as good as the data
너의 머신러닝 성능은 데이터의 품질에 달려있다.

 

모델 (Model, =알고리즘 Algorithm)

- 주어진 데이터와 정답지에 따라 학습

- 학습을 통해 찾은 규칙 자체를 모델이라고 볼 수 있음

- ex. DNN (Deep Neural Network), CNN (Convolution Neural Network), Transformer

 

인프라 (Infra)

- 피처를 잘 뽑아낼 수 있는 좋은 솔루션, 학습 환경, 데이터플로우 등을 갖춰야 함

- 인프라를 잘 설정할 경우 비용이나 속도 등을 줄일 수 있음

 

개선 (Improve)

- 재학습이 중요함

- 예측한 결괏값이 맞든 틀리든 재학습을 통해 성능을 올림


머신러닝을 잘하려면?

- 좋은 데이터 구하기

- 좋은 피처(알고리즘) 고르기

- 좋은 인프라 갖추기

 


머신러닝이 실패하는 경우

언더피팅 (Underfitting)

- 학습은 다 했지만 머신러닝으로 정답을 못 찾는 경우

- 학습한 데이터가 너무 다양해서 일관성 있는 규칙을 찾지 못함

 

오버피팅 (Overfitting)

- 너무 편향된 데이터로 학습하여 학습된 데이터가 아니면 정답을 맞추지 못하는 경우

- 학습한 데이터가 똑같아 다른 규칙을 찾지 못함

 

느린 학습

- 데이터가 많거나 용량이 너무 크거나 할 때 학습의 속도가 너무 느려서 실패하는 경우


성공적인 머신러닝, MLOps

ML (Machine Learning, 머신러닝)

- 데이터를 통해 모델을 만듦

- 운영에서 받고 개발에서 정리해준 데이터를 통해 재학습

 

Dev (Development, 개발)

- 모델 패키지를 만들어 출시

- 운영에서 얻은 데이터들을 정리하여 ML 파이프라인으로 보냄

 

Ops (Operation, 운영)

- 추환경설정

- 모니터링

Comments