붉은범의개발일기 :: Cross Validation

Cross Validation

category SKALA/AI 2025. 4. 23. 19:54 by 붉은범

Cross Validation

모델을 훈련시키고 테스트할 때, 그냥 데이터를 훈련용(train)과 테스트용(test)로 한 번만 나누기만 하면, 운 좋게 쉬운 데이터가 테스트에 들어가서 성능이 과하게 높게 나올 수 있다
그래서 데이터를 여러 번 나누고, 여러 번 평가해서 평균을 내는 방식으로 진짜 성능을 알아 볼 수 있다.

LOOCV

LOOCV, 하나만 빼 !!
- Leave - One - Out Cross Validation
- 단 하나의 샘플만 Validation set으로 사용
- 데이터셋이 작은 규모인 경우 고려
- 장점
  - 데이터 손실이 거의 없음 ( 학습에 거의 모든 샘플을 사용)
- 단점
  - 계산량이 크다
  - 과적합에 민감하다

-> 거의 안 쓴다고 한다

K-Fold Cross Validation

전체 데이터를 K개의 fold로 균등하게 나눈 뒤
각 fold를 1번씩 test set으로 사용하고, 나머지를 training set으로 사용
총 K번 학습/ 검증
장점
- 효율적이다
- 일반화 오차 추정이 안정적
단점
- 클래스 불균형이 있으면 fold 간에 label 분포 차이가 발생할 수 있음→ 부정확한 평가

Stratified K-Fold Cross Vaildation

K-Fold CV와 동일한 방식이지만
각 fold에 대해 label의 분포가 전체 데이터셋과 동일하도록 유지
장점
- 클래스 불균형이 있는 분류 문제에서 신뢰도 높은 성능 평가 가능
단점
- 회귀 문제에는 적용하기 어려움
- 분포 조절이 필요한만큼 구현이 약간 복잡하다

'SKALA > AI' 카테고리의 다른 글

하이퍼 파라미터 튜닝(RandomSearch CV) (1)	2025.04.25
AutoGen (0)	2025.04.24
Graph RAG (0)	2025.04.22
앙상블(Ensemble) (0)	2025.04.21
네이버 뉴스 RAG 실습(3) - Prompting 및 RAG 구축 (2)	2025.04.11

댓글 , 엮인글

NOTICE

전체 보기

MORE+

최근 글
최근 댓글

Trackback

TAG

MORE+

ARCHIVE

CALENDAR

LINK

오늘

어제

전체

티스토리툴바