반응형
Cross Validation
- 모델을 훈련시키고 테스트할 때, 그냥 데이터를 훈련용(train)과 테스트용(test)로 한 번만 나누기만 하면, 운 좋게 쉬운 데이터가 테스트에 들어가서 성능이 과하게 높게 나올 수 있다
- 그래서 데이터를 여러 번 나누고, 여러 번 평가해서 평균을 내는 방식으로 진짜 성능을 알아 볼 수 있다.
LOOCV
- LOOCV, 하나만 빼 !!
- Leave - One - Out Cross Validation
- 단 하나의 샘플만 Validation set으로 사용
- 데이터셋이 작은 규모인 경우 고려
- 장점
- 데이터 손실이 거의 없음 ( 학습에 거의 모든 샘플을 사용)
- 단점
- 계산량이 크다
- 과적합에 민감하다
-> 거의 안 쓴다고 한다
K-Fold Cross Validation
- 전체 데이터를 K개의 fold로 균등하게 나눈 뒤
- 각 fold를 1번씩 test set으로 사용하고, 나머지를 training set으로 사용
- 총 K번 학습/ 검증
- 장점
- 효율적이다
- 일반화 오차 추정이 안정적
- 단점
- 클래스 불균형이 있으면 fold 간에 label 분포 차이가 발생할 수 있음→ 부정확한 평가
Stratified K-Fold Cross Vaildation
- K-Fold CV와 동일한 방식이지만
- 각 fold에 대해 label의 분포가 전체 데이터셋과 동일하도록 유지
- 장점
- 클래스 불균형이 있는 분류 문제에서 신뢰도 높은 성능 평가 가능
- 단점
- 회귀 문제에는 적용하기 어려움
- 분포 조절이 필요한만큼 구현이 약간 복잡하다
반응형
'SKALA > AI' 카테고리의 다른 글
하이퍼 파라미터 튜닝(RandomSearch CV) (1) | 2025.04.25 |
---|---|
AutoGen (0) | 2025.04.24 |
Graph RAG (0) | 2025.04.22 |
앙상블(Ensemble) (0) | 2025.04.21 |
네이버 뉴스 RAG 실습(3) - Prompting 및 RAG 구축 (2) | 2025.04.11 |