본문으로 바로가기

Cross Validation

category SKALA/AI 2025. 4. 23. 19:54
반응형

Cross Validation

  • 모델을 훈련시키고 테스트할 때, 그냥 데이터를 훈련용(train)과 테스트용(test)로 한 번만 나누기만 하면, 운 좋게 쉬운 데이터가 테스트에 들어가서 성능이 과하게 높게 나올 수 있다
  • 그래서 데이터를 여러 번 나누고, 여러 번 평가해서 평균을 내는 방식으로 진짜 성능을 알아 볼 수 있다.

LOOCV

  • LOOCV, 하나만 빼 !!
    • Leave - One - Out Cross Validation
    • 단 하나의 샘플만 Validation set으로 사용
    • 데이터셋이 작은 규모인 경우 고려
    • 장점
      • 데이터 손실이 거의 없음 ( 학습에 거의 모든 샘플을 사용)
    • 단점
      • 계산량이 크다
      • 과적합에 민감하다

-> 거의 안 쓴다고 한다

K-Fold Cross Validation

  • 전체 데이터를 K개의 fold로 균등하게 나눈 뒤
  • 각 fold를 1번씩 test set으로 사용하고, 나머지를 training set으로 사용
  • 총 K번 학습/ 검증
  • 장점
    • 효율적이다
    • 일반화 오차 추정이 안정적
  • 단점
    • 클래스 불균형이 있으면 fold 간에 label 분포 차이가 발생할 수 있음→ 부정확한 평가

Stratified K-Fold Cross Vaildation

  • K-Fold CV와 동일한 방식이지만
  • 각 fold에 대해 label의 분포가 전체 데이터셋과 동일하도록 유지
  • 장점
    • 클래스 불균형이 있는 분류 문제에서 신뢰도 높은 성능 평가 가능
  • 단점
    • 회귀 문제에는 적용하기 어려움
    • 분포 조절이 필요한만큼 구현이 약간 복잡하다
반응형

'SKALA > AI' 카테고리의 다른 글

하이퍼 파라미터 튜닝(RandomSearch CV)  (1) 2025.04.25
AutoGen  (0) 2025.04.24
Graph RAG  (0) 2025.04.22
앙상블(Ensemble)  (0) 2025.04.21
네이버 뉴스 RAG 실습(3) - Prompting 및 RAG 구축  (2) 2025.04.11