📌 최종 정리표
이 표를 머릿속에 넣어두시면 절대 헷갈리지 않을 거예요!
| 구분 | 데이터 드리프트 (Data Drift) | 개념 드리프트 (Concept Drift) |
| 무엇이 변했나? | **입력 데이터()**의 분포 | **입력()과 결과()**의 관계 |
| 핵심 질문 | "요즘 들어오는 데이터의 종류가 달라졌나?" | "기존 데이터를 해석하는 방식이 달라졌나?" |
| 학생 비유 | 생전 처음 보는 **'신유형 문제'**를 만났다. | 알던 문제인데 **'정답'**이 바뀌었다. |
| 수식 | $P_{new}(Y | |
| 우리 시나리오 | '사실 1': '카고팬츠'라는 새로운 데이터가 등장 | '사실 2': **'화려하다'의 의미(관계)**가 변화 |
| 해결방법 | 드리프트 모니터링, 모델 재학습, 재배포 | Online learning, feature dropping |
데이터 드리프트는 입력 데이터의 통계적 특성이 변하는 것을 의미하지만, 이 경우는 '사기'라는 개념 자체가 변한 것이므로 더 적합한 용어가 있습니다.
상세
## 데이터 드리프트 (Data Drift): "새로운 유형의 문제 등장"
데이터 드리프트는 학생이 배운 '문제의 유형(X)' 자체가 달라지는 것입니다. 학생이 알고 있는 '풀이 공식(규칙, Y|X)'은 여전히 유효하지만, 생전 처음 보는 유형의 문제를 받아서 당황하는 상황이죠.
- 시나리오 적용 ('사실 1'):
- AI 학생은 '스키니진', '청바지' 같은 **기존 유형의 문제(X)**는 어떻게 풀어야 할지(추천해야 할지) 잘 알고 있습니다.
- 그런데 갑자기 시험지에 '로우라이즈', '카고팬츠'라는 **완전히 새로운 유형의 문제(X)**가 등장했습니다.
- 이 학생(AI)은 이 새로운 유형의 문제를 풀어본 경험(학습 데이터)이 부족해서, 이 문제를 어떻게 풀어야 할지(어떤 사용자에게 추천해야 할지) 모르는 것입니다.
- 여기서 중요한 점은, 만약 AI가 '카고팬츠'에 대해 충분히 학습했다면 적용할 수 있는 '풀이 공식' 또는 '패션 규칙'(X와 Y의 관계) 자체는 변하지 않았다는 것입니다.
핵심: 풀이 공식(관계)은 그대로인데, 문제의 유형(데이터 분포)이 바뀐 것. 즉, 세상에 없던 **새로운 종류의 데이터(X)**가 나타난 것이 데이터 드리프트입니다.
## 개념 드리프트 (Concept Drift): "문제의 정답이 바뀜"
개념 드리프트는 학생이 풀던 '문제 유형(X)'은 똑같은데, 그 문제에 대한 '정답(Y)' 또는 '풀이 공식(규칙, Y|X)' 자체가 바뀌어 버린 것입니다. 어제까지는 1+1의 정답이 2였는데, 오늘부터 세상의 규칙이 바뀌어 1+1의 정답이 3이 되어버린 황당한 상황이죠.
- 시나리오 적용 ('사실 2'):
- AI 학생은 '화려한 옷(X)'이라는 문제를 보면 정답을 '파티용(Y)'이라고 말하도록 열심히 공부했습니다.
- 그런데 세상의 트렌드가 바뀌면서, 이제 '화려한 옷(X)' 문제의 정답이 '일상복(Y)'으로 바뀌어 버렸습니다.
- AI 학생은 이 **바뀐 규칙(개념)**을 모르기 때문에, 예전처럼 '화려한 옷'은 '파티용'이라고 계속 잘못된 답을 말하는 것입니다.
- 여기서 중요한 점은 '화려한 옷'이라는 문제 자체는 예전부터 존재했다는 것입니다. 데이터가 새로운 게 아니라, 그 데이터와 정답 사이의 관계, 즉 개념이 바뀐 것입니다.
핵심: 문제 유형(데이터)은 그대로인데, 정답 또는 풀이 공식(관계)이 바뀐 것. 즉, 기존 데이터(X)를 해석하는 세상의 규칙(Y|X)이 변한 것이 개념 드리프트입니다.
개념드리프트: 라벨링 다시해야할경우 (대체로..)
명시적 vs. 묵시적 개념 드리프트
이해를 돕기 위해 개념 드리프트를 두 가지로 나누어 볼 수 있습니다.
- 명시적/인위적 개념 드리프트 (Explicit Concept Drift)
- 사람이 직접 '정답'의 기준을 바꾸는 경우입니다.
- 라벨링을 다시 하는 대부분의 케이스가 여기에 속합니다.
- 예: 법 개정으로 인한 불법/합법 조항 변경, 새로운 진단 가이드라인 채택 등
- 묵시적/자연적 개념 드리프트 (Implicit Concept Drift)
- 사람의 개입 없이, 세상이나 자연의 작동 방식이 변하여 관계가 바뀌는 경우입니다.
- 농작물 수확량 문제가 바로 여기에 해당합니다.
- 누가 라벨을 바꾸지 않아도, 자연이 만들어내는 실제 결과(Ground Truth) 자체가 변해버린 것입니다.
- 예: 경쟁사 출시로 인한 소비자 선호도 변화, 기후 변화로 인한 생태계 변화 등
결론적으로, 라벨링 재작업은 개념 드리프트를 발견하고 대응하는 하나의 방법일 뿐, 개념 드리프트의 유일한 원인이나 정의는 아닙니다. 실제 세상의 법칙이 변하는 것도 매우 중요한 개념 드리프트의 한 종류입니다.
따라서 아래의 경우를 참조한다.
19. 교통량 예측 모델이 특정 도로의 통행 패턴을 학습했습니다. 그런데 갑자기 그 도로 옆에 대규모 쇼핑몰이 개장하면서, 주말 낮 시간대의 교통량이 폭증하고 출퇴근 시간 패턴이 완전히 바뀌었습니다. 이 현상을 MLOps 관점에서 가장 잘 설명한 것은?
여기에 만약 내가 패턴으로 뭔가 결과물을 얻는데, 그게 쇼핑몰 개장으로 안좋아졌으면 개념 드리프트일까?
왜 개념 드리프트가 될까요? 🤔
모델이 예측하는 목표(Y)가 무엇이냐에 따라 해석이 달라지기 때문입니다.
시나리오 1: 교통량 자체를 예측 (기존 퀴즈)
- 입력(X): 요일, 시간, 날씨 등
- 정답(Y): 특정 시간의 교통량
- 쇼핑몰 개장 후: 토요일 오후 2시()라는 동일한 조건에 대한 결과(교통량, )의 실제 값 자체가 변했습니다. 즉, 입력 데이터의 패턴()이 바뀐 것입니다.
- 결론: 데이터 드리프트
시나리오 2: 교통 패턴으로 '인근 가게의 매출'을 예측 (사용자님의 가정)
- 입력(X): 교통량 패턴 (예: 토요일 오후 높은 교통량)
- 정답(Y): 인근 가게의 예상 매출액
- 쇼핑몰 개장 전: 높은 교통량()이라는 패턴은 높은 매출()로 이어지는 강한 관계()를 가졌습니다.
- 쇼핑몰 개장 후: 이제 높은 교통량()은 모두 쇼핑몰로 가는 차량이 되어버려, 오히려 인근 가게의 매출은 낮은 매출()로 이어지게 됩니다. 즉, 교통량과 매출 사이의 관계()가 완전히 뒤바뀐 것입니다.
- 결론: 개념 드리프트
라벨링을 다시해야하는 상황이면 대체로 개념드리프트 일까?
네, 대체로 맞습니다.
기존에 있던 데이터에 대해 라벨링을 다시 해야 하는 상황이 발생했다면, 이는 개념 드리프트(Concept Drift)가 발생했다는 강력한 신호일 가능성이 높습니다.
왜 그런가요? 🤔
라벨링을 다시 한다는 것은 "동일한 데이터()"를 보고도 "정답()"을 다르게 부여해야 한다는 의미이기 때문입니다.
- 과거: 어떤 데이터 에 대해 정답은 였다.
- 현재: 이제는 그 똑같은 데이터 에 대해 정답이 로 바뀌었다.
이것이 바로 입력()과 정답() 사이의 관계, 즉 $P(Y|X)$가 변했다는 것이고, 이는 개념 드리프트의 핵심 정의와 정확히 일치합니다.
구체적인 예시 📝
- 스팸 메일 필터: 예전에는 '광고'라는 단어가 포함된 메일()을 '스팸'()으로 라벨링했습니다. 하지만 이제는 정상적인 뉴스레터에도 '광고'가 포함되어 '정상'()으로 라벨링을 다시 해야 합니다.
- 의료 영상 진단: 과거에는 '양성'()으로 판독하던 미세한 패턴의 영상()을, 새로운 진단 기준에 따라 '악성 의심'()으로 라벨링을 다시 해야 합니다.
- 감성 분석: 예전에는 "미쳤다"라는 단어()가 들어간 리뷰를 '부정'()으로 라벨링했지만, 이제는 '놀랍도록 좋다'는 의미로도 쓰여 '긍정'()으로 다시 라벨링해야 하는 경우가 생겼습니다.
이처럼 라벨링 재작업은 세상의 변화, 새로운 지식의 발견, 용어의 의미 변화 등 '개념'의 변화에서 비롯되는 경우가 많습니다.
13. 자동 번역 모델이 '클라우드'라는 단어를 주로 IT 용어인 'Cloud Computing'으로 번역하도록 학습되었습니다. 그런데 최근 기상 이변에 대한 뉴스가 급증하면서, 동일한 '클라우드'라는 단어가 '구름'으로 번역되어야 할 문맥이 많아졌습니다. 이 상황을 가장 정확하게 기술한 것은 무엇입니까?
12. 어떤 AI 모델의 모니터링 대시보드에서 모델 성능(Accuracy)은 안정적으로 유지되고 있지만, 특정 입력 피처 'A'의 평균값이 지속적으로 상승하는 것이 관측되었습니다. 이는 무엇을 시사합니까?
입력 피처의 통계치 변화는 데이터 드리프트를 의미합니다. 성능이 유지된다는 것은 해당 피처의 중요도가 낮거나(low feature importance), 모델이 해당 수준의 변화는 충분히 일반화하여 처리할 수 있음을 시사합니다.
'시험 > 기본개념' 카테고리의 다른 글
| overfitting 방지 (0) | 2025.09.04 |
|---|---|
| 📝 분류와 회귀의 손실 함수 & 최적화 전략 비교 (1) | 2025.09.04 |
| ai 시스템 모니터링 및 자동화 (0) | 2025.09.03 |
| attention sink (0) | 2025.09.02 |
| transormer add norm, attention (0) | 2025.09.02 |