AI 시스템은 한번 구축하고 끝나는 것이 아니라, 살아있는 유기체처럼 지속적으로 관리하고 운영해야 그 성능과 가치를 유지할 수 있습니다. 이 과정을 **지속 운영(Continuous Operation)**이라고 하며, 그 핵심 두 축이 바로 **모니터링(Monitoring)**과 **자동화(Automation)**입니다.
1. 핵심 내용: "AI 시스템은 왜 지속적인 모니터링이 필수적인가?"
전통적인 소프트웨어는 정해진 로직대로만 작동하지만, AI 모델은 데이터를 기반으로 예측하고 판단하기 때문에 시간이 지남에 따라 성능이 변할 수 있습니다. 마치 시험 범위(학습 데이터)만 열심히 공부한 학생(AI 모델)이 실제 시험(실제 데이터)에서 예상치 못한 문제를 만나면 점수가 떨어지는 것과 같습니다.
반드시 알아야 할 모니터링 대상 🎯
AI 시스템 모니터링은 크게 세 가지를 감시하는 활동입니다.
| 구분 | 모니터링 대상 | 핵심 질문 |
| 1. 모델 성능 (Model Performance) | 정확도(Accuracy), 정밀도(Precision), 재현율(Recall), F1-Score 등 | "우리 AI 모델이 여전히 예측을 잘하고 있는가?" |
| 2. 데이터 드리프트 (Data Drift) | 입력 데이터의 통계적 분포 변화 | "과거에 학습한 데이터와 현재 들어오는 데이터가 달라지지 않았는가?" |
| 3. 시스템/인프라 (System/Infra) | CPU/GPU 사용량, 메모리, 네트워크 지연 시간(Latency) | "AI 모델을 실행하는 서버나 시스템이 안정적으로 동작하고 있는가?" |
헷갈리기 쉬운 내용 🧐: 모니터링 (Monitoring) vs. 관측 가능성 (Observability)
이 두 용어는 매우 중요하며 주관식 문제로 출제될 가능성이 높습니다.
- 모니터링 (Monitoring): "우리가 미리 정해놓은 질문에 답하는 것" 입니다. 시스템의 상태를 알기 위해 미리 정의된 지표(Metric)나 로그(Log)를 수집하고 대시보드에 표시합니다.
- 예시: "CPU 사용률이 90%를 넘으면 알려줘." (예상 가능한 문제)
- 목표: 시스템이 정상인지 비정상인지 **'상태'**를 아는 것 (Known Unknowns)
- 관측 가능성 (Observability): "우리가 예상하지 못한 질문에도 답할 수 있는 능력" 입니다. 시스템의 내부 상태를 외부에서 얼마나 잘 추론할 수 있는지를 나타내는 시스템의 속성입니다. 단순히 지표를 보는 것을 넘어, 왜 그런 문제가 발생했는지 근본 원인을 파악할 수 있도록 상세한 데이터를 수집하고 분석합니다.
- 예시: "CPU 사용률이 갑자기 치솟았는데, 어떤 특정 사용자 요청 때문에 발생한 걸까?" (예상치 못한 문제)
- 목표: 시스템 내부에서 무슨 일이 일어나고 있는지, 왜 그런 행동을 하는지 **'이유'**를 아는 것 (Unknown Unknowns)
- 3대 요소: **지표(Metrics), 로그(Logs), 추적(Traces)**을 종합적으로 활용합니다.
주관식 대비 Tip: 모니터링은 '무엇'이 문제인지 알려주는 반면, 관측 가능성은 '왜' 그 문제가 발생했는지 파고들 수 있게 해주는 능력이라고 기억하세요. 모니터링은 관측 가능성을 구현하기 위한 하나의 활동입니다.
(무엇이 문제야? / 그 무엇은 뭐 때문에 발생했음? )
2. 핵심 내용: "모니터링 결과를 어떻게 자동으로 처리하고 운영을 효율화할까?"
문제를 발견했다면 신속하게 해결해야 합니다. 이 과정을 자동화하여 사람의 개입을 최소화하고 안정적인 서비스를 24시간 제공하는 것이 운영 자동화의 목표입니다.
반드시 알아야 할 자동화 개념 ⚙️
- MLOps (Machine Learning Operations): 머신러닝 모델의 개발(Dev)과 운영(Ops)을 통합하여, 모델 학습, 배포, 모니터링, 재학습으로 이어지는 전체 파이프라인을 자동화하는 것을 의미합니다. AI 시스템의 생명주기(Lifecycle) 전체를 관리하는 문화이자 기술입니다.
- 핵심 활동: CI/CD/CT (지속적 통합/배포/학습) 파이프라인 구축
- AIOps (AI for IT Operations): IT 운영(Operations)에 AI 기술을 도입하는 것입니다. 로그 분석, 이상 탐지, 원인 분석 등을 AI가 자동으로 수행하여 시스템 장애를 예측하고 방지합니다.
- 예시: AI가 수많은 서버 로그를 실시간으로 분석하여 "30분 뒤 A 서버의 디스크가 꽉 찰 것으로 예상됩니다."라고 미리 알려주는 것.
헷갈리기 쉬운 내용 🧐: MLOps vs. AIOps vs. DevOps
세 가지 모두 'Ops'가 들어가서 헷갈리기 쉽습니다. 적용 대상과 목표를 기준으로 명확히 구분해야 합니다.
| 구분 | DevOps | MLOps | AIOps |
| 주요 대상 | 소프트웨어 애플리케이션 | 머신러닝 모델 | IT 인프라 및 운영 데이터 |
| 핵심 목표 | 소프트웨어 개발과 배포의 속도 및 안정성 향상 | ML 모델의 개발-배포-재학습 자동화 및 성능 유지 | IT 시스템 운영의 지능화 및 자동화 (장애 예측, 원인 분석) |
| 핵심 차이 | 코드(Code) 중심 | 코드(Code) + 데이터(Data) + 모델(Model) 중심 | 운영 데이터(로그, 메트릭) 중심 |
주관식 대비 Tip: MLOps는 'ML 모델'을 위한 DevOps이고, AIOps는 'IT 운영'을 위한 AI라고 기억하면 쉽습니다. DevOps의 개념이 확장되어 ML 모델의 특수성(데이터, 모델 재학습 등)을 고려한 것이 MLOps입니다.
'시험 > 기본개념' 카테고리의 다른 글
| 📝 분류와 회귀의 손실 함수 & 최적화 전략 비교 (1) | 2025.09.04 |
|---|---|
| 데이터 드리프트, 개념 드리프트 (0) | 2025.09.03 |
| attention sink (0) | 2025.09.02 |
| transormer add norm, attention (0) | 2025.09.02 |
| XAI , cam, grad cam, lime, shap (0) | 2025.09.01 |