ai 시스템 모니터링 및 자동화

AI 시스템은 한번 구축하고 끝나는 것이 아니라, 살아있는 유기체처럼 지속적으로 관리하고 운영해야 그 성능과 가치를 유지할 수 있습니다. 이 과정을 **지속 운영(Continuous Operation)**이라고 하며, 그 핵심 두 축이 바로 **모니터링(Monitoring)**과 **자동화(Automation)**입니다.

1. 핵심 내용: "AI 시스템은 왜 지속적인 모니터링이 필수적인가?"

전통적인 소프트웨어는 정해진 로직대로만 작동하지만, AI 모델은 데이터를 기반으로 예측하고 판단하기 때문에 시간이 지남에 따라 성능이 변할 수 있습니다. 마치 시험 범위(학습 데이터)만 열심히 공부한 학생(AI 모델)이 실제 시험(실제 데이터)에서 예상치 못한 문제를 만나면 점수가 떨어지는 것과 같습니다.

반드시 알아야 할 모니터링 대상 🎯

AI 시스템 모니터링은 크게 세 가지를 감시하는 활동입니다.

구분	모니터링 대상	핵심 질문
1. 모델 성능 (Model Performance)	정확도(Accuracy), 정밀도(Precision), 재현율(Recall), F1-Score 등	"우리 AI 모델이 여전히 예측을 잘하고 있는가?"
2. 데이터 드리프트 (Data Drift)	입력 데이터의 통계적 분포 변화	"과거에 학습한 데이터와 현재 들어오는 데이터가 달라지지 않았는가?"
3. 시스템/인프라 (System/Infra)	CPU/GPU 사용량, 메모리, 네트워크 지연 시간(Latency)	"AI 모델을 실행하는 서버나 시스템이 안정적으로 동작하고 있는가?"

Sheets로 내보내기

헷갈리기 쉬운 내용 🧐: 모니터링 (Monitoring) vs. 관측 가능성 (Observability)

이 두 용어는 매우 중요하며 주관식 문제로 출제될 가능성이 높습니다.

모니터링 (Monitoring): "우리가 미리 정해놓은 질문에 답하는 것" 입니다. 시스템의 상태를 알기 위해 미리 정의된 지표(Metric)나 로그(Log)를 수집하고 대시보드에 표시합니다.
- 예시: "CPU 사용률이 90%를 넘으면 알려줘." (예상 가능한 문제)
- 목표: 시스템이 정상인지 비정상인지 **'상태'**를 아는 것 (Known Unknowns)
관측 가능성 (Observability): "우리가 예상하지 못한 질문에도 답할 수 있는 능력" 입니다. 시스템의 내부 상태를 외부에서 얼마나 잘 추론할 수 있는지를 나타내는 시스템의 속성입니다. 단순히 지표를 보는 것을 넘어, 왜 그런 문제가 발생했는지 근본 원인을 파악할 수 있도록 상세한 데이터를 수집하고 분석합니다.
- 예시: "CPU 사용률이 갑자기 치솟았는데, 어떤 특정 사용자 요청 때문에 발생한 걸까?" (예상치 못한 문제)
- 목표: 시스템 내부에서 무슨 일이 일어나고 있는지, 왜 그런 행동을 하는지 **'이유'**를 아는 것 (Unknown Unknowns)
- 3대 요소: **지표(Metrics), 로그(Logs), 추적(Traces)**을 종합적으로 활용합니다.

주관식 대비 Tip: 모니터링은 '무엇'이 문제인지 알려주는 반면, 관측 가능성은 '왜' 그 문제가 발생했는지 파고들 수 있게 해주는 능력이라고 기억하세요. 모니터링은 관측 가능성을 구현하기 위한 하나의 활동입니다.
(무엇이 문제야? / 그 무엇은 뭐 때문에 발생했음? )

2. 핵심 내용: "모니터링 결과를 어떻게 자동으로 처리하고 운영을 효율화할까?"

문제를 발견했다면 신속하게 해결해야 합니다. 이 과정을 자동화하여 사람의 개입을 최소화하고 안정적인 서비스를 24시간 제공하는 것이 운영 자동화의 목표입니다.

반드시 알아야 할 자동화 개념 ⚙️

MLOps (Machine Learning Operations): 머신러닝 모델의 개발(Dev)과 운영(Ops)을 통합하여, 모델 학습, 배포, 모니터링, 재학습으로 이어지는 전체 파이프라인을 자동화하는 것을 의미합니다. AI 시스템의 생명주기(Lifecycle) 전체를 관리하는 문화이자 기술입니다.
- 핵심 활동: CI/CD/CT (지속적 통합/배포/학습) 파이프라인 구축
AIOps (AI for IT Operations): IT 운영(Operations)에 AI 기술을 도입하는 것입니다. 로그 분석, 이상 탐지, 원인 분석 등을 AI가 자동으로 수행하여 시스템 장애를 예측하고 방지합니다.
- 예시: AI가 수많은 서버 로그를 실시간으로 분석하여 "30분 뒤 A 서버의 디스크가 꽉 찰 것으로 예상됩니다."라고 미리 알려주는 것.

헷갈리기 쉬운 내용 🧐: MLOps vs. AIOps vs. DevOps

세 가지 모두 'Ops'가 들어가서 헷갈리기 쉽습니다. 적용 대상과 목표를 기준으로 명확히 구분해야 합니다.

구분	DevOps	MLOps	AIOps
주요 대상	소프트웨어 애플리케이션	머신러닝 모델	IT 인프라 및 운영 데이터
핵심 목표	소프트웨어 개발과 배포의 속도 및 안정성 향상	ML 모델의 개발-배포-재학습 자동화 및 성능 유지	IT 시스템 운영의 지능화 및 자동화 (장애 예측, 원인 분석)
핵심 차이	코드(Code) 중심	코드(Code) + 데이터(Data) + 모델(Model) 중심	운영 데이터(로그, 메트릭) 중심

주관식 대비 Tip: MLOps는 'ML 모델'을 위한 DevOps이고, AIOps는 'IT 운영'을 위한 AI라고 기억하면 쉽습니다. DevOps의 개념이 확장되어 ML 모델의 특수성(데이터, 모델 재학습 등)을 고려한 것이 MLOps입니다.

'시험 > 기본개념' 카테고리의 다른 글

📝 분류와 회귀의 손실 함수 & 최적화 전략 비교 (1)	2025.09.04
데이터 드리프트, 개념 드리프트 (0)	2025.09.03
attention sink (0)	2025.09.02
transormer add norm, attention (0)	2025.09.02
XAI , cam, grad cam, lime, shap (0)	2025.09.01

오늘, 최선을 다하자

ai 시스템 모니터링 및 자동화

1. 핵심 내용: "AI 시스템은 왜 지속적인 모니터링이 필수적인가?"

반드시 알아야 할 모니터링 대상 🎯

헷갈리기 쉬운 내용 🧐: 모니터링 (Monitoring) vs. 관측 가능성 (Observability)

2. 핵심 내용: "모니터링 결과를 어떻게 자동으로 처리하고 운영을 효율화할까?"

반드시 알아야 할 자동화 개념 ⚙️

헷갈리기 쉬운 내용 🧐: MLOps vs. AIOps vs. DevOps

'시험 > 기본개념' 카테고리의 다른 글

티스토리툴바

ai 시스템 모니터링 및 자동화

1. 핵심 내용: "AI 시스템은 왜 지속적인 모니터링이 필수적인가?"

반드시 알아야 할 모니터링 대상 🎯

헷갈리기 쉬운 내용 🧐: 모니터링 (Monitoring) vs. 관측 가능성 (Observability)

2. 핵심 내용: "모니터링 결과를 어떻게 자동으로 처리하고 운영을 효율화할까?"

반드시 알아야 할 자동화 개념 ⚙️

헷갈리기 쉬운 내용 🧐: MLOps vs. AIOps vs. DevOps

'시험 > 기본개념' 카테고리의 다른 글

'시험/기본개념' Related Articles

티스토리툴바