응용
AIOps

AI와 머신러닝을 IT 운영에 적용해서 시스템 이상 감지, 장애 예측, 자동 복구를 실현하는 기술. 점점 복잡해지는 인프라를 사람이 감당할 수 없는 규모에서 AI가 맡는다.

개념 설명

수백 개의 마이크로서비스가 동시에 돌아가는 클라우드 환경에서 로그와 메트릭을 사람이 모두 모니터링하는 건 불가능하다. AIOps는 방대한 로그·메트릭·이벤트 데이터에서 이상 패턴을 자동으로 탐지하고, 과거 장애 데이터를 학습해서 유사한 문제가 발생하기 전에 경고를 보내며, 반복적인 장애는 자동으로 복구 절차를 실행한다.

사용 예시

Datadog, Dynatrace, New Relic 같은 모니터링 플랫폼에는 이미 AIOps 기능이 내장돼 있다. 메트릭 이상 감지, 연관 로그 자동 묶기, 루트 코즈 분석을 자동으로 수행한다. LLM을 활용한 더 발전된 접근은 장애 발생 시 관련 로그와 이슈를 자동으로 모아서 "지금 무슨 일이 일어나고 있는지" 자연어 요약과 복구 제안을 만들어주는 방식이다.

#IT운영#모니터링#자동화
← AI Wiki에서 더 보기