koenjafrdeiteshizh-CNvith





신뢰성 향상을 위한 SLI/SLO 도입 1편 - 소개와 필요성

3 weeks ago 3

시작하며

안녕하세요. SRE(site reliability engineering, 사이트 안정성 엔지니어링) 업무를 맡고 있는 Enablement Engineering 팀 어다희, Service Reliability 팀 천기철입니다.

저희 두 팀은 Service Engineering 실에 속해 있으며, LINE 앱에서 제공하는 서비스의 품질 향상 및 가용성 확보를 위한 기술 활동을 수행합니다. 보다 구체적으로는 메시징 서비스와 미디어 플랫폼 등 LINE 앱 서비스에 대한 SRE을 담당하고 있습니다. 이를 위해 서비스 출시 및 이벤트에 필요한 기술적인 요소를 확인하고 그에 맞는 솔루션을 제공하며, 개발 조직이 개발과 운영에 더욱 집중할 수 있도록 불안 요소를 제거하고 단순 반복 작업을 줄이기 위한 기술 지원 및 자동화 작업을 수행합니다. 또한 수요 예측과 성능 개선, 관찰가능성(observability) 강화, 사고 대응과 같은 다양한 분야에서 엔지니어링 측면에서 노력을 기울이며, 서비스의 신뢰성을 한층 더 높이기 위해 노력합니다.

저희는 이와 같은 경험을 기반으로 '신뢰성(reliability) 향상을 위한 SLI/SLO 도입'을 주제로 세 편의 글을 연재하려고 합니다. 이번 글은 그 시작으로, SLO(service level objective)와 SLI(service level indicator)를 처음 들어보신 분들을 위해 이게 무엇이고 왜 필요한지 배경을 설명하는 것으로 가볍게 시작해 보겠습니다.

SRE의 역할

SRE는 고객에게 서비스의 '안정성'과 '신뢰성'을 제공하는 데 필요한 모든 엔지니어링 업무를 수행합니다. 조금 더 구체적으로 말씀드리면 성능 개선 및 자동화를 위한 코드 작성과 시스템 모니터링, 장애 대응 등을 수행해 서비스의 안정성을 유지하면서 변화를 최대한 수용해 신뢰도 높은 서비스를 제공하는 것을 목표로 합니다.

여기서 '신뢰성'이라는 단어가 다소 추상적인 단어인데요. 아래와 같이 신뢰와 관련된 어떤 긍정적인 단어로 해석해도 틀리지 않습니다. 

  • 빠른 서비스를 제공한다.
  • 안정적인 서비스를 제공한다.
  • 안전한 서비스를 제공한다.

이는 결국 사용자가 믿고 쓸 수 있는 서비스를 제공한다는 의미입니다. 즉, 신뢰성은 서비스를 제공하는 쪽의 모니터링 결과로 결정되는 것이 아니라 사용자가 결정하는 것입니다.

따라서 SRE는 사용자가 서비스를 어떻게 느끼

Read Entire Article