본문 바로가기

용어정리

[용어] SRE(사이트 신뢰성 엔지니어링)란?

반응형

SRE(사이트 신뢰성 엔지니어링)란?

SRE(사이트 신뢰성 엔지니어링, Site Reliability Engineering)은 소프트웨어 시스템의 신뢰성을 개선하기 위해 Google에서 개발한 운영 철학 및 엔지니어링 접근 방식입니다.

 

기존의 IT 운영은 기술적인 문제 해결에만 초점을 두고, 개발팀과 운영팀이 분리되어 있어 전체적인 서비스 신뢰성을 강화하는 데 한계가 있었습니다. 반면 SRE은 이러한 한계를 극복하기 위해 개발과 운영을 하나로 통합하고, 자동화 및 모니터링 등의 기술을 통해 서비스의 신뢰성을 유지하고 개선하는데 초점을 둡니다.

 

SRE 팀은 서비스의 가용성, 안정성, 확장성, 성능 등을 모니터링하고, 장애 발생 시 신속하게 대응하여 서비스 중단 시간을 최소화하고 사용자 경험을 향상시킵니다. 또한 자동화를 통해 반복적인 업무를 자동화하고, 인적 오류를 최소화하여 서비스 운영을 보다 안정적이고 효율적으로 수행할 수 있도록 합니다.

 

SRE은 Google에서 개발된 운영 철학이지만 현재는 다양한 기업에서 도입되어 활용되고 있습니다. SRE의 주요한 목표는 서비스의 신뢰성을 높이는 것이며, 이를 위해 개발과 운영을 통합하고, 자동화와 모니터링 등의 기술을 활용합니다.

 

참고URL

- redhat.com : https://www.redhat.com/ko/topics/devops/what-is-sre

- netapp.com : https://www.netapp.com/ko/devops-solutions/what-is-site-reliability-engineering/

- microsoft.com : https://docs.microsoft.com/ko-kr/learn/modules/intro-to-site-reliability-engineering/

- elastic.co : https://www.elastic.co/kr/blog/elastic-observability-sre-incident-response

 

728x90
반응형