Site Reliability Engineering (SRE) — источники знаний по теме
(Из ленты Чудес не бывает или я ошибаюсь?)
Тема модная, имхо отпочковалась от DevOps, а скорее стало ее развитием (хотя считается, что развивались темы параллельно и одновременно).
Зародилась в Google, во многом построена на основе текущей структуры разработки Google, поэтому применение в других организациях сталкивается со сложностями.
По теме 3 основные книги (в порядке даты издания):
- Site Reliability Engineering. How Google Runs Production Systems (апрель 2016)
- The Site Reliability Workbook. Practical Ways to Implement SRE (июль 2018)
- Seeking SRE. Conversations About Running Production Systems at Scale (сентябрь 2018)
В первой книге про концепцию и базовые вещи. Вторая про внедрение на примерах. Третья похожа на вторую, но в виде примеров (в тч best practices) из разных компаний.
Видео-рассказ одного из SRE-инженеров Google (на русском) «Как я научился не волноваться и полюбил пейджер«
Видео про одну из фундаментальных вещей SRE: «SLIs, SLOs, SLAs«
to be extended…