Site Reliability Engineering: How Google Runs Production Systems

Эта книга представляет собой исчерпывающее руководство по инженерной надежности сайтов (SRE) от команды Google, которая создала и отточила эту дисциплину. В ней подробно описываются принципы, практики и культурные аспекты, позволяющие Google обеспечивать высочайшую надежность своих сервисов при колоссальных масштабах и непрерывном развертывании изменений.

Читатели получат глубокое понимание того, как организована работа SRE-команд, какие инструменты и методологии используются для управления инцидентами, мониторинга, автоматизации и оценки рисков. Книга раскрывает философию балансировки между скоростью разработки и стабильностью, включая такие концепции, как бюджет ошибок (error budget) и устранение ручного труда (toil).

Основанная на реальном опыте эксплуатации таких систем, как Gmail, Search и других глобальных сервисов Google, эта книга служит практическим "поваренным справочником" для инженеров, менеджеров и всех, кто стремится создавать и поддерживать надежные, масштабируемые распределенные системы. Она содержит не только успешные решения, но и анализ ошибок, что делает ее ценным ресурсом для предотвращения повторения подобных проблем в других организациях.

Site Reliability Engineering: How Google Runs Production Systems
A
Автор
Betsy Beyer, Chris Jones, Jennifer Petoff, Niall Richard Murphy
Издательство
O'Reilly Media, Inc.
Год
2016
Язык
Английский
1
Оцените книгу

Чтобы читать книгу, войдите или зарегистрируйтесь

Ознакомительный фрагмент