Эта статья включает в себя список общих ссылок , но он остается в значительной степени непроверенным, поскольку в нем отсутствует достаточное количество соответствующих встроенных ссылок . ( Май 2016 г. ) ( Узнайте, как и когда удалить этот шаблон сообщения ) |
Проектирование надежности сайта ( SRE ) - это дисциплина, которая включает аспекты разработки программного обеспечения и применяет их к инфраструктуре и операционным проблемам. [1] Основные цели - создание масштабируемых и высоконадежных программных систем. По словам Бена Трейнора, основателя группы обеспечения надежности сайтов Google , SRE - это «то, что происходит, когда программисту поручено то, что раньше называлось операциями ». [2]
Роли [ править ]
Инженер по надежности сайта (SRE) тратит до 50% своего времени на выполнение работы, связанной с операциями, например, на устранение неполадок, вызов по вызову и ручное вмешательство. Поскольку ожидается, что программная система, за которой наблюдает SRE, будет в высокой степени автоматической и самовосстанавливающейся, SRE должны тратить остальные 50% своего времени на задачи разработки, такие как новые функции, масштабирование или автоматизация. Идеальный кандидат в инженеры по надежности сайта - это либо инженер-программист с хорошим опытом администрирования, либо высококвалифицированный системный администратор со знанием программирования и автоматизации. [3]
DevOps против SRE [ править ]
DevOps, созданный примерно в 2008 году, представляет собой философию межкомандного сочувствия и согласованности в бизнесе. Это также было связано с практикой, которая включает автоматизацию ручных задач, непрерывную интеграцию и непрерывную доставку . SRE и DevOps придерживаются одних и тех же основополагающих принципов. Многие рассматривают SRE (как цитируется в книге Google SRE) как «конкретную реализацию DevOps с некоторыми идиосинкразическими расширениями». SRE, сами будучи разработчиками, естественно, будут предлагать решения, которые помогут устранить барьеры между командами разработчиков и операционными группами.
DevOps определяет пять столпов успеха:
- Сократите организационную разрозненность
- Примите неудачу как нормальное явление
- Осуществляйте постепенные изменения
- Используйте инструменты и автоматизацию
- Все измерить
SRE удовлетворяет основным принципам DevOps следующим образом: [4]
- Сократите организационную разрозненность
- SRE разделяет собственность с разработчиками, чтобы создать общую ответственность [5]
- SRE используют те же инструменты, что и разработчики, и наоборот.
- Примите неудачу как нормальное явление
- SRE допускают риск [6]
- SRE предписывает количественно оценить отказ и доступность с помощью индикаторов уровня обслуживания (SLI) и целевых показателей уровня обслуживания (SLO) [7]
- SRE требует безупречных вскрытий [8]
- Осуществляйте постепенные изменения
- SRE побуждает разработчиков и владельцев продуктов действовать быстро, снижая стоимость отказа [6]
- Используйте инструменты и автоматизацию
- У SRE есть устав для автоматизации ручных задач (называемых «тяжелым трудом») [9]
- Все измерить
- SRE определяет предписывающие способы измерения ценностей [10]
- SRE считает, что работа систем - это проблема программного обеспечения.
См. Также [ править ]
- Облачные вычисления
- Дата центр
- Программное обеспечение высокой доступности
- Инфраструктура как код
- Операции, администрирование и управление
- Управление операциями
- Техника надежности
- Системное администрирование
Ссылки [ править ]
- ^ Чем занимается инженер по надежности?
- ^ Являются ли SRE следующими специалистами по данным? , TechCrunch , 2 марта 2016 г., Дональд Фишер
- ^ Джонс, Крис; Андервуд, Тодд; Нукала, Шиладжа (июнь 2015 г.). "Наем инженеров по надежности сайта" (PDF) . войти . Vol. 40 нет. 3. С. 35–39.
- ^ Google Cloud Platform (1 марта 2018 г.). «В чем разница между DevOps и SRE? (Класс SRE реализует DevOps)» . С. 35–39 - через YouTube.
- ^ "Google - Разработка надежности сайта" . Landing.google.com .
- ^ a b «Google - Разработка надежности сайта» . Landing.google.com .
- ^ "Google - Разработка надежности сайта" . Landing.google.com .
- ^ "Google - Разработка надежности сайта" . Landing.google.com .
- ^ "Google - Разработка надежности сайта" . Landing.google.com .
- ^ "Google - Разработка надежности сайта" . Landing.google.com .
Дальнейшее чтение [ править ]
- Разработка надежности сайта: как Google управляет производственными системами, O'Reilly Media, апрель 2016 г., Бетси Бейер, Крис Джонс, Дженнифер Петофф, Найл Ричард Мерфи, ISBN 978-1-491-92912-4
- Практика администрирования облачных систем: проектирование и эксплуатация больших распределенных систем, том 2, Томас Лимончелли, ISBN 032194318X
- Google - Интервью с Беном Трейнором по проектированию надежности сайта