Роняем прод, чтобы стать сильнее. Всё о Chaos Engineering | «В SREду на кухне» | AvitoTech

В этом выпуске говорим о том, что на самом деле стоит за Chaos Engineering. Разбираем, как компании сознательно создают сбои, чтобы проверить надёжность инфраструктуры и готовность команд к инцидентам. Обсуждаем: — чем Chaos Engineering отличается от нагрузочного тестирования — кто принимает решение «ломать прод» — можно ли делать chaos без SLO — как хаос связан с инженерной культурой — есть ли у Chaos Engineering реальный ROI — тестируем ли мы систему или людей Подписывайтесь в наш тг-канал: https://clc.to/0vdwJw Ведущие Андрей Волхонский, руководитель юнита System в Центре разработки инфраструктуры Авито Михаил Савин, SRE Community Lead в Авито Илья Садыков, старший инженер команды TestOps Гость Дмитрий Баскаков, Head of Platform в MindBox 00:00:00 Тизер 00:01:04 Chaos Engineering простыми словами 00:02:38 Чем хаос-тесты отличаются от нагрузочного тестирования 00:03:08 Почему без инженерной культуры хаос не работает 00:05:32 Сложность современных систем 00:06:38 Первые хаос-эксперименты: выключаем сервис 00:09:22 Кто должен запускать хаос-тесты 00:11:16 Планирование экспериментов и ответственность команд 00:12:27 Инструменты и платформенные команды 00:13:25 Как часто нужно запускать хаос-тесты 00:14:18 Автоматизация экспериментов 00:14:37 Почему глобальные тесты могут сломать всё 00:15:29 Реальные кейсы хаос-тестирования 00:16:29 Chaos Engineering как контроль качества 00:17:40 Какие инструменты нужны для хаос-инженерии 00:19:07 Почему важна blameless-культура 00:20:52 Error budget и хаос-эксперименты 00:22:13 Как хаос-тесты снижают стресс инженеров 00:24:22 Виноваты не люди, а процессы 00:25:47 Нужна ли хаос-инженерия маленьким компаниям 00:26:47 Почему стабильных систем не существует 00:27:39 Сколько стоит простой системы 00:28:41 История про корабли и плохую погоду 00:29:56 ROI хаос-инженерии 00:31:48 Почему некоторые компании живут без инцидентов 00:33:45 Инструменты Chaos Engineering (Netflix, Chaos Mesh и др.) 00:36:06 Паттерны и best-practice хаос-тестирования 00:37:56 Может ли ИИ запускать хаос-эксперименты 00:39:26 Анализ инцидентов с помощью данных 00:40:26 Как измерить хаос-потенциал системы 00:41:40 Планирование хаос-экспериментов 00:43:04 Тестирование контролируемой деградации 00:45:27 Где заканчивается Chaos Engineering 00:48:04 Почему хаос-инженерия становится стандартом индустрии 00:49:11 Итоги разговора AvitoTech — это команда инженеров Авито. Подпишитесь на наш канал, соцсети и блоги, чтобы узнавать больше о технологиях Авито 👇🏻 ВК: https://clc.to/pFXRXg Телеграм: https://clc.to/ZVuXEA Хабр: https://clc.to/MTRSUg Гитхаб: https://clc.to/s6ut5g RuTube: https://clc.to/pnX9mg Дзен: https://clc.to/wpRodA Сайт: https://clc.to/Ipk61w

Иконка канала AvitoTech
621 подписчик
12+
52 просмотра
8 дней назад
12+
52 просмотра
8 дней назад

В этом выпуске говорим о том, что на самом деле стоит за Chaos Engineering. Разбираем, как компании сознательно создают сбои, чтобы проверить надёжность инфраструктуры и готовность команд к инцидентам. Обсуждаем: — чем Chaos Engineering отличается от нагрузочного тестирования — кто принимает решение «ломать прод» — можно ли делать chaos без SLO — как хаос связан с инженерной культурой — есть ли у Chaos Engineering реальный ROI — тестируем ли мы систему или людей Подписывайтесь в наш тг-канал: https://clc.to/0vdwJw Ведущие Андрей Волхонский, руководитель юнита System в Центре разработки инфраструктуры Авито Михаил Савин, SRE Community Lead в Авито Илья Садыков, старший инженер команды TestOps Гость Дмитрий Баскаков, Head of Platform в MindBox 00:00:00 Тизер 00:01:04 Chaos Engineering простыми словами 00:02:38 Чем хаос-тесты отличаются от нагрузочного тестирования 00:03:08 Почему без инженерной культуры хаос не работает 00:05:32 Сложность современных систем 00:06:38 Первые хаос-эксперименты: выключаем сервис 00:09:22 Кто должен запускать хаос-тесты 00:11:16 Планирование экспериментов и ответственность команд 00:12:27 Инструменты и платформенные команды 00:13:25 Как часто нужно запускать хаос-тесты 00:14:18 Автоматизация экспериментов 00:14:37 Почему глобальные тесты могут сломать всё 00:15:29 Реальные кейсы хаос-тестирования 00:16:29 Chaos Engineering как контроль качества 00:17:40 Какие инструменты нужны для хаос-инженерии 00:19:07 Почему важна blameless-культура 00:20:52 Error budget и хаос-эксперименты 00:22:13 Как хаос-тесты снижают стресс инженеров 00:24:22 Виноваты не люди, а процессы 00:25:47 Нужна ли хаос-инженерия маленьким компаниям 00:26:47 Почему стабильных систем не существует 00:27:39 Сколько стоит простой системы 00:28:41 История про корабли и плохую погоду 00:29:56 ROI хаос-инженерии 00:31:48 Почему некоторые компании живут без инцидентов 00:33:45 Инструменты Chaos Engineering (Netflix, Chaos Mesh и др.) 00:36:06 Паттерны и best-practice хаос-тестирования 00:37:56 Может ли ИИ запускать хаос-эксперименты 00:39:26 Анализ инцидентов с помощью данных 00:40:26 Как измерить хаос-потенциал системы 00:41:40 Планирование хаос-экспериментов 00:43:04 Тестирование контролируемой деградации 00:45:27 Где заканчивается Chaos Engineering 00:48:04 Почему хаос-инженерия становится стандартом индустрии 00:49:11 Итоги разговора AvitoTech — это команда инженеров Авито. Подпишитесь на наш канал, соцсети и блоги, чтобы узнавать больше о технологиях Авито 👇🏻 ВК: https://clc.to/pFXRXg Телеграм: https://clc.to/ZVuXEA Хабр: https://clc.to/MTRSUg Гитхаб: https://clc.to/s6ut5g RuTube: https://clc.to/pnX9mg Дзен: https://clc.to/wpRodA Сайт: https://clc.to/Ipk61w

, чтобы оставлять комментарии