Додатково Кейси власників хостингу

Як один власник хостингу втратив 40% клієнтів за ніч - і повернув їх за тиждень

Сигнал тривоги про збій хостинг-сервера з червоним попереджувальним знаком

О третій ночі Андрій отримав SMS від свого моніторингу. Потім ще одне. Потім телефон просто не замовкав. Його хостинг-платформа, яка обслуговувала 3200 клієнтів і приносила стабільних $12 000 на місяць, лежала. Повністю. Не працювало нічого - ні панель керування, ні сайти клієнтів, ні навіть бекап-сервер, який мав бути на окремому дата-центрі, але через «тимчасову» економію стояв у тій самій стійці. Ця історія - не вигадка для драматизму. Це реальний кейс, який показує, як одна помилка в архітектурі може знищити роки роботи за кілька годин, і як правильна реакція здатна все повернути.

Що саме сталося: анатомія катастрофи

Андрій запустив свій хостинг-бізнес у 2021 році. Почав з реселерського акаунту за $50 на місяць, поступово виріс до трьох виділених серверів у дата-центрі Hetzner. Класичний шлях. Клієнти приходили через рекомендації, бо підтримка відповідала за 5-10 хвилин, а ціни були нижчими за ринкові. Все йшло добре. Занадто добре.

Проблема почалася з банальної речі - рейд-контролер на основному сервері вирішив померти саме тоді, коли на бекап-сервері йшов черговий rsync. Каскадний збій. Файлова система посипалась, бекапи виявились неконсистентними, а відновлення з останнього повного бекапу означало відкат на 72 години.

72 години втрачених даних для інтернет-магазинів - це сотні замовлень, які просто зникли.

Ось хронологія першої доби:

  1. 03:12 - спрацювання алертів моніторингу, основний сервер недоступний
  2. 03:45 - Андрій розбудив свого єдиного адміністратора, разом почали діагностику
  3. 05:20 - підтвердження: рейд-масив зруйновано, дані частково втрачені
  4. 07:00 - перші тікети від клієнтів, тон поки ввічливий
  5. 12:00 - 340 тікетів, соцмережі палають, клієнти починають публічно ганьбити компанію
  6. 18:00 - перші 87 клієнтів подали запит на перенесення доменів
Власник хостингу телефонує клієнтам вночі після аварії сервера
Власник хостингу телефонує клієнтам вночі після аварії сервера

Перші 24 години: як не зробити все ще гірше

Більшість власників хостингу в такій ситуації роблять одну з двох помилок. Або мовчать, сподіваючись полагодити все непомітно. Або пишуть шаблонне «ми працюємо над проблемою», яке нікого не заспокоює. Андрій зробив інакше.

О 8 ранку він опублікував на сайті пост, де чесно написав: сервер зламався, частина даних втрачена, ось що ми робимо прямо зараз, ось таймлайн відновлення. Без юридичних формулювань. Без виправдань. Просто факти.

«Коли все горить, єдине, що тримає клієнтів - це відчуття, що по той бік екрану сидить жива людина, яка теж не спить і реально щось робить. Не бот, не скрипт, не PR-відділ. Людина.» - Микола Коваленко, СТО хостинг-провайдера HostPro

Андрій відкрив Telegram-канал спеціально для цього інциденту. Публікував оновлення кожні 2 години. З технічними деталями. Клієнти бачили прогрес у реальному часі. Дивна штука: ті, хто стежили за каналом, майже не писали злих тікетів. Прозорість працювала як анестезія.

Тим часом команда (Андрій + адмін + фрілансер-девопс, якого знайшли о 6 ранку за подвійний рейт) робила наступне:

  • Піднімала тимчасовий сервер з чистою ОС для критичних клієнтів
  • Витягувала дані з «побитого» масиву через dd і testdisk - вдалося врятувати близько 68% файлів
  • Писала персональні листи топ-50 клієнтам з конкретними планами відновлення
  • Домовлялася з Hetzner про терміновий запасний сервер (отримали за 4 години замість стандартних 24)

Скільки це коштувало: цифри, які відрізвляють

Ось таблиця, яку Андрій склав після інциденту. Він показав її мені з коментарем: «Якби я витратив ці гроші ДО катастрофи, витратив би втричі менше».

Стаття витрат Сума Коментар
Аварійний фрілансер-девопс (72 години) $2 400 Подвійний рейт за терміновість
Новий сервер + налаштування $1 800 Міграція на нове залізо
Компенсації клієнтам (безкоштовні місяці) $4 100 Від 1 до 3 місяців кожному постраждалому
Втрачений дохід (клієнти, які пішли) ~$3 800/міс 87 клієнтів, середній чек $43
Репутаційні втрати (зниження нових реєстрацій) ~$2 000/міс Ефект тривав 2 місяці
Загалом прямих витрат $8 300 Без урахування непрямих

А тепер порівняйте. Окремий бекап-сервер в іншому дата-центрі обійшовся б у $80 на місяць. $960 на рік. Це менше, ніж він витратив на один лише фрілансерський аврал.

Менеджер аналізує дані щоб повернути клієнтів хостингу після даунтайму
Менеджер аналізує дані щоб повернути клієнтів хостингу після даунтайму

Повернення клієнтів: стратегія, яка не мала права на помилку

Через тиждень після інциденту сервіс повністю працював. Але 40% клієнтів уже або пішли, або «думали» про це. Андрій мав план.

Перше - він зателефонував кожному клієнту, який подав запит на трансфер. Не написав. Зателефонував. 87 дзвінків за два дні. Розповідав, що сталось, що змінилось, і пропонував конкретну компенсацію. Результат? 54 з 87 залишились. Це 62% повернення.

Друге - він опублікував повний post-mortem звіт. Технічний, з діаграмами, з визнанням конкретних помилок у архітектурі. Ніхто з конкурентів так не робив. Це парадоксально привернуло нових клієнтів - люди почали довіряти компанії, яка не ховає свої провали.

Третє - він повністю перебудував інфраструктуру:

  • Бекапи тепер йдуть на окремий сервер в іншому дата-центрі (OVH, Франція)
  • Щоденне тестування відновлення з бекапу - автоматичний скрипт піднімає контейнер і перевіряє, що сайт працює
  • RAID-10 замість RAID-5 на всіх продакшн-серверах
  • Моніторинг SMART-параметрів дисків з алертами за 2 тижні до потенційного збою

Ключовий урок: бекап, який ви не тестуєте - це не бекап, а самозаспокоєння.

Що змінилося через 6 місяців

Я поговорив з Андрієм через пів року після інциденту. Цифри виявились несподіваними. Кількість клієнтів зросла до 3 800 - більше, ніж було до катастрофи. Середній чек піднявся з $43 до $51, бо він додав преміум-план з гарантованим відновленням за 1 годину.

Чому зросло? Тому що post-mortem звіт став вірусним у профільних спільнотах. Його розшарили на DOU, у кількох Telegram-каналах для веб-розробників, і навіть один відомий YouTube-блогер зробив огляд. Прозорість стала маркетинговим інструментом. Безкоштовним.

Ось що Андрій каже сьогодні:

«Я вдячний тій ночі. Без неї я б так і залишався хлопцем з трьома серверами і ілюзією, що все під контролем. Катастрофа змусила мене побудувати справжній бізнес замість хобі, яке приносить гроші.»

Що забрати собі: чек-лист після чужих помилок

Якщо ви власник хостингу або тільки думаєте про цей бізнес, ось конкретні речі, які варто зробити сьогодні. Не завтра. Сьогодні.

  1. Перевірте, де фізично лежать ваші бекапи. Якщо на тому ж сервері або в тому ж дата-центрі - це не бекап.
  2. Протестуйте відновлення прямо зараз. Візьміть рандомний акаунт клієнта і спробуйте підняти його з бекапу на тестовому сервері. Засікіть час.
  3. Напишіть план комунікації на випадок інциденту. Хто пише клієнтам? Де публікуємо оновлення? Хто відповідає в соцмережах? Це має бути готове ДО того, як все зламається.
  4. Порахуйте вартість однієї години простою. Кількість клієнтів помножте на середній чек і поділіть на 720 (годин у місяці). Ця цифра - ваш мінімальний щомісячний бюджет на резервування.
  5. Заведіть «аварійну книгу контактів». Девопс-фрілансери, контакти дата-центру, доступи до DNS-реєстратора - все в одному захищеному місці, доступному не тільки вам.

Історія Андрія - це не про те, як все пішло не так. Це про те, як реакція на кризу визначає майбутнє бізнесу більше, ніж сама криза. Ваш хостинг зламається. Не «може зламатися» - точно зламається. Питання лише одне: що ви зробите в перші 60 хвилин після цього?