Niedostępność n72.lvlup.pro - 23-24.01.2018

SystemZ | 2018-01-24 23:00:51 UTC | #1

Ostatnio miały miejsce problemy z jednym z węzłów.
Były one powiązane z zasilaniem i sprzętem.
Dotyczyły one czterech klientów VPS KVM Game Pro+

Poniżej dla transparentności zamieszczam cały przebieg zdarzeń.

23.01.2018

23:40

Węzeł n72.lvlup.pro staje się niedostępny.
Z nieznanych mi przyczyn monitoring OVH nie wykrywa tej usterki.

24.01.2018

09:05

Podjąłem próbę hard reboot, niestety bez powodzenia.
Panel OVH nie “załapał” tego zdarzenia i nie zarezerwował techników w celu interwencji.

10:04

Następna próba hard reboot, też bez skutku.
Brak możliwości wejścia w tryb rescue aby zgrać dane klientów.
Tworzę ticket w OVH aby wyjaśnić sprawę.

14:12

Otrzymuję potwierdzenie w tickecie od OVH że technicy zostali poinformowani.

15:29

Klienci dotknięci awarią otrzymują od lvlup wiadomość e-mail o zdarzeniu.
Dokładna treść:

Szanowny kliencie,

Aktualnie występuje problem techniczny na węźle n72 na którym jest zlokalizowany Twój VPS.
Pracujemy nad rozwiązaniem problemu jednak ciężko powiedzieć kiedy usterka zostanie naprawiona gdyż zależy to od dostawcy serwerów dedykowanych OVH - nie otrzymałem jeszcze od nich żadnych konkretnych informacji mimo zgłoszenia tego zdarzenia i upłynięcia kilku godzin.

W przypadku nowych informacji, zostanie wysłana kolejna wiadomość email.
Przepraszam za utrudnienia i dziękuję z góry za wyrozumiałość.

Istnieje też możliwość szybszego przywrócenia usługi jednak wiąże się to utworzeniem nowego VPS z pustym dyskiem, w przypadku zainteresowania taką możliwością, proszę o kontakt w zgłoszeniu:
https://lvlup.pro/panel/support/ticket

16:40

Węzeł n72 jest już ponownie dostępny.

16:56

Otrzymuję informację od OVH o przeprowadzonych pracach technicznych.
Została wymieniona płyta główna wraz z procesorem, prawdopodobnie było to powiązane z awarią części instalacji elektrycznej co jest opisane w ich tickecie http://travaux.ovh.net/?do=details&id=29536
Ticket ten wspomina o 1510 serwerach dedykowanych których dotyczyła awaria zasilania, jednym z nich było n72.

23:59

Zostały wysłane emaile informujące klientów o końcu zdarzenia

Dziękuję za cierpliwość.

Problem z VPS na n72 został rozwiązany około 16:40.
Wszystkie szczegóły tego zdarzenia zostały opisane w tym wątku:
https://forum.lvlup.pro/t/niedostepnosc-n72-lvlup-pro-23-24-01-2018/5126

Ze względu na spore utrudnienia oraz długą niedostępność do usługi zostało przydzielone bezpłatne +48h ważności.

Wnioski

LVL UP zbyt wolno powiadamia klientów o zdarzeniach

Pomysły

Należy ten proces zautomatyzować tak aby klienci byli powiadomieni o potwierdzonej awarii węzła np. z historii braku pingu przez ustaloną ilość czasu przykładowo 15 min. Ręczne wysyłanie maili jest zbyt kłopotliwe i zbyt wolne.
Treść emaila musi zawierać więcej danych aby klienci wiedzieli co się dzieje z ich usługą, przewidywany czas naprawy oraz możliwe alternatywy jeśli nie zależy im na danych lecz działającej usłudze.


DoreK | 2018-01-24 22:50:43 UTC | #2

Przecież n67 padł, będzie jakaś informacja dot. tego węzła?
/edit: Poza tym nie dostałem żadnego maila i w sumie nigdy nie dostawałem a powinienem ich mieć z 2-3 (w sprawie awarii węzłów) ;P


SystemZ | 2019-04-22 17:10:17 UTC | #3