Niedostępność w2.lvlup.pro 02-04.10.2018

SystemZ | 2018-10-16 18:17:00 UTC | #1

Aktualnie hosting WWW działa już poprawnie.

Poniżej podajemy pełny przebieg zdarzeń uzupełniany na bieżąco:

02.10.2018

21:27

Serwer w2.lvlup.pro przestaje odpowiadać

21:31

Sprawdzamy powód niedostępności w2.lvlup.pro

21:35

Na pierwszy rzut oka wygląda to na niegroźne zawieszenie się systemu

21:37

Próba restartu

21:42

Restart instancji nie jest możliwy, wygląda na to że obsługa OVH Cloud musi interweniować, komunikaty błędu w Openstack Horizon oraz API wskazują na problem ze sprzętem lub konfiguracją OVH

21:50

Utworzony ticket dla obsługi OVH aby przyjrzała się sprawie

22:41

Obsługa OVH z ang infolinii potwierdziła problem, utworzyła kolejne zgłoszenie oraz eskalowała problem do działu PCI

03.10.2018

7:25

Proces migracji instancja cloud na inny sprzęt się rozpoczął, wygląda na to że interweniowała obsługa OVH
Taki proces zwykle trwa kilka godzin więc zakładamy że w ciągu około 1-3h wszystko powróci do normy.

08:25

Większość klientów która utworzyła zgłoszenia powinna już dostać odpowiedź w tej sprawie

08:27

Chwilowe wycofanie nowych kont WWW z formularza zamówień.
Możliwość tworzenia nowych kont zostanie wznowiona po usunięciu awarii.

10:15

Migracja trwająca od 7:25 zakończyła się błędem, czekamy na dalsze działania OVH

14:09

Do OVH poszło zapytanie odnośnie orientacyjnego ETA przywrócenia usługi

14:51

Polski support OVH odpisał na pierwszy ticket, według nich wygląda to na kwestię zapełnienia dysku i mogę to sprawdzić z trybu rescue. Przyznam że nie pogardzilibyśmy trybem rescue ale ten też nie działa.

~21:00

Support OVH zaczął przeprowadzać zaplanowaną aktualizację OpenStack akurat w tym regionie w którym znajduje się instancja z w2.
http://travaux.ovh.com/?do=details&id=33945

Może to spowodować:
a) zauważą problem szybciej i go rozwiążą
b) będą zbyt zajęci aktualizacją OpenStacka i potrwa to jeszcze dłużej niż byśmy chcieli
Na czas aktualizacji OS serwer zniknął z panelu OVH powodując jeszcze więcej zimnego potu na plecach obsługi lvlup.pro

04.10.2018

08:01

Z braku innych dróg dla obecnego planu ratunkowego A, napisałem na listę dyskusyjną OVH Cloud ze wszystkimi szczegółami jak znaleźć tą instancję. Czasami bywają tam pracownicy OVH więc może ktoś spojrzy i zwiększy szansę na szybszą naprawę.

08:35

Mamy już kompletny plan zapasowy B na wypadek gdyby dziś do końca dnia nadal nie było reakcji.
Zakłada on utworzenie nowego hosta czyli w3.lvlup.pro jednak już nie na instancji cloud, wystarczające odtworzenie całego środowiska DirectAdmin oraz Cloudlinux oraz przywrócenie najnowszych kopii które posiadamy (po północy 02.10.2018).
W tym scenariuszu wszystkie adresy IP oprócz tego z którego wychodzą połączenia hostingu WWW powinny zostać nienaruszone, co za tym idzie zmiana ustawień w strefach DNS klientów nie będzie konieczna.

Niestety spowoduje to utratę danych które zostały utworzone między około 02:00 (zależy kiedy była tworzona kopia dla danego konta WWW, są one tworzone w kolejności alfabetycznej loginu konta) - 21:27 czyli od momentu utworzenia kopii do momentu awarii .
Jest to główny powód dlaczego ciągle oczekuję na reakcję OVH, chcę aby dane klientów pozostały nienaruszone.

10:11

Jeden z pracowników OVH odpisuje na liście dyskusyjnej że sprawdza

10:25

Pracownik OVH odpisuje na liście dyskusyjnej że VM jest już naprawione i instancja startuje prawidłowo.

Hello,
Your Vm is fixed. We detect an issue on nova cache information database, after a cleanup your Vm reboot normally.
We are checking how to better monitor that.

Thanks for you feedback

10:30

Instancja wstała jednak bez sieci, analizujemy sytuację w systemie w2

10:35

Sprawdzone przez VNC, instancja nie ma żadnej karty sieciowej oprócz pętli zwrotnej, piszę o tym na liście dyskusyjnej.

10:50

Instancja wydała się odzyskać dostęp do sieci.
Weryfikujemy czy wszystko działa jak trzeba.

11:03

w2.lvlup.pro wydaje się działać poprawnie.
Problem niedostępności oznaczamy jako rozwiązany jednak pozostają jeszcze inne kwestie z tym związane - zgłoszenia, dodatkowe dni ważności, SLA od OVH

11:40

Zaznaczyłem w ticketach że kwestia techniczna już została rozwiązana, czekamy na rekompensatę niedotrzymanego SLA.

11:44

Każdy klient hostingu WWW otrzymał dodatkowe +30 dni ważności dla swoich kont WWW.

12:35

Wszyscy klienci którzy utworzyli zgłoszenie odnośnie awarii zostali dodatkowo poinformowani o przywróceniu usługi do działania oraz o otrzymaniu rekompensaty przez obsługę

13:32

Została przywrócona sprzedaż nowych kont WWW

07.10.2018

13:59

Wszystkie zgłoszenia klientów dotyczące tej awarii zostały wyjaśnione i wydają się zakończone

08.10.2018

10:16

OVH przydzieliło nam rekompensatę SLA

16.10.2018

20:01

Publikujemy spostrzeżenia i plan zmniejszenia awarii na przyszłość w poście trochę niżej

https://forum.lvlup.pro/t/niedostepnosc-w2-lvlup-pro-02-04-10-2018/8398/29?u=systemz

SystemZ | 2018-10-03 09:36:46 UTC | #2

SP24 | 2018-10-03 09:46:53 UTC | #3

Czyli obecnie nie mogę kupić serwera WWW?

DoreK | 2018-10-03 09:48:16 UTC | #4

[quote=”SystemZ, post:1, topic:8398”]
Chwilowe wycofanie nowych kont WWW z formularza zamówień.
[/quote]

to chyba wszystko tłumaczy @SP24 ?

anon45653061 | 2018-10-03 11:34:18 UTC | #5

To ja muszę stać z dalszą pracą nad forum serwerowni :(

HilleR | 2018-10-03 12:03:57 UTC | #6

Szacowana godzina lub data powrotu serwerów www?

Hank | 2018-10-03 12:20:10 UTC | #7

@HilleR Wszystko w rękach ovh trzeba poczekać na komunikat od SystemZ.

anon45653061 | 2018-10-03 14:34:05 UTC | #8

Smutno mi jak Host = OFF :(

SP24 | 2018-10-03 14:40:04 UTC | #9

Nie martw się, to tylko kwestia czasu. Sam chciałbym już kupić WWW

DoreK | 2018-10-03 14:36:46 UTC | #10

Nie udawaj jasnowidza.

SP24 | 2018-10-03 14:39:10 UTC | #11

Ja nikogo nie udaje. Chyba muszę jednak zedytować post

anon45653061 | 2018-10-03 14:41:00 UTC | #12

Mam dużo pracy na www a nie ma jak to wykonać więc mi smutno :( :sob:

SP24 | 2018-10-03 14:43:12 UTC | #13

A nie masz kopii w siebie na pc? Awarie w przypadku maszyn to normalne

anon45653061 | 2018-10-03 14:44:35 UTC | #14

Mam ale nie chodzi o to mi chodzi że nie moge kontunuować pracy na www :/

SP24 | 2018-10-03 14:46:15 UTC | #15

Ale możesz kontynuować na kopii lokalnej, a potem wrzucić na WWW

anon45653061 | 2018-10-03 16:45:21 UTC | #16

I co nic ze strony OVH?? Niech ruszą sie a nie czekają,

DoreK | 2018-10-03 16:45:54 UTC | #17

Pisząc co chwilę “co ze strony OVH” niczego nie przyśpieszysz.
http://travaux.ovh.com
Polecam tą stronę =)

anon45653061 | 2018-10-03 16:48:52 UTC | #18

A jak tam zlanesc LVLupowa maszyne? @DoreK

Timo | 2018-10-03 16:50:10 UTC | #19

Najprawdopodobniej jest to ten report: http://travaux.ovh.com/?do=details&id=34492&PHPSESSID=ff4152b9bb92a39aed88f1a80cf9f6bb

anon45653061 | 2018-10-03 16:50:58 UTC | #20

To dziś sie nie doczekam :/

Hank | 2018-10-03 20:17:27 UTC | #21

@anon45653061 trzeba być dobrej myśli i mieć nadzieje, że w końcu ovh weźmie i ruszy swoje szacowne 4 litery

SystemZ | 2018-10-03 20:40:55 UTC | #22

Nie, w2 jest zlokalizowane w SBG1 a ID instancji cloud to

3600ce26-fbb9-4317-bffe-c66476633bc9

Muchomor | 2018-10-03 21:47:18 UTC | #23

Specjalnie założyłem konto by wejść tu napisać, trochę słabo że jest taka duża przerwa techniczna na której jestem stratny. Ale to pokazuje że firma ovh jest nie profesjonalną firmą, dlaczego nie możecie przenieść serwerów na coś innego, szybszego w kontakcie którzy by was szanowali ? To jest jawne plucie w mordę a wy to jeszcze liżecie sorry ale taka jest moja opinia :)

Maaati | 2018-10-03 22:56:13 UTC | #24

@Muchomor to nie jest tak do końca. Fakt, inne firmy mogą sobie pozwolić na trochę większy support w stronę klienta, ale mimo wszystko poziom usług które świadczą daleko odstaje od OVH. Sam kiedyś nie byłem przekonany co do OVH. Takie długie przerwy zdarzają się bardzo rzadko to raz dwa problem może być na tyle duży że inne firmy o których piszesz rozwiązywały by go jeszcze dłużej. Nie ma co gdybać. Ja też jestem stratny ze względu na samą pocztę, ale spokojnie naprawią i wszystko wróci do normy.

Dollar | 2018-10-04 06:57:17 UTC | #25

Dla mnie najlepszym rozwiązaniem będzie jak najszybsze przywrócenie usługi, moi klienci już nasrali mi do urwanej głowy.

Infinity | 2018-10-04 07:13:54 UTC | #26

Awarie to rzecz normalna, dlatego ludzie często inwestują w rozproszoną infrastrukturę czy podobne rozwiązania, które eliminują ten problem.

SystemZ | 2018-10-04 09:06:58 UTC | #27

Hosting WWW powinien już działać poprawnie.

Do końca tej doby postaram się odnieść do wszystkich powyższych postów oraz ustalić rekompensatę dla klientów gdy już trochę ochłonę.

SystemZ | 2018-10-07 14:21:17 UTC | #28

[quote=”Muchomor, post:23, topic:8398”]
Specjalnie założyłem konto by wejść tu napisać, trochę słabo że jest taka duża przerwa techniczna na której jestem stratny. Ale to pokazuje że firma ovh jest nie profesjonalną firmą, dlaczego nie możecie przenieść serwerów na coś innego, szybszego w kontakcie którzy by was szanowali ? To jest jawne plucie w mordę a wy to jeszcze liżecie sorry ale taka jest moja opinia :slight_smile:
[/quote]

OVH w pewnych zastosowaniach nie ma sobie równych, głównie w stosunku jakości i wydajności zasobów do ceny do czego też dążymy w ofercie co powoduje że to póki co nasz najlepszy wybór jaki mamy.

Korzystając z porównywalnych rozwiązań u innych firm, ceny usług mogłyby w niektórych przypadkach wzrosnąć nawet o 50% czyniąc naszą ofertę nieatrakcyjną dla klientów.

Jestem w trakcie rozpisywania jaki plan założyliśmy aby zmniejszyć szansę na podobne awarie w przyszłości.

SystemZ | 2018-10-16 18:01:13 UTC | #29

Awaria :skullandcrossbones:, błędy :ant:, wnioski :woman_mechanic:

Długo myślałem nad całą sytuacją i chciałbym się z wami podzielić moimi spostrzeżeniami oraz planami które pomogą uniknąć podobnych sytuacji na przyszłość.

Większość planów które przedstawię możemy wprowadzić w życie dopiero w przyszłym roku, w tym mamy obecnie pełne ręce roboty w związku z wygaszaniem starych ofert i ogólną modernizacją sprzętu i oprogramowania. Trochę pomaga nam jednak fakt mniejszej ilości zgłoszeń ze względu na kurczenie się ilości VPS OVZ oraz serwerów MC jednak nadal mamy sporo otwartych spraw a chciałbym zwrócić szczególną uwagę na ulepszenie oferty z hostingiem DA.

Jak to wszystko działa? :dragon:

e-sardynki w puszce :fish:

W przypadku współdzielonego hostingu WWW od strony usługodawcy im więcej klientów “upchnie się” na jednym węźle tym lepiej. Praktycznie te same koszty licencji rozkładają się na więcej klientów, tak więc jest taniej oraz pakiety przygotowane dla klientów też mogą kosztować mniej i/lub zarobek usługodawcy jest większy.

Niestety, nie ma róży bez kolców. Duża ilość kont WWW na każdym serwerze z DirectAdminem ma swoje skutki uboczne. Na jednym linuksowym serwerze jest masa usług, bardzo wiele rzeczy może pójść nie tak a awaria jednego komponentu potrafi być zwykle przyczyną sporych niedogodności dla wszystkich klientów przypisanych do serwera.

Częściowym rozwiązaniem jest zwiększanie ilości węzłów DirectAdmin czyli powiedzmy jednoczesne istnienie w2, w3, w4 itp. Dzięki temu przykładowo w wyniku błędnej aktualizacji tylko 33% klientów odczuwa awarię dla trzech węzłów, 50% klientów jest dotkniętych awarią w przypadku dwóch hostów a nie 100% jak w przypadku jednego hosta.

Na obecną chwilę istnienie np. trzech hostów z DA jest wykluczone. Celujemy póki co w dwa hosty.
Problem w tym że mamy jeszcze zbyt mały przychód z istniejących kont aby stało się to opłacalne.
Nie jesteśmy jedną z tych firm co wydaje miliony na reklamy i używa w nich kontrowersyjnych postaci tak więc nasz wzrost ilości usług nie jest aż tak dynamiczny jakbyśmy chcieli.

Luz-blues w przypadku VPSów :+1:

Przy serwerach VPS jest zupełnie inaczej.
Koszty są niższe, licencji jest potrzebnych mniej.
Zaprojektowałem też wszystko tak aby zmniejszyć ilość słabych punktów infrastruktury od naszej strony do minimum.
Awaria jednego węzła nie dotyczy też zbyt wielu klientów, powiedzmy 5-20-30 a nie np. kilkuset. Usługi da się łatwo podzielić, większość elementów jest łatwa do zastąpienia i przeniesienia, nowy węzeł od czasu dostarczenia przez dostawcę do wydania go klientom i tworzenia VPS to u nas około 60 min, gdyż większość procesów udało nam się zautomatyzować.

Sądzę że w kwestii VPSów to już całkiem sporo a nie zwalniamy i idziemy naprzód - automatyzujemy procesy dla naszych klientów, autokonfiguracja sieci przez DHCP i systemu wybranymi przez klienta skryptami to tematy które niedługo poruszę.

Reakcje na awarie :angry:

OVH w miarę sprawnie naprawia sprzęt (serwery dedykowane) jeśli wykryją jego awarię.
Czasami mija jedna godzina i serwer ponownie jest online gdzie chyba tylko adres IP i dyski pozostały bez zmian a reszta elementów została wymieniona na sprawne.

Co do Public Cloud w OVH czyli usługi sprzedawanej trochę jako nowocześniejsze VPSy mam inne odczucia niż względem dzierżawy serwera dedykowanego. Usługa jest dużo bardziej skomplikowana i oprócz ewentualnych problemów sprzętowych dochodzi jeszcze masa możliwych kłopotów programowych.

Może to prowadzić do sytuacji takiej jaką widzieliśmy przy awarii w2, sprzęt na którym fizycznie było w2 wyglądał na sprawny lub został zmieniony na sprawny lecz problem z OpenStack spowodował że instancja w2 nie mogła wstać lub jak nawet wstawała to bez sieci co czyniło w2 bezużytecznym.

Skomplikowanie OpenStack czy innego oprogramowania użytego w takim środowisku Cloud powoduje że technicy mający całodobową zmianę i czuwający nad sprzętem nie mogą zareagować a wszystkie takie skomplikowane zadania są delegowane do osób które wydają się nie pracować w nocy ani w weekendy.

Powoduje to jak sami widzicie znacznie dłuższy czas przywrócenia naszych usług do działania. Gdyby to był tylko sprzęt to pewnie potrwałoby godzinę lub mniej.

Instancje Cloud są całkiem fajne jednak nie do takiego dość przestarzałego rozwiązania jakim jest DirectAdmin. Myślimy od jakiegoś czasu o alternatywach dla niego ale jeszcze nie chciałbym poruszać tego tematu.

Co musimy ulepszyć :thinking:

Kopie zapasowe :bustsinsilhouette:

Obecnie kwestia snapshotów czyli pełnych kopii całego dysku twardego wirtualnej maszyny jest problematyczna bo może zatrzymać działanie w2 nawet na więcej niż godzinę co wyglądałoby na awarię, o ironio jest to przecież proces który ma zapobiec awariom :man_facepalming:

Przejście na własną VM da nam możliwość tworzenia pełnych kopii zapasowych praktycznie bez zatrzymywania usług na w2 (zaledwie kilka sekund pauzy).

Obecność świeżej pełnej kopii daje szansę na szybką pełną ewakuację o ile będzie potrzebne pełne odtworzenie w2 na innym sprzęcie, tak właśnie zrobilibyśmy w przypadku tej awarii którą opisuję w tym wątku gdybyśmy dysponowali świeższą pełną kopią a nie mogliśmy jej wykonać z obawy o niedostępność usługi.

Opłacalność kont WWW :moneybag:

Usługa może rozwijać się tylko jeśli będzie na siebie zarabiać.
Pracujemy nad tym aby mieć fundusze na zdublowanie serwera z DirectAdmin.

Wycofanie mniej opłacalnych pakietów WWW :ghost:

To zrobiliśmy już trochę wcześniej, ostatnio jednak trochę przyspieszyliśmy ten proces:
https://forum.lvlup.pro/t/zmiany-w-ofercie-hostingu-www-24-05-2018/6813/14?u=systemz

Program partnerski :moneymouthface:

Wprowadziliśmy program referral we wczesnej wersji i ulepszamy dodając automatyzację tak aby każdy klient miał swój własny kod promocyjny jeśli będzie chciał z niego skorzystać. Widzimy już pierwsze pozytywne wpływy tego programu na ilość aktywnych usług u nas.

https://forum.lvlup.pro/t/pilotazowy-program-referral/8256

Program lojalnościowy :sunglasses:

Ciągle nad tym pracujemy, część kodu w panelu v3 jest już gotowa. Początkowo zadanie wydawało się łatwe jednak okazuje się że jest sporo nietypowych sytuacji gdzie promocja może nie być brana pod uwagę mimo że nasz klient powinien się łapać na warunki promocyjne.

https://forum.lvlup.pro/t/program-lojalnosciowy/2205

Podsumowując / TL;DR :seenoevil:

Wszystko sprowadza się do tego aby wrócić do korzeni czyli użyć VM na serwerze dedykowanym zarządzanym przez lvlup a nie OVH.

Oferta Cloud reklamowana jako coś bezawaryjnego ze sporym SLA jest odczuwalnie bardziej awaryjna od sprzętu. OVH ma większe doświadczenie z zarządzaniem sprzętem więc takie zadanie im zostawimy.

Spróbujemy też przy okazji rozwiązać to od strony oferty aby utrzymywanie dwóch serwerów z DA było opłacalne.

SystemZ | 2019-04-22 17:10:19 UTC | #30