SystemZ | 2017-09-06 20:41:25 UTC | #1
Mają miejsce niekontrolowane częste restarty na węźle n20 na którym znajduje się też panel klienta v2, v3 oraz strona lvlup.pro. Jest to usterka sprzętowa.
Trwa przenoszenie usług na inne węzły tak aby wszystko zaczęło działać ponownie. Priorytetem jest obecnie strona oraz panel v2.
O sytuacji będę informować w tym wątku na bieżąco.
~05:00
Mniej więcej o tej porze zaczęły się problemy z restartami n20
11:00
Zacząłem proces przywracania panelu v2 oraz strony na inny węzeł
11:28
Utworzyłem wątek na forum aby poinformować klientów o tym incydencie
11:59
Klienci posiadający usługi na węźle n20 otrzymali e-maila z informacją o usterce wraz z linkiem do tego wątku
12:20
Udało się wystartować ponownie panel v2 oraz stronę.
Weryfikuję czy panel działa poprawnie.
12:42
Mogę potwierdzić że panel v2 oraz strona działa w pełni poprawnie.
Spostrzeżenia:
- między 10:20 a 12:30 mogą występować anomalie w statystykach (wykresach) serwerów Minecraft ze względu na brak danych między tym przedziałem czasu
- kilka klientów posiadających serwer MC mogło otrzymać kilka maili zamiast jednego dotyczącego automatycznego restartu serwera MC ze względu na “twardy start” panelu klienta
Następnym priorytetem jest przywrócenie działania VPSów z węzła n20.
12:50
Ze względu na bardzo dużą niestabilność n20 (wyłącza się po 1-3min) nie mam obecnie możliwości przeniesienia obecnych wirtualnych dysków VPSów ani zrobienia świeżej kopii zapasowej.
Podjąłem decyzję o przywróceniu VPSów z kopii zapasowych na innych węzłach.
Gdy usługi ponownie będą działać ze stanem nocnej kopii postaram się aby węzeł został naprawiony oraz aby udało się zgrać tamte dane ze stanem po 4 września 02:20 oraz bezpłatnie przywrócić je na życzenie klienta w późniejszym czasie.
12:55
Rozpocząłem przywracanie pierwszego z 12 VPSów w kolejności losowej.
13:17
Pierwszy VPS został już przywrócony i działa poprawnie.
W międzyczasie udało mi się przygotować skrypt który przyspiesza cały ten proces więc kolejne powinny pójść szybciej.
13:55
4/12 VPSów zostało przywróconych
14:24
6/12 VPSów zostało przywróconych
14:52
10/12 VPSów zostało przywróconych
15:09
Wszystkie VPSy klientów zostały przywrócone.
Osoby gdzie zostały zauważone możliwe nieprawidłowości lub konieczność zmiany konfiguracji przez klienta otrzymają stosowną informację mailem około godzin wieczornych lub szybciej jeśli będzie taka możliwość. Zachęcam też do stworzenia zgłoszenia w tej sprawie
15:13
Trwa przywracanie panelu v3 na innym węźle
15:25
Przywracanie panelu v3 jest bliskie końcowi
15:35
Panel v3 już działa, weryfikuję poprawność jego działania
15:40
Mogę potwierdzić że panel v3 działa poprawnie.
Oznacza to że wszystkie usterki zostały już naprawione :slight_smile:
15:48
Usterka sprzętowa n20 została zgłoszona do OVH, czekam na ich odpowiedź
17:14
Uzyskałem odpowiedź od OVH że zostało zlecone sprawdzenie sprzętu
19:09
Według OVH ze sprzętem jest wszystko ok
Date 2017-09-04 18:47:03, alain F made Server check:
After checking the hardware it appear that there is no problem with it.Server on rescue, ping ok, service are available.
09:15
Ponowne próby zgrania danych zakończyły się niepowodzeniem.
Serwer nadal restartuje się niemal natychmiast przy większym obciążeniu CPU wystartowany w rescue mode.
09:43
Po reinstalacji serwer działa stabilnie bez obciążenia jednak po typowym poleceniu stress -c 8
serwer momentalnie się rebootuje.
09:51
Zgłosiłem ponownie problem sprzętowy do OVH
13:15
OVH prosi o logi tych zdarzeń, niestety takowych zdarzeń przed restartem w dzienniku systemowym po prostu nie ma.
Dodałem krótki film prezentujący instant crash przy poleceniu stress -c 8
16:20
Otrzymałem informację od OVH że weryfikują to z ich adminami
11:43
Serwer jest po wymianie CPU.
Wygląda na to że działa już w porządku
krzys1540 | 2017-09-04 09:53:04 UTC | #2
@SystemZ czy była by możliwość włączenia serwera ip: 5.196.168.254 na Hoście n26.lvlup.pro ? Bo wyłączyłem go przed awarią panelu i nie mogę go włączyć a jest to dosyć pilne :smiley:
Pozdrawiam
SystemZ | 2017-09-04 10:24:38 UTC | #3
@krzys1540 panel v2 już działa więc bez przeszkód powinieneś mieć możliwość jego włączenia.
krzys1540 | 2017-09-04 10:26:31 UTC | #4
@SystemZ Super :smiley: Już jest ok !
Lempik | 2017-09-04 10:29:13 UTC | #5
[quote=”SystemZ, post:3, topic:3882”]
panel v2 już działa
[/quote]
No i znowu szybka i sprawna reakcja! Dziękuję za naprawę panelu.
tirex | 2017-09-04 10:34:30 UTC | #6
No nie wiem, serwer cały czas się wyłącza. Jestem dobrej myśli.
Timo | 2017-09-04 10:53:38 UTC | #7
Bardzo lubię czytać taką dokumentację :D
Świadczy to o pełnym profesjonaliźmie
Hank | 2017-09-04 11:11:25 UTC | #8
Wydaje się być już ok,
EDIT vps wyłączył się po kilku minutach
DBanaszewski | 2017-09-04 11:14:20 UTC | #9
stats.lvlup.pro nie działa :confused:
HTTP ERROR 502 - BAD GATEWAY
DBanaszewski | 2017-09-04 11:16:07 UTC | #11
Ta strona to status.lvlup.pro, a jest jeszcze inna strona stats.lvlup.pro ;)
Hank | 2017-09-04 11:17:26 UTC | #12
sorry jestem zmęczony mój błąd
SystemZ | 2017-09-04 11:56:50 UTC | #13
stats.lvlup.pro to część panelu v3.
Panel v3 jeszcze nie został ponownie włączony.
eSuu | 2017-09-04 12:58:10 UTC | #14
Mam pytanie do @SystemZ ,kiedy byś był w stanie odpisać na zgłoszenia w pomocy? Bo pilnie chciałbym kupić VPS (z serwera n65).
Lukass | 2017-09-04 13:07:44 UTC | #15
To mi się podoba :) Szybka reakcja :)
SystemZ | 2017-09-04 13:12:10 UTC | #16
Wszystkie zgłoszenia są pilne.
Odpowiedź na zgłoszenia klientów będzie kontynuowana standardowo po usunięciu wszystkich usterek.
eSuu | 2017-09-04 13:45:20 UTC | #17
@SystemZ A zostaną dzisiaj naprawione usterki? Czy nie możesz tego określić?
SystemZ | 2017-09-04 13:53:37 UTC | #18
Wszystko jest już naprawione, cały przebieg znajdziesz w pierwszym poście.
Odpowiedzi na większość zgłoszeń powinny być udzielone jeszcze dziś.
eSuu | 2017-09-04 13:57:19 UTC | #19
@SystemZ Dziękuje za szybkie doinformowanie mnie. :slight_smile:
Lempik | 2017-09-04 14:22:54 UTC | #20
[quote=”SystemZ, post:1, topic:3882”]
Usterka sprzętowa n20 została zgłoszona do OVH, czekam na ich odpowiedź
[/quote]
A czy OVH już odpowiedzieli na problem z n36 w maju?
https://forum.lvlup.pro/t/problem-z-n36-s18-hostmc-pl-12-05-2017/2770/19
SystemZ | 2017-09-04 14:34:17 UTC | #21
[quote=”Lempik, post:20, topic:3882”]
A czy OVH już odpowiedzieli na problem z n36 w maju?
[/quote]
To było dość dawno, jeśli pamięć mnie nie myli to odpisali i naprawili jednak w takich przypadkach zazwyczaj już usuwam taki węzeł ze względu na komfort klientów aby ponownie nie przenosić i nie wyłączać ich usług.
Z n20 będzie podobnie, zostało już oznaczone jako do usunięcia, nie będą już na nim świadczone usługi VPS.
Postaram się jednak wyciągnąć o ile się uda obecne pliki.
DoreK | 2017-09-04 14:40:08 UTC | #22
Czy tak częste awarie są tylko w tym roku, czy wcześniej też tak bywało?
PS: czy w związku z tym co się stało migracja mojego vps’a dalej aktualna o tej samej godzinie, czy coś stoi na przeszkodzie?
SystemZ | 2017-09-04 15:10:28 UTC | #23
Raczej jest dość standardowo.
Wszystko jest zgodnie z planem, umówione migracje będą miały miejsce.
eSuu | 2017-09-04 16:50:21 UTC | #24
@SystemZ czuję się trochę oszukany bo jak patrzyłem na grafana lvlup’a to odpowiedziałeś na wszystkie zgłoszenia, które mają 24h+ i 48h+, i zostało tylko moje zgłoszenie w tych :smiley:
DoreK | 2017-09-05 06:57:35 UTC | #25
Ja mam wrażenie że ta grafana to jakaś pijana czasami jest, albo zbiera nie do końca prawidłowe dane :/
Aylin | 2019-04-22 18:18:16 UTC | #26