
Pamięć ECC: inwestycja czy placebo dla serwera
Na jednym z serwerów jors.pl administrator zauważył nagłe, niespójne błędy w bazie; po godzinie śledztwa przyczyną okazał się pojedynczy bit flip w pamięci non‑ECC, którego system nie wykrył.
jak działa ECC i dlaczego to nie jest czary
ECC koryguje pojedyncze błędy bitowe i wykrywa błędy wielobitowe, podczas gdy non‑ECC po prostu je ignoruje. To znaczy: non‑ECC może przepuścić uszkodzony bajt do bazy danych, a replikacja, sumy kontrolne i migracje zaczynają generować niezrozumiałe błędy.
koszty cichej korupcji kontra koszty sprzętowe
Cicha korupcja ma dwa wymiaru kosztu — bezpośredni (utraty danych, czas na debug) i pośredni (przestoje, utrata zaufania, koszty przywracania). Jeden przypadek, który pamiętam z jors.pl, oznaczał kilkugodzinne śledztwo i przestój replikacji, co z punktu widzenia operacji kosztowało więcej niż różnica w cenie pamięci ECC dla tego serwera.
Moduły ECC zwykle są droższe w granicach ~10–30% w zależności od pojemności i generacji. Do tego dochodzi wybór płyty głównej i CPU: platformy serwerowe (Intel Xeon, AMD EPYC) gwarantują wsparcie ECC; część płyt i procesorów typu workstation (np. niektóre modele Ryzen/Pro) również obsługuje ECC, ale to zależy od implementacji BIOS‑u i chipsetu, a nie od samej kości RAM. Nie mieszaj generacji pamięci — DDR4 i DDR5 są wzajemnie niekompatybilne, więc przy zmianie generacji wymieniasz też płytę i często CPU.
Krótko: koszt dodatkowej pamięci ECC plus ewentualna wymiana płyty/CPU opłaca się, jeśli unikniesz choć jednego incydentu korupcji skutkującego długim debugiem lub utratą danych.
kompatybilność praktyczna (DDR4 vs DDR5, płyta, CPU)
Moduły ECC mogą nie działać na płytach non‑ECC; nie ma uniwersalnej zasady „włożysz ECC i będzie działać”. Sprawdź dokumentację płyty i listę obsługiwanych pamięci, a najlepiej BIOS‑listę wsparcia. DDR4 ECC i DDR5 ECC istnieją, ale płyta wspiera tylko jedną z tych generacji — fizycznie nie zainstalujesz DDR4 w gnieździe DDR5 ani odwrotnie.
Przykład praktyczny: masz tanią płytę microATX, chcesz dorzucić ECC DIMM od kolegi — płyta może POSTować, ale BIOS może nie aktywować korekcji albo może po prostu nie bootować z niektórymi modułami. Na platformach serwerowych ten problem praktycznie nie występuje, na konsumenckich bywa loterią.
Jeśli hostujesz tylko parę drobnych usług dla znajomych lub rodzinny NAS, można zaakceptować ryzyko; wcześniej opisałem, kiedy ECC ma sens. Dla baz danych, wirtualizacji, chmury obliczeniowej i przetwarzania finansowego ryzyko korupcji jest nieakceptowalne — tam ECC to standard operacyjny, nie dodatek.
Przejście na ECC u nas uratowało projekt.