
SSD nie rozwiąże wszystkiego w NAS
W logach NAS: I/O wait ~80% spowodowany jednym błędem w przechowywaniu danych i zapełnieniem gorącego segmentu.
Na pierwszy rzut oka to wygląda jak klasyczna awaria aplikacji. Na drugi — widzisz kolejkę do dysków, rosnące latencje i procesy czekające na ukończenie zapisu jednej, wiecznie obrabianej struktury. Jeden plik/segment, dużo losowych zapisów, gorący blok pamięci zapełniony do granic i nagle masz 80% I/O wait; reszta systemu stoi. To nie teoria — to log z serwera w którym metadata trafiła tam, gdzie nie powinna.
Koszty na stole
Nie owijam: przechowywanie 1 PB na SSD to rząd ≈100 000 USD na HDD ≈25 000 USD. Badania IDC pokazują, że enterprise SSD są ~7,4x–9,9x droższe od HDD w porównywalnych klasach. To proste ograniczenie budżetowe decyduje o architekturze — nie marketingowe hasła.
rola gorącości danych i warstwy storage
Gorącość danych rozwiązuje dylemat "SSD albo HDD" lepiej niż sentencje z katalogów producentów. SSD tam gdzie są metadane, logi, cache i maszyny wirtualne. HDD tam, gdzie są zimne, sekwencyjne zbiory. SSD nie boją się bycia pustymi; będą działać poprawnie bez zapełniania. Jednak przy dużym stopniu zapełnienia oraz wzmożonych zapisywaniu controller zaczyna robić GC i wear-leveling — spadają sustainowane prędkości zapisu, rośnie latency i maleje żywotność (write amplification i ograniczona liczba cykli P/E).
poradniku o pamięci ECC. Metadane i korupcja podstępnie zabijają wydajność — ECC zmniejsza ryzyko cichej korupcji.
Z punktu widzenia operacji: SSD daje IOPS i niskie opóźnienia, HDD daje koszt na TB i wysoką przepustowość sekwencyjną. Jeśli Twoja aplikacja generuje dużo małych losowych operacji na gorących blokach, HDD będzie prowadził do thrashingu głowic i wzrostu I/O wait, nawet przy RAIDzie.
Praktyka z pola
Przy konfiguracji RAID10 dla serwera hostującego maszyny wirtualne zrobiłem mieszankę: SSD na warstwę aktywną (systemy plików VM, cache) i HDD jako archiwum dla danych mniej aktywnych. Przy tej hybrydzie rebuildy były szybsze, SLA utrzymane, a koszt mieścił się w budżecie klienta. To nie była magia — to rozdzielenie roli danych i sensowna polityka przenoszenia między warstwami.
Dodatkowy punkt: pełne dyski SSD znacznie szybciej degradowały do wolniejszych trybów zapisu niż te z rezerwą wolnego miejsca; planuj overprovisioning i monitoruj wear-leveling.