Ukryty kryzys pamięci DRAM i NAND: danych ery sztucznej inteligencji nie można przechowywać
W dobie sztucznej inteligencji od dawna skupiamy się na mocy obliczeniowej, pojemności i szybkości.Dodajemy więcej pamięci DRAM, układamy HBM i rozszerzamy pamięć 3D NAND, aby obsługiwać większe modele i szybsze wnioskowanie.Ale pojawia się cichy, niebezpieczny kryzys: danych nie można już przechowywać w sposób niezawodny.
W miarę jak sztuczna inteligencja ewoluuje od generatywnej do autonomicznej, agentycznej sztucznej inteligencji, systemy wymagają trwałego stanu, pamięci długoterminowej i ciągłego podejmowania decyzji.Nie mogą już tolerować danych tymczasowych lub niestabilnych.Jednocześnie ciągłe skalowanie pamięci DRAM i NAND w celu uzyskania większej gęstości poważnie ogranicza retencję danych i margines błędu.
Główne wyzwanie związane z przechowywaniem uległo zmianie: z „Czy możemy to przechować?”na „Czy możemy to zachować prawidłowo?”
Główny trend: sztuczna inteligencja sprawia, że niezawodność pamięci masowej ma kluczowe znaczenie
Systemy AI nie są już jednorazowymi zadaniami obliczeniowymi.Nowoczesna agentyczna sztuczna inteligencja opiera się na:
- Pamięć długoterminowa
- Trwały stan systemu
- Autonomiczne, ciągłe podejmowanie decyzji
Oznacza to, że przechowywanie musi być utrzymywane dokładne dane w czasie, a nie tylko pracować przez krótki okres.Niezawodność stała się czynnikiem decydującym o stabilności infrastruktury sztucznej inteligencji.
Główna przyczyna: skalowanie obniża niezawodność
Ulepszenia gęstości bezpośrednio szkodzą stabilności.Jest to nieunikniony kompromis.
Dla pamięci NAND
- Zmniejszone wymiary XY
- Zwiększone warstwy układania 3D
- Wynik: niższy margines błędu, łatwiejsza utrata ładunku
Dla DRAM-u
- Przejście na pamięć 3D DRAM
- Mniejszy rozmiar komórki
- Wynik: krótszy czas retencji, niższa tolerancja na hałas
Zasada: Większa gęstość = niższa niezawodność
Zasadniczy problem NAND: utrata ładunku
Awaria NAND sprowadza się do utrata ładunku, co dzieje się na dwa główne sposoby:
- Pionowy wyciek ładunku – ładunek ucieka do kanału
- Boczna dyfuzja ładunku – ładunek rozprzestrzenia się pomiędzy liniami słów
Krótkoterminowe i długoterminowe niepowodzenie w przechowywaniu
- Krótkoterminowe: Płytkie pułapki, początkowe przesunięcie napięcia (IVS), zmiany pojawiają się szybko
- Długoterminowo: Głębokie pułapki, połączone mechanizmy (TAT / DT / TE), problemy stają się z czasem coraz bardziej złożone
Ukryta słabość pamięci DRAM: nie może ona również „przechowywać” danych
Pamięć DRAM nie jest zabezpieczona przed awarią przechowywania.Ma wiele dróg wycieku:
- Wyciek kondensatora
- Tunelowanie bezpośrednie
- Wyciek podprogowy i GIDL
- Wyciek złącza
Fundamentalna zmiana w przechowywaniu
Przeszłość: Pamięć = pojemność + prędkość, Błędy naprawione za pomocą ECC
Teraz: Pamięć = długoterminowa niezawodność + spójność stanu, Pamięć jest podstawą stabilności systemu
Wniosek
Prawdziwym kryzysem w epoce AI nie jest niewystarczająca moc obliczeniowa – ona jest niewiarygodne przechowywanie danych.
W miarę skalowania 3D NAND i DRAM do mniejszych geometrii i większej gęstości, utrata ładunku i wycieki pogłębiają się.Zapotrzebowanie sztucznej inteligencji na pamięć trwałą wzmacnia te wady.
Aby zbudować stabilne systemy sztucznej inteligencji klasy korporacyjnej, branża musi przenieść nacisk z szybkości i pojemności na przechowywanie, kontrolę ładowania i długoterminową niezawodność.
