DomAktualnościUkryty kryzys pamięci DRAM i NAND: danych ery sztucznej inteligencji nie można przechowywać

Ukryty kryzys pamięci DRAM i NAND: danych ery sztucznej inteligencji nie można przechowywać

Ukryty kryzys pamięci DRAM i NAND: awaria przechowywania danych w erze sztucznej inteligencji |Niezawodność przechowywania


Ukryty kryzys pamięci DRAM i NAND: danych ery sztucznej inteligencji nie można przechowywać


W dobie sztucznej inteligencji od dawna skupiamy się na mocy obliczeniowej, pojemności i szybkości.Dodajemy więcej pamięci DRAM, układamy HBM i rozszerzamy pamięć 3D NAND, aby obsługiwać większe modele i szybsze wnioskowanie.Ale pojawia się cichy, niebezpieczny kryzys: danych nie można już przechowywać w sposób niezawodny.

W miarę jak sztuczna inteligencja ewoluuje od generatywnej do autonomicznej, agentycznej sztucznej inteligencji, systemy wymagają trwałego stanu, pamięci długoterminowej i ciągłego podejmowania decyzji.Nie mogą już tolerować danych tymczasowych lub niestabilnych.Jednocześnie ciągłe skalowanie pamięci DRAM i NAND w celu uzyskania większej gęstości poważnie ogranicza retencję danych i margines błędu.

Główne wyzwanie związane z przechowywaniem uległo zmianie: z „Czy możemy to przechować?”na „Czy możemy to zachować prawidłowo?”

Główny trend: sztuczna inteligencja sprawia, że niezawodność pamięci masowej ma kluczowe znaczenie

Systemy AI nie są już jednorazowymi zadaniami obliczeniowymi.Nowoczesna agentyczna sztuczna inteligencja opiera się na:

  • Pamięć długoterminowa
  • Trwały stan systemu
  • Autonomiczne, ciągłe podejmowanie decyzji

Oznacza to, że przechowywanie musi być utrzymywane dokładne dane w czasie, a nie tylko pracować przez krótki okres.Niezawodność stała się czynnikiem decydującym o stabilności infrastruktury sztucznej inteligencji.

Główna przyczyna: skalowanie obniża niezawodność

Ulepszenia gęstości bezpośrednio szkodzą stabilności.Jest to nieunikniony kompromis.

Dla pamięci NAND

  • Zmniejszone wymiary XY
  • Zwiększone warstwy układania 3D
  • Wynik: niższy margines błędu, łatwiejsza utrata ładunku

Dla DRAM-u

  • Przejście na pamięć 3D DRAM
  • Mniejszy rozmiar komórki
  • Wynik: krótszy czas retencji, niższa tolerancja na hałas

Zasada: Większa gęstość = niższa niezawodność

Zasadniczy problem NAND: utrata ładunku


Awaria NAND sprowadza się do utrata ładunku, co dzieje się na dwa główne sposoby:

  1. Pionowy wyciek ładunku – ładunek ucieka do kanału
  2. Boczna dyfuzja ładunku – ładunek rozprzestrzenia się pomiędzy liniami słów

Krótkoterminowe i długoterminowe niepowodzenie w przechowywaniu

  • Krótkoterminowe: Płytkie pułapki, początkowe przesunięcie napięcia (IVS), zmiany pojawiają się szybko
  • Długoterminowo: Głębokie pułapki, połączone mechanizmy (TAT / DT / TE), problemy stają się z czasem coraz bardziej złożone

Ukryta słabość pamięci DRAM: nie może ona również „przechowywać” danych

Pamięć DRAM nie jest zabezpieczona przed awarią przechowywania.Ma wiele dróg wycieku:

  • Wyciek kondensatora
  • Tunelowanie bezpośrednie
  • Wyciek podprogowy i GIDL
  • Wyciek złącza

Fundamentalna zmiana w przechowywaniu

Przeszłość: Pamięć = pojemność + prędkość, Błędy naprawione za pomocą ECC

Teraz: Pamięć = długoterminowa niezawodność + spójność stanu, Pamięć jest podstawą stabilności systemu

Wniosek

Prawdziwym kryzysem w epoce AI nie jest niewystarczająca moc obliczeniowa – ona jest niewiarygodne przechowywanie danych.

W miarę skalowania 3D NAND i DRAM do mniejszych geometrii i większej gęstości, utrata ładunku i wycieki pogłębiają się.Zapotrzebowanie sztucznej inteligencji na pamięć trwałą wzmacnia te wady.

Aby zbudować stabilne systemy sztucznej inteligencji klasy korporacyjnej, branża musi przenieść nacisk z szybkości i pojemności na przechowywanie, kontrolę ładowania i długoterminową niezawodność.

#DRAM #NAND #AIStorage #Przechowywanie danych #Niezawodność przechowywania