Prawdziwym wąskim gardłem sztucznej inteligencji nie jest moc obliczeniowa, ale przepływ danych — rozwiązaniem staje się przetwarzanie w pamięci

W ciągu ostatnich dwóch lat prawie wszystkie dyskusje na temat sztucznej inteligencji skupiały się na mocy obliczeniowej: niewystarczającej liczbie procesorów graficznych, niewystarczającej mocy obliczeniowej i niewymiarowych klastrach.Można odnieść wrażenie, że zwiększenie mocy obliczeniowej rozwiąże każdy problem.

Jednak raport ten raz po raz podkreśla jedną kluczową kwestię: Tym, co naprawdę spowalnia sztuczną inteligencję, nigdy nie jest niezdolność do obliczeń, ale niemożność wydajnego przenoszenia danych.

Jedna statystyka jasno przedstawia problem: Odczyt danych z pamięci DRAM pochłania setki razy więcej energii niż z pamięci SRAM.Tymczasem różnica w wydajności między procesorami a pamięcią zwiększa się co roku o prawie 50%.

Duża część mocy obliczeniowej, którą gorączkowo budujemy, po prostu czeka na dane. W tym momencie uświadomiłem sobie coś uderzającego: Być może przez cały czas szukaliśmy niewłaściwego wąskiego gardła dla sztucznej inteligencji.

Jeśli problemem nie są same obliczenia, ale oddzielenie przetwarzania i pamięci, wtedy prawdziwą odpowiedzią mogą nie być mocniejsze procesory graficzne. To pozwolić sama pamięć uczestniczy w przetwarzaniu. To jest prawdziwa historia, którą ma opowiedzieć ten raport.

Główne przesłanie raportu

Prawdziwym wąskim gardłem mocy obliczeniowej sztucznej inteligencji jest przenoszenie obliczeń z obliczeń do pamięci, a rozwiązaniem jest przeniesienie obliczeń do pamięci.

Prawdziwy problem: wydajność sztucznej inteligencji jest ograniczona przez przenoszenie danych

Obliczenia AI w dużym stopniu opierają się na ogromnych operacjach MAC (mnożenie-akumulowanie) i pochłaniają niezwykle dużo danych. Jednak klasyczna architektura von Neumanna ma fatalną wadę:

Różnica w wydajności pomiędzy procesorami a pamięcią DRAM stale się powiększa (około 50% rocznie)
Koszt energii dostępu do pamięci jest znacznie wyższy niż same obliczenia (energia odczytu DRAM ≈ 100 razy większa niż SRAM)

Wniosek: Sztuczna inteligencja nie zawodzi w obliczeniach — nie przenosi danych w niedrogi i wystarczająco szybki sposób.

Podstawowa sprzeczność: wąskie gardło von Neumanna

Oddzielenie przetwarzania i pamięci wymusza ciągłe przesyłanie danych, powodując dwa krytyczne problemy:

Wysokie opóźnienie
Eksplodujące zużycie energii

To właśnie nazywa się w raporcie Wąskie gardło von Neumanna.

Kluczowy trend: pamięć staje się nowym centrum obliczeniowym

Wyłania się wyraźny trend branżowy: Chipsy ewoluują na dwa sposoby:

Wbudowana pamięć (SRAM) stale się powiększa
Przepustowość pamięci stale rośnie

Tymczasem wyłonił się rewolucyjny kierunek: Przetwarzanie w pamięci (IMC).

Jego podstawowa idea: Wykonuj operacje logiczne, obliczenia arytmetyczne i mnożenie macierzy (rdzeń sztucznej inteligencji) bezpośrednio w pamięci.

Zasadnicza zmiana: Pamięć = pamięć → Pamięć = Compute Engine

Ścieżki techniczne: od SRAM do wschodzących wspomnień

W raporcie przedstawiono wiele ścieżek wdrożenia:

1. SRAM/eDRAM (ścieżka tradycyjna)
Obliczenia w pamięci podręcznej, pamięć podręczna neuronowa
Plusy: dojrzałość, duża prędkość
Ograniczenia: duży obszar, ograniczona skalowalność

2. Pamięć wyłaniająca się (kierunek głównego nurtu)
W tym: MRAM, PCM, ReRAM, FeRAM

Wspólny cel: przekształcenie macierzy pamięci w macierzowe mechanizmy mnożenia i akumulacji z obliczeniami na miejscu i obliczeniami analogowymi (np. sumowanie prądu dla mnożenia wektorów).

Istota: tablica pamięci = akcelerator AI

Ale prawdziwe wyzwania pozostają: precyzja i hałas, zmienność urządzeń, dryf masy (szczególnie w przypadku pamięci ReRAM) i problemy z retencją. Ścieżka jest realna, ale niezwykle wymagająca pod względem inżynieryjnym.

Rozwiązanie systemowe: Kooptymalizacja algorytmów sprzętowych

W raporcie podkreślono, że sam sprzęt nie wystarczy – algorytmy również muszą ewoluować.

Kompresja modelu: przycinanie, rzadkość, dekompozycja niskiego stopnia
Obliczenia o niskiej precyzji: stałoprzecinkowe, binarne sieci neuronowe
Szkolenie w zakresie obsługi sprzętu: STE, rzadkość bit-slice

Kluczowy wniosek: Optymalizacja wydajności AI wymaga wspólnego projektowania architektury, urządzeń i algorytmów.

Wnioski końcowe

Pamięć wbudowana w układ scalony stała się podstawowym zasobem systemów AI
Pojawiające się wspomnienia sprawiają, że integracja pamięci i obliczeń staje się głównym kierunkiem
Chipy AI nowej generacji wymagają wielowarstwowego wspólnego projektowania, od urządzeń po algorytmy

Podsumowanie

Wąskie gardło sztucznej inteligencji zmienia się z „niewystarczającej mocy obliczeniowej” na „niemożność wystarczająco szybkiego przesyłania danych”. Odpowiedzią na chipy nowej generacji nie są mocniejsze procesory graficzne, ale pamięć, która sama potrafi liczyć.

Wybierz język do wyświetlenia