W ciągu ostatnich dwóch lat prawie wszystkie dyskusje na temat sztucznej inteligencji skupiały się na mocy obliczeniowej: niewystarczającej liczbie procesorów graficznych, niewystarczającej mocy obliczeniowej i niewymiarowych klastrach.Można odnieść wrażenie, że zwiększenie mocy obliczeniowej rozwiąże każdy problem.
Jednak raport ten raz po raz podkreśla jedną kluczową kwestię: Tym, co naprawdę spowalnia sztuczną inteligencję, nigdy nie jest niezdolność do obliczeń, ale niemożność wydajnego przenoszenia danych.
Jedna statystyka jasno przedstawia problem: Odczyt danych z pamięci DRAM pochłania setki razy więcej energii niż z pamięci SRAM.Tymczasem różnica w wydajności między procesorami a pamięcią zwiększa się co roku o prawie 50%.
Duża część mocy obliczeniowej, którą gorączkowo budujemy, po prostu czeka na dane. W tym momencie uświadomiłem sobie coś uderzającego: Być może przez cały czas szukaliśmy niewłaściwego wąskiego gardła dla sztucznej inteligencji.
Jeśli problemem nie są same obliczenia, ale oddzielenie przetwarzania i pamięci, wtedy prawdziwą odpowiedzią mogą nie być mocniejsze procesory graficzne. To pozwolić sama pamięć uczestniczy w przetwarzaniu. To jest prawdziwa historia, którą ma opowiedzieć ten raport.
Prawdziwym wąskim gardłem mocy obliczeniowej sztucznej inteligencji jest przenoszenie obliczeń z obliczeń do pamięci, a rozwiązaniem jest przeniesienie obliczeń do pamięci.
Obliczenia AI w dużym stopniu opierają się na ogromnych operacjach MAC (mnożenie-akumulowanie) i pochłaniają niezwykle dużo danych. Jednak klasyczna architektura von Neumanna ma fatalną wadę:
Wniosek: Sztuczna inteligencja nie zawodzi w obliczeniach — nie przenosi danych w niedrogi i wystarczająco szybki sposób.
Oddzielenie przetwarzania i pamięci wymusza ciągłe przesyłanie danych, powodując dwa krytyczne problemy:
To właśnie nazywa się w raporcie Wąskie gardło von Neumanna.
Wyłania się wyraźny trend branżowy: Chipsy ewoluują na dwa sposoby:
Tymczasem wyłonił się rewolucyjny kierunek: Przetwarzanie w pamięci (IMC).
Jego podstawowa idea: Wykonuj operacje logiczne, obliczenia arytmetyczne i mnożenie macierzy (rdzeń sztucznej inteligencji) bezpośrednio w pamięci.
Zasadnicza zmiana: Pamięć = pamięć → Pamięć = Compute Engine
W raporcie przedstawiono wiele ścieżek wdrożenia:
1. SRAM/eDRAM (ścieżka tradycyjna)
Obliczenia w pamięci podręcznej, pamięć podręczna neuronowa
Plusy: dojrzałość, duża prędkość
Ograniczenia: duży obszar, ograniczona skalowalność
2. Pamięć wyłaniająca się (kierunek głównego nurtu)
W tym:
MRAM, PCM, ReRAM, FeRAM
Wspólny cel: przekształcenie macierzy pamięci w macierzowe mechanizmy mnożenia i akumulacji z obliczeniami na miejscu i obliczeniami analogowymi (np. sumowanie prądu dla mnożenia wektorów).
Istota: tablica pamięci = akcelerator AI
Ale prawdziwe wyzwania pozostają: precyzja i hałas, zmienność urządzeń, dryf masy (szczególnie w przypadku pamięci ReRAM) i problemy z retencją. Ścieżka jest realna, ale niezwykle wymagająca pod względem inżynieryjnym.
W raporcie podkreślono, że sam sprzęt nie wystarczy – algorytmy również muszą ewoluować.
Kluczowy wniosek: Optymalizacja wydajności AI wymaga wspólnego projektowania architektury, urządzeń i algorytmów.
Wąskie gardło sztucznej inteligencji zmienia się z „niewystarczającej mocy obliczeniowej” na „niemożność wystarczająco szybkiego przesyłania danych”. Odpowiedzią na chipy nowej generacji nie są mocniejsze procesory graficzne, ale pamięć, która sama potrafi liczyć.