TurboQuant wywołuje wyprzedaż na producentach pamięci, ale nie podkopuje boomu na HBM

Google przedstawił TurboQuant, algorytm kompresji, który według firmy potrafi około sześciokrotnie zmniejszyć rozmiar KV cache w dużych modelach językowych podczas inferencji, a więc obniżyć zapotrzebowanie na klasyczną pamięć DRAM w części zastosowań AI. Dla rynku to wystarczyło, by od razu przycisnąć wyceny Samsunga, SK Hynix i Microna, jakby kończył się właśnie napędzany przez sztuczną inteligencję supercykl pamięci.

Po chłodnej analizie widać jednak, że mamy raczej do czynienia z nerwową reakcją na trudny technicznie komunikat niż z początkiem nowego trendu. TurboQuant pozostaje na etapie badań i dotyczy głównie efektywniejszego wykorzystania DRAM przy inferencji, podczas gdy fundamentalna historia w segmencie high bandwidth memory, piętrowo układanej pamięci obok GPU używanej do trenowania dużych modeli, wciąż opiera się na niedoborze podaży, rosnącym popycie i silnej pozycji głównych dostawców. Z tej perspektywy dzisiejsza wyprzedaż niewiele zmienia w długoterminowym obrazie HBM.

Przełomowa technologia wywołuje panikę na rynku

Google Research $GOOG zaprezentował nowy algorytm kompresji pamięci o nazwie TurboQuant , który według naukowców może kompresować kluczową pamięć podręczną używaną w dużych modelach językowych co najmniej sześć razy szybciej z nawet ośmiokrotnie szybszym wnioskowaniem, bez poświęcania dokładności.

Reakcja rynku była natychmiastowa i dramatyczna. W czwartek akcje dwóch największych na świecie producentów układów pamięci, SK Hynix i Samsung $SSNLF, spadły odpowiednio o 6% i prawie 5% w handlu w Korei Południowej. Samsung Electronics zamknął się na poziomie 4,71%, podczas gdy SK Hynix spadł o 6,23%, ciągnąc południowokoreański indeks KOSPI w dół o 3,22%.

Podobna tendencja utrzymywała się na rynkach amerykańskich, gdzie akcje spółek takich jak Micron Technology$SNDK spadły o 7%, a SanDisk $SNDK o 6,8%. Ruchy te nastąpiły po spadkach akcji SanDisk i Micron w USA w środę.

Jak działa TurboQuant i dlaczego przeraża inwestorów

TurboQuant reprezentuje rewolucyjne podejście do rozwiązania jednego z największych wąskich gardeł sztucznej inteligencji - ogromnego zapotrzebowania na pamięć podczas operacji wnioskowania. TurboQuant to metoda kompresji, która osiąga wysoką redukcję rozmiaru modelu przy zerowej utracie precyzji, dzięki czemu idealnie nadaje się do obsługi zarówno kompresji kluczowej pamięci podręcznej (KC), jak i wyszukiwania wektorowego.

Technologia ta działa w dwóch fazach. Pierwsza faza wykorzystuje PolarQuant, który inaczej myśli o mapowaniu przestrzeni wielowymiarowej. Zamiast używać standardowych współrzędnych kartezjańskich (X, Y, Z), PolarQuant konwertuje wektory na współrzędne biegunowe składające się z promienia i zestawu kątów. Przełom tkwi w geometrii: po losowym obrocie rozkład tych kątów staje się wysoce przewidywalny i skoncentrowany.

Druga faza działa jak matematyczny korektor błędów. Nawet przy wydajności PolarQuant, pozostaje szczątkowa ilość błędów. TurboQuant stosuje 1-bitową skwantyzowaną transformację Johnsona-Lindenstraussa (QJL) do tych szczątkowych danych.

Rzeczywisty wpływ na rynek pozostaje kwestią sporną

Pomimo natychmiastowej reakcji rynku, analitycy ostrzegają przed przesadnymi obawami. Ray Wang, analityk pamięci w SemiAnalysis, powiedział, że badania Google niekoniecznie doprowadzą do potrzeby stosowania mniejszej liczby chipów. Wartości pamięci podręcznej są "kluczowym wąskim gardłem, którym należy się zająć, aby uzyskać lepsze modele i wydajność sprzętu" - powiedział. Wang powiedział, że "trudno będzie uniknąć większego zużycia pamięci" w wyniku poprawy wydajności modeli.

Ważne jest również rozróżnienie między różnymi typami pamięci. Należy zauważyć, że w porównaniu do standardowych układów DRAM, technologia ta będzie miała mniejszy wpływ na HBM (High Bandwidth Memory). TurboQuant jest używany głównie do optymalizacji wnioskowania modeli sztucznej inteligencji, fazy, która w większości wymaga tylko zwykłych układów DRAM. Jednak HBM pozostaje koniecznością w fazie szkolenia AI.

Według raportu CNBC, pomimo czwartkowego spadku akcji, idealna burza czynników nadal wspiera rynek pamięci w dłuższej perspektywie. Znaczny popyt w połączeniu z niedoborami podaży wywindowały ceny pamięci do bezprecedensowych poziomów i wsparły zyski Samsunga, SK Hynix i Micron.

Podstawy strukturalne pozostają solidne

Należy również pamiętać, że TurboQuant to wciąż tylko projekt badawczy. Warto zauważyć, że TurboQuant nie został jeszcze wdrożony na większą skalę; w tej chwili jest to nadal przełom laboratoryjny. Utrudnia to porównania z czymś takim jak DeepSeek, a nawet fikcyjną firmą Pied Piper.

Dane pokazują, że wielkość rynku HBM wzrośnie o 58% do 54,6 mld USD w 2026 r., stanowiąc prawie 40% rynku DRAM. Nagły wzrost popytu doprowadził do braku równowagi między podażą a popytem. Pomimo tego, że Samsung, SK Hynix i Micron przeznaczają 70% swoich nowych/dodatkowych mocy produkcyjnych na HBM, nadal istnieje luka 50-60% mocy produkcyjnych dla HBM.

Według analityków Wells Fargo, aktualizacja Google TurboQuant może być pozytywna dla firm produkujących pamięci. Chociaż tego rodzaju przełom może wydawać się negatywny dla firm produkujących pamięci, koncepcja paradoksu Jevonsa sugeruje, że może być odwrotnie - zwiększenie wydajności sztucznej inteligencji zmniejsza koszty, co może w rzeczywistości zachęcić do znacznie szerszego wykorzystania i popytu.

Czynniki strukturalne związane z infrastrukturą sztucznej inteligencji, ograniczenia podaży i napięte rynki HBM wspierają odporne perspektywy długoterminowe. Inwestorzy powinni odróżnić krótkoterminowy szum od fundamentalnych trendów zakotwiczonych w utrzymujących się niedoborach pamięci i rosnących obciążeniach AI.