Zrychlete výkon modelů umělé inteligence s konvergovaným úložištěm Weka a výpočty OCI GPUZrychlete výkon modelů umělé inteligence s konvergovaným úložištěm Weka a výpočty OCI GPU
Tento článek představuje inovativní řešení od společností Oracle Cloud Infrastructure (OCI) a WEKA, která poskytují konvergované úložiště s vysokou propustností a nízkou latencí, účelově navržené pro podporu výkonnostních požadavků moderních úloh s umělou inteligencí a strojovým učením (ML). Společnosti Oracle a WEKA provedly společné ověřování konceptu (POC) zaměřené na dosažení optimálního výkonu s využitím výpočetních tvarů GPU H100 od společnosti OCI v kombinaci s vysoce výkonným a škálovatelným úložným softwarem od společnosti WEKA. POC také ověřilo klíčové funkce, včetně vrstvené úložné kapacity s OCI Object Storage, WEKA Augmented Memory Grid™, škálovatelné architektury nasazení, správy dat odolné vůči chybám a kompatibility s více protokoly pro podporu rozmanitých požadavků na úlohy s umělou inteligencí a strojovým učením.
Architektura
K provedení technického ověření a výkonnostního benchmarku použili následující cloudové zdroje OCI a softwarový balík pro úložiště od společnosti WEKA:
Výpočetní cluster
Architektura se skládá z osmi výpočetních instancí OCI typu BM.GPU.H100.8, z nichž každá je vybavena osmi grafickými procesory NVIDIA H100 a tvoří cluster s 64 grafickými procesory. Každý serverový uzel je také konfigurován s osmnácti 3,84TB NVMe SSD disky, které poskytují vysokorychlostní lokální úložiště. Pro správu plánování úloh a alokace zdrojů v rámci clusteru je nasazen zásobník SLURM, který efektivně koordinuje distribuci pracovní zátěže. Cluster využívá technologii Remote Direct Memory Access (RDMA) pro vysokorychlostní komunikaci a synchronizaci mezi uzly s nízkou latencí, což zajišťuje rychlý přenos dat a optimální výkon pro distribuované úlohy umělé inteligence a HPC.
Konvergované úložiště
Na osm instancí OCI BM.GPU.H100.8 nasadili úložný software WEKA, aby vytvořili vysoce výkonný konvergovaný úložný cluster. Toto řešení představuje jedinečný přístup k vysoce výkonnému úložišti. V tomto modelu sdílí WEKA stejné základní výpočetní, síťové a úložné zdroje s aplikací. Klíčovou inovací je, že WEKA jednoduše vyčlení malou část úložiště, sítě a CPU pro své použití a využívá pouze tyto zdroje, zbytek ponechává k dispozici pro aplikaci.
Integrace pracovních postupů
Architektura umožňuje bezproblémovou interakci mezi výpočetními prostředky GPU, konvergovaným úložištěm WEKA a objektovým úložištěm OCI. Během doladění modelů LLM se generují kontrolní body a ukládají se do vícevrstvého úložiště WEKA, které kombinuje lokální disky NVMe z uzlů OCI GPU s objektovým úložištěm OCI. Tyto kontrolní body zachycují stav modelu v různých fázích, což umožňuje pozastavení a obnovení trénovacího procesu bez ztráty dat. Tento pracovní postup demonstruje škálovatelnost, výkon a spolehlivost úložné architektury pro úlohy umělé inteligence na podnikové úrovni.
Augmented Memory Grid™
Augmented Memory Grid ™ od společnosti WEKA je průlomové řešení, které rozšiřuje paměť GPU o vysokorychlostní tokenový sklad. Tato inovace umožňuje perzistentní ukládání a mikrosekundové načítání tokenů v exabajtovém měřítku. Augmented Memory Grid využívá optimalizaci GPU Direct Storage, RDMA a NVMe k dosažení mikrosekundových latencí a masivní paralelní propustnosti, čímž zásadně předefinuje způsob, jakým systémy umělé inteligence spravují a přistupují k tokenizovaným datům.
Následující diagram architektury poskytuje komplexní přehled tohoto systému a ilustruje integraci výpočetních, úložných a orchestračních vrstev.

Technické ověření a výkonnostní benchmark
Testování POC (Poc-of-Concept) bylo provedeno s využitím osmi výpočetních uzlů OCI BM.GPU.H100.8 nasazených s úložným softwarem WEKA, přičemž byly ověřeny klíčové vlastnosti a funkcionality úložiště, včetně:
- Integrace vrstvených úložišť s OCI Object Storage.
- Výkon Augmented Memory Grid™ pro zrychlený I/O.
- Kompatibilita s více protokoly pro různé požadavky na pracovní zátěž.
- Škálovatelné nasazení a správa dat odolná vůči chybám.
Použili nástroje pro benchmarking výkonu, jako jsou FIO a GDSIO, a také provedli doladění pomocí modelu Llama3.1-70B k vyhodnocení výkonu konvergovaného úložiště WEKA a možností vrstvených úložišť. Během procesu doladění bylo vygenerováno několik kontrolních bodů, které byly uloženy v konvergovaném úložišti WEKA. Tyto kontrolní body byly asynchronně vrstvené do objektového úložiště OCI bez jakéhokoli ručního zásahu.
Kromě toho mohly úlohy LLM přistupovat k datům přímo z objektového úložiště a fungovat jako nativní souborový systém – eliminovalo se tak nutnost ruční hydratace do lokálního NVMe. Rozhraní WEKA CLI poskytovalo přehled o umístění dat a zobrazovalo, zda se data nacházejí v objektovém úložišti, lokálním NVMe nebo v obou.
Výsledky výkonu
Testování výkonu bylo provedeno pomocí FIO, další informace o WEKAtesteru jsou k dispozici na adrese https://github.com/WEKA/tools/tree/master/WEKAtester.
Tabulka 1 znázorňuje výsledky výkonu získané z konvergovaného úložiště WEKA pomocí nástroje FIO.
Popis | Sekvence čtení | Seq Write | Čtení IOPS | Zápis IOPS | Latence čtení | Latence zápisu |
Na hostitele | 33,73 GiB/s | 15,97 GiB/s | 943 331 | 231 237 | 134 μs | 122 μs |
Agregát | 269,80 GiB/s | 127,80 GiB/s | 7 546 655 | 1 849 900 | 134 μs | 122 μs |
Tabulka 1: Výsledky FIO z 8uzlového clusteru WEKA běžícího na uzlech GPU OCI H100
Dále testovali výkon GPU Direct Storage (GDS), kde dosáhli 192 GiB/s pro sekvenční čtení a 76 GiB/s pro sekvenční zápisy na jednom klientovi. Tyto výsledky zdůrazňují schopnost WEKA efektivně zpracovávat jak velké sekvenční přenosy, tak i malé náhodné operace současně, což z něj činí ideální řešení pro smíšené pracovní zátěže běžné při trénování a inferenci umělé inteligence.
Tabulka 2 podrobně uvádí výsledky propustnosti dosažené pomocí GPU Direct Storage.
Popis | Sekvenční čtení | Sekvenční zápis |
Propustnost GDS pro jednoho klienta | 192 GiB/s | 76 GiB/s |
Tabulka 2: Výsledky GDSIO na 1 uzlu z 8uzlového clusteru WEKA běžícího na uzlech H100 GPU v OCI
WEKA Augmented Memory Grid™ Benchmarkové testování instancí OCI H100 GPU ve srovnání se standardním spuštěním vLLM ukázalo dramatické 20násobné zlepšení doby do prvního tokenu v kontextovém okně o velikosti 128 kB.
Následující tabulka a doprovodný graf ilustrují zvýšení výkonu v různých velikostech kontextu:

Graf 1: Doba do prvního tokenu a zrychlení WEKA AMG
Graf znázorňuje, jak rozšířená paměťová mřížka WEKA zrychluje výkon s rostoucí velikostí kontextového okna, přičemž největší zisky jsou patrné u největších kontextových oken.
Velikost kontextu | 1000 | 2000 | 4000 | 8000 | 16000 | 24000 | 3200 | 48000 | 64000 | 96000 | 128000 |
Výchozí hodnota s vLLM | 0,18 | 0,38 | 0,77 | 1,68 | 3,69 | 5,75 | 7,65 | 11,53 | 16.21 | 28,44 | 39,40 |
vLLM + PŘIHLÁŠKA | 0,09 | 0,10 | 0,12 | 0,17 | 0,32 | 0,45 | 0,54 | 0,85 | 1,02 | 1,54 | 2,00 |
vLLM + DRAM | 0,09 | 0,11 | 0,08 | 0,16 | 0,19 | 0,29 | 0,35 | 0,39 | 0,50 | 0,77 | 1,05 |
Zrychlení WEKA | 2,02 | 3,94 | 6.31 | 9,76 | 11,48 | 12,79 | 14.20 | 13,64 | 15,86 | 18,46 | 19,72 |
Tabulka 3: Doba do prvního tokenu a zrychlení WEKA AMG
Tato inovace eliminuje neefektivitu v tradičních inferenčních kanálech tím, že se vyhýbá redundantnímu přepočítávání tokenů, čímž výrazně snižuje latenci a plýtvání výpočetními prostředky. Rozšířením paměti GPU do distribuovaného, vysoce výkonného úložiště tokenů umožňuje Augmented Memory Grid systémům umělé inteligence ukládat a načítat tokeny s bezprecedentní efektivitou – což je obzvláště cenné pro zpracování smíšených vzorců čtení/zápisu, které jsou běžné v úlohách umělé inteligence založených na tokenech.
Závěr
Společný test konceptu společností Oracle Cloud Infrastructure (OCI) a WEKA demonstruje výkonné, škálovatelné a vysoce výkonné řešení přizpůsobené vyvíjejícím se požadavkům na úlohy umělé inteligence, strojového učení a vysokovýkonných výpočtů (HPC). Kombinací výpočetní infrastruktury GPU nové generace od OCI s konvergovanou platformou softwarově definovaného úložiště od WEKA mohou podniky dosáhnout výjimečné propustnosti, ultranízké latence a bezproblémového vrstvení dat – to vše při zjednodušení správy a snížení celkových nákladů na vlastnictví. Tato spolupráce nejen potvrzuje technické silné stránky obou platforem, ale také vytváří pevný základ pro infrastrukturu umělé inteligence připravenou na budoucnost, která dokáže podporovat vše od trénování rozsáhlých jazykových modelů až po inferenci v reálném čase ve velkém měřítku.
Chcete-li se dozvědět více o platformě WEKA pro infrastrukturu Oracle Cloud, navštivte webové stránky WEKA. Chcete-li začít s platformou WEKA pro vaše úlohy OCI, navštivte seznam platformy WEKA on OCI Marketplace nebo nás pro další informace neváhejte kontaktovat.
Zdroj: Oracle