Článek přečtěte do 6 min.

Pracovní zátěž umělé inteligence (AI) a strojového učení (ML) posouvá hranice možností práce s daty. Vzhledem k tomu, že organizace rozšiřují své výpočetní clustery a přijímají stále větší datové sady, úzká hrdla výkonu se neomezují pouze na CPU nebo GPU, ale mohou se nacházet i v síťové a úložné vrstvě. Stejně důležité je, že výpočetní uzly náročné na GPU jsou drahé. Zbytečné čekání na data představuje ztrátu času a peněz.

Aby se tento problém vyřešil, společnosti Oracle a Paradigm4 společně otestovaly systém flexFS v prostředí Oracle Cloud Infrastructure (OCI), aby dosáhly výjimečného poměru ceny a výkonu. flexFS je cloudový nativní, elastický souborový systém, který je určen pro akceleraci úloh v oblasti umělé inteligence, strojového učení a vysoce výkonných výpočtů (HPC).

Řešení výzvy v oblasti úložišť s využitím umělé inteligence/strojového učení

Pracovní postupy umělé inteligence a strojového učení jsou notoricky náročné na data. Představte si typický běh hlubokého učení: desítky nebo stovky výpočetních uzlů, z nichž každý musí paralelně číst terabajty trénovacích dat, modely kontrolních bodů a zapisovat protokoly – to vše při minimalizaci doby nečinnosti.

Ideální úložný systém musí splňovat tyto požadavky:

  • Vysoká agregovaná propustnost pro paralelní čtení a zápisy
  • Nízká latence, zejména pro metadata a malé soubory
  • Elasticita škálování nahoru nebo dolů v závislosti na pracovní zátěži
  • Jednoduchost provozu a cenová efektivita

Systém flexFS byl od základů navržen tak, aby splňoval tyto potřeby. Jedná se o plně POSIX kompatibilní, cloudový nativní souborový systém, který využívá více technologií úložiště – paměť, SSD, služby proxy dat a hyperscale OCI Object Storage – k zajištění výkonu a sémantiky, které vyžadují úlohy umělé inteligence/strojového učení.

flexFS na OCI Performance

Díky efektivnímu využití zdrojů OCI může flexFS umožnit úlohám s intenzivním souborovým I/O dosahovat propustnosti kolem 290 Gb/s [sekvenční čtení nebo zápis] na jednom svazku (na flexFS konvergovaném se 4 uzly s celkovou šířkou pásma sítě 400 Gb/s – viz níže uvedená část flexFS konvergovaná na OCI) – omezené šířkou pásma sítě proxy serverů. Navíc díky použití objektového úložiště OCI ve flexFS můžete dosáhnout řádových úspor nákladů na úložiště – což se obvykle promítá do výjimečného poměru ceny a výkonu.

Jak funguje flexFS na architektuře OCI

  • Paralelní souborový I/O:  flexFS rozděluje souborová data do bloků pevné velikosti a každý z nich ukládá jako objekt v podkladovém úložišti objektů. Výpočetní uzly čtou a zapisují tyto bloky paralelně, čímž dosahují celkové propustnosti omezené šířkou pásma sítě – nikoli počtem úložných serverů nebo zřízenou kapacitou.
  • Metadata s nízkou latencí:  Operace s metadaty (výpis souborů, přesun adresářů atd.) jsou zpracovávány specializovanou službou metadat s nízkou latencí mimo úložiště objektů. To umožňuje rychlou odezvu u operací, které jsou obvykle pomalé pouze v úložišti objektů.
  • Skupina proxy (mezipaměť pro zpětný zápis):  Volitelná distribuovaná skupina proxy poskytuje mezipaměť pro zpětný zápis, což dále umožňuje snížit latenci pro úlohy s mnoha malými soubory nebo častými náhodnými I/O operacemi.
  • Elasticita:  Kapacita i propustnost se škálují nezávisle nahoru a dolů bez rušivých migrací nebo přesunu dat.
  • Nákladová efektivita:  Fakturace založená na měření využití znamená, že platíte za to, co spotřebujete. Žádné nadměrné přidělování úložiště jen proto, abyste dosáhli cílové propustnosti.

flexFS na architektuře OCI

Obrázek 1 ukazuje typickou produkční konfiguraci pro flexFS na OCI, která kombinuje řadu proxy serverů a více serverů metadat na dedikovaných uzlech a OCI Object Storage pro vysokou propustnost, nízkou latenci a HA (vysokou dostupnost). Pro dedikovanou architekturu flexFS se doporučují výpočetní tvary OCI DenseIO (Baremetal a/nebo VM) s různými konfiguracemi NVMe SSD.

Dedikovaná architektura flexFS

flexFS-dedicated-prod

Obrázek 1: flexFS vyhrazený pro OCI

Konvergovaná architektura flexFS

Systém flexFS může běžet na uzlech GPU nebo univerzálních CPU s lokálními disky NVMe SSD a spouštět vysoce výkonnou mezipaměť podporovanou úložištěm OCI Object. Obrázek 2 znázorňuje konvergovanou produkční konfiguraci s proxy serverem flexFS a klientskými úlohami běžícími na výpočetních uzlech GPU (Compute-1,…, až Compute-n). Služby metadat flexFS běží na samostatných virtuálních počítačích (standardní výpočetní tvary OCI) s vysoce dostupnými a redundantními blokovými svazky OCI.

konvergované flexFS

Obrázek 2: Nastavení konvergovaného produkčního prostředí flexFS na OCI

Benchmarking

Testovali jsme flexFS na OCI v obou konfiguracích s použitím proxy skupin, a to jak z hlediska propustnosti, tak latence: tradiční nastavení s úložnými službami běžícími na vyhrazeném hardwaru a konvergované nastavení s úložnými službami běžícími na klientských uzlech GPU.

flexFS vyhrazený pro OCI

flexFS vyhrazený pro OCI

Obrázek 3: flexFS vyhrazený pro OCI

Skladování:

  • Dva uzly VM.DenseIO.E4.32; každý s 32 OCPU, 512 GB paměti, 4x 6,8 TB NVMe disky, 32Gb/s NIC. 4 NVMe disky na každém uzlu jsou konfigurovány jako jedno zařízení RAID0. Pro vyšší kapacitu a vyšší šířku pásma sítě se doporučují výpočetní tvary DenseIO E4 a E5 bez nutnosti instalace.
  • Úložiště objektů OCI ve stejné oblasti.

Klienti:

  • Čtyři uzly BM.GPU.H100.8. Každý uzel má 8 grafických procesorů H100, 80 GB paměti grafického procesoru, 112 OCPU, 2 TB hostitelské paměti, 16 disků NVMe s kapacitou 3,84 TB, 8x 2x 200 Gb/s RDMA, 1x 100 Gb/s síťovou kartu.

flexFS konvergovaný na OCI

flexFS konvergovaný na OCI

Obrázek 4: flexFS konvergované na OCI


Úložiště a klienti:

  • Čtyři uzly BM.GPU.H100.8. Každý uzel má 8 grafických procesorů H100, 80 GB paměti grafického procesoru, 112 OCPU, 2 TB hostitelské paměti, 16 disků NVMe s kapacitou 3,84 TB, 8x 2x 200 Gb/s RDMA, 1x 100 Gb/s síťovou kartu. 15 disků NVMe na každém uzlu je konfigurováno jako jedno zařízení RAID0.
  • Úložiště objektů OCI ve stejné oblasti.

Testované pracovní zátěže

  • Příkaz DD v Linuxu
    • Zápis: kopírování souborů z RAM disku do testovacího cíle
    • Čtení: kopírování souborů z testovacího cíle do nulového zařízení
  • MLPerf ResNet-50 – benchmark pro klasifikaci obrázků

Výsledky testů

Základní příkaz DD v Linuxu

Sekvenční zápis:

# dd if=/dev/shm/rand-10GiB of=/flexfs/hpc-gpu/rand-10GiB-n*-* bs=2M

Sekvenční čtení:

# dd if=/flexfs/hpc-gpu/rand-10GiB-n*-* of=/dev/null bs=2M

Kde dvě „*“ představují číslo uzlu a číslo úlohy na každém uzlu. Pro spuštění úloh byl použit nástroj GNU Parallel.

Následující tabulka ukazuje výkon sekvenčního zápisu a čtení.

Typ V/V vyhrazené pro flexFS konvergované flexFS
Sekvenční zápis
1 uzel × 1 úloha × 40 GiB 1 123 MB/s 1 209 MB/s
4 uzly × 1 úloha × 40 GiB 4 452 MB/s 4 490 MB/s
4 uzly x 16 úloh x 10 GiB 8 235 MB/s 37 519 MB/s
Sekvenční čtení
1 uzel × 1 úloha × 40 GiB 847 MB/s 818 MB/s
4 uzly × 1 úloha × 40 GiB 3 388 MB/s 3 308 MB/s
4 uzly x 16 úloh x 10 GiB 8 278 MB/s 34 846 MB/s

Tabulka 1: Výkon Linux DD na dedikovaném a konvergovaném flexFS systému flexFS na platformě OCI

V případech jedné úlohy na uzel dosahují flexFS vyhrazené na OCI a flexFS konvergované na OCI přibližně stejného výkonu a dobře se škálují od 1 uzlu do 4 uzlů.

V případech s vyšším počtem šestnácti úloh na uzel dosáhlo konvergované nastavení mnohem vyššího výkonu než dedikované nastavení. Existují pro to dva důvody. Zaprvé, šířka pásma sítě 4 uzlů GPU je 4x100Gbps = 400Gbps (50 GB/s), zatímco dva uzly DenseIO mají celkovou šířku pásma 2x32Gbps = 64Gbps (8 GB/s). Zadruhé, konvergované nastavení umožňuje provádět část I/O operací na lokálních discích NVMe.

MLPerf ResNet-50

Tento benchmark měří čas potřebný k trénování modelu klasifikace obrázků ResNet-50 s použitím standardní datové sady. Byl spuštěn na konfiguracích určených pro flexFS i konvergovaných pro flexFS na OCI.

První tři řádky v tabulce níže ukazují výsledky pro nastavení určené pro flexFS. Čtvrtý řádek ukazuje výsledky, když jsou lokální NVMe na uzlech BM.GPU.H100.8 využity pro ukládání souborů do mezipaměti proxy služby flexFS. Ve všech testech byla trénovací data načtena do odpovídajících souborových systémů (flexFS a Local NVMe) před spuštěním úloh Resnet50.

Nastavení # uzlů GPU H100 Běhová doba flexFS (sekundy) Lokální běhová doba NVMe (sekundy) Rozdíl oproti lokálnímu NVMe
Vyhrazený flexFS 1 843,6 843,19  -0,3 %
2 473,9 466,53  +1,6 %
4 309.3 290,37  +6,5 %
Vyhrazená mezipaměť flexFS + lokální mezipaměť NVMe SSD GPU 4 290,9 290,37  +0,2 %

Tabulka 2: Výkon flexFS na OCI v porovnání s lokálními NVMe disky

Výkon přístupu k datům uloženým v mezipaměti na flexFS v OCI je extrémně blízký výkonu lokálních NVMe disků. To není v konvergované konfiguraci překvapivé, protože souborové služby – včetně zpětného zápisu v mezipaměti – jsou umístěny společně s klientskou úlohou. Tato datová sada se nachází v OCI Object Storage a poskytuje výkon srovnatelný s lokálními NVMe disky.

OCI a flexFS: Povýšení AI/ML a biologických věd s bleskově rychlým úložištěm souborů

Vzhledem k tomu, že se organizace stále více spoléhají na Oracle Cloud Infrastructure (OCI) pro vysoce výkonné výpočty, umělou inteligenci a rozsáhlou analytiku, stále roste potřeba škálovatelného, ​​vysoce výkonného a cenově dostupného úložiště souborů. Pro zákazníky s obzvláště náročnými úlohami s velkým objemem dat může OCI a flexFS od Paradigm4 nabídnout zvýšení výkonu – poskytuje výjimečnou všestrannost, výkon, elasticitu a provozní jednoduchost, a to nativně na OCI Object Storage.

Chcete-li se dozvědět více, kontaktujte nás.

flexFS™ je ochranná známka společnosti Paradigm4, Inc. Všechny ostatní ochranné známky jsou majetkem příslušných vlastníků.

Zdroj: Oracle