Článek přečtěte do 7 min.

Trénink velmi rozsáhlého jazykového modelu vyžaduje extrémně vysoký výkon pro výpočetní, úložné a síťové služby v moderních datových centrech. Naneštěstí je výkon úložiště často přehlížen ve srovnání s pozorností, kterou věnujeme počítačům a sítím. Výkon úložiště je však stejně důležitý jako výpočetní technika a vytváření sítí v reálném světě školení, velkých jazykových modelech nebo jakémkoli jiném typu rozsáhlého hlubokého učení.

Tento článek se zaměří na klíčové vlastnosti výkonu úložiště, které by podniky měly zvážit, a na to, jak mohou podniky škálovat svou pracovní zátěž AI v Oracle Cloud Infrastructure.

Oracle Cloud Infrastructure poskytuje flexibilní, levné a vysoce škálovatelné možnosti pro provozování různých školicích a inferenčních infrastruktur AI, včetně Compute, Network a Storage. V tomto článku vysvětlíme, jak se úložiště pro úlohy AI liší ve srovnání s tradičními aplikacemi a flexibilními možnostmi Oracle Cloud Storage pro úlohy AI.

Plánujte, abyste byli připraveni na budoucnost

Plánování úložiště je často složitější než výpočet a síť, protože přesun dat z jednoho úložného systému do druhého může být náročný. Data často pocházejí z různých zdrojových systémů a je velmi nepravděpodobné, že všechna data potřebná pro školení AI jsou dostupná v jednom centrálním úložném systému. To zvyšuje složitost a další režii na správu při přijímání, přípravě a udržování kvality dat, která jsou heterogenní a pocházejí z různých systémů.

Důležité otázky, na které by se podnik měl zaměřit, mohou zahrnovat:

  • Mohu uložit všechna svá data potřebná k úspěšnému provedení mého projektu AI ve velkém měřítku?
  • Splňuje můj úložný systém výkonnostní očekávání školení AI?
  • Je současný úložný systém schopen ukládat všechny typy stávajících i budoucích dat?
  • Jak mohu při výběru správného úložného systému zůstat flexibilní vůči požadavkům budoucích změn?
  • Mohu využít výhody cloudového škálování pro svou stále rostoucí velikost dat? Jak do toho zapadá hybridní model úložiště?
  • Jak mohu kontrolovat náklady na ukládání a zpracování dat? Vyžadují všechna data vždy vysoce výkonné úložiště?

Úvahy o úložišti

Odpovědi na tyto otázky často nejsou zřejmé bez přímého A/B srovnání a dopad rozhodnutí je v čase dalekosáhlý. Špatná volba úložiště může být drahá a inovace zabraňují zavedení daně s pomalým výkonem a rostoucími náklady.

Úvahy pro srovnání úložiště v rané fázi zahrnují

  • Jde o výměnu stávajícího úložiště nebo o čistou novou implementaci?
  • Jak velkou refaktorizaci architektury je třeba provést a jaké úsilí to zahrnuje?
  • Bude úložiště implementováno výhradně v cloudu nebo v hybridním nasazení?
  • Kolik úložiště musí být připojeno lokálně oproti vzdálenému?
  • Jaké je rozložení dat mezi úložištěm objektu, bloku nebo souborového systému?
  • Kolik dat využije Flash vs HDD vs SSD úložiště a jejich různé výkonnostní charakteristiky (např. IO za sekundu)?
  • Kolik dat se vejde do paměti použitého výpočtu?

GPU jsou klíčovým prvkem pro vysoce výkonné podnikové výpočty AI. GPU poskytují maximální výkon, když se všechna data vejdou do paměti. Ve většině velkých jazykových modelů nebo velkých pracovních zátěží hlubokého učení jsou však datové sady příliš velké na to, aby se vešly do dostupné paměti v clusteru. Data budou vyměňována v paměti a mimo ni, což má dopad na výkon a v závislosti na výkonu přenosu dat mezi úložištěm a trénováním paměti a výkon inference se může značně lišit, trénování modelu trvá déle a inference se může zpomalit. Aplikace umělé inteligence v samořídících autech, video dohled a detekce podvodů jsou některé z aplikací, u kterých bude efekt významný, pokud GPU čeká příliš dlouho na data.

Kromě toho jsou zde úvahy o datových centrech, které je třeba řešit, včetně toho, jak integrovat úložiště, zpracování a sítě, aby byl zajištěn optimální výkon od začátku do konce.

Řešení úložiště pro AI

Pokud jde o úložiště pro úlohy AI, neexistuje žádné univerzální řešení. To, co je dnes naprosto v pořádku, nemusí stačit pro zítřejší očekávání výkonu. Pro určité úlohy neexistuje nic takového jako příliš velký výkon úložiště. Kromě výkonu je extrémně důležitá schopnost škálování, protože data potřebná pro trénování velkých modelů AI exponenciálně rostou.

Sečteno a podtrženo, protože GPU a další výpočetní prostředky postupují při vytváření a používání stále výkonnější umělé inteligence, musí růst i výkon úložiště a rozsah a musí být připraveny na budoucí poptávku. Podnikové investice do AI by neměly mít klesající výnosy kvůli špatnému výkonu úložiště.

Flash úložiště NVMe

Lokálně připojené flash disky NVMe (Non-Volatile Memory Express) pro výpočet instancí jsou nejrychlejším dostupným úložným systémem pro clustery AI. Zrychluje přenos dat mezi SSD a CPU a GPU pomocí rychlého protokolu PCIe Bus. Protokol je navržen tak, aby využíval výhody paralelního zpracování dat z SSD pro přístup k datům s nízkou latencí a je optimalizován pro Non-Uniform Memory Access (NUMA) pro více CPU a GPU pro správu datového paralelismu.

Během trénování modelu AI lze všechny aktivace a stavy modelu přenést do NVMe připojeného k výpočetním clusterům pro zrychlené výpočty a komunikaci.

Oracle Cloud Infrastructure poskytuje řadu konfigurací instancí v podobě holého kovu i virtuálního stroje (VM). Každý tvar se liší v různých rozměrech, včetně paměti, jader CPU, šířky pásma sítě a možnosti místního úložiště NVMe SSD, které se nachází v tvarech Dense IO a HPC.

Oracle Cloud Infrastructure poskytuje smlouvu o úrovni služeb (SLA) pro výkon NVMe. Měření výkonu je komplexní a otevřené pro variabilitu. Kovový tvar Oracle Cloud BM.DenseIO.E5.128 nabízí 3,4MM IOPS s podporou SLA na 4K bloku náhodných zápisů FIO Benchmark test. Další podrobnosti o tvarech Oracle Cloud Compute a jejich benchmarku výkonu NVMe naleznete zde.

Ukládání souborů

Procesy AI mohou využívat běžné souborové protokoly, jako je Network File System (NFS v3), který podporuje replikaci dat, integritu a kódování, nebo protokol SMB. Souborový systém může být vyhrazený souborový server nebo NAS hlava postavená nad objektovým nebo blokovým úložištěm.

Úložiště souborů může poskytnout limit velikosti NVMe a dále se škálovat, aby poskytlo požadované množství úložiště potřebné pro dnešní trénink velkých hlubokých neuronových sítí. Pokud jde o odvození, mohou být systémy úložiště založené na souborech použity tam, kde mají být data diskretizována, jako je rozpoznávání obrazu a kategorizace objektů.

Oracle Cloud Infrastructure File Storage využívá 5cestné replikované úložiště umístěné v různých chybových doménách pro zajištění redundance a odolnosti dat s kódováním výmazu a funkcí Network Lock Manager (NLM) pro funkci zamykání souborů.

Oracle Cloud High Performance File System (HFS)

Vysoce výkonné souborové systémy podporují pracovní zátěže, které vyžadují schopnost číst a zapisovat data extrémně vysokou propustností. Souborové systémy OCI HPC (HFS) jsou dostupné na Oracle Cloud Marketplace a usnadňují nasazení různých špičkových vysoce výkonných souborových serverů. Za pouhá tři kliknutí mohou zákazníci spustit souborový server v petabajtovém měřítku s dvoucifernou gigabajtovou propustností.

Oracle Cloud High Performance Mount Target

OCI nabízí vysoce výkonný cíl připojení (HPMT) ve službě ukládání souborů, který může výrazně urychlit rychlost zpracování dat oproti standardním systémům ukládání souborů. HPMT může škálovat propustnost až na 80 Gb/s a lze kombinovat více cílů pro připojení k lineárnímu škálování propustnosti až na 480 Gb/s trvalé propustnosti čtení pro trénink velkých jazykových modelů napříč více clustery GPU poskytujících výjimečnou rychlost. HPMT je implementován nad službou distribuovaného úložiště souborů OCI, která poskytuje nezbytnou propustnost pro vysoce výkonné klastrové zpracování požadované pro pracovní zátěže AI. Více o HPMT o ukládání souborů si můžete přečíst zde.

Úložiště souborů OCI s technologií Luster

Luster je open source, paralelní, distribuovaný souborový systém používaný pro vysoce výkonné výpočetní (HPC) clustery a prostředí. Název Luster je portmanteau Linuxu a clusteru. Architektura úložiště souborů se skládá ze tří vrstev – 1. Metadatové služby (MDS), 2. Object Storage a 3. Luster Client. Jedná se o open source a běží na většině běžného hardwaru s jakýmkoliv blokovým úložným zařízením včetně jednotlivých disků, softwarového a hardwarového RAID a správce logických svazků. Luster se používá v mnoha kritických, rozsáhlých aplikacích umělé inteligence se škálováním až 512 PB v jednom souborovém systému, 32 PB v jednom souboru a propustností 2 tb/s. Poskytuje vestavěnou funkci, která pomáhá splnit požadavky na vysokou dostupnost bez selhání jednoho bodu.

OCI File Storage with Luster nabízí Oracle Cloud Infrastructure čtyři plně spravované úrovně výkonu souborového systému Luster od 125 mb/s/ na tb úložiště až po 1000 mb/s na tb úložiště s maximální velikostí souborového systému 20 PB. Nízká cena a flexibilita při výběru různých úrovní výkonu nabízí jedinečnou příležitost provozovat pracovní zátěže AI na nejlepším systému úložiště souborů s otevřeným zdrojovým kódem ve své třídě.

Úložiště objektů

Úložiště objektů našlo kritické místo v pracovních zátěžích AI kvůli své schopnosti ukládat data v jakémkoli formátu. Jak umělá inteligence v posledních desetiletích pokročila, aby byla schopna zpracovávat obrazová, video, řečová a zvuková data v nestrukturované podobě, úložiště objektů se stalo úložištěm dříve, než je aplikace mohou zpracovat. Další výhodou ukládání objektů je schopnost ukládat metadata. Některé aplikace AI využívají metadata objektů a zároveň těží z nekonečného rozsahu architektury úložiště objektů s plochým adresním prostorem. Analytika umělé inteligence může využívat výhod bohatých metadat k umožnění přesné kategorizace a organizace dat, což umožňuje, aby byla data užitečnější a snadněji se spravovala a rozuměla. Objektové úložiště lze škálovat na stovky petabajtů dat a lze jej replikovat napříč datovými centry pro vysokou dostupnost. Lze k němu přistupovat veřejně nebo k němu lze přistupovat soukromě přidáním vrstvy zabezpečení navrch.

Oracle Cloud Infrastructure nabízí vysoce dostupné, odolné a škálovatelné úložiště objektů, které poskytuje nízkonákladová řešení úložiště pro aplikace AI.

Blokovat úložiště

Zatímco blokové úložiště je všudypřítomné pro všechny typy aplikací, pokud jde o AI, lokálně nebo vzdáleně připojené NVMe je preferováno pro nižší latenci. Blokové úložiště postrádá metadata, což je výhodou objektového úložiště. Většina podnikových aplikací, které nevyžadují masivně paralelní zpracování a ukládají strukturovaná data, využívá blokové úložiště.

Oracle Cloud poskytuje vysokou propustnost s nízkou latencí a škálovatelný objem bloků až do 1 PB a používá prémiové SSD disky. Můžete škálovat virtuální procesorovou jednotku (VPU), která může poskytnout vyvážený, vysoký výkon a ultra-vysokou propustnost a IOPS 225 IOPS / GB až do 300 000 IOPS. Oracle poskytuje blokový objem zálohovaný NVMe a využívá ploché a rychlé sítě datových center k poskytování 480 Mb/s na 1TB blokovém objemu.

Typ úložiště Výkonové charakteristiky Velikost a limity
NVMe Mimořádně nízká latence a vysoký výkon bez dalších nákladů na holých kovových uzlech GPU. Uložte modely lokálně nebo je použijte jako nulu pro kontrolní body. 8 x 3,84 TB na tvaru H200

BM.GPU.H200.8

FSS Široce používaná cloudová nativní služba pro ukládání souborů pro podniky s propustností až 80 Gb/s/připojovací cíl, nekonečně škálovatelná s dalšími připojovacími cíli. Trvalá agregovaná propustnost čtení až 480 Gb/s
Skladování objektů 11 devítek trvanlivosti pro jakýkoli typ dat. Škálujte na téměř neomezenou kapacitu pro nestrukturovaná data. Podporuje interaktivní pracovní zátěže vhodné pro širokou škálu pracovních zátěží a zpracování velkých dat.
Lesk Pomocí Lustre můžete vytvořit souborový server HPC na holém počítači Oracle Cloud Infrastructure a blokovém úložišti připojeném k síti nebo NVMe SSD lokálně připojených k uzlům Compute. V konfiguraci tak malé, jako jsou dva uzly Object Storage Server (OSS), poskytuje souborový systém Luster na Oracle Cloud Infrastructure propustnost přes 5 GiB/s. Celková propustnost 20 GiB/s

Klíčové poznatky v podnikovém rozhodování

V úspěšných projektech umělé inteligence není úložiště „jedna velikost pro všechny“; co může být pro vaše dnešní řešení úložiště uspokojivé z hlediska rozsahu nebo výkonu – může být velmi brzy nedostatečné. Zvažování budoucích požadavků na rozsah a výkon je proto klíčové pro seriózní iniciativy umělé inteligence, které mohou reagovat na stále rostoucí požadavky na výpočetní a síťovou rychlost stále výkonnější umělé inteligence, jako jsou například aplikace typu Large Language Model, robotika, auto s vlastním pohonem a sledování v reálném čase. Je také důležité zvážit interoperabilitu mezi cloudem a libovolným datovým centrem a pomáhá zajistit, aby fungovalo v hybridním modelu. Podniky by navíc měly dbát na rozpočet a vyvažovat nákladovou efektivitu s nejnižší latencí a nejvyšší propustností – například nižší nákladný, ale málo výkonný úložný systém je pravděpodobně vysoce nákladově neefektivní, protože udržuje dražší GPU nečinné a prodlužuje dobu školení nebo odvození. A konečně, úložiště je klíčovým faktorem pro celkový výkon pracovní zátěže AI a nemělo by být umístěno na konci seznamu priorit vašeho projektu AI.

Další informace získáte tak, že nás budete kontaktovat.

Zdroj: Oracle