Článek přečtěte do 3 min.

Vysoce výkonné sítě pro infrastrukturu umělé inteligence

Infrastruktura Oracle AI poskytuje nejlepší služby ve své třídě pro jakoukoli úlohu nebo aplikaci AI. Výpočetní, síťové a úložné služby spolupracují ruku v ruce a poskytují solidní stavební kameny pro budování infrastruktury AI pro běh jakýchkoli pokročilých aplikací AI. Úzká integrace Oracle Cloud Infrastructure Kubernetes Engine (OKE) poskytuje škálovatelnost a kontejnerizaci pro lepší produktivitu a spravovatelnost, což umožňuje vyniknout v bezproblémovém orchestrování kontejnerů s infrastrukturou AI.

V tomto článku se budeme zabývat tím, jak jsou služby Oracle Cloud Infrastructure (OCI) propojeny se sítí OCI, a to od základů bez kompromisů v oblasti výkonu a bezpečnostních funkcí. Také se budeme zabývat tím, jak OCI poskytuje optimalizované síťové pojivo pro umělou inteligenci, které zákazníkům umožňuje provozovat modely velkých jazykových modelů (LLM), aplikace generativní umělé inteligence (GenAI), fyzikální simulace a další.

Oracle AI Infrastructure poskytuje

Jednu z nejvýkonnějších a nejlevnějších technologií clusterů grafických procesorů (GPU) na světě se vzdáleným přímým přístupem do paměti (RDMA) jako součástí bezztrátové, neblokující síťové architektury, lokálním úložištěm NVMe (non-volatile memory express) pro kontejnerizované aplikace, vysoce výkonným škálovatelným úložištěm souborového systému pro trénování/inferencing modelů a výkonnými výpočetními prostředky na holém kovu podpořenými rozhraními PCIe (peripheral Component Interconnect Express) pro společné řízení všech komponent ve velkém měřítku.

AI Infrastrukturní sítě - Vysoce výkonné sítě pro infrastrukturu umělé inteligence ve velkém měřítku

OKE poskytuje plnou orchestraci pro škálovatelnost a správu propojenou přes cloudovou strukturu, aby byla zajištěna bezproblémová integrace s dalšími cloudovými službami a clusterem GPU/Kubernetes.

Služba OCI File Storage Service s Lustre ve velkém měřítku poskytuje hlubokou integraci s OKE a souborovým systémem přes síť cloud fabric, která také umožňuje přístup k holým metal uzlům GPU s výkonem tisíců GPU v superklastru.

Uzel Kubernetes se přímo připojuje k GPU přes rozhraní PCIe/NVMe v rámci holého výpočetního systému. Zároveň spojení NVIDIA zajišťuje bezproblémovou komunikaci mezi jednotlivými GPU v rámci každého holého uzlu clusteru s rychlostí připojení přes 900 Gb/s.

Uzly clusteru GPU jsou propojeny pomocí vysokopropustného a nízkolatenčního RDMA přes konvergovanou síť Ethernet verze 2 (RoCE v2). Poskytují ohromující výkon a lze je škálovat tak, aby splňovaly rozsáhlé požadavky aplikací umělé inteligence od trénovacích modelů až po inferenci.

Infrastruktura umělé inteligence OCI zahrnuje

Ultrarychlé a škálovatelné sítě

  • Vlastní protokol RDMA přes konvergovaný ethernet (RoCE v2).
  • Latence 2,5 až 9,1 mikrosekund pro síťové clustery.
  • Šířka pásma sítě clusteru až 3 200 Gb/s.
  • Šířka pásma sítě front-end až 200 Gb/s.
  • 3vrstvá topologie Clos.
  • Bezztrátová síť.

Supervýkonné výpočty

  • Bare metal instance bez režijních nákladů na hypervizor.
  • Zrychleno grafickými kartami NVIDIA Blackwell (GB200 NVL72, HGX B200), Hopper (H200, H100) a předchozí generací.
  • Možnost použití grafických karet AMD MI300X.
  • Jednotka pro zpracování dat (DPU) pro vestavěnou hardwarovou akceleraci.

Obrovská kapacita a vysoce výkonné úložiště

  • Lokální úložiště: kapacita NVMe SSD až 61,44 TB.
  • Úložiště souborů: Úložiště souborů OCI s technologií Lustre škálovatelné až na 20 petabajtů (PB).
  • Vysoký trvalý výkon pro každý terabajt (TB) zřízené kapacity.
    • 125 MB/s na zřízený TB.
    • 250 MB/s na zřízený TB.
    • 500 MB/s na zřízený TB.
    • 1000 MB/s na zřízený TB.

Infrastruktura Oracle AI poskytuje zákazníkům vynikající výkon a vysoce škálovatelnou síť. Zákazníci mohou přistupovat k velkým superklastrům GPU bez kompromisů v oblasti propustnosti sítě, latence a bezpečnostních funkcí a zároveň vytvářet aplikační vrstvy kontejnerizované pomocí OKE pro škálovatelnost a snadnou správu.

Pro více informací a podrobností o tom, jak vybudovat lepší architekturu s infrastrukturou OCI AI, nás neváhejte kontaktovat.

Zdroj: Oracle