Článek přečtěte do 4 min.

Výpočetní prostředky Oracle Cloud Infrastructure (OCI) poskytují  špičkovou škálovatelnost a výkon pro firmy všech velikostí. Instance OCI Compute Bare Metal (BM) a virtuálních strojů (VM) jsou zrychlený díky špičkovým grafickým procesorům od společnosti NVIDIA pro běžnou grafiku, inferenci umělé inteligence, trénování umělé inteligence, digitální dvojčata a HPC. Mnoho organizací dnes považuje generativní nabídky umělé inteligence za dotěrné nebo rigidní. Dotěrné proto, že tyto aplikace často běží přes API třetích stran s odlišnými, nejasnými zásadami ochrany soukromí. Rigidní proto, že vás omezují na používání pouze konkrétního modelu velkého jazyka (LLM) bez flexibility pro optimalizaci výkonu.Od virtuálního počítače s jedním GPU až po zettascale super cluster vám OCI umožňuje zvolit si LLM a dosáhnout požadovaného výkonu a zároveň si zachovat úplnou kontrolu nad vašimi daty pro případy použití, jako je jemné ladění, generování s rozšířeným načítáním (RAG) a vývoj agentů umělé inteligence. Aktualizovaný seznam instancí GPU OCI (BM a VM) naleznete po kliknutí na tento odkaz. Níže naleznete ilustrativní test s několika postřehy, které budou prezentovány na konci tohoto blogu.

Nasazená architektura

Architektura nasazená pro spuštění testů
Obrázek 1. Architektura nasazená pro spuštění testů

Bylo nasazeno jednoduché řešení kde uživatel zadá stejnou výzvu do různých LLM spuštěných na různém hardwaru. Výpočetní instance používají různé LLM. s (Mistral, Phi4, Gemma 3, Llama 3.3) využívající Ollamu k obsluze různých modelů prostřednictvím sítě.

Stejný výzva byl použit ve všech případech s deseti iteracemi na model. Prezentovanou mírou je „míra hodnocení“ THElama podrobná možnost.

Výsledky výkonnosti

Architektura Mistral 7B Phi-4 14B Gemma 3 12B Gemma 3 27B

Plamen 3.3 70B

Žádná infrastruktura GPU Není k dispozici 16,42 tokenů/s 8,40 žetonů/s 9,49 tokenů/s 4,77 tokenů/s 1,87 tokenů/s
VM.GPU.A10.1 Ampér 90,12 tokenů/s 43,07 tokenů/s 45,24 tokenů/s 22,89 tokenů/s 3,40 žetonů/s
1x grafická karta NVIDIA A10
VM.GPU.A10.2 Ampér 91,70 tokenů/s 43,71 tokenů/s 46,16 tokenů/s 23,18 tokenů/s 10,07 tokenů/s
2x grafická karta NVIDIA A10
BM.GPU.L40S.4 Ada Lovelace 129,62 tokenů/s 62,74 tokenů/s 66,03 tokenů/s 34,00 tokenů/s 15,26 tokenů/s
4x grafická karta NVIDIA L40S
BM.GPU.H100.8 Násypka 212,22 tokenů/s 114,19 tokenů/s 91,07 tokenů/s 56,55 tokenů/s 35,09 tokenů/s
8x grafická karta NVIDIA H100

Tyto testy nejsou určeny k ukázce výkonu modelů. Spíše bychom rádi ilustrovali malý výběr možností GPU, které mají zákazníci k dispozici. Výkon inference se zvyšuje odshora dolů, zejména u největšího modelu Llama 3.3 70B. V závislosti na vašich SLA, preferovaném modelu a požadavcích na GPU můžete výše uvedené výsledky považovat za obecné vodítko pro výkon inference.

Při rozhodování o cloudové infrastruktuře byste měli zvážit:

  1. Soukromí a suverenita dat: Většina známých modelů LLM je dostupná prostřednictvím internetových API připojení, nicméně přístup k datům nebo suverenita dat by mohly být problémem, pokud chce vaše společnost nasadit řešení s umělou inteligencí. Nasaďte své modely umělé inteligence lokálně ve vlastním OCI tenancy ve vašem známém regionu. Společnost Oracle má infrastrukturu umělé inteligence dostupnou v několika regionech po celém světě.
  2. Pravá platforma pro zrychlené výpočty: OCI je přední hyperškálovací platforma v oblasti infrastruktury umělé inteligence. Můžete trénovat, doladit nebo spravovat svůj model umělé inteligence. Můžete také provozovat řešení umělé inteligence s RAG pro přístup k vašim datům. Oracle má více než patnáct NVIDIA Tvary GPU včetně zettascale superklastrů a optimalizované knihovny inferenčního softwaru, jako je NVIDIA Tensor RT-LLM, inferenční mikroslužby NVIDIA NIM a další, které jsou součástí NVIDIA AI Enterprise dostupné na OCI. Je důležité změřit požadavky na grafický procesor, abyste mohli co nejlépe využít hardware.a software flexibilita při správném dimenzování vašeho řešení, což vám zabrání dodatečným nákladům.
  3. Vyberte si správný model umělé inteligence: Ne každá aplikace potřebuje největší nebo nejmodernější model. V mnoha případech by mohly stačit menší modely, proto zvažte jejich prozkoumání, abyste snížili využití výpočetních zdrojů a výdaje na cloud.
  4. Vyberte si správné nasazení umělé inteligence: Společnost Oracle nabízí různé platformy pro nasazení vašeho řešení umělé inteligence. Můžete si vybrat řešení IaaS, kde máte plnou kontrolu a flexibilitu, jak bylo představeno výše, nebo plně spravovanou službu pro doladění a hostování předních generativních modelů umělé inteligence s OCI Generative AI. Můžete navštívit naše centrum řešení umělé inteligence, kde najdete další informace o doporučených řešeních umělé inteligence, typických scénářích a plánech OCI AI pro nasazení, škálování a monitorování úloh GenAI během několika minut.

Jakmile se rozhodnete pro použití umělé inteligence ve vaší firmě, zvažte přístup k datům a soukromí, velikost modelu, správný model nasazení a celkovou vhodnost pro váš případ použití. OCI nabízí vysoce přizpůsobitelnou infrastrukturu umělé inteligence a plně spravované generativní služby umělé inteligence, které doplňují naše další silné stránky v dalších oblastech, jako je správa dat, integrace a SaaS aplikace.

Více informací naleznete v následujících zdrojích:

Zdroj: Oracle