Nový model NVIDIA Nemotron Vision Language Model posiluje video funkce v Oracle Media & Entertainment
Podniky napříč odvětvími transformují způsob, jakým interagují s videem, obrázky a dokumenty. Od mediální inteligence až po automatizaci podnikání, multimodální modely umělé inteligence umožňují nový způsob porozumění a generování bohatého obsahu. Společnost Oracle přináší NVIDIA Nemotron Nano 2 VL, multimodální model uvažování připravený pro podniky pro inteligenci dokumentů a porozumění videu, který pohání další vlnu podnikových aplikací v infrastruktuře Oracle Cloud (OCI).
Podpora chytřejšího porozumění a generování videa
Nemotron Nano 2 VL, představený na GTC DC, je navržen tak, aby interpretoval komplexní video obsah včetně vizuálních snímků, hustých titulků a textových překryvů v jednotném kontextu. Jeho inovativní technologie Efficient Video Sampling (EVS) identifikuje a odstraňuje časově statické záplaty ve videosekvencích, čímž až 4x snižuje redundantní tokeny a zároveň zachovává základní sémantiku a přesnost. OCI Generative AI využije Nemotron Nano 2 VL pro husté titulkování obrovského množství videí za snížené náklady s využitím NVIDIA GB200 NVL72.
V segmentu Oracle Media & Entertainment mohou modely pro porozumění videu automaticky shrnovat podnikové záznamy, jako jsou konference, školení, vysílání atd., a urychlovat tak vyhledávání informací a načítání znalostí. Využití těchto modelů přináší mediálním organizacím (zpravodajství, sport, streamovací platformy, studia a archivy) značné výhody:
- Cílené vyhledávání a interaktivní otázky a odpovědi umožňující týmům dotazovat dlouhá videa v přirozeném jazyce a vyhledávat přesné momenty, přepisy a entity.
- Rychlejší indexování, kdy model rychle analyzuje a označuje video obsah, což usnadňuje katalogizaci a organizaci rozsáhlých sbírek videí
- Chytřejší kurátorství videí, kde model efektivně identifikuje a extrahuje klíčové momenty z dlouhých videí na základě přirozeného jazyka, čímž šetří značné zdroje – čas, výpočetní techniku a manuální úsilí.
- Škálovatelná analýza obsahu, kde model dokáže analyzovat a shrnovat videa, získávat poznatky z desítek tisíc hodin záznamu, pomáhat mediálním společnostem zlepšovat doporučení obsahu, hodnotit kvalitu datových sad umělé inteligence, filtrovat nežádoucí nebo nebezpečný obsah a odhalovat trendy, které ovlivňují tvorbu obsahu a redakční plánování.
Správa rozsáhlých video datových sad pro generativní modelování umělé inteligence
Rozsáhlé datové sady videa jsou palivem pro moderní výzkum vizuální řeči, ale samotné surové záběry s tím nepohnou. Důležité je proměnit tento neukázněný oceán klipů v důvěryhodný a bohatě popsaný materiál, ze kterého se modely mohou skutečně učit. Cílem není jen „více dat“, ale ta správná – čistá, dobře označená a prohledávatelná – aby týmy mohly rychle iterovat a vidět skutečné zisky v přesnosti a robustnosti.
Náš přístup se zaměřuje na vytvoření datového enginu, který se snadno škáluje a zároveň se zaměřuje na kvalitu a kontext. Začínáme tím, že do kurátorského korpusu zařazujeme pouze obsah s vysokou úrovní signálu, a poté se soustředíme na popis toho, co se skutečně děje na obrazovce. Dlouhá videa se zřídka vejdou do jediného titulku, proto zachycujeme jak celkový obraz, tak i nuance jednotlivých scén. Propojujeme to, co je vidět, s tím, co je řečeno, a vytváříme tak stručná shrnutí na úrovni klipů, která se snadno indexují a vyhodnocují.
Nemotron Nano 2 VL zde hraje klíčovou roli. Pomáhá generovat detailní a jemně strukturované popisy a následně je rozděluje do souvislých titulků, které odrážejí celý příběh video segmentu. Tyto důkladnější titulky umožňují lepší vyhledávání, věrnější vyhodnocení a v konečném důsledku i lepší správu datových sad – bez nutnosti zbytečného ručního označování.
Výsledkem je rychlejší cesta od chaotických nezpracovaných dat k modelově připraveným korpusům. Výzkumníci získají spolehlivou páteř pro experimenty, produktové týmy získají důvěru v datové sady, na kterých jejich funkce stojí, a organizace těží z opakovatelné smyčky kurace, která podporuje jak rychlé iterace, tak neustálé zlepšování. Stručně řečeno, investicemi do škálovatelné, kontextově bohaté kurace s jádrem NVIDIA Nemotron Nano 2 VL vytváříme podmínky pro to, aby systémy vizuálního jazyka dosáhly svého plného potenciálu.
Odemknutí inteligence dokumentů v podnikových aplikacích
Pro podniky přináší Nemotron Parse pokročilou inteligenci dokumentů do aplikací Oracle Fusion Cloud. Model rozumí strukturovanému i nestrukturovanému obsahu, což umožňuje inteligentním asistentům vyhledávat odpovědi, sumarizovat data a zefektivnit rozhodování.
Díky NVIDIA Nemotron Parse mohou organizace v oblasti zákaznických služeb, IT, financí, pojišťovnictví a zdravotnictví interpretovat složité dokumenty s přesností a jistotou, což zvyšuje provozní efektivitu.
Efektivita a flexibilita otevřených modelů
Modely počítačového jazyka NVIDIA Nemotron kombinují architektonickou efektivitu s demokratizovanou inovací. Model Nemotron Nano 2 VL, založený na hybridní architektuře transformátor-Mamba, je trénován na více než 11 milionech vysoce kvalitních vzorků pokrývajících několik úkolů, jako je kontrola kvality obrazu, OCR, titulkování, kontrola kvality videa a uvažování o obrazu, a poskytuje vysokou propustnost tokenů a nízkou latenci, čímž dosahuje výjimečné efektivity pro rozsáhlé textové nebo vizuální úlohy uvažování. Model je podporován technologií vLLM a je kvantizován pro přesnost FP4, FP8 a BF16, což dále zvyšuje výkon.
Díky otevřeným vahám a otevřeným trénovacím datovým sadám mají vývojáři plnou transparentnost a flexibilitu při nasazování modelů Nemotron napříč aplikacemi Oracle Fusion, což organizacím umožňuje vytvářet si vlastní modely na základě jejich preferovaných základních modelů.
Umožnění budoucnosti multimodální umělé inteligence na platformě Oracle
Integrace NVIDIA Nemotron společností Oracle přináší výkon a flexibilitu multimodální umělé inteligence přímo do podnikových úloh, od analýzy dokumentů pro faktury a objednávky dodavatelů, přes podporu obrazového uvažování pro maloobchodní katalogy, až po poskytování hustých video titulků pro rychlejší vyhledávání, umisťování reklam a interaktivní otázky a odpovědi. Díky nativní integraci NVIDIA AI Enterprise do konzole OCI umožňuje tento základ podnikům vytvářet agenty umělé inteligence připravené na budoucnost, kteří dokáží porozumět jejich kritickým obchodním datům a reagovat na ně.
Prohlášení o vyloučení odpovědnosti za budoucí produkty
Předchozí text má nastínit obecný směr vývoje našich produktů. Slouží pouze pro informační účely a nelze jej zahrnout do žádné smlouvy. Nejedná se o závazek k dodání jakéhokoli materiálu, kódu nebo funkcí a neměl by se na něj spoléhat při rozhodování o nákupu. Vývoj, vydání, načasování a ceny jakýchkoli funkcí popsaných u produktů Oracle se mohou změnit a zůstávají na výhradním uvážení společnosti Oracle Corporation.
Zdroj: Oracle