Co se stane, když agenti umělé inteligence dosáhnou v benchmarkech 100% ve výpočetní technice?

Všechny hlavní laboratoře umělé inteligence vyvíjejí softwarové agenty umělé inteligence, kteří dokáží ovládat počítač stejně jako člověk, vizuálně analyzovat pixely, pohybovat myší a mačkat klávesy. Jde o výpočetní uživatelské agenty (CUA) a o nich jsem podrobně psal minulý týden.

Dnešní nejlepší CUA dokáží v populárním benchmarku OSWorld splnit přibližně 45% úkolů, což je nárůst oproti pouhým 6% v době, kdy byl benchmark vytvořen před šestnácti měsíci. Co se stane, když dosáhnou 100%?

V tomto příspěvku se podívám na to, co tyto benchmarky skutečně měří, co opomíjejí a jak se připravit na okamžik, kdy se provádění uživatelského rozhraní s využitím umělé inteligence stane vyřešeným problémem.

Pochopení benchmarků CUA

Benchmark OSWorld definuje 369 reálných úloh na desktopu: správu souborů, prohlížení webu, pracovní postupy s více aplikacemi atd. Lidští testeři jsou schopni dokončit 72–74% z nich, ale CUA tuto mezeru rychle zmenšují: 17% na začátku roku 2025, 45% dnes a pravděpodobně lidská parita v roce 2026.

Nakonec se jeden dostane na 100% a co potom?

Perfektní skóre pouze dokazuje, že CUA dokáže navigovat v jakémkoli uživatelském rozhraní. Stále však nerozhoduje, proč je úkol důležitý, nevyhodnocuje riziko ani nevyřeší nejasnosti. Prováděcí vrstva CUA se skládá pouze z rukou a očí, nikoli z mozku.

Lidé poskytují lešení

I se 100% schopnými CUA budou muset lidští pracovníci:

Stanovte si cíle a záměr.
Definujte zábradlí a kontrolní stanoviště.
Reakce na eskalace.

Hodnota nebude v surovém ovládacím prvku uživatelského rozhraní od CUA, ale bude to scaffolding kolem ní.

CUA se stávají univerzálním API

Nicméně, jakmile bude vyřešeno spouštění CUA, každá starší desktopová aplikace se stane inteligentním rozhraním API.

Typický případ použití bude zahrnovat spolupráci více modelů:

Agent rozhraní (CUA) bude deterministický a izolovaný v sandboxu. Pro každou instanci pracovního prostoru bude jeden.
Plánovací/reasoning agenti rozhodnou a zorganizují, které CUA vyvolat, kdy a s jakými omezeními.

CUA plus scaffolding se přímo mapují na fázi 4 („AI používá váš počítač“) a poté se vyvíjejí do fází 5 („AI používá váš počítač bez vás“) a 6 („koordinace více agentů“) v 7fázovém plánu spolupráce člověka a umělé inteligence.

Protože každá CUA bude používat stávající pracovní prostory a bude běžet s vlastní identitou, stávající IAM, DLP, nahrávání relací a další ochranná opatření budou stále platit stejně jako dnes. Nebudete muset znovu vymýšlet svůj bezpečnostní model.

Plánování této budoucnosti

Nechápejte mě špatně, bude to velká věc, až CUA dosáhnou 100% plnění. Ale to bude pouze milník, nikoli konečný cíl, na cestě k umělé inteligenci na pracovišti. Když k tomu dojde, hodnota se přesune k tomu, jak dobře navrhnete, zabezpečíte a spravujete orchestrační vrstvu, která CUA řídí.

Nedostatek (např. hodnota) bude spočívat v úsudku o tom, co dělat, jak to udělat a jak vypadá úspěch. I když CUA dosáhnou 100%, tento úsudek bude stále vycházet od lidí.

V tom okamžiku se lidští pracovníci přesunou od konání k řízení a organizační schéma začne vypadat jako obrovský orchestrální graf. Jakmile je vyřešeno provádění CUA, jediným rozhraním, které zbývá optimalizovat, bude vaše vlastní myšlení.

Pro více informací se s námi neváhejte spojit.

Zdroj: Citrix

Co se stane, když agenti umělé inteligence dosáhnou v benchmarkech 100% ve výpočetní technice?

Pochopení benchmarků CUA

Lidé poskytují lešení

I se 100% schopnými CUA budou muset lidští pracovníci:

CUA se stávají univerzálním API

Typický případ použití bude zahrnovat spolupráci více modelů:

Plánování této budoucnosti

Sdílejte tento článek, vyberte si platformu!

Podobné příspěvky

Kyberbezpečnost v době autonomních AI agentů

Útok na dodavatelský řetězec: Rizika, příklady a akční plán

Claude Mythos značí změny v přístupu ke kyberbezpečnosti

Phishing v roce 2026: Test odolnosti celé firmy

AI a cloud: Bezpečnostní rizika (Tenable Report 2026)