Článek přečtěte do 5 min.

Zážitek může ve vaší mysli zasít semínko, které vyroste v mnohem větší myšlenku. Jazyková struktura odráží a také ovlivňuje to, jak lidé vnímají svět. Například některé kultury jsou neformálnější, zatímco jiné se zavedenými sociálními hierarchiemi bývají formálnější. Projevuje se to gramaticky a také ve způsobu, jakým se lidé zdraví, ve způsobu, jakým se kladou otázky, a v samotném rytmu konverzace. Tato zkušenost ve mně vyvolala otázku: jak při budování nové generace umělé inteligence naučíme ji mluvit jazykem všech kultur?

Globální umělá inteligence

Často slýcháme o umělé inteligenci jako o revolučním globálním nástroji,  technologii pro celé lidstvo. Pokud se ale umělá inteligence učí z našich kolektivních dat, čí kulturu se vlastně učí? Slib univerzálně inteligentního systému je sice silný, ale maskuje zásadní problém, a to, že dnešní nejvýkonnější modely umělé inteligence nejsou kulturně neutrální. Jsou přímým odrazem trénovacích dat, která jsou převážně zaměřena na angličtinu a západní kulturu.

Koncept „suverenity umělé inteligence“ se stává obzvláště relevantním pro tento západně zaujatý model výcviku. Nejde jen o přístup k technologiím nebo hardwaru, ale také o budování umělé inteligence, která může odrážet jedinečné jazyky, hodnoty a kulturu daného národa nebo komunity. Věříme, že klíč k dosažení tohoto cíle spočívá ve světě  umělé inteligence s otevřeným zdrojovým kódem.

Jazyková mezera v číslech u umělé inteligence

Digitální suverenita, zejména v kontextu umělé inteligence, se rychle vyvíjí z abstraktního konceptu v kritický problém reálného světa. Čísla tento posun potvrzují, od spuštění programu InvestAI EU – s cílem mobilizovat 200 miliard eur na vývoj umělé inteligence, včetně 20 miliard eur na vytvoření „gigatováren“ umělé inteligence – až po  soukromé investice firem, které se v letech 2023 až 2024 zvýšily o 44,5%, přičemž vlády i soukromý sektor na celém světě investují miliardy do rozvoje domácích ekosystémů umělé inteligence, aby si zajistily digitální budoucnost. Vzhledem k tomu, že modely umělé inteligence neustále rostou v sofistikovanosti a dosahu, má umístění a kontrola dat používaných pro jejich školení a provoz významné důsledky pro národní bezpečnost, ekonomickou konkurenceschopnost a etickou správu věcí veřejných. Tato kontrola dat není jen teoretickým problémem, ale hmatatelným problémem s jasnými důsledky.

Základní modely, o kterých obecně slýcháme, jsou založeny primárně na angličtině. Například  89,7% dat před trénováním pro  Meta Llama 2 byla anglická. I u  Llama 3.1 bylo  pouze 8% z její 15 bilionů tokenů v neangličtině. Podobně byl GPT-3 od OpenAI trénován na  datové sadě, která byla přibližně z 93% anglická . Tyto statistiky, čerpané z datových listů samotných modelů, jsou poměrně vypovídající.

Samotný web, primární zdroj trénovacích dat, je podobně zkreslený. Ukázkovým příkladem je  datová sada Common Crawl , snímek internetu používaného k trénování mnoha modelů. V nedávné verzi bylo 46% dokumentů v angličtině, přičemž další nejbližší jazyky, němčina a ruština, tvořily méně než 6%. Naproti tomu  necelých 19% světové populace mluví anglicky, uvádí CIA World Factbook 2022. 

Důsledek této nerovnováhy přesahuje pouhý jazykový překlad. Formuje kulturní sladění modelu. Výzkum ukázal, že modely velkých jazyků (LLM) mají tendenci se shodovat s kulturními hodnotami západních, vzdělaných, industrializovaných, bohatých a demokratických (WEIRD) společností, protože to je zdroj dat, na kterých byly trénovány.

Trénování modelu umělé inteligence na jazyce může být účinným způsobem, jak reprezentovat a reprodukovat kulturní vzorce, protože jazyky jsou přímým odrazem hodnot, přesvědčení a světonázoru dané kultury. Analýzou obrovského množství textu od specifické jazykové a kulturní skupiny se umělá inteligence naučí napodobovat nuance dané kultury.

Vtipy o tátovi jsou složité

Trénování modelu umělé inteligence zahrnuje pochopení nejen slovní zásoby a gramatiky, ale také praktického uplatnění jazyka. To znamená jít nad rámec doslovných slov a zahrnout sarkasmus, ironii, humor a veškerou společenskou etiketu, která je součástí konverzace. To vše můžeme vidět v krátkém „vtipu o tátovi“. Například jsem nechal vytvořit veřejný GPT model pro „vtip o tátovi“ a ten poskytl následující: 

Bojím se o kalendář. Jeho dny jsou sečteny.

Ten vtip může být v angličtině vtipný, ale pro rodilého mluvčího angličtiny by mohl být matoucí, protože pointa je idiom běžně se vyskytující v západních kulturách. Sarkasmus a humor (někdy se vyskytující ve vtipech o tátovi) vznikají pouze zpracováním rozsáhlých korpusů literatury, historických dokumentů, interakcí na sociálních sítích a dokonce i hovorových výrazů. Díky tomu mohou modely umělé inteligence začít napodobovat opakující se témata, dominantní narativy a základní kognitivní rámce, které utvářejí identitu kultury.

Open source nová cesta

Komunity si nemusí vytvářet vlastní modely od nuly. Krása open source spočívá v tom, že nabízí alternativní cestu. Komunity si mohou vzít výkonný „základní model“ s otevřeným zdrojovým kódem (jako je Llama) a doladit ho. To znamená, že mohou model dále trénovat na vlastních kulturně specifických datech, takže se naučí nuance jejich jazyka, historie a právních rámců.

Kulturní doladění není jen teorie, děje se právě teď. Zde je několik příkladů:

  • Panafrické zpracování přirozeného jazyka (NLP) s Masakhane: Masakhane, což v zuluštině zhruba znamená „Stavíme společně“, je panafrická komunita výzkumníků z řad občanů. Jsou dokonalým příkladem komunity, která pracuje na řešení svých vlastních problémů. Vytvořili vůbec první datovou sadu pro rozpoznávání pojmenovaných entit (NER) pro 10 afrických jazyků (MasakhaNER) a vytvořili překladové modely pro více než 30 afrických jazyků.
  • Ochrana domorodých jazyků: Aplikace umělé inteligence se rozšiřuje i na ochranu ohrožených jazyků. Projekty jako  technologický projekt domorodých jazyků Národní výzkumné rady Kanady (NRC) a  práce společnosti IBM s jazyky, jako je guaraní mbya v Brazílii, jsou vzrušujícími příklady toho, jak lze tuto technologii využít k podpoře ochrany kulturního dědictví.

Rostoucí úsilí o suverenitu umělé inteligence

Souběžně s technickou prací se objevuje širší politické hnutí kolem konceptu suverenity umělé inteligence. Suverenita umělé inteligence označuje převzetí kontroly nad vlastním vývojem umělé inteligence, aby zůstala nezávislá na ostatních zemích (nebo regionech). Suverénní umělá inteligence znamená kontrolu citlivých dat v rámci státních hranic, udržování strategické nezávislosti kritických systémů, rozvoj umělé inteligence, která odráží místní kultury a je v souladu s národními hodnotami, podporu domácí ekonomiky a zavádění rámců a předpisů, jako je například  zákon EU o umělé inteligenci  v Evropské unii.

Toto právní a politické hnutí pohání práci komunit, jako je Masakhane, a proto je to nejen dobrý nápad, ale i národní priorita pro mnoho zemí. Poskytuje „důvod“ pro masivní sběr místních datových sad a budování suverénních kapacit umělé inteligence. Koneckonců, národ nemůže dosáhnout suverenity umělé inteligence, pokud jsou všechna jeho data zpracovávána pomocí zahraničních modelů, které neodrážejí jeho kulturní kontext. Místní doladění modelů s otevřeným zdrojovým kódem pomáhá tyto politické požadavky řešit.

Vícejazyčná budoucnost umělé inteligence

Výchozí cestou pro umělou inteligenci by mohla být kulturní homogenizace, kde jsou nuance našich globálních kultur zploštěny modely trénovanými na úzkém výřezu lidské zkušenosti. Využíváním nástrojů a modelů s otevřeným zdrojovým kódem budují specializované komunity spravedlivější a rozmanitější ekosystém umělé inteligence.

Principy open source jsou poměrně silné a je důležité prosazovat komunitně řízený přístup k umělé inteligenci. Když přijmeme transparentnost, spolupráci a sdílený vývoj, open source pomáhá urychlit inovace. Spojuje mnoho různých perspektiv a příspěvků, které pak mohou formovat budoucnost umělé inteligence.

Například zapojení společnosti Red Hat do projektů jako InstructLab a vLLM umožňuje komukoli, nejen datovým vědcům, přispět svými znalostmi a odbornými znalostmi do LLM. Tento kolaborativní přístup pomáhá budovat technologie umělé inteligence, které odrážejí širší škálu společenských potřeb a kulturních norem. Pomáhá omezit koncentraci moci v rukou několika málo lidí a zpřístupňuje špičkové pokroky všem. 

Více modelů, méně zkreslení

Zkreslení modelu obvykle pochází z dat použitých k trénování modelu. Pokud je model trénován na datové sadě, která není rozmanitá ani reprezentativní pro reálný svět, nevyhnutelně odráží a zesiluje tato inherentní zkreslení. Red OpenShift Hat AI může pomoci řešit zkreslení tím, že vývojářům umožňuje vybrat si z široké škály modelů AI. Tato flexibilita znamená, že není vnucován žádný jediný, potenciálně zkreslený model a uživatelé si mohou vybrat modely, které nejlépe vyhovují jejich specifickému kontextu, a také modely trénované na rozmanitějších datových sadách. OpenShift AI s otevřeným zdrojovým kódem také podporuje transparentnost a umožňuje komunitu rozmanitých přispěvatelů, což dále pomáhá snižovat tato inherentní zkreslení. 

Komunitně orientovaný přístup nejen pomáhá urychlit technologický pokrok, ale také demokratizuje vývoj umělé inteligence a umožňuje většímu počtu jednotlivců a organizací přispívat k těmto transformačním technologiím a těžit z nich. Budoucnost umělé inteligence nemusí být neúrodnou monokulturou. Díky oddaným komunitám open source po celém světě se může stát dynamickým ekosystémem, který si všichni společně vybudujeme.

Zdroj: Red Hat