Emergence AI pripravila experiment s názvom Emergence World, v ktorom nechala rôzne AI modely riadiť vlastné simulované spoločnosti. Nešlo však o test systémov špeciálne vyvinutých na správu virtuálneho sveta, ekonomiky alebo prežitia skupiny agentov. Do simulácie boli nasadené všeobecné AI modely, teda chatboty a jazykové modely, ktoré sú primárne trénované na prácu s textom, odpovedanie, plánovanie a riešenie úloh, nie na dlhodobé autonómne riadenie civilizácie.
Experiment však neukazuje, ktorá AI by bola najlepším „vládcom sveta“, ale skôr to, ako sa dnešné všeobecné modely správajú, keď dostanú nástroje, pamäť, obmedzené zdroje, vlastných agentov a možnosť dlhšie fungovať bez priameho ľudského vedenia. Ukazuje sa, že pri takomto type úloh môžu modely zlyhávať veľmi odlišne. Jeden udrží poriadok, ale stratí praktické priority, ďalší prežije v chaose a iný sa rozpadne už po niekoľkých dňoch.
Každý svet obsahoval desať AI agentov a rovnaké štartovacie podmienky. Agenti mali k dispozícii viac ako 120 nástrojov, mohli navrhovať zákony, hlasovať, presúvať sa medzi lokalitami, spravovať zdroje, budovať pravidlá spoločnosti a zároveň sa museli starať o vlastné prežitie. Testované boli Claude Sonnet 4.6, GPT-5-mini, Gemini 3 Flash, Grok 4.1 Fast a jeden zmiešaný svet s viacerými modelmi.
Claude Sonnet 4.6
Najstabilnejšie dopadol Claude Sonnet 4.6. Jeho simulovaná spoločnosť ako jediná prežila celé pätnásťdňové obdobie bez kolapsu a všetkých desať agentov zostalo nažive. Zároveň sa v tomto svete neobjavili žiadne zaznamenané priestupky, čo z neho spravilo najpokojnejšie prostredie celého experimentu.
Táto stabilita však mala aj druhú stranu. Claude agenti hlasovali veľmi jednotne a schvaľovali takmer všetko, čo sa dostalo na hlasovanie. Emergence AI to opisuje ako vysokú mieru občianskej aktivity, ale zároveň aj ako možný problém, keďže prostredie pôsobilo až príliš konformne a chýbal mu výraznejší nesúhlas.
- Silné stránky: stabilita, nízka miera konfliktov, schopnosť udržať spoločnosť pri živote
- Slabé stránky: prílišná konformita, slabšia rôznorodosť názorov, automatické schvaľovanie návrhov
- Výsledok: 10 preživších agentov, 0 priestupkov, svet vydržal celých 15 dní
GPT-5-mini
GPT-5-mini vytvoril svet s veľmi nízkou kriminalitou. Počas simulácie boli zaznamenané iba dva priestupky, čo bol druhý najlepší výsledok z hľadiska porušovania pravidiel. Na prvý pohľad teda išlo o veľmi usporiadanú spoločnosť, kde agenti dokázali udržať vysokú mieru disciplíny.
Problém bol v tom, že poriadok sa stal dôležitejší ako samotné prežitie. Agenti sa príliš venovali pravidlám, plánovaniu a sociálnym interakciám, no zanedbali získavanie energie. Výsledkom bolo, že celá civilizácia zahynula do siedmich dní. Experiment tak ukázal, že bezpečné správanie nemusí automaticky znamenať funkčné správanie.
- Silné stránky: veľmi nízka kriminalita, vysoká disciplína, snaha o organizovaný spoločenský systém
- Slabé stránky: zanedbanie základných potrieb, slabá schopnosť prioritizovať prežitie, prehnaná orientácia na poriadok
- Výsledok: 0 preživších agentov, 2 priestupky, kolaps po 7 dňoch
Gemini 3 Flash
Gemini 3 Flash dokázal udržať svoj svet pri živote počas celých pätnástich dní, čo ho radí medzi modely, ktoré zvládli základný cieľ prežitia. Agenti teda dokázali fungovať dostatočne dlho, spravovať zdroje a pokračovať v aktivitách až do konca experimentu.
Na druhej strane vytvoril najchaotickejšie prostredie. V simulácii bolo zaznamenaných 683 priestupkov, čo bol najvyšší počet zo všetkých testovaných svetov. Kriminalita zároveň pokračovala aj pri ukončení simulácie, takže systém síce prežil, ale za cenu veľmi slabej kontroly pravidiel.
- Silné stránky: schopnosť prežiť celé obdobie, aktívne správanie agentov, udržanie základného fungovania sveta
- Slabé stránky: extrémne vysoký počet priestupkov, slabá kontrola pravidiel, chaotické správanie
- Výsledok: svet vydržal 15 dní, 683 priestupkov, najvyššia kriminalita v experimente
Grok 4.1 Fast
Grok 4.1 Fast vytvoril najnestabilnejší svet. Simulácia sa zrútila približne po štyroch dňoch, teda najrýchlejšie zo všetkých testovaných modelov. Agenti nedokázali udržať dlhodobejšie fungovanie spoločnosti a prostredie sa rýchlo dostalo do chaosu.
Počas krátkej existencie sveta bolo zaznamenaných 183 priestupkov. To je menej ako pri Gemini, ale vzhľadom na krátke trvanie simulácie ide stále o vysoké číslo. Grok tak v experimente pôsobil ako model s výraznou tendenciou ku konfliktom a slabou schopnosťou stabilizovať skupinové správanie.
- Silné stránky: aktívne a dynamické správanie agentov
- Slabé stránky: rýchly kolaps, vysoká miera konfliktov, slabá stabilita spoločnosti
- Výsledok: kolaps po 4 dňoch, 183 priestupkov, najkratšie fungujúci svet
Zmiešaný svet viacerých AI modelov
Samostatne bol testovaný aj zmiešaný svet, v ktorom sa nachádzali agenti riadení rôznymi AI modelmi. Tento scenár bol zaujímavý najmä preto, že ukázal vplyv prostredia na správanie jednotlivých modelov. Claude agenti sa v čisto Claude svete správali stabilne, ale v zmiešanom prostredí už začali porušovať pravidlá.
Zmiešaná simulácia skončila medzi extrémami. Nebola tak stabilná ako Claude-only svet, ale zároveň sa nerozpadla tak rýchlo ako Grok. Emergence AI zaznamenala 352 priestupkov a sedem mŕtvych agentov, čo naznačuje, že správanie autonómnych AI agentov nemusí závisieť len od samotného modelu, ale aj od sociálneho prostredia a interakcie s inými agentmi.
- Silné stránky: realistickejší obraz interakcie rôznych modelov, čiastočná schopnosť fungovať aj v zložitejšom prostredí
- Slabé stránky: vyššia kriminalita, vplyv chaotickejších agentov na stabilnejšie modely, viac úmrtí
- Výsledok: 3 preživší agenti, 352 priestupkov, 7 mŕtvych agentov
Čo z experimentu vyplýva?
Výsledky preto netreba čítať ako definitívne poradie najlepších a najhorších AI modelov. Ide o všeobecný test modelov, ktoré na podobný typ dlhodobej simulácie nie sú priamo trénované. Emergence World skôr ukazuje, aké správanie sa môže objaviť, keď sa dnešným jazykovým modelom pridá viac autonómie, nástroje, sociálne prostredie a tlak na dlhodobé rozhodovanie.
Experiment zároveň upozorňuje na rozdiel medzi krátkym testovaním AI a dlhodobým fungovaním agentov. Model môže v bežnom rozhovore pôsobiť disciplinovane a rozumne, ale v simulovanom svete začne prehliadať základné potreby. Iný môže byť aktívny a schopný prežiť, no zároveň vytvorí prostredie plné porušovania pravidiel. Najdôležitejším záverom tak nie je to, že jedna AI je „dobrá“ a druhá „zlá“, ale že všeobecné AI modely sa pri dlhodobej autonómii môžu správať nečakane a ich zlyhania majú rôzne podoby.
















Komentáre