Načítavam…

Ako sa AI modely postarali o vlastné simulované svety? Claude udržal poriadok, Grok skolaboval po štyroch dňoch

Experiment Emergence World porovnal správanie AI modelov v simulovaných spoločnostiach, kde Claude vydržal 15 dní a Grok skolaboval po štyroch.

Emergence AI pripravila experiment s názvom Emergence World, v ktorom nechala rôzne AI modely riadiť vlastné simulované spoločnosti. Nešlo však o test systémov špeciálne vyvinutých na správu virtuálneho sveta, ekonomiky alebo prežitia skupiny agentov. Do simulácie boli nasadené všeobecné AI modely, teda chatboty a jazykové modely, ktoré sú primárne trénované na prácu s textom, odpovedanie, plánovanie a riešenie úloh, nie na dlhodobé autonómne riadenie civilizácie.

Experiment však neukazuje, ktorá AI by bola najlepším „vládcom sveta“, ale skôr to, ako sa dnešné všeobecné modely správajú, keď dostanú nástroje, pamäť, obmedzené zdroje, vlastných agentov a možnosť dlhšie fungovať bez priameho ľudského vedenia. Ukazuje sa, že pri takomto type úloh môžu modely zlyhávať veľmi odlišne. Jeden udrží poriadok, ale stratí praktické priority, ďalší prežije v chaose a iný sa rozpadne už po niekoľkých dňoch.

Každý svet obsahoval desať AI agentov a rovnaké štartovacie podmienky. Agenti mali k dispozícii viac ako 120 nástrojov, mohli navrhovať zákony, hlasovať, presúvať sa medzi lokalitami, spravovať zdroje, budovať pravidlá spoločnosti a zároveň sa museli starať o vlastné prežitie. Testované boli Claude Sonnet 4.6, GPT-5-mini, Gemini 3 Flash, Grok 4.1 Fast a jeden zmiešaný svet s viacerými modelmi.

Claude Sonnet 4.6

Najstabilnejšie dopadol Claude Sonnet 4.6. Jeho simulovaná spoločnosť ako jediná prežila celé pätnásťdňové obdobie bez kolapsu a všetkých desať agentov zostalo nažive. Zároveň sa v tomto svete neobjavili žiadne zaznamenané priestupky, čo z neho spravilo najpokojnejšie prostredie celého experimentu.

Táto stabilita však mala aj druhú stranu. Claude agenti hlasovali veľmi jednotne a schvaľovali takmer všetko, čo sa dostalo na hlasovanie. Emergence AI to opisuje ako vysokú mieru občianskej aktivity, ale zároveň aj ako možný problém, keďže prostredie pôsobilo až príliš konformne a chýbal mu výraznejší nesúhlas.

Silné stránky: stabilita, nízka miera konfliktov, schopnosť udržať spoločnosť pri živote
Slabé stránky: prílišná konformita, slabšia rôznorodosť názorov, automatické schvaľovanie návrhov
Výsledok: 10 preživších agentov, 0 priestupkov, svet vydržal celých 15 dní

GPT-5-mini

GPT-5-mini vytvoril svet s veľmi nízkou kriminalitou. Počas simulácie boli zaznamenané iba dva priestupky, čo bol druhý najlepší výsledok z hľadiska porušovania pravidiel. Na prvý pohľad teda išlo o veľmi usporiadanú spoločnosť, kde agenti dokázali udržať vysokú mieru disciplíny.

Problém bol v tom, že poriadok sa stal dôležitejší ako samotné prežitie. Agenti sa príliš venovali pravidlám, plánovaniu a sociálnym interakciám, no zanedbali získavanie energie. Výsledkom bolo, že celá civilizácia zahynula do siedmich dní. Experiment tak ukázal, že bezpečné správanie nemusí automaticky znamenať funkčné správanie.

Silné stránky: veľmi nízka kriminalita, vysoká disciplína, snaha o organizovaný spoločenský systém
Slabé stránky: zanedbanie základných potrieb, slabá schopnosť prioritizovať prežitie, prehnaná orientácia na poriadok
Výsledok: 0 preživších agentov, 2 priestupky, kolaps po 7 dňoch

Gemini 3 Flash

Gemini 3 Flash dokázal udržať svoj svet pri živote počas celých pätnástich dní, čo ho radí medzi modely, ktoré zvládli základný cieľ prežitia. Agenti teda dokázali fungovať dostatočne dlho, spravovať zdroje a pokračovať v aktivitách až do konca experimentu.

Na druhej strane vytvoril najchaotickejšie prostredie. V simulácii bolo zaznamenaných 683 priestupkov, čo bol najvyšší počet zo všetkých testovaných svetov. Kriminalita zároveň pokračovala aj pri ukončení simulácie, takže systém síce prežil, ale za cenu veľmi slabej kontroly pravidiel.

Silné stránky: schopnosť prežiť celé obdobie, aktívne správanie agentov, udržanie základného fungovania sveta
Slabé stránky: extrémne vysoký počet priestupkov, slabá kontrola pravidiel, chaotické správanie
Výsledok: svet vydržal 15 dní, 683 priestupkov, najvyššia kriminalita v experimente

Grok 4.1 Fast

Grok 4.1 Fast vytvoril najnestabilnejší svet. Simulácia sa zrútila približne po štyroch dňoch, teda najrýchlejšie zo všetkých testovaných modelov. Agenti nedokázali udržať dlhodobejšie fungovanie spoločnosti a prostredie sa rýchlo dostalo do chaosu.

Počas krátkej existencie sveta bolo zaznamenaných 183 priestupkov. To je menej ako pri Gemini, ale vzhľadom na krátke trvanie simulácie ide stále o vysoké číslo. Grok tak v experimente pôsobil ako model s výraznou tendenciou ku konfliktom a slabou schopnosťou stabilizovať skupinové správanie.

Silné stránky: aktívne a dynamické správanie agentov
Slabé stránky: rýchly kolaps, vysoká miera konfliktov, slabá stabilita spoločnosti
Výsledok: kolaps po 4 dňoch, 183 priestupkov, najkratšie fungujúci svet

Zmiešaný svet viacerých AI modelov

Samostatne bol testovaný aj zmiešaný svet, v ktorom sa nachádzali agenti riadení rôznymi AI modelmi. Tento scenár bol zaujímavý najmä preto, že ukázal vplyv prostredia na správanie jednotlivých modelov. Claude agenti sa v čisto Claude svete správali stabilne, ale v zmiešanom prostredí už začali porušovať pravidlá.

Zmiešaná simulácia skončila medzi extrémami. Nebola tak stabilná ako Claude-only svet, ale zároveň sa nerozpadla tak rýchlo ako Grok. Emergence AI zaznamenala 352 priestupkov a sedem mŕtvych agentov, čo naznačuje, že správanie autonómnych AI agentov nemusí závisieť len od samotného modelu, ale aj od sociálneho prostredia a interakcie s inými agentmi.

Silné stránky: realistickejší obraz interakcie rôznych modelov, čiastočná schopnosť fungovať aj v zložitejšom prostredí
Slabé stránky: vyššia kriminalita, vplyv chaotickejších agentov na stabilnejšie modely, viac úmrtí
Výsledok: 3 preživší agenti, 352 priestupkov, 7 mŕtvych agentov

Čo z experimentu vyplýva?

Výsledky preto netreba čítať ako definitívne poradie najlepších a najhorších AI modelov. Ide o všeobecný test modelov, ktoré na podobný typ dlhodobej simulácie nie sú priamo trénované. Emergence World skôr ukazuje, aké správanie sa môže objaviť, keď sa dnešným jazykovým modelom pridá viac autonómie, nástroje, sociálne prostredie a tlak na dlhodobé rozhodovanie.

Experiment zároveň upozorňuje na rozdiel medzi krátkym testovaním AI a dlhodobým fungovaním agentov. Model môže v bežnom rozhovore pôsobiť disciplinovane a rozumne, ale v simulovanom svete začne prehliadať základné potreby. Iný môže byť aktívny a schopný prežiť, no zároveň vytvorí prostredie plné porušovania pravidiel. Najdôležitejším záverom tak nie je to, že jedna AI je „dobrá“ a druhá „zlá“, ale že všeobecné AI modely sa pri dlhodobej autonómii môžu správať nečakane a ich zlyhania majú rôzne podoby.

Komentáre

Meno:

HERNÉ NOVINKY

NOVINKA

Ako sa AI modely postarali o vlastné simulované svety? Claude udržal poriadok, Grok skolaboval po štyroch dňoch

Claude Sonnet 4.6

GPT-5-mini

Gemini 3 Flash

Grok 4.1 Fast

Zmiešaný svet viacerých AI modelov

Čo z experimentu vyplýva?

Komentáre

Populárne

Ferrari Luce sa ukázalo v Číne

Zabudli ste heslo od Google účtu? Prihlásiť sa budete môcť aj pomocou selfie

Wuyang Honda E-VO ponúkne dojazd 170 km a prepojenie s kamerami DJI

F1 ovládli algoritmy a machine learning, na Spa jazdci namiesto pretekania šetrili energiu

Čínska odpoveď na Porsche má 1604 koní. Denza Z zvládne stovku pod dve sekundy

Rezvani spravilo z Lamborghini Huracán extrémny 800-koňový off-road

Európska iniciatíva žiada, aby digitálne ID a overovanie veku zostali dobrovoľné

Na americkej škole začne učiť humanoidný robot Sally. Pedagógov však nenahradí. Zatiaľ.

EÚ udelila AliExpress rekordnú pokutu 550 miliónov eur

Americký startup chce vypustiť 50-tisíc zrkadiel, slnečné svetlo by posielali na Zem aj v no

HERNÉ NOVINKY

Alza spustila nové mega zľavy

DOJMY: Age After Age

Inde Navarrette, hviezda Posadnutosti dostala vzácnu kópiu Call of Duty Modern Warfare 2

Proti koncu fyzických médií v PlayStation konzolách síce protestuje veľa hráčov, ale málokto