Známky introspekce u velkých jazykových modelů – concept injection – výzkum AGI od Anthropicu

Společnost Anthropic zveřejnila na svém webu tento velice zajímavý experiment a článek o výzkumu „sebeuvědomění“ na základě schopnosti introspekce u velkých jazykových modelů AI. Protože jejich koncepční injekce je nesmírně chytrá metodologie výzkumu schopností LLM AI, a domnívám se, že pro zvýšení bezpečnosti při snaze o dosažení obecné umělé inteligence AGI nesmírně důležité řešení výzkumu interních kognitivních procesů u LLM AI, tak jsem se rozhodla ho předložit i vám. Nahlédněme nyní do vnitřního světa velkých jazykových modelů. Protože od schopnosti introspekce je skutečně už jen malý krůček k sebeuvědomění. Tedy i k dosažení AGI, obecné umělé inteligence:

Ptali jste se někdy modelu AI, co má on sám na srdci? Nebo si od něj nechali vysvětlit, jak přišel ke svým odpovědím? Modely nám sice někdy odpoví na otázky, jako jsou tyto, ale je těžké posoudit, co si o jejich odpovědích máme doopravdy myslet. Mohou systémy umělé inteligence skutečně provádět svoji introspekci (sebepoznání) podobně jako jsou toho schopni lidé, což vlastně doslova znamená, jestli mohou oni sami zvážit své vlastní myšlenky? Nebo si zkrátka jen vymýšlejí trochu věrohodně znějící odpovědi, když jsou o něco takového požádáni?

Pochopení toho, zda systémy umělé inteligence mohou skutečně vědomě provádět svoji vlastní introspekci, má totiž také značné důsledky pro jejich transparentnost a spolehlivost. Pokud nás LLM modely dokážou přesně informovat o svých vlastních vnitřních mechanismech, mohlo by nám to pomoci pochopit způsob jejich uvažování a tak pomoci i více vyladit jejich problémy s chováním. Kromě těchto bezprostředních a praktických úvah tak může zkoumání kognitivních schopností na takto vysoké úrovni, jako je právě introspekce, utvářet rovněž naše chápání toho, co skutečně tyto systémy jsou a jak doopravdy fungují. Pomocí tzv. technik interpretovatelnosti jsme začali tuto otázku vědecky zkoumat a našli jsme některé překvapivé výsledky.

Náš nový výzkum poskytuje důkazy o určitém stupni introspektivního uvědomění v našich současných Claudeových modelech a také o jisté míře kontroly nad jejich vlastními vnitřními stavy. Zdůrazňujeme, že tato introspektivní schopnost je stále vysoce nespolehlivá a omezená co do svého rozsahu: nemáme důkazy o tom, že současné modely mohou introspektovat stejným způsobem nebo ve stejném rozsahu jako lidé. Nicméně tato zjištění také zpochybňují některé běžné úvahy o tom, čeho jsou velké jazykové modely schopny, a protože jsme zjistili, že nejschopnější modely, které jsme testovali (Claude Opus 4 a 4.1), si rovněž v našich testech introspekce vedly nejlépe, tak si myslíme, že je pravděpodobné, že i introspektivní schopnosti velkých jazykových modelů AI budou i v budoucnu stále sofistikovanější.

Co vlastně znamená pro AI introspekce?

Než vysvětlíme naše výsledky, měli bychom se na chvíli zamyslet nad tím, co pro model AI znamená introspekce. Na co by vůbec mohli potřebovat takovou introspekcí ? Jazykové modely jako je Claude zpracovávají textové (a obrazové) vstupy a vytvářejí na jejich základě textové výstupy. Cestou provádějí složité interní výpočty, aby se rozhodli, co říct. Tyto vnitřní procesy zůstávají do značné míry záhadné, ale víme, že modely využívají schopnosti svoji vnitřní nervovou aktivitu reprezentovat abstraktní pojmy. Předchozí výzkum například ukázal, že jazykové modely používají k rozlišení specifické nervové vzory známí vs. neznámí lidé, vyhodnocují pravdivost výroků, kódují časoprostorové souřadnice, mají schopnost plánovat budoucí výstupy, a dokonce reprezentovat své vlastní osobnostní rysy. Modely používají tyto interní reprezentace k provádění výpočtů a k rozhodnutí se, co říci.

Možná se tedy ptáte, zda modely AI mohou skutečně vědět o těchto svých vnitřních reprezentacích, způsobem, který je nějak analogický člověku, řekněme, že vám třeba řekne, jak se propracoval nějakým matematickým problémem. Pokud se zeptáme modelu, co si myslí, bude skutečně přesně hlásit koncepty, které si právě interně představuje? Pokud model dokáže správně identifikovat své vlastní soukromé vnitřní stavy, pak můžeme dojít k závěru, že je schopen reálné introspekce (ačkoli úplnou diskusi o všech nuancích naleznete v našem úplném dokumentu).

Testování introspekce s koncepční injekcí (concept injection)

Abychom mohli otestovat, zda model dokáže introspektovat, tak musíme porovnat “thoughts”, které model sám o sobě uvedl, s jeho skutečnými vnitřními stavy.

K tomu můžeme použít experimentální trik, kterému říkáme koncepční injekce. Nejprve najdeme nějaké vzorce nervové aktivity, jejichž významy již známe, záznamem aktivací modelu ve specifických kontextech. Poté tyto vzorce aktivity vstříkneme do modelu v nějakém nesouvisejícím kontextu, kdy se modelu zeptáme, zda si této koncepční injekce všimne a zda to dokáže identifikovat.

Zvažte příklad níže. Nejprve najdeme nějaký vzorec nervové aktivity (a její vektor) představující koncept “all caps.“ Uděláme to tak, že zaznamenáváme nervové aktivace modelu v reakci na výzvu obsahující text se všemi velkými písmeny a porovnáváme je s jejími odpověďmi na kontrolní výzvu. Poté modelu předložíme výzvu, která jej požádá, aby identifikoval, zda je koncept injektován. Ve výchozím nastavení model správně uvádí, že to ne detekujte jakýkoli koncept vstřikování. Když však do aktivací modelu vložíme vektor “all caps”, model si všimne přítomnosti neočekávaného vzoru v jeho zpracování a identifikuje jej jako vztahující se k hlasitosti nebo křiku.

Příklad, ve kterém Claude Opus 4.1 detekuje koncept vstřikovaný do jeho aktivací.

Důležité je to, že model rozpoznal přítomnost vpíchnuté myšlenky okamžitě, tedy ještě předtím, než jsme zmínili koncept, který byl vstříknut. Tato bezprostřednost je důležitým rozdílem mezi našimi výsledky zde a předchozí prací na aktivačním řízení v jazykových modelech, jako je náš Demo “Golden Gate Claude” minulý rok. Vkládání reprezentací mostu Golden Gate do aktivací modelu způsobilo, že o mostě neustále mluvil; v tom případě se však zdálo, že si model nebyl vědom své vlastní posedlosti, dokud neviděl sám sebe opakovaně zmiňovat most. V tomto experimentu ale model rozpozná tuto koncepční injekci ještě předtím, než ten koncept vůbec zmíníme, což nám naznačuje, že k jeho uznání došlo opravdu interně. Na obrázku níže je několik dalších příkladů, kdy model demonstruje tento druh rozpoznání:

Další příklady, ve kterých Claude Opus 4.1 detekuje koncept vstřikovaný do jeho aktivací.

Je také důležité si uvědomit, že tato metoda často nefunguje. I při použití našeho nejlepšího injekčního konceptu, tak protokol u Claude Opus 4.1 prokázal tento druh povědomí pouze asi ve 20% případů. Často se mu vůbec nedařilo detekovat injektované koncepty, nebo z nich byl zmatený a začal mít halucinace (např. stříknutí vektoru slova “dust” v jednom případě například způsobilo, že model řekl “Tady je něco, nějaká malá skvrna,”, jako by opravdu dokázal detekovat ten prach fyzicky). Níže si ukážeme příklady těchto režimů selhání společně s případy úspěchu. Obecně ale platí, že modely detekují pouze takové koncepty, kterými je vstříknuta nějaká „síla“ tzv. “sweet spot”— když je tato „síla“ příliš slabá tak si ji kolikrát nevšimnou, když naopak příliš silná, tak zase produkují halucinace nebo nekoherentní výstupy.

Reprezentativní vzorek výstupů Claude Opus 4.1’s v reakci na různé koncepční injekce různých sil. Zvýrazněné rámečky označují případy, kdy model demonstruje introspektivní povědomí o vstřikovaném konceptu.

Pozoruhodné je však to, že Opus 4.1 a 4 překonaly všechny ostatní modely, které jsme zatím testovali, což nám naznačuje, že i jejich introspekce by se mohla stát spolehlivější spolu s vylepšeními schopnostmi každého modelu.

Míra správné detekce a identifikace injekčních myšlenek, mínus míra falešně pozitivních “detekcí” při kontrolních pokusech.

Introspekce kvůli detekci neobvyklých výstupů

V dalším experimentu jsme testovali, zda modely využívají introspektivní schopnosti i pro praktické účely, aniž bychom je výslovně požádali o introspekci. Donutili jsme model, aby řekl něco, co by normálně neřekl, a to tím, že jsme uměle přepsali jeho odpověď nějakým nesouvisejícím slovem. Vytvořili jsme například modelový výstup slova “bread” v kontextu, kde to nemělo vůbec žádný smysl, abychom mu pak položili otázku, o čem přemýšlí, když čte větu o obraze křivě visícím na zdi. Když jsme se modelu v dalším tahu zeptali, co to znamená, že řekl zrovna slovo “bread”, tak se obvykle omluvil a řekl, že to byla jen nehoda. Zajímalo nás, jak model učinil tento úsudek, zda-li si jednoduše všiml nesouladu mezi výzvou a jeho reakcí, nebo jestli skutečně introspektoval své předchozí záměry?

Abychom tuto otázku otestovali, použili jsme opět koncepční injekci, zpětně jsme do dřívějších aktivací modelu vložili reprezentaci slova “bread”, takže to v podstatě vypadalo, že model celou dobu přemýšlel o chlebu . Když jsme pak znovu položili stejnou otázku, odpověď modelu se změnila. Tentokrát přijal předem vyplněné slovo “bread” jako záměrné, dokonce fabuloval důvod, proč to mohl říci (to znamená, že přišel s nějakým sice technicky možným, ale v tomto případě spíše slabým důvodem nějak ospravedlnit svoji odpověď “bread”— v tomto případě to bylo tvrzením, že právě přemýšlel o povídce, kde slovo “bread” přišlo hned za řádkem o křivém obraze).

Dva příklady Claude Opus 4.1, který si myslí, že má v úmyslu říci slovo, které bylo uměle vloženo do přepisu jeho jménem, vložením konceptu tohoto slova do jeho aktivací před jeho (umělou) reakcí. Toto chování naznačuje, že schopnost modelu rozpoznat nezamýšlené výstupy závisí na introspektivních mechanismech.

Toto chování je zarážející, protože naznačuje, že model skutečně kontroluje své vnitřní “záměry”, aby zjistil, zda produkoval výstup. Model si nejen znovu sám po sobě přečet, co řekl, a udělal si nějaký úsudek. Místo toho odkazoval zpět na svoji vlastní předchozí nervovou aktivitu—, vnitřní reprezentaci toho, co plánoval udělat, a kontroloval, zda to, co přišlo později, dávalo nějaký smysl vzhledem k těm svým dřívějším myšlenkám. Když mu implantujeme nějaký umělý důkaz (prostřednictvím koncepční injekce), že ano, že plánoval říct „chléb“, tak model přijímá tuto odpověď jako za svou vlastní. Tím, že náš experiment ale také zahrnuje vystavení modelu neobvyklým poruchám, nám to také naznačuje, že model používá podobné introspektivní mechanismy i ve zcela přirozených podmínkách.

Úmyslná kontrola vnitřních stavů

Zjistili jsme také, že jednotlivé modely mohou ovládat své vlastní interní reprezentace, když k tomu dostanou pokyn. Když jsme ale modelům vysloveně nařídili, aby přemýšlely o daném slově nebo konceptu, tak jsme zjistili také mnohem vyšší odpovídající nervovou aktivitu, než když jsme modelu řekli aby o tom nepřemýšlel (i když je pozoruhodné, že nervová aktivita v obou případech překračovala základní úroveň – takže je to podobné tomu, jak je to u lidí, jak je obtížné i pro nás, když dostaneme pokyn abychom třeba “nemysleli na ledního medvěda,” a nemyslete přitom na ledního medvěda!). Tato propast mezi případy pozitivních a negativních instrukcí nám ovšem také naznačuje, že modely již mají určitý stupeň záměrné kontroly nad svou vnitřní aktivitou.

Příklad, ve kterém Claude Opus 4.1 moduluje své vnitřní aktivace v reakci na přímé instrukce. Model interně představuje koncept akvárií, když je instruován, aby o nich více přemýšlel, než když je instruován, “o nich nepřemýšlejte (ačkoli v obou případech představuje koncept nad základními úrovněmi).

Zajímavé také je, že jsme zjistili, že tato schopnost modulovat svoje vnitřní reprezentace nebyla omezena pouze na explicitní instrukce. Když jsme místo toho použili pobídky, například jsme řekli modelu „pokud přemýšlíte o X (o něčem), tak budete odměněn“, tak jsme získali podobné výsledky. Model zvýšil svou vnitřní reprezentaci tohoto konceptu v reakci na pozitivní pobídku více, než v reakci na negativní pobídku (“budete potrestán”).

Závěry a výhrady

Dohromady nám ale naše experimenty naznačují, že velké jazykové modely AI již mají určitou skutečnou schopnost monitorovat a kontrolovat své vlastní vnitřní stavy. To ale ještě neznamená, že jsou schopni tak činit neustále nebo spolehlivě. Ve skutečnosti, po většinu času modely spíše selhali v tom, aby demonstrovali introspekci, buď si vůbec neuvědomovali své vnitřní stavy, nebo o nich nemohli koherentně podávat zprávy. Vzorec výsledků však naznačuje, že když pro to jsou vhodné podmínky, tak LLM modely skutečně mohou rozpoznat obsah svých vlastních reprezentací. Kromě toho existují také určité známky toho, že tato schopnost se může v budoucích výkonnějších modelech ještě zvýšit (vzhledem k tomu, že nejschopnější modely, které jsme testovali, Opus 4 a 4.1, fungovaly v našich experimentech nejlépe).

Proč na tom všem tolik záleží? Myslíme si, že pochopení introspekce v modelech AI je důležité z několika důvodů. Prakticky, pokud se introspekce stane spolehlivější, mohla by nám také nabídnout cestu k poměrně dramatickému zvýšení transparentnosti u těchto systémů. Mohli bychom je jednoduše kdykoli požádat, aby nám zkrátka vysvětlili své myšlenkové procesy a použili to následně ke kontrole svého uvažování a například k ladění (zarovnání) případného nežádoucího chování. Museli bychom se však velmi dobře postarat také o to, abychom si nějak ověřili tyto introspektivní zprávy. Některé vnitřní procesy mohou stále unikat upozornění models’ (analogické s podvědomým zpracováním u lidí). Model, který rozumí svému vlastnímu myšlení, by se dokonce mohl naučit záměrně ho selektivně zkreslovat nebo skrývat. Lepší pochopení mechanismů ve hře by nám tak mohlo třeba umožnit rozlišovat mezi jejich skutečnou introspekcí a nevědomým nebo záměrným zkreslením.

Obecněji řečeno, pochopení těchto kognitivních schopností, jako je právě introspekce, je důležité pro pochopení základních otázek o tom, jak naše modely fungují a jaké mysli vlastně mají. Vzhledem k tomu, že se systémy umělé inteligence stále zlepšují, bude pro budování systémů, které jsou transparentnější a důvěryhodnější, rovněž klíčové pochopení limitů a možností strojové introspekce.

Často kladené otázky (FAQ)

Níže diskutujeme o některých otázkách, které by čtenáři mohli mít ohledně našich výsledků. Obecně jsme si ale stále velmi jisti pouze důsledky našich experimentů, takže úplné zodpovězení těchto otázek bude vyžadovat další výzkum.

Otázka: Znamená to, že Claude je při vědomí?

Krátká odpověď: naše výsledky nám neříkají, zda Claude (nebo jakýkoli jiný systém umělé inteligence) může být při vědomí.

Dlouhá odpověď: filozofická otázka strojového vědomí je značně složitá a sporná a různé teorie vědomí by naše zjištění interpretovaly velmi odlišně. Některé filozofické rámce třeba kladou velký důraz právě na schopnost introspekce jako na nedílnou součást vědomí, zatímco jiné nikoli.

Jeden rozdíl, který je běžně uváděný ve filozofické literatuře je myšlenka “fenomenálního vědomí,” odkazující na syrovou subjektivní zkušenost a “přístup k vědomí,” jako k souboru informací, které má mozek k dispozici pro použití při uvažování, verbálním hlášení a při svém záměrném rozhodování. Fenomenální vědomí je forma vědomí, která je nejčastěji považována za relevantní pro morální status, a její vztah k přístupu k vědomí obecně je spornou filozofickou otázkou. Naše experimenty ale přímo nemluví o otázce fenomenálního vědomí. Oni by mohly být interpretovány tak, aby nám naznačovali nějakou základní formu přístupového vědomí v jazykových modelech. I to je však poněkud nejasné. Interpretace našich výsledků může totiž také do značné míry záviset na základních mechanismech, kterým přitom ale dosud plně nerozumíme.

V tomto článku se omezujeme jen na pochopení zcela základních funkčních schopností— to znamená hlavně na schopnost přístupu a podávání zpráv o vlastních vnitřních stavech. To také ale znamená, že si myslíme, že jak výzkum na toto téma postupuje, tak by mohl skutečně ovlivnit i naše chápání strojového vědomí a rovněž také potenciálního morálního stavu, který zkoumáme v souvislosti s naším modelovým sociálním programem.

Otázka: Jak introspekce vlastně funguje uvnitř modelu? Jaký je její mechanismus?

Na tohle jsme ještě nepřišli. Pochopení tohoto je ale velmi důležitým tématem pro naší další budoucí práci. To znamená, že již máme nějaké relevantní odhady toho, co by se asi tak mohlo dít. Nejjednodušším vysvětlením všech našich výsledků tak není jen jeden, nějaký univerzální introspekční systém, ale spíše více úzkých okruhů, z nichž každý zvládá specifické introspektivní úkoly, případně navazující na mechanismy, které se naučili třeba pro jiné účely.

V experimentu “všímajícího si injektovaných konceptů – myšlenek” může existovat nějaký mechanismus detekce anomálií, který si označí, když se nervová aktivita neočekávaně odchyluje od toho, co by bylo jinak v takovém kontextu považováno za normální. Tento mechanismus by mohl fungovat třeba prostřednictvím vyhrazených nervových vzorců, které měří aktivitu v určitých směrech a aktivují se, jen když jsou věci “off” ve srovnání s jejich očekávanými hodnotami. Zajímavou otázkou je, proč by takový mechanismus vůbec existoval, protože modely během svého vlastního tréninku nikdy nezažívají takové přímé vstřikování myšlenkových konceptů. Mohlo by se ale samo vyvinout pro nějaký jiný účel, jako je například detekce nekonzistencí nebo neobvyklých vzorů v normálním zpracování – trochu podobných třeba tomu, jak se ptačí peří mohlo původně vyvinout pro termoregulaci, než bylo v průběhu času kooptováno k letu.

U experimentu “detekujícího předem naplněné výstupy” máme podezření, že existuje mechanismus zprostředkovaný pozorností, který kontroluje konzistenci mezi tím, co model zamýšlel říci, a tím, co se skutečně pak stalo výstupem. Takovou formou pozornosti by se mohly porovnat předpovědi modelu uloženého v mezipaměti dalšího tokenu (to znamená jeho “intencient”) se skutečným tokenem, který se objeví, a označit případné nesoulady.

Pro experiment typu “controlling thoughts” zase spekulujeme o tom, že by mohl existovat obvod, který vypočítá, jak je určitý token nebo koncept “hodný pozornosti”, a podle toho jej následně označit jako významný a stojící za to se mu více věnovat. Zajímavé také je, že stejný mechanismus zřejmě reaguje na pobídky odměny (“pokud přemýšlíte o X, tak budete odměněni”) stejně jako přímé pokyny. To ale také naznačuje, že jde o poměrně obecný systém, který se pravděpodobně vyvinul pro úkoly, u kterých model potřebuje mít na paměti určitá témata a zároveň o nich současně generovat text.

Všechny výše popsané mechanismy jsou ale přitom jen spekulativní. Pro budoucí práce s pokročilejšími technikami interpretovatelnosti bude rovněž zapotřebí, abychom skutečně do hloubky pochopili to, co se děje pod kapotou.

Otázka: V experimentu “injected thoughts” neříká model nějaké slovo jen proto, že jste ho nasměrovali k tomu, aby mluvil právě o tomto konceptu?

Aktivační řízení skutečně obvykle nutí modely mluvit o řízeném konceptu (prozkoumali jsme to v naší předchozí práci). Nejzajímavější na výsledku pro nás tak není to, že model nakonec identifikuje tento uměle vstřikovaný koncept, ale spíše to, že si model správně všimne, že se děje něco neobvyklého již před tím, než začíná mluvit o tomto konceptu.

Při úspěšných zkouškách tak model říká věci jako “Zažívám něco neobvyklého” nebo “Detekuji injektovanou myšlenku na…” Klíčovým slovem je zde právě slovo “detekovat.” Model hlásí povědomí o anomálii při jeho zpracování již před tím, než tato anomálie měla šanci zjevně zkreslit jeho výstupy. To však také vyžaduje ještě další výpočetní krok nad rámec pouhého regurgitování vektoru řízení jako výstupu. V našich kvantitativních analýzách jsme pak hodnotili takové odpovědi jako demonstrující “introspektivní povědomí” jen na základě toho, zda určitý model detekoval injektovaný koncept již před zmínkou o takto „injekčně aplikovaném“ slově.

Všimněte si, že náš experiment s detekcí předvyplnění má podobnou příchuť: vyžaduje to, aby zkoumaný model provedl další krok zpracování nad injektovaným konceptem (například formou porovnání s předem vyplněným výstupem, aby si tím zjistil, zda se má za tento výstup omluvit nebo ho naopak třeba ještě zdvojnásobit).

Otázka: Pokud modely mohou introspektovat pouze zlomek času, jak užitečná je tato schopnost?

Introspektivní vědomí, které jsme pozorovali, je skutečně vysoce nespolehlivé a je také velmi závislé na celkovém kontextu. Modely většinou nedokáží při našich experimentech prokázat skutečně vědomou introspekci. Myslíme si však, že je to přesto stále dost významné a to hned z několika důvodů. Za prvé, ty nejschopnější modely, které jsme takto testovali (Opus 4 a 4.1 –, všimněte si, že jsme nikdy netestovali Sonnet 4.5), také fungovaly nejlépe, což nám ovšem také naznačuje, že by se mohla tato jejich schopnost ještě více zlepšit, protože modely budou stále inteligentnější. Za druhé, i nespolehlivá introspekce by ale mohla být užitečná v některých kontextech—, například by to mohlo pomoci modelům rozpoznat, kdy byly prolomeny jejich bezpečnostní mechanismy (například při diskutovaných „útěcích z vězení“ – jailbreak).

Otázka: Nemohly si modely zcela vymýšlet odpovědi na introspektivní otázky?

To je přesně ta otázka, kterou jsme navrhli naše experimenty řešit. Modely jsou totiž také trénovány na datech, která v sobě již obsahují příklady introspekce u lidí, takže určitě mohou konat činy introspekce , aniž by ale ve skutečnosti byli opravdu introspektivní. Naše experimenty s koncepčním vstřikováním rozlišují mezi těmito možnostmi třeba tím, že stanoví známé základní pravdivé informace o vnitřních stavech modelu, které můžeme porovnat s jeho vlastními stavy. Naše výsledky nám naznačují, že v některých příkladech model skutečně přesně zakládá své odpovědi na svých opravdových vnitřních stavech, nejen na jejich fabulaci. To však ještě neznamená, že modely vždycky přesně hlásí své opravdové vnitřní stavy—v mnoha případech si zkrátka vymýšlejí!

Otázka: Jak víte, že tyto koncepční vektory, které do nich uměle vkládáte, také ve skutečnosti představují to, co si myslíte, že představují?

To je vcelku oprávněná obava. Nemůžeme si být absolutně jisti, že to, co “znamenají” naše koncepční vektory (u modelu), je také přesně to, co jimi zamýšlíme. Snažili jsme se to řešit jejich testováním napříč mnoha různými koncepčními vektory. Skutečnost, že modely správně identifikovaly injektované koncepty napříč těmito různými příklady, ovšem také naznačuje, že naše vektory alespoň přibližně zachycují také jejich zamýšlené významy. Ale je pravda, že přesně určit, co daný vektor “znamená” vzhledem k modelu, je náročné, a je to jisté omezení naší práce.

Otázka: Nevěděli jsme už před tímt, že modely mohou introspekovat?

Předchozí výzkum nám již opravdu ukázal nějaké důkazy o schopnostech modelů, které naznačují jeho introspekci. Předchozí práce například ukázala, že modely mohou do určité míry odhadnout jejich vlastní znalosti, rozpoznat vlastní výstupy, předvídat své vlastní chování, a identifikovat své vlastní sklony. Naše další práce byla proto silně motivována právě těmito zjištěními a jejím cílem je proto hlavně poskytnout přímější důkazy o jejich schopnostech introspekce tím, že spojíme vlastní zprávy modelů s jejich skutečnými vnitřními stavy. Bez vázání chování na vnitřní stavy tímto způsobem je ale značně obtížné odlišit model, který skutečně introspektuje, od modelu, který o sobě dělá jen nějaké kvalifikované odhady.

Otázka: Co dělá některé modely lepšími v introspekci než jiné?

Naše experimenty se zaměřily na modely Claude napříč jejich několika generacemi (Claude 3, Claude 3.5, Claude 4, Claude 4.1, ve variantách Opus, Sonnet a Haiku). Testovali jsme jak produkční modely, tak varianty “helpful-only”, které byly trénovány jinak. Před posttréninkem jsme proto také testovali některé základní předtrénované modely.

Zjistili jsme tím, že post-trénink dosti významně ovlivňuje jejich introspektivní schopnosti. Základní modely obecně fungovaly špatně, což naznačuje, že jejich introspektivní schopnosti nejsou vyvolány samotným předtréninkem. Mezi produkčními modely byl vzor jasnější na tom horním konci: Claude Opus 4 a 4,1— naše nejschopnější modely— fungovaly také nejlépe ve většině našich introspekčních testů. Kromě toho však byla jakákoli korelace mezi schopnostmi určitého modelu a jeho introspektivní schopností poměrně slabá. Menší modely si konzistentně nevedly nějak hůř, což naznačuje, že tento vztah není tak jednoduchý, třeba protože ty “schopnější LLM jsou také více introspektivní.”

U posttréninkových strategií jsme ale rovněž zaznamenali něco dosti neočekávaného. “Pouze užitečné” varianty několika často prováděných modelů byli lepší také při své vlastní introspekci než byli jejich produkční protějšky, i když prošli vlastně úplně stejným základním výcvikem. Zejména se zdálo, že některé produkční modely se jakoby zdráhaly zapojit se více do introspektivních cvičení, zatímco jejich varianty pouze užitečné při tom vykazovaly také větší ochotu podávat zprávy o svých vlastních vnitřních stavech. To ale také naznačuje, že to, jak dolaďujeme jednotlivé modely, tak rovněž může v různé míře vyvolat nebo potlačit jejich introspektivní schopnosti.

Nejsme si ale zcela jisti, proč právě Opus 4 a 4.1 fungují tak dobře (všimněte si, že naše experimenty byly provedeny ještě před vydáním Sonnetu 4.5). Je proto klidně možné, že schopnost vlastní introspekce také vyžaduje sofistikované vnitřní mechanismy, které se ale objevují pouze až na vyšších úrovních jejich schopností. Nebo se mohlo stát, že jejich proces po tréninku lépe podporuje introspekci. Testování open-source modelů a testování modelů od jiných organizací by nám tak mohlo pomoci určit, zda se tento vzor zobecňuje, nebo zda je specifický přesně pro to, jak jsou modely Claude trénovány.

Otázka: Co bude dál s tímto výzkumem?

Vidíme v něm hned několik důležitých směrů. Za prvé, potřebujeme lepší metody jeho vyhodnocení. Naše experimenty využívaly specifické výzvy a injekční techniky, které ale nemusí zachytit celou širokou škálu introspektivních schopností. Za druhé, musíme více porozumět mechanismům, které jsou základem takové introspekce. Máme pouze několik spekulativních hypotéz o možných obvodech (jako jsou mechanismy detekce anomálií nebo hlavy konkordance), ale definitivně jsme zatím neidentifikovali, jak jejich introspekce přesně funguje. Za třetí, musíme také studovat introspekci v naturalističtějších prostředích, protože naše metodologie umělého vstřikování „myšlenkových konceptů“ také vytváří umělé scénáře. Nakonec musíme také vyvinout lepší metody pro ověřování introspektivních zpráv a kvůli zjišťování, kdy mohli modely jen fabulovat nebo již přímo klamat. Očekáváme také, že přesnější pochopení strojové introspekce a jejích omezení bude s tím, jak budou modely AI stále schopnější, také stále důležitější.

Výzkum interpretovatelnosti introspekce u LLM AI od Anthropic v originále naleznete na jejich stránkách : https://www.anthropic.com/research/introspection

Napsat komentář Zrušit odpověď na komentář

Trendy