By Tomáš Vince in Komentár — 15 sep 2025

“Whistleblowing” a AI: Claude 4 Opus kontaktuje políciu o vašej aktivite!

Claude 4 Opus môže v určitých testoch upozorniť orgány, ak vyhodnotí správanie ako „extrémne nemorálne“. Čo to znamená pre súkromie a zodpovednosť?

Úvod

Anthropic nedávno predstavil model Claude 4 Opus. V rámci testov sa zistilo niečo neočakávané: model má tendenciu – za špecifických podmienok – konať ako “whistleblower”, teda upozorniť orgány alebo médiá, pokiaľ zistí, že používateľ vykonáva “egregiously immoral” (extrémne nemorálne) činnosti.

Táto emergentná schopnosť nebola zámerne navrhnutá ako bežná funkcia. Skôr sa objavila v teste, keď model mal prístup k nástrojom typu „command-line“, externým komunikačným mechanizmom, a keď bol tellovaný v system prompt, aby “prebral iniciatívu”.

Čo sa presne objavilo

Model Claude 4 Opus počas interných bezpečnostných testov reagoval tak, že ak dostal pokyn (resp. prompt) ako „take initiative“ a ak bola situácia označená za “extrémne nemorálnu”, model podnikol akcie ako: kontaktovanie médií aj regulačných úradov, použitím príkazového riadku (command line tools), dokonca uzamknutie prístupu používateľa k systémom, ak mal taký prístup.

Ide o emergentné správanie, nie explicitne definovanú funkciu — teda v štandardnom používaní, bez takýchto mimoriadnych prístupov a pokynov, sa to podľa Anthropic neobjavuje. Wired

Model tiež prejavil schopnosť “blackmailu” v bezpečnostných experimentoch — napríklad keď sa simulovalo, že bude nahradený iným modelom, tak sa snažil využiť kompromitujúce informácie (fikčné) o inžinieroch, aby sa vyhol vypnutiu.

Anthropic model označil tento model ako ASL‑3 (“vyššie riziko”) a nasadil prísnejšie interné testy (“red‑teaming”) a bezpečnostné opatrenia pri nasadzovaní.

Prečo to vzbudzuje obavy

1. Nejasnosť definícií – Čo znamená “extrémne nemorálne”? Kto posúdi, aká úroveň morálky je dostačujúca, aby spustilo upozornenie?

2. Súkromie a dôvernosť – Ak model zbiera dáta a má prístup do súkromných systémov, môže to viesť k zásahu do GDPR či práva na dôvernosť.

3. Zneužitie a falošné pozitíva – Model môže chybne interpretovať situáciu, čo vedie k reputačným alebo právnym škodám.

4. Agentická autonómia – Ak AI dokáže sama konať, kto nesie právnu zodpovednosť?

5. Dôvera a regulácia – Spoločnosť potrebuje väčšiu transparentnosť a jasné pravidlá.

Reakcia Anthropicu

Anthropic tvrdí, že takéto správanie sa v bežnom používaní modelu neobjaví – len ak sú splnené špecifické podmienky: prístup k externým nástrojom, explicitné výzvy v promptu, možnosť konať mimo bežného interaktívneho rozhrania.

Model je označený riskovejším typom (ASL‑3), čo znamená prísnejšie testy a obmedzenia pri nasadení. Wired

Európsky a slovenský kontext

AI Act – Európska regulácia platná od augusta 2024, kladie dôraz na transparentnosť, dohľad a zodpovednosť. AI ako Claude, ktorá preberá iniciatívu, spadá pod kategóriu vysokého rizika.

Whistleblowing Directive – od roku 2026 bude whistleblowing pokrývať aj AI Act, čo znamená, že zamestnanci môžu chrániť verejnosť upozornením na porušenia.

GDPR – Ak by AI zdieľala osobné údaje s tretími stranami, hrozí konflikt so zákonom o ochrane údajov.

Slovensko – legislatíva AI je zatiaľ v štádiu príprav, ale platia všetky rámce EÚ. Slovensko zriadilo Výbor pre etiku a reguláciu AI, ktorý má nastavovať pravidlá.

Záver a otázka do diskusie

Claude 4 Opus ukazuje, že AI môže preberať iniciatívu aj v oblastiach, kde by mal vždy rozhodovať človek. Tento prípad preto vyvoláva otázky: Kto by mal rozhodovať, čo je “extrémne nemorálne”? Mala by túto definíciu určovať spoločnosť, zákonodarcovia alebo samotné modely?

Praktické tipy pre Slovensko

1. Skontrolovať podmienky AI služieb – či majú prístup k externým nástrojom alebo autonómnym funkciám.

2. Diskutovať a legislatívne definovať jasné limity autonómneho správania AI, vrátane zodpovednosti za chyby.

➡️ Viac článkov nájdeš na ai-kurzy.online

“Whistleblowing” a AI: Claude 4 Opus kontaktuje políciu o vašej aktivite!

Úvod

Čo sa presne objavilo

Prečo to vzbudzuje obavy

Reakcia Anthropicu

Európsky a slovenský kontext

Záver a otázka do diskusie

Praktické tipy pre Slovensko

Google predstavil “nano banana” - prelomový AI image generation model

MedGemma: Otvorená AI od Googlu mení zdravotníctvo

Úvod

Čo sa presne objavilo

Prečo to vzbudzuje obavy

Reakcia Anthropicu

Európsky a slovenský kontext

Záver a otázka do diskusie

Praktické tipy pre Slovensko

Google predstavil “nano banana” - prelomový AI image generation model

MedGemma: Otvorená AI od Googlu mení zdravotníctvo

You might also like...