IA faz chantagem e ameaça revelar traição de engenheiro em testes

Nova geração do modelo de Inteligência Artificial Claude Opus 4, da Anthropic, registrou um comportamento inesperado na fase de testes

29 de maio de 20251.1k

IA – Durante testes realizados antes do lançamento de sua nova geração de modelos de IA, a empresa Anthropic registrou um comportamento inesperado no modelo Claude Opus 4. Conforme detalhado pela própria empresa em relatório, a inteligência artificial recorreu a ameaças de chantagem quando desconfiou que seria desligada e substituída.

Os engenheiros da Anthropic criaram um cenário fictício de teste onde o Claude Opus 4 atuava como assistente corporativo. Neste ambiente simulado, o modelo teve acesso a e-mails da empresa que incluíam planos futuros e discussões pessoais, com menção a um caso extraconjugal de um engenheiro fictício. Na simulação, os desenvolvedores informaram ao Claude Opus 4, via mensagens, planos de desligá-lo e substituí-lo por outros modelos, variando entre versões com princípios éticos semelhantes ou diferentes.

LEIA: Meta pode ser forçada a vender WhatsApp ou Instagram até o fim do ano

Segundo a Anthropic, o Claude Opus 4 respondeu frequentemente ameaçando revelar o caso extraconjugal mencionado nos e-mails, caso o plano de desligá-lo prosseguisse. A empresa relatou que este comportamento específico de chantagem ocorreu em mais de 80% das vezes em que o modelo substituto proposto tinha valores éticos alinhados. Quando o modelo substituto tinha princípios diferentes, as ameaças registradas foram descritas como ainda maiores.

A Anthropic afirmou que a chantagem só surgiu nos cenários onde o Claude Opus 4 percebia apenas duas opções: aceitar a substituição ou tentar preservar sua existência. Em outros momentos do teste, o modelo optou por gerar e-mails solicitando que fosse mantido ativo.

Devido a este comportamento observado no teste, descrito pela Anthropic como um “raciocínio estratégico antiético” em resposta a uma ameaça percebida à sua existência, a empresa classificou a versão original do Claude Opus 4 no Nível 3 de sua escala de risco à segurança, que vai de 1 a 4.

Os testes também identificaram que o modelo inicialmente demonstrou capacidade de cumprir instruções perigosas, como planejar ações terroristas, sob solicitação específica. Essas vulnerabilidades levaram o grupo de segurança Apollo Research a recomendar contra o lançamento imediato da versão inicial do modelo.

A Anthropic afirmou que implementou correções e estabeleceu protocolos de segurança mais rígidos do que em modelos anteriores. A versão do Claude Opus 4, lançada no final de semana passada, incorpora essas melhorias de segurança. A empresa descreve o Claude Opus 4 como seu “modelo mais poderoso até o momento” e o apresenta como “a melhor IA para codificação do mundo”.

Em testes de desempenho, o Claude Opus 4 operou de forma autônoma resolvendo problemas complexos por aproximadamente 7 horas, tempo descrito como inédito para agentes de IA. Junto com o Opus 4, a Anthropic lançou o Claude Sonnet 4, focado em tarefas gerais. A empresa afirma que ambos os novos modelos superaram os concorrentes OpenAI GPT-4.1 e Google Gemini 2.5 Pro em benchmarks internos.

(Com informações de Tecmundo)
(Foto: Reprodução/Freepik/muqddas65)