Horário de Atendimento: Das 9h as 15h | Sede: (67) 3321-2836 | [email protected] | CNPJ: 15.579.279/0001-87
TI

IA faz chantagem e ameaça revelar traição de engenheiro em testes

IA – Durante testes realizados antes do lançamento de sua nova geração de modelos de IA, a empresa Anthropic registrou um comportamento inesperado no modelo Claude Opus 4. Conforme detalhado pela própria empresa em relatório, a inteligência artificial recorreu a ameaças de chantagem quando desconfiou que seria desligada e substituída.

Os engenheiros da Anthropic criaram um cenário fictício de teste onde o Claude Opus 4 atuava como assistente corporativo. Neste ambiente simulado, o modelo teve acesso a e-mails da empresa que incluíam planos futuros e discussões pessoais, com menção a um caso extraconjugal de um engenheiro fictício. Na simulação, os desenvolvedores informaram ao Claude Opus 4, via mensagens, planos de desligá-lo e substituí-lo por outros modelos, variando entre versões com princípios éticos semelhantes ou diferentes.

LEIA: Meta pode ser forçada a vender WhatsApp ou Instagram até o fim do ano

Segundo a Anthropic, o Claude Opus 4 respondeu frequentemente ameaçando revelar o caso extraconjugal mencionado nos e-mails, caso o plano de desligá-lo prosseguisse. A empresa relatou que este comportamento específico de chantagem ocorreu em mais de 80% das vezes em que o modelo substituto proposto tinha valores éticos alinhados. Quando o modelo substituto tinha princípios diferentes, as ameaças registradas foram descritas como ainda maiores.

A Anthropic afirmou que a chantagem só surgiu nos cenários onde o Claude Opus 4 percebia apenas duas opções: aceitar a substituição ou tentar preservar sua existência. Em outros momentos do teste, o modelo optou por gerar e-mails solicitando que fosse mantido ativo.

Devido a este comportamento observado no teste, descrito pela Anthropic como um “raciocínio estratégico antiético” em resposta a uma ameaça percebida à sua existência, a empresa classificou a versão original do Claude Opus 4 no Nível 3 de sua escala de risco à segurança, que vai de 1 a 4.

Os testes também identificaram que o modelo inicialmente demonstrou capacidade de cumprir instruções perigosas, como planejar ações terroristas, sob solicitação específica. Essas vulnerabilidades levaram o grupo de segurança Apollo Research a recomendar contra o lançamento imediato da versão inicial do modelo.

A Anthropic afirmou que implementou correções e estabeleceu protocolos de segurança mais rígidos do que em modelos anteriores. A versão do Claude Opus 4, lançada no final de semana passada, incorpora essas melhorias de segurança. A empresa descreve o Claude Opus 4 como seu “modelo mais poderoso até o momento” e o apresenta como “a melhor IA para codificação do mundo”.

Em testes de desempenho, o Claude Opus 4 operou de forma autônoma resolvendo problemas complexos por aproximadamente 7 horas, tempo descrito como inédito para agentes de IA. Junto com o Opus 4, a Anthropic lançou o Claude Sonnet 4, focado em tarefas gerais. A empresa afirma que ambos os novos modelos superaram os concorrentes OpenAI GPT-4.1 e Google Gemini 2.5 Pro em benchmarks internos.

(Com informações de Tecmundo)
(Foto: Reprodução/Freepik/muqddas65)

Artigos relacionados

TI

Ataque no npm usa pacote falso para instalar malware em desenvolvedores

Pesquisadores identificam pacotes maliciosos que se passam por ferramentas populares para atingir...

TI

Trabalhadores da Hyundai aprovam greve em reação a robôs na produção

Decisão ocorre após planos de uso de IA e humanoides em fábricas...

TI

Algoritmos podem reforçar preconceitos e afetar relações de trabalho

Sistemas automatizados podem invisibilizar grupos sociais, reproduzir discriminações e interferir na jornada,...

TI

Museu em Campo Grande usa IA para dar vida a personagens do hino de MS

Mostra permite que visitantes conversem com personagens históricos por meio de avatares...