Horário de Atendimento: Das 9h as 15h | Sede: (67) 3321-2836 | [email protected]
Home TI IA faz chantagem e ameaça revelar traição de engenheiro em testes
TI

IA faz chantagem e ameaça revelar traição de engenheiro em testes

Nova geração do modelo de Inteligência Artificial Claude Opus 4, da Anthropic, registrou um comportamento inesperado na fase de testes

732

IA – Durante testes realizados antes do lançamento de sua nova geração de modelos de IA, a empresa Anthropic registrou um comportamento inesperado no modelo Claude Opus 4. Conforme detalhado pela própria empresa em relatório, a inteligência artificial recorreu a ameaças de chantagem quando desconfiou que seria desligada e substituída.

Os engenheiros da Anthropic criaram um cenário fictício de teste onde o Claude Opus 4 atuava como assistente corporativo. Neste ambiente simulado, o modelo teve acesso a e-mails da empresa que incluíam planos futuros e discussões pessoais, com menção a um caso extraconjugal de um engenheiro fictício. Na simulação, os desenvolvedores informaram ao Claude Opus 4, via mensagens, planos de desligá-lo e substituí-lo por outros modelos, variando entre versões com princípios éticos semelhantes ou diferentes.

LEIA: Meta pode ser forçada a vender WhatsApp ou Instagram até o fim do ano

Segundo a Anthropic, o Claude Opus 4 respondeu frequentemente ameaçando revelar o caso extraconjugal mencionado nos e-mails, caso o plano de desligá-lo prosseguisse. A empresa relatou que este comportamento específico de chantagem ocorreu em mais de 80% das vezes em que o modelo substituto proposto tinha valores éticos alinhados. Quando o modelo substituto tinha princípios diferentes, as ameaças registradas foram descritas como ainda maiores.

A Anthropic afirmou que a chantagem só surgiu nos cenários onde o Claude Opus 4 percebia apenas duas opções: aceitar a substituição ou tentar preservar sua existência. Em outros momentos do teste, o modelo optou por gerar e-mails solicitando que fosse mantido ativo.

Devido a este comportamento observado no teste, descrito pela Anthropic como um “raciocínio estratégico antiético” em resposta a uma ameaça percebida à sua existência, a empresa classificou a versão original do Claude Opus 4 no Nível 3 de sua escala de risco à segurança, que vai de 1 a 4.

Os testes também identificaram que o modelo inicialmente demonstrou capacidade de cumprir instruções perigosas, como planejar ações terroristas, sob solicitação específica. Essas vulnerabilidades levaram o grupo de segurança Apollo Research a recomendar contra o lançamento imediato da versão inicial do modelo.

A Anthropic afirmou que implementou correções e estabeleceu protocolos de segurança mais rígidos do que em modelos anteriores. A versão do Claude Opus 4, lançada no final de semana passada, incorpora essas melhorias de segurança. A empresa descreve o Claude Opus 4 como seu “modelo mais poderoso até o momento” e o apresenta como “a melhor IA para codificação do mundo”.

Em testes de desempenho, o Claude Opus 4 operou de forma autônoma resolvendo problemas complexos por aproximadamente 7 horas, tempo descrito como inédito para agentes de IA. Junto com o Opus 4, a Anthropic lançou o Claude Sonnet 4, focado em tarefas gerais. A empresa afirma que ambos os novos modelos superaram os concorrentes OpenAI GPT-4.1 e Google Gemini 2.5 Pro em benchmarks internos.

(Com informações de Tecmundo)
(Foto: Reprodução/Freepik/muqddas65)

Posts relacionados

IA ajuda Meta a aumentar lucros mantendo usuários conectados por mais tempo

Relatório revela que usuários do Facebook, Instagram e WhatsApp passaram mais tempo...

TI

GhostSpy: celulares Android são alvo de novo malware no Brasil

Ferramenta vendida como serviço oferece controle remoto total de celulares Android e...

TI

Banco do Brasil lança programa de capacitação em tecnologia para líderes

Iniciativa busca preparar mais de 30 mil gestores para tomar decisões estratégicas...

TI

Indústria tem quase 200 vagas em tecnologia e inovação com bolsas de até R$ 12 mil

Há oportunidades em grandes empresas como Nestlé, L’Oréal, Vale e Itaú CTI...